このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200816となっている論文です。

PDF登録状況(公開日: 20200816)

TitleAuthorsAbstract論文公表日・翻訳日
# リニアマルチステップ法によるダイナミクスの発見

Discovery of Dynamics Using Linear Multistep Methods ( http://arxiv.org/abs/1912.12728v3 )

ライセンス: Link先を確認
Rachael Keller and Qiang Du(参考訳) 線形多段階法(LMM)は微分方程式の数値解の時間差分法として一般的な手法である。 従来はダイナミクス(前方問題)が与えられた状態の解法として用いられてきたが、ここでは状態(逆問題)が与えられた状態のダイナミクスを学ぶための応用を考える。 このLMMの再調達は、データ駆動型動的モデリングへの関心の高まりによって大きく動機づけられるが、発見のためのLMMの挙動と分析は、前向き問題に対するよく知られた既存の理論とは大きく異なることが判明した。 離散力学のゼロ残差の正確な状態を与えるという高度に理想化された設定を仮定すると、我々は発見のためにLMMを用いて収束を得るための一貫性と安定性の洗練された概念に基づく厳密な枠組みを初めて確立する。 これらの概念を3つの一般的な$M-$step LMM、Adams-Bashforth、Adams-Moulton、Backwards Differentiation Formulas に適用する場合、新しい理論は、Adams-Bashforth for $M$は$$$から$$$まで、Adams-Moulton for $M=0$と$M=1$は$ Adams-Moulton for $M=0$と$M=1$、Backwards Differentiation Formula for all positive $M$は収束しない。 さらに,理論解析の動機付けと実証のための数値実験を行った。

Linear multistep methods (LMMs) are popular time discretization techniques for the numerical solution of differential equations. Traditionally they are applied to solve for the state given the dynamics (the forward problem), but here we consider their application for learning the dynamics given the state (the inverse problem). This repurposing of LMMs is largely motivated by growing interest in data-driven modeling of dynamics, but the behavior and analysis of LMMs for discovery turn out to be significantly different from the well-known, existing theory for the forward problem. Assuming a highly idealized setting of being given the exact state with a zero residual of the discrete dynamics, we establish for the first time a rigorous framework based on refined notions of consistency and stability to yield convergence using LMMs for discovery. When applying these concepts to three popular $M-$step LMMs, the Adams-Bashforth, Adams-Moulton, and Backwards Differentiation Formula schemes, the new theory suggests that Adams-Bashforth for $M$ ranging from $1$ and $6$, Adams-Moulton for $M=0$ and $M=1$, and Backwards Differentiation Formula for all positive $M$ are convergent, and, otherwise, the methods are not convergent in general. In addition, we provide numerical experiments to both motivate and substantiate our theoretical analysis.
翻訳日:2023-01-17 08:21:48 公開日:2020-08-16
# h$-bnにおけるv$_{\rm n}$n$_{\rm b}$色中心の蛍光スペクトルの歪による巨大シフト

Giant shift upon strain on the fluorescence spectrum of V$_{\rm N}$N$_{\rm B}$ color centers in $h$-BN ( http://arxiv.org/abs/2001.02749v2 )

ライセンス: Link先を確認
Song Li, Jyh-Pin Chou, Alice Hu, Martin B. Plenio, P\'eter Udvarhelyi, Gerg\H{o} Thiering, Mehdi Abdi, and Adam Gali(参考訳) 本研究では, 六方晶窒化ホウ素(h$-BN)の窒素系アンチサイト空孔対の物性に及ぼすひずみの影響について検討した。 グループ理論とab-initio分析により、強い電子-フォノンカップリングがこの色中心の光活性化において重要な役割を果たすことが示されている。 窒素系抗菌剤対欠陥のゼロフォノンライン (ZPL) 放出に対する大きな変化は, 典型的な$h$-BNサンプルのひずみを施すことによって生じる。 この結果は、同様の光学特性を持つ量子エミッタの実験的観察と、広く散乱したZPL波長と、ZPLのひずみ依存性に関する実験的な説明を提供する。

We study the effect of strain on the physical properties of the nitrogen antisite-vacancy pair in hexagonal boron nitride ($h$-BN), a color center that may be employed as a quantum bit in a two-dimensional material. With group theory and ab-initio analysis we show that strong electron-phonon coupling plays a key role in the optical activation of this color center. We find a giant shift on the zero-phonon-line (ZPL) emission of the nitrogen antisite-vacancy pair defect upon applying strain that is typical of $h$-BN samples. Our results provide a plausible explanation for the experimental observation of quantum emitters with similar optical properties but widely scattered ZPL wavelengths and the experimentally observed dependence of the ZPL on the strain.
翻訳日:2023-01-13 13:13:53 公開日:2020-08-16
# 畳み込みニューラルネットワークを用いたオランダ絵画の分析

Analysis of Dutch Master Paintings with Convolutional Neural Networks ( http://arxiv.org/abs/2002.05107v3 )

ライセンス: Link先を確認
Steven J. Frank and Andrea M. Frank(参考訳) 研究中のアーティストの作品と、他のアーティストの視覚的に匹敵する作品に基づいて訓練された畳み込みニューラルネットワークは、偽造を識別し、属性を提供する。 また、絵画内の分類確率を割り当てたり、著者の混成や、異なる手で描かれた地域を特定することもできる。

Trained on the works of an artist under study and visually comparable works of other artists, convolutional neural networks can identify forgeries and provide attributions. They can also assign classification probabilities within a painting, revealing mixed authorship and identifying regions painted by different hands.
翻訳日:2023-01-01 20:12:58 公開日:2020-08-16
# ガウス過程後部からの関数の効率的なサンプリング

Efficiently Sampling Functions from Gaussian Process Posteriors ( http://arxiv.org/abs/2002.09309v4 )

ライセンス: Link先を確認
James T. Wilson and Viacheslav Borovitskiy and Alexander Terenin and Peter Mostowsky and Marc Peter Deisenroth(参考訳) ガウス過程は、多くの実世界のモデリング問題、特にモデルの成功が予測の不確かさを忠実に表現できる能力にかかっている場合の金の標準である。 これらの問題は典型的にはより大きなフレームワークの一部として存在し、後続分布の統合によって最終的に多くの関心が定義される。 これらの量はしばしば難解であり、モンテカルロ法の使用を動機付けている。 ガウス過程を大規模なトレーニングセットにスケールアップする作業はかなり進展したものの、後方分布からの引き分けを精度良く生成する手法は、テスト場所の数において依然として立方的にスケールしている。 データから先行処理を分離することで,スケーラブルなサンプリングに自然に寄与するガウス過程の分解を同定する。 この因子化を生かして、高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。これは、訓練時と試験時の両方でスケーラビリティを確保するために、スパース近似とシームレスにペアリングする。 競合するサンプリングスキームの統計的性質と実用的分岐をテストするために設計された一連の実験において、サンプルパスの分離がガウス過程の後方を通常のコストのほんの一部で正確に表現していることを示す。

Gaussian processes are the gold standard for many real-world modeling problems, especially in cases where a model's success hinges upon its ability to faithfully represent predictive uncertainty. These problems typically exist as parts of larger frameworks, wherein quantities of interest are ultimately defined by integrating over posterior distributions. These quantities are frequently intractable, motivating the use of Monte Carlo methods. Despite substantial progress in scaling up Gaussian processes to large training sets, methods for accurately generating draws from their posterior distributions still scale cubically in the number of test locations. We identify a decomposition of Gaussian processes that naturally lends itself to scalable sampling by separating out the prior from the data. Building off of this factorization, we propose an easy-to-use and general-purpose approach for fast posterior sampling, which seamlessly pairs with sparse approximations to afford scalability both during training and at test time. In a series of experiments designed to test competing sampling schemes' statistical properties and practical ramifications, we demonstrate how decoupled sample paths accurately represent Gaussian process posteriors at a fraction of the usual cost.
翻訳日:2022-12-30 01:12:29 公開日:2020-08-16
# University-1652: ドローンによるジオローカライゼーションのためのマルチビューマルチソースベンチマーク

University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization ( http://arxiv.org/abs/2002.12186v2 )

ライセンス: Link先を確認
Zhedong Zheng and Yunchao Wei and Yi Yang(参考訳) クロスビューなジオローカライゼーションの問題を考える。 このタスクの主な課題は、大きな視点の変化に対して堅牢な機能を学ぶことです。 既存のベンチマークは役に立つが、視点の数には制限がある。 衛星と地上の2つの視点を含む画像ペアは通常提供され、特徴学習を損なう可能性がある。 この論文では、携帯電話のカメラや衛星のほかに、ドローンが地理的ローカライズ問題に対処するための第3のプラットフォームになり得ると論じている。 従来の地上ビュー画像とは対照的に、ドローンビュー画像は、木などの障害物が少ないため、ターゲットの場所を飛ぶときの全体像を提供することができる。 ドローンプラットフォームの有効性を検証するため,ドローンを用いたジオローカライゼーションのためのマルチビューマルチソースベンチマーク「University-1652」を導入する。 university-1652には3つのプラットフォーム、すなわち世界中の1,652の大学の建物の合成ドローン、衛星、地上カメラのデータが含まれている。 我々の知る限り、University-1652はドローンベースのジオローカライゼーションデータセットであり、ドローンビューターゲットローカライゼーションとドローンナビゲーションという2つの新しいタスクを可能にする。 名前が示すように、ドローンビューターゲットローカライズとは、ドローンビューイメージを通じてターゲットの場所を予測することだ。 一方、衛星ビューの問い合わせ画像があると、ドローンのナビゲーションは、クエリに興味のある領域にドローンを誘導する。 このデータセットを使用して、さまざまな既成のCNN機能を分析し、この挑戦的なデータセットに対して強力なCNNベースラインを提案する。 実験の結果,University-1652は視点不変の特徴の学習を支援し,実世界のシナリオにおいて優れた一般化能力を有することが示された。

We consider the problem of cross-view geo-localization. The primary challenge of this task is to learn the robust feature against large viewpoint changes. Existing benchmarks can help, but are limited in the number of viewpoints. Image pairs, containing two viewpoints, e.g., satellite and ground, are usually provided, which may compromise the feature learning. Besides phone cameras and satellites, in this paper, we argue that drones could serve as the third platform to deal with the geo-localization problem. In contrast to the traditional ground-view images, drone-view images meet fewer obstacles, e.g., trees, and could provide a comprehensive view when flying around the target place. To verify the effectiveness of the drone platform, we introduce a new multi-view multi-source benchmark for drone-based geo-localization, named University-1652. University-1652 contains data from three platforms, i.e., synthetic drones, satellites and ground cameras of 1,652 university buildings around the world. To our knowledge, University-1652 is the first drone-based geo-localization dataset and enables two new tasks, i.e., drone-view target localization and drone navigation. As the name implies, drone-view target localization intends to predict the location of the target place via drone-view images. On the other hand, given a satellite-view query image, drone navigation is to drive the drone to the area of interest in the query. We use this dataset to analyze a variety of off-the-shelf CNN features and propose a strong CNN baseline on this challenging dataset. The experiments show that University-1652 helps the model to learn the viewpoint-invariant features and also has good generalization ability in the real-world scenario.
翻訳日:2022-12-28 09:00:42 公開日:2020-08-16
# 自律走行における終端速度推定

End-to-End Velocity Estimation For Autonomous Racing ( http://arxiv.org/abs/2003.06917v2 )

ライセンス: Link先を確認
Sirish Srinivasan, Inkyu Sa, Alex Zyner, Victor Reijgwart, Miguel I. Valls and Roland Siegwart(参考訳) 速度推定はドライバーレス車では中心的な役割を果たすが、標準的な手頃な方法では、サイドフリップが高いため、攻撃的な操作のような極端なシナリオに対処するのは難しい。 これを解決するために、自動運転車は通常高価な外部速度センサーを備えている。 本稿では,センサを入力(IMU,ホイールオドメトリー,モータ電流)とし,速度推定を出力するエンド・ツー・エンド・エンド・リカレントニューラルネットワークを提案する。 結果は2つの最先端のカルマンフィルタと比較され、それぞれ高価な速度センサを含む。 すべての方法は、非常に高いサイドリップ(10{\deg})とスリップ比(約20%)を持つフォーミュラ学生用無人レースカーで広範囲にテストされ、ハンドリングの限界に近く動作している。 提案するネットワークは、等価センサ入力を持つカルマンフィルタの最大15倍の速度を推定でき、(0.06 m/s rmse)カルマンフィルタと高価な速度センサの設定と一致する。

Velocity estimation plays a central role in driverless vehicles, but standard and affordable methods struggle to cope with extreme scenarios like aggressive maneuvers due to the presence of high sideslip. To solve this, autonomous race cars are usually equipped with expensive external velocity sensors. In this paper, we present an end-to-end recurrent neural network that takes available raw sensors as input (IMU, wheel odometry, and motor currents) and outputs velocity estimates. The results are compared to two state-of-the-art Kalman filters, which respectively include and exclude expensive velocity sensors. All methods have been extensively tested on a formula student driverless race car with very high sideslip (10{\deg} at the rear axle) and slip ratio (~20%), operating close to the limits of handling. The proposed network is able to estimate lateral velocity up to 15x better than the Kalman filter with the equivalent sensor input and matches (0.06 m/s RMSE) the Kalman filter with the expensive velocity sensor setup.
翻訳日:2022-12-23 09:13:21 公開日:2020-08-16
# 奥行き体積を用いた単眼深度推定

Guiding Monocular Depth Estimation Using Depth-Attention Volume ( http://arxiv.org/abs/2004.02760v2 )

ライセンス: Link先を確認
Lam Huynh, Phong Nguyen-Ha, Jiri Matas, Esa Rahtu, Janne Heikkila(参考訳) 一つの画像からシーン深度を復元することは、異なる3D解釈を曖昧にするために、追加の事前(しばしば単眼深度と呼ばれる)を必要とする不適切な問題である。 近年の研究では、深層ニューラルネットワークを用いて、大規模なデータセットからエンドツーエンドで学習されている。 本稿では,特に室内環境においてユビキタスな平面構造を好むため,深さ推定の指針を提案する。 これは、ネットワークに非局所的なコプラナリティ制約を組み込むことで実現され、davと呼ばれる新しい注意機構が組み込まれている。 室内における2つの一般的なデータセット、すなわちNYU-Depth-v2とScanNetの実験により,本手法は競合する手法に必要なパラメータのごく一部を使用しながら,最先端の深度推定結果が得られることを示した。

Recovering the scene depth from a single image is an ill-posed problem that requires additional priors, often referred to as monocular depth cues, to disambiguate different 3D interpretations. In recent works, those priors have been learned in an end-to-end manner from large datasets by using deep neural networks. In this paper, we propose guiding depth estimation to favor planar structures that are ubiquitous especially in indoor environments. This is achieved by incorporating a non-local coplanarity constraint to the network with a novel attention mechanism called depth-attention volume (DAV). Experiments on two popular indoor datasets, namely NYU-Depth-v2 and ScanNet, show that our method achieves state-of-the-art depth estimation results while using only a fraction of the number of parameters needed by the competing methods.
翻訳日:2022-12-16 07:04:17 公開日:2020-08-16
# ニューラルネットワークを用いた放射移動計算のための大気光学特性予測

Predicting atmospheric optical properties for radiative transfer computations using neural networks ( http://arxiv.org/abs/2005.02265v3 )

ライセンス: Link先を確認
Menno A. Veerman, Robert Pincus, Robin Stoffer, Caspar van Leeuwen, Damian Podareanu, Chiel C. van Heerwaarden(参考訳) 放射移動方程式はよく知られているが、大気モデルにおける放射パラメトリゼーションは計算コストが高い。 パラメータ化を加速する有望なツールは、機械学習技術の利用である。 本研究では,現代の放射パラメータ化(RRTMGP)をエミュレートするためにニューラルネットワークを訓練することにより,ガス光学特性の機械学習によるパラメトリゼーションを開発する。 計算コストを最小限に抑えるため,ニューラルネットワークが適用可能な大気条件の範囲を小さくし,機械固有の最適化BLAS関数を用いて行列計算を高速化する。 トレーニングデータを生成するために、ランダムに摂動した大気プロファイルを用いて、RRTMGPを用いて光学特性を計算する。 予測された光学特性は非常に正確であり、その結果生じる放射フラックスはRRTMGPと比較して平均的な誤差を持つ。 我々のニューラルネットワークベースのガス光学パラメトリゼーションは、ニューラルネットワークのサイズによって、RRTMGPの最大4倍高速である。 さらに,1つの大渦シミュレーションの狭い大気条件に対してニューラルネットワークを訓練することで,速度と精度のトレードオフをさらにテストし,より小さく高速なネットワークで所望の精度を実現できることを示した。 機械学習に基づくパラメトリゼーションは、高い精度を維持しつつ、放射伝達計算を高速化できると結論づける。

The radiative transfer equations are well-known, but radiation parametrizations in atmospheric models are computationally expensive. A promising tool for accelerating parametrizations is the use of machine learning techniques. In this study, we develop a machine learning-based parametrization for the gaseous optical properties by training neural networks to emulate a modern radiation parameterization (RRTMGP). To minimize computational costs, we reduce the range of atmospheric conditions for which the neural networks are applicable and use machine-specific optimised BLAS functions to accelerate matrix computations. To generate training data, we use a set of randomly perturbed atmospheric profiles and calculate optical properties using RRTMGP. Predicted optical properties are highly accurate and the resulting radiative fluxes have average errors within \SI{0.5}{\flux} compared to RRTMGP. Our neural network-based gas optics parametrization is up to 4 times faster than RRTMGP, depending on the size of the neural networks. We further test the trade-off between speed and accuracy by training neural networks for the narrow range of atmospheric conditions of a single large-eddy simulation, so smaller and therefore faster networks can achieve a desired accuracy. We conclude that our machine learning-based parametrization can speed-up radiative transfer computations whilst retaining high accuracy.
翻訳日:2022-12-06 14:44:38 公開日:2020-08-16
# グラフ上の特徴関数:統計記述子からパラメトリックモデルへの羽の鳥

Characteristic Functions on Graphs: Birds of a Feather, from Statistical Descriptors to Parametric Models ( http://arxiv.org/abs/2005.07959v2 )

ライセンス: Link先を確認
Benedek Rozemberczki and Rik Sarkar(参考訳) 本稿では,頂点関数の分布を記述するために,グラフ頂点上で定義される特徴関数のフレキシブルな概念を提案する。 特徴関数の確率重みがランダムウォークの遷移確率として定義される特徴関数の特定の変分を計算するための計算効率の良いアルゴリズムであるFEATHERを導入する。 本手法により抽出された特徴は,ノードレベルの機械学習タスクに有用である。 これらのノード表現のプーリングについて議論し、グラフ分類アルゴリズムの機能として機能するグラフのコンパクトな記述子を得る。 FEATHERが同じ表現を持つ同型グラフを記述し、データの破損に対する堅牢性を示すことを解析的に証明する。 ノード特徴関数を用いて,関数の評価点が教師付き分類器の学習パラメータとなるパラメトリックモデルを定義する。 実世界の大規模データセットを用いた実験では,提案手法が高品質表現を作成し,転送学習を効率的に行い,ハイパーパラメータ変化に対する頑健性を示し,入力サイズに線形にスケールすることを示す。

In this paper, we propose a flexible notion of characteristic functions defined on graph vertices to describe the distribution of vertex features at multiple scales. We introduce FEATHER, a computationally efficient algorithm to calculate a specific variant of these characteristic functions where the probability weights of the characteristic function are defined as the transition probabilities of random walks. We argue that features extracted by this procedure are useful for node level machine learning tasks. We discuss the pooling of these node representations, resulting in compact descriptors of graphs that can serve as features for graph classification algorithms. We analytically prove that FEATHER describes isomorphic graphs with the same representation and exhibits robustness to data corruption. Using the node feature characteristic functions we define parametric models where evaluation points of the functions are learned parameters of supervised classifiers. Experiments on real world large datasets show that our proposed algorithm creates high quality representations, performs transfer learning efficiently, exhibits robustness to hyperparameter changes, and scales linearly with the input size.
翻訳日:2022-12-02 13:06:17 公開日:2020-08-16
# ワードピースを用いた高速・簡易・高精度ハイブリッドASRシステム

Faster, Simpler and More Accurate Hybrid ASR Systems Using Wordpieces ( http://arxiv.org/abs/2005.09150v2 )

ライセンス: Link先を確認
Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth Saraf, Geoffrey Zweig(参考訳) 本研究は, 広く使用されているLibriSpeechベンチマークにおいて, コンテクストに依存したコネクショニスト時間分類システム(CTC)が, 最先端の結果を生成することを示す。 CTCトレーニングと組み合わせたモデリング単位としてワードピースを使用することで,GMMブートストラップ,決定木構築,強制アライメントステップをすべて排除し,従来のフレームベースのクロスエントロピートレーニングに比べ,エンジニアリングパイプラインを大幅に簡素化することができる。 さらに、ワードピースをモデリング単位として使用すると、精度を損なうことなくより大きなストライドを使用できるため、実行効率が大幅に向上する。 さらに、これらの知見は、融合言語として英語に類似したドイツ語と、凝集言語であるトルコ語の2つの内部ビデオASRデータセットで確認する。

In this work, we first show that on the widely used LibriSpeech benchmark, our transformer-based context-dependent connectionist temporal classification (CTC) system produces state-of-the-art results. We then show that using wordpieces as modeling units combined with CTC training, we can greatly simplify the engineering pipeline compared to conventional frame-based cross-entropy training by excluding all the GMM bootstrapping, decision tree building and force alignment steps, while still achieving very competitive word-error-rate. Additionally, using wordpieces as modeling units can significantly improve runtime efficiency since we can use larger stride without losing accuracy. We further confirm these findings on two internal VideoASR datasets: German, which is similar to English as a fusional language, and Turkish, which is an agglutinative language.
翻訳日:2022-12-01 14:15:28 公開日:2020-08-16
# マルチアダプションネットワークによる任意のスタイル転送

Arbitrary Style Transfer via Multi-Adaptation Network ( http://arxiv.org/abs/2005.13219v2 )

ライセンス: Link先を確認
Yingying Deng, Fan Tang, Weiming Dong, Wen Sun, Feiyue Huang, Changsheng Xu(参考訳) 任意のスタイル転送は、研究価値とアプリケーションの展望を伴う重要なトピックである。 所望のスタイル転送は、コンテンツ画像と参照されたスタイル絵画が与えられ、詳細なコンテンツ構造情報を同期して保持しながら、コンテンツ画像をスタイル絵画の色調と鮮やかなストロークパターンでレンダリングする。 スタイル転送アプローチは、まずコンテンツとスタイル参照のコンテンツとスタイル表現を学習し、それからこれらの表現によって導かれたスタイル化されたイメージを生成する。 In this paper, we propose the multi-adaptation network which involves two self-adaptation (SA) modules and one co-adaptation (CA) module: the SA modules adaptively disentangle the content and style representations, i.e., content SA module uses position-wise self-attention to enhance content representation and style SA module uses channel-wise self-attention to enhance style representation; the CA module rearranges the distribution of style representation based on content representation distribution by calculating the local similarity between the disentangled content and style features in a non-local fashion. さらに,新たな不等角化損失関数により,本ネットワークは,入力画像に適応する主スタイルパターンと正確なコンテンツ構造を抽出することができる。 様々な定性的および定量的実験により、提案したマルチ適応ネットワークは、最先端スタイルの転送方法よりも優れた結果をもたらすことが示された。

Arbitrary style transfer is a significant topic with research value and application prospect. A desired style transfer, given a content image and referenced style painting, would render the content image with the color tone and vivid stroke patterns of the style painting while synchronously maintaining the detailed content structure information. Style transfer approaches would initially learn content and style representations of the content and style references and then generate the stylized images guided by these representations. In this paper, we propose the multi-adaptation network which involves two self-adaptation (SA) modules and one co-adaptation (CA) module: the SA modules adaptively disentangle the content and style representations, i.e., content SA module uses position-wise self-attention to enhance content representation and style SA module uses channel-wise self-attention to enhance style representation; the CA module rearranges the distribution of style representation based on content representation distribution by calculating the local similarity between the disentangled content and style features in a non-local fashion. Moreover, a new disentanglement loss function enables our network to extract main style patterns and exact content structures to adapt to various input images, respectively. Various qualitative and quantitative experiments demonstrate that the proposed multi-adaptation network leads to better results than the state-of-the-art style transfer methods.
翻訳日:2022-11-28 08:01:05 公開日:2020-08-16
# 効率的な平面バンドル調整アルゴリズム

An Efficient Planar Bundle Adjustment Algorithm ( http://arxiv.org/abs/2006.00187v2 )

ライセンス: Link先を確認
Lipu Zhou, Daniel Koppel, Hui Ju, Frank Steinbruecker, Michael Kaess(参考訳) 本稿では,3次元再構成のための深度センサポーズと平面パラメータを共同で最適化することを目的とした,平面間コストを用いた最小二乗問題の効率的なアルゴリズムを提案する。 我々はこの最小二乗問題 \textbf{Planar Bundle Adjustment} (PBA) を、視覚的再構成におけるこの問題と元の Bundle Adjustment (BA) の類似性から呼んでいる。 平面は人工環境に普遍的に存在し、様々な深度センサーのためのslamアルゴリズムのランドマークとして一般的に用いられる。 PBAはドリフトの低減と地図の品質向上に重要である。 しかしながら、視覚的再構成において確立されたBAフレームワークを直接適用すると、PBAにとって非常に非効率なソリューションとなる。 これは、3Dポイントがカメラのポーズで1つの観察しかできないためです。 対照的に、深度センサは一度に数百点の平面を記録できるため、小さな空間でも非常に大きな非線形の最小二乗問題が発生する。 幸いにも、pba問題には特別な構造があることが分かっています。 我々は、還元ジャコビアン行列と還元残差ベクトルを導入し、一般に採用されているレベンバーグ・マーカルト(lm)アルゴリズムで元のヤコビアン行列と残差ベクトルを置き換えることができることを証明した。 これにより計算コストが大幅に削減される。 さらに、平面が3次元再構成のための他の特徴と組み合わされるとき、縮小ジャコビアン行列と残留ベクトルは平面に由来する対応する部分を置き換えることができる。 実験の結果,従来のbaフレームワークに比べて計算時間を大幅に削減できることを確認した。 さらに,我々のアルゴリズムは,平面間コストを用いた初期化ソリューションと比較して,高速で精度が高く,初期化エラーに頑健である。

This paper presents an efficient algorithm for the least-squares problem using the point-to-plane cost, which aims to jointly optimize depth sensor poses and plane parameters for 3D reconstruction. We call this least-squares problem \textbf{Planar Bundle Adjustment} (PBA), due to the similarity between this problem and the original Bundle Adjustment (BA) in visual reconstruction. As planes ubiquitously exist in the man-made environment, they are generally used as landmarks in SLAM algorithms for various depth sensors. PBA is important to reduce drift and improve the quality of the map. However, directly adopting the well-established BA framework in visual reconstruction will result in a very inefficient solution for PBA. This is because a 3D point only has one observation at a camera pose. In contrast, a depth sensor can record hundreds of points in a plane at a time, which results in a very large nonlinear least-squares problem even for a small-scale space. Fortunately, we find that there exist a special structure of the PBA problem. We introduce a reduced Jacobian matrix and a reduced residual vector, and prove that they can replace the original Jacobian matrix and residual vector in the generally adopted Levenberg-Marquardt (LM) algorithm. This significantly reduces the computational cost. Besides, when planes are combined with other features for 3D reconstruction, the reduced Jacobian matrix and residual vector can also replace the corresponding parts derived from planes. Our experimental results verify that our algorithm can significantly reduce the computational time compared to the solution using the traditional BA framework. Besides, our algorithm is faster, more accuracy, and more robust to initialization errors compared to the start-of-the-art solution using the plane-to-plane cost
翻訳日:2022-11-26 18:08:01 公開日:2020-08-16
# 残差ネットワークと非抵抗ネットワークの補間

Interpolation between Residual and Non-Residual Networks ( http://arxiv.org/abs/2006.05749v4 )

ライセンス: Link先を確認
Zonghan Yang, Yang Liu, Chenglong Bao, Zuoqiang Shi(参考訳) 通常の微分方程式(ODE)は、ネットワークアーキテクチャを設計するための洞察を提供するが、非残留畳み込みニューラルネットワーク(CNN)との関係はまだ不明である。 本稿では,減衰項を付加した新しいODEモデルを提案する。 補間係数を調整することにより,提案モデルがResNetとCNNの両方を復元可能であることを示す。 したがって、減衰ODEモデルは残留および非残留ネットワークの解釈のための統一的なフレームワークを提供する。 Lyapunov解析により,提案したモデルの安定性が向上し,学習ネットワークの堅牢性向上が期待できる。 複数の画像分類ベンチマーク実験により,確率的雑音法と逆攻撃法の両方による摂動入力に対するResNetとResNeXtの精度を大幅に向上することが示された。 さらに,ロスランドスケープ解析により,攻撃方向に沿ってロバスト性が向上したことを示す。

Although ordinary differential equations (ODEs) provide insights for designing network architectures, its relationship with the non-residual convolutional neural networks (CNNs) is still unclear. In this paper, we present a novel ODE model by adding a damping term. It can be shown that the proposed model can recover both a ResNet and a CNN by adjusting an interpolation coefficient. Therefore, the damped ODE model provides a unified framework for the interpretation of residual and non-residual networks. The Lyapunov analysis reveals better stability of the proposed model, and thus yields robustness improvement of the learned networks. Experiments on a number of image classification benchmarks show that the proposed model substantially improves the accuracy of ResNet and ResNeXt over the perturbed inputs from both stochastic noise and adversarial attack methods. Moreover, the loss landscape analysis demonstrates the improved robustness of our method along the attack direction.
翻訳日:2022-11-23 04:29:38 公開日:2020-08-16
# 瞬時CSIフィードバックのないハイブリッドビームフォーミングのためのディープラーニングフレームワーク

A Deep Learning Framework for Hybrid Beamforming Without Instantaneous CSI Feedback ( http://arxiv.org/abs/2006.10971v2 )

ライセンス: Link先を確認
Ahmet M. Elbir(参考訳) ハイブリッドビームフォーマの設計は、次世代ミリ波(mm波)大規模MIMO(multiple-input multiple-output)システムにおいて非常に重要な役割を果たす。 これまでの研究では、完全なチャネル状態情報(CSI)を前提としていた。 複雑さを低減するために、チャネル情報の頻繁な更新のみが必要なチャネル統計を利用することができる。 複雑さを低減し、堅牢性を提供するため、本研究では、ハイブリッドビームフォーミングとチャネル推定の両方を扱うディープラーニング(DL)フレームワークを提案する。 この目的のために,3つのディープ畳み込みニューラルネットワーク(CNN)アーキテクチャを導入する。 基地局(bs)はチャネル統計のみを持ち、チャネル共分散行列をcnnに供給してハイブリッドプリコーダを得ると仮定する。 受信機には2つのCNNが使用される。 1つはチャネル推定に使われ、もう1つはハイブリッドコンバインダの設計に使用される。 提案するDLフレームワークは,BSにおけるCSIの即時フィードバックを必要としない。 提案手法は従来の手法と比較してスペクトル効率が高いことを示した。 訓練されたcnn構造は、受信経路数の偏差や4度までの受信経路角のゆらぎなどの伝播環境の変化により、再訓練する必要がなくなる。 また,提案するDLフレームワークは,従来の最適化手法に比べて,少なくとも10倍の計算複雑性を示す。

Hybrid beamformer design plays very crucial role in the next generation millimeter-wave (mm-Wave) massive MIMO (multiple-input multiple-output) systems. Previous works assume the perfect channel state information (CSI) which results heavy feedback overhead. To lower complexity, channel statistics can be utilized such that only infrequent update of the channel information is needed. To reduce the complexity and provide robustness, in this work, we propose a deep learning (DL) framework to deal with both hybrid beamforming and channel estimation. For this purpose, we introduce three deep convolutional neural network (CNN) architectures. We assume that the base station (BS) has the channel statistics only and feeds the channel covariance matrix into a CNN to obtain the hybrid precoders. At the receiver, two CNNs are employed. The first one is used for channel estimation purposes and the another is employed to design the hybrid combiners. The proposed DL framework does not require the instantaneous feedback of the CSI at the BS. We have shown that the proposed approach has higher spectral efficiency with comparison to the conventional techniques. The trained CNN structures do not need to be re-trained due to the changes in the propagation environment such as the deviations in the number of received paths and the fluctuations in the received path angles up to 4 degrees. Also, the proposed DL framework exhibits at least 10 times lower computational complexity as compared to the conventional optimization-based approaches.
翻訳日:2022-11-19 05:18:12 公開日:2020-08-16
# ビザンチン耐性高次元フェデレート学習

Byzantine-Resilient High-Dimensional Federated Learning ( http://arxiv.org/abs/2006.13041v2 )

ライセンス: Link先を確認
Deepesh Data and Suhas Diggavi(参考訳) 本研究では,悪質/ビザンツ人クライアントの存在下での局所的な反復を伴う確率勾配降下(SGD)について検討した。 クライアントは、イテレーション毎に中央サーバと通信する代わりに、ローカルモデルを維持し、自身のデータセットに基づいて複数のsgdイテレーションを実行して、サーバとネットアップデートを通信することで、通信効率を実現している。 さらに、クライアントのサブセットのみがサーバと通信し、このサブセットは異なる同期時間で異なる可能性がある。 ビザンチンのクライアントは協調して任意のベクターをサーバに送り、学習プロセスを破壊することができる。 敵と戦うために,steinhardtらによる効率的な高次元ロバスト平均推定アルゴリズムを用いる。 ~\cite[itcs 2018]{resilience_scv18}サーバで腐敗したベクターをフィルターアウトし、アウトリアーフィルタ手順を分析するために、独立した関心を持つ可能性のある新しいマトリックス濃度結果を開発した。 我々は、異なるクライアントが異なるローカルデータセットを持つ可能性がある異種データ設定において、強凸および非凸スムーズな目的に対して収束解析を行い、データ生成に関する確率論的仮定をしない。 我々は、局所的な反復による最初のビザンチン耐性アルゴリズムと解析であると信じている。 我々は、SGDの有界分散と有界勾配の相似性(局所データセット間の不均一性を捉える)の最小仮定の下で、収束結果を導出する。 また、クライアントがフルバッチ勾配を計算する場合にも結果を拡張します。

We study stochastic gradient descent (SGD) with local iterations in the presence of malicious/Byzantine clients, motivated by the federated learning. The clients, instead of communicating with the central server in every iteration, maintain their local models, which they update by taking several SGD iterations based on their own datasets and then communicate the net update with the server, thereby achieving communication-efficiency. Furthermore, only a subset of clients communicate with the server, and this subset may be different at different synchronization times. The Byzantine clients may collaborate and send arbitrary vectors to the server to disrupt the learning process. To combat the adversary, we employ an efficient high-dimensional robust mean estimation algorithm from Steinhardt et al.~\cite[ITCS 2018]{Resilience_SCV18} at the server to filter-out corrupt vectors; and to analyze the outlier-filtering procedure, we develop a novel matrix concentration result that may be of independent interest. We provide convergence analyses for strongly-convex and non-convex smooth objectives in the heterogeneous data setting, where different clients may have different local datasets, and we do not make any probabilistic assumptions on data generation. We believe that ours is the first Byzantine-resilient algorithm and analysis with local iterations. We derive our convergence results under minimal assumptions of bounded variance for SGD and bounded gradient dissimilarity (which captures heterogeneity among local datasets). We also extend our results to the case when clients compute full-batch gradients.
翻訳日:2022-11-18 05:59:27 公開日:2020-08-16
# 構造認識型ヒューマンアクション生成

Structure-Aware Human-Action Generation ( http://arxiv.org/abs/2007.01971v3 )

ライセンス: Link先を確認
Ping Yu, Yang Zhao, Chunyuan Li, Junsong Yuan, Changyou Chen(参考訳) 長距離骨格に基づく人間の行動の生成は、あるフレームの小さな偏差が不正な動作シーケンスを引き起こす可能性があるため、難しい問題となっている。 既存のほとんどの手法は、フレーム間のリッチな情報やフレーム内構造を考慮せずに、スケルトンノード/ジョイントを画像のピクセルとして鼻で扱うビデオ生成のアイデアを借用している。 グラフ畳み込みネットワーク(GCN)は構造情報を利用して構造表現を学習する有望な方法である。 しかし、空間空間と時間空間の両方において、このような連続的なアクションシーケンスにGCNを直接適用することは、アクショングラフが巨大になるため困難である。 この問題を克服するために,我々は,時間空間における完全なアクショングラフを適応的にスパースするために,強力なセルフアテンション機構を利用するgcnsの変種を提案する。 本手法は,過去の重要なフレームに動的に対応し,gcnフレームワークに適用可能な疎グラフを構築し,動作シーケンスの構造情報をよく把握する。 従来の手法と比較して,2つの標準人行動データセットにおいて,本手法の優位性を示した。

Generating long-range skeleton-based human actions has been a challenging problem since small deviations of one frame can cause a malformed action sequence. Most existing methods borrow ideas from video generation, which naively treat skeleton nodes/joints as pixels of images without considering the rich inter-frame and intra-frame structure information, leading to potential distorted actions. Graph convolutional networks (GCNs) is a promising way to leverage structure information to learn structure representations. However, directly adopting GCNs to tackle such continuous action sequences both in spatial and temporal spaces is challenging as the action graph could be huge. To overcome this issue, we propose a variant of GCNs to leverage the powerful self-attention mechanism to adaptively sparsify a complete action graph in the temporal space. Our method could dynamically attend to important past frames and construct a sparse graph to apply in the GCN framework, well-capturing the structure information in action sequences. Extensive experimental results demonstrate the superiority of our method on two standard human action datasets compared with existing methods.
翻訳日:2022-11-13 13:01:45 公開日:2020-08-16
# 微分可能PDE解法とグラフニューラルネットワークを組み合わせた流れ予測

Combining Differentiable PDE Solvers and Graph Neural Networks for Fluid Flow Prediction ( http://arxiv.org/abs/2007.04439v3 )

ライセンス: Link先を確認
Filipe de Avila Belbute-Peres, Thomas D. Economon, J. Zico Kolter(参考訳) 計算流体力学(CFD)で生じるような、大きな複素偏微分方程式(PDE)を解くことは、計算に高価なプロセスである。 これはPDEの解を近似するためにディープラーニングアプローチを使うことを動機付けてきたが、これらの手法から予測されるシミュレーション結果は、一般的に真に新しいシナリオに適さない。 本研究では,従来のグラフ畳み込みネットワークと,ネットワーク内部に埋め込まれた微分可能流体力学シミュレータを組み合わせたハイブリッド(グラフ)ニューラルネットワークを開発した。 実際のCFDシミュレータ(問題をより粗い解像度で表現する)とグラフネットワークを組み合わせることで,ニューラルネットワークのCFD予測の大幅な高速化によるメリットと,粗いCFDシミュレーションを単独で大幅に上回ることを示す。

Solving large complex partial differential equations (PDEs), such as those that arise in computational fluid dynamics (CFD), is a computationally expensive process. This has motivated the use of deep learning approaches to approximate the PDE solutions, yet the simulation results predicted from these approaches typically do not generalize well to truly novel scenarios. In this work, we develop a hybrid (graph) neural network that combines a traditional graph convolutional network with an embedded differentiable fluid dynamics simulator inside the network itself. By combining an actual CFD simulator (run on a much coarser resolution representation of the problem) with the graph network, we show that we can both generalize well to new situations and benefit from the substantial speedup of neural network CFD predictions, while also substantially outperforming the coarse CFD simulation alone.
翻訳日:2022-11-12 12:57:33 公開日:2020-08-16
# クラスオーバーのシナリオにおける画像分類の説明可能性の向上 : COVID-19および肺炎への応用

Improving Explainability of Image Classification in Scenarios with Class Overlap: Application to COVID-19 and Pneumonia ( http://arxiv.org/abs/2008.02866v3 )

ライセンス: Link先を確認
Edward Verenich, Alvaro Velasquez, Nazar Khan and Faraz Hussain(参考訳) 機械学習モデルによってなされる予測に対する信頼度は、モデルが未発見のサンプルをうまく一般化し、推論が予測の背後にある推論の簡潔な説明を伴う場合に増大する。 画像分類領域では、精度、感度、特異性によって一般化を評価することができる。 説明可能性は、モデルがいかにイメージ内の関心対象をローカライズするかによって評価できる。 しかしながら、一般化とローカライズによる説明可能性の両方が、クラス間で著しく重複するシナリオで低下する。 本稿では,クラス重なりによるモデルの不確かさを緩和し,より適切な局所化により画像分類の可解性を高めるバイナリエキスパートネットワークに基づく手法を提案する。 本手法は,クラス重なりのある特徴を含む画像に対して,局所化を明示的に訓練することなく識別的ローカライゼーションを行う。 この手法は、新型コロナウイルスや肺炎などの現実世界の重なり合いシナリオにおいて特に有望であり、専門的にラベル付けされたローカライズデータの入手が容易ではない。 これは、covid-19の早期、迅速、信頼性の高いスクリーニングに有用である。

Trust in predictions made by machine learning models is increased if the model generalizes well on previously unseen samples and when inference is accompanied by cogent explanations of the reasoning behind predictions. In the image classification domain, generalization can be assessed through accuracy, sensitivity, and specificity. Explainability can be assessed by how well the model localizes the object of interest within an image. However, both generalization and explainability through localization are degraded in scenarios with significant overlap between classes. We propose a method based on binary expert networks that enhances the explainability of image classifications through better localization by mitigating the model uncertainty induced by class overlap. Our technique performs discriminative localization on images that contain features with significant class overlap, without explicitly training for localization. Our method is particularly promising in real-world class overlap scenarios, such as COVID-19 and pneumonia, where expertly labeled data for localization is not readily available. This can be useful for early, rapid, and trustworthy screening for COVID-19.
翻訳日:2022-11-02 07:01:38 公開日:2020-08-16
# 外観獲得のためのニューラルリフレクタンス場

Neural Reflectance Fields for Appearance Acquisition ( http://arxiv.org/abs/2008.03824v2 )

ライセンス: Link先を確認
Sai Bi, Zexiang Xu, Pratul Srinivasan, Ben Mildenhall, Kalyan Sunkavalli, Milo\v{s} Ha\v{s}an, Yannick Hold-Geoffroy, David Kriegman, Ravi Ramamoorthi(参考訳) 完全連結ニューラルネットワークを用いてシーン内の任意の3次元点における体積密度, 正規度, 反射特性をエンコードする, 新たなシーン表現であるニューラルリフレクタンス場を提案する。 我々はこの表現を、任意の視点と光の下でニューラルリフレクタンスフィールドから画像を描画できる物理的にベースとした微分可能光線マーチングフレームワークと組み合わせる。 簡単なコロケーション・カメラ・ライトで撮影した画像からニューラルリフレクタンス・フィールドを推定でき、複雑な幾何学と反射率で現実のシーンの外観を正確にモデル化することができる。 ひとたび見積もると、新しい視点と(非局所的な)照明条件の下で写真リアルな画像をレンダリングし、特異性、影、閉塞といった挑戦的な効果を正確に再現することができる。 これにより、従来の方法よりもはるかに優れた高品質なビュー合成とリライトを実行できます。 また,従来のシーンモデルを用いて実シーンのニューラルリフレクタンス場を推定し,標準的なモンテカルロレンダリングエンジンを用いてレンダリングできることを実証した。 これにより、高品質で実用的な外観取得から3Dシーン合成とレンダリングまで、完全なパイプラインを実現できる。

We present Neural Reflectance Fields, a novel deep scene representation that encodes volume density, normal and reflectance properties at any 3D point in a scene using a fully-connected neural network. We combine this representation with a physically-based differentiable ray marching framework that can render images from a neural reflectance field under any viewpoint and light. We demonstrate that neural reflectance fields can be estimated from images captured with a simple collocated camera-light setup, and accurately model the appearance of real-world scenes with complex geometry and reflectance. Once estimated, they can be used to render photo-realistic images under novel viewpoint and (non-collocated) lighting conditions and accurately reproduce challenging effects like specularities, shadows and occlusions. This allows us to perform high-quality view synthesis and relighting that is significantly better than previous methods. We also demonstrate that we can compose the estimated neural reflectance field of a real scene with traditional scene models and render them using standard Monte Carlo rendering engines. Our work thus enables a complete pipeline from high-quality and practical appearance acquisition to 3D scene composition and rendering.
翻訳日:2022-11-01 04:42:54 公開日:2020-08-16
# 機械学習を使った新型コロナウイルス検出研究にはデータセットが必要か?

So You Need Datasets for Your COVID-19 Detection Research Using Machine Learning? ( http://arxiv.org/abs/2008.05906v2 )

ライセンス: Link先を確認
Md Fahimuzzman Sohan(参考訳) 世界中の新型コロナウイルス(covid19)に感染する人が数百万人いる。 機械学習(ML)技術は、流行の始まりから新型コロナウイルス検出研究に使われている。 本稿では、機械学習(ML)を用いたCOVID19検出で頻繁に使用されるデータセットの詳細について述べる。 我々は2020年1月から2020年6月までに96件のCOVID19検出論文を調査した。 使用済みデータセットに関する情報を記事から抽出し,同時に表現した。 この調査は、将来の研究者が困難なくCOVID19データセットを見つけるのに役立つだろう。

Millions of people are infected by the coronavirus disease 2019 (COVID19) around the world. Machine Learning (ML) techniques are being used for COVID19 detection research from the beginning of the epidemic. This article represents the detailed information on frequently used datasets in COVID19 detection using Machine Learning (ML). We investigated 96 papers on COVID19 detection between January 2020 and June 2020. We extracted the information about used datasets from the articles and represented them here simultaneously. This investigation will help future researchers to find the COVID19 datasets without difficulty.
翻訳日:2022-10-31 11:13:54 公開日:2020-08-16
# マスク提案ネットワークによる可変化言語事前学習

Variance-reduced Language Pretraining via a Mask Proposal Network ( http://arxiv.org/abs/2008.05333v2 )

ライセンス: Link先を確認
Liang Chen(参考訳) 自己指導型学習、つまり事前学習は自然言語処理において重要である。 事前学習法のほとんどは、まず文中のいくつかの位置をランダムにマスキングし、その後、マスクされた位置でトークンを復元するモデルを訓練する。 このようにして、モデルは人間のラベル付けなしでトレーニングすることができ、巨大なデータは数十億のパラメータで使用できる。 そのため、最適化効率が重要となる。 本稿では,勾配分散低減の観点からこの問題に取り組む。 特に,まず,言語前訓練の確率的勾配の分散が,バッチ内のデータのサンプルから生じる分散と,マスクのサンプリングから生じる分散の2つの用語に自然に分解できることを示す,原理的勾配分散分解定理を提案する。 第2項は、自己指導学習と教師あり学習の主な違いであり、事前学習が遅くなる。 第2部のばらつきを減らすために,一様分布ではなく提案分布に従ってマスクをサンプリングすることを目的としたサンプリング戦略を重要視する。 提案分布が勾配ノルムに比例すると,サンプリングのばらつきが小さくなることを示すことができる。 そこで我々は,マスク提案の最適分布を近似したMAsk Proposal Network (MAPNet)を導入し,モデルとともにエンドツーエンドで学習を行った。 実験結果によると,本モデルは,ベースラインbertモデルよりも高速に収束し,高い性能を実現する。

Self-supervised learning, a.k.a., pretraining, is important in natural language processing. Most of the pretraining methods first randomly mask some positions in a sentence and then train a model to recover the tokens at the masked positions. In such a way, the model can be trained without human labeling, and the massive data can be used with billion parameters. Therefore, the optimization efficiency becomes critical. In this paper, we tackle the problem from the view of gradient variance reduction. In particular, we first propose a principled gradient variance decomposition theorem, which shows that the variance of the stochastic gradient of the language pretraining can be naturally decomposed into two terms: the variance that arises from the sample of data in a batch, and the variance that arises from the sampling of the mask. The second term is the key difference between selfsupervised learning and supervised learning, which makes the pretraining slower. In order to reduce the variance of the second part, we leverage the importance sampling strategy, which aims at sampling the masks according to a proposal distribution instead of the uniform distribution. It can be shown that if the proposal distribution is proportional to the gradient norm, the variance of the sampling is reduced. To improve efficiency, we introduced a MAsk Proposal Network (MAPNet), which approximates the optimal mask proposal distribution and is trained end-to-end along with the model. According to the experimental result, our model converges much faster and achieves higher performance than the baseline BERT model.
翻訳日:2022-10-31 04:36:20 公開日:2020-08-16
# deepsampling: 予測誤差と応答時間による選択性推定

DeepSampling: Selectivity Estimation with Predicted Error and Response Time ( http://arxiv.org/abs/2008.06831v1 )

ライセンス: Link先を確認
Tin Vu, Ahmed Eldawy(参考訳) 空間データの急速な成長は,大量のデータに対する対話型クエリの効率的な処理手法を研究コミュニティに求める。 Approximate Query Processing (AQP)は、ランダムなサンプルに基づいて、アドホックなクエリに対してリアルタイムに応答する技術である。 残念なことに、既存のaqpメソッドは、サンプルサイズ、クエリパラメータ、データ分布、結果精度の間の複雑な関係のために、正確なメトリックを提供することなく答えを提供する。 本稿では,サンプルサイズ,入力分布,クエリパラメータを考慮し,サンプルベースAQPアルゴリズムの精度を予測するディープラーニングモデルであるDeepSamplingを提案する。 モデルはまた、望ましい精度を生み出すサンプルサイズを測定するために反転することもできる。 DeepSamplingは、既存の空間データベースがAQPの精度を制御するための信頼性の高いツールを提供する最初のシステムである。

The rapid growth of spatial data urges the research community to find efficient processing techniques for interactive queries on large volumes of data. Approximate Query Processing (AQP) is the most prominent technique that can provide real-time answer for ad-hoc queries based on a random sample. Unfortunately, existing AQP methods provide an answer without providing any accuracy metrics due to the complex relationship between the sample size, the query parameters, the data distribution, and the result accuracy. This paper proposes DeepSampling, a deep-learning-based model that predicts the accuracy of a sample-based AQP algorithm, specially selectivity estimation, given the sample size, the input distribution, and query parameters. The model can also be reversed to measure the sample size that would produce a desired accuracy. DeepSampling is the first system that provides a reliable tool for existing spatial databases to control the accuracy of AQP.
翻訳日:2022-10-28 12:08:17 公開日:2020-08-16
# TempNodeEmb:時間的エッジ影響行列を考慮した時間的ノード埋め込み

TempNodeEmb:Temporal Node Embedding considering temporal edge influence matrix ( http://arxiv.org/abs/2008.06940v1 )

ライセンス: Link先を確認
Khushnood Abbas, Alireza Abbasi, Dong Shi, Niu Ling, Mingsheng Shang, Chen Liong, and Bolun Chen(参考訳) 人間の相互作用、輸送ネットワーク、生物学的相互作用、コンピュータネットワークといった現実世界の進化する複雑なシステムの進化パターンを理解することは、私たちの日常生活に重要な意味を持つ。 このようなネットワーク内のノード間の将来のリンクを予測することは、時間ネットワークの進化の重要な側面を明らかにする。 ネットワークを解析するために、それらは隣接行列にマッピングされるが、単一の隣接行列は複雑な関係(例えば時間的パターン)を表現できないため、いくつかのアプローチは時間的ネットワークの簡易表現を考えるが、高次元で一般に疎な行列である。 その結果、ネットワークやノードレベルの予測を行う機械学習モデルでは、隣接行列を直接使用することはできない。 この問題を解決するために、リンク予測などのネットワークにおける時間パターンを予測する最先端技術として、ノードやエッジの低次元ベクトルを学習するための自動フレームワークが提案されている。 しかし、これらのモデルはネットワークの時間次元を考慮しない。 このギャップは,各時間ステップで単純な3層グラフニューラルネットワークを考慮し,advancedのアングル法でノードの向きを抽出し,ネットワークの進化を生かした新しいノード埋め込み手法を提案する動機となった。 提案アルゴリズムの効率性を証明するため,本手法は4つの実時間ネットワークデータを用いた6つのベンチマークネットワーク組込みモデルに対して,提案アルゴリズムの有効性を評価した。

Understanding the evolutionary patterns of real-world evolving complex systems such as human interactions, transport networks, biological interactions, and computer networks has important implications in our daily lives. Predicting future links among the nodes in such networks reveals an important aspect of the evolution of temporal networks. To analyse networks, they are mapped to adjacency matrices, however, a single adjacency matrix cannot represent complex relationships (e.g. temporal pattern), and therefore, some approaches consider a simplified representation of temporal networks but in high-dimensional and generally sparse matrices. As a result, adjacency matrices cannot be directly used by machine learning models for making network or node level predictions. To overcome this problem, automated frameworks are proposed for learning low-dimensional vectors for nodes or edges, as state-of-the-art techniques in predicting temporal patterns in networks such as link prediction. However, these models fail to consider temporal dimensions of the networks. This gap motivated us to propose in this research a new node embedding technique which exploits the evolving nature of the networks considering a simple three-layer graph neural network at each time step, and extracting node orientation by Given's angle method. To prove our proposed algorithm's efficiency, we evaluated the efficiency of our proposed algorithm against six state-of-the-art benchmark network embedding models, on four real temporal networks data, and the results show our model outperforms other methods in predicting future links in temporal networks.
翻訳日:2022-10-28 12:08:00 公開日:2020-08-16
# 深層学習は、治療ニーズに着目したロバストで精密な光を可能にする

Deep Learning Enables Robust and Precise Light Focusing on Treatment Needs ( http://arxiv.org/abs/2008.06975v1 )

ライセンス: Link先を確認
Changchun Yang, Hengrong Lan, and Fei Gao(参考訳) 光が体組織を通り抜けると、腫瘍などの治療が必要な領域にのみ焦点を合わせ、多くのバイオメディカルイメージングと治療技術に革命をもたらす。 では、散乱を克服する深い不均質な組織を通して光を集中させる方法は、生物医学領域では聖杯です。 本稿では,ウェーブフロントシェーピングを用いた位相前補償の過程の学習と促進に深層学習を用いる。 本稿では,位相領域xとスペックル領域yの関係を学ぶためのアプローチ(loftgan,light only focus on treatment needs)を提案する。 我々のゴールは、画像Yの撮影に必要なXをほとんどの作業と同じように知ることができるような逆写像 F:Y->X を学ぶことだけでなく、得られた位相がスペックルに前方にマッピングできることを確実にすることで、乱の影響を受ける焦点をより堅牢かつ正確にすることである。 そこで,F(Y)=X と H(F(Y))=Y を送信写像 H:X->Y で強制するために異なる制約を導入する。 シミュレーションと物理実験をともに実施し,本手法の有効性を示すための光集光効果と,ロバスト性と精度の極めて重要な改善を実証する比較実験を行った。 コードはhttps://github.com/ChangchunYang/LoftGANで公開されている。

If light passes through the body tissues, focusing only on areas where treatment needs, such as tumors, will revolutionize many biomedical imaging and therapy technologies. So how to focus light through deep inhomogeneous tissues overcoming scattering is Holy Grail in biomedical areas. In this paper, we use deep learning to learn and accelerate the process of phase pre-compensation using wavefront shaping. We present an approach (LoftGAN, light only focuses on treatment needs) for learning the relationship between phase domain X and speckle domain Y . Our goal is not just to learn an inverse mapping F:Y->X such that we can know the corresponding X needed for imaging Y like most work, but also to make focusing that is susceptible to disturbances more robust and precise by ensuring that the phase obtained can be forward mapped back to speckle. So we introduce different constraints to enforce F(Y)=X and H(F(Y))=Y with the transmission mapping H:X->Y. Both simulation and physical experiments are performed to investigate the effects of light focusing to demonstrate the effectiveness of our method and comparative experiments prove the crucial improvement of robustness and precision. Codes are available at https://github.com/ChangchunYang/LoftGAN.
翻訳日:2022-10-28 12:07:13 公開日:2020-08-16
# 分散DNN訓練のためのドメイン固有通信最適化

Domain-specific Communication Optimization for Distributed DNN Training ( http://arxiv.org/abs/2008.08445v1 )

ライセンス: Link先を確認
Hao Wang, Jingrong Chen, Xinchen Wan, Han Tian, Jiacheng Xia, Gaoxiong Zeng, Weiyan Wang, Kai Chen, Wei Bai, Junchen Jiang(参考訳) コミュニケーションのオーバーヘッドは分散DNNトレーニングにとって重要な障害となり、近年注目を集めている。 連続的な努力にもかかわらず、特にネットワークが圧力下にある場合、勾配圧縮/縮小、計算/通信オーバーラップ、層単位のフロースケジューリングといった先行ソリューションは依然として粗く、効率的な分散トレーニングには不十分である。 本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。 例えば、SGDベースのトレーニングでは、勾配圧縮によって純粋に回避できない尾の通信遅延を改善するために、境界付き損失耐性を活用できる。 次に、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを実行し、層と勾配の大きさに基づいて、精度に影響を与えることなくモデルの収束をさらにスピードアップする。 さらに、パッケージ間順序独立性を利用して、古典的な再注文問題を引き起こすことなく、パック毎のロードバランシングを実行する。 DLCPはパラメータサーバと集合通信ルーチンの両方で動作する。 DLCPをコモディティスイッチで実装し、TensorFlow、MXNet、PyTorchといったさまざまなトレーニングフレームワークと統合し、10台のNvidia V100 GPUで小規模なテストベッドにデプロイしました。 我々のテストベッド実験と大規模シミュレーションは、DLCPが最高の既存のソリューションに対して最大84.3 %のトレーニング加速を提供することを示している。

Communication overhead poses an important obstacle to distributed DNN training and draws increasing attention in recent years. Despite continuous efforts, prior solutions such as gradient compression/reduction, compute/communication overlapping and layer-wise flow scheduling, etc., are still coarse-grained and insufficient for an efficient distributed training especially when the network is under pressure. We present DLCP, a novel solution exploiting the domain-specific properties of deep learning to optimize communication overhead of DNN training in a fine-grained manner. At its heart, DLCP comprises of several key innovations beyond prior work: e.g., it exploits {\em bounded loss tolerance} of SGD-based training to improve tail communication latency which cannot be avoided purely through gradient compression. It then performs fine-grained packet-level prioritization and dropping, as opposed to flow-level scheduling, based on layers and magnitudes of gradients to further speedup model convergence without affecting accuracy. In addition, it leverages inter-packet order-independency to perform per-packet load balancing without causing classical re-ordering issues. DLCP works with both Parameter Server and collective communication routines. We have implemented DLCP with commodity switches, integrated it with various training frameworks including TensorFlow, MXNet and PyTorch, and deployed it in our small-scale testbed with 10 Nvidia V100 GPUs. Our testbed experiments and large-scale simulations show that DLCP delivers up to $84.3\%$ additional training acceleration over the best existing solutions.
翻訳日:2022-10-28 12:06:50 公開日:2020-08-16
# 神経疾患による歩行異常の検出

Detection of Gait Abnormalities caused by Neurological Disorders ( http://arxiv.org/abs/2008.06861v1 )

ライセンス: Link先を確認
Daksh Goyal, Koteswar Rao Jerripothula, Ankush Mittal(参考訳) 本稿では,歩行を利用してパーキンソン病,対麻痺,片麻痺,ハンチントン舞踏病などの重要な神経疾患を潜在的に検出する。 これらの神経疾患を持つ人は、しばしば非常に異常な歩行を持つため、潜在的な検出のために歩行を目標とする動機となる。 異常の中には、脚の割込み、前方屈曲、不随意運動などが含まれる。 このような歩行異常を検出するために,人間のポーズ,肩,肘,腰,膝,足首などのキーポイントから歩行特徴を発達させる。 これらの疾患の異常を検知する際の歩行特性の有効性を評価するため,これらの障害のある人の歩行を模倣した映像データセットを構築し,十分な数の人を見つけることの難しさを考察した。 ビデオデータセットを \textit{NeuroSynGait} と名付けます。 実験では、歩行の特徴が実際にこれらの異常を検出することに成功した。

In this paper, we leverage gait to potentially detect some of the important neurological disorders, namely Parkinson's disease, Diplegia, Hemiplegia, and Huntington's Chorea. Persons with these neurological disorders often have a very abnormal gait, which motivates us to target gait for their potential detection. Some of the abnormalities involve the circumduction of legs, forward-bending, involuntary movements, etc. To detect such abnormalities in gait, we develop gait features from the key-points of the human pose, namely shoulders, elbows, hips, knees, ankles, etc. To evaluate the effectiveness of our gait features in detecting the abnormalities related to these diseases, we build a synthetic video dataset of persons mimicking the gait of persons with such disorders, considering the difficulty in finding a sufficient number of people with these disorders. We name it \textit{NeuroSynGait} video dataset. Experiments demonstrated that our gait features were indeed successful in detecting these abnormalities.
翻訳日:2022-10-28 12:06:23 公開日:2020-08-16
# GA-MSSR:RoboTradingのシャープとスターリング比を最大化する遺伝的アルゴリズム

GA-MSSR: Genetic Algorithm Maximizing Sharpe and Sterling Ratio Method for RoboTrading ( http://arxiv.org/abs/2008.09471v1 )

ライセンス: Link先を確認
Zezheng Zhang and Matloob Khushi(参考訳) 外国為替は世界最大の金融市場であり、また最も不安定な市場の一つである。 技術分析はフォレックス市場において重要な役割を担い、トレーディングアルゴリズムは機械学習技術を利用して設計されている。 ほとんどの文献は、歴史的価格情報と技術指標を訓練に用いた。 しかし、市場のノイズの性質はアルゴリズムの一貫性と利益性に影響を与える。 この問題に対処するため,我々は,技術指標と取引規則に由来する取引ルールの特徴をデザインした。 技術指標のパラメータは取引性能の最大化に最適化されている。 また,リスク調整されたリターンであるシャープとスターリング比(SSR)を計算し,損失の分散と大小化を図るために,新たなコスト関数を提案した。 自動ロボットトレーディング(RoboTrading)戦略は,GA-MSSRモデルを用いて提案した遺伝的アルゴリズムを最大化する。 実験は、2018年から2019年までの6つの主要通貨ペアの日内データに基づいて実施された。 その結果, 一定の正のリターンを示し, 最適化されたルールベースの特徴により, 取引システムの性能が優れていることがわかった。 最も高いリターンは5分間のAUDUSD通貨ペアを使用して年間320%だった。 さらに,提案モデルでは,最大ドローダウンや変動といったリスク要因に対して,ベンチマークモデルと比較して最高のパフォーマンスを実現している。 コードはhttps://github.com/zzzac/rule-based-forextrading-systemでアクセスできる。

Foreign exchange is the largest financial market in the world, and it is also one of the most volatile markets. Technical analysis plays an important role in the forex market and trading algorithms are designed utilizing machine learning techniques. Most literature used historical price information and technical indicators for training. However, the noisy nature of the market affects the consistency and profitability of the algorithms. To address this problem, we designed trading rule features that are derived from technical indicators and trading rules. The parameters of technical indicators are optimized to maximize trading performance. We also proposed a novel cost function that computes the risk-adjusted return, Sharpe and Sterling Ratio (SSR), in an effort to reduce the variance and the magnitude of drawdowns. An automatic robotic trading (RoboTrading) strategy is designed with the proposed Genetic Algorithm Maximizing Sharpe and Sterling Ratio model (GA-MSSR) model. The experiment was conducted on intraday data of 6 major currency pairs from 2018 to 2019. The results consistently showed significant positive returns and the performance of the trading system is superior using the optimized rule-based features. The highest return obtained was 320% annually using 5-minute AUDUSD currency pair. Besides, the proposed model achieves the best performance on risk factors, including maximum drawdowns and variance in return, comparing to benchmark models. The code can be accessed at https://github.com/zzzac/rule-based-forextrading-system
翻訳日:2022-10-28 12:06:07 公開日:2020-08-16
# フローベースニューラルボコーダにおける高忠実度音声生成のための音響デクエント化

Audio Dequantization for High Fidelity Audio Generation in Flow-based Neural Vocoder ( http://arxiv.org/abs/2008.06867v1 )

ライセンス: Link先を確認
Hyun-Wook Yoon, Sang-Hoon Lee, Hyeong-Rae Noh, Seong-Whan Lee(参考訳) 近年の研究では、フローベースのニューラルボコーダがリアルタイム音声生成タスクにおいて大幅に改善されている。 可逆フロー操作のシーケンスにより、モデルは単純な分布からサンプルをオーディオサンプルに変換することができる。 しかし, 離散音声データに対する連続密度モデルの学習は, 潜在分布と実分布の位相差により, モデル性能を低下させる可能性がある。 この問題を解決するため,フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。 データ量化は画像生成においてよく知られた手法であるが、まだ音声領域では研究されていない。 そこで我々は,フローベースニューラルボコーダに様々な音声復調手法を実装し,生成した音声に与える影響について検討する。 様々な客観的な性能評価と主観評価を行い、音声の復調により音質が向上することを示す。 実験では,高調波構造とデジタルアーチファクトの少ない波形音声を生成する。

In recent works, a flow-based neural vocoder has shown significant improvement in real-time speech generation task. The sequence of invertible flow operations allows the model to convert samples from simple distribution to audio samples. However, training a continuous density model on discrete audio data can degrade model performance due to the topological difference between latent and actual distribution. To resolve this problem, we propose audio dequantization methods in flow-based neural vocoder for high fidelity audio generation. Data dequantization is a well-known method in image generation but has not yet been studied in the audio domain. For this reason, we implement various audio dequantization methods in flow-based neural vocoder and investigate the effect on the generated audio. We conduct various objective performance assessments and subjective evaluation to show that audio dequantization can improve audio generation quality. From our experiments, using audio dequantization produces waveform audio with better harmonic structure and fewer digital artifacts.
翻訳日:2022-10-28 12:00:10 公開日:2020-08-16
# 患者病理と治療情報の統合を可能にするデジタル顕微鏡データの管理とアーカイブのためのオープンソースツール

Open source tools for management and archiving of digital microscopy data to allow integration with patient pathology and treatment information ( http://arxiv.org/abs/2008.06837v1 )

ライセンス: Link先を確認
Matloob Khushi, Georgina Edwards, Diego Alonso de Marcos, Jane E Carpenter, J Dinny Graham and Christine L Clarke(参考訳) 仮想顕微鏡には、組織学スライドのデジタル化と、がんなどの疾患の複雑な調査にコンピュータ技術の利用が含まれる。 しかし、そのようなデジタル画像の自動解析やウェブサイトの公開は、ファイルサイズが大きくなることで妨げられている。 我々は、snapshot creatorとndpi-splitterという2つのjavaベースのオープンソースツールを開発した。 Snapshot Creatorは、大きなデジタルスライドの一部を所望の品質JPEGイメージに変換する。 この画像は、オーストラリア乳癌組織バンク(ABCTB)で使用されているカスタマイズされたオープンソース癌データ管理ソフトウェア(Caisis)の患者の臨床および治療情報とリンクされ、その後Deep Zoomオープンソース技術を使用してABCTBのウェブサイトwww.abctb.org.auに公開された。 ABCTBオンライン検索エンジンを用いて、がんの種類やバイオマーカーなどの様々な基準を定義して、デジタル画像を検索することができる。 NDPI-Splitterは、大きな画像ファイルをTIFF画像の小さな部分に分割し、MetamorphやMatlabなどの画像解析ソフトウェアで容易に解析できるようにしている。 NDPI-Splitterは空の画像をフィルタリングする機能も備えている。 Snapshot CreatorとNDPI-Splitterは、新しいオープンソースのJavaツールである。 デジタルスライドをより小さなサイズのファイルに変換し、さらなる処理を行う。 Deep ZoomやCaisisといった他のオープンソースツールとともに、このツールスイートはデジタル顕微鏡画像の管理とアーカイブに使われ、デジタル化された画像をオンラインで探索およびズームすることができる。 当社のオンラインイメージリポジトリにも,教育リソースとして使用できる能力があります。 これらのツールは、画像分析のために大きなファイルを分割することもできる。

Virtual microscopy includes digitisation of histology slides and the use of computer technologies for complex investigation of diseases such as cancer. However, automated image analysis, or website publishing of such digital images, is hampered by their large file sizes. We have developed two Java based open source tools: Snapshot Creator and NDPI-Splitter. Snapshot Creator converts a portion of a large digital slide into a desired quality JPEG image. The image is linked to the patients clinical and treatment information in a customised open source cancer data management software (Caisis) in use at the Australian Breast Cancer Tissue Bank (ABCTB) and then published on the ABCTB website www.abctb.org.au using Deep Zoom open source technology. Using the ABCTB online search engine, digital images can be searched by defining various criteria such as cancer type, or biomarkers expressed. NDPI-Splitter splits a large image file into smaller sections of TIFF images so that they can be easily analysed by image analysis software such as Metamorph or Matlab. NDPI-Splitter also has the capacity to filter out empty images. Snapshot Creator and NDPI-Splitter are novel open source Java tools. They convert digital slides into files of smaller size for further processing. In conjunction with other open source tools such as Deep Zoom and Caisis, this suite of tools is used for the management and archiving of digital microscopy images, enabling digitised images to be explored and zoomed online. Our online image repository also has the capacity to be used as a teaching resource. These tools also enable large files to be sectioned for image analysis.
翻訳日:2022-10-28 11:59:52 公開日:2020-08-16
# ウェーブレットデノイングとアテンションに基づくRNN-ARIMAモデルによる価格予測

Wavelet Denoising and Attention-based RNN-ARIMA Model to Predict Forex Price ( http://arxiv.org/abs/2008.06841v1 )

ライセンス: Link先を確認
Zhiwen Zeng and Matloob Khushi(参考訳) forex市場におけるトレンドの変化は、投資家にとって大きなチャンスとリスクをもたらします。 フォレックス価格の正確な予測は、効果的なヘッジや投機戦略において重要な要素である。 しかし、フォレックス市場の複雑な性質は予測問題を困難にさせ、様々な学術分野から広範な研究が進められている。 本稿では,ウェーブレット雑音化,注意型リカレントニューラルネットワーク(arnn),自己回帰的統合移動平均(arima)を統合した新しい手法を提案する。 ウェーブレット変換は時系列からノイズを取り除き、データ構造を安定化させる。 ARNNモデルはシーケンス内のロバストおよび非線形関係をキャプチャし、ARIMAはシーケンシャル情報の線形相関によく適合する。 3つのモデルのハイブリッド化により、この方法論はforex marketのような動的システムをモデル化することができる。 USD/JPYの5分間データに対する実験は,ベースライン法よりも優れている。 ハイブリッドアプローチのルート平均二乗誤差(RMSE)は1.65で、方向精度は76%であった。

Every change of trend in the forex market presents a great opportunity as well as a risk for investors. Accurate forecasting of forex prices is a crucial element in any effective hedging or speculation strategy. However, the complex nature of the forex market makes the predicting problem challenging, which has prompted extensive research from various academic disciplines. In this paper, a novel approach that integrates the wavelet denoising, Attention-based Recurrent Neural Network (ARNN), and Autoregressive Integrated Moving Average (ARIMA) are proposed. Wavelet transform removes the noise from the time series to stabilize the data structure. ARNN model captures the robust and non-linear relationships in the sequence and ARIMA can well fit the linear correlation of the sequential information. By hybridization of the three models, the methodology is capable of modelling dynamic systems such as the forex market. Our experiments on USD/JPY five-minute data outperforms the baseline methods. Root-Mean-Squared-Error (RMSE) of the hybrid approach was found to be 1.65 with a directional accuracy of ~76%.
翻訳日:2022-10-28 11:59:00 公開日:2020-08-16
# 映像の画質評価をビジュアルストリーム接続で予測する

Visual stream connectivity predicts assessments of image quality ( http://arxiv.org/abs/2008.06939v1 )

ライセンス: Link先を確認
Elijah Bowen, Antonio Rodriguez, Damian Sowinski, Richard Granger(参考訳) 初期の視覚のいくつかの生物学的メカニズムは比較的よく理解されているが、画像類似性の人間の判断を正確に予測し説明する能力についてはまだ評価されていない。 初期の視覚でよく研究された単純な接続パターンから、類似性の精神物理学の新しい形式化を導き、知覚的類似性判断の正確かつ説明的な説明を提供する微分幾何学を示す。 これらの予測は、人間の行動報告に対する単純な回帰によってさらに改善され、より精巧な仮説上の神経接続パターンを構築するために使用される。 どちらのアプローチも、文献から認識されるイメージの忠実さの標準的な評価基準を上回り、類似性知覚の説明原理を提供する。

Some biological mechanisms of early vision are comparatively well understood, but they have yet to be evaluated for their ability to accurately predict and explain human judgments of image similarity. From well-studied simple connectivity patterns in early vision, we derive a novel formalization of the psychophysics of similarity, showing the differential geometry that provides accurate and explanatory accounts of perceptual similarity judgments. These predictions then are further improved via simple regression on human behavioral reports, which in turn are used to construct more elaborate hypothesized neural connectivity patterns. Both approaches outperform standard successful measures of perceived image fidelity from the literature, as well as providing explanatory principles of similarity perception.
翻訳日:2022-10-28 11:58:23 公開日:2020-08-16
# Mesorasi: 遅延集約によるポイントクラウド分析のアーキテクチャサポート

Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation ( http://arxiv.org/abs/2008.06967v1 )

ライセンス: Link先を確認
Yu Feng, Boyuan Tian, Tiancheng Xu, Paul Whatmough, Yuhao Zhu(参考訳) point cloud analyticsは、自動運転、ロボティクス、拡張現実など、さまざまな新興アプリケーションドメインにおいて、バッテリー駆動の組み込みおよびモバイルプラットフォームにおいて、効率が最重要となる重要なワークロードになる。 本稿では,その精度を維持しつつ,ポイントクラウド解析の性能とエネルギー効率を同時に向上するアルゴリズムアーキテクチャの共同設計システムであるMesorasiを提案する。 我々の最先端のポイントクラウドアルゴリズムの特徴は、構造的に畳み込みニューラルネットワーク(CNN)を連想させるが、ポイントクラウドアルゴリズムは、ポイントクラウドデータのユニークな特徴のため、固有の計算とメモリの非効率を示す。 効率的なポイントクラウドアルゴリズムを構築するための新しいアルゴリズムプリミティブである遅延集約を提案する。 遅延集約はパフォーマンスボトルネックを隠蔽し、ポイントクラウドアルゴリズムにおけるキー操作のほぼ分散性を利用して計算とメモリ冗長性を低減します。 遅延集約 ポイントクラウドアルゴリズムは、精度(-0.9%の損失から1.2%のゲイン)を維持しながら、モバイルGPU上で1.6倍のスピードアップと51.1%のエネルギー削減を達成する。 アルゴリズムの利点を最大化するために,他のSoCコンポーネントを変更することなく,モバイルシステム・オン・チップ(SoC)に統合可能な,現代のCNNアクセラレータのマイナー拡張を提案する。 追加のハードウェアサポートにより、Mesorasiは最大3.6倍のスピードアップを達成する。

Point cloud analytics is poised to become a key workload on battery-powered embedded and mobile platforms in a wide range of emerging application domains, such as autonomous driving, robotics, and augmented reality, where efficiency is paramount. This paper proposes Mesorasi, an algorithm-architecture co-designed system that simultaneously improves the performance and energy efficiency of point cloud analytics while retaining its accuracy. Our extensive characterizations of state-of-the-art point cloud algorithms show that, while structurally reminiscent of convolutional neural networks (CNNs), point cloud algorithms exhibit inherent compute and memory inefficiencies due to the unique characteristics of point cloud data. We propose delayed-aggregation, a new algorithmic primitive for building efficient point cloud algorithms. Delayed-aggregation hides the performance bottlenecks and reduces the compute and memory redundancies by exploiting the approximately distributive property of key operations in point cloud algorithms. Delayed-aggregation let point cloud algorithms achieve 1.6x speedup and 51.1% energy reduction on a mobile GPU while retaining the accuracy (-0.9% loss to 1.2% gains). To maximize the algorithmic benefits, we propose minor extensions to contemporary CNN accelerators, which can be integrated into a mobile Systems-on-a-Chip (SoC) without modifying other SoC components. With additional hardware support, Mesorasi achieves up to 3.6x speedup.
翻訳日:2022-10-28 11:57:46 公開日:2020-08-16
# 混乱しない:他の歩行者の干渉による人物の再識別

Do Not Disturb Me: Person Re-identification Under the Interference of Other Pedestrians ( http://arxiv.org/abs/2008.06963v1 )

ライセンス: Link先を確認
Shizhen Zhao, Changxin Gao, Jun Zhang, Hao Cheng, Chuchu Han, Xinyang Jiang, Xiaowei Guo, Wei-Shi Zheng, Nong Sang, Xing Sun(参考訳) 従来の人物再id設定では、切り抜かれた人物画像は個人別であると広く考えられている。 しかし、混み合っているシーンでは、オフ棚検出装置が複数の人を含む境界ボックスを生成し、背景歩行者や人間の閉塞が多数存在する。 対象と干渉歩行者の両方を含む収穫画像から抽出された表現には、注意深い情報が含まれる可能性がある。 これは間違った検索結果につながる。 そこで本稿では,Pedestrian-Interference Suppression Network (PISNet) と呼ばれる新しいディープネットワークを提案する。 PISNetはクエリガイド付アテンションブロック(QGAB)を活用して、クエリのガイダンスの下でギャラリー内のターゲットの機能を強化する。 さらに、誘導反転注意モジュールとマルチパーソン分離損失は、他の歩行者の干渉を抑制するためにQGABを促進する。 本手法は2つの歩行者対話型データセット上で評価され,提案手法が既存のre-id法に対して好適に機能することを示す。

In the conventional person Re-ID setting, it is widely assumed that cropped person images are for each individual. However, in a crowded scene, off-shelf-detectors may generate bounding boxes involving multiple people, where the large proportion of background pedestrians or human occlusion exists. The representation extracted from such cropped images, which contain both the target and the interference pedestrians, might include distractive information. This will lead to wrong retrieval results. To address this problem, this paper presents a novel deep network termed Pedestrian-Interference Suppression Network (PISNet). PISNet leverages a Query-Guided Attention Block (QGAB) to enhance the feature of the target in the gallery, under the guidance of the query. Furthermore, the involving Guidance Reversed Attention Module and the Multi-Person Separation Loss promote QGAB to suppress the interference of other pedestrians. Our method is evaluated on two new pedestrian-interference datasets and the results show that the proposed method performs favorably against existing Re-ID methods.
翻訳日:2022-10-28 11:50:57 公開日:2020-08-16
# 顔認識は性差別か? いや 性的な髪型や生物学は

Is Face Recognition Sexist? No, Gendered Hairstyles and Biology Are ( http://arxiv.org/abs/2008.06989v1 )

ライセンス: Link先を確認
V\'itor Albiero and Kevin W. Bowyer(参考訳) 最近のニュース記事は、顔の認識が「偏っている」「性差別的」「人種差別的」であると非難している。 研究文献では、偽の一致率と偽の非一致率の両方が高い女性に対して、顔認識精度が低いという見解が一致している。 しかし、女性に対する低い精度の原因を特定するための研究はほとんど発表されていない。 例えば、幅広いアルゴリズムとデータセットで女性の精度を低くする2019 Face Recognition Vendor Testでは、"Analyze cause and effect"という見出しで"What we did not do"を列挙している。 以上の結果が得られたデータセットを用いて,女性における顔認識精度の低下の主な原因を特定するための最初の実験的検討を行った。 テスト画像における同じ量の可視面の制御は、女性にとって明らかに高い偽の非一致率を逆転させる。 また、主成分分析では、2つの異なる女性のイメージが2つの異なるオスと本質的に類似していることが示され、おそらくは偽の一致率の違いを考慮に入れている。

Recent news articles have accused face recognition of being "biased", "sexist" or "racist". There is consensus in the research literature that face recognition accuracy is lower for females, who often have both a higher false match rate and a higher false non-match rate. However, there is little published research aimed at identifying the cause of lower accuracy for females. For instance, the 2019 Face Recognition Vendor Test that documents lower female accuracy across a broad range of algorithms and datasets also lists "Analyze cause and effect" under the heading "What we did not do". We present the first experimental analysis to identify major causes of lower face recognition accuracy for females on datasets where previous research has observed this result. Controlling for equal amount of visible face in the test images reverses the apparent higher false non-match rate for females. Also, principal component analysis indicates that images of two different females are inherently more similar than of two different males, potentially accounting for a difference in false match rates.
翻訳日:2022-10-28 11:50:05 公開日:2020-08-16
# AutoPose: ポース推定のためのマルチスケールブランチ集約検索

AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation ( http://arxiv.org/abs/2008.07018v1 )

ライセンス: Link先を確認
Xinyu Gong, Wuyang Chen, Yifan Jiang, Ye Yuan, Xianming Liu, Qian Zhang, Yuan Li, Zhangyang Wang(参考訳) 我々は,高精度かつ高解像度な2次元ポーズ推定に向けて,クロススケール接続の複数の並列分岐を自動的に検出できる新しいニューラルネットワーク探索(NAS)フレームワークであるAutoPoseを提案する。 近年,ポーズ推定のための高性能手作り畳み込みネットワークは,マルチスケール融合や高解像度表現への需要が高まっている。 しかし、現在のNASはスケール探索の柔軟性に限界があり、単一ブランチアーキテクチャの単純化された検索空間が主流である。 このような単純化は、異なるスケールでの情報の融合を制限し、高解像度表現の維持に失敗する。 presentedAutoPoseフレームワークは、セルレベルのマイクロ構造に加えて、マルチブランチスケールとネットワーク深さを検索できる。 探索空間をモチベーションとして,ネットワークレベルのアーキテクチャを強化学習により探索し,勾配法を用いてセルレベルの探索を行う,新しい二段階最適化手法を提案する。 2.5GPU日以内にAutoPoseは、MPIIデータセットにも転送可能なMS COCOデータセット上で、非常に競争力のあるアーキテクチャを見つけることができる。 私たちのコードはhttps://github.com/VITA-Group/AutoPose.comで利用可能です。

We present AutoPose, a novel neural architecture search(NAS) framework that is capable of automatically discovering multiple parallel branches of cross-scale connections towards accurate and high-resolution 2D human pose estimation. Recently, high-performance hand-crafted convolutional networks for pose estimation show growing demands on multi-scale fusion and high-resolution representations. However, current NAS works exhibit limited flexibility on scale searching, they dominantly adopt simplified search spaces of single-branch architectures. Such simplification limits the fusion of information at different scales and fails to maintain high-resolution representations. The presentedAutoPose framework is able to search for multi-branch scales and network depth, in addition to the cell-level microstructure. Motivated by the search space, a novel bi-level optimization method is presented, where the network-level architecture is searched via reinforcement learning, and the cell-level search is conducted by the gradient-based method. Within 2.5 GPU days, AutoPose is able to find very competitive architectures on the MS COCO dataset, that are also transferable to the MPII dataset. Our code is available at https://github.com/VITA-Group/AutoPose.
翻訳日:2022-10-28 11:49:27 公開日:2020-08-16
# クロスモダリティ3次元物体検出

Cross-Modality 3D Object Detection ( http://arxiv.org/abs/2008.10436v1 )

ライセンス: Link先を確認
Ming Zhu, Chao Ma, Pan Ji, Xiaokang Yang(参考訳) 本稿では,3次元物体検出のための画像と点雲の融合について,画像がより意味的情報を持ち,点雲が距離センシングを専門とする2つのモダリティの相補的性質に着目して検討する。 そこで本稿では,二眼画像と生点雲の両方を入力として,3次元物体検出のための2段階マルチモーダル融合ネットワークを提案する。 アーキテクチャ全体が二段階融合を促進する。 第1段階では、スパースポイントワイズ機能融合による3dプロポーザルの作成を目指している。 第1段階では,ネットワークが2d-3dの分類と回帰を同時に活用し,より優れた提案生成を可能にするジョイントアンカー機構をさらに活用する。 第2段階は2Dと3Dの提案領域で動作し、その密集した特徴を融合させる。 また,検出ネットワークで欠落したオブジェクトは,特に遠方対象に対してあまり多くないため,データ拡張手法としてステレオマッチングからの擬似LiDAR点を用いて,LiDAR点を密度化することを提案する。 KITTIデータセットを用いた実験により,提案した多段階融合がネットワークの表現性向上に役立つことが示された。

In this paper, we focus on exploring the fusion of images and point clouds for 3D object detection in view of the complementary nature of the two modalities, i.e., images possess more semantic information while point clouds specialize in distance sensing. To this end, we present a novel two-stage multi-modal fusion network for 3D object detection, taking both binocular images and raw point clouds as input. The whole architecture facilitates two-stage fusion. The first stage aims at producing 3D proposals through sparse point-wise feature fusion. Within the first stage, we further exploit a joint anchor mechanism that enables the network to utilize 2D-3D classification and regression simultaneously for better proposal generation. The second stage works on the 2D and 3D proposal regions and fuses their dense features. In addition, we propose to use pseudo LiDAR points from stereo matching as a data augmentation method to densify the LiDAR points, as we observe that objects missed by the detection network mostly have too few points especially for far-away objects. Our experiments on the KITTI dataset show that the proposed multi-stage fusion helps the network to learn better representations.
翻訳日:2022-10-28 11:49:10 公開日:2020-08-16
# 論理的問題に対する微分プライベートマルチエージェント計画

Differentially Private Multi-Agent Planning for Logistic-like Problems ( http://arxiv.org/abs/2008.06832v1 )

ライセンス: Link先を確認
Dayong Ye and Tianqing Zhu and Sheng Shen and Wanlei Zhou and Philip S. Yu(参考訳) 計画は、事前に計画を立てることで、エージェントの作業効率を改善するための主要なアプローチの1つである。 しかし、計画中、エージェントは個人情報をリークするリスクに直面している。 本稿では,ロジスティックな問題に対する強力なプライバシー保護計画手法を提案する。 このアプローチは,2つの課題に対処することで,既存のアプローチよりも優れています。 1)プライバシー、完全性、効率性を同時に達成し、 2) コミュニケーション制約に対処する。 これら2つの課題は、軍事環境でのロジスティクスやネットワークでのパケットルーティングなど、多くの現実世界のアプリケーションで広く見られる。 これら2つの課題に取り組むために、当社のアプローチでは差分プライバシー技術を採用しています。 本論文は,ロジスティックな問題に対するエージェントのプライバシを保護する手段として,マルチエージェント計画の分野に微分プライバシーを適用した最初の事例である。 理論上は、我々のアプローチの強力なプライバシーと完全性を証明し、その効率を実証する。 また、我々のアプローチの通信オーバーヘッドを理論的に分析し、その制御に差分プライバシーをどのように利用できるかを説明する。

Planning is one of the main approaches used to improve agents' working efficiency by making plans beforehand. However, during planning, agents face the risk of having their private information leaked. This paper proposes a novel strong privacy-preserving planning approach for logistic-like problems. This approach outperforms existing approaches by addressing two challenges: 1) simultaneously achieving strong privacy, completeness and efficiency, and 2) addressing communication constraints. These two challenges are prevalent in many real-world applications including logistics in military environments and packet routing in networks. To tackle these two challenges, our approach adopts the differential privacy technique, which can both guarantee strong privacy and control communication overhead. To the best of our knowledge, this paper is the first to apply differential privacy to the field of multi-agent planning as a means of preserving the privacy of agents for logistic-like problems. We theoretically prove the strong privacy and completeness of our approach and empirically demonstrate its efficiency. We also theoretically analyze the communication overhead of our approach and illustrate how differential privacy can be used to control it.
翻訳日:2022-10-28 11:48:49 公開日:2020-08-16
# 線形量子平均場制御/ゲームにおける連続時間におけるポリシー勾配のグローバル収束

Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control/Game in Continuous Time ( http://arxiv.org/abs/2008.06845v1 )

ライセンス: Link先を確認
Weichen Wang, Jiequn Han, Zhuoran Yang and Zhaoran Wang(参考訳) 強化学習は、環境と対話することで、潜在的に複数のエージェントの最適なポリシーを学ぶ強力なツールである。 エージェントの数が非常に大きくなるにつれて、システムは平均場問題によって近似することができる。 そのため、平均場制御(MFC)と平均場ゲーム(MFG)の新しい研究方向性を動機付けている。 本稿では,各エージェントが同一の線形状態遷移と二次コスト関数を持つと仮定した線形二次平均場制御とゲームに対するポリシー勾配法について検討する。 MFCとMFGの政策勾配に関する最近の研究の多くは離散時間モデルに基づいているが、我々はいくつかの分析技術が読者にとって興味深いような連続時間モデルに焦点を当てている。 MFC と MFG の双方に対して、政策勾配の更新を行い、線形速度で最適解に収束することを示し、合成シミュレーションにより検証した。 MFG に対しては、ナッシュ平衡の存在と特異性について十分な条件を提供する。

Reinforcement learning is a powerful tool to learn the optimal policy of possibly multiple agents by interacting with the environment. As the number of agents grow to be very large, the system can be approximated by a mean-field problem. Therefore, it has motivated new research directions for mean-field control (MFC) and mean-field game (MFG). In this paper, we study the policy gradient method for the linear-quadratic mean-field control and game, where we assume each agent has identical linear state transitions and quadratic cost functions. While most of the recent works on policy gradient for MFC and MFG are based on discrete-time models, we focus on the continuous-time models where some analyzing techniques can be interesting to the readers. For both MFC and MFG, we provide policy gradient update and show that it converges to the optimal solution at a linear rate, which is verified by a synthetic simulation. For MFG, we also provide sufficient conditions for the existence and uniqueness of the Nash equilibrium.
翻訳日:2022-10-28 11:48:34 公開日:2020-08-16
# SGG: Spinbot, Grammarly, GloVeを用いたフェイクニュース検出

SGG: Spinbot, Grammarly and GloVe based Fake News Detection ( http://arxiv.org/abs/2008.06854v1 )

ライセンス: Link先を確認
Akansha Gautam, Koteswar Rao Jerripothula(参考訳) 近年,低コスト化やアクセシビリティの容易化など,いくつかの理由により,オンラインニュースポータルを用いたニュースの消費が急増している。 しかし、このようなオンラインプラットフォームは、誤ってウェブ全体に偽情報を拡散する原因にもなっている。 誤情報を広める媒体として、しばしば誤用されている。 このような不正行為は、このような誤報や偽情報から身を守る、堅牢な自動偽ニュース検知システムを呼び起こす。 パラフレージング,文法チェック,単語埋め込みなどのツールを活用して,ロバストでシンプルな偽ニュース検出システムを提案する。 本稿では,ニュース記事の真偽を共同で発見する上で,これらのツールの可能性を探る。 特に、この目的のためにspinbot(パラフレーズ)、grammarly(文法チェック)、glove(単語埋め込み)ツールを活用しています。 これらのツールを使用することで、Fake News AMTデータセットとCelebrityデータセットに比較して、いくつかの重要な特徴と組み合わせることで、最先端の成果が得られる新たな特徴を抽出することができた。 さらに,提案手法は, クロスドメイン解析やマルチドメイン解析で明らかになったように, 既存の手法よりも堅牢であることがわかった。

Recently, news consumption using online news portals has increased exponentially due to several reasons, such as low cost and easy accessibility. However, such online platforms inadvertently also become the cause of spreading false information across the web. They are being misused quite frequently as a medium to disseminate misinformation and hoaxes. Such malpractices call for a robust automatic fake news detection system that can keep us at bay from such misinformation and hoaxes. We propose a robust yet simple fake news detection system, leveraging the tools for paraphrasing, grammar-checking, and word-embedding. In this paper, we try to the potential of these tools in jointly unearthing the authenticity of a news article. Notably, we leverage Spinbot (for paraphrasing), Grammarly (for grammar-checking), and GloVe (for word-embedding) tools for this purpose. Using these tools, we were able to extract novel features that could yield state-of-the-art results on the Fake News AMT dataset and comparable results on Celebrity datasets when combined with some of the essential features. More importantly, the proposed method is found to be more robust empirically than the existing ones, as revealed in our cross-domain analysis and multi-domain analysis.
翻訳日:2022-10-28 11:48:17 公開日:2020-08-16
# 効率とコンテクストサイズを改善するための予習変圧器への繰り返し付加

Adding Recurrence to Pretrained Transformers for Improved Efficiency and Context Size ( http://arxiv.org/abs/2008.07027v1 )

ライセンス: Link先を確認
Davis Yoshida, Allyson Ettinger, Kevin Gimpel(参考訳) 下流タスクのための事前訓練された変換器の微調整は、ここ数年でNLPの標準手法となっている。 これらのモデルの結果は印象的だが、最新のアーキテクチャで新しいモデルを事前訓練するのと同様に、それらを適用するのは非常に計算コストがかかる。 本稿では,学習時間と推論時間の両方でメモリ要求を低くする事前学習型トランスフォーマー言語モデルを提案する。 もう1つの利点は、多くのトランスフォーマーモデルが持つ固定されたコンテキストサイズ制約を取り除き、より柔軟な使用を可能にすることである。 GPT-2 言語モデルに適用すると,提案手法は PG-19 や WikiText-103 コーパスの未修正 GPT-2 モデルよりも,所定の計算量やメモリに対して,より複雑度が高いことが分かる。

Fine-tuning a pretrained transformer for a downstream task has become a standard method in NLP in the last few years. While the results from these models are impressive, applying them can be extremely computationally expensive, as is pretraining new models with the latest architectures. We present a novel method for applying pretrained transformer language models which lowers their memory requirement both at training and inference time. An additional benefit is that our method removes the fixed context size constraint that most transformer models have, allowing for more flexible use. When applied to the GPT-2 language model, we find that our method attains better perplexity than an unmodified GPT-2 model on the PG-19 and WikiText-103 corpora, for a given amount of computation or memory.
翻訳日:2022-10-28 11:42:33 公開日:2020-08-16
# 階層型自己蒸留を用いたカスケードチャネルプルーニング

Cascaded channel pruning using hierarchical self-distillation ( http://arxiv.org/abs/2008.06814v1 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 本稿では,教師,教官,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。 本手法は,対象学生と同一のアーキテクチャと重みを有する中間刈り込みレベルにおけるアシスタントの指導を行う。 本稿では,教師の勾配情報を用いて,各モデルを個別に訓練することを提案する。 生徒と教師のペアの相対的なサイズを考慮すると、この定式化は知識蒸留のキャパシティギャップとフィルタ塩分率更新のバイアスとの間に自然なトレードオフをもたらす。 VGG16およびResNet50アーキテクチャを用いたCIFAR10およびImageNet分類タスクにおける達成可能な精度とモデル圧縮の改善を示す。 様々なサイズの教育用アシスタントモデルを使うことの利点を示す広範な評価を提供する。

In this paper, we propose an approach for filter-level pruning with hierarchical knowledge distillation based on the teacher, teaching-assistant, and student framework. Our method makes use of teaching assistants at intermediate pruning levels that share the same architecture and weights as the target student. We propose to prune each model independently using the gradient information from its corresponding teacher. By considering the relative sizes of each student-teacher pair, this formulation provides a natural trade-off between the capacity gap for knowledge distillation and the bias of the filter saliency updates. Our results show improvements in the attainable accuracy and model compression across the CIFAR10 and ImageNet classification tasks using the VGG16and ResNet50 architectures. We provide an extensive evaluation that demonstrates the benefits of using a varying number of teaching assistant models at different sizes.
翻訳日:2022-10-28 11:42:17 公開日:2020-08-16
# より高速な人物再同定

Faster Person Re-Identification ( http://arxiv.org/abs/2008.06826v1 )

ライセンス: Link先を確認
Guan'an Wang, Shaogang Gong, Jian Cheng and Zengguang Hou(参考訳) 高速人物識別(ReID)は、人物画像を迅速かつ正確に検索することを目的としている。 最近の高速ReID法の主な考え方はハッシュアルゴリズムであり、コンパクトなバイナリコードを学び、高速ハミング距離とカウントソートを実行する。 しかし、高い精度(例えば2048年)のために非常に長いコードが必要であり、検索速度を損なう。 そこで本研究では,短いコードと長いコードとを相補的に使用し,高速化と精度の向上を両立した,新しいhash-to-fine(ctf)ハッシュコード探索手法を提案する。 より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。 具体的には、距離閾値最適化(DTO)アルゴリズムとともにオールインワン(AiO)フレームワークを設計する。 AiOでは、1つのモデルで異なる長さの複数の符号を同時に学習し、拡張する。 ピラミッド構造で複数のコードを学び、より短いコードを自己蒸留で模倣するように促す。 DTOは単純な最適化プロセスで複雑なしきい値探索問題を解き、精度と速度のバランスは1つのパラメータで容易に制御できる。 これは最適化対象をガウス累積分布関数によって最適化できる$F_{\beta}$スコアとして定式化する。 2つのデータセットにおける実験結果から,提案手法(ctf)は8%精度のみならず,5倍高速であることがわかった。 非hashing reidメソッドと比較すると、ctfは50\times$で同等の精度で高速である。 コードはhttps://github.com/wangguanan/light-reidで入手できる。

Fast person re-identification (ReID) aims to search person images quickly and accurately. The main idea of recent fast ReID methods is the hashing algorithm, which learns compact binary codes and performs fast Hamming distance and counting sort. However, a very long code is needed for high accuracy (e.g. 2048), which compromises search speed. In this work, we introduce a new solution for fast ReID by formulating a novel Coarse-to-Fine (CtF) hashing code search strategy, which complementarily uses short and long codes, achieving both faster speed and better accuracy. It uses shorter codes to coarsely rank broad matching similarities and longer codes to refine only a few top candidates for more accurate instance ReID. Specifically, we design an All-in-One (AiO) framework together with a Distance Threshold Optimization (DTO) algorithm. In AiO, we simultaneously learn and enhance multiple codes of different lengths in a single model. It learns multiple codes in a pyramid structure, and encourage shorter codes to mimic longer codes by self-distillation. DTO solves a complex threshold search problem by a simple optimization process, and the balance between accuracy and speed is easily controlled by a single parameter. It formulates the optimization target as a $F_{\beta}$ score that can be optimised by Gaussian cumulative distribution functions. Experimental results on 2 datasets show that our proposed method (CtF) is not only 8% more accurate but also 5x faster than contemporary hashing ReID methods. Compared with non-hashing ReID methods, CtF is $50\times$ faster with comparable accuracy. Code is available at https://github.com/wangguanan/light-reid.
翻訳日:2022-10-28 11:42:02 公開日:2020-08-16
# Poet:Eコマースのためのプロダクト指向ビデオキャピタ

Poet: Product-oriented Video Captioner for E-commerce ( http://arxiv.org/abs/2008.06880v1 )

ライセンス: Link先を確認
Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Jie Liu, Jingren Zhou, Hongxia Yang, Fei Wu(参考訳) 電子商取引では、製品プロモーションにユーザー生成ビデオが増えている。 ユーザーが予測した製品特性をナレーションするビデオ記述の生成は、プロモーションの成功に不可欠である。 従来のビデオキャプション手法は、ビデオに何が存在するのかを日常的に記述することに焦点を当てており、製品指向の動画キャプションには適さない。 そこで本研究では,製品指向のビデオキャプションフレームワークである poet を提案する。 Poetはまず、ビデオを製品指向の時空間グラフとして表現する。 そして,ビデオ関連製品の側面から,これらのグラフ上で知識を付加した時空間推定を行い,細粒度製品部品の特性の動的変化を捉える。 poetの知識活用モジュールは、知識フィルタリングと動的メモリモデリングを実行することで従来の設計とは異なる。 筆者らは,世代品質,製品側面のキャプチャ,語彙多様性に関する従来の手法よりも一貫した性能改善を達成していることを示す。 製品指向ビデオキャプションデータセット,バイヤー生成ファッションビデオデータセット(BFVD)とファン生成ファッションビデオデータセット(FFVD)の2つを対象に,Mobile Taobaoから収集した実験を行った。 我々は,映像キャプション問題と一般ビデオ解析問題の両方について,さらなる調査を促進するために,無感データセットをリリースする。

In e-commerce, a growing number of user-generated videos are used for product promotion. How to generate video descriptions that narrate the user-preferred product characteristics depicted in the video is vital for successful promoting. Traditional video captioning methods, which focus on routinely describing what exists and happens in a video, are not amenable for product-oriented video captioning. To address this problem, we propose a product-oriented video captioner framework, abbreviated as Poet. Poet firstly represents the videos as product-oriented spatial-temporal graphs. Then, based on the aspects of the video-associated product, we perform knowledge-enhanced spatial-temporal inference on those graphs for capturing the dynamic change of fine-grained product-part characteristics. The knowledge leveraging module in Poet differs from the traditional design by performing knowledge filtering and dynamic memory modeling. We show that Poet achieves consistent performance improvement over previous methods concerning generation quality, product aspects capturing, and lexical diversity. Experiments are performed on two product-oriented video captioning datasets, buyer-generated fashion video dataset (BFVD) and fan-generated fashion video dataset (FFVD), collected from Mobile Taobao. We will release the desensitized datasets to promote further investigations on both video captioning and general video analysis problems.
翻訳日:2022-10-28 11:40:50 公開日:2020-08-16
# SPL-MLL:マルチラベル学習のための予測可能なランドマークの選択

SPL-MLL: Selecting Predictable Landmarks for Multi-Label Learning ( http://arxiv.org/abs/2008.06883v1 )

ライセンス: Link先を確認
Junbing Li, Changqing Zhang, Pengfei Zhu, Baoyuan Wu, Lei Chen, Qinghua Hu(参考訳) しかし,異なるラベル間の相関が複雑になるため,多ラベル分類は依然として困難である。 さらに、入力といくつかの(重複)クラスの関係をモデル化することで、すべての可能なラベルを正確に予測することの難しさをさらに高める。 本研究では,入力(予測可能)に応じて予測が容易で,他のラベル(表現可能)を適切に復元できるランドマークとして,ラベルの小さなサブセットを選択することを提案する。 2段階の方法でランドマーク選択とランドマーク予測を分離する既存の手法とは異なり、提案アルゴリズムはSPL-MLL(Selecting Predictable Landmarks for Multi-Label Learning)と呼ばれ、ランドマーク選択、ランドマーク予測、ラベル回復を統一されたフレームワークで共同で行い、選択されたランドマークの表現性と予測可能性の両方を保証する。 我々は,ADM(Alternating Direction Method)を用いて問題を解決する。 実世界のデータセットに関する実証研究により,本手法は他の最先端手法よりも優れた分類性能が得られることが示された。

Although significant progress achieved, multi-label classification is still challenging due to the complexity of correlations among different labels. Furthermore, modeling the relationships between input and some (dull) classes further increases the difficulty of accurately predicting all possible labels. In this work, we propose to select a small subset of labels as landmarks which are easy to predict according to input (predictable) and can well recover the other possible labels (representative). Different from existing methods which separate the landmark selection and landmark prediction in the 2-step manner, the proposed algorithm, termed Selecting Predictable Landmarks for Multi-Label Learning (SPL-MLL), jointly conducts landmark selection, landmark prediction, and label recovery in a unified framework, to ensure both the representativeness and predictableness for selected landmarks. We employ the Alternating Direction Method (ADM) to solve our problem. Empirical studies on real-world datasets show that our method achieves superior classification performance over other state-of-the-art methods.
翻訳日:2022-10-28 11:40:29 公開日:2020-08-16
# ゼロショットセマンティックセグメンテーションのための文脈認識特徴生成

Context-aware Feature Generation for Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2008.06893v1 )

ライセンス: Link先を確認
Zhangxuan Gu, and Siyuan Zhou, and Li Niu, and Zihan Zhao, and Liqing Zhang(参考訳) 既存のセマンティックセグメンテーションモデルは、高密度なピクセル単位のアノテーションに大きく依存している。 アノテーションのプレッシャーを減らすために、私たちはゼロショットセマンティクスセグメンテーションという難しいタスクに焦点を当てています。 このタスクは、セマンティックワードの埋め込みを通じてカテゴリ間で知識を伝達することで実現できる。 本稿では,ゼロショットセグメンテーションのための新しい文脈認識特徴生成手法であるcagnetを提案する。 特に、画素単位の特徴が文脈情報に大きく依存しているという観測から、セグメンテーションネットワークにコンテキストモジュールを挿入してピクセル単位の文脈情報をキャプチャし、意味的単語埋め込みからより多様でコンテキスト対応な特徴を生成するプロセスを導く。 提案手法は,ゼロショットセグメンテーションのための3つのベンチマークデータセットの最先端結果を実現する。 コードは、https://github.com/bcmi/CaGNet-Zero-Shot-Semantic-Segmentationで入手できる。

Existing semantic segmentation models heavily rely on dense pixel-wise annotations. To reduce the annotation pressure, we focus on a challenging task named zero-shot semantic segmentation, which aims to segment unseen objects with zero annotations. This task can be accomplished by transferring knowledge across categories via semantic word embeddings. In this paper, we propose a novel context-aware feature generation method for zero-shot segmentation named CaGNet. In particular, with the observation that a pixel-wise feature highly depends on its contextual information, we insert a contextual module in a segmentation network to capture the pixel-wise contextual information, which guides the process of generating more diverse and context-aware features from semantic word embeddings. Our method achieves state-of-the-art results on three benchmark datasets for zero-shot segmentation. Codes are available at: https://github.com/bcmi/CaGNet-Zero-Shot-Semantic-Segmentation.
翻訳日:2022-10-28 11:40:09 公開日:2020-08-16
# ロバストな特徴に対する画像スタイライゼーション

Image Stylization for Robust Features ( http://arxiv.org/abs/2008.06959v1 )

ライセンス: Link先を確認
Iaroslav Melekhov, Gabriel J. Brostow, Juho Kannala, Daniyar Turmukhambetov(参考訳) 視点や外観の変化に頑健なローカル機能は、多くのコンピュータビジョンタスクにおいて不可欠である。 本研究では, 日中だけでなく, 天候, 季節の変動においても, 局所的な特徴の頑健さが向上するかどうかを考察する。 カラー拡張に加えて,画像のスタイリゼーションがロバストな特徴を学習する強力な方法であることを示す。 合成ホモグラフのみを用いた地上3D対応の訓練を行なわずに,視覚的局所化ベンチマークによる学習特徴の評価を行った。 トレーニングされた特徴ネットワークを使用して、長期的な視覚的ローカライゼーションと、自律運転のためのマップベースのローカライゼーションで競合する。

Local features that are robust to both viewpoint and appearance changes are crucial for many computer vision tasks. In this work we investigate if photorealistic image stylization improves robustness of local features to not only day-night, but also weather and season variations. We show that image stylization in addition to color augmentation is a powerful method of learning robust features. We evaluate learned features on visual localization benchmarks, outperforming state of the art baseline models despite training without ground-truth 3D correspondences using synthetic homographies only. We use trained feature networks to compete in Long-Term Visual Localization and Map-based Localization for Autonomous Driving challenges achieving competitive scores.
翻訳日:2022-10-28 11:39:27 公開日:2020-08-16
# 卓上ロールプレイングゲームのためのコンピュータ生成音楽

Computer-Generated Music for Tabletop Role-Playing Games ( http://arxiv.org/abs/2008.07009v1 )

ライセンス: Link先を確認
Lucas N. Ferreira, Levi H. S. Lelis and Jim Whitehead(参考訳) 本稿では,テーブルトップロールプレイングゲーム用のバックグラウンド音楽を生成するシステムであるbardo composerを提案する。 bardo composerは音声認識システムを使用してプレイヤーの音声をテキストに変換し、感情のモデルに従って分類する。 そこでbardo composerは,本論文で紹介する確率的ビーム探索の変種である確率的bi-objective beam searchを用いて,所望の感情を伝達する楽曲を生成するニューラルモデルを開発した。 被験者116名を対象にユーザ調査を行い,システムで生成した感情を正しく識別できるかどうかについて検討した。 私たちの研究では、YouTubeで利用可能なDungeons and DragonsキャンペーンであるCall of the Wildのために生成されたピースを使用しました。 以上の結果から,人体が生成した楽曲の感情を,人間によって書かれた楽曲の感情を正確に識別できることが示唆された。

In this paper we present Bardo Composer, a system to generate background music for tabletop role-playing games. Bardo Composer uses a speech recognition system to translate player speech into text, which is classified according to a model of emotion. Bardo Composer then uses Stochastic Bi-Objective Beam Search, a variant of Stochastic Beam Search that we introduce in this paper, with a neural model to generate musical pieces conveying the desired emotion. We performed a user study with 116 participants to evaluate whether people are able to correctly identify the emotion conveyed in the pieces generated by the system. In our study we used pieces generated for Call of the Wild, a Dungeons and Dragons campaign available on YouTube. Our results show that human subjects could correctly identify the emotion of the generated music pieces as accurately as they were able to identify the emotion of pieces written by humans.
翻訳日:2022-10-28 09:16:29 公開日:2020-08-16
# 胸部X線画像からの異物除去のための新しいアプローチ

A novel approach to remove foreign objects from chest X-ray images ( http://arxiv.org/abs/2008.06828v1 )

ライセンス: Link先を確認
Hieu X. Le, Phuong D. Nguyen, Thang H. Nguyen, Khanh N.Q. Le, Thanh T. Nguyen(参考訳) まず,chexphotoデータセットを用いて,スマートフォンカメラで撮影された胸部x線写真中の異物に対するディープラーニング手法を提案する。 コンピュータ支援診断予測の品質に著しく影響を及ぼす異物は、様々な設定下でキャプチャされる。 本稿では,胸部x線像の除去と塗装の両方にマルチメソッドを用いた。 まず、対象検出モデルは、与えられた画像から異物を切り離すように訓練される。 その後、セグメンテーションモデルを用いて各オブジェクトのバイナリマスクを抽出する。 次に、各対のバイナリマスクと抽出されたオブジェクトを塗装目的に使用する。 最後に、塗装された領域は元のイメージにマージされ、クリーンで外部に存在しない出力となる。 結論として,最先端の精度が得られた。 実験の結果,胸部x線像検出における新たな応用法が示唆された。

We initially proposed a deep learning approach for foreign objects inpainting in smartphone-camera captured chest radiographs utilizing the cheXphoto dataset. Foreign objects which can significantly affect the quality of a computer-aided diagnostic prediction are captured under various settings. In this paper, we used multi-method to tackle both removal and inpainting chest radiographs. Firstly, an object detection model is trained to separate the foreign objects from the given image. Subsequently, the binary mask of each object is extracted utilizing a segmentation model. Each pair of the binary mask and the extracted object are then used for inpainting purposes. Finally, the in-painted regions are now merged back to the original image, resulting in a clean and non-foreign-object-existing output. To conclude, we achieved state-of-the-art accuracy. The experimental results showed a new approach to the possible applications of this method for chest X-ray images detection.
翻訳日:2022-10-28 09:15:55 公開日:2020-08-16
# KutralNet: 火災認識のためのポータブルディープラーニングモデル

KutralNet: A Portable Deep Learning Model for Fire Recognition ( http://arxiv.org/abs/2008.06866v1 )

ライセンス: Link先を確認
Angel Ayala, Bruno Fernandes, Francisco Cruz, David Mac\^edo, Adriano L. I. Oliveira, and Cleber Zanchettin(参考訳) ほとんどの自動火災警報システムは、熱、煙、炎などのセンサーを通して火災を検知する。 この問題に対する新しいアプローチの1つは、画像を使用して検出を行うことである。 イメージアプローチは、特定のセンサーを必要とせず、異なるデバイスに組み込むことができるため、有望である。 しかし、高パフォーマンスに加えて、使用するディープラーニング手法の計算コストは、ポータブルデバイスへの展開にとって課題である。 本研究では,火災認識に浮動小数点演算(flops)を少なくする新しいディープラーニングアーキテクチャを提案する。 さらに,モデルの計算コストを低減するため,可搬的な火災認識手法を提案し,逆残差ブロックや奥行き畳み込み,オクターブといった現代的な手法を応用した。 実験の結果,本モデルではパラメータ数とフロップ数を著しく削減しながら精度が向上した。 私たちのモデルの1つは、FireNetよりも71パーセント少ないパラメータを示しながら、競争精度とAUROCのパフォーマンスを示しています。 提案手法はFireNetとFiSmoのデータセットを用いて評価する。 得られた結果は,フロップ数および取得パラメータの低減を考慮して,モバイル機器におけるモデルの実装に有望である。

Most of the automatic fire alarm systems detect the fire presence through sensors like thermal, smoke, or flame. One of the new approaches to the problem is the use of images to perform the detection. The image approach is promising since it does not need specific sensors and can be easily embedded in different devices. However, besides the high performance, the computational cost of the used deep learning methods is a challenge to their deployment in portable devices. In this work, we propose a new deep learning architecture that requires fewer floating-point operations (flops) for fire recognition. Additionally, we propose a portable approach for fire recognition and the use of modern techniques such as inverted residual block, convolutions like depth-wise, and octave, to reduce the model's computational cost. The experiments show that our model keeps high accuracy while substantially reducing the number of parameters and flops. One of our models presents 71\% fewer parameters than FireNet, while still presenting competitive accuracy and AUROC performance. The proposed methods are evaluated on FireNet and FiSmo datasets. The obtained results are promising for the implementation of the model in a mobile device, considering the reduced number of flops and parameters acquired.
翻訳日:2022-10-28 09:15:43 公開日:2020-08-16
# 部分注釈画像を用いた意味セグメンテーションのためのcnn分類器の訓練:ヒト大腿部mriおよび大腿部mriへの応用

Training CNN Classifiers for Semantic Segmentation using Partially Annotated Images: with Application on Human Thigh and Calf MRI ( http://arxiv.org/abs/2008.07030v1 )

ライセンス: Link先を確認
Chun Kit Wong, Stephanie Marchesseau, Maria Kalimeri, Tiang Siew Yap, Serena S. H. Teo, Lingaraj Krishna, Alfredo Franco-Obreg\'on, Stacey K. H. Tay, Chin Meng Khoo, Philip T. H. Lee, Melvin K. S. Leow, John J. Totman, Mary C. Stephenson(参考訳) 目的: ピクセルレベルラベルを持つ医用画像データセットは、画像が広い解剖学的カバレッジを持つ場合でも、限られた数の臓器または組織ラベルクラスに注釈をつける傾向がある。 教師付き学習では、通常は複数の分類器が必要である。 本研究では,複数のデータセットに異種アノテートされた全てのラベルクラスを,半教師付き学習に移行することなくセグメント化することで,一つの分類器を訓練する戦略を提案する。 方法: マスクはまず、私たちがプレゼンスマスクと呼ぶプロセスを通じて、ラベル画像から作成されました。 3つの存在マスキングモードが評価され, 主に注釈と無注釈のクラスに割り当てられた重み付けが異なる。 これらのマスクをトレーニング中の損失関数に適用し,無注釈クラスの影響を除去した。 結果: 公開されているCTデータセットに対する評価は, 存在マスキングがクラスジェネリック分類器の訓練に有効な方法であることを示している。 我々のクラスジェネリック分類器は複数のクラス固有分類器と組み合わせて動作することができるが、トレーニング期間は1つのクラス固有分類器に必要なものと似ている。 さらに、クラスジェネリック分類器は、より小さなデータセットでトレーニングされた場合、クラス固有の分類器を上回ることができる。 最後に、ヒト大腿MRIと頭蓋MRIのデータセットを社内で収集した際の評価結果から一貫した結果が得られた。 結語: 評価の結果, 存在マスキングは画像と解剖学的領域をまたいで, 訓練と推論の効率を著しく改善できることがわかった。 パフォーマンス向上は小さなデータセットでも観察できる。 意義: プレゼンスマスキング戦略は、手動の医療画像アノテーションに関連する計算資源とコストを削減できる。 すべてのコードはhttps://github.com/wong-ck/deepsegmentで公開されている。

Objective: Medical image datasets with pixel-level labels tend to have a limited number of organ or tissue label classes annotated, even when the images have wide anatomical coverage. With supervised learning, multiple classifiers are usually needed given these partially annotated datasets. In this work, we propose a set of strategies to train one single classifier in segmenting all label classes that are heterogeneously annotated across multiple datasets without moving into semi-supervised learning. Methods: Masks were first created from each label image through a process we termed presence masking. Three presence masking modes were evaluated, differing mainly in weightage assigned to the annotated and unannotated classes. These masks were then applied to the loss function during training to remove the influence of unannotated classes. Results: Evaluation against publicly available CT datasets shows that presence masking is a viable method for training class-generic classifiers. Our class-generic classifier can perform as well as multiple class-specific classifiers combined, while the training duration is similar to that required for one class-specific classifier. Furthermore, the class-generic classifier can outperform the class-specific classifiers when trained on smaller datasets. Finally, consistent results are observed from evaluations against human thigh and calf MRI datasets collected in-house. Conclusion: The evaluation outcomes show that presence masking is capable of significantly improving both training and inference efficiency across imaging modalities and anatomical regions. Improved performance may even be observed on small datasets. Significance: Presence masking strategies can reduce the computational resources and costs involved in manual medical image annotations. All codes are publicly available at https://github.com/wong-ck/DeepSegment.
翻訳日:2022-10-28 09:14:46 公開日:2020-08-16
# 調音特徴に基づく音声編集距離による語彙類似性の検出

Discovering Lexical Similarity Through Articulatory Feature-based Phonetic Edit Distance ( http://arxiv.org/abs/2008.06865v1 )

ライセンス: Link先を確認
Tafseer Ahmed, Muhammad Suffian Nizami, Muhammad Yaseen Khan(参考訳) 2つの言語間の語彙類似性(LS)は、遺伝的関係、相互の知性、語彙の他への使用など、多くの興味深い言語的洞察を明らかにする。 LSを評価する方法は様々である。 そこで,本稿では,音素の編集距離(ped)について,音韻的特徴を用いて文字のソフトな比較を行う方法を提案する。 このシステムは、単語を対応する国際音声アルファベット(IPA)に変換し、次にIPAの音声特徴に変換する。 その後,提案手法を用いて調音特徴の集合のリストを比較した。 例えば、ped はドイツ語のvater とペルシア語の pidar の編集距離を 0.82、ヘブライ語の shalom と arabic の salaam を 0.93、juxtapose の比較では ipa ベースの編集距離が 4 と 2 である。 6つの言語(アラビア語、ヒンディー語、マラタイ語、ペルシア語、サンスクリット語、ウルドゥー語)で実験が行われる。 そこで我々は,Universal Dependency corporaから音声単語リストの一部を抽出し,各言語に対するLSを評価した。 そこで,提案手法では,これらの言語間にスクリプトの違いや音の変動現象があるにもかかわらず,遺伝的親和性,類似性,借用/借用/貸出語が認められた。

Lexical Similarity (LS) between two languages uncovers many interesting linguistic insights such as genetic relationship, mutual intelligibility, and the usage of one's vocabulary into other. There are various methods through which LS is evaluated. In the same regard, this paper presents a method of Phonetic Edit Distance (PED) that uses a soft comparison of letters using the articulatory features associated with them. The system converts the words into the corresponding International Phonetic Alphabet (IPA), followed by the conversion of IPA into its set of articulatory features. Later, the lists of the set of articulatory features are compared using the proposed method. As an example, PED gives edit distance of German word vater and Persian word pidar as 0.82; and similarly, Hebrew word shalom and Arabic word salaam as 0.93, whereas for a juxtapose comparison, their IPA based edit distances are 4 and 2 respectively. Experiments are performed with six languages (Arabic, Hindi, Marathi, Persian, Sanskrit, and Urdu). In this regard, we extracted part of speech wise word-lists from the Universal Dependency corpora and evaluated the LS for every pair of language. Thus, with the proposed approach, we find the genetic affinity, similarity, and borrowing/loan-words despite having script differences and sound variation phenomena among these languages.
翻訳日:2022-10-28 09:14:18 公開日:2020-08-16
# DCR-Net: 共同対話行為認識と感性分類のための深層共対話型関係ネットワーク

DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification ( http://arxiv.org/abs/2008.06914v1 )

ライセンス: Link先を確認
Libo Qin, Wanxiang Che, Yangming Li, Minheng Ni, Ting Liu(参考訳) ダイアログシステムでは、対話行動認識と感情分類は、話者の意図を捉えるための2つの相関タスクであり、ダイアログ行動と感情は、別々に明示的な意図と暗黙的な意図を示すことができる。 既存のシステムのほとんどは、これらを個別のタスクとして扱うか、あるいは相互の相互作用と関係を明示的にモデル化することなく、暗黙の方法でパラメータを共有することで2つのタスクを共同でモデル化する。 そこで本研究では, 相互関係層を導入することにより, 相互行為を明示的に考慮し, 2つのタスク間の相互作用をモデル化する深層協調関係ネットワーク (dcr-net) を提案する。 さらに、提案する関係層を積み重ねることで、対話の複数のステップで徐々に相互知識を捉えることができる。 特に、異なる関係層とその効果を徹底的に研究する。 2つの公開データセット(mastodonとdailydialog)を用いた実験の結果,対話行動認識タスクにおけるf1スコア,感情分類では5.7%,12.4%,最先端ジョイントモデルでは4.3%,3.4%であった。 包括的分析は、2つのタスクとマルチステップインタラクションメカニズムの関係を明示的にモデル化することの有効性を実証的に検証する。 最後に、トランスフォーマー(bert)からの双方向エンコーダ表現をフレームワークに採用することで、両方のタスクにおけるパフォーマンスをさらに向上させます。

In dialog system, dialog act recognition and sentiment classification are two correlative tasks to capture speakers intentions, where dialog act and sentiment can indicate the explicit and the implicit intentions separately. Most of the existing systems either treat them as separate tasks or just jointly model the two tasks by sharing parameters in an implicit way without explicitly modeling mutual interaction and relation. To address this problem, we propose a Deep Co-Interactive Relation Network (DCR-Net) to explicitly consider the cross-impact and model the interaction between the two tasks by introducing a co-interactive relation layer. In addition, the proposed relation layer can be stacked to gradually capture mutual knowledge with multiple steps of interaction. Especially, we thoroughly study different relation layers and their effects. Experimental results on two public datasets (Mastodon and Dailydialog) show that our model outperforms the state-of-the-art joint model by 4.3% and 3.4% in terms of F1 score on dialog act recognition task, 5.7% and 12.4% on sentiment classification respectively. Comprehensive analysis empirically verifies the effectiveness of explicitly modeling the relation between the two tasks and the multi-steps interaction mechanism. Finally, we employ the Bidirectional Encoder Representation from Transformer (BERT) in our framework, which can further boost our performance in both tasks.
翻訳日:2022-10-28 09:13:51 公開日:2020-08-16
# 深部強化学習の重みに対する適応的同期手法

An adaptive synchronization approach for weights of deep reinforcement learning ( http://arxiv.org/abs/2008.06973v1 )

ライセンス: Link先を確認
S. Amirreza Badran, Mansoor Rezghi(参考訳) 深部Q-Networks (DQN) は深部強化学習の最もよく知られた手法の1つであり、深部学習を用いて作用値関数を近似する。 移動目標問題やサンプル間の相関といった多くの深層強化学習課題を解決することが、このモデルの主な利点である。 近年、DQNの様々な拡張があるが、いずれも移動目標の問題を克服するためにDQNと同様の手法を使用している。 上記の利点にもかかわらず、エージェントの行動によらず、一定のステップサイズでネットワークの重みを同期させることによって、適切に学習されたネットワークが失われる場合がある。 これらの失われたネットワークは、より多くの報酬を持つ状態につながる可能性があるため、将来のトレーニングのためにリプレイメモリに保存されるより良いサンプルとなる。 本稿では、DQNファミリーからこの問題に対処し、DQNで使用される神経重みの同期に適応的なアプローチを提案する。 この方法では、時間間隔の終端における基準によって測定されるエージェントの最近の挙動に基づいて重みの同期を行う。 本手法をテストするために,適応同期法を用いてDQN法と虹色法を調整した。 これらの調整手法を,よく知られたゲーム上での標準形式と比較し,同期方式の品質を確認した。

Deep Q-Networks (DQN) is one of the most well-known methods of deep reinforcement learning, which uses deep learning to approximate the action-value function. Solving numerous Deep reinforcement learning challenges such as moving targets problem and the correlation between samples are the main advantages of this model. Although there have been various extensions of DQN in recent years, they all use a similar method to DQN to overcome the problem of moving targets. Despite the advantages mentioned, synchronizing the network weight in a fixed step size, independent of the agent's behavior, may in some cases cause the loss of some properly learned networks. These lost networks may lead to states with more rewards, hence better samples stored in the replay memory for future training. In this paper, we address this problem from the DQN family and provide an adaptive approach for the synchronization of the neural weights used in DQN. In this method, the synchronization of weights is done based on the recent behavior of the agent, which is measured by a criterion at the end of the intervals. To test this method, we adjusted the DQN and rainbow methods with the proposed adaptive synchronization method. We compared these adjusted methods with their standard form on well-known games, which results confirm the quality of our synchronization methods.
翻訳日:2022-10-28 09:07:15 公開日:2020-08-16
# TopicBERT:マルチモーダルストリーミングソーシャルメディアトピック検出のためのトランスフォーマー変換学習に基づくメモリグラフアプローチ

TopicBERT: A Transformer transfer learning based memory-graph approach for multimodal streaming social media topic detection ( http://arxiv.org/abs/2008.06877v1 )

ライセンス: Link先を確認
Meysam Asgari-Chenaghlu, Mohammad-Reza Feizi-Derakhshi, Leili farzinvash, Mohammad-Ali Balafar, Cina Motamed(参考訳) バースト的な短いメッセージとそれぞれの大規模データスケールがさまざまなトピックに分散したソーシャルネットワークのリアルタイム性は、多くの研究者の関心を集めている。 ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。 これらの研究の多くは、ホットトピックの検出と追跡と、多くの未解決の質問を明らかにするのに役立つソーシャルメディアイベントのトレンドに基づいている。 これらのアルゴリズム、場合によってはソフトウェア製品は言語自体の性質に依存している。 しかし、教師なしデータマイニング手法のような他の手法は言語に依存しないが、包括的ソリューションに対する多くの要件は満たされていない。 有害な文法や新しいオンラインユーザによる単語を発明する騒々しい文章などの多くの研究課題は、優れたソーシャルネットワークトピックの検出と追跡手法の維持に挑戦している。 本研究では,インクリメンタルなコミュニティ検出アルゴリズムを組み合わせたトランスフォーマーを提案する。 一方、transformerは、異なるコンテキストにおける単語間の意味的関係を提供する。 一方,提案するグラフマイニング手法は,単純な構造規則により,結果のトピックを増大させる。 マルチモーダルデータ、画像、テキストから名前付きエンティティ認識を行い、名前付きエンティティをエンティティタイプにラベル付けし、抽出したトピックをチューニングする。 提案システムの全操作は、NoSQL技術の下で、ビッグデータの視点で適用されている。 ワーキングでシステマティックなソリューションを提供するため、mongodbとneo4jを2つの主要なデータベースシステムとして組み合わせました。 提案手法は,3つの異なるデータセットにおける他の手法と比較して高い精度とリコール率を示す。

Real time nature of social networks with bursty short messages and their respective large data scale spread among vast variety of topics are research interest of many researchers. These properties of social networks which are known as 5'Vs of big data has led to many unique and enlightenment algorithms and techniques applied to large social networking datasets and data streams. Many of these researches are based on detection and tracking of hot topics and trending social media events that help revealing many unanswered questions. These algorithms and in some cases software products mostly rely on the nature of the language itself. Although, other techniques such as unsupervised data mining methods are language independent but many requirements for a comprehensive solution are not met. Many research issues such as noisy sentences that adverse grammar and new online user invented words are challenging maintenance of a good social network topic detection and tracking methodology; The semantic relationship between words and in most cases, synonyms are also ignored by many of these researches. In this research, we use Transformers combined with an incremental community detection algorithm. Transformer in one hand, provides the semantic relation between words in different contexts. On the other hand, the proposed graph mining technique enhances the resulting topics with aid of simple structural rules. Named entity recognition from multimodal data, image and text, labels the named entities with entity type and the extracted topics are tuned using them. All operations of proposed system has been applied with big social data perspective under NoSQL technologies. In order to present a working and systematic solution, we combined MongoDB with Neo4j as two major database systems of our work. The proposed system shows higher precision and recall compared to other methods in three different datasets.
翻訳日:2022-10-28 09:05:55 公開日:2020-08-16
# openframing: mlを持ち込み、データをもたらします。 データと対話してフレームを発見する

OpenFraming: We brought the ML; you bring the data. Interact with your data and discover its frames ( http://arxiv.org/abs/2008.06974v1 )

ライセンス: Link先を確認
Alyssa Smith, David Assefa Tofu, Mona Jalal, Edward Edberg Halim, Yimeng Sun, Vidya Akavoor, Margrit Betke, Prakash Ishwar, Lei Guo, Derry Wijaya(参考訳) ジャーナリストがニュース記事をカバーすると、複数の角度や視点から物語をカバーできる。 例えば、新型コロナウイルス(covid-19)に関するニュース記事はマスク着用などの個人的予防活動に焦点が当てられ、別の記事は新型コロナウイルスの経済への影響に焦点が当てられるかもしれない。 これらの視点は「フレーム」と呼ばれ、使用すれば問題に対する大衆の認識や意見に影響を与える可能性がある。 テキスト文書中のフレームを解析・分類する Web ベースのシステムを提案する。 我々のゴールは、トピックモデリングとディープラーニングに基づく自動フレーム発見とラベル付けのための効果的なツールを、様々な分野の研究者が広く利用できるようにすることである。 この目的のために,様々な課題に対する事前学習済みフレーム分類モデルと,新規分類モデルをユーザ提供コーパス上でトレーニングするためのユーザフレンドリなパイプラインを提供する。 研究者は文書を提出し、文書のフレームを取得することができる。 ユーザが関与する度合いは柔軟で、選択した問題で事前トレーニングされたモデルを実行したり、ラベル付きドキュメントを提出したり、フレーム分類のための新しいモデルをトレーニングしたり、ラベル付きドキュメントを提出したり、ドキュメントの潜在的なフレームを取得することができる。 システムを構成するコードもオープンソース化され、十分にドキュメント化されています。 このシステムはGitHubページ https://github.com/davidatbu/openFraming.orgでオンライン公開されている。

When journalists cover a news story, they can cover the story from multiple angles or perspectives. A news article written about COVID-19 for example, might focus on personal preventative actions such as mask-wearing, while another might focus on COVID-19's impact on the economy. These perspectives are called "frames," which when used may influence public perception and opinion of the issue. We introduce a Web-based system for analyzing and classifying frames in text documents. Our goal is to make effective tools for automatic frame discovery and labeling based on topic modeling and deep learning widely accessible to researchers from a diverse array of disciplines. To this end, we provide both state-of-the-art pre-trained frame classification models on various issues as well as a user-friendly pipeline for training novel classification models on user-provided corpora. Researchers can submit their documents and obtain frames of the documents. The degree of user involvement is flexible: they can run models that have been pre-trained on select issues; submit labeled documents and train a new model for frame classification; or submit unlabeled documents and obtain potential frames of the documents. The code making up our system is also open-sourced and well-documented, making the system transparent and expandable. The system is available on-line at http://www.openframing.org and via our GitHub page https://github.com/davidatbu/openFraming .
翻訳日:2022-10-28 09:05:32 公開日:2020-08-16
# SECODA: セグメントと組み合わせによる異常検出

SECODA: Segmentation- and Combination-Based Detection of Anomalies ( http://arxiv.org/abs/2008.06869v1 )

ライセンス: Link先を確認
Ralph Foorthuis(参考訳) 本研究は、連続的および分類的属性を含むデータセットに対する、新しい汎用的非パラメトリック異常検出アルゴリズムであるSECODAを紹介する。 このメソッドは、属性値のユニークまたはスパースの組み合わせでケースを識別することが保証されている。 連続属性は、そのような値の組み合わせの頻度を正確に決定するために、繰り返し離散化される。 星座の概念、指数関数的に増加する重みと離散化切断点、そしてプラニングのヒューリスティックは、最適なイテレーション数で異常を検出するために用いられる。 さらに、アルゴリズムは低いメモリインプリントを持ち、実行時のパフォーマンスはデータセットのサイズと線形にスケールする。 シミュレーションおよび実生活データセットによる評価は、このアルゴリズムが複雑な多次元インスタンスを含む多くの異なる種類の異常を識別できることを示している。 データ品質のユースケースを実際のデータセットで評価すると、SECODAが現実の設定に関連性があり実用的な価値をもたらすことが示される。

This study introduces SECODA, a novel general-purpose unsupervised non-parametric anomaly detection algorithm for datasets containing continuous and categorical attributes. The method is guaranteed to identify cases with unique or sparse combinations of attribute values. Continuous attributes are discretized repeatedly in order to correctly determine the frequency of such value combinations. The concept of constellations, exponentially increasing weights and discretization cut points, as well as a pruning heuristic are used to detect anomalies with an optimal number of iterations. Moreover, the algorithm has a low memory imprint and its runtime performance scales linearly with the size of the dataset. An evaluation with simulated and real-life datasets shows that this algorithm is able to identify many different types of anomalies, including complex multidimensional instances. An evaluation in terms of a data quality use case with a real dataset demonstrates that SECODA can bring relevant and practical value to real-world settings.
翻訳日:2022-10-28 09:05:11 公開日:2020-08-16
# 物体検出における偽検出(正・負)

False Detection (Positives and Negatives) in Object Detection ( http://arxiv.org/abs/2008.06986v1 )

ライセンス: Link先を確認
Subrata Goswami(参考訳) 物体検出は視覚知覚システムの非常に重要な機能である。 HOGに基づく古典的物体検出の初期から近代的な深層学習に基づく検出まで、物体検出の精度は向上した。 2段検出器は通常、単段検出器よりも高い精度を持つ。 どちらのタイプの検出器も、画像の矩形領域の探索空間のある種の量子化を用いる。 量子化された要素は、真の対象よりもはるかに多い。 これらの境界ボックスをフィルタリングする方法は、偽陽性と偽陰性をもたらす可能性がある。 この実証実験は、ラベル付きデータによる偽陽性と負の低減方法を探求する。 . このプロセスでは、Openimage 2019 Object Detectionデータセットに不十分なラベル付けも発見された。

Object detection is a very important function of visual perception systems. Since the early days of classical object detection based on HOG to modern deep learning based detectors, object detection has improved in accuracy. Two stage detectors usually have higher accuracy than single stage ones. Both types of detectors use some form of quantization of the search space of rectangular regions of image. There are far more of the quantized elements than true objects. The way these bounding boxes are filtered out possibly results in the false positive and false negatives. This empirical experimental study explores ways of reducing false positives and negatives with labelled data.. In the process also discovered insufficient labelling in Openimage 2019 Object Detection dataset.
翻訳日:2022-10-28 08:58:54 公開日:2020-08-16
# AutoSimulate:(簡単に)学習する合成データ生成

AutoSimulate: (Quickly) Learning Synthetic Data Generation ( http://arxiv.org/abs/2008.08424v1 )

ライセンス: Link先を確認
Harkirat Singh Behl, At{\i}l{\i}m G\"une\c{s} Baydin, Ran Gal, Philip H.S. Torr, Vibhav Vineet(参考訳) 多くの機械学習問題で、大きなラベル付きデータセットを生成するために、シミュレーションがますます使われています。 近年の手法は,ReINFORCEのような勾配推定器に頼って,検証タスクの精度を最大化することを目的として,シミュレータパラメータの調整に重点を置いている。 しかし、これらのアプローチは、データ生成、モデルトレーニング、バリデーションパイプライン全体をブラックボックスとして扱うため、非常に高価であり、各イテレーションで複数のコストで客観的な評価を必要とする。 目的の新たな微分可能近似に基づく最適な合成データ生成のための効率的な代替案を提案する。 これにより、シミュレータを最適化できるが、これは非微分可能であり、各イテレーションでほんの少しのオーバーヘッドで1つの客観的評価しか必要としない。 提案手法が最適なデータ分布(最大$50\times$)を高速に見つけ、トレーニングデータ生成(最大$30\times$)を著しく削減し、実世界のテストデータセットにおける精度($+8.7\$$$)を従来の手法よりも向上させることを実証した。

Simulation is increasingly being used for generating large labelled datasets in many machine learning problems. Recent methods have focused on adjusting simulator parameters with the goal of maximising accuracy on a validation task, usually relying on REINFORCE-like gradient estimators. However these approaches are very expensive as they treat the entire data generation, model training, and validation pipeline as a black-box and require multiple costly objective evaluations at each iteration. We propose an efficient alternative for optimal synthetic data generation, based on a novel differentiable approximation of the objective. This allows us to optimize the simulator, which may be non-differentiable, requiring only one objective evaluation at each iteration with a little overhead. We demonstrate on a state-of-the-art photorealistic renderer that the proposed method finds the optimal data distribution faster (up to $50\times$), with significantly reduced training data generation (up to $30\times$) and better accuracy ($+8.7\%$) on real-world test datasets than previous methods.
翻訳日:2022-10-28 08:58:20 公開日:2020-08-16
# クロスグラフ表現学習による知識グラフの有効検証

Efficient Knowledge Graph Validation via Cross-Graph Representation Learning ( http://arxiv.org/abs/2008.06995v1 )

ライセンス: Link先を確認
Yaqing Wang, Fenglong Ma, Jing Gao(参考訳) 情報抽出の最近の進歩は、大規模テキストコーパスからのマイニングによる巨大な知識グラフ(KG)の自動構築を動機付けている。 しかし、騒がしい事実は自動抽出によって引き起こされる可能性があるkgに不可避に導入される。 kg内の事実(すなわち三重項)の正しさを検証するためには、事実の意味的意味を捉えて三重項をベクトル表現にマッピングするアプローチが考えられる。 知識グラフに対して多くの表現学習手法が開発されているが、これらの手法は検証には有効ではない。 彼らは通常、事実は正しいと仮定するので、ノイズの多い事実を過度に当てはめ、そのような事実を検出するのに失敗する可能性がある。 有効なKG検証に向けて、ターゲットKGのエラー検出を支援する補助情報源として、外部の人造KGを活用することを提案する。 外部KGは人為的な知識リポジトリ上に構築されており、精度が高い傾向にある。 一方で、テキストからの情報抽出によって構築されるターゲットkgは精度が低いが、人間によるリポジトリにない新規またはドメイン固有の事実をカバーできる。 この課題に対処するために,対象KGの事実を効率的に検証するために外部KGを活用するクロスグラフ表現学習フレームワークであるCrossValを提案する。 これは、その意味的意味に基づいて三重項を埋め込み、その正しさに基づいて各三重項に対する信頼度を推定することで達成される。 提案フレームワークは異なるドメインにまたがるデータセットについて評価する。 実験結果から,提案手法は大規模KGの最先端手法と比較して高い性能を示した。

Recent advances in information extraction have motivated the automatic construction of huge Knowledge Graphs (KGs) by mining from large-scale text corpus. However, noisy facts are unavoidably introduced into KGs that could be caused by automatic extraction. To validate the correctness of facts (i.e., triplets) inside a KG, one possible approach is to map the triplets into vector representations by capturing the semantic meanings of facts. Although many representation learning approaches have been developed for knowledge graphs, these methods are not effective for validation. They usually assume that facts are correct, and thus may overfit noisy facts and fail to detect such facts. Towards effective KG validation, we propose to leverage an external human-curated KG as auxiliary information source to help detect the errors in a target KG. The external KG is built upon human-curated knowledge repositories and tends to have high precision. On the other hand, although the target KG built by information extraction from texts has low precision, it can cover new or domain-specific facts that are not in any human-curated repositories. To tackle this challenging task, we propose a cross-graph representation learning framework, i.e., CrossVal, which can leverage an external KG to validate the facts in the target KG efficiently. This is achieved by embedding triplets based on their semantic meanings, drawing cross-KG negative samples and estimating a confidence score for each triplet based on its degree of correctness. We evaluate the proposed framework on datasets across different domains. Experimental results show that the proposed framework achieves the best performance compared with the state-of-the-art methods on large-scale KGs.
翻訳日:2022-10-28 08:57:39 公開日:2020-08-16
# 多層スパイクニューラルネットワークにおける初対スパイクデコーディングによる教師付き学習

Supervised Learning with First-to-Spike Decoding in Multilayer Spiking Neural Networks ( http://arxiv.org/abs/2008.06937v1 )

ライセンス: Link先を確認
Brian Gardner, Andr\'e Gr\"uning(参考訳) 実験的研究は、スパイクに基づく神経情報処理の概念を支持し、神経回路は、感覚刺激を迅速かつ効率的に表現するための時間的ベースの幅広いコーディング戦略を示す。 したがって、スパイクベースの計算を実世界の課題に取り組み、特にそのような理論を低消費電力の組み込みアプリケーションのためのニューロモルフィックシステムに移すことが望ましい。 そこで本研究では,階層型スパイクニューラルネットワークを学習し,高速で初歩的な解法に基づく分類問題を解くための教師付き学習手法を提案する。 提案した学習規則は,確率的に隠れたニューロンが発する複数のスパイクをサポートするが,決定論的出力層が生成する最初のスパイク応答に頼れば安定である。 これに加えて,入力データのコンパクト表現を形成するための,スパイクベースの符号化戦略についても検討する。 MNISTを含むいくつかのベンチマークデータセットに適用した学習規則の分類性能を示す。 学習ルールは、データから一般化することができ、少ない入力層と隠れ層ニューロンを含む制約付きネットワークアーキテクチャで使用しても成功できる。 さらに、画像データをコンパクトな時空間パターンに変換し、その後のネットワーク処理を行うための新しい符号化戦略である「スカンライン符号化」を強調する。 制約のある、しかし最適化されたネットワーク構造の設計と入力次元の削減は、神経形態学の応用に強い意味を持つ。

Experimental studies support the notion of spike-based neuronal information processing in the brain, with neural circuits exhibiting a wide range of temporally-based coding strategies to rapidly and efficiently represent sensory stimuli. Accordingly, it would be desirable to apply spike-based computation to tackling real-world challenges, and in particular transferring such theory to neuromorphic systems for low-power embedded applications. Motivated by this, we propose a new supervised learning method that can train multilayer spiking neural networks to solve classification problems based on a rapid, first-to-spike decoding strategy. The proposed learning rule supports multiple spikes fired by stochastic hidden neurons, and yet is stable by relying on first-spike responses generated by a deterministic output layer. In addition to this, we also explore several distinct, spike-based encoding strategies in order to form compact representations of presented input data. We demonstrate the classification performance of the learning rule as applied to several benchmark datasets, including MNIST. The learning rule is capable of generalising from the data, and is successful even when used with constrained network architectures containing few input and hidden layer neurons. Furthermore, we highlight a novel encoding strategy, termed `scanline encoding', that can transform image data into compact spatiotemporal patterns for subsequent network processing. Designing constrained, but optimised, network structures and performing input dimensionality reduction has strong implications for neuromorphic applications.
翻訳日:2022-10-28 08:56:53 公開日:2020-08-16