このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210116となっている論文です。

PDF登録状況(公開日: 20210116)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子アルゴリズムの微分

Quantum algorithmic differentiation ( http://arxiv.org/abs/2006.13370v2 )

ライセンス: Link先を確認
Giuseppe Colucci and Francesco Giacosa(参考訳) 本研究では,量子コンピューティングの文脈でアルゴリズムの微分を行うアルゴリズムを提案する。 アルゴリズムの2つのバージョンを示す。1つは完全量子であり、もう1つは古典的ステップ(ハイブリッドアプローチ)である。 量子コンピュータ上では基本関数の実装がすでに可能であるため,提案するスキームは容易に適用できる。 さらに、いくつかのステップ(例えば cnot 演算子)は、古典的ステップよりも量子コンピュータ上で高速である(あるいは高速になる)ので、量子アルゴリズムの微分はその古典的ステップに比べて有利であることを示すことができる。

In this work we present an algorithm to perform algorithmic differentiation in the context of quantum computing. We present two versions of the algorithm, one which is fully quantum and one which employees a classical step (hybrid approach). Since the implementation of elementary functions is already possible on quantum computers, the scheme that we propose can be easily applied. Moreover, since some steps (such as the CNOT operator) can (or will be) faster on a quantum computer than on a classical one, our procedure may ultimately demonstrate that quantum algorithmic differentiation has an advantage relative to its classical counterpart.
翻訳日:2023-05-13 00:33:00 公開日:2021-01-16
# 行列積密度演算子(Matrix Product Density Operators): ローカルな親 Hamiltonian はいつ存在するか?

Matrix Product Density Operators: when do they have a local parent Hamiltonian? ( http://arxiv.org/abs/2010.14682v2 )

ライセンス: Link先を確認
Chi-Fang Chen, Kohtaro Kato, and Fernando G.S.L. Brand\~ao(参考訳) 準局所親ハミルトニアンのギブス状態として行列積密度演算子(MPDO)を書けるかを検討する。 我々は、これが一般的なMPDOのケースであり、証拠を裏付けるものであると推測する。 親ハミルトニアンの局所性を調べるため、量子条件付き相互情報が指数関数的に崩壊するかどうかをチェックする。 我々が考えるMPDOは、1-入出力/2-アウトプット('Y-shaped')完全正の写像の連鎖から成り、すなわちMPDOは局所的な浄化を行う。 確率的チャネルと厳密な正のチャネルの条件付き相互情報の上界を導出し、そのチャネルの補正可能な代数が自明であれば指数関数的に崩壊することを示す。 また、簡単な修正可能な代数を持つすべてのY字チャネルに対する条件付き相互情報の指数関数的崩壊を意味する量子データ処理の不等式に関する予想も導入する。 さらに,近親だが同値でない従兄弟であるmpdoを局所的に測定した。 測定された状態の条件付き相互情報の指数的減衰には十分条件が与えられ、あるランダムmpdoに対して汎用的に真であることが数値的に確認される。

We study whether one can write a Matrix Product Density Operator (MPDO) as the Gibbs state of a quasi-local parent Hamiltonian. We conjecture this is the case for generic MPDO and give supporting evidences. To investigate the locality of the parent Hamiltonian, we take the approach of checking whether the quantum conditional mutual information decays exponentially. The MPDO we consider are constructed from a chain of 1-input/2-output (`Y-shaped') completely-positive maps, i.e. the MPDO have a local purification. We derive an upper bound on the conditional mutual information for bistochastic channels and strictly positive channels, and show that it decays exponentially if the correctable algebra of the channel is trivial. We also introduce a conjecture on a quantum data processing inequality that implies the exponential decay of the conditional mutual information for every Y-shaped channel with trivial correctable algebra. We additionally investigate a close but nonequivalent cousin: MPDO measured in a local basis. We provide sufficient conditions for the exponential decay of the conditional mutual information of the measured states, and numerically confirmed they are generically true for certain random MPDO.
翻訳日:2023-04-27 06:35:33 公開日:2021-01-16
# 単一光子源を有するヘラルド非破壊量子エンタングリングゲート

Heralded non-destructive quantum entangling gate with single-photon sources ( http://arxiv.org/abs/2010.14788v2 )

ライセンス: Link先を確認
Jin-Peng Li, Xuemei Gu, Jian Qin, Dian Wu, Xiang You, Hui Wang, Christian Schneider, Sven H\"ofling, Yong-Heng Huo, Chao-Yang Lu, Nai-Le Liu, Li Li, Jian-Wei Pan(参考訳) ヘラルド絡み込み量子ゲートは、大規模光学量子計算の実装に不可欠な要素である。 しかし、線形光学系における真の密閉ゲートとフリーフライング出力光子の実験実験は、パラメトリックダウンコンバージョンにおける本質的な確率的源と二重対放出によって妨げられた。 ここでは、マイクロピラーキャビティに埋め込まれた半導体量子ドットに基づくオンデマンド単一光子源を用いて、2つの単一光子の間で初めてヘラルド制御なし(cnot)動作を実証する。 cnotゲートの性能を特徴付けるため、平均量子ゲート忠実度は87.8\pm1.2$)%である。 アプリケーションとして、イベント対応のベルステートを83.4\pm2.4$)%で生成しました。 この結果は光子-光子量子論理ゲートの開発に向けた重要な一歩である。

Heralded entangling quantum gates are an essential element for the implementation of large-scale optical quantum computation. Yet, the experimental demonstration of genuine heralded entangling gates with free-flying output photons in linear optical system, was hindered by the intrinsically probabilistic source and double-pair emission in parametric down-conversion. Here, by using an on-demand single-photon source based on a semiconductor quantum dot embedded in a micro-pillar cavity, we demonstrate a heralded controlled-NOT (CNOT) operation between two single photons for the first time. To characterize the performance of the CNOT gate, we estimate its average quantum gate fidelity of ($87.8\pm1.2$)%. As an application, we generated event-ready Bell states with a fidelity of ($83.4\pm2.4$)%. Our results are an important step towards the development of photon-photon quantum logic gates.
翻訳日:2023-04-27 06:32:38 公開日:2021-01-16
# 機械学習から見たテンソルコア上の混合精度フェルミ演算子展開

Mixed Precision Fermi-Operator Expansion on Tensor Cores From a Machine Learning Perspective ( http://arxiv.org/abs/2101.06385v1 )

ライセンス: Link先を確認
Joshua Finkelstein, Justin Smith, Susan M. Mniszewski, Kipton Barros, Christian F. A. Negre, Emanuel H. Rubensson, Anders M. N. Niklasson(参考訳) 混合精度浮動小数点演算を用いた2次再帰的フェルミ演算拡張スキームを提案し、テンソルコアユニットを用いた電子構造計算を行う。 100テラフロップス以上の性能は、nvidiaのa100テンソルコアユニットの半精度浮動小数点演算で達成される。 二階帰納的フェルミ演算スキームは、量子力学的電子構造問題を解く一般化された微分可能なディープニューラルネットワーク構造によって定式化される。 重みとバイアス値を最適化し,収束に必要な層数を大幅に削減することで,ネットワークの高速化を図る。 また, この機械学習手法を用いて, 有限温度における電子状態の分数占有数を正確に表現するために, 再帰的フェルミ演算子展開の係数を最適化する方法を示す。

We present a second-order recursive Fermi-operator expansion scheme using mixed precision floating point operations to perform electronic structure calculations using tensor core units. A performance of over 100 teraFLOPs is achieved for half-precision floating point operations on Nvidia's A100 tensor core units. The second-order recursive Fermi-operator scheme is formulated in terms of a generalized, differentiable deep neural network structure, which solves the quantum mechanical electronic structure problem. We demonstrate how this network can be accelerated by optimizing the weight and bias values to substantially reduce the number of layers required for convergence. We also show how this machine learning approach can be used to optimize the coefficients of the recursive Fermi-operator expansion to accurately represent fractional occupation numbers of the electronic states at finite temperatures.
翻訳日:2023-04-15 01:08:25 公開日:2021-01-16
# sedat:tpm2.0によるセキュリティ強化デバイスアテスタ

SEDAT:Security Enhanced Device Attestation with TPM2.0 ( http://arxiv.org/abs/2101.06362v1 )

ライセンス: Link先を確認
Avani Dave, Monty Wiseman and David Safford(参考訳) リモート検査は、信頼できないデバイスの状態を検証する方法の1つである。 以前の研究では、ハードウェア、ソフトウェア、ハイブリッドアプローチを使用してデバイス状態のリモート検証を試みた。 その多くは、ハードウェアの修正や偽造問題の検出を行わない、ハードウェアの信頼の根源としてattestationキーを使用している。 加えて、検証者と証明者の間のセキュアな通信チャネルを持たないため、現代のセキュリティ攻撃の影響を受けやすい。 本稿では,セキュリティ強化通信チャネルを介してデバイスの遠隔検証を行うための新しい手法であるsedatを提案する。 SEDATはハードウェア、ファームウェア、ソフトウェア証明を実行する。 SEDATは、SPA(Single Packet Authorization)技術を用いて、検証者と証明者の間の通信プロトコルのセキュリティを強化する。 SEDATは、検証者がセキュアなチャネルを通じてオンデマンドのデバイス完全性と認証ステータスを取得する方法を提供する。 また、検証者は偽造ハードウェア、ファームウェアの変更、デバイス上のソフトウェアコードを検出することができる。 SEDATは、メーカーのルートCA証明書、プラットフォーム証明書、承認証明書(EK)、およびプラットフォームハードウェア認証を実行するための属性証明書を検証する。 SEDATはファームウェアを表す最初のツールであり、Integration Measurement Authority(IMA)イベントログはCanonical Event Logs(CEL)フォーマット(Trusted Computing Groupが推奨)である。 SEDATは私たちの知る限りでは、DoSに耐性を持ち、攻撃をリプレイするTrusted Platform Module (TPM2.0)を使ったエンドツーエンドのハードウェア、ファームウェア、ソフトウェアリモートの検証を示す最初の実装です。 SEDATは、ソフトウェアTPM2.0の引用チェックを使用して、証明者からTPM2.0の引用を検索し、再生後に検証できる最初のリモート検証器である。

Remote attestation is one of the ways to verify the state of an untrusted device. Earlier research has attempted remote verification of a devices' state using hardware, software, or hybrid approaches. Majority of them have used Attestation Key as a hardware root of trust, which does not detect hardware modification or counterfeit issues. In addition, they do not have a secure communication channel between verifier and prover, which makes them susceptible to modern security attacks. This paper presents SEDAT, a novel methodology for remote attestation of the device via a security enhanced communication channel. SEDAT performs hardware, firmware, and software attestation. SEDAT enhances the communication protocol security between verifier and prover by using the Single Packet Authorization (SPA) technique, which provides replay and Denial of Service (DoS) protection. SEDAT provides a way for verifier to get on-demand device integrity and authenticity status via a secure channel. It also enables the verifier to detect counterfeit hardware, change in firmware, and software code on the device. SEDAT validates the manufacturers` root CA certificate, platform certificate, endorsement certificate (EK), and attributes certificates to perform platform hardware attestation. SEDAT is the first known tool that represents firmware, and Integrity Measurement Authority (IMA) event logs in the Canonical Event Logs (CEL) format (recommended by Trusted Computing Group). SEDAT is the first implementation, to the best of our knowledge, that showcases end to end hardware, firmware, and software remote attestation using Trusted Platform Module (TPM2.0) which is resilient to DoS and replay attacks. SEDAT is the first remote verifier that is capable of retrieving a TPM2.0 quote from prover and validate it after regeneration, using a software TPM2.0 quote check.
翻訳日:2023-04-15 01:08:11 公開日:2021-01-16
# Som-Raychaudhuri時空における一般化Klein-Gordon発振器の研究

The study of the generalized Klein-Gordon oscillator in the context of the Som-Raychaudhuri space-time ( http://arxiv.org/abs/2101.06356v1 )

ライセンス: Link先を確認
Lan Zhong, Hao Chen, Hassan Hassanabadi, Zheng-Wen Long and Chao-Yun Long(参考訳) 本稿では,klein-gordonによって記述された相対論的スカラー粒子を,som-raychaudhuri時空における一様磁場と相互作用させる。 このシナリオでは、両流のハーン関数方程式の性質に基づいて、クーロンポテンシャルを考慮した対応するクライン-ゴルドン発振器と一般化されたクライン-ゴルドン発振器を別々に検討し、アハラノフ-ボーム効果の類似性を解析する。 このことから、パラメータ {\alpha} と振動子周波数 {\omega} を含む異なるパラメータとポテンシャルパラメータ {\xi}2が考慮された系のエネルギー固有値に与える影響も与える。

In this paper we study the relativistic scalar particle described by the Klein-Gordon interacts with the uniform magnetic field in the context of the Som-Raychaudhuri space-time. Based on the property of the biconfluent Heun function equation, the corresponding Klein-Gordon oscillator and generalized Klein-Gordon oscillator under considering the Coulomb potential are separately investigated, and the analogue of the Aharonov-Bohm effect is analyzed in this scenario. On this basis, we also give the influence of different parameters including the parameter {\alpha} and oscillator frequency {\omega}, and the potential parameter {\xi}2 on the energy eigenvalues of the considered systems.
翻訳日:2023-04-15 01:07:17 公開日:2021-01-16
# ミームの魔法を解き明かす:イメージミームの虚偽の指標を理解する

Dissecting the Meme Magic: Understanding Indicators of Virality in Image Memes ( http://arxiv.org/abs/2101.06535v1 )

ライセンス: Link先を確認
Chen Ling, Ihab AbuHilal, Jeremy Blackburn, Emiliano De Cristofaro, Savvas Zannettou, and Gianluca Stringhini(参考訳) 画像ミームが果たす役割はますます重要になってきていますが、ミームをソーシャルメディアでバイラルにする要素について、私たちはまだしっかりと理解していません。 本稿では,ソーシャルメディア上で広範にバイラルな画像ミームと,再共有されない画像ミームを,構成,主題,対象オーディエンスという3次元で区別する視覚要素について検討する。 美術理論,心理学,マーケティング,神経科学の研究から,画像ミームを特徴付けるコードブックを開発し,それを4chanの政治不正委員会(/pol/)から収集した100枚の画像ミームに注釈付けする。 一方、非常にバイラルなミームは、クローズアップスケールを使用し、文字を包含し、ポジティブまたはネガティブな感情を含む傾向にある。 一方、視聴者が注目できる明確な主題を提示しない画像ミームや、長いテキストを含む画像ミームは、利用者によって再共有されそうにない。 我々は機械学習モデルをトレーニングし、バイラル化しやすい画像ミームと再共有できない画像ミームを区別し、データセットで0.866のAUCを取得する。 また、われわれのモデルで特定されたバイラル性の指標は、主流のオンラインソーシャルネットワークに投稿された最もバイラルなミームを特徴づけるのに役立つことも示している。 概して、本分析は、どの指標がオンラインのバイラルおよび非ウイルスの視覚コンテンツを特徴付けるかを明らかにし、視聴者の注意を引かせる可能性のあるコンテンツを作成または適度に作成するためのより良い技術を開発するための基礎を定めている。

Despite the increasingly important role played by image memes, we do not yet have a solid understanding of the elements that might make a meme go viral on social media. In this paper, we investigate what visual elements distinguish image memes that are highly viral on social media from those that do not get re-shared, across three dimensions: composition, subjects, and target audience. Drawing from research in art theory, psychology, marketing, and neuroscience, we develop a codebook to characterize image memes, and use it to annotate a set of 100 image memes collected from 4chan's Politically Incorrect Board (/pol/). On the one hand, we find that highly viral memes are more likely to use a close-up scale, contain characters, and include positive or negative emotions. On the other hand, image memes that do not present a clear subject the viewer can focus attention on, or that include long text are not likely to be re-shared by users. We train machine learning models to distinguish between image memes that are likely to go viral and those that are unlikely to be re-shared, obtaining an AUC of 0.866 on our dataset. We also show that the indicators of virality identified by our model can help characterize the most viral memes posted on mainstream online social networks too, as our classifiers are able to predict 19 out of the 20 most popular image memes posted on Twitter and Reddit between 2016 and 2018. Overall, our analysis sheds light on what indicators characterize viral and non-viral visual content online, and set the basis for developing better techniques to create or moderate content that is more likely to catch the viewer's attention.
翻訳日:2023-04-15 01:04:41 公開日:2021-01-16
# ランダム性に基づくマクロフランソン型非局所相関

Randomness-based macroscopic Franson-type nonlocal correlation ( http://arxiv.org/abs/2101.06463v1 )

ライセンス: Link先を確認
B. S. Ham(参考訳) フランソン型非局所相関は、非干渉干渉計を用いたベル不等式違反の試験ツールであり、非干渉光子対間のg^((1))相関の干渉線を含む。 ベルの不等式と同様に、フランソン相関は光子対の微細な構造にも制限される。 ここでは,レーザー光の偏光・ベイシスコヒーレント重ね合わせを用いてランダム性に基づく巨視的フランソン型非局所相関を示し,2成分正規直交基底間の確率的ランダム性がベル不等式とg^((1))相関の両方に重要な役割を果たすことを示した。 従来は光子の粒子の性質に制限されていた量子性の理解に矛盾せず、フランソン相関はコヒーレント重ね合わせによってマクロな状態の一般的なスキームにまで拡張できる。

Franson-type nonlocal correlation is a testing tool for Bell inequality violation using noninterfering interferometers, where coincidence measurements involve an interference fringe of g^((1)) correlation between noninterfering photon pairs. Like the Bell inequality, Franson correlation is also limited to a microscopic regime of entangled photon pairs. Here, randomness-based macroscopic Franson-type nonlocal correlation is presented using polarization-basis coherent superposition of laser light, where probabilistic randomness between bipartite orthonormal bases plays an important role for both Bell inequality and the g^((1)) correlation. Without contradiction to the conventional understanding of quantumness limited by the particle nature of photons, the proposed Franson correlation can also be extended to a general scheme of macroscopic regimes via coherent superposition.
翻訳日:2023-04-15 01:03:40 公開日:2021-01-16
# 双方向フォトニック量子エンタングルメント転送インタフェース

A two-way photonic quantum entanglement transfer interface ( http://arxiv.org/abs/2101.06432v1 )

ライセンス: Link先を確認
Yiwen Huang, Yuanhua Li, Zhantong Qi, Juan Feng, Yuanlin Zheng, Xianfeng Chen(参考訳) 自由空間における軌道角運動量自由度と光ファイバーにおける時間エネルギー自由度との間の双方向の絡み合い伝達のための量子インターフェースは、遠隔ヘテロジニアス量子ノード間の絡み合いを確立する新しい方法を提供する。 本稿では,2つの干渉式サイクリックゲートを用いて,この種の伝達界面を実験的に実証する。 この量子インタフェースを用いることで、2つの自由度に対する双方向の絡み合い転送を行う。 その結果、量子絡み合った状態は軌道角運動量と時間エネルギー自由度の間で前後に切り替わることができ、スイッチング前後の状態の忠実度は90%以上であることがわかった。 本研究は,提案する転送インタフェースの実現可能性と高性能を実証し,大規模量子通信ネットワーク構築への道を開く。

A quantum interface for two-way entanglement transfer between orbital angular momentum degree of freedom in free space and time-energy degree of freedom in optical fibers, provides a novel way toward establishing entanglement between remote heterogeneous quantum nodes. Here, we experimentally demonstrate this kind of transfer interface by using two interferometric cyclic gates. By using this quantum interface, we perform two-way entanglement transfer for the two degrees of freedom. The results show that the quantum entangled state can be switched back and forth between orbital angular momentum and time-energy degrees of freedom, and the fidelity of the state before and after switching is higher than 90%. Our work demonstrates the feasibility and high performance of our proposed transfer interface, and paves a route toward building a large-scale quantum communication network.
翻訳日:2023-04-15 01:02:51 公開日:2021-01-16
# 超一般化指数双曲ポテンシャルの重中間子の質量スペクトル予測への適用性に関する解析的研究

Analytical study on the Applicability of Ultra Generalized Exponential Hyperbolic Potential to Predict the Mass Spectra of the Heavy Mesons ( http://arxiv.org/abs/2101.06389v1 )

ライセンス: Link先を確認
E. P. Inyang, E. P. Inyang, J.E.Ntibi, E. E. Ibekwe, and E. S. William(参考訳) 我々はNikiforov-Uvarov法を用いて解析的にクライン=ゴードン方程式を解き、超一般化指数双曲ポテンシャルを持つラゲール多項式のエネルギー固有値と対応する波動関数を得た。 本結果は、異なる量子状態に対するチャーモニウム(cc)やボトニウム(cc)などの重い中間子の質量スペクトルを計算するために応用される。 このポテンシャルは、他の研究者の最大誤差と作業量を持つ実験データと比較して優れた結果をもたらす。

We solved the Klein-Gordon equation analytically using the Nikiforov-Uvarov method to obtain the energy eigenvalues and corresponding wavefunction in terms of Laguerre polynomials with the ultra generalized exponential hyperbolic potential. The present results are applied for calculating the mass spectra of heavy mesons such as charmonium (cc) and bottomonium (cc) for different quantum states. The present potential provides excellent results in comparison with experimental data with a maximum error of and work of other researchers.
翻訳日:2023-04-15 01:01:28 公開日:2021-01-16
# カメラ内監視者再確認

Intra-Camera Supervised Person Re-Identification ( http://arxiv.org/abs/2002.05046v3 )

ライセンス: Link先を確認
Xiangping Zhu, Xiatian Zhu, Minxian Li, Pietro Morerio, Vittorio Murino, and Shaogang Gong(参考訳) 既存の人物再識別(re-id)手法は、主に多数のカメラ間idラベル付きトレーニングデータを利用する。 これは退屈なデータ収集とアノテーションプロセスを必要とするため、実用的なre-idアプリケーションではスケーラビリティが低下する。 一方、教師なしのre-idメソッドは識別ラベル情報を必要としないが、通常はモデルの性能が劣っている。 このような基本的な制約を克服するために,カメラ単位の独立性アノテーションに基づく新しい人物識別パラダイムを提案する。 これにより、最も時間がかかり、面倒なカメラ間アイデンティティラベリングプロセスがなくなり、人間のアノテーションの労力を大幅に削減する。 その結果,マルチtAsk mulTi-labEl (MATE) 深層学習法を定式化したICS (Intra-Camera Supervised) person re-id という,よりスケーラブルで実現可能な設定が可能になった。 具体的には、MATEは、カメラごとのマルチタスク推論フレームワークにおいて、クロスカメラアイデンティティ対応を自己発見するために設計されている。 大規模な実験では、3つの大人物のre-idデータセットに対する代替手法よりもコスト効率が優れていることを示した。 例えば、mate は ics person re-id 設定において market-1501 で 88.7% のランク-1スコアを獲得し、教師なし学習モデルを大幅に上回り、従来の完全教師付き学習競合に近づいた。

Existing person re-identification (re-id) methods mostly exploit a large set of cross-camera identity labelled training data. This requires a tedious data collection and annotation process, leading to poor scalability in practical re-id applications. On the other hand unsupervised re-id methods do not need identity label information, but they usually suffer from much inferior and insufficient model performance. To overcome these fundamental limitations, we propose a novel person re-identification paradigm based on an idea of independent per-camera identity annotation. This eliminates the most time-consuming and tedious inter-camera identity labelling process, significantly reducing the amount of human annotation efforts. Consequently, it gives rise to a more scalable and more feasible setting, which we call Intra-Camera Supervised (ICS) person re-id, for which we formulate a Multi-tAsk mulTi-labEl (MATE) deep learning method. Specifically, MATE is designed for self-discovering the cross-camera identity correspondence in a per-camera multi-task inference framework. Extensive experiments demonstrate the cost-effectiveness superiority of our method over the alternative approaches on three large person re-id datasets. For example, MATE yields 88.7% rank-1 score on Market-1501 in the proposed ICS person re-id setting, significantly outperforming unsupervised learning models and closely approaching conventional fully supervised learning competitors.
翻訳日:2023-01-01 20:13:22 公開日:2021-01-16
# 観光需要予測 : 深層学習のアプローチ

Tourism Demand Forecasting: An Ensemble Deep Learning Approach ( http://arxiv.org/abs/2002.07964v3 )

ライセンス: Link先を確認
Shaolong Sun, Yanzhao Li, Ju-e Guo, Shouyang Wang(参考訳) 観光関連ビッグデータの可用性は、観光需要予測の精度を向上させる可能性を高めるが、次元の呪いや高モデル複雑さなど、予測に大きな課題をもたらす。 本研究では,スタック化されたオートエンコーダとカーネルベースの極端学習マシン(B-SAKE)を統合した,バッグングに基づく多変量アンサンブル深層学習手法を提案する。 歴史的来訪データ,経済変動データ,検索強度指数(sii)データを用いて,4カ国から北京への来訪を予測した。 複数のスキームによる一貫した結果から,B-SAKE手法は,レベル精度,方向精度,統計的意義の点でベンチマークモデルより優れていることが示唆された。 バッグングと積み重ねオートエンコーダは、観光ビッグデータがもたらす課題を効果的に軽減し、モデルの予測性能を向上させる。 本提案のアンサンブル深層学習モデルは,観光予測文献に寄与し,関連する政府職員や観光業者の便益にも寄与する。

The availability of tourism-related big data increases the potential to improve the accuracy of tourism demand forecasting, but presents significant challenges for forecasting, including curse of dimensionality and high model complexity. A novel bagging-based multivariate ensemble deep learning approach integrating stacked autoencoders and kernel-based extreme learning machines (B-SAKE) is proposed to address these challenges in this study. By using historical tourist arrival data, economic variable data and search intensity index (SII) data, we forecast tourist arrivals in Beijing from four countries. The consistent results of multiple schemes suggest that our proposed B-SAKE approach outperforms benchmark models in terms of level accuracy, directional accuracy and even statistical significance. Both bagging and stacked autoencoder can effectively alleviate the challenges brought by tourism big data and improve the forecasting performance of the models. The ensemble deep learning model we propose contributes to tourism forecasting literature and benefits relevant government officials and tourism practitioners.
翻訳日:2022-12-30 14:39:22 公開日:2021-01-16
# ISO 24617-2 のダイアログアクトアノテーション標準による汎用通信関数の自動認識

Automatic Recognition of the General-Purpose Communicative Functions defined by the ISO 24617-2 Standard for Dialog Act Annotation ( http://arxiv.org/abs/2003.03556v2 )

ライセンス: Link先を確認
Eug\'enio Ribeiro, Ricardo Ribeiro, and David Martins de Matos(参考訳) ダイアログアクトアノテーションの標準であるISO 24617-2は、階層的に整理された汎用的なコミュニケーション関数の集合を定義する。 これらの機能の自動認識は、実際には探索されていないが、セグメントの背後にある意図やその解釈方法に関する手がかりを提供するため、ダイアログシステムに関係している。 この基準に従って注釈付けされたダイアログの参照集合であるダイアログバンクにおける汎用コミュニケーション機能の認識について検討する。 そこで本研究では, 階層的分類問題に対処するために, フラットダイアログ行為認識への既存手法の適用を提案する。 具体的には,各階層レベルでの伝達関数を予測し,経路内の関数間の依存関係を保ち,どのレベルが停止するかを決定するために,カスケード出力と後方経路推定を最大化する階層ネットワークの利用を提案する。 さらに,ダイアログバンクにおけるダイアログの量が減少しているため,オーバーフィッティングの削減と性能向上のために,転送学習プロセスに依存している。 実験の結果,階層的アプローチはフラットなアプローチよりも優れており,各コンポーネントは汎用的なコミュニケーション機能認識において重要な役割を担っていることがわかった。

ISO 24617-2, the standard for dialog act annotation, defines a hierarchically organized set of general-purpose communicative functions. The automatic recognition of these functions, although practically unexplored, is relevant for a dialog system, since they provide cues regarding the intention behind the segments and how they should be interpreted. We explore the recognition of general-purpose communicative functions in the DialogBank, which is a reference set of dialogs annotated according to this standard. To do so, we propose adaptations of existing approaches to flat dialog act recognition that allow them to deal with the hierarchical classification problem. More specifically, we propose the use of a hierarchical network with cascading outputs and maximum a posteriori path estimation to predict the communicative function at each level of the hierarchy, preserve the dependencies between the functions in the path, and decide at which level to stop. Furthermore, since the amount of dialogs in the DialogBank is reduced, we rely on transfer learning processes to reduce overfitting and improve performance. The results of our experiments show that the hierarchical approach outperforms a flat one and that each of its components plays an important role towards the recognition of general-purpose communicative functions.
翻訳日:2022-12-25 19:50:10 公開日:2021-01-16
# d-square-b:自然敵攻撃のための深い分布

D-square-B: Deep Distribution Bound for Natural-looking Adversarial Attack ( http://arxiv.org/abs/2006.07258v2 )

ライセンス: Link先を確認
Qiuling Xu, Guanhong Tao and Xiangyu Zhang(参考訳) 本研究では, 分布量子境界と多項式バリア損失関数を用いて, 内部活性化値に誘導される変動を有界にすることで, 自然対向例を生成できる手法を提案する。 個々のピクセルの代わりにモデル内部をバウンディングすることで、我々の攻撃は元の入力の既存の特徴と密接に結合した摂動を認め、生成された例が元の入力から多様でしばしば実質的なピクセル距離を持ちながら自然に見えるようにする。 ニューロン単位の分布量子幅境界を強制することで、内部活性化値の不均一性に対処することができる。 ImageNetと5つの異なるモデルアーキテクチャに対する評価は、攻撃が非常に効果的であることを示している。 最先端のピクセル空間攻撃,セマンティックアタック,特徴空間アタックと比較すると,本攻撃は同じアタック成功/信頼レベルを達成できながら,より自然な対向的摂動を実現できる。 これらの摂動は既存の局所的な特徴に反し、固定画素境界を持たない。

We propose a novel technique that can generate natural-looking adversarial examples by bounding the variations induced for internal activation values in some deep layer(s), through a distribution quantile bound and a polynomial barrier loss function. By bounding model internals instead of individual pixels, our attack admits perturbations closely coupled with the existing features of the original input, allowing the generated examples to be natural-looking while having diverse and often substantial pixel distances from the original input. Enforcing per-neuron distribution quantile bounds allows addressing the non-uniformity of internal activation values. Our evaluation on ImageNet and five different model architecture demonstrates that our attack is quite effective. Compared to the state-of-the-art pixel space attack, semantic attack, and feature space attack, our attack can achieve the same attack success/confidence level while having much more natural-looking adversarial perturbations. These perturbations piggy-back on existing local features and do not have any fixed pixel bounds.
翻訳日:2022-11-22 02:59:44 公開日:2021-01-16
# 深部NLPモデルのための解釈可能な相互作用木の構築

Building Interpretable Interaction Trees for Deep NLP Models ( http://arxiv.org/abs/2007.04298v2 )

ライセンス: Link先を確認
Die Zhang, Huilin Zhou, Hao Zhang, Xiaoyi Bao, Da Huo, Ruizhao Chen, Xu Cheng, Mengyue Wu, Quanshi Zhang(参考訳) 本稿では,自然言語処理のためにDNN内で符号化された単語間の相互作用を解き、定量化する手法を提案する。 dnnによって抽出されたサルエント相互作用をエンコードする木を構築する。 文中の成分間の相互作用の特性を解析するための6つの指標が提案されている。 相互作用は単語のShapley値に基づいて定義され、これはネットワーク予測に対する単語の寄与の偏りのない推定と見なされる。 本手法は,BERT,ELMo,LSTM,CNN,Transformerネットワーク内で符号化された単語の相互作用を定量化する。 実験結果からこれらのDNNを理解するための新たな視点が得られ,本手法の有効性が示された。

This paper proposes a method to disentangle and quantify interactions among words that are encoded inside a DNN for natural language processing. We construct a tree to encode salient interactions extracted by the DNN. Six metrics are proposed to analyze properties of interactions between constituents in a sentence. The interaction is defined based on Shapley values of words, which are considered as an unbiased estimation of word contributions to the network prediction. Our method is used to quantify word interactions encoded inside the BERT, ELMo, LSTM, CNN, and Transformer networks. Experimental results have provided a new perspective to understand these DNNs, and have demonstrated the effectiveness of our method.
翻訳日:2022-11-15 13:27:38 公開日:2021-01-16
# スケーラブル制御のための最大突然変異強化学習

Maximum Mutation Reinforcement Learning for Scalable Control ( http://arxiv.org/abs/2007.13690v7 )

ライセンス: Link先を確認
Karush Suri, Xiao Qi Shi, Konstantinos N. Plataniotis, Yuri A. Lawryshyn(参考訳) 強化学習(RL)の進歩は、スケーラブルなパフォーマンスを犠牲にして、大規模状態空間におけるデータ効率と最適制御を実証してきた。 一方、遺伝的手法はスケーラビリティを提供するが、進化的操作に対するハイパーパラメータ感度を示す。 しかし、この2つの手法の組み合わせは、最近rlエージェントを高次元のアクション空間にスケールすることに成功した。 近年の発展と並行して,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。 進化戦略 (ES) とソフトアクター・クリティカル (SAC) を組み合わせることで, エクスプロイトからの探索を抽象化する。 このレンズにより、後視におけるソフト勝者選択と遺伝的交叉を利用して、子孫間の優越的なスキル伝達を可能にし、新規な自動突然変異チューニング(AMT)を用いた進化におけるハイパーパラメータ感度を同時に向上させる。 AMTは徐々にSACのエントロピーの枠組みに取って代わり、バックプロパゲーション更新を使わずに、可能な限りランダムに動作しながらタスクを成功させる。 高次元のアクション空間とスパース報酬からなる難解な移動タスクの研究において、ESACは最大エントロピーフレームワークと比較して性能とサンプル効率を改善した。 さらに、ESACはハードウェアリソースとアルゴリズムのオーバーヘッドを効果的に活用する。 ESACの完全な実装はkarush17.github.io/esac-web/で見ることができる。

Advances in Reinforcement Learning (RL) have demonstrated data efficiency and optimal control over large state spaces at the cost of scalable performance. Genetic methods, on the other hand, provide scalability but depict hyperparameter sensitivity towards evolutionary operations. However, a combination of the two methods has recently demonstrated success in scaling RL agents to high-dimensional action spaces. Parallel to recent developments, we present the Evolution-based Soft Actor-Critic (ESAC), a scalable RL algorithm. We abstract exploration from exploitation by combining Evolution Strategies (ES) with Soft Actor-Critic (SAC). Through this lens, we enable dominant skill transfer between offsprings by making use of soft winner selections and genetic crossovers in hindsight and simultaneously improve hyperparameter sensitivity in evolutions using the novel Automatic Mutation Tuning (AMT). AMT gradually replaces the entropy framework of SAC allowing the population to succeed at the task while acting as randomly as possible, without making use of backpropagation updates. In a study of challenging locomotion tasks consisting of high-dimensional action spaces and sparse rewards, ESAC demonstrates improved performance and sample efficiency in comparison to the Maximum Entropy framework. Additionally, ESAC presents efficacious use of hardware resources and algorithm overhead. A complete implementation of ESAC can be found at karush17.github.io/esac-web/.
翻訳日:2022-11-07 05:48:14 公開日:2021-01-16
# TrajGAIL:ジェネレーティブ・逆転模倣学習を用いた都市自動車軌道生成

TrajGAIL: Generating Urban Vehicle Trajectories using Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2007.14189v4 )

ライセンス: Link先を確認
Seongjin Choi, Jiwon Kim, Hwasoo Yeo(参考訳) 近年,道路網における都市車両軌道データ収集が盛んに行われている。 多くの研究は、機械学習アルゴリズムを用いて車両軌道のパターンを分析し、個々の旅行者の位置シーケンスを予測する。 本研究は,従来の識別モデル手法と異なり,都市自動車軌道データの基礎となる分布を学習するための生成モデル手法を提案する。 都市部における車両軌跡生成モデルは、トレーニングデータの基盤となる分布を学習することにより、訓練データからより一般化し、限られた観測で実際の車両軌跡に類似した合成車両軌跡を生成することができる。 合成トラジェクトリは、位置データを使用する際のデータの分散性やデータのプライバシ問題に対するソリューションを提供することができる。 本研究では,都市車両軌道生成のための生成的逆模倣学習フレームワークstrajgailを提案する。 TrajGAILでは、観測軌道における学習位置列は、部分的に観測可能なマルコフ決定過程において模倣学習問題として定式化される。 このモデルは, 対数判別器の報酬関数を用いた生成的対数フレームワークによって訓練される。 このモデルはシミュレーションと実世界のデータセットの両方でテストされ、提案手法はシーケンスモデリングにおいて既存のモデルと比較して有意な性能向上を得た。

Recently, an abundant amount of urban vehicle trajectory data has been collected in road networks. Many studies have used machine learning algorithms to analyze patterns in vehicle trajectories to predict location sequences of individual travelers. Unlike the previous studies that used a discriminative modeling approach, this research suggests a generative modeling approach to learn the underlying distributions of urban vehicle trajectory data. A generative model for urban vehicle trajectories can better generalize from training data by learning the underlying distribution of the training data and, thus, produce synthetic vehicle trajectories similar to real vehicle trajectories with limited observations. Synthetic trajectories can provide solutions to data sparsity or data privacy issues in using location data. This research proposesTrajGAIL, a generative adversarial imitation learning framework for the urban vehicle trajectory generation. In TrajGAIL, learning location sequences in observed trajectories is formulated as an imitation learning problem in a partially observable Markov decision process. The model is trained by the generative adversarial framework, which uses the reward function from the adversarial discriminator. The model is tested with both simulation and real-world datasets, and the results show that the proposed model obtained significant performance gains compared to existing models in sequence modeling.
翻訳日:2022-11-06 01:45:17 公開日:2021-01-16
# 過渡加熱チップを用いた電子回路基板レイアウトの熱設計最適化のための機械学習熱回路ネットワークモデル

Machine learning thermal circuit network model for thermal design optimization of electronic circuit board layout with transient heating chips ( http://arxiv.org/abs/2008.13571v2 )

ライセンス: Link先を確認
Daiki Otaki (1), Hirofumi Nonaka (1) and Noboru Yamada (1) ((1) Nagaoka University of Technology, Niigata, Japan)(参考訳) 本稿では,電子回路基板レイアウトの熱設計最適化と過渡加熱チップの高速化に有効な,ベイズ最適化(BO)とランプ型熱回路網モデルを組み合わせる手法について述べる。 電子機器の小型化と複雑化に伴い、放熱性能を高めるための熱設計最適化の重要性が高まっている。 しかし, 熱設計の最適化は, 包装や熱発生成分の過渡温度変化に伴う様々なトレードオフを考慮する必要があるため困難である。 本研究は,人工知能による熱設計最適化の性能向上を目的としている。 ガウス過程を用いたboとランプ容量サーマル回路ネットワークモデルが組み合わされ,その性能がケーススタディによって検証された。 その結果、BOは、パーティクルスウォーム最適化(PSO)や遺伝的アルゴリズム(GA)と同様に、理想的な回路基板レイアウトを見出した。 BO の CPU 時間は PSO と GA の CPU の 1/5 と 1/4 であった。 さらにboは、1000万のレイアウトパターンから約7分間で、直観的でない最適なソリューションを見つけた。 これは全てのレイアウトパターンを分析するのに必要なCPU時間の1/1000と見積もられた。

This paper describes a method combining Bayesian optimization (BO) and a lamped-capacitance thermal circuit network model that is effective for speeding up the thermal design optimization of an electronic circuit board layout with transient heating chips. As electronic devices have become smaller and more complex, the importance of thermal design optimization to ensure heat dissipation performance has increased. However, such thermal design optimization is difficult because it is necessary to consider various trade-offs associated with packaging and transient temperature changes of heat-generating components. This study aims to improve the performance of thermal design optimization by artificial intelligence. BO using a Gaussian process was combined with the lamped-capacitance thermal circuit network model, and its performance was verified by case studies. As a result, BO successfully found the ideal circuit board layout as well as particle swarm optimization (PSO) and genetic algorithm (GA) could. The CPU time for BO was 1/5 and 1/4 of that for PSO and GA, respectively. In addition, BO found a non-intuitive optimal solution in approximately 7 minutes from 10 million layout patterns. It was estimated that this was 1/1000 of the CPU time required for analyzing all layout patterns.
翻訳日:2022-10-24 02:39:46 公開日:2021-01-16
# xcsp3-core:制約満足/最適化問題を表す形式

XCSP3-core: A Format for Representing Constraint Satisfaction/Optimization Problems ( http://arxiv.org/abs/2009.00514v2 )

ライセンス: Link先を確認
Fr\'ed\'eric Boussemart and Christophe Lecoutre and Gilles Audemard and C\'edric Piette(参考訳) 本稿では、制約満足度/最適化問題を表現できるXCSP3のサブセットであるXCSP3-coreを紹介する。 xcsp3-core の関心は多様です。 (i)最も人気のあるフレームワーク(CSPとCOP)と制約に焦点を当てる。 (ii)javaおよびc++で書かれた専用xcsp3コアパーサ(コールバック関数を使用)によるパースプロセスの促進。 (iii)制約ソルバの比較(競合)のためのコアフォーマットを定義すること。

In this document, we introduce XCSP3-core, a subset of XCSP3 that allows us to represent constraint satisfaction/optimization problems. The interest of XCSP3-core is multiple: (i) focusing on the most popular frameworks (CSP and COP) and constraints, (ii) facilitating the parsing process by means of dedicated XCSP3-core parsers written in Java and C++ (using callback functions), (iii) and defining a core format for comparisons (competitions) of constraint solvers.
翻訳日:2022-10-23 01:10:31 公開日:2021-01-16
# DVG-Face:不均一顔認識のためのデュアル変分生成

DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition ( http://arxiv.org/abs/2009.09399v2 )

ライセンス: Link先を確認
Chaoyou Fu, Xiang Wu, Yibo Hu, Huaibo Huang, Ran He(参考訳) Heterogeneous Face Recognition (HFR)は、クロスドメインの顔のマッチングであり、公共の安全において重要な役割を果たす。 それでも、HFRは大きなドメインの不一致と不十分な異種データによる課題に直面している。 本稿では、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。 具体的には、二重変分発生器を精巧に設計し、対の異種画像のジョイント分布を学習する。 しかし、小規模のペア・ヘテロジニアス・トレーニングデータではサンプリングのアイデンティティの多様性が制限される可能性がある。 限界を突破するために,大規模可視データの豊富なアイデンティティ情報を共同分布に統合することを提案する。 さらに、生成した一対の異種画像にペア単位のID保存損失を課し、そのアイデンティティの整合性を確保する。 その結果、同一の同一性を持つ巨大な新しい多様な異種画像がノイズから生成される。 アイデンティティの一貫性とアイデンティティの多様性は、これらの生成した画像を用いて、対照的な学習機構を通じてHFRネットワークを訓練し、ドメイン不変性と識別的埋め込み特性の両方をもたらす。 具体的には、生成した一対の不均一画像を正対とみなし、異なるサンプリングから得られた画像を負対とみなす。 提案手法は, NIR-VIS, Sketch-Photo, Profile-Frontal Photo, Thermal-VIS, ID-Cameraを含む5つのHFRタスクに属する7つの課題データベースに対して,最先端の手法よりも優れた性能を実現する。 関連コードはhttps://github.com/BradyFUで公開される。

Heterogeneous Face Recognition (HFR) refers to matching cross-domain faces and plays a crucial role in public security. Nevertheless, HFR is confronted with challenges from large domain discrepancy and insufficient heterogeneous data. In this paper, we formulate HFR as a dual generation problem, and tackle it via a novel Dual Variational Generation (DVG-Face) framework. Specifically, a dual variational generator is elaborately designed to learn the joint distribution of paired heterogeneous images. However, the small-scale paired heterogeneous training data may limit the identity diversity of sampling. In order to break through the limitation, we propose to integrate abundant identity information of large-scale visible data into the joint distribution. Furthermore, a pairwise identity preserving loss is imposed on the generated paired heterogeneous images to ensure their identity consistency. As a consequence, massive new diverse paired heterogeneous images with the same identity can be generated from noises. The identity consistency and identity diversity properties allow us to employ these generated images to train the HFR network via a contrastive learning mechanism, yielding both domain-invariant and discriminative embedding features. Concretely, the generated paired heterogeneous images are regarded as positive pairs, and the images obtained from different samplings are considered as negative pairs. Our method achieves superior performances over state-of-the-art methods on seven challenging databases belonging to five HFR tasks, including NIR-VIS, Sketch-Photo, Profile-Frontal Photo, Thermal-VIS, and ID-Camera. The related code will be released at https://github.com/BradyFU.
翻訳日:2022-10-16 13:02:52 公開日:2021-01-16
# Explain2Attack: クロスドメイン解釈によるテキストアタック

Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability ( http://arxiv.org/abs/2010.06812v4 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, He Zhao, and Dinh Phung(参考訳) 下流タスクのための堅牢なディープラーニングモデルのトレーニングは重要な課題です。 研究によると、ダウンストリームのモデルは、トレーニングデータに似ているがやや混乱した、人間には受け入れがたいような、逆の入力で簡単に騙すことができる。 これらの攻撃の下で自然言語モデルの振る舞いを理解することは、そのような攻撃に対してこれらのモデルをよりよく防御するために不可欠である。 モデルパラメータにアクセスできないブラックボックスアタック設定では、攻撃者はターゲットモデルからの出力情報のみをクエリして攻撃を成功させることができる。 現在のブラックボックスの最先端モデルは、計算の複雑さと、成功した逆の例を作るのに必要なクエリ数の両方においてコストがかかる。 実際のシナリオでは、攻撃するエージェントに対する疑念を避けるためにクエリの数が減少することが求められる。 本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。 Explain2Attackは、ターゲットモデルをクエリすることで摂動する重要な単語を探す代わりに、同じドメインから解釈可能な代用モデルを用いて単語の重要度を学習する。 我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。

Training robust deep learning models for down-stream tasks is a critical challenge. Research has shown that down-stream models can be easily fooled with adversarial inputs that look like the training data, but slightly perturbed, in a way imperceptible to humans. Understanding the behavior of natural language models under these attacks is crucial to better defend these models against such attacks. In the black-box attack setting, where no access to model parameters is available, the attacker can only query the output information from the targeted model to craft a successful attack. Current black-box state-of-the-art models are costly in both computational complexity and number of queries needed to craft successful adversarial examples. For real world scenarios, the number of queries is critical, where less queries are desired to avoid suspicion towards an attacking agent. In this paper, we propose Explain2Attack, a black-box adversarial attack on text classification task. Instead of searching for important words to be perturbed by querying the target model, Explain2Attack employs an interpretable substitute model from a similar domain to learn word importance scores. We show that our framework either achieves or out-performs attack rates of the state-of-the-art models, yet with lower queries cost and higher efficiency.
翻訳日:2022-10-07 14:22:59 公開日:2021-01-16
# ランダム部分集合一般化誤差境界と確率勾配ランゲヴィンダイナミクスアルゴリズムについて

On Random Subset Generalization Error Bounds and the Stochastic Gradient Langevin Dynamics Algorithm ( http://arxiv.org/abs/2010.10994v2 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez, Germ\'an Bassi, Ragnar Thobaben, and Mikael Skoglund(参考訳) 本研究では, hellstr\"om と durisi [1] によって開発されたフレームワークを用いて,ランダム部分集合に基づくいくつかの期待一般化誤差境界を統一する。 まず,Bu et al から各サンプルの相互情報に基づいて境界を復元する。 [2]およびNegreaらによるデータセットのランダムな部分集合上で。 [3]. 次に、Steinke と Zakynthinou [4] からランダム化されたサブサンプル設定にそれらの新しい類似した境界を導入し、フレームワークのいくつかの制限を識別する。 最後に、haghifam と al の境界を拡張します。 5] 確率勾配ランジュバンダイナミクスへランジュバンダイナミクスを適用し, 潜在的に大きな勾配ノルムを持つ損失関数に対して, ランジュバンダイナミクスを洗練する。

In this work, we unify several expected generalization error bounds based on random subsets using the framework developed by Hellstr\"om and Durisi [1]. First, we recover the bounds based on the individual sample mutual information from Bu et al. [2] and on a random subset of the dataset from Negrea et al. [3]. Then, we introduce their new, analogous bounds in the randomized subsample setting from Steinke and Zakynthinou [4], and we identify some limitations of the framework. Finally, we extend the bounds from Haghifam et al. [5] for Langevin dynamics to stochastic gradient Langevin dynamics and we refine them for loss functions with potentially large gradient norms.
翻訳日:2022-10-05 00:43:54 公開日:2021-01-16
# モンテカルロラデマッハ平均値の自己拘束関数によるよりシャープな収束限界

Sharper convergence bounds of Monte Carlo Rademacher Averages through Self-Bounding functions ( http://arxiv.org/abs/2010.12103v2 )

ライセンス: Link先を確認
Leonardo Pellegrina(参考訳) モンテカルロ実験ラデマッハ平均値 (mcera) のより鋭い確率的濃度境界を導出し, 自己結合関数の濃度について最近の結果から証明した。 この新しい境界は, 関数集合のデータ依存特性量に依存する収束率によって特徴づけられる。例えば, 経験的ウィンピー分散, 有界差の手法に基づく本質的改善 w.r.t. 標準境界などである。 このため、新しい結果は(局所)ラデマチャー平均値によりシャープな境界を求めるために適用できる。 また、Bousquetの不等式とウィムピー分散に対する新しいデータ依存境界の適用により、Rademacher確率変数の1つのベクトルのみが MCERA を計算する特別な場合において、新しい分散依存境界を導出する。 次に, 自己束縛関数の枠組みを活用し, 独立な利害関係を持つ超越偏差に対する新しい確率的境界を導出する。

We derive sharper probabilistic concentration bounds for the Monte Carlo Empirical Rademacher Averages (MCERA), which are proved through recent results on the concentration of self-bounding functions. Our novel bounds are characterized by convergence rates that depend on data-dependent characteristic quantities of the set of functions under consideration, such as the empirical wimpy variance, an essential improvement w.r.t. standard bounds based on the methods of bounded differences. For this reason, our new results are applicable to yield sharper bounds to (Local) Rademacher Averages. We also derive improved novel variance-dependent bounds for the special case where only one vector of Rademacher random variables is used to compute the MCERA, through the application of Bousquet's inequality and novel data-dependent bounds to the wimpy variance. Then, we leverage the framework of self-bounding functions to derive novel probabilistic bounds to the supremum deviations, that may be of independent interest.
翻訳日:2022-10-04 06:13:32 公開日:2021-01-16
# 3d脳腫瘍分割のための最良のデータ拡張とは何か?

What is the best data augmentation for 3D brain tumor segmentation? ( http://arxiv.org/abs/2010.13372v2 )

ライセンス: Link先を確認
Marco Domenico Cirillo and David Abramian and Anders Eklund(参考訳) トレーニングセグメンテーションネットワークは大きな注釈付きデータセットを必要としており、医用画像では入手が困難である。 この事実にもかかわらず、我々の意見では、データ拡張は脳腫瘍のセグメンテーションのために完全には研究されていない。 本稿では,標準的な3次元U-Netのトレーニングにおいて,様々な種類のデータ拡張(浮動,回転,スケーリング,明るさ調整,弾性変形)を適用し,拡張がネットワークの性能を著しく向上させることを示す。 本研究の結論は, 輝度増強と弾性変形が最適であり, 異なる拡張技術の組み合わせは, 1つの強化技術のみを用いた場合に比べ, それ以上の改善は得られない, というものである。 私たちのコードはhttps://github.com/mdciri/3D-augmentation-techniquesで利用可能です。

Training segmentation networks requires large annotated datasets, which in medical imaging can be hard to obtain. Despite this fact, data augmentation has in our opinion not been fully explored for brain tumor segmentation. In this project we apply different types of data augmentation (flipping, rotation, scaling, brightness adjustment, elastic deformation) when training a standard 3D U-Net, and demonstrate that augmentation significantly improves the network's performance in many cases. Our conclusion is that brightness augmentation and elastic deformation work best, and that combinations of different augmentation techniques do not provide further improvement compared to only using one augmentation technique. Our code is available at https://github.com/mdciri/3D-augmentation-techniques.
翻訳日:2022-10-02 18:38:41 公開日:2021-01-16
# 地球温暖化に対するメディアのスタンス検出

Detecting Stance in Media on Global Warming ( http://arxiv.org/abs/2010.15149v2 )

ライセンス: Link先を確認
Yiwei Luo, Dallas Card, Dan Jurafsky(参考訳) 意見を聞くことは議論において強力だが検討された戦略である。 例えば、環境活動家は「リーダー科学者は温暖化は深刻な懸念であると同意する」と言い、自身の立場を肯定する条項(『温暖化は深刻なものである』)を、発言可能な情報源(「リーダー」)によって支持された意見(「科学者が同意する」)と表現している。 対照的に、地球温暖化を否定する者は、信頼できない情報源の意見と同じ条項を、疑念を抱く述語で表しているかもしれない:「誤った科学者が[...]を主張する」。 我々の研究は、地球温暖化(GW)に関する議論における意見交換について研究している。 gw文のデータセットである地球温暖化姿勢データセット(gwsd)を導入し、bert分類器(bert classifier)を訓練して、議論の異なる側面が自分自身とお互いの意見をどのように表現しているかを論じる。 56Kのニュース記事から,GW受容メディアや懐疑メディアにまたがって,自己肯定的・否定的談話のための類似の言語装置が使用されていることがわかった。 また、著者は、著者自身の見解を、反対の見解を公然と支持することで知られるソースエンティティに説明することで、ソースを偽批判として特徴づけることがしばしばある。 我々は,今後のオピニオンフレーミングおよびgw姿勢の自動検出のためのフレーミング装置の姿勢データセット,モデル,レキシコンをリリースする。

Citing opinions is a powerful yet understudied strategy in argumentation. For example, an environmental activist might say, "Leading scientists agree that global warming is a serious concern," framing a clause which affirms their own stance ("that global warming is serious") as an opinion endorsed ("[scientists] agree") by a reputable source ("leading"). In contrast, a global warming denier might frame the same clause as the opinion of an untrustworthy source with a predicate connoting doubt: "Mistaken scientists claim [...]." Our work studies opinion-framing in the global warming (GW) debate, an increasingly partisan issue that has received little attention in NLP. We introduce Global Warming Stance Dataset (GWSD), a dataset of stance-labeled GW sentences, and train a BERT classifier to study novel aspects of argumentation in how different sides of a debate represent their own and each other's opinions. From 56K news articles, we find that similar linguistic devices for self-affirming and opponent-doubting discourse are used across GW-accepting and skeptic media, though GW-skeptical media shows more opponent-doubt. We also find that authors often characterize sources as hypocritical, by ascribing opinions expressing the author's own view to source entities known to publicly endorse the opposing view. We release our stance dataset, model, and lexicons of framing devices for future work on opinion-framing and the automatic detection of GW stance.
翻訳日:2022-10-02 04:36:41 公開日:2021-01-16
# 単調な知識を有する製造におけるデータ不足の補償

Compensating data shortages in manufacturing with monotonicity knowledge ( http://arxiv.org/abs/2010.15955v2 )

ライセンス: Link先を確認
Martin von Kurnatowski, Jochen Schmid, Patrick Link, Rebekka Zache, Lukas Morand, Torsten Kraft, Ingo Schmidt, Anke Stoll(参考訳) 工学における最適化には適切なモデルが必要である。 本稿では, モデルの予測能力を高めるための回帰法について, 形状制約, より具体的には単調性制約という形で専門家の知識を活用して述べる。 このような情報を組み込むことは、利用可能なデータセットが小さい場合や入力空間全体をカバーしていない場合、特に有用である。 考察された単調性制約に対する回帰を半無限最適化問題として設定し,適応解アルゴリズムを提案する。 この方法は多次元に適用でき、より一般的な形状制約に拡張することができる。 実世界の2つの製造プロセス(レーザーガラスの曲げと金属板のプレス硬化)で試験、検証される。 その結果, 専門家の単調性知識によく適合し, トレーニングデータを正確に予測できることが判明した。 提案手法は,本研究で検討したスパースデータセットの文献による比較手法に比べて,ルート平均二乗誤差を低くする。

Optimization in engineering requires appropriate models. In this article, a regression method for enhancing the predictive power of a model by exploiting expert knowledge in the form of shape constraints, or more specifically, monotonicity constraints, is presented. Incorporating such information is particularly useful when the available data sets are small or do not cover the entire input space, as is often the case in manufacturing applications. The regression subject to the considered monotonicity constraints is set up as a semi-infinite optimization problem, and an adaptive solution algorithm is proposed. The method is applicable in multiple dimensions and can be extended to more general shape constraints. It is tested and validated on two real-world manufacturing processes, namely laser glass bending and press hardening of sheet metal. It is found that the resulting models both comply well with the expert's monotonicity knowledge and predict the training data accurately. The suggested approach leads to lower root-mean-squared errors than comparative methods from the literature for the sparse data sets considered in this work.
翻訳日:2022-10-01 23:57:23 公開日:2021-01-16
# Pseudo Shots: 補助データによるFew-Shot Learning

Pseudo Shots: Few-Shot Learning with Auxiliary Data ( http://arxiv.org/abs/2012.07176v2 )

ライセンス: Link先を確認
Reza Esfandiarpoor, Mohsen Hajabdollahi, Stephen H. Bach(参考訳) 多くの実用的な数発学習問題において、ラベル付き例は少ないが、有用な情報を含む可能性のある補助データセットが豊富に存在する。 画像分類における補助データの効率的な選択と有効利用の課題に対処する枠組みを提案する。 補助データセットとクラス間の意味的類似性の概念が与えられたら、ターゲットタスクに関連する他のクラスからラベル付けされた擬似ショットを自動的に選択します。 これらの追加例が対象のタスクの例と同じ分布から来ていると仮定しても,精度は著しく向上しない。 代わりに,補助データの特徴を,対象クラスのそれとよく似ているように調整するマスキングモジュールを提案する。 このマスキングモジュールは、特に補助データが目的タスクから意味的に離れている場合、最大18の精度ポイントで精度を向上できることを示す。 また, 擬似ショットを組み込むことにより, 従来の複数ショット画像分類スコアよりも, 1ショットタスクの平均4.81ポイント, 5ショットタスクの平均0.31ポイントの精度が向上することを示した。

In many practical few-shot learning problems, even though labeled examples are scarce, there are abundant auxiliary data sets that potentially contain useful information. We propose a framework to address the challenges of efficiently selecting and effectively using auxiliary data in image classification. Given an auxiliary dataset and a notion of semantic similarity among classes, we automatically select pseudo shots, which are labeled examples from other classes related to the target task. We show that naively assuming that these additional examples come from the same distribution as the target task examples does not significantly improve accuracy. Instead, we propose a masking module that adjusts the features of auxiliary data to be more similar to those of the target classes. We show that this masking module can improve accuracy by up to 18 accuracy points, particularly when the auxiliary data is semantically distant from the target task. We also show that incorporating pseudo shots improves over the current state-of-the-art few-shot image classification scores by an average of 4.81 percentage points of accuracy on 1-shot tasks and an average of 0.31 percentage points on 5-shot tasks.
翻訳日:2021-05-09 12:52:28 公開日:2021-01-16
# (参考訳) 有向非巡回グラフとしてのポリシー勾配rlアルゴリズム

Policy Gradient RL Algorithms as Directed Acyclic Graphs ( http://arxiv.org/abs/2012.07763v2 )

ライセンス: CC BY-SA 4.0
Juan Jose Garau Luis(参考訳) メタ強化学習(Meta Reinforcement Learning, RL)法は, 幅広い環境に一般化したRLアルゴリズムの設計を自動化することに焦点を当てている。 Anonymous, 2020)で導入されたフレームワークは、異なるRLアルゴリズムをDAG(Directed Acyclic Graphs)として表現し、進化的メタラーナを使用してこれらのグラフを修正し、適切なエージェント更新ルールを見つけることで、この問題に対処する。 論文でグラフを生成するために使われる検索言語は、すでに存在する多くのRLアルゴリズム(例えば、DQN、DDQN)を表すのに役立ち、ポリシーグラディエントアルゴリズムの表現には制限がある。 本研究では,従来の検索言語を拡張し,VPG,PPO,DDPG,TD3,SACの5種類のポリシー勾配アルゴリズムに対してグラフを提案することで,このギャップを埋めようとしている。

Meta Reinforcement Learning (RL) methods focus on automating the design of RL algorithms that generalize to a wide range of environments. The framework introduced in (Anonymous, 2020) addresses the problem by representing different RL algorithms as Directed Acyclic Graphs (DAGs), and using an evolutionary meta learner to modify these graphs and find good agent update rules. While the search language used to generate graphs in the paper serves to represent numerous already-existing RL algorithms (e.g., DQN, DDQN), it has limitations when it comes to representing Policy Gradient algorithms. In this work we try to close this gap by extending the original search language and proposing graphs for five different Policy Gradient algorithms: VPG, PPO, DDPG, TD3, and SAC.
翻訳日:2021-05-08 20:52:08 公開日:2021-01-16
# (参考訳) StainNet: 高速で堅牢な染色正規化ネットワーク

StainNet: a fast and robust stain normalization network ( http://arxiv.org/abs/2012.12535v5 )

ライセンス: CC BY 4.0
Hongtao Kang, Die Luo, Weihua Feng, Junbo Hu, Shaoqun Zeng, Tingwei Quan, and Xiuli Liu(参考訳) 様々な要因により、病理画像のカラーバリエーションが大きく、コンピュータ支援診断(CAD)システムの性能を損なう。 色変化の低減とCADシステムの精度向上にステン正規化が用いられている。 それらのうち,従来の方法では画素単位で染色正規化を行うが,単一の参照画像のみに依存する染色パラメータの推定を行うため,不正確な正規化結果が発生する。 現在のディープラーニングベースの手法では、色分布を自動的に抽出し、代表的な参照画像を選択する必要はない。 ディープラーニングベースの手法は、数百万のパラメータを持つ複雑な構造を持ち、計算効率が比較的低く、アーティファクトを導入するリスクもある。 本論文では,1.28kのパラメータしか持たない高速でロバストな染色正規化ネットワークを提案する。 StainNetはデータセット全体からカラーマッピング関係を学習し、ピクセル単位の方法で色値を調整することができる。 提案手法は染色正常化が良好であり,精度と画質が向上した。 応用の結果,染色剤の染色正常化後の頸部細胞診の分類は高い精度を示した。

Due to a variety of factors, pathological images have large color variabilities, which hamper the performance of computer-aided diagnosis (CAD) systems. Stain normalization has been used to reduce the color variability and increase the accuracy of CAD systems. Among them, the conventional methods perform stain normalization on a pixel-by-pixel basis, but estimate stain parameters just relying on one single reference image and thus would incur some inaccurate normalization results. As for the current deep learning-based methods, it can automatically extract the color distribution and need not pick a representative reference image. While the deep learning-based methods have a complex structure with millions of parameters, and a relatively low computational efficiency and a risk to introduce artifacts. In this paper, a fast and robust stain normalization network with only 1.28K parameters named StainNet is proposed. StainNet can learn the color mapping relationship from a whole dataset and adjust the color value in a pixel-to-pixel manner. The proposed method performs well in stain normalization and achieves a better accuracy and image quality. Application results show the cervical cytology classification achieved a higher accuracy when after stain normalization of StainNet.
翻訳日:2021-04-26 02:46:22 公開日:2021-01-16
# AsymptoticNG:ルックアヘッド戦略を用いた正規化自然勾配最適化アルゴリズム

AsymptoticNG: A regularized natural gradient optimization algorithm with look-ahead strategy ( http://arxiv.org/abs/2012.13077v2 )

ライセンス: Link先を確認
Zedong Tang, Fenlong Jiang, Junke Song, Maoguo Gong, Hao Li, Fan Yu, Zidong Wang, Min Wang(参考訳) アダムや自然グラディエント(NG)などの勾配のスケールを調節する最適化は、SGD(Stochastic Gradient Descent)と比較して、広く関心があり、コミュニティが使用しているにもかかわらず、しばしば一般化性能が劣っている。 彼らは訓練の始めにうまく収束する傾向があるが、最後には弱くなる。 直近の考え方は、これらのアルゴリズムの強みをSGDで補完することである。 しかし、オプティマイザの切り換えは更新パターンのクラッシュにつながることが多く、新しいアルゴリズムは探索方向を安定させるために多くのイテレーションを必要とすることが多い。 このアイデアを駆使してこの問題に対処するため,漸近的自然勾配(ANG)と呼ばれるルックアヘッド戦略を用いた正規化自然勾配最適化アルゴリズムを設計・提示する。 全イテレーションステップに従って、ANGはNGとユークリッド勾配を動的にアセンブルし、NGの強度を使って新しい方向に沿ってパラメータを更新する。 CIFAR10とCIFAR100データセットの検証実験により、ANGは2次速度でスムーズかつ安定に更新でき、より優れた一般化性能が得られることが示された。

Optimizers that further adjust the scale of gradient, such as Adam, Natural Gradient (NG), etc., despite widely concerned and used by the community, are often found poor generalization performance, compared with Stochastic Gradient Descent (SGD). They tend to converge excellently at the beginning of training but are weak at the end. An immediate idea is to complement the strengths of these algorithms with SGD. However, a truncated replacement of optimizer often leads to a crash of the update pattern, and new algorithms often require many iterations to stabilize their search direction. Driven by this idea and to address this problem, we design and present a regularized natural gradient optimization algorithm with look-ahead strategy, named asymptotic natural gradient (ANG). According to the total iteration step, ANG dynamic assembles NG and Euclidean gradient, and updates parameters along the new direction using the intensity of NG. Validation experiments on CIFAR10 and CIFAR100 data sets show that ANG can update smoothly and stably at the second-order speed, and achieve better generalization performance.
翻訳日:2021-04-25 08:12:22 公開日:2021-01-16
# (参考訳) FlashP:時系列関係データのリアルタイム予測のための分析パイプライン

FlashP: An Analytical Pipeline for Real-time Forecasting of Time-Series Relational Data ( http://arxiv.org/abs/2101.03298v2 )

ライセンス: CC BY 4.0
Shuyuan Yan, Bolin Ding, Wei Guo, Jingren Zhou, Zhewei Wei, Xiaowei Jiang, and Sheng Xu(参考訳) 対話的な応答時間は分析パイプラインにおいて重要であり、十分な数の可能性を探求し、インフォームドビジネス決定を行う。 大量の高次元時系列データを用いた予測パイプラインについて検討する。 リアルタイム予測は2つのステップで行うことができる。 まず、データのスライシング、ダイシング、集約によって予測すべきデータの一部と予測すべき指標を特定する。 次に、集計結果に基づいて予測モデルをトレーニングし、指定された指標の傾向を予測する。 利用可能な予測モデルはたくさんありますが、最初のステップはパフォーマンスのボトルネックです。 自然なアイデアは、サンプリングを利用して、予測モデルをトレーニングするための入力として、リアルタイムに近似集約を得ることである。 当社のスケーラブルリアルタイム予測システムであるFlashP(Flash Prediction)は,このアイデアに基づいて構築されており,まず,近似アグリゲーションが予測モデルの適合性にどのように影響するか,そして予測結果にどのように影響するか,という2つの大きな課題を解決しなければならない。 GSWサンプリングと呼ばれる新しいサンプリング手法を導入し、GSWサンプルを用いてアグリゲーションを推定するための誤差境界を解析する。 本稿では,複数の測定値が存在するコンパクトgsw試料の作成方法について紹介する。 ソリューションを評価する実験を行い、実データ上の代替物と比較する。

Interactive response time is important in analytical pipelines for users to explore a sufficient number of possibilities and make informed business decisions. We consider a forecasting pipeline with large volumes of high-dimensional time series data. Real-time forecasting can be conducted in two steps. First, we specify the part of data to be focused on and the measure to be predicted by slicing, dicing, and aggregating the data. Second, a forecasting model is trained on the aggregated results to predict the trend of the specified measure. While there are a number of forecasting models available, the first step is the performance bottleneck. A natural idea is to utilize sampling to obtain approximate aggregations in real time as the input to train the forecasting model. Our scalable real-time forecasting system FlashP (Flash Prediction) is built based on this idea, with two major challenges to be resolved in this paper: first, we need to figure out how approximate aggregations affect the fitting of forecasting models, and forecasting results; and second, accordingly, what sampling algorithms we should use to obtain these approximate aggregations and how large the samples are. We introduce a new sampling scheme, called GSW sampling, and analyze error bounds for estimating aggregations using GSW samples. We introduce how to construct compact GSW samples with the existence of multiple measures to be analyzed. We conduct experiments to evaluate our solution and compare it with alternatives on real data.
翻訳日:2021-04-09 10:33:58 公開日:2021-01-16
# MOOCスレッドレコメンデーションのための学習者の興味軌跡

Learning Student Interest Trajectory for MOOCThread Recommendation ( http://arxiv.org/abs/2101.05625v2 )

ライセンス: Link先を確認
Shalini Pandey, Andrew Lan, George Karypis, Jaideep Srivastava(参考訳) 近年、大規模なオープン・オンライン・コース(moocs)が人気が高まっている。 現在,最近のcovid-19パンデミックの状況から,オンライン教育の限界を押し上げることが重要である。 ディスカッションフォーラムは、学習者とインストラクターの間の対話の主要な手段である。 しかし,授業規模が大きくなるにつれ,学生は有用な議論フォーラムを見つけるという課題に直面している。 この問題は学生の興味をスレッドの内容と一致させることで解決できる。 基本的な課題は、学生の興味がコースを進むにつれて漂流し、学生やインストラクターが更新するにつれてフォーラムの内容が進化することである。 本稿では,学生の今後の関心軌道を予測することを提案する。 本モデルは,(1)更新操作と(2)投影操作の2つの操作からなる。 更新操作モデル 学生がスレッドに投稿するとき、再帰ニューラルネットワークを用いて、学生とスレッドの進化の間の相互依存度をモデル化する。 投射操作は、学生とスレッドの将来の埋め込みを推定する。 学生の場合、プロジェクション操作は、学習するコーストピックの変化によって引き起こされる興味のドリフトを学習する。 スレッドのプロジェクション操作は、スレッド構造に応じて、異なるポストが学生の興味レベルをいかに引き起こすかを利用する。 3つの実世界のMOOCデータセットに対する大規模な実験は、我々のモデルがスレッドレコメンデーションのために他のベースラインよりも大幅に優れていることを示している。

In recent years, Massive Open Online Courses (MOOCs) have witnessed immense growth in popularity. Now, due to the recent Covid19 pandemic situation, it is important to push the limits of online education. Discussion forums are primary means of interaction among learners and instructors. However, with growing class size, students face the challenge of finding useful and informative discussion forums. This problem can be solved by matching the interest of students with thread contents. The fundamental challenge is that the student interests drift as they progress through the course, and forum contents evolve as students or instructors update them. In our paper, we propose to predict future interest trajectories of students. Our model consists of two key operations: 1) Update operation and 2) Projection operation. Update operation models the inter-dependency between the evolution of student and thread using coupled Recurrent Neural Networks when the student posts on the thread. The projection operation learns to estimate future embedding of students and threads. For students, the projection operation learns the drift in their interests caused by the change in the course topic they study. The projection operation for threads exploits how different posts induce varying interest levels in a student according to the thread structure. Extensive experimentation on three real-world MOOC datasets shows that our model significantly outperforms other baselines for thread recommendation.
翻訳日:2021-04-08 08:18:23 公開日:2021-01-16
# (参考訳) 弱教師付き階層モデルによる良文要求における説得戦略の予測

Weakly-Supervised Hierarchical Models for Predicting Persuasive Strategies in Good-faith Textual Requests ( http://arxiv.org/abs/2101.06351v1 )

ライセンス: CC BY 4.0
Jiaao Chen, Diyi Yang(参考訳) 説得力のある言語モデリングは、意思決定プロセスをより容易にする可能性がある。 その重要性にもかかわらず、説得の計算モデルはまだ初期段階にあり、この一連の研究を早める説得戦略の定量的ラベルを提供するベンチマークデータセットが欠如している。 そこで本研究では,良質なテキスト要求における説得戦略をモデル化するための大規模マルチドメインテキストコーパスを提案する。 さらに,文書レベルラベルと非常に限定的な文レベルラベルの両方から,部分ラベル付きデータを利用して各文に対する関連する説得戦略を予測できる階層型弱教師付き潜在変数モデルを設計する。 実験の結果,提案手法は既存の半教師付きベースラインを大きく上回った。 私たちはコードをhttps://github.com/gt-salt/persuasion_strategy_wvaeで公開しました。

Modeling persuasive language has the potential to better facilitate our decision-making processes. Despite its importance, computational modeling of persuasion is still in its infancy, largely due to the lack of benchmark datasets that can provide quantitative labels of persuasive strategies to expedite this line of research. To this end, we introduce a large-scale multi-domain text corpus for modeling persuasive strategies in good-faith text requests. Moreover, we design a hierarchical weakly-supervised latent variable model that can leverage partially labeled data to predict such associated persuasive strategies for each sentence, where the supervision comes from both the overall document-level labels and very limited sentence-level labels. Experimental results showed that our proposed method outperformed existing semi-supervised baselines significantly. We have publicly released our code at https://github.com/GT-SALT/Persuasion_Strategy_WVAE.
翻訳日:2021-03-28 10:14:06 公開日:2021-01-16
# (参考訳) ソーシャルメディアデータに基づく不安検出における感情分析のための機械学習の比較

Comparison of Machine Learning for Sentiment Analysis in Detecting Anxiety Based on Social Media Data ( http://arxiv.org/abs/2101.06353v1 )

ライセンス: CC BY 4.0
Shoffan Saifullah, Yuli Fauziah, Agus Sasmito Aribowo(参考訳) 新型コロナウイルスのパンデミックの影響をすべてのグループが感じた。 この状況は不安を引き起こすが、これは誰にとっても悪い。 政府の役割は、これらの問題をその事業プログラムで解くことに非常に影響を与える。 また、公衆の不安を引き起こす多くの長所や短所もある。 そのため、公共の期待を高めることができる政府プログラムを改善するために不安を検出する必要がある。 本研究は、このパンデミックに対処する政府のプログラムに関するソーシャルメディアコメントに基づく不安検出に機械学習を適用した。 この概念は、netizensのポジティブなコメントとネガティブなコメントに基づく不安を検出するために、感情分析を採用する。 実装された機械学習方法は、k-nn, bernoulli, decision tree classifier, support vector classifier, random forest, xg-boostである。 使用したデータはYouTubeコメントをクロールした結果である。 使用されたデータは3211と1651の否定的データと肯定的データからなる4862のコメントだった。 負のデータは不安を識別し、正のデータは希望(不安ではない)を識別する。 機械学習は、カウントベクタライゼーションとTF-IDFの特徴抽出に基づいて処理される。 その結果、感情データは3889と973であり、最も精度の高いトレーニングは、ベクトル化数の特徴抽出とTF-IDFが84.99%、TF-IDFが82.63%であるランダム森林であった。 最良の精度テストはK-NN、最良のリコールはXG-Boostである。 したがって、ランダムフォレストは、ソーシャルメディアから誰かの不安に基づくデータを検出するのに最適である。

All groups of people felt the impact of the COVID-19 pandemic. This situation triggers anxiety, which is bad for everyone. The government's role is very influential in solving these problems with its work program. It also has many pros and cons that cause public anxiety. For that, it is necessary to detect anxiety to improve government programs that can increase public expectations. This study applies machine learning to detecting anxiety based on social media comments regarding government programs to deal with this pandemic. This concept will adopt a sentiment analysis in detecting anxiety based on positive and negative comments from netizens. The machine learning methods implemented include K-NN, Bernoulli, Decision Tree Classifier, Support Vector Classifier, Random Forest, and XG-boost. The data sample used is the result of crawling YouTube comments. The data used amounted to 4862 comments consisting of negative and positive data with 3211 and 1651. Negative data identify anxiety, while positive data identifies hope (not anxious). Machine learning is processed based on feature extraction of count-vectorization and TF-IDF. The results showed that the sentiment data amounted to 3889 and 973 in testing, and training with the greatest accuracy was the random forest with feature extraction of vectorization count and TF-IDF of 84.99% and 82.63%, respectively. The best precision test is K-NN, while the best recall is XG-Boost. Thus, Random Forest is the best accurate to detect someone's anxiety based-on data from social media.
翻訳日:2021-03-28 09:55:18 公開日:2021-01-16
# (参考訳) ARベースの現代医療 : レビュー

AR-based Modern Healthcare: A Review ( http://arxiv.org/abs/2101.06364v1 )

ライセンス: CC BY 4.0
Jinat Ara, Hanif Bhuiyan, Yeasin Arafat Bhuiyan, Salma Begum Bhyan and Muhammad Ismail Bhuiyan(参考訳) 医療におけるAR(Augmented Reality)の最近の進歩は、テクノロジーが現在の医療システムの重要な部分であることを示している。 近年、拡張現実は、ウェアラブルアクセス、遠隔医療、遠隔手術、医療報告の診断、救急医療など、医療分野における多くのスマートな応用を提案している。 開発した拡張医療アプリケーションの目的は、患者のケアを改善し、効率を高め、コストを下げることである。 この記事では、ARベースの医療技術の進歩をレビューし、この技術分野をさらに進めるために取るべき戦略について検討する。 この記事では、拡張現実のヘルスケアソリューションの重要なサービスについて検討し、最近発明されたサービスとプラットフォームに光を当てます。 同時に懸念事項や今後の課題にも対処する。 さらに,セキュリティ要件や攻撃用語を含む,異なるarセキュリティとプライバシを分析した。 さらに,セキュリティリスクを最小限に抑えるためのセキュリティモデルを提案する。 医療、特に手術、救急診断、医療訓練における拡張現実の利点は、ここでは十分に分析されている。 控えめに言って、この記事は、その影響、進歩、現在の脆弱性、将来の課題を実証することによって、現代医療分野における拡張現実技術の完全な概要を説明し、さらなる研究のための新たな方向性を推奨する。

The recent advances of Augmented Reality (AR) in healthcare have shown that technology is a significant part of the current healthcare system. In recent days, augmented reality has proposed numerous smart applications in healthcare domain including wearable access, telemedicine, remote surgery, diagnosis of medical reports, emergency medicine, etc. The aim of the developed augmented healthcare application is to improve patient care, increase efficiency, and decrease costs. This article puts on an effort to review the advances in AR-based healthcare technologies and goes to peek into the strategies that are being taken to further this branch of technology. This article explores the important services of augmented-based healthcare solutions and throws light on recently invented ones as well as their respective platforms. It also addresses concurrent concerns and their relevant future challenges. In addition, this paper analyzes distinct AR security and privacy including security requirements and attack terminologies. Furthermore, this paper proposes a security model to minimize security risks. Augmented reality advantages in healthcare, especially for operating surgery, emergency diagnosis, and medical training is being demonstrated here thorough proper analysis. To say the least, the article illustrates a complete overview of augmented reality technology in the modern healthcare sector by demonstrating its impacts, advancements, current vulnerabilities; future challenges, and concludes with recommendations to a new direction for further research.
翻訳日:2021-03-28 09:42:38 公開日:2021-01-16
# (参考訳) Tuiteamos o pongamos un tuit? スペイン語ソーシャルメディアにおける単語統合の社会的制約の検討

Tuiteamos o pongamos un tuit? Investigating the Social Constraints of Loanword Integration in Spanish Social Media ( http://arxiv.org/abs/2101.06368v1 )

ライセンス: CC BY 4.0
Ian Stewart, Diyi Yang, Jacob Eisenstein(参考訳) 非英語話者はしばしば、新しい概念や珍しい概念を表現するために英語からの借用語を採用する。 これらの借用語はそのまま借りられることもあるが、話者は母語の制約に合うように単語を統合することもできる。 英語の"tweet"からスペイン語の"tuitear"を作る。 言語学者はしばしば、借用語統合の過程は言語内部の制約に依存していると考えているが、話者背景のような社会言語学的制約は質的にのみ理解されている。 スペイン語話者のソーシャルメディアへの統合借用語使用における社会的文脈と話者背景の役割について検討する。 新聞の著者は、ソーシャルメディアの著者よりも、借用語とネイティブ語の統合形式を頻繁に用いており、統合が形式的なドメインと関連していることを示している。 ソーシャルメディアでは、話者の背景と形式性への期待が、借用語とネイティブ単語の統合を説明することから、よりスペイン語を使い、より広いオーディエンスに手紙を書く著者は、より統合された動詞形式を使う傾向があることが分かる。 本研究は,借用語統合が言語内的制約だけでなく,会話や話者によって異なる社会的期待を反映していることを示す。

Speakers of non-English languages often adopt loanwords from English to express new or unusual concepts. While these loanwords may be borrowed unchanged, speakers may also integrate the words to fit the constraints of their native language, e.g. creating Spanish "tuitear" from English "tweet." Linguists have often considered the process of loanword integration to be more dependent on language-internal constraints, but sociolinguistic constraints such as speaker background remain only qualitatively understood. We investigate the role of social context and speaker background in Spanish speakers' use of integrated loanwords on social media. We find first that newspaper authors use the integrated forms of loanwords and native words more often than social media authors, showing that integration is associated with formal domains. In social media, we find that speaker background and expectations of formality explain loanword and native word integration, such that authors who use more Spanish and who write to a wider audience tend to use integrated verb forms more often. This study shows that loanword integration reflects not only language-internal constraints but also social expectations that vary by conversation and speaker.
翻訳日:2021-03-28 09:34:17 公開日:2021-01-16
# (参考訳) 大規模データセットを用いた知識追跡のためのディープラーニングモデルの実証比較

An Empirical Comparison of Deep Learning Models for Knowledge Tracing on Large-Scale Dataset ( http://arxiv.org/abs/2101.06373v1 )

ライセンス: CC0 1.0
Shalini Pandey, George Karypis, Jaideep Srivastava(参考訳) 知識追跡 (KT) は、各学生の知識概念習得度(KC)を学習活動の連続としてモデル化する問題である。 学習者にパーソナライズされたフィードバックや資料を提供するための活発な研究分野である。 KTの解法には様々なディープラーニング技術が提案されている。 大規模学生成績データセット \cite{choi2019ednet} の最近のリリースは、KTを解くために提案されたディープラーニングアプローチのパフォーマンス分析を動機付けている。 本分析は,学生のパフォーマンスに関連する大規模データセットが利用可能である場合,どの手法を採用するべきかを理解するのに役立つ。 また,演習と学生の忘れ行動の関係などの文脈情報を取り入れることで,深層学習モデルの性能がさらに向上することを示す。

Knowledge tracing (KT) is the problem of modeling each student's mastery of knowledge concepts (KCs) as (s)he engages with a sequence of learning activities. It is an active research area to help provide learners with personalized feedback and materials. Various deep learning techniques have been proposed for solving KT. Recent release of large-scale student performance dataset \cite{choi2019ednet} motivates the analysis of performance of deep learning approaches that have been proposed to solve KT. Our analysis can help understand which method to adopt when large dataset related to student performance is available. We also show that incorporating contextual information such as relation between exercises and student forget behavior further improves the performance of deep learning models.
翻訳日:2021-03-28 09:19:47 公開日:2021-01-16
# (参考訳) シフトスタイル正規化によるパッチベーススタイル転送の多様化

Diversified Patch-based Style Transfer with Shifted Style Normalization ( http://arxiv.org/abs/2101.06381v1 )

ライセンス: CC BY 4.0
Zhizhong Wang, Lei Zhao, Haibo Chen, Zhiwen Zuo, Ailin Li, Wei Xing, Dongming Lu(参考訳) グラムベースとパッチベースのアプローチは、イメージスタイル転送の重要な2つの研究分野である。 最近の多角化グラムベースの手法は、同じコンテンツやスタイル入力に対して、多様で多様な合理的なソリューションを作り出すことができる。 しかし,パッチベースの手法の多様性は,最寄りのパッチマッチングに基づくステレオタイプ方式のスワップ処理により依然として困難である。 このジレンマを解決するために,本稿では,パッチベースのスタイル転送のコアスタイルスワッピングプロセスについて検討し,その多様化の可能性について検討する。 注目すべきは、シフトスタイル正規化(SSN)と呼ばれる操作で、既存のパッチベースのメソッドが任意のスタイルに対して様々な結果を生成するための最も効率的かつ効率的な方法である。 重要な洞察は、高いアクティベーション値を持つ神経パッチが多様性にもっと貢献できるという、重要な直感を使用することです。 本手法の有効性を実証するために, 理論的解析と広範な実験を行い, 他の選択肢や最先端アルゴリズムと比較し, 多様性と効率において有意な優位性を示した。

Gram-based and patch-based approaches are two important research lines of image style transfer. Recent diversified Gram-based methods have been able to produce multiple and diverse reasonable solutions for the same content and style inputs. However, as another popular research interest, the diversity of patch-based methods remains challenging due to the stereotyped style swapping process based on nearest patch matching. To resolve this dilemma, in this paper, we dive into the core style swapping process of patch-based style transfer and explore possible ways to diversify it. What stands out is an operation called shifted style normalization (SSN), the most effective and efficient way to empower existing patch-based methods to generate diverse results for arbitrary styles. The key insight is to use an important intuition that neural patches with higher activation values could contribute more to diversity. Theoretical analyses and extensive experiments are conducted to demonstrate the effectiveness of our method, and compared with other possible options and state-of-the-art algorithms, it shows remarkable superiority in both diversity and efficiency.
翻訳日:2021-03-28 09:12:30 公開日:2021-01-16
# (参考訳) GridTracer:ディープラーニングとオーバーヘッド画像を用いた電力グリッドの自動マッピング

GridTracer: Automatic Mapping of Power Grids using Deep Learning and Overhead Imagery ( http://arxiv.org/abs/2101.06390v1 )

ライセンス: CC BY 4.0
Bohao Huang, Jichen Yang, Artem Streltsov, Kyle Bradbury, Leslie M. Collins, and Jordan Malof(参考訳) 電力網と呼ばれる送電と配電塔の位置や接続などの電気アクセス計画に有用なエネルギーシステム情報は、しばしば不完全、時代遅れ、あるいは全く利用できない。 さらに、この情報を収集する従来の手段は費用がかかり制限される。 深層学習を用いた遠隔センシング画像におけるグリッドの自動マッピングを提案する。 この目標に向けて、我々は電力グリッドのための基礎的な真実とオーバーヘッド画像の大規模なデータセット(263km^2$)を開発し、公開している。 さらに,(1)タワー認識と(2)電力線相互接続(つまり,グリッドのグラフ表現を推定する)という2つのグリッドマッピングタスクのためのスコア指標とベースラインアルゴリズムを提案する。 トレーニングデータ、評価指標、ベースラインが利用可能になることで、この重要な問題に対する迅速な進展が促進され、意思決定者が世界中の社会のエネルギーニーズに対処できるようになることを願っています。

Energy system information valuable for electricity access planning such as the locations and connectivity of electricity transmission and distribution towers, termed the power grid, is often incomplete, outdated, or altogether unavailable. Furthermore, conventional means for collecting this information is costly and limited. We propose to automatically map the grid in overhead remotely sensed imagery using deep learning. Towards this goal, we develop and publicly-release a large dataset ($263km^2$) of overhead imagery with ground truth for the power grid, to our knowledge this is the first dataset of its kind in the public domain. Additionally, we propose scoring metrics and baseline algorithms for two grid mapping tasks: (1) tower recognition and (2) power line interconnection (i.e., estimating a graph representation of the grid). We hope the availability of the training data, scoring metrics, and baselines will facilitate rapid progress on this important problem to help decision-makers address the energy needs of societies around the world.
翻訳日:2021-03-28 08:53:58 公開日:2021-01-16
# (参考訳) 教師なしノイズトラックレットパーソンの再識別

Unsupervised Noisy Tracklet Person Re-identification ( http://arxiv.org/abs/2101.06391v1 )

ライセンス: CC BY 4.0
Minxian Li, Xiatian Zhu, Shaogang Gong(参考訳) 既存の人物再識別(re-id)手法は、主にドメイン毎にラベル付けされたトレーニングデータの大規模な集合から教師付きモデル学習に依存する。 これにより、大規模デプロイメントのスケーラビリティとユーザビリティが制限される。 そこで本研究では,非ラベルのトラックレットデータから識別的人物再帰モデルを教師なしで訓練できる,新しい選択的トラックレット学習(STL)手法を提案する。 これにより、カメラビュー間で人物画像/トラックレットの真のマッチングペアを徹底的にラベル付けする面倒でコストのかかるプロセスを回避することができる。 重要な点として,本手法は生トラックレットの任意のノイズデータに対して特に頑健であり,無拘束追跡データから識別モデルの学習にスケーラブルである。 これは、アイデンティティクラスごとに真の一致とバランスのとれたトラックレットサンプルの存在をしばしば想定する、既存のいくつかの代替メソッドとは異なる。 これは、マルチカメラマルチタスクディープラーニングモデル構造で探索されたデータ適応型画像-トラックレット選択マッチング損失関数を定式化する。 大規模な比較実験により,提案したSTLモデルは,3つの大規模トラックレット人物再識別子ベンチマークにおいて,最先端の教師なし学習とワンショット学習のre-idメソッドを大幅に上回ることが示された。

Existing person re-identification (re-id) methods mostly rely on supervised model learning from a large set of person identity labelled training data per domain. This limits their scalability and usability in large scale deployments. In this work, we present a novel selective tracklet learning (STL) approach that can train discriminative person re-id models from unlabelled tracklet data in an unsupervised manner. This avoids the tedious and costly process of exhaustively labelling person image/tracklet true matching pairs across camera views. Importantly, our method is particularly more robust against arbitrary noisy data of raw tracklets therefore scalable to learning discriminative models from unconstrained tracking data. This differs from a handful of existing alternative methods that often assume the existence of true matches and balanced tracklet samples per identity class. This is achieved by formulating a data adaptive image-to-tracklet selective matching loss function explored in a multi-camera multi-task deep learning model structure. Extensive comparative experiments demonstrate that the proposed STL model surpasses significantly the state-of-the-art unsupervised learning and one-shot learning re-id methods on three large tracklet person re-id benchmarks.
翻訳日:2021-03-28 08:28:46 公開日:2021-01-16
# (参考訳) 視覚的質問応答のための潜在変数モデル

Latent Variable Models for Visual Question Answering ( http://arxiv.org/abs/2101.06399v1 )

ライセンス: CC BY 4.0
Zixu Wang, Yishu Miao, Lucia Specia(参考訳) VQA(Visual Question Answering)の従来のモデルは、様々なタイプの画像特徴、質問特徴、注意機構による決定論的アプローチを探索する。 しかし、モデルに余分な情報をもたらすために、画像と質問のペアに加えて、探究できる他のモダリティも存在する。 本稿では,付加情報(例えば,VQA)の潜在変数モデルを提案する。 キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれ、それによって質問応答のパフォーマンスが向上する。 VQA v2.0ベンチマークデータセットの実験では、強力なベースライン、特に広範囲な言語ビジョン事前学習に依存しないモデルよりも改善されたモデルの有効性が示されている。

Conventional models for Visual Question Answering (VQA) explore deterministic approaches with various types of image features, question features, and attention mechanisms. However, there exist other modalities that can be explored in addition to image and question pairs to bring extra information to the models. In this work, we propose latent variable models for VQA where extra information (e.g. captions and answer categories) are incorporated as latent variables to improve inference, which in turn benefits question-answering performance. Experiments on the VQA v2.0 benchmarking dataset demonstrate the effectiveness of our proposed models in that they improve over strong baselines, especially those that do not rely on extensive language-vision pre-training.
翻訳日:2021-03-28 08:15:45 公開日:2021-01-16
# (参考訳) ComQA:階層型グラフニューラルネットワークによる複合質問応答

ComQA:Compositional Question Answering via Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2101.06400v1 )

ライセンス: CC BY 4.0
Bingning Wang, Ting Yao, Weipeng Chen, Jingfang Xu and Xiaochuan Wang(参考訳) ディープラーニング技術と大規模データセットの開発により、質問応答(QA)システムは急速に改善され、より正確で満足な回答が提供された。 しかし、現在のQAシステムは、文レベルの答え、すなわち、回答の選択、またはフレーズレベルの答え、すなわち機械読解に焦点をあてている。 構成的回答の作り方については、まだ研究されていない。 構成質問応答では, 文レベルや句レベルのQAよりも難しい最終回答を生成するために, 文書からいくつかの支持証拠を収集する必要がある。 本稿では,120万以上の人間ラベル質問を含む大規模構成質問応答データセットを提案する。 このデータセットの答えは、対応する文書の不連続な文からなる。 ComQA問題に対処するために,低レベル語から高レベル語までの文書を表す階層型グラフニューラルネットワークを提案する。 また,事前学習のための質問選択とノード選択タスクも考案する。 提案モデルは,先行する機械読解法や事前学習法に比べて大幅に改善する。 コードとデータセットは \url{https://github.com/benywon/ComQA} で見ることができる。

With the development of deep learning techniques and large scale datasets, the question answering (QA) systems have been quickly improved, providing more accurate and satisfying answers. However, current QA systems either focus on the sentence-level answer, i.e., answer selection, or phrase-level answer, i.e., machine reading comprehension. How to produce compositional answers has not been throughout investigated. In compositional question answering, the systems should assemble several supporting evidence from the document to generate the final answer, which is more difficult than sentence-level or phrase-level QA. In this paper, we present a large-scale compositional question answering dataset containing more than 120k human-labeled questions. The answer in this dataset is composed of discontiguous sentences in the corresponding document. To tackle the ComQA problem, we proposed a hierarchical graph neural networks, which represents the document from the low-level word to the high-level sentence. We also devise a question selection and node selection task for pre-training. Our proposed model achieves a significant improvement over previous machine reading comprehension methods and pre-training methods. Codes and dataset can be found at \url{https://github.com/benywon/ComQA}.
翻訳日:2021-03-28 08:00:46 公開日:2021-01-16
# (参考訳) 3Dシーンにおける形状バックプロジェクション

Shape Back-Projection In 3D Scenes ( http://arxiv.org/abs/2101.06409v1 )

ライセンス: CC BY-SA 4.0
Ashish Kumar, L. Behera(参考訳) 本研究では,計算効率の良いポイントクラウド処理のための新しいフレームワーク形状のバックプロジェクションを確率論的に提案する。 この手法の主な構成要素は、形状ヒストグラムとバックプロジェクション手順である。 この手法は三次元表面の幾何学的性質を分析して類似度を測定する。 色分布を見るだけで、画像間の類似度を測定するカラーバックプロジェクションに類似している。 全体過程において、まず、試料表面の形状ヒストグラム(例)を形成する。 Planar)は計算され、確率分布の形で、ある点の周りの表面の正規分布をキャプチャする。 その後、ヒストグラムを試験面にバックプロジェクションし、適度スコアを得る。 このスコアは、テスト表面の点が、幾何的にサンプル表面と同じような振る舞いをする可能性を示している。 シェイプバックプロジェクションは、バイナリ表面分類、未編成のポイントクラウドにおける高い曲率エッジ検出、3D-CNN(畳み込みニューラルネットワーク)のための自動ポイントクラウドラベリングなどに適用できる。 このアルゴリズムは、倉庫の自動化における自律物体の拾い取り、自動運転車のための地上平面抽出などのリアルタイムロボット操作にも利用でき、計算に制限のあるプラットフォーム(UAV)に容易に展開できる。

In this work, we propose a novel framework shape back-projection for computationally efficient point cloud processing in a probabilistic manner. The primary component of the technique is shape histogram and a back-projection procedure. The technique measures similarity between 3D surfaces, by analyzing their geometrical properties. It is analogous to color back-projection which measures similarity between images, simply by looking at their color distributions. In the overall process, first, shape histogram of a sample surface (e.g. planar) is computed, which captures the profile of surface normals around a point in form of a probability distribution. Later, the histogram is back-projected onto a test surface and a likelihood score is obtained. The score depicts that how likely a point in the test surface behaves similar to the sample surface, geometrically. Shape back-projection finds its application in binary surface classification, high curvature edge detection in unorganized point cloud, automated point cloud labeling for 3D-CNNs (convolutional neural network) etc. The algorithm can also be used for real-time robotic operations such as autonomous object picking in warehouse automation, ground plane extraction for autonomous vehicles and can be deployed easily on computationally limited platforms (UAVs).
翻訳日:2021-03-28 07:41:45 公開日:2021-01-16
# (参考訳) GPSを用いた遠隔操作作業のための深層学習支援自律型UAVの実現に向けて

Towards Deep Learning Assisted Autonomous UAVs for Manipulation Tasks in GPS-Denied Environments ( http://arxiv.org/abs/2101.06414v1 )

ライセンス: CC BY-SA 4.0
Ashish Kumar, Mohit Vohra, Ravi Prakash, L. Behera(参考訳) 本研究では,無人航空機(UAV)が物体の選別と位置の複雑なタスクを自律的に行うための実用的アプローチを提案する。 本論文は主にMBZIRC 2020のチャレンジ2に触発され,屋外およびGPSを用いた大規模3次元構造物の組み立て作業に重点を置いている。 Primary contributions of this system are: (i) a novel computationally efficient deep learning based unified multi-task visual perception system for target localization, part segmentation, and tracking, (ii) a novel deep learning based grasp state estimation, (iii) a retracting electromagnetic gripper design, (iv) a remote computing approach which exploits state-of-the-art MIMO based high speed (5000Mb/s) wireless links to allow the UAVs to execute compute intensive tasks on remote high end compute servers, and (v) system integration in which several system components are weaved together in order to develop an optimized software stack. DJI Matrice-600 ProはヘックスローターUAVで、カスタムデザインのグリップでインターフェースします。 我々のフレームワークは、個々のモジュールのパフォーマンス解析を報告するために、指定されたUAV上にデプロイされる。 操作システムとは別に、この文脈でUAVにまつわるいくつかの隠れた課題も強調する。

In this work, we present a pragmatic approach to enable unmanned aerial vehicle (UAVs) to autonomously perform highly complicated tasks of object pick and place. This paper is largely inspired by challenge-2 of MBZIRC 2020 and is primarily focused on the task of assembling large 3D structures in outdoors and GPS-denied environments. Primary contributions of this system are: (i) a novel computationally efficient deep learning based unified multi-task visual perception system for target localization, part segmentation, and tracking, (ii) a novel deep learning based grasp state estimation, (iii) a retracting electromagnetic gripper design, (iv) a remote computing approach which exploits state-of-the-art MIMO based high speed (5000Mb/s) wireless links to allow the UAVs to execute compute intensive tasks on remote high end compute servers, and (v) system integration in which several system components are weaved together in order to develop an optimized software stack. We use DJI Matrice-600 Pro, a hex-rotor UAV and interface it with the custom designed gripper. Our framework is deployed on the specified UAV in order to report the performance analysis of the individual modules. Apart from the manipulation system, we also highlight several hidden challenges associated with the UAVs in this context.
翻訳日:2021-03-28 07:29:10 公開日:2021-01-16
# (参考訳) Match-Ignition:長文マッチングのためのPageRankを変換器にプラグインする

Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching ( http://arxiv.org/abs/2101.06423v1 )

ライセンス: CC BY 4.0
Liang Pang, Yanyan Lan, Xueqi Cheng(参考訳) セマンティックテキストマッチングモデルは、コミュニティの質問応答、情報検索、対話に広く利用されている。 しかし、これらのモデルは長文のテキストマッチング問題にうまく対応できない。 これは、通常、長い形式のテキストマッチングの設定にはノイズが多く、既存の意味テキストマッチングでは、このノイズ情報からキーマッチング信号をキャプチャすることが難しいためである。 さらに、これらのモデルは、マッチングプロセスですべてのテキストデータを無差別に使用するため、計算コストがかかる。 そこで本論文では,効率と有効性の問題に取り組むため,新しい階層型雑音フィルタリングモデルを提案する。 基本的なアイデアは、よく知られたpagerankアルゴリズムをトランスフォーマーに挿入し、マッチングプロセスで文と単語レベルのノイズ情報の両方を識別してフィルタリングするというものだ。 雑音文は通常、文が長文の基本単位であるため検出しやすいので、文の類似度グラフに基づいて直接pagerankを使用して情報をフィルタリングする。 語は具体的意味を表現するために文脈に依存する必要があるが, 単語間の文脈依存性を反映するために, フィルタリング処理とマッチング処理を共同で学習することを提案する。 具体的には、まず、Transformerの各自己注意ブロックの注意点に基づいて単語グラフを構築し、次にこのグラフにPageRankを適用することでキーワードを選択する。 このようにして、ノイズの多い単語はマッチングプロセスでレイヤごとにフィルタアウトされる。 実験の結果,Match-Ignitionは従来のテキストマッチングモデルと最近の長文マッチングモデルの両方に優れていた。 また,Match-Ignitionが長文のマッチングに有用な重要な文や単語を効率的にキャプチャできることを示すために,詳細な分析を行う。

Semantic text matching models have been widely used in community question answering, information retrieval, and dialogue. However, these models cannot well address the long-form text matching problem. That is because there are usually many noises in the setting of long-form text matching, and it is difficult for existing semantic text matching to capture the key matching signals from this noisy information. Besides, these models are computationally expensive because they simply use all textual data indiscriminately in the matching process. To tackle the effectiveness and efficiency problem, we propose a novel hierarchical noise filtering model in this paper, namely Match-Ignition. The basic idea is to plug the well-known PageRank algorithm into the Transformer, to identify and filter both sentence and word level noisy information in the matching process. Noisy sentences are usually easy to detect because the sentence is the basic unit of a long-form text, so we directly use PageRank to filter such information, based on a sentence similarity graph. While words need to rely on their contexts to express concrete meanings, so we propose to jointly learn the filtering process and the matching process, to reflect the contextual dependencies between words. Specifically, a word graph is first built based on the attention scores in each self-attention block of Transformer, and keywords are then selected by applying PageRank on this graph. In this way, noisy words will be filtered out layer by layer in the matching process. Experimental results show that Match-Ignition outperforms both traditional text matching models for short text and recent long-form text matching models. We also conduct detailed analysis to show that Match-Ignition can efficiently capture important sentences or words, which are helpful for long-form text matching.
翻訳日:2021-03-28 07:17:57 公開日:2021-01-16
# (参考訳) アクティブ物体検出のための適応型リモートセンシング画像属性学習

Adaptive Remote Sensing Image Attribute Learning for Active Object Detection ( http://arxiv.org/abs/2101.06438v1 )

ライセンス: CC BY 4.0
Nuo Xu, Chunlei Huo, Jiacheng Guo, Yiwei Liu, Jian Wang and Chunhong Pan(参考訳) 近年,ディープラーニング手法がオブジェクト検出の分野に驚くべき進歩をもたらしている。 しかし、リモートセンシング画像処理の分野では、既存の手法は画像構成と検出性能の関係を無視し、画像品質向上のための検出性能フィードバックの重要性を考慮していない。 したがって、従来のオブジェクト検出フレームワークのパッシブ性によって検出性能が制限される。 上記の制約を解決するために, 適応的な明るさ調整とスケール調整を例として取り上げ, 深部強化学習に基づく能動物体検出手法を提案する。 適応画像属性学習の目標は、検出性能を最大化することである。 アクティブなオブジェクト検出と画像属性調整戦略の助けを借りて、低品質の画像を高品質な画像に変換することができ、検出器を再トレーニングすることなく全体的なパフォーマンスが向上する。

In recent years, deep learning methods bring incredible progress to the field of object detection. However, in the field of remote sensing image processing, existing methods neglect the relationship between imaging configuration and detection performance, and do not take into account the importance of detection performance feedback for improving image quality. Therefore, detection performance is limited by the passive nature of the conventional object detection framework. In order to solve the above limitations, this paper takes adaptive brightness adjustment and scale adjustment as examples, and proposes an active object detection method based on deep reinforcement learning. The goal of adaptive image attribute learning is to maximize the detection performance. With the help of active object detection and image attribute adjustment strategies, low-quality images can be converted into high-quality images, and the overall performance is improved without retraining the detector.
翻訳日:2021-03-28 07:01:40 公開日:2021-01-16
# (参考訳) scale factor point spread function matching: beyond aliasing in image resampling

Scale factor point spread function matching: Beyond aliasing in image resampling ( http://arxiv.org/abs/2101.06440v1 )

ライセンス: CC BY 4.0
M. Jorge Cardoso, Marc Modat, Tom Vercauteren, Sebastien Ourselin(参考訳) 撮像装置はNyquist-Shannonサンプリング定理を利用して、設計によるエイリアシングと冗長なオーバーサンプリングの両方を避ける。 逆に、医用画像再サンプリングでは、画像は連続関数と見なされ、空間変換によって歪められ、通常の格子上にサンプリングされる。 ほとんどの場合、空間的ワーピングは連続関数の周波数特性を変化させ、サンプリング定理の条件を再サンプリンググリッドが尊重するように特別に注意を払わない。 本研究は,臨床応用において重要なバイアスとなるアーティファクト(エイリアスなど)を導入することを示唆する。 この一般的な慣習の特筆すべき例外は、ダウンサンプリングの前に低パスの「アンチエイリアシング」フィルタが適用されるマルチ解像度ピラミッドが構築されていることである。 本研究では,一般空間変換下で画像のサンプリングを行う際に類似した注意が必要である理由を説明し,サンプリング定理をより尊重する新しい手法を提案し,エイリアスと情報の損失を最小化する。 本稿では,sfpsf(scale factor point spread function)の概念を導入し,任意の非線形空間変換やグリッドサイズに対応する計算可能な再サンプリングスキームを実現するためにガウス核を用いる。 p<1e-4) の臨床的および臨床的意義を示す実験を行った。

Imaging devices exploit the Nyquist-Shannon sampling theorem to avoid both aliasing and redundant oversampling by design. Conversely, in medical image resampling, images are considered as continuous functions, are warped by a spatial transformation, and are then sampled on a regular grid. In most cases, the spatial warping changes the frequency characteristics of the continuous function and no special care is taken to ensure that the resampling grid respects the conditions of the sampling theorem. This paper shows that this oversight introduces artefacts, including aliasing, that can lead to important bias in clinical applications. One notable exception to this common practice is when multi-resolution pyramids are constructed, with low-pass "anti-aliasing" filters being applied prior to downsampling. In this work, we illustrate why similar caution is needed when resampling images under general spatial transformations and propose a novel method that is more respectful of the sampling theorem, minimising aliasing and loss of information. We introduce the notion of scale factor point spread function (sfPSF) and employ Gaussian kernels to achieve a computationally tractable resampling scheme that can cope with arbitrary non-linear spatial transformations and grid sizes. Experiments demonstrate significant (p<1e-4) technical and clinical implications of the proposed method.
翻訳日:2021-03-28 06:49:29 公開日:2021-01-16
# (参考訳) deep neural network と long short term memory $(1)$ を用いた2つの気象因子の動的予測

Dynamical prediction of two meteorological factors using the deep neural network and the long short term memory $(1)$ ( http://arxiv.org/abs/2101.09356v1 )

ライセンス: CC0 1.0
Ki Hong Shin, Jae Won Jung, Sung Kyu Seo, Cheol Hwan You, Dong In Lee, Jisun Lee, Ki Ho Chang, Woon Seon Jung, Kyungsik Kim(参考訳) 定量的気象予測では,温度・湿度予測精度の算出と解析が重要である。 本研究では,既存のニューラルネットワーク法を用いて予測精度を向上させる。 そこで本研究では,2つの気象因子(温度と湿度)を用いて,ニューラルネットワークの予測精度と性能を解析・検討する。 人工ニューラルネットワーク(ann)、ディープニューラルネットワーク(dnn)、極端な学習機械(elm)、長期短期記憶(lstm)、およびピープホール接続(lstm−pc)機械学習法を用いた長期短期記憶(long short-term memory)を適用してシミュレーションを行い、各手法から得られる正確な予測値と比較する。 2014年3月から2020年2月までの韓国10都市における低周波時系列データから,観測結果の妥当性を検証した。 手法のロバスト性をテストするため,LSTMの誤差は予測精度で他の4手法よりも優れていた。 特に,トンギョンの夏季におけるLSTMの温度予測は,他のニューラルネットワーク法よりも0.866低い根平均2乗誤差(RMSE)値を持ち,夏期のMokpoでは,湿度予測におけるLSTMの平均絶対誤差(MAPE)値が5.525であり,他の都市に比べて有意に優れている。

It is important to calculate and analyze temperature and humidity prediction accuracies among quantitative meteorological forecasting. This study manipulates the extant neural network methods to foster the predictive accuracy. To achieve such tasks, we analyze and explore the predictive accuracy and performance in the neural networks using two combined meteorological factors (temperature and humidity). Simulated studies are performed by applying the artificial neural network (ANN), deep neural network (DNN), extreme learning machine (ELM), long short-term memory (LSTM), and long short-term memory with peephole connections (LSTM-PC) machine learning methods, and the accurate prediction value are compared to that obtained from each other methods. Data are extracted from low frequency time-series of ten metropolitan cities of South Korea from March 2014 to February 2020 to validate our observations. To test the robustness of methods, the error of LSTM is found to outperform that of the other four methods in predictive accuracy. Particularly, as testing results, the temperature prediction of LSTM in summer in Tongyeong has a root mean squared error (RMSE) value of 0.866 lower than that of other neural network methods, while the mean absolute percentage error (MAPE) value of LSTM for humidity prediction is 5.525 in summer in Mokpo, significantly better than other metropolitan cities.
翻訳日:2021-03-28 06:28:03 公開日:2021-01-16
# (参考訳) スロットマシン:ニューラルネットワークにおけるランダムウェイトの勝利の組み合わせを見つける

Slot Machines: Discovering Winning Combinations of Random Weights in Neural Networks ( http://arxiv.org/abs/2101.06475v1 )

ライセンス: CC BY 4.0
Maxwell Mbabilla Aladago and Lorenzo Torresani(参考訳) 連続空間における従来の重み最適化とは対照的に、重みが更新されない効果的なランダムネットワークの存在を実証する。 提案手法は,各接続のランダム値の固定セット間の重みを選択することで,同じ容量の従来訓練されたネットワークの性能にマッチする無作為重みの組み合わせを明らかにする。 我々はネットワークを「スロットマシン」と呼び、各リール(接続)は固定されたシンボルの集合(ランダム値)を含む。 我々のバックプロパゲーションアルゴリズムはリールを「スピン」して「勝利」の組み合わせ、すなわち与えられた損失を最小限に抑えるランダムウェイト値の選択を求める。 驚くほど驚くべきことに、各接続にランダムな値(例えば1接続あたり8値)を割り当てるだけで、従来の学習した重みよりも劇的に制限されているにもかかわらず、非常に競争力のある組み合わせが得られる。 さらに、これらの組み合わせを微調整することで、トレーニングされたベースラインのパフォーマンスが向上することが多い。 1接続あたり8値のランダム初期化VGG-19は、CIFAR-10で90%のテスト精度を達成する組み合わせを含む。 また, ランダム重みのみを含むニューラルネットワークに対するMNISTの98.1%の性能も向上した。

In contrast to traditional weight optimization in a continuous space, we demonstrate the existence of effective random networks whose weights are never updated. By selecting a weight among a fixed set of random values for each individual connection, our method uncovers combinations of random weights that match the performance of traditionally-trained networks of the same capacity. We refer to our networks as "slot machines" where each reel (connection) contains a fixed set of symbols (random values). Our backpropagation algorithm "spins" the reels to seek "winning" combinations, i.e., selections of random weight values that minimize the given loss. Quite surprisingly, we find that allocating just a few random values to each connection (e.g., 8 values per connection) yields highly competitive combinations despite being dramatically more constrained compared to traditionally learned weights. Moreover, finetuning these combinations often improves performance over the trained baselines. A randomly initialized VGG-19 with 8 values per connection contains a combination that achieves 90% test accuracy on CIFAR-10. Our method also achieves an impressive performance of 98.1% on MNIST for neural networks containing only random weights.
翻訳日:2021-03-28 06:26:42 公開日:2021-01-16
# (参考訳) COVID-19の社会的孤立に伴う感情意味傾向と感情検出のための人工知能

Artificial Intelligence for Emotion-Semantic Trending and People Emotion Detection During COVID-19 Social Isolation ( http://arxiv.org/abs/2101.06484v1 )

ライセンス: CC BY 4.0
Hamed Jelodar, Rita Orji, Stan Matwin, Swarna Weerasinghe, Oladapo Oyebode, Yongli Wang(参考訳) 本稿では,Twitterなどのソーシャルメディアプラットフォームを活用し,隔離された人々の間で感情検出の効果的な枠組みを提供する。 感情の早期検出とその傾向は、タイムリーな介入戦略の実装に役立つ。 隔離期における早期の感情変化の診断の限界を考えると、人工知能モデルは早期の兆候、症状、エスカレーション傾向を明らかにする効果的なメカニズムを提供する。 本稿では,plutchik/ekmanアプローチによる感情検出とトレンド検出に基づく,有意義な感情検出と分析のためのパイプラインとして実装した,テキストデータ処理のマルチタスク方法論フレームワークを提案する。 本稿では,フレームワークの評価とパイロットシステムについて述べる。 新型コロナウイルスのツイートの話題傾向と感情検出のためのフレームワークの有効性を確認した。 その結果、ツイッター上でネガティブな感情的意味論とポジティブな感情論の両方を表現できた。 28日以内に自宅滞在に関する安全問題のセマンティックな傾向が急速に減少し、友人の死亡や隔離生活に関する否定的な感情も数日で増大した。 これらの発見は、隔離された人々の感情的感情の傾向を監視することによって、公衆衛生政策の決定に影響を及ぼす可能性がある。 ここで示したフレームワークは、オンライン感情検出ツールキットとして使用することで、このようなモニタリングを支援する可能性がある。

Taking advantage of social media platforms, such as Twitter, this paper provides an effective framework for emotion detection among those who are quarantined. Early detection of emotional feelings and their trends help implement timely intervention strategies. Given the limitations of medical diagnosis of early emotional change signs during the quarantine period, artificial intelligence models provide effective mechanisms in uncovering early signs, symptoms and escalating trends. Novelty of the approach presented herein is a multitask methodological framework of text data processing, implemented as a pipeline for meaningful emotion detection and analysis, based on the Plutchik/Ekman approach to emotion detection and trend detection. We present an evaluation of the framework and a pilot system. Results of confirm the effectiveness of the proposed framework for topic trends and emotion detection of COVID-19 tweets. Our findings revealed Stay-At-Home restrictions result in people expressing on twitter both negative and positive emotional semantics. Semantic trends of safety issues related to staying at home rapidly decreased within the 28 days and also negative feelings related to friends dying and quarantined life increased in some days. These findings have potential to impact public health policy decisions through monitoring trends of emotional feelings of those who are quarantined. The framework presented here has potential to assist in such monitoring by using as an online emotion detection tool kit.
翻訳日:2021-03-28 06:08:03 公開日:2021-01-16
# (参考訳) 人工ニューラルネットワークにおける学習ダイナミクスのフェーズ:誤ったラベルデータの有無

Phases of learning dynamics in artificial neural networks: with or without mislabeled data ( http://arxiv.org/abs/2101.06509v1 )

ライセンス: CC BY 4.0
Yu Feng and Yuhai Tu(参考訳) 機械学習におけるディープニューラルネットワークの成功にもかかわらず、その優れた学習能力の根底にある理由はいまだ不明だ。 本稿では,ニューラルネットワークにおける学習を促進する確率的勾配降下(sgd)のダイナミクスを研究するための統計物理学に基づく枠組みを提案する。 ミニバッチ勾配アンサンブルを用いることで,sgdにおける重み更新のダイナミクスを特徴付ける順序パラメータを構築する。 誤ラベルデータがないと、sgd学習ダイナミクスは、sgd勾配とその平均振幅のアライメントを特徴付ける順序パラメータに大きな変化を伴う、高速な学習フェーズから遅い探索フェーズへと遷移する。 ランダムにラベルを間違えたサンプルの場合、SGD学習ダイナミクスは4つの異なるフェーズに分類される。 システムはまず第1相で正しくラベル付けされたサンプルの解を見つけ、その後第2相でこれらの解をさまよって、第III相で間違ったラベル付けされたサンプルを学習する方向を見つけ、その後第4相で全てのトレーニングサンプルを満たす解を見つける。 一方,第i相では試験誤差が減少し,第ii相では低くなるが,第iii相では増加し,第iv相では高台に達する。 異なる位相間の遷移は、学習中の平均勾配のアライメントと(相対的な)強さを特徴付ける順序パラメータの変化によって理解することができる。 2つのデータセットの個々のサンプル損失は、フェーズiiで最も分離されていることが分かり、一般化を改善するために誤ってラベルされたサンプルを取り除くためのクリーニングプロセスに繋がる。

Despite tremendous success of deep neural network in machine learning, the underlying reason for its superior learning capability remains unclear. Here, we present a framework based on statistical physics to study dynamics of stochastic gradient descent (SGD) that drives learning in neural networks. By using the minibatch gradient ensemble, we construct order parameters to characterize dynamics of weight updates in SGD. Without mislabeled data, we find that the SGD learning dynamics transitions from a fast learning phase to a slow exploration phase, which is associated with large changes in order parameters that characterize the alignment of SGD gradients and their mean amplitude. In the case with randomly mislabeled samples, SGD learning dynamics falls into four distinct phases. The system first finds solutions for the correctly labeled samples in phase I, it then wanders around these solutions in phase II until it finds a direction to learn the mislabeled samples during phase III, after which it finds solutions that satisfy all training samples during phase IV. Correspondingly, the test error decreases during phase I and remains low during phase II; however, it increases during phase III and reaches a high plateau during phase IV. The transitions between different phases can be understood by changes of order parameters that characterize the alignment of mean gradients for the correctly and incorrectly labeled samples and their (relative) strength during learning. We find that individual sample losses for the two datasets are most separated during phase II, which leads to a cleaning process to eliminate mislabeled samples for improving generalization.
翻訳日:2021-03-28 05:53:47 公開日:2021-01-16
# (参考訳) 言語学的・文脈的ゼロショットスロットフィリング

Linguistically-Enriched and Context-Aware Zero-shot Slot Filling ( http://arxiv.org/abs/2101.06514v1 )

ライセンス: CC BY 4.0
A.B. Siddique, Fuad Jamour, Vagelis Hristidis(参考訳) スロットフィリング(英: Slot fill)とは、ユーザの要求/問い合わせの特定のパラメータ(スロット)に対応する発話中の単語の連続したスパンを識別することである。 スロット充填は、現代のタスク指向ダイアログシステムにおいて最も重要な課題の1つである。 教師付き学習アプローチは、この課題に対処する上で有効であることが証明されているが、与えられたドメインに大量のラベル付きトレーニングデータが必要である。 しかし、新しいドメイン(すなわち、トレーニングでは見えない)がデプロイ後に出現する可能性がある。 したがって、これらのモデルは、目に見えないドメインと見えないドメインの両方のスロットをシームレスに適応し、埋めることが必須である。 この設定は一般にゼロショットスロットフィリングと呼ばれる。 この設定には、実験的な評価が限られている。 コンテキストに依存しない埋め込みベースの類似度測定を主に依存する既存のモデルは、未認識ドメインのスロット値の検出や部分的にしか行わない。 本稿では,新しいゼロショットスロット充填ニューラルモデルleonaを提案する。 ステップ1は、(a)言語的特徴、(b)名前付きエンティティ認識手がかり、(c)事前学習された言語モデルから文脈的埋め込みを活用して、発話語の文脈認識表現を取得する。 ステップ2 これらのリッチ表現を微調整し、各単語に対してスロット独立タグを生成する。 Step 3は、単語レベルでの一般化可能なコンテキスト対応発話-スロット類似機能を利用して、スロット非依存タグを使用して、各ワードに対してスロット固有の予測を生成する。 4つの異なるパブリックデータセットに対する徹底的な評価は、SNIPS、ATIS、MultiWOZ、SGDデータセットの未確認領域の平均で、我々のアプローチが17.52%、22.15%、17.42%、および17.95%のSOTAモデルより一貫して優れていることを示している。

Slot filling is identifying contiguous spans of words in an utterance that correspond to certain parameters (i.e., slots) of a user request/query. Slot filling is one of the most important challenges in modern task-oriented dialog systems. Supervised learning approaches have proven effective at tackling this challenge, but they need a significant amount of labeled training data in a given domain. However, new domains (i.e., unseen in training) may emerge after deployment. Thus, it is imperative that these models seamlessly adapt and fill slots from both seen and unseen domains -- unseen domains contain unseen slot types with no training data, and even seen slots in unseen domains are typically presented in different contexts. This setting is commonly referred to as zero-shot slot filling. Little work has focused on this setting, with limited experimental evaluation. Existing models that mainly rely on context-independent embedding-based similarity measures fail to detect slot values in unseen domains or do so only partially. We propose a new zero-shot slot filling neural model, LEONA, which works in three steps. Step one acquires domain-oblivious, context-aware representations of the utterance word by exploiting (a) linguistic features; (b) named entity recognition cues; (c) contextual embeddings from pre-trained language models. Step two fine-tunes these rich representations and produces slot-independent tags for each word. Step three exploits generalizable context-aware utterance-slot similarity features at the word level, uses slot-independent tags, and contextualizes them to produce slot-specific predictions for each word. Our thorough evaluation on four diverse public datasets demonstrates that our approach consistently outperforms the SOTA models by 17.52%, 22.15%, 17.42%, and 17.95% on average for unseen domains on SNIPS, ATIS, MultiWOZ, and SGD datasets, respectively.
翻訳日:2021-03-28 05:38:49 公開日:2021-01-16
# (参考訳) ConE: 大規模ソフトウェア開発のための同時編集検出ツール

ConE: A Concurrent Edit Detection Tool for Large ScaleSoftware Development ( http://arxiv.org/abs/2101.06542v1 )

ライセンス: CC BY 4.0
Chandra Maddila, Nachiappan Nagappan, Christian Bird, Georgios Gousios, Arie van Deursen(参考訳) 異なるチームや組織の開発者は、同じ場所や分散し、同じ期間にアクティブなプルリクエストを通じて同じソースコードファイルや領域に変更を加えることは、複雑なソフトウェアシステムを開発する上で不可欠な部分です。 このような動的に変化する環境が複数の境界、地理的、組織にまたがるため、システムの他のアクティブなプルリクエストを経由した変更が、複雑なマージ衝突、論理的バグの検出困難、作業の重複、開発者の生産性の無駄につながるという認識はほとんどありません。 この問題に対処するため、我々はMicrosoftの8つの非常に大きなリポジトリで生成された変更を調査し、同時編集の程度と、その後のバグやバグ修正との関係について理解した。 本研究では,コンカレント編集検出システムであるConE(Concurrent Edit Detector)を開発した。 本稿では,ConEの早期介入手法であるプルリクエスト通知(Pull request Notification)を通じて,コラボレーションソフトウェア開発に参加するすべてのステークホルダ間のコミュニケーションを改善することで,今後の問題を回避する。

Developers from different teams or organizations, co-located or distributed, making changes to the same source code files or areas, through pull requests that are active in the same time period, is an essential part of developing complex software systems. With such a dynamically changing environment spanning several boundaries, geographic and organizational, there is little awareness about the changes that are flowing in through other active pull requests in the system leading to complex merge conflicts, hard-to-detect logical bugs or duplication of work and wasted developer productivity. In order to address this problem, we studied changes produced in eight very large repositories, in Microsoft to understand the extent of concurrent edits and their relation to subsequent bugs and bug fixes. Motivated by our findings, we developed a system called ConE (Concurrent Edit Detector) that proactively detects concurrent edits to help mitigate the problems caused by them. We present the results of ConE's deployment through early intervention techniques such as pull request notifications, by which ConE facilitates better communication among all the stakeholders participating in collaborative software development, helping avoid future problems.
翻訳日:2021-03-28 05:15:07 公開日:2021-01-16
# (参考訳) コミュニティ検出のためのマルチレベルクラスタリング手法

A multilevel clustering technique for community detection ( http://arxiv.org/abs/2101.06551v1 )

ライセンス: CC BY 4.0
Isa Inuwa-Dutse, Mark Liptrott, Yannis Korkontzelos(参考訳) ネットワークは、多くのコミュニティ、すなわちノードとエッジの集合からなる構成であり、より強い関係を持ち、異なる性質と重なり合う性質を持つ。 コミュニティ検出は、ノード間のローカルなインタラクションをキャプチャするネットワークの機能ユニットとして機能するなど、さまざまな理由で重要である。 コミュニティには、生物学的から技術によって引き起こされるものまで、様々な形態や種類がある。 テクノロジーが引き起こすコミュニティとして、TwitterやFacebookのようなソーシャルメディアは、無数の多様なユーザーを結び付け、高度につながり、ダイナミックなエコシステムへと繋がる。 twitter上で社会的に結束したコミュニティを検出するアルゴリズムは数多く提案されているが、マイニングと関連するタスクは依然として困難である。 本研究では,ネットワーク内の関連コミュニティを識別するスケーラブルなフレームワークに基づく新しい検出手法を提案する。 マイクロコズムと呼ばれる地域社会を識別するために構造的およびテキスト的情報を活用するマルチレベルクラスタリング手法(MCT)を提案する。 ベンチマークモデルとデータセットの実験的評価は、このアプローチの有効性を示す。 本研究は,ソーシャルネットワークにおける結束型コミュニティの検出に新たな次元をもたらす。 このアプローチは、低レベルのコミュニティがどのように進化し、twitter上で振る舞うかを説明する上で、より深い理解と明確性を提供する。 アプリケーションの観点から見れば、そのようなコミュニティを特定することで、推奨事項、その他のメリットをよりよく知ることができる。

A network is a composition of many communities, i.e., sets of nodes and edges with stronger relationships, with distinct and overlapping properties. Community detection is crucial for various reasons, such as serving as a functional unit of a network that captures local interactions among nodes. Communities come in various forms and types, ranging from biologically to technology-induced ones. As technology-induced communities, social media networks such as Twitter and Facebook connect a myriad of diverse users, leading to a highly connected and dynamic ecosystem. Although many algorithms have been proposed for detecting socially cohesive communities on Twitter, mining and related tasks remain challenging. This study presents a novel detection method based on a scalable framework to identify related communities in a network. We propose a multilevel clustering technique (MCT) that leverages structural and textual information to identify local communities termed microcosms. Experimental evaluation on benchmark models and datasets demonstrate the efficacy of the approach. This study contributes a new dimension for the detection of cohesive communities in social networks. The approach offers a better understanding and clarity toward describing how low-level communities evolve and behave on Twitter. From an application point of view, identifying such communities can better inform recommendation, among other benefits.
翻訳日:2021-03-28 04:52:23 公開日:2021-01-16
# (参考訳) SceneGen: リアルなトラフィックシーンを生成するための学習

SceneGen: Learning to Generate Realistic Traffic Scenes ( http://arxiv.org/abs/2101.06541v1 )

ライセンス: CC BY 4.0
Shuhan Tan, Kelvin Wong, Shenlong Wang, Sivabalan Manivasagam, Mengye Ren, Raquel Urtasun(参考訳) 現実的な交通シーンを自動生成する問題を考察する。 既存の手法は通常、手作りのヒューリスティックのセットに従ってアクターをシーンに挿入し、実際のトラフィックシーンの真の複雑さと多様性をモデル化する能力に制限されているため、合成されたトラフィックシーンと実際のトラフィックシーンの間のコンテンツギャップが生じる。 その結果、既存のシミュレーターは、自動運転車の訓練とテストに必要な信頼性を欠いている。 この制限に対処するために、ルールやヒューリスティックスの必要性を緩和する、トラフィックシーンの神経的自己回帰モデルであるSceneGenを紹介します。 特に、エゴ・ベヒクル状態と周辺地域の高定義マップを考えると、シーンゲンは様々なクラスの俳優をシーンに挿入し、その大きさ、向き、速度を合成する。 実トラフィックシーンの分布を忠実にモデル化するSceneGenの大規模データセットを2つ紹介する。 さらに,SceneGenとセンサシミュレーションを組み合わせることで,現実世界に一般化する知覚モデルを訓練することができることを示す。

We consider the problem of generating realistic traffic scenes automatically. Existing methods typically insert actors into the scene according to a set of hand-crafted heuristics and are limited in their ability to model the true complexity and diversity of real traffic scenes, thus inducing a content gap between synthesized traffic scenes versus real ones. As a result, existing simulators lack the fidelity necessary to train and test self-driving vehicles. To address this limitation, we present SceneGen, a neural autoregressive model of traffic scenes that eschews the need for rules and heuristics. In particular, given the ego-vehicle state and a high definition map of surrounding area, SceneGen inserts actors of various classes into the scene and synthesizes their sizes, orientations, and velocities. We demonstrate on two large-scale datasets SceneGen's ability to faithfully model distributions of real traffic scenes. Moreover, we show that SceneGen coupled with sensor simulation can be used to train perception models that generalize to the real world.
翻訳日:2021-03-28 04:49:29 公開日:2021-01-16
# LookOut: 多様なマルチフューチャー予測と自動運転計画

LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving ( http://arxiv.org/abs/2101.06547v1 )

ライセンス: Link先を確認
Alexander Cui, Abbas Sadat, Sergio Casas, Renjie Liao, Raquel Urtasun(参考訳) 自動運転車は、希少だが危険な運転を示す他の交通参加者と安全に道路を共有するために、さまざまな将来の交通シナリオを予測する必要がある。 本稿では,環境を総合的に認識し,センサデータから多様な未来を予測し,その確率を推定し,これら多様な未来を実現するためのコンティンジェンシー・プランを最適化する手法であるルックアウトを提案する。 特に,多エージェント未来トラジェクタを用いた多種多様なジョイント分布を交通シーンで学習し,生成モデルの表現力を活用して,多種多様な未来モードを高いサンプル効率でカバーすることを可能にする。 多様な動き予測におけるこれまでの作業とは異なり、当社の多様性は、安全性を向上させるために自動運転車と異なる反応を必要とする将来のシナリオのサンプリングに明確に報いる。 我々の緊急プランナーは、幅広い将来のシナリオに対して安全な反応を保証する快適な軌道を見つける。 提案手法は,大規模自動運転データセットにおいて,より多様でサンプル効率の良い動作予測を行うとともに,現在の最先端モデルよりも長期閉ループシミュレーションにおいて,より安全で快適な動作計画を示す。

Self-driving vehicles need to anticipate a diverse set of future traffic scenarios in order to safely share the road with other traffic participants that may exhibit rare but dangerous driving. In this paper, we present LookOut, an approach to jointly perceive the environment and predict a diverse set of futures from sensor data, estimate their probability, and optimize a contingency plan over these diverse future realizations. In particular, we learn a diverse joint distribution over multi-agent future trajectories in a traffic scene that allows us to cover a wide range of future modes with high sample efficiency while leveraging the expressive power of generative models. Unlike previous work in diverse motion forecasting, our diversity objective explicitly rewards sampling future scenarios that require distinct reactions from the self-driving vehicle for improved safety. Our contingency planner then finds comfortable trajectories that ensure safe reactions to a wide range of future scenarios. Through extensive evaluations, we show that our model demonstrates significantly more diverse and sample-efficient motion forecasting in a large-scale self-driving dataset as well as safer and more comfortable motion plans in long-term closed-loop simulations than current state-of-the-art models.
翻訳日:2021-03-28 04:37:47 公開日:2021-01-16
# AdvSim:自動運転車の安全クリティカルシナリオの生成

AdvSim: Generating Safety-Critical Scenarios for Self-Driving Vehicles ( http://arxiv.org/abs/2101.06549v1 )

ライセンス: Link先を確認
Jingkang Wang, Ava Pun, James Tu, Sivabalan Manivasagam, Abbas Sadat, Sergio Casas, Mengye Ren, Raquel Urtasun(参考訳) 自動運転システムがより良くなるにつれて、自律的なスタックが失敗する可能性のあるシナリオをシミュレートすることが重要になる。 伝統的に、これらのシナリオは、基盤となるアクター状態を入力として使用するプランニングモジュールに関して、いくつかのシーンで生成される。 これはスケールせず、閉塞による知覚障害など、あらゆる可能な自律的障害を特定することはできない。 本稿では,LiDARに基づく自律システムにおいて,安全クリティカルなシナリオを生成するための,AdvSimを提案する。 初期トラフィックシナリオを前提として、AdvSimはアクターの軌跡を物理的に妥当な方法で修正し、LiDARセンサーデータを更新し、乱れた世界を現実的に観察する。 重要なことは、センサデータから直接シミュレートすることで、完全な自律スタックにとって安全なシナリオが得られます。 我々の実験は、我々のアプローチが一般的であり、広範囲の近代自動運転システムに対して意味論的に意味のある安全クリティカルなシナリオを特定できることを示している。 さらに,これらの自律システムの堅牢性と安全性は,AdvSimが生成したシナリオでトレーニングすることでさらに向上できることを示す。

As self-driving systems become better, simulating scenarios where the autonomy stack is likely to fail becomes of key importance. Traditionally, those scenarios are generated for a few scenes with respect to the planning module that takes ground-truth actor states as input. This does not scale and cannot identify all possible autonomy failures, such as perception failures due to occlusion. In this paper, we propose AdvSim, an adversarial framework to generate safety-critical scenarios for any LiDAR-based autonomy system. Given an initial traffic scenario, AdvSim modifies the actors' trajectories in a physically plausible manner and updates the LiDAR sensor data to create realistic observations of the perturbed world. Importantly, by simulating directly from sensor data, we obtain adversarial scenarios that are safety-critical for the full autonomy stack. Our experiments show that our approach is general and can identify thousands of semantically meaningful safety-critical scenarios for a wide range of modern self-driving systems. Furthermore, we show that the robustness and safety of these autonomy systems can be further improved by training them with scenarios generated by AdvSim.
翻訳日:2021-03-28 04:37:28 公開日:2021-01-16
# トランスフォーマーを用いたCOVID-19質問応答モデル

Transformer-Based Models for Question Answering on COVID19 ( http://arxiv.org/abs/2101.11432v1 )

ライセンス: Link先を確認
Hillary Ngai, Yoona Park, John Chen and Mahboobeh Parsapoor (Mah Parsa)(参考訳) Kaggleのオープンリサーチデータセット(CORD-19)の課題に対して、BERT、ALBERT、T5モデルを使用したトランスフォーマーベースの質問応答システムを提案しました。 CORD-19データセットはラベル付けされていないため、2つのラベル付き質問に対して質問応答モデルのパフォーマンスを評価した。 BERTベースのQAシステムはF1スコア(26.32点)、ALBERTベースのQAシステムはExact Match(13.04点)である。 しかし、新型コロナウイルスのパンデミックや将来のパンデミックに対する高性能な質問応答システムの開発には、多くの課題がある。 本稿の最後に、これらの課題について議論し、対処する潜在的な解決策を提案する。

In response to the Kaggle's COVID-19 Open Research Dataset (CORD-19) challenge, we have proposed three transformer-based question-answering systems using BERT, ALBERT, and T5 models. Since the CORD-19 dataset is unlabeled, we have evaluated the question-answering models' performance on two labeled questions answers datasets \textemdash CovidQA and CovidGQA. The BERT-based QA system achieved the highest F1 score (26.32), while the ALBERT-based QA system achieved the highest Exact Match (13.04). However, numerous challenges are associated with developing high-performance question-answering systems for the ongoing COVID-19 pandemic and future pandemics. At the end of this paper, we discuss these challenges and suggest potential solutions to address them.
翻訳日:2021-03-28 04:37:12 公開日:2021-01-16
# グラフ構造データにおける暗黙的意味表現の学習

Learning the Implicit Semantic Representation on Graph-Structured Data ( http://arxiv.org/abs/2101.06471v1 )

ライセンス: Link先を確認
Likang Wu, Zhi Li, Hongke Zhao, Qi Liu, Jun Wang, Mengdi Zhang, Enhong Chen(参考訳) グラフ畳み込みネットワークにおける既存の表現学習方法は、主に各ノードの近傍を知覚全体として記述することで設計されているが、グラフの非常に複雑な相互作用の背後にある暗黙的な意味関係は、ほとんど解明されていない。 本稿では,グラフの潜在意味パスを学習することにより,暗黙の意味を探索するセマンティックグラフ畳み込みネットワーク(SGCN)を提案する。 これまでの研究では、メタパスによるグラフセマンティクスの探索があった。 しかし、これらの手法は主に、大量のグラフ構造化データにおいて得られにくい明示的な異種情報に依存している。 sgcnはまず、ノード集約プロセス中に動的かつ自動的にセマンティクスパスを活用することで、この制限を破る。 提案手法を評価するために,いくつかの標準データセットについて十分な実験を行い,実験結果から,モデルの優れた性能を示す。

Existing representation learning methods in graph convolutional networks are mainly designed by describing the neighborhood of each node as a perceptual whole, while the implicit semantic associations behind highly complex interactions of graphs are largely unexploited. In this paper, we propose a Semantic Graph Convolutional Networks (SGCN) that explores the implicit semantics by learning latent semantic-paths in graphs. In previous work, there are explorations of graph semantics via meta-paths. However, these methods mainly rely on explicit heterogeneous information that is hard to be obtained in a large amount of graph-structured data. SGCN first breaks through this restriction via leveraging the semantic-paths dynamically and automatically during the node aggregating process. To evaluate our idea, we conduct sufficient experiments on several standard datasets, and the empirical results show the superior performance of our model.
翻訳日:2021-03-28 04:36:59 公開日:2021-01-16
# 二項分類問題における効率的かつ正確なニューラルネットワークアーキテクチャの探索に向けて

Towards Searching Efficient and Accurate Neural Network Architectures in Binary Classification Problems ( http://arxiv.org/abs/2101.06511v1 )

ライセンス: Link先を確認
Yigit Alparslan, Ethan Jacob Moyer, Isamu Mclean Isozaki, Daniel Schwartz, Adam Dunlop, Shesh Dave, Edward Kim(参考訳) 近年、ディープニューラルネットワークは機械学習やパターン認識において大きな成功を収めている。 ニューラルネットワークのアーキテクチャサイズは、任意のニューラルネットワークの成功に大きく寄与します。 本研究では,異なる探索アルゴリズムを調査し,最も精度の高いニューラルネットワークのアーキテクチャサイズを求めることで,選択プロセスを最適化する。 我々は,非常によく定義された二分分類ネットワーク検索空間に二分探索を適用し,線形探索の結果と比較する。 また、データセットに関する仮定の一部を緩和して、我々のソリューションを任意のバイナリ分類問題に一般化する方法を提案する。 本稿では, 線形探索よりも100倍の時間的改善を, 最適なアーキテクチャ候補を見つけるために, バイナリ探索法をデータセットに適用する場合に報告する。 任意のバイナリ分類問題に対して最適なアーキテクチャサイズを求めることで、機械学習におけるアーキテクチャサイズ選択を最適化するためのインテリジェントなアルゴリズムの発見に寄与することを期待する。

In recent years, deep neural networks have had great success in machine learning and pattern recognition. Architecture size for a neural network contributes significantly to the success of any neural network. In this study, we optimize the selection process by investigating different search algorithms to find a neural network architecture size that yields the highest accuracy. We apply binary search on a very well-defined binary classification network search space and compare the results to those of linear search. We also propose how to relax some of the assumptions regarding the dataset so that our solution can be generalized to any binary classification problem. We report a 100-fold running time improvement over the naive linear search when we apply the binary search method to our datasets in order to find the best architecture candidate. By finding the optimal architecture size for any binary classification problem quickly, we hope that our research contributes to discovering intelligent algorithms for optimizing architecture size selection in machine learning.
翻訳日:2021-03-28 04:36:43 公開日:2021-01-16
# k完全ニューラルネットワークアーキテクチャのためのオンラインおよびオフライン精度トラバーサルアルゴリズムの評価

Evaluating Online and Offline Accuracy Traversal Algorithms for k-Complete Neural Network Architectures ( http://arxiv.org/abs/2101.06518v1 )

ライセンス: Link先を確認
Yigit Alparslan, Ethan Jacob Moyer, Edward Kim(参考訳) ニューラルネットワークのアーキテクチャサイズは広く研究されており、可能な限り短時間で最適なアーキテクチャサイズを見つけるためのいくつかの探索方法が提供されている。 本稿では,バイナリ分類のためのコンパクトニューラルネットワークアーキテクチャについて検討し,入力を非常に高次元的に表現する超完全アーキテクチャ候補を好む場合の速度と精度の向上について検討する。 比較的高次元の入力表現を生成するオーバーコンプリートモデルアーキテクチャは、より正確であるだけでなく、より簡単かつ高速に見つけることができると仮定する。 nxm探索空間において,我々はk完全性をヒューリスティックスとして用いることで,o(1)時間における最良アーキテクチャ候補と,任意のコンパクトバイナリ分類問題に対する平均ケースにおけるo(n)償却時間を求めるオンライントラバーサルアルゴリズムを提案する。 私たちが実装した他の2つのオフラインサーチアルゴリズムは、ブルートフォーストラバーサルと斜めトラバーサルであり、どちらもO(NxM)時間で最高のアーキテクチャ候補を見つける。 このアルゴリズムをベースラインとしてブルートフォースと対角探索と比較し,ブラトフォースより52.1%,対角検索で15.4%の改善を報告し,同じデータセットが与えられた場合に最も正確なニューラルネットワークアーキテクチャを求める。 論文で論じているすべてのケースにおいて、我々のオンライントラバーサルアルゴリズムは、より正確に、より良くなくても、はるかに短い時間でアーキテクチャを見つけることができる。

Architecture sizes for neural networks have been studied widely and several search methods have been offered to find the best architecture size in the shortest amount of time possible. In this paper, we study compact neural network architectures for binary classification and investigate improvements in speed and accuracy when favoring overcomplete architecture candidates that have a very high-dimensional representation of the input. We hypothesize that an overcomplete model architecture that creates a relatively high-dimensional representation of the input will be not only be more accurate but would also be easier and faster to find. In an NxM search space, we propose an online traversal algorithm that finds the best architecture candidate in O(1) time for best case and O(N) amortized time for average case for any compact binary classification problem by using k-completeness as heuristics in our search. The two other offline search algorithms we implement are brute force traversal and diagonal traversal, which both find the best architecture candidate in O(NxM) time. We compare our new algorithm to brute force and diagonal searching as a baseline and report search time improvement of 52.1% over brute force and of 15.4% over diagonal search to find the most accurate neural network architecture when given the same dataset. In all cases discussed in the paper, our online traversal algorithm can find an accurate, if not better, architecture in significantly shorter amount of time.
翻訳日:2021-03-28 04:36:30 公開日:2021-01-16
# 一般化計量としての拡張へのロバストネス

Robustness to Augmentations as a Generalization metric ( http://arxiv.org/abs/2101.06459v1 )

ライセンス: Link先を確認
Sumukh Aithal K, Dhruva Kashyap, Natarajan Subramanyam(参考訳) 一般化は、モデルが目に見えない領域で予測する能力であり、機械学習の基本的なタスクである。 本研究では,拡張に頑健なモデルがそうでないモデルよりも一般化可能であるという概念を用いて,モデルの一般化性能を予測するための単純かつ効果的な手法を提案する。 我々は,モデルの一般化能力を確認するために,いくつかの拡張と拡張の構成を試行する。 また,提案手法の背後には詳細な動機がある。 提案した一般化指標は,入力の増大後のモデル出力の変化に基づいて算出される。 提案手法は,Deep Learningにおける予測一般化に関するNeurIPSコンペティションのための,最初のランナーアップソリューションである。

Generalization is the ability of a model to predict on unseen domains and is a fundamental task in machine learning. Several generalization bounds, both theoretical and empirical have been proposed but they do not provide tight bounds .In this work, we propose a simple yet effective method to predict the generalization performance of a model by using the concept that models that are robust to augmentations are more generalizable than those which are not. We experiment with several augmentations and composition of augmentations to check the generalization capacity of a model. We also provide a detailed motivation behind the proposed method. The proposed generalization metric is calculated based on the change in the output of the model after augmenting the input. The proposed method was the first runner up solution for the NeurIPS competition on Predicting Generalization in Deep Learning.
翻訳日:2021-03-28 04:35:32 公開日:2021-01-16
# SelfMatch: 半教師付き学習のためのコントラスト型セルフスーパービジョンと一貫性を組み合わせる

SelfMatch: Combining Contrastive Self-Supervision and Consistency for Semi-Supervised Learning ( http://arxiv.org/abs/2101.06480v1 )

ライセンス: Link先を確認
Byoungjip Kim, Jinho Choo, Yeong-Dae Kwon, Seongho Joe, Seungjai Min, Youngjune Gwon(参考訳) 本稿では,コントラスト型自己教師学習と整合性正規化を組み合わせた半教師付き学習手法であるSelfMatchを紹介する。 SelfMatchは,(1)コントラスト学習に基づく自己指導型事前学習,(2)強化整合性正規化に基づく半教師型微調整の2段階からなる。 我々は、CIFAR-10やSVHNのような標準ベンチマークデータセット上で、SelfMatchが最先端の結果を達成することを実証的に示す。 例えば、40のラベル付き例を持つCIFAR-10では、MixMatch (52.46%)、UDA (70.95%)、ReMixMatch (80.9%)、FixMatch (86.19%)といった従来の手法よりも優れた93.19%の精度を達成している。 教師付き学習 (95.87%) と半教師付き学習 (93.19%) のギャップを, 各クラスにわずかにラベルを付けることで埋めることができる。

This paper introduces SelfMatch, a semi-supervised learning method that combines the power of contrastive self-supervised learning and consistency regularization. SelfMatch consists of two stages: (1) self-supervised pre-training based on contrastive learning and (2) semi-supervised fine-tuning based on augmentation consistency regularization. We empirically demonstrate that SelfMatch achieves the state-of-the-art results on standard benchmark datasets such as CIFAR-10 and SVHN. For example, for CIFAR-10 with 40 labeled examples, SelfMatch achieves 93.19% accuracy that outperforms the strong previous methods such as MixMatch (52.46%), UDA (70.95%), ReMixMatch (80.9%), and FixMatch (86.19%). We note that SelfMatch can close the gap between supervised learning (95.87%) and semi-supervised learning (93.19%) by using only a few labels for each class.
翻訳日:2021-03-28 04:35:22 公開日:2021-01-16
# フロー等分散による自己教師付き表現学習

Self-Supervised Representation Learning from Flow Equivariance ( http://arxiv.org/abs/2101.06553v1 )

ライセンス: Link先を確認
Yuwen Xiong, Mengye Ren, Wenyuan Zeng, Raquel Urtasun(参考訳) 自己教師付き表現学習は意味的に意味のある特徴を学習することができるが、最近の成功の多くは、非常に少ないオブジェクトを持つ画像の複数の作物に依存している。 単純な画像からビュー不変表現を学ぶ代わりに、物体の動き、変形、ポーズの変化、エゴの動きを観察することで、複雑な世界における表現を学習する。 この能力に動機づけられ、多数の動くオブジェクトを含む複雑なシーンの動画ストリームに直接デプロイ可能な、新しい自己教師付き学習表現フレームワークを提案する。 本フレームワークは,現在のフレームの特徴にフロー変換を適用することで,ネットワークが他のフレームの特徴を予測することを奨励する,単純なフロー均等目的を特徴とする。 高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。 セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出ベンチマークの読み出し実験は、simclrやbyolを含む以前の最先端メソッドから得られた表現を上回ることができることを示している。

Self-supervised representation learning is able to learn semantically meaningful features; however, much of its recent success relies on multiple crops of an image with very few objects. Instead of learning view-invariant representation from simple images, humans learn representations in a complex world with changing scenes by observing object movement, deformation, pose variation, and ego motion. Motivated by this ability, we present a new self-supervised learning representation framework that can be directly deployed on a video stream of complex scenes with many moving objects. Our framework features a simple flow equivariance objective that encourages the network to predict the features of another frame by applying a flow transformation to the features of the current frame. Our representations, learned from high-resolution raw video, can be readily used for downstream tasks on static images. Readout experiments on challenging semantic segmentation, instance segmentation, and object detection benchmarks show that we are able to outperform representations obtained from previous state-of-the-art methods including SimCLR and BYOL.
翻訳日:2021-03-28 04:35:01 公開日:2021-01-16
# geosim:幾何認識合成によるフォトリアリスティック画像シミュレーション

GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition ( http://arxiv.org/abs/2101.06543v1 )

ライセンス: Link先を確認
Yun Chen, Frieda Rong, Shivam Duggal, Shenlong Wang, Xinchen Yan, Sivabalan Manivasagam, Shangjie Xue, Ersin Yumer, Raquel Urtasun(参考訳) スケーラブルなセンサシミュレーションは、自動運転のような安全クリティカルなドメインにとって、重要かつ挑戦的なオープン問題である。 画像シミュレーションにおける現在の作業は、フォトリアリスティックであるか、3次元環境と内部の動的オブジェクトをモデル化せず、高レベルな制御と物理リアリズムを失う。 本稿では,既存の映像を他のシーンから抽出し,新しいポーズで描画することで,新しい都市走行シーンを合成する幾何学的画像合成プロセスであるGeoSimを提案する。 この目標に向けて、私たちはまず、現実的な幾何学とセンサーデータからの外観の両方を持つ多様な3Dオブジェクトのバンクを構築します。 シミュレーションでは,1)所定のシーンに可塑性で現実的な物体配置を提案し,2)アセットバンクから動的物体の新たなビューを描画し,3)レンダリングされた画像セグメントを合成,ブレンドする。 合成画像は、フォトリアリスティックで、トラフィックを認識し、幾何学的に整合性があり、画像シミュレーションは複雑なユースケースにスケールできる。 複数のカメラセンサにまたがる長距離リアル映像シミュレーションと、下流セグメンテーションタスクにおけるデータ拡張のための合成データ生成の2つの重要な応用を実証する。

Scalable sensor simulation is an important yet challenging open problem for safety-critical domains such as self-driving. Current work in image simulation either fail to be photorealistic or do not model the 3D environment and the dynamic objects within, losing high-level control and physical realism. In this paper, we present GeoSim, a geometry-aware image composition process that synthesizes novel urban driving scenes by augmenting existing images with dynamic objects extracted from other scenes and rendered at novel poses. Towards this goal, we first build a diverse bank of 3D objects with both realistic geometry and appearance from sensor data. During simulation, we perform a novel geometry-aware simulation-by-composition procedure which 1) proposes plausible and realistic object placements into a given scene, 2) renders novel views of dynamic objects from the asset bank, and 3) composes and blends the rendered image segments. The resulting synthetic images are photorealistic, traffic-aware, and geometrically consistent, allowing image simulation to scale to complex use cases. We demonstrate two such important applications: long-range realistic video simulation across multiple camera sensors, and synthetic data generation for data augmentation on downstream segmentation tasks.
翻訳日:2021-03-28 04:34:44 公開日:2021-01-16
# NNStreamer: オンデバイスAIシステムの効率的でアジャイルな開発

NNStreamer: Efficient and Agile Development of On-Device AI Systems ( http://arxiv.org/abs/2101.06371v1 )

ライセンス: Link先を確認
MyungJoo Ham, Jijoong Moon, Geunsik Lim, Jaeyun Jung, Hyoungjoo Ahn, Wook Song, Sangjung Woo, Parichay Kapoor, Dongju Chae, Gichan Jang, Yongjoo Ahn, Jihoon Lee(参考訳) 本稿では,ニューラルネットワークをストリームパイプラインのフィルタとして扱うソフトウェアシステムであるnnstreamerを提案する。 ディープニューラルネットワークアプリケーションの普及に伴う新たなトレンドは、オンデバイスAIである。 クラウドサーバではなく、モバイルデバイスやエッジ/IoTデバイス上でニューラルネットワークを処理する。 新たなプライバシー問題、データ転送コスト、運用コストは、デバイス上でのaiの必要性を示しています。 NNStreamerはデバイス上の複雑なデータストリームパイプラインでニューラルネットワークを効率的に処理し、最小限の労力で全体的なパフォーマンスを大幅に改善する。 さらに、NNStreamerは実装を単純化し、既製のメディアフィルタを直接再利用することで、開発コストを大幅に削減する。 私たちはすでに、Galaxyシリーズやさまざまな消費者向け電子機器を含む、幅広い製品やプラットフォームにNNStreamerをデプロイしています。 実験結果から,パイプラインアーキテクチャとNNStreamerの開発コストの低減と性能向上が示唆された。 linux foundation aiがインキュベートしたオープンソースプロジェクトで、一般公開されており、さまざまなハードウェアやソフトウェアプラットフォームに対応している。

We propose NNStreamer, a software system that handles neural networks as filters of stream pipelines, applying the stream processing paradigm to deep neural network applications. A new trend with the wide-spread of deep neural network applications is on-device AI. It is to process neural networks on mobile devices or edge/IoT devices instead of cloud servers. Emerging privacy issues, data transmission costs, and operational costs signify the need for on-device AI, especially if we deploy a massive number of devices. NNStreamer efficiently handles neural networks with complex data stream pipelines on devices, significantly improving the overall performance with minimal efforts. Besides, NNStreamer simplifies implementations and allows reusing off-the-shelf media filters directly, which reduces developmental costs significantly. We are already deploying NNStreamer for a wide range of products and platforms, including the Galaxy series and various consumer electronic devices. The experimental results suggest a reduction in developmental costs and enhanced performance of pipeline architectures and NNStreamer. It is an open-source project incubated by Linux Foundation AI, available to the public and applicable to various hardware and software platforms.
翻訳日:2021-03-28 04:34:23 公開日:2021-01-16
# ホークスプロセスにおける遅延を伴う指数カーネル:ファイナンスへの応用

Exponential Kernels with Latency in Hawkes Processes: Applications in Finance ( http://arxiv.org/abs/2101.06348v1 )

ライセンス: Link先を確認
Marcos Costa Santos Carreira(参考訳) tickライブラリにより、市場構造の研究者は、最適化されたパラメトリックおよび非パラメトリック学習者を用いて、高周波データでホークスプロセスをシミュレートし、学習することができる。 But one challenge is to take into account the correct causality of order book events considering latency: the only way one order book event can influence another is if the time difference between them (by the central order book timestamps) is greater than the minimum amount of time for an event to be (i) published in the order book, (ii) reach the trader responsible for the second event, (iii) influence the decision (processing time at the trader) and (iv) the 2nd event reach the order book and be processed. そのため、レイテンシの量によって指数カーネルを右にシフトすることができる。 1次元および多次元の場合において、ログ類似度を最小化する式を導出し、シミュレーションデータと実データを用いてこの方法をテストする。 実際のデータでは、すべての減衰が同じとは限らないが、レイテンシ自体が崩壊のほとんどを決定する。 また,減衰が遅延とどのように関連しているかを示す。 コードはgithubのhttps://github.com/marcoscarreira/hawkes-with-latencyで入手できる。

The Tick library allows researchers in market microstructure to simulate and learn Hawkes process in high-frequency data, with optimized parametric and non-parametric learners. But one challenge is to take into account the correct causality of order book events considering latency: the only way one order book event can influence another is if the time difference between them (by the central order book timestamps) is greater than the minimum amount of time for an event to be (i) published in the order book, (ii) reach the trader responsible for the second event, (iii) influence the decision (processing time at the trader) and (iv) the 2nd event reach the order book and be processed. For this we can use exponential kernels shifted to the right by the latency amount. We derive the expression for the log-likelihood to be minimized for the 1-D and the multidimensional cases, and test this method with simulated data and real data. On real data we find that, although not all decays are the same, the latency itself will determine most of the decays. We also show how the decays are related to the latency. Code is available on GitHub at https://github.com/MarcosCarreira/Hawkes-With-Latency.
翻訳日:2021-03-28 04:34:08 公開日:2021-01-16
# 複雑ネットワークにおけるインフォメーションコア同定

Informative core identification in complex networks ( http://arxiv.org/abs/2101.06388v1 )

ライセンス: Link先を確認
Ruizhong Miao and Tianxi Li(参考訳) ネットワーク分析では、モデリング対象のコア構造は通常、ほとんどの構造が情報的でない大きなネットワークに隠されている。 ネットワークの非インフォーマティブコンポーネントによってもたらされるノイズとバイアスは、応答構造を曖昧にし、多くのネットワークモデリング手順の有効性を制限できる。 本稿では、情報的コア構造に特定の形式を課すことなく、ネットワークの非情報的周辺構造に対する新しいコア周辺モデルを提案する。 本稿では,コア同定のためのスペクトルアルゴリズムを,モデルに基づくダウンストリームネットワーク解析タスクのためのデータ前処理ステップとして提案する。 このアルゴリズムは精度の強い理論的保証を享受し、大規模ネットワークに対してスケーラブルである。 提案手法は,従来のコア周辺手法に比較して,様々な利点を示す広範囲なシミュレーション研究により評価された。 本手法は,引用ネットワークから情報的コア構造を抽出し,下流の階層的コミュニティ検出においてより情報的結果を与える。

In network analysis, the core structure of modeling interest is usually hidden in a larger network in which most structures are not informative. The noise and bias introduced by the non-informative component in networks can obscure the salient structure and limit many network modeling procedures' effectiveness. This paper introduces a novel core-periphery model for the non-informative periphery structure of networks without imposing a specific form for the informative core structure. We propose spectral algorithms for core identification as a data preprocessing step for general downstream network analysis tasks based on the model. The algorithm enjoys a strong theoretical guarantee of accuracy and is scalable for large networks. We evaluate the proposed method by extensive simulation studies demonstrating various advantages over many traditional core-periphery methods. The method is applied to extract the informative core structure from a citation network and give more informative results in the downstream hierarchical community detection.
翻訳日:2021-03-28 04:33:49 公開日:2021-01-16
# 複数種類の敵攻撃に対するロバストニューラルネットワークの多目的探索

Multi-objective Search of Robust Neural Architectures against Multiple Types of Adversarial Attacks ( http://arxiv.org/abs/2101.06507v1 )

ライセンス: Link先を確認
Jia Liu and Yaochu Jin(参考訳) 既存のディープラーニングモデルの多くは、人間には受け入れがたい敵の例に弱い。 この問題に対処するために、特定の種類の敵攻撃に対して堅牢なネットワークアーキテクチャを設計するための様々な手法が提案されている。 しかし、機械学習モデルがどの種類の攻撃に苦しむかを事前に予測することは事実上不可能である。 この課題に対処するために,多目的進化アルゴリズムを用いた5種類の既知の敵攻撃に対して頑健なディープニューラルアーキテクチャの探索を提案する。 計算コストを低減するため、各世代で新たに生成されたニューラルアーキテクチャ毎にランダムに選択された攻撃の正規化エラー率をロバスト性として算出する。 提案手法によって得られた非支配型ネットワークアーキテクチャはすべて、ランダムに選択された攻撃に対して完全に訓練され、広く使用されている2つのデータセット上でテストされる。 実験により,異なる攻撃条件下での分類精度の観点から,文献で広く用いられている最先端ネットワークに対する最適化ニューラルネットワークの優位性を実証した。

Many existing deep learning models are vulnerable to adversarial examples that are imperceptible to humans. To address this issue, various methods have been proposed to design network architectures that are robust to one particular type of adversarial attacks. It is practically impossible, however, to predict beforehand which type of attacks a machine learn model may suffer from. To address this challenge, we propose to search for deep neural architectures that are robust to five types of well-known adversarial attacks using a multi-objective evolutionary algorithm. To reduce the computational cost, a normalized error rate of a randomly chosen attack is calculated as the robustness for each newly generated neural architecture at each generation. All non-dominated network architectures obtained by the proposed method are then fully trained against randomly chosen adversarial attacks and tested on two widely used datasets. Our experimental results demonstrate the superiority of optimized neural architectures found by the proposed approach over state-of-the-art networks that are widely used in the literature in terms of the classification accuracy under different adversarial attacks.
翻訳日:2021-03-28 04:33:02 公開日:2021-01-16
# レイヤアウェアシーケンスエンコーダの表現を多階グラフとして理解する

To Understand Representation of Layer-aware Sequence Encoders as Multi-order-graph ( http://arxiv.org/abs/2101.06397v1 )

ライセンス: Link先を確認
Sufeng Duan, Hai Zhao, Rui Wang(参考訳) 本稿では,Multi-order-graph (MoG) と呼ばれる再検討されたマルチグラフとみなす階層認識型ニューラルシーケンスエンコーダの表現を統一的に記述し,モデルエンコーディングをMoG内のすべてのサブグラフをキャプチャする処理と見なせるようにする。 n$-order dependency と呼ばれる多階グラフによって反映される関係は、既存の単純な有向グラフ説明が提示できないものを示すことができる。 提案したMoG説明は,表現生成のすべてのステップを正確に観察し,構文などの多様な関係を統一的に表現されたフレームワークに組み込む。 また,提案したMoG説明に基づいて,グラフベースの自己アテンションネットワークをグラフトランスフォーマーに拡張し,現在のモデル上でサブグラフ情報をキャプチャする機能を提案する。 graph-transformerは異なるサブグラフを異なるグループに適応させる。 ニューラルマシン翻訳タスクの実験の結果、mogに触発されたモデルが効果的な性能改善をもたらすことが示された。

In this paper, we propose a unified explanation of representation for layer-aware neural sequence encoders, which regards the representation as a revisited multigraph called multi-order-graph (MoG), so that model encoding can be viewed as a processing to capture all subgraphs in MoG. The relationship reflected by Multi-order-graph, called $n$-order dependency, can present what existing simple directed graph explanation cannot present. Our proposed MoG explanation allows to precisely observe every step of the generation of representation, put diverse relationship such as syntax into a unifiedly depicted framework. Based on the proposed MoG explanation, we further propose a graph-based self-attention network empowered Graph-Transformer by enhancing the ability of capturing subgraph information over the current models. Graph-Transformer accommodates different subgraphs into different groups, which allows model to focus on salient subgraphs. Result of experiments on neural machine translation tasks show that the MoG-inspired model can yield effective performance improvement.
翻訳日:2021-03-28 04:32:44 公開日:2021-01-16
# 運動特徴回復による光フロー推定

Optical Flow Estimation via Motion Feature Recovery ( http://arxiv.org/abs/2101.06333v1 )

ライセンス: Link先を確認
Yang Jiao, Guangming Shi and Trac D. Tran(参考訳) 連続するフレーム間で対応する画素が失われるため、オクルージョンや大きな変位を伴う光フロー推定は問題となる。 そこで本稿では, 一般的な識別コストボリュームの特徴から計算された大量の動作特徴(40%以上)が, 不正サンプリングにより完全に消失し, 光フロー学習の効率が低下することを明らかにする。 私たちはこの現象をVanishing Cost Volume Problemと呼んでいる。 局所的な動きが短時間の時間的ウィンドウ内で高度に一貫した傾向にあるという事実に着想を得て,複数のフレームにまたがる動きの整合性をモデル化することで,消失するコスト量に対処する新しい反復運動特徴回復法(MFR)を提案する。 各MFRイテレーションにおいて、元の動き特徴からの無効なエントリは、まず現在の流れに基づいて決定される。 そして、効率の良いネットワークが動き相関を適応的に学習するように設計され、失情報復元のための無効な特徴を回復する。 最終的な光学フローは、回復した運動特徴から復号される。 Sintel と KITTI の実験結果から,本手法が最先端の性能を実現することを示す。 実際、MFRは現在シンテルのウェブサイトで第2位である。

Optical flow estimation with occlusion or large displacement is a problematic challenge due to the lost of corresponding pixels between consecutive frames. In this paper, we discover that the lost information is related to a large quantity of motion features (more than 40%) computed from the popular discriminative cost-volume feature would completely vanish due to invalid sampling, leading to the low efficiency of optical flow learning. We call this phenomenon the Vanishing Cost Volume Problem. Inspired by the fact that local motion tends to be highly consistent within a short temporal window, we propose a novel iterative Motion Feature Recovery (MFR) method to address the vanishing cost volume via modeling motion consistency across multiple frames. In each MFR iteration, invalid entries from original motion features are first determined based on the current flow. Then, an efficient network is designed to adaptively learn the motion correlation to recover invalid features for lost-information restoration. The final optical flow is then decoded from the recovered motion features. Experimental results on Sintel and KITTI show that our method achieves state-of-the-art performances. In fact, MFR currently ranks second on Sintel public website.
翻訳日:2021-03-28 04:32:26 公開日:2021-01-16
# ACP: CNNのクラスタリングとSwarmインテリジェンス最適化によるチャンネルの自動プルーニング

ACP: Automatic Channel Pruning via Clustering and Swarm Intelligence Optimization for CNN ( http://arxiv.org/abs/2101.06407v1 )

ライセンス: Link先を確認
Jingfei Chang, Yang Lu, Ping Xue, Yiqun Xu, and Zhen Wei(参考訳) 近年、畳み込みニューラルネットワーク(CNN)がより深く、より広くなっているため、データとハードウェアリソースの量に対する要求は徐々に高まっている。 一方、CNNはいくつかのタスクで有能な冗長性を明らかにしている。 既存のマグニチュードベースのプルーニング手法は効率的だが、圧縮されたネットワークの性能は予測できない。 構造感度に基づくプルーニング後の精度損失は比較的小さいが, プロセスは時間がかかり, アルゴリズムの複雑さも顕著である。 本稿では,新しい自動チャネルプルーニング法(ACP)を提案する。 具体的には,ネットワーク上でプリミティブ・プルーニングを行うために,特徴マップの類似性を介して階層型チャネルクラスタリングを行う。 次に, 集団初期化手法を導入して, 刈り取られた構造を候補集団に変換する。 最後に, 最適圧縮構造を求めるため, 粒子群最適化 (pso) に基づく探索と最適化を反復的に行う。 そして、コンパクトネットワークをリトレーニングしてプルーニングによる精度損失を軽減する。 CIFAR-10/100 と ILSVRC-2012 の3種類の分類データセットを用いて,最新の CNN と比較した。 ilsvrc-2012では、64.36%のパラメータと63.34%のresnet-50の浮動小数点演算(flops)を除去した場合、top-1とtop-5の精度低下は0.9%未満である。 さらに,全体的な性能を損なうことなく,ターゲット検出データセットpascal voc上でssdを50%以上圧縮できることを実証する。 さらに,提案手法が他のCNNやアプリケーションシナリオにも適用可能であることを確認する。

As the convolutional neural network (CNN) gets deeper and wider in recent years, the requirements for the amount of data and hardware resources have gradually increased. Meanwhile, CNN also reveals salient redundancy in several tasks. The existing magnitude-based pruning methods are efficient, but the performance of the compressed network is unpredictable. While the accuracy loss after pruning based on the structure sensitivity is relatively slight, the process is time-consuming and the algorithm complexity is notable. In this article, we propose a novel automatic channel pruning method (ACP). Specifically, we firstly perform layer-wise channel clustering via the similarity of the feature maps to perform preliminary pruning on the network. Then a population initialization method is introduced to transform the pruned structure into a candidate population. Finally, we conduct searching and optimizing iteratively based on the particle swarm optimization (PSO) to find the optimal compressed structure. The compact network is then retrained to mitigate the accuracy loss from pruning. Our method is evaluated against several state-of-the-art CNNs on three different classification datasets CIFAR-10/100 and ILSVRC-2012. On the ILSVRC-2012, when removing 64.36% parameters and 63.34% floating-point operations (FLOPs) of ResNet-50, the Top-1 and Top-5 accuracy drop are less than 0.9%. Moreover, we demonstrate that without harming overall performance it is possible to compress SSD by more than 50% on the target detection dataset PASCAL VOC. It further verifies that the proposed method can also be applied to other CNNs and application scenarios.
翻訳日:2021-03-28 04:32:08 公開日:2021-01-16
# イメージキャプション用デュアルレベル協調変換器

Dual-Level Collaborative Transformer for Image Captioning ( http://arxiv.org/abs/2101.06462v1 )

ライセンス: Link先を確認
Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Yongjian Wu, Feiyue Huang, Chia-Wen Lin, Rongrong Ji(参考訳) 物体検出ネットワークによって抽出された記述領域の特徴は,近年の画像キャプションの発展に重要な役割を果たしている。 しかし、伝統的なグリッド機能の利点とは対照的に、文脈情報や細部の詳細の欠如が批判されている。 本稿では,2つの特徴の相補的利点を実現するために,新しいDual-Level Collaborative Transformer(DLCT)ネットワークを提案する。 具体的には、DLCTでは、これらの2つの特徴を最初にDWSA(Dual-way Self Attenion)によって処理し、その固有の特性をマイニングする。 さらに,これら2つの特徴の直接融合による意味的ノイズに対処するために,局所性に制約されたクロスアテンションモジュールを提案する。 このモデルを検証するために,高競争力のms-cocoデータセットを広範囲に実験し,カルパシースプリットでは133.8%,オフィシャルスプリットでは135.4%という,ローカルおよびオンライン両方のテストセットで新たな最先端性能を実現する。 コードはhttps://github.com/luo3300612/image-captioning-DLCTで公開されている。

Descriptive region features extracted by object detection networks have played an important role in the recent advancements of image captioning. However, they are still criticized for the lack of contextual information and fine-grained details, which in contrast are the merits of traditional grid features. In this paper, we introduce a novel Dual-Level Collaborative Transformer (DLCT) network to realize the complementary advantages of the two features. Concretely, in DLCT, these two features are first processed by a novelDual-way Self Attenion (DWSA) to mine their intrinsic properties, where a Comprehensive Relation Attention component is also introduced to embed the geometric information. In addition, we propose a Locality-Constrained Cross Attention module to address the semantic noises caused by the direct fusion of these two features, where a geometric alignment graph is constructed to accurately align and reinforce region and grid features. To validate our model, we conduct extensive experiments on the highly competitive MS-COCO dataset, and achieve new state-of-the-art performance on both local and online test sets, i.e., 133.8% CIDEr-D on Karpathy split and 135.4% CIDEr on the official split. Code is available at https://github.com/luo3300612/image-captioning-DLCT.
翻訳日:2021-03-28 04:31:40 公開日:2021-01-16
# 深層学習アプローチに基づく膀胱分画 : 限界と教訓

Bladder segmentation based on deep learning approaches: current limitations and lessons ( http://arxiv.org/abs/2101.06498v1 )

ライセンス: Link先を確認
Mark G. Bandyk, Dheeraj R Gopireddy, Chandana Lall, K.C. Balaji, Jose Dolz(参考訳) 膀胱癌(BC)の重症度判定と評価は、適切なリスク階層化とパーソナライズされた治療選択を導く。 この文脈では、膀胱壁と癌の両方の分節化が重要であり、原発性腫瘍の進行に貴重な情報を提供する。 したがって, 深層学習ヘラルドを用いた膀胱腫瘍の症状を呈する患者に対する多領域セグメンテーションは, 新しいステージング精度と腫瘍の生物学的挙動の予測を可能にする。 しかしながら、これらのモデルが他の医学的問題で成功したにもかかわらず、多領域膀胱分断の進展はまだ初期段階にあり、多領域のシナリオに取り組む研究はごくわずかである。 さらに、既存のアプローチの多くは、膀胱の分画におけるこれらの方法の妥当性を疑うことなく、他の臨床疾患における先行文献を体系的に追従している。 このことから,深層学習モデルを用いて膀胱がんの分節化を詳細に観察した。 筋浸潤性疾患の正確な鑑別のための重要な決定因子, 深層学習に基づく膀胱分節化の現状, 先行作業の教訓, 限界について述べる。

Precise determination and assessment of bladder cancer (BC) extent of muscle invasion involvement guides proper risk stratification and personalized therapy selection. In this context, segmentation of both bladder walls and cancer are of pivotal importance, as it provides invaluable information to stage the primary tumour. Hence, multi region segmentation on patients presenting with symptoms of bladder tumours using deep learning heralds a new level of staging accuracy and prediction of the biologic behaviour of the tumour. Nevertheless, despite the success of these models in other medical problems, progress in multi region bladder segmentation is still at a nascent stage, with just a handful of works tackling a multi region scenario. Furthermore, most existing approaches systematically follow prior literature in other clinical problems, without casting a doubt on the validity of these methods on bladder segmentation, which may present different challenges. Inspired by this, we provide an in-depth look at bladder cancer segmentation using deep learning models. The critical determinants for accurate differentiation of muscle invasive disease, current status of deep learning based bladder segmentation, lessons and limitations of prior work are highlighted.
翻訳日:2021-03-28 04:31:16 公開日:2021-01-16
# VideoClick: ワンクリックでビデオオブジェクトのセグメンテーション

VideoClick: Video Object Segmentation with a Single Click ( http://arxiv.org/abs/2101.06545v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Justin Liang, Wei-Chiu Ma, Raquel Urtasun(参考訳) オブジェクトセグメンテーションマスクによるビデオの注釈付けは通常、すべてのフレームに対してオブジェクトインスタンスごとにポリゴンを描画し、時間をかけてリンクする2段階の手順を含む。 シンプルではあるが、これは非常に退屈で時間がかかり、費用がかかるプロセスであり、資金が潤沢なラボでしか正確なアノテーションを作成できない。 もし1クリックで1つのオブジェクトをフルビデオにセグメントできたらどうだろう? これにより、大規模なビデオセグメンテーションが可能になり、予算が極めて低く、多くのアプリケーションへの扉を開くことができる。 この目的に向けて,本論文では,ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。 特に、対象フレーム内の各ピクセルを、参照フレームまたは背景のオブジェクトのいずれかに割り当てる相関ボリュームを構成する。 そして、この相関ボリュームをリカレントアテンションモジュールを通じて洗練し、最終セグメンテーションをデコードする。 パフォーマンスを評価するために、Cityscapesの人気の挑戦的なデータセットにビデオオブジェクトのセグメンテーションをラベル付けする。 この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。

Annotating videos with object segmentation masks typically involves a two stage procedure of drawing polygons per object instance for all the frames and then linking them through time. While simple, this is a very tedious, time consuming and expensive process, making the creation of accurate annotations at scale only possible for well-funded labs. What if we were able to segment an object in the full video with only a single click? This will enable video segmentation at scale with a very low budget opening the door to many applications. Towards this goal, in this paper we propose a bottom up approach where given a single click for each object in a video, we obtain the segmentation masks of these objects in the full video. In particular, we construct a correlation volume that assigns each pixel in a target frame to either one of the objects in the reference frame or the background. We then refine this correlation volume via a recurrent attention module and decode the final segmentation. To evaluate the performance, we label the popular and challenging Cityscapes dataset with video object segmentations. Results on this new CityscapesVideo dataset show that our approach outperforms all the baselines in this challenging setting.
翻訳日:2021-03-28 04:30:54 公開日:2021-01-16
# 新しい局所バイナリパターンに基づくブラインド特徴画像ステガノグラフィ

A Novel Local Binary Pattern Based Blind Feature Image Steganography ( http://arxiv.org/abs/2101.06383v1 )

ライセンス: Link先を確認
Soumendu Chakraborty, and Anand Singh Jalal(参考訳) 一般にステガノグラフィ法は、カバー画像により多くの秘密のビットを埋め込む傾向にある。 これらの手法のほとんどは、得られたステゴ画像の視覚品質の変化が検出できないように秘密情報を組み込むように設計されている。 埋込み後のカバーのグローバル構造を保存する方法がいくつか存在する。 しかし、これらのメソッドの埋め込み容量は極めて少ない。 本稿では,表紙のLPP(ローカルバイナリーパターン)特性を同等の埋め込み速度で保存する特徴量に基づくブラインド画像ステガノグラフィー手法を提案する。 ローカルバイナリパターンは画像表現に使われるよく知られたイメージ記述子である。 提案手法は,秘密画像のビットを隠れるために局所バイナリパターンを計算し,そのビットをカバーに存在する局所関係をステゴ画像に保存する。 提案法の性能はロバスト性を示すため,様々な種類の画像で検証されている。 アートLSBを用いた画像ステガノグラフィー手法の現状と提案手法を比較し,特徴に基づく画像ステガノグラフィーの有効性を示す。

Steganography methods in general terms tend to embed more and more secret bits in the cover images. Most of these methods are designed to embed secret information in such a way that the change in the visual quality of the resulting stego image is not detectable. There exists some methods which preserve the global structure of the cover after embedding. However, the embedding capacity of these methods is very less. In this paper a novel feature based blind image steganography technique is proposed, which preserves the LBP (Local binary pattern) feature of the cover with comparable embedding rates. Local binary pattern is a well known image descriptor used for image representation. The proposed scheme computes the local binary pattern to hide the bits of the secret image in such a way that the local relationship that exists in the cover are preserved in the resulting stego image. The performance of the proposed steganography method has been tested on several images of different types to show the robustness. State of the art LSB based steganography methods are compared with the proposed method to show the effectiveness of feature based image steganography
翻訳日:2021-03-28 04:29:49 公開日:2021-01-16
# 自律走行車における実時間インクリメンタル布地テクスチャマッピング

Real Time Incremental Foveal Texture Mapping for Autonomous Vehicles ( http://arxiv.org/abs/2101.06393v1 )

ライセンス: Link先を確認
Ashish Kumar, James R. McBride, Gaurav Pandey(参考訳) 都市環境の高解像度グラフィックスグレードテクスチャマップを生成するためのエンドツーエンドリアルタイムフレームワークを提案する。 生成された詳細なマップは、自動運転車の正確な位置決めとナビゲーションにその応用を見出す。 また、様々なビジョンと計画アルゴリズムのための仮想テストベッドや、コンピュータゲームにおける背景マップとしても機能する。 本稿では,(1)コヒーレントな3次元表面を持つ地図を逐次生成する,(2)カラーテクスチャの品質を維持する,という2つの重要な課題に焦点を当てる。 まず、カメラ画像情報、デローネ三角測量、および既存のスキャンマッチング技術を利用して、スパース入力lidarスキャンから高解像度3dマップを生成するポーズリファインメントを行う。 そして、この3Dマップをテクスチュア化して、ポーズ補正におけるオクルージョンと不整合を処理する新しい手法を用いて蓄積する。 さらに,人間のfoveaに触発されて,計算時間を大幅に削減するとともに,光フィルタによるカラーテクスチャの一貫性維持と出力マップの3次元面のコヒーレンシ維持を支援するfoveal処理を導入する。 さらに,テクスチャマップの質とテクスチャの質を定量的に測定するテクスチャエラー(te)と平均テクスチャマッピングエラー(mtme)についても紹介する。

We propose an end-to-end real time framework to generate high resolution graphics grade textured 3D map of urban environment. The generated detailed map finds its application in the precise localization and navigation of autonomous vehicles. It can also serve as a virtual test bed for various vision and planning algorithms as well as a background map in the computer games. In this paper, we focus on two important issues: (i) incrementally generating a map with coherent 3D surface, in real time and (ii) preserving the quality of color texture. To handle the above issues, firstly, we perform a pose-refinement procedure which leverages camera image information, Delaunay triangulation and existing scan matching techniques to produce high resolution 3D map from the sparse input LIDAR scan. This 3D map is then texturized and accumulated by using a novel technique of ray-filtering which handles occlusion and inconsistencies in pose-refinement. Further, inspired by human fovea, we introduce foveal-processing which significantly reduces the computation time and also assists ray-filtering to maintain consistency in color texture and coherency in 3D surface of the output map. Moreover, we also introduce texture error (TE) and mean texture mapping error (MTME), which provides quantitative measure of texturing and overall quality of the textured maps.
翻訳日:2021-03-28 04:29:34 公開日:2021-01-16
# 半監督型深部クイック検出とセグメンテーション

Semi Supervised Deep Quick Instance Detection and Segmentation ( http://arxiv.org/abs/2101.06405v1 )

ライセンス: Link先を確認
Ashish Kumar, L. Behera(参考訳) 本稿では,画像の画素単位のセマンティックセマンティックセマンティックセグメンテーションを,密集したアイテム群に配置する半教師付き深層学習フレームワークを提案する。 このフレームワークは、リアルタイムなデータ取得とそれに対応する土台真理を単独で生成することにより、オンラインで新規項目を迅速かつ漸進的に学習することができる。 様々な組み合わせを学ぶために、乱雑なシーンをリアルタイムで合成することができる。 全体的なアプローチは、別のディープネットワーク(child)のラベル付きデータを生成するクラス非依存オブジェクト検出のために、ディープネットワーク(tutor)を事前トレーニングするチューター=チャイルドアナロジーに基づいている。 子供は、迅速な学習のためにカスタマイズされた畳み込みニューラルネットワークヘッドを使用する。 提案するフレームワークには、半教師付きラベル付け、クラッタ合成、カスタマイズされた畳み込みニューラルネットワークヘッド、インスタンス検出の4つの重要なコンポーネントがある。 このフレームワークの初期バージョンは、Amazon Robotics Challenge(ARC)への参加中に実装されました。 第3位、第4位、第5位がピック、ストーピック、ストータスクでそれぞれランク付けされた。 提案されたフレームワークはarc17の改良版で、インスタンス検出やオンライン学習などの新機能が追加されている。

In this paper, we present a semi supervised deep quick learning framework for instance detection and pixel-wise semantic segmentation of images in a dense clutter of items. The framework can quickly and incrementally learn novel items in an online manner by real-time data acquisition and generating corresponding ground truths on its own. To learn various combinations of items, it can synthesize cluttered scenes, in real time. The overall approach is based on the tutor-child analogy in which a deep network (tutor) is pretrained for class-agnostic object detection which generates labeled data for another deep network (child). The child utilizes a customized convolutional neural network head for the purpose of quick learning. There are broadly four key components of the proposed framework semi supervised labeling, occlusion aware clutter synthesis, a customized convolutional neural network head, and instance detection. The initial version of this framework was implemented during our participation in Amazon Robotics Challenge (ARC), 2017. Our system was ranked 3rd, 4th and 5th worldwide in pick, stow-pick and stow task respectively. The proposed framework is an improved version over ARC17 where novel features such as instance detection and online learning has been added.
翻訳日:2021-03-28 04:29:11 公開日:2021-01-16
# DeepMI: タスクの教師なしディープラーニングのための相互情報ベースのフレームワーク

DeepMI: A Mutual Information Based Framework For Unsupervised Deep Learning of Tasks ( http://arxiv.org/abs/2101.06411v1 )

ライセンス: Link先を確認
Ashish Kumar, Laxmidhar Behera(参考訳) 本研究では,深層ニューラルネットワーク(DNN)を相互情報(MI)を用いて学習するための情報理論に基づくフレームワークであるDeepMIを提案する。 DeepMIフレームワークは特にターゲットであるが、教師なしの方法で現実世界のタスクの学習に限らない。 この研究の主な動機は、教師なしタスク学習における伝統的な損失関数の不足である。 さらに,MIをトレーニング目的に直接使用する場合,その非有界な性質のため,対処が極めて困難である。 そこで、我々はフレームワークの一部としてMIの代替線形化表現を開発する。 本論文のコントリビューションは3つある:i) MI to Training Deep Neural Network, ii) novel loss function LLMI, iii) Fuzzy logic based end-to-end differentiable pipeline to integrate DeepMI into Deep Learning framework。 我々は実験研究のために教師なしの学習タスクをいくつか選択する。 我々は、l lm i が与えられたタスクに複数の損失関数を使用する場合よりも、ニューラルネットワークの性能を向上させるためのより良い勾配を提供することを実証する。

In this work, we propose an information theory based framework DeepMI to train deep neural networks (DNN) using Mutual Information (MI). The DeepMI framework is especially targeted but not limited to the learning of real world tasks in an unsupervised manner. The primary motivation behind this work is the insufficiency of traditional loss functions for unsupervised task learning. Moreover, directly using MI for the training purpose is quite challenging to deal because of its unbounded above nature. Hence, we develop an alternative linearized representation of MI as a part of the framework. Contributions of this paper are three fold: i) investigation of MI to train deep neural networks, ii) novel loss function LLMI, and iii) a fuzzy logic based end-to-end differentiable pipeline to integrate DeepMI into deep learning framework. We choose a few unsupervised learning tasks for our experimental study. We demonstrate that L LM I alone provides better gradients to achieve a neural network better performance over the cases when multiple loss functions are used for a given task.
翻訳日:2021-03-28 04:28:54 公開日:2021-01-16
# 特徴ベース登録とカーネル密度推定を用いた前立腺の形態変化予測

Morphological Change Forecasting for Prostate Glands using Feature-based Registration and Kernel Density Extrapolation ( http://arxiv.org/abs/2101.06425v1 )

ライセンス: Link先を確認
Qianye Yang, Tom Vercauteren, Yunguan Fu, Francesco Giganti, Nooshin Ghavami, Vasilis Stavrinides, Caroline Moore, Matt Clarkson, Dean Barratt, Yipeng Hu(参考訳) 臓器形態は前立腺疾患の診断と予後の重要な指標である。 例えば, 活動監視下の前立腺癌患者の縦断的研究では, 容積, 境界の滑らかさ, その変化を時系列MR画像データで綿密に監視する。 本稿では, 前立腺形態変化の予測のための新しい枠組みについて述べる。この変化を早期に検出できる能力は, 適度な治療が可能か, または不要な確認生検を回避できる。 本研究は, 重心動揺場 (DDF) を用いて形態変化を定量化するために, 脱線した前立腺カプセルを配向させる効率的な特徴ベースMR画像登録法を開発した。 次に, DDF で表現された \textit{future morphology change} の確率密度のカーネル密度推定 (KDE) を, 将来のデータが利用可能になる前に, 現時点と将来の時刻の間で行うことを提案する。 kdeは、形態、発達段階、変化の持続時間を考慮した新しい距離関数を利用しており、これらの主題固有の予測の要因と考えられている。 我々は,将来の目標地点で取得したデータを使わずに,登録ネットワークトレーニングに見えない画像マスクに対する提案手法を検証する。 実験結果は,73症例の331画像からなる縦断データに示され,kde予測ddfsにより干渉された地上面と画像マスクとの間に,ホールドアウトセットで平均0.865のサイススコアが得られた。

Organ morphology is a key indicator for prostate disease diagnosis and prognosis. For instance, In longitudinal study of prostate cancer patients under active surveillance, the volume, boundary smoothness and their changes are closely monitored on time-series MR image data. In this paper, we describe a new framework for forecasting prostate morphological changes, as the ability to detect such changes earlier than what is currently possible may enable timely treatment or avoiding unnecessary confirmatory biopsies. In this work, an efficient feature-based MR image registration is first developed to align delineated prostate gland capsules to quantify the morphological changes using the inferred dense displacement fields (DDFs). We then propose to use kernel density estimation (KDE) of the probability density of the DDF-represented \textit{future morphology changes}, between current and future time points, before the future data become available. The KDE utilises a novel distance function that takes into account morphology, stage-of-progression and duration-of-change, which are considered factors in such subject-specific forecasting. We validate the proposed approach on image masks unseen to registration network training, without using any data acquired at the future target time points. The experiment results are presented on a longitudinal data set with 331 images from 73 patients, yielding an average Dice score of 0.865 on a holdout set, between the ground-truth and the image masks warped by the KDE-predicted-DDFs.
翻訳日:2021-03-28 04:28:36 公開日:2021-01-16
# データ増強のための大脳微小血腫の相反サイクル一貫性合成

Adversarial cycle-consistent synthesis of cerebral microbleeds for data augmentation ( http://arxiv.org/abs/2101.06468v1 )

ライセンス: Link先を確認
Khrystyna Faryna, Kevin Koschmieder, Marcella M. Paul, Thomas van den Heuvel, Anke van der Eerden, Rashindra Manniesing, Bram van Ginneken(参考訳) データ拡張のための制御可能な病理画像合成のための新しいフレームワークを提案する。 CycleGANにインスパイアされた我々は、健康と病理の2つの領域間で、サイクル一貫性のある画像と画像の変換を行う。 意味マスクにより誘導され、敵が訓練したジェネレータは、指定された場所で健康な画像の病理を合成する。 外傷性脳損傷患者の脳微小出血の組織データセットに本手法を適用した。 我々は,脳微小出血検出におけるデータ増大のための合成画像を用いた。 トレーニングデータセットを合成画像で強化すると、外傷性脳損傷患者の脳微血腫の検出性能が向上する可能性がある。

We propose a novel framework for controllable pathological image synthesis for data augmentation. Inspired by CycleGAN, we perform cycle-consistent image-to-image translation between two domains: healthy and pathological. Guided by a semantic mask, an adversarially trained generator synthesizes pathology on a healthy image in the specified location. We demonstrate our approach on an institutional dataset of cerebral microbleeds in traumatic brain injury patients. We utilize synthetic images generated with our method for data augmentation in cerebral microbleeds detection. Enriching the training dataset with synthetic images exhibits the potential to increase detection performance for cerebral microbleeds in traumatic brain injury patients.
翻訳日:2021-03-28 04:28:11 公開日:2021-01-16
# 荷電粒子追跡のためのハッシュとメトリック学習

Hashing and metric learning for charged particle tracking ( http://arxiv.org/abs/2101.06428v1 )

ライセンス: Link先を確認
Sabrina Amrouche, Moritz Kiehn, Tobias Golling, Andreas Salzburger(参考訳) 近似近接近傍探索に基づく高強度粒子衝突器における荷電粒子追跡の新しい手法を提案する。 例えば、衝突毎に数十万の計測値が復元される。 High Luminosity Large Hadron Colliderでは、現在使われている組合せ軌道探索アプローチが不十分になっている。 ここでは,20~50ヒットのバケットに測定値を分離し,メトリック学習による純度を高めるためにハッシュ手法を用いる。 3重項類似性学習のためのローカルフィッシャー判別分析とニューラルネットワークの2つの異なるアプローチがバケット内のトラックを更に解決するために研究されている。 シミュレーションによる衝突のシミュレーション手法を実証し,バケット追尾効率96%,偽の粒子発生率8%で大きな速度改善を示した。

We propose a novel approach to charged particle tracking at high intensity particle colliders based on Approximate Nearest Neighbors search. With hundreds of thousands of measurements per collision to be reconstructed e.g. at the High Luminosity Large Hadron Collider, the currently employed combinatorial track finding approaches become inadequate. Here, we use hashing techniques to separate measurements into buckets of 20-50 hits and increase their purity using metric learning. Two different approaches are studied to further resolve tracks inside buckets: Local Fisher Discriminant Analysis and Neural Networks for triplet similarity learning. We demonstrate the proposed approach on simulated collisions and show significant speed improvement with bucket tracking efficiency of 96% and a fake rate of 8% on unseen particle events.
翻訳日:2021-03-28 04:28:02 公開日:2021-01-16
# apache sparkを用いた混雑検出と分類におけるビッグデータアプリケーション

Big Data application in congestion detection and classification using Apache spark ( http://arxiv.org/abs/2101.06524v1 )

ライセンス: Link先を確認
Atousa Zarindast, Anuj Sharma(参考訳) ビッグデータの時代とともに、爆発的な情報も利用可能になった。 学術と産業の両方におけるビッグデータの膨大な増加には、大規模なデータ処理システムが必要です。 Sparkのパフォーマンスを最適化して、高速で汎用的なデータ処理システムである最先端技術として、大規模な研究が行われている。 多くの科学と工学分野は、生物学、金融、輸送といったビッグデータ分析で進歩している。 インテリジェントトランスポートシステム(ITS)は、情報の豊かさから人気と直接的な利益を得る。 渋滞やインシデントを減らすことで交通ネットワークの安全性と管理を改善することを目的とする。 目標に向かう第一歩は、ネットワーク全体の混雑を効率的に効果的に理解し、モデリングし、検出することである。 本研究では,効率的な混雑検出モデルを提案する。 基礎となるネットワークは、I-35、I-80、I-29、I-380の3017のセグメントで構成され、全長は1570マイル (0.4-0.6) である。 その結果,提案手法の精度は90%であり,計算時間を99.88%削減できた。

With the era of big data, an explosive amount of information is now available. This enormous increase of Big Data in both academia and industry requires large-scale data processing systems. A large body of research is behind optimizing Spark's performance to make it state of the art, a fast and general data processing system. Many science and engineering fields have advanced with Big Data analytics, such as Biology, finance, and transportation. Intelligent transportation systems (ITS) gain popularity and direct benefit from the richness of information. The objective is to improve the safety and management of transportation networks by reducing congestion and incidents. The first step toward the goal is better understanding, modeling, and detecting congestion across a network efficiently and effectively. In this study, we introduce an efficient congestion detection model. The underlying network consists of 3017 segments in I-35, I-80, I-29, and I-380 freeways with an overall length of 1570 miles and averaged (0.4-0.6) miles per segment. The result of congestion detection shows the proposed method is 90% accurate while has reduced computation time by 99.88%.
翻訳日:2021-03-28 04:27:52 公開日:2021-01-16
# 自動運転におけるデータセットキュレーションの多種多様な複雑さ対策

Diverse Complexity Measures for Dataset Curation in Self-driving ( http://arxiv.org/abs/2101.06554v1 )

ライセンス: Link先を確認
Abbas Sadat, Sean Segal, Sergio Casas, James Tu, Bin Yang, Raquel Urtasun, Ersin Yumer(参考訳) 現代の自動運転システムはディープラーニングに大きく依存している。 その結果,その性能は,トレーニングデータの質と豊かさに大きく影響される。 データ収集プラットフォームは、毎日何時間もの生データを生成できるが、すべてをラベル付けすることは不可能である。 したがって、"ラベルの付け方"を識別するメカニズムを持つことが重要である。 アクティブラーニングアプローチはラベルの例を特定するが、その興味深い点は特定のタスクを実行する固定モデルに結びついている。 これらの仮定は自動運転では有効ではなく、様々なタスク(知覚、動きの予測など)を解く必要があり、我々のモデルは時間とともに頻繁に進化する。 本稿では,交通シーンの面白さを定量化する多種多様な基準を利用する新しい手法を提案し,新しいデータ選択手法を提案する。 幅広いタスクとモデルを用いた実験により,提案するキュレーションパイプラインは,より汎用性や高いパフォーマンスをもたらすデータセットを選択できることを示した。

Modern self-driving autonomy systems heavily rely on deep learning. As a consequence, their performance is influenced significantly by the quality and richness of the training data. Data collecting platforms can generate many hours of raw data in a daily basis, however, it is not feasible to label everything. It is thus of key importance to have a mechanism to identify "what to label". Active learning approaches identify examples to label, but their interestingness is tied to a fixed model performing a particular task. These assumptions are not valid in self-driving, where we have to solve a diverse set of tasks (i.e., perception, and motion forecasting) and our models evolve over time frequently. In this paper we introduce a novel approach and propose a new data selection method that exploits a diverse set of criteria that quantize interestingness of traffic scenes. Our experiments on a wide range of tasks and models show that the proposed curation pipeline is able to select datasets that lead to better generalization and higher performance.
翻訳日:2021-03-28 04:27:35 公開日:2021-01-16
# 微細構造画像における細孔・粒子・粒界・粒界の最適・自律機械学習フレームワーク

Optimized and autonomous machine learning framework for characterizing pores, particles, grains and grain boundaries in microstructural images ( http://arxiv.org/abs/2101.06474v1 )

ライセンス: Link先を確認
Roberto Perera, Davide Guzzetti, Vinamra Agrawal(参考訳) 添加製造された金属は、材料と破壊特性を決定する不均質な組織を示す。 実験的なマイクロ構造キャラクタリゼーション技術は、高価な計算リソースを必要とする大量のデータを生成する。 本研究では, 所定の微細構造像から細孔, 粒子, 粒界および粒界(gbs)を自律的かつ効率的にキャラクタリゼーションするための最適化機械学習(ml)フレームワークを提案する。 まず, 分類器畳み込みニューラルネットワーク(cnn)を用いて, 細孔, 粉体粒子, gbsなどの欠陥を与えられた微細構造から認識した。 欠陥の種類によって2つの異なるプロセスが使われた。 粉体粒子や細孔については、最適化された畳み込みエンコーダデコーダネットワーク(CEDN)を用いてバイナリセグメンテーションが生成される。 2値セグメンテーションは、オブジェクト検出MLネットワーク(YOLOv5)を用いて、粒子と孔径とバウンディングボックスを得るのに使われた。 GBに対して,2つの回帰CNNを用いて粒径分布を求めるRGB分割画像を生成するために,別の最適化CEDNを開発した。 RGB CEDNを最適化するために、共分散行列適応-進化戦略(CMA-ES)を用いたDeep Emulator Network Search(DENSE)法が実装された。 最適化されたRGBセグメンテーションネットワークは、高い精度を維持しながら、最適化されていないネットワークに比べてトレーニング時間とGPU使用量が大幅に削減された。 最後に,提案手法は従来の手法と比較して解析時間を大幅に改善した。

Additively manufactured metals exhibit heterogeneous microstructure which dictates their material and failure properties. Experimental microstructural characterization techniques generate a large amount of data that requires expensive computationally resources. In this work, an optimized machine learning (ML) framework is proposed to autonomously and efficiently characterize pores, particles, grains and grain boundaries (GBs) from a given microstructure image. First, using a classifier Convolutional Neural Network (CNN), defects such as pores, powder particles, or GBs were recognized from a given microstructure. Depending on the type of defect, two different processes were used. For powder particles or pores, binary segmentations were generated using an optimized Convolutional Encoder-Decoder Network (CEDN). The binary segmentations were used to used obtain particle and pore size and bounding boxes using an object detection ML network (YOLOv5). For GBs, another optimized CEDN was developed to generate RGB segmentation images, which were used to obtain grain size distribution using two regression CNNS. To optimize the RGB CEDN, the Deep Emulator Network SEarch (DENSE) method which employs the Covariance Matrix Adaptation - Evolution Strategy (CMA-ES) was implemented. The optimized RGB segmentation network showed a substantial reduction in training time and GPU usage compared to the unoptimized network, while maintaining high accuracy. Lastly, the proposed framework showed a significant improvement in analysis time when compared to conventional methods.
翻訳日:2021-03-28 04:26:36 公開日:2021-01-16
# CircleMix Augmentation を用いた不均衡データによるGlomerulosclerosis分類の改善

Improve Global Glomerulosclerosis Classification with Imbalanced Data using CircleMix Augmentation ( http://arxiv.org/abs/2101.07654v1 )

ライセンス: Link先を確認
Yuzhe Lu, Haichun Yang, Zheyu Zhu, Ruining Deng, Agnes B. Fogo, and Yuankai Huo(参考訳) 糸球体病変の分類は腎病理学において日常的かつ必須の課題である。 近年,機械学習アプローチ,特に深層学習アルゴリズムは,糸球体のコンピュータ支援による病変解析に用いられている。 しかし、そのような方法を開発する際の大きな課題は、異なる病変の自然に不均衡な分布である。 本稿では,階層的学習戦略を用いて,グローバルな硬化性糸球体分類の精度を向上させるための新しいデータ拡張手法であるcirclemixを提案する。 最近提案されたcutmix法とは異なり、circlemixの増強は糸球体のような球状生物医学的対象に最適化されている。 6861 glomeruli with five class ( normal, periglomerular fibrosis, obsolescent glomerulosclerosis, solidified glomerulosclerosis, and disappearing glomerulosclerosis) を用いて, 本法の開発と評価を行った。 5倍のクロスバリデーションから,提案するcirclemix拡張は,effernet-b0ベースラインと比較して優れた性能(バランス精度=73.0%)を達成した。

The classification of glomerular lesions is a routine and essential task in renal pathology. Recently, machine learning approaches, especially deep learning algorithms, have been used to perform computer-aided lesion characterization of glomeruli. However, one major challenge of developing such methods is the naturally imbalanced distribution of different lesions. In this paper, we propose CircleMix, a novel data augmentation technique, to improve the accuracy of classifying globally sclerotic glomeruli with a hierarchical learning strategy. Different from the recently proposed CutMix method, the CircleMix augmentation is optimized for the ball-shaped biomedical objects, such as glomeruli. 6,861 glomeruli with five classes (normal, periglomerular fibrosis, obsolescent glomerulosclerosis, solidified glomerulosclerosis, and disappearing glomerulosclerosis) were employed to develop and evaluate the proposed methods. From five-fold cross-validation, the proposed CircleMix augmentation achieved superior performance (Balanced Accuracy=73.0%) compared with the EfficientNet-B0 baseline (Balanced Accuracy=69.4%)
翻訳日:2021-03-28 04:26:10 公開日:2021-01-16
# COVID19の時空間パターン検出のためのビジュアルアナリティクスアプローチ

Visual Analytics approach for finding spatiotemporal patterns from COVID19 ( http://arxiv.org/abs/2101.06476v1 )

ライセンス: Link先を確認
Arunav Das(参考訳) バウンスバックローンは、パンデミックによるロックダウンの影響で英国政府が2020年に開始したいくつかの事業金融支援計画の1つだ。 これらの計画を通じて、苦戦している企業はパンデミックのロックダウンによる気象経済の減速に対する財政的支援を提供する。 43.5bnの貸付額は、2020年12月17日時点で設定されている。 しかし、これらの融資を許可する主要なチェックや、失敗する事業や詐欺によるローン損失の見込みを損なうことなく、時空間パターンや時空間分析が貸与基準の策定に役立つかどうかを探るため、時空間モデリング技術を適用する可能性について理論的に考察する。 クラスタリングとビジュアルアナリティクスフレームワークのビジネス人口、生存率、セクター濃度への応用は、歴史的ビジネスの失敗と、COVID-19下のパターンの逆転が空間クラスタに与える影響を示唆するインナー・ロンドン空間パターンとアウター・ロンドン空間パターンを示している。 非教師なしクラスタリング技術と多項ロジスティック回帰モデルによる研究データセットの組み合わせは、他のサポートスキーム、ビジネス構造、金融犯罪に関する追加データセットによって補完され、特定の種類の金融市場や経済状況に対するビジネス脆弱性のモデリングに推奨される。 高次元のクラスタリング手法の限界は、次のステップで研究を続けるための応用モデルの妥当性とともに議論される。

Bounce Back Loan is amongst a number of UK business financial support schemes launched by UK Government in 2020 amidst pandemic lockdown. Through these schemes, struggling businesses are provided financial support to weather economic slowdown from pandemic lockdown. {\pounds}43.5bn loan value has been provided as of 17th Dec2020. However, with no major checks for granting these loans and looming prospect of loan losses from write-offs from failed businesses and fraud, this paper theorizes prospect of applying spatiotemporal modelling technique to explore if geospatial patterns and temporal analysis could aid design of loan grant criteria for schemes. Application of Clustering and Visual Analytics framework to business demographics, survival rate and Sector concentration shows Inner and Outer London spatial patterns which historic business failures and reversal of the patterns under COVID-19 implying sector influence on spatial clusters. Combination of unsupervised clustering technique with multinomial logistic regression modelling on research datasets complimented by additional datasets on other support schemes, business structure and financial crime, is recommended for modelling business vulnerability to certain types of financial market or economic condition. The limitations of clustering technique for high dimensional is discussed along with relevance of an applicable model for continuing the research through next steps.
翻訳日:2021-03-28 04:25:32 公開日:2021-01-16
# 不確かさに対するロバストハイブリッド制御障壁関数の学習

Learning Robust Hybrid Control Barrier Functions for Uncertain Systems ( http://arxiv.org/abs/2101.06492v1 )

ライセンス: Link先を確認
Alexander Robey, Lars Lindemann, Stephen Tu, and Nikolai Matni(参考訳) 堅牢な制御法の必要性は、特に安全クリティカルな応用において重要である。 我々は,ロバストな安全を確保する制御則を合成する手段として,ロバストなハイブリッド制御障壁関数を提案する。 この概念に基づき,データからロバストなハイブリッド制御障壁関数を学習するための最適化問題を定式化する。 最適化問題の実現可能性によって学習された強固なハイブリッド制御障壁関数の正確性が保証されるようなデータ上の十分な条件を明らかにする。 我々の技術は、モデル不確実性の対象となるコンパス歩行歩行者の魅力領域を安全に拡張することを可能にする。

The need for robust control laws is especially important in safety-critical applications. We propose robust hybrid control barrier functions as a means to synthesize control laws that ensure robust safety. Based on this notion, we formulate an optimization problem for learning robust hybrid control barrier functions from data. We identify sufficient conditions on the data such that feasibility of the optimization problem ensures correctness of the learned robust hybrid control barrier functions. Our techniques allow us to safely expand the region of attraction of a compass gait walker that is subject to model uncertainty.
翻訳日:2021-03-28 04:25:10 公開日:2021-01-16
# 新型コロナウイルスパンデミックに伴う障害事象の時間的クラスタリング

Temporal Clustering of Disorder Events During the COVID-19 Pandemic ( http://arxiv.org/abs/2101.06458v1 )

ライセンス: Link先を確認
Gian Maria Campedelli and Maria Rita D'Orsogna(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、公衆衛生、社会経済、機関の危機を浮き彫りにした。 ウイルスの感染拡大を遅らせる措置は、当局と市民の間にかなりの緊張を生じさせ、社会不安や反政府デモの波に繋がった。 本研究は、インド、イスラエル、メキシコの3カ国を対象とする「COVID-19障害トラッカー」イニシアチブによるパンデミック関連障害イベントの時間的特性について検討する。 PoissonとHawkesのプロセスをデータストリームに合わせることで、障害イベントは3カ国すべてで相互依存的かつ自己引用的であることが分かる。 地理的クラスタリングはこれらの特徴をサブナショナルレベルで確認し、メソスケールの自己励起パターンの収束として全国的な障害が出現することを示している。 サブナショナルクラスタ間の事象の相関を計算する際には、各国間で考慮すべき多様性が観察され、これらは特定の政治的、社会的、地理的特性の文脈で議論される。 最も領域的にコンパクトで大規模な抗議活動が政府によるロックダウンに反応して行われたイスラエルは、イベントの後に最も活発で影響の短い期間と、全国的に最も強い同期を誇示している。 完全なロックダウン命令が課されなかったメキシコでは、反応性と全国的な同期が最低である。 本研究は、住民とウイルス封じ込め政策が相互排他的ではないことを保証するため、地方情報キャンペーンを推進する当局の必要性を強調している。

The COVID-19 pandemic has unleashed multiple public health, socio-economic, and institutional crises. Measures taken to slow the spread of the virus have fostered significant strain between authorities and citizens, leading to waves of social unrest and anti-government demonstrations. We study the temporal nature of pandemic-related disorder events as tallied by the "COVID-19 Disorder Tracker" initiative by focusing on the three countries with the largest number of incidents, India, Israel, and Mexico. By fitting Poisson and Hawkes processes to the stream of data, we find that disorder events are inter-dependent and self-excite in all three countries. Geographic clustering confirms these features at the subnational level, indicating that nationwide disorders emerge as the convergence of meso-scale patterns of self-excitation. Considerable diversity is observed among countries when computing correlations of events between subnational clusters; these are discussed in the context of specific political, societal and geographic characteristics. Israel, the most territorially compact and where large scale protests were coordinated in response to government lockdowns, displays the largest reactivity and the shortest period of influence following an event, as well as the strongest nationwide synchrony. In Mexico, where complete lockdown orders were never mandated, reactivity and nationwide synchrony are lowest. Our work highlights the need for authorities to promote local information campaigns to ensure that livelihoods and virus containment policies are not perceived as mutually exclusive.
翻訳日:2021-03-28 04:25:02 公開日:2021-01-16