このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210810となっている論文です。

PDF登録状況(公開日: 20210810)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) DVM-CAR:ビジュアルマーケティング研究と応用のための大規模自動車データセット [全文訳有]

DVM-CAR: A large-scale automotive dataset for visual marketing research and applications ( http://arxiv.org/abs/2109.00881v1 )

ライセンス: CC BY 4.0
Jingming Huang and Bowei Chen and Lan Luo and Shigang Yue and Iadh Ounis(参考訳) 自動車業界は、センサーからビッグデータ分析、人工知能まで、テクノロジ、アプリケーション、サービスによって変化しつつある。 本稿では,自動車外装デザイン,消費者分析,販売モデリングなどの自動車産業における視覚関連マーケティング研究と応用を促進するために,公開データセットを作成するための多分野的取り組みについて述べる。 私たちは、製品美学への関心が高まっているという事実に動機づけられていますが、幅広い変数や情報をカバーする大規模なデータセットはありません。 マーケティング研究者やコンピュータ科学者が直面する一般的な問題をユーザサーベイ調査を通じて要約し、これらの問題を緩和するためにデータセットを設計する。 当社のデータセットには、899台の自動車モデルからの140万枚の画像と、対応する自動車モデル仕様と、英国市場での10年以上にわたる販売情報が含まれています。 私たちの知る限りでは、これは長い間、複数のソースからの画像、テキスト、販売情報を含む、初めての大規模な自動車用データセットです。 本稿では,マルチソースデータ融合と共有に方法論的な貢献があると考える,詳細なデータ構造と準備手順について述べる。 さらに、データセットの価値を説明するための3つのデータセットアプリケーション例についても論じる。

The automotive industry is being transformed by technologies, applications and services ranging from sensors to big data analytics and to artificial intelligence. In this paper, we present our multidisciplinary initiative of creating a publicly available dataset to facilitate the visual-related marketing research and applications in automotive industry such as automotive exterior design, consumer analytics and sales modelling. We are motivated by the fact that there is growing interest in product aesthetics but there is no large-scale dataset available that covers a wide range of variables and information. We summarise the common issues faced by marketing researchers and computer scientists through a user survey study, and design our dataset to alleviate these issues. Our dataset contains 1.4 million images from 899 car models as well as their corresponding car model specification and sales information over more than ten years in the UK market. To the best of our knowledge, this is the very first large-scale automotive dataset which contains images, text and sales information from multiple sources over a long period of time. We describe the detailed data structure and the preparation steps, which we believe has the methodological contribution to the multi-source data fusion and sharing. In addition, we discuss three dataset application examples to illustrate the value of our dataset.
翻訳日:2021-09-05 13:37:17 公開日:2021-08-10
# トラクテッド3次元超音波とディープニューラルネットワークによる甲状腺容積のオブザーバ変動低減

Tracked 3D Ultrasound and Deep Neural Network-based Thyroid Segmentation reduce Interobserver Variability in Thyroid Volumetry ( http://arxiv.org/abs/2108.10118v1 )

ライセンス: Link先を確認
Markus Kr\"onke, Christine Eilers, Desislava Dimova, Melanie K\"ohler, Gabriel Buschner, Lilit Mirzojan, Lemonia Konstantinidou, Marcus R. Makowski, James Nagarajah, Nassir Navab, Wolfgang Weber, Thomas Wendler(参考訳) 背景:甲状腺容積検査は甲状腺疾患の診断,治療,モニタリングに重要である。 しかし,従来の2次元超音波を用いた甲状腺体積検査は術者に依存しない。 本研究では,2次元超音波と追跡された3次元超音波と,深部ニューラルネットワークを用いた自動甲状腺セグメンテーションを比較した。 参考文献はMRI。 方法: 健常者28名を対象に2dおよび3d超音波検査およびmri検査を行った。 3名の医師(6例, 4例, 1例)が各ボランティアに対して3つの2D超音波と3つの追跡3D超音波検査を行った。 2dスキャンでは甲状腺葉容積を楕円形式で算出した。 畳み込みディープニューラルネットワーク(CNN)は、3D甲状腺葉を自動的に分割する。 MRI(T1 VIBE sequence)では、甲状腺は経験豊富な医師によって手動で分節された。 結果: CNNはダイススコア0.94を得るために訓練された。 2つのMDを比較したオブザーバ変動は、それぞれ0.58mlから0.52ml(MD1 vs.2)、-1.33mlから-0.17ml(MD1 vs.3)、-1.89mlから-0.70ml(MD2 vs.3)の平均的な差を示した。 Paired sample t-tests were significant difference in two comparisons for 2D and nothing for 3D。 2次元超音波と3次元超音波で観察した。 t-testによる超音波量とmri容積の比較では,全mdsの2d容積に有意差を認め,3d超音波では有意差は認められなかった。 3D超音波では取得時間が有意に短かった。 結語: 追跡3D超音波とCNNセグメンテーションを併用すると, 甲状腺容積の変化が著しく減少し, 取得時間の短縮で測定精度が向上する。

Background: Thyroid volumetry is crucial in diagnosis, treatment and monitoring of thyroid diseases. However, conventional thyroid volumetry with 2D ultrasound is highly operator-dependent. This study compares 2D ultrasound and tracked 3D ultrasound with an automatic thyroid segmentation based on a deep neural network regarding inter- and intraobserver variability, time and accuracy. Volume reference was MRI. Methods: 28 healthy volunteers were scanned with 2D and 3D ultrasound as well as by MRI. Three physicians (MD 1, 2, 3) with different levels of experience (6, 4 and 1 a) performed three 2D ultrasound and three tracked 3D ultrasound scans on each volunteer. In the 2D scans the thyroid lobe volumes were calculated with the ellipsoid formula. A convolutional deep neural network (CNN) segmented the 3D thyroid lobes automatically. On MRI (T1 VIBE sequence) the thyroid was manually segmented by an experienced medical doctor. Results: The CNN was trained to obtain a dice score of 0.94. The interobserver variability comparing two MDs showed mean differences for 2D and 3D respectively of 0.58 ml to 0.52 ml (MD1 vs. 2), -1.33 ml to -0.17 ml (MD1 vs. 3) and -1.89 ml to -0.70 ml (MD2 vs. 3). Paired samples t-tests showed significant differences in two comparisons for 2D and none for 3D. Intraobsever variability was similar for 2D and 3D ultrasound. Comparison of ultrasound volumes and MRI volumes by paired samples t-tests showed a significant difference for the 2D volumetry of all MDs, and no significant difference for 3D ultrasound. Acquisition time was significantly shorter for 3D ultrasound. Conclusion: Tracked 3D ultrasound combined with a CNN segmentation significantly reduces interobserver variability in thyroid volumetry and increases the accuracy of the measurements with shorter acquisition times.
翻訳日:2021-08-29 12:09:20 公開日:2021-08-10
# (参考訳) ビジネスにおけるデータサイエンスからの価値の調和--ソリューションの説明可能性と公正性の確保

Harnessing value from data science in business: ensuring explainability and fairness of solutions ( http://arxiv.org/abs/2108.07714v1 )

ライセンス: CC BY 4.0
Krzysztof Chomiak and Micha{\l} Miktus(参考訳) 本稿では,高度なビジネス問題を解決することを目的とした,人工知能における公正性と説明可能性の概念を紹介する。 公平性について、著者らはバイアス誘導仕様と関連する緩和方法について議論し、データ駆動組織に公平性を導入するための一連のレシピを結論付けている。 さらに、XAIでは、実証的なビジネスユースケースと組み合わせた特定のアルゴリズムを監査し、品質定量化のテクニックを多岐にわたって議論し、今後の研究の道筋について概観する。

The paper introduces concepts of fairness and explainability (XAI) in artificial intelligence, oriented to solve a sophisticated business problems. For fairness, the authors discuss the bias-inducing specifics, as well as relevant mitigation methods, concluding with a set of recipes for introducing fairness in data-driven organizations. Additionally, for XAI, the authors audit specific algorithms paired with demonstrational business use-cases, discuss a plethora of techniques of explanations quality quantification and provide an overview of future research avenues.
翻訳日:2021-08-22 14:47:59 公開日:2021-08-10
# 教師なし学習を用いたVHR EO画像のセグメンテーション

Segmentation of VHR EO Images using Unsupervised Learning ( http://arxiv.org/abs/2108.04222v2 )

ライセンス: Link先を確認
Sudipan Saha and Lichao Mou and Muhammad Shahzad and Xiao Xiang Zhu(参考訳) セマンティックセグメンテーションは多くの地球観測における重要なステップである。 セマンティックセグメンテーションのための深層ネットワークのトレーニングには大量のピクセルレベルのアノテーションが必要である。 地球観測技術は様々な用途に適用され、クラスは用途によって大きく異なるため、地球観測画像のラベル付けにはドメイン知識が必要とされることが多く、多くの地球観測アプリケーションでラベル付きトレーニングデータの利用が妨げられている。 これらの課題に対処するために,本研究では,単一の未ラベルシーンを用いてトレーニング可能な教師なしセマンティックセマンティックセマンティクス手法を提案する。 リモートセンシングのシーンは概して大きい。 提案手法では,この特性を利用して,より大きなシーンからより小さなパッチをサンプリングし,複数の畳み込み層からなる軽量深層モデルの重みと埋め込みチャネルの注意を洗練するために,深層クラスタリングとコントラスト学習を用いる。 対象画像/シーンの教師なしトレーニングの後、モデルはシーンに存在する主要なクラスを自動的に分離し、セグメンテーションマップを生成する。 vaihingenデータセットの実験結果は,提案手法の有効性を示している。

Semantic segmentation is a crucial step in many Earth observation tasks. Large quantity of pixel-level annotation is required to train deep networks for semantic segmentation. Earth observation techniques are applied to varieties of applications and since classes vary widely depending on the applications, therefore, domain knowledge is often required to label Earth observation images, impeding availability of labeled training data in many Earth observation applications. To tackle these challenges, in this paper we propose an unsupervised semantic segmentation method that can be trained using just a single unlabeled scene. Remote sensing scenes are generally large. The proposed method exploits this property to sample smaller patches from the larger scene and uses deep clustering and contrastive learning to refine the weights of a lightweight deep model composed of a series of the convolution layers along with an embedded channel attention. After unsupervised training on the target image/scene, the model automatically segregates the major classes present in the scene and produces the segmentation map. Experimental results on the Vaihingen dataset demonstrate the efficacy of the proposed method.
翻訳日:2021-08-15 11:26:58 公開日:2021-08-10
# (参考訳) arXiv:2102.1 1963, a experimental demonstration of the memristor test, Y. V. Pershin, J. Kim, T. Datta, M. Di Ventra, 23 Feb 2021 理想的なmemristorは本当に存在するのか? [全文訳有]

Reply to arXiv:2102.11963, An experimental demonstration of the memristor test, Y. V. Pershin, J. Kim, T. Datta, M. Di Ventra, 23 Feb 2021. Does an ideal memristor truly exist? ( http://arxiv.org/abs/2108.05708v1 )

ライセンス: CC BY 4.0
Frank Zhigang Wang(参考訳) 10年間の研究の後、1971年にチュアが予測したように、我々はプロトタイプ装置を開発し、直接の phi q 相互作用が解釈可能であることを実験的に実証した。 寄生的インダクタ効果を避けるための一定の入力電流により、デバイスは理想的なmemristorの3つの基準を満たす:単一値、非線形、連続微分可能、厳密に単調に増大する構成的phi q曲線、ピン留めされたviヒステリシスループ、電荷のみ依存抵抗。 本研究は, 旋回流束電荷相互作用を実験的に検証する上での一歩であり, 最終段階には到達していない。なぜなら, この試作機は, 1 つの重大な限界を被っているからである。 本稿では, 複数あるいは無限の安定状態と寄生インダクタンスを持たない完全機能理想メムリスタの作り方についても論じるとともに, オープン構造, ナノスケールサイズ, 立方体異方性(あるいは等方性)を持つ磁性材料, 磁区の逐次切替など, 様々な提案を行う。 さらに、我々はarXiv.orgの最近の課題に答え、私たちのデバイスは、設計したコンデンサ-メムリスタ回路テストに合格しなかったため、単にメモリを持つインダクタであると主張している。 理想的な memristor が存在しない、あるいは純粋に数学的な概念である、という彼らの予想とは対照的に、私たちは研究者が自然界で理想的な memristor を発見したり、現在の研究に基づいて実験室でそれを作るであろうと楽観的に考えています。

After a decade of research, we developed a prototype device and experimentally demonstrated that the direct phi q interaction could be memristive, as predicted by Chua in 1971. With a constant input current to avoid any parasitic inductor effect, our device meets three criteria for an ideal memristor: a single valued, nonlinear, continuously differentiable, and strictly monotonically increasing constitutive phi q curve, a pinched v i hysteresis loop, and a charge only dependent resistance. Our work represents a step forward in terms of experimentally verifying the memristive flux charge interaction but we have not reached the final because this prototype still suffers from two serious limitations: 1, a superficial but dominant inductor effect (behind which the above memristive fingerprints hide) due to its inductor-like core structure, and 2. bistability and dynamic sweep of a continuous resistance range. In this article, we also discuss how to make a fully functioning ideal memristor with multiple or an infinite number of stable states and no parasitic inductance, and give a number of suggestions, such as open structure, nanoscale size, magnetic materials with cubic anisotropy (or even isotropy), and sequential switching of the magnetic domains. Additionally, we respond to a recent challenge from arXiv.org that claims that our device is simply an inductor with memory since our device did not pass their designed capacitor-memristor circuit test. Contrary to their conjecture that an ideal memristor may not exist or may be a purely mathematical concept, we remain optimistic that researchers will discover an ideal memristor in nature or make one in the laboratory based on our current work.
翻訳日:2021-08-14 05:42:28 公開日:2021-08-10
# (参考訳) ニューラルNLPのポストホック解釈可能性:サーベイ

Post-hoc Interpretability for Neural NLP: A Survey ( http://arxiv.org/abs/2108.04840v1 )

ライセンス: CC BY 4.0
Andreas Madsen, Siva Reddy, Sarath Chandar(参考訳) 自然言語処理(nlp)モデルはますます複雑で広くなってきている。 近年のニューラルネットワークの発展に伴い、これらのモデルの使用に責任があるかどうかの懸念が高まっている。 安全や倫理といった懸念は、説明を提供することによって部分的に対処できる。 さらに、モデルが失敗した場合、説明を提供するのが説明責任の目的である。 この目的のために、解釈可能性は、人間にとって理解可能な言葉でこれらの説明を提供するのに役立つ。 理解可能なことの中心は、説明の伝達方法です。 そこで本研究では,最近の解釈可能性法がどのように説明を伝達するかを分類し,その方法を深く論じる。 さらに,モデルが学習され,一般にモデル非依存になった後に説明を提供するポストホック法にも注目した。 このタイプのメソッドに対する共通の懸念は、モデルを正確に反映するかどうかである。 そこで本稿では,これらのポストホック法の評価方法について論じる。

Natural Language Processing (NLP) models have become increasingly more complex and widespread. With recent developments in neural networks, a growing concern is whether it is responsible to use these models. Concerns such as safety and ethics can be partially addressed by providing explanations. Furthermore, when models do fail, providing explanations is paramount for accountability purposes. To this end, interpretability serves to provide these explanations in terms that are understandable to humans. Central to what is understandable is how explanations are communicated. Therefore, this survey provides a categorization of how recent interpretability methods communicate explanations and discusses the methods in depth. Furthermore, the survey focuses on post-hoc methods, which provide explanations after a model is learned and generally model-agnostic. A common concern for this class of methods is whether they accurately reflect the model. Hence, how these post-hoc methods are evaluated is discussed throughout the paper.
翻訳日:2021-08-12 21:46:39 公開日:2021-08-10
# (参考訳) MetaPose:3Dスーパービジョンなしで複数のビューから高速な3D画像 [全文訳有]

MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision ( http://arxiv.org/abs/2108.04869v1 )

ライセンス: CC BY 4.0
Ben Usman, Andrea Tagliasacchi, Kate Saenko, Avneesh Sud(参考訳) 近年, カメラパラメータによる単眼・多視点ポーズ推定では, 位置や方向が不明な複数のカメラからのポーズ推定がはるかに少ない傾向がみられた。 本稿では,正確な3次元ポーズとカメラ推定を行い,複数視点からの咬合による関節位置の不確かさを考慮し,トレーニングに2次元キーポイントデータのみを必要とするニューラルモデルの訓練方法について述べる。 本手法は,確立されたhuman3.6mデータセット上で,従来のバンドル調整と弱い教師付き単眼的3dベースラインと,移動カメラを用いたスキー場ptzデータセットを上回っている。 本稿では, カメラモデル, カメラ数, 初期化, 画像空間のジョイントローカライゼーションによる誤差を, 付加誤差から分離する広範囲なアブレーション研究について述べる。

Recently, huge strides were made in monocular and multi-view pose estimation with known camera parameters, whereas pose estimation from multiple cameras with unknown positions and orientations received much less attention. In this paper, we show how to train a neural model that can perform accurate 3D pose and camera estimation, takes into account joint location uncertainty due occlusion from multiple views, and requires only 2D keypoint data for training. Our method outperforms both classical bundle adjustment and weakly-supervised monocular 3D baselines on the well-established Human3.6M dataset, as well as the more challenging in-the-wild Ski-Pose PTZ dataset with moving cameras. We provide an extensive ablation study separating the error due to the camera model, number of cameras, initialization, and image-space joint localization from the additional error introduced by our model.
翻訳日:2021-08-12 21:45:37 公開日:2021-08-10
# (参考訳) 化学転写可能な機械学習電位を用いた大型フォトウィッチブル分子の励起状態、非断熱動力学

Excited state, non-adiabatic dynamics of large photoswitchable molecules using a chemically transferable machine learning potential ( http://arxiv.org/abs/2108.04879v1 )

ライセンス: CC BY 4.0
Simon Axelrod, Eugene Shakhnovich, Rafael G\'omez-Bombarelli(参考訳) 光誘起化学プロセスは自然界に広く存在し、幅広い技術応用がある。 例えば、アゾベンゼンの光異性化により、アゾ骨格を持つ薬物が光で活性化される。 原則として、高い異性化収率などの有用な反応性特性を持つフォトウィッチは、反応性シミュレーションによる仮想スクリーニングによって識別できる。 実際には、これらのシミュレーションは、非断熱励起状態効果を説明するために数百の軌道と高価な量子化学法を必要とするため、スクリーニングにはほとんど使われない。 本稿では,アゾベンゼン誘導体のシミュレーションを高速化するニューラルネットワークポテンシャルを提案する。 このモデルは、ダイアバティック状態に基づくもので、 \textit{diabatic Artificial Neural Network} (DANN) と呼ばれる。 ネットワークは、トレーニングに使用される量子化学法よりも6桁高速である。 DANNはトレーニングセット外の分子に転送可能であり、実験と相関する未確認種の量子収率を予測する。 このモデルを用いて、仮想的に3100個の仮説分子をスクリーニングし、非常に高い量子収率を持ついくつかの種を同定する。 以上の結果から,光活性化合物の高速かつ高精度な仮想スクリーニングが可能となった。

Light-induced chemical processes are ubiquitous in nature and have widespread technological applications. For example, the photoisomerization of azobenzene allows a drug with an azo scaffold to be activated with light. In principle, photoswitches with useful reactive properties, such as high isomerization yields, can be identified through virtual screening with reactive simulations. In practice these simulations are rarely used for screening, since they require hundreds of trajectories and expensive quantum chemical methods to account for non-adiabatic excited state effects. Here we introduce a neural network potential to accelerate such simulations for azobenzene derivatives. The model, which is based on diabatic states, is called the \textit{diabatic artificial neural network} (DANN). The network is six orders of magnitude faster than the quantum chemistry method used for training. DANN is transferable to molecules outside the training set, predicting quantum yields for unseen species that are correlated with experiment. We use the model to virtually screen 3,100 hypothetical molecules, and identify several species with extremely high quantum yields. Our results pave the way for fast and accurate virtual screening of photoactive compounds.
翻訳日:2021-08-12 21:19:07 公開日:2021-08-10
# (参考訳) 非微分可能サンプリングによる微分可能表面レンダリング [全文訳有]

Differentiable Surface Rendering via Non-Differentiable Sampling ( http://arxiv.org/abs/2108.04886v1 )

ライセンス: CC BY 4.0
Forrester Cole, Kyle Genova, Avneesh Sud, Daniel Vlasic, Zhoutong Zhang(参考訳) 本稿では, 明示的表現と暗黙的表現の両方をサポートし, 咬合境界での微分を提供し, 高速で実装が容易な3次元面の微分可能レンダリング手法を提案する。 この方法はまず、微分不可能なラスタ化を用いて表面をサンプリングし、最終画像を生成するために微分可能深度認識点スプラッティングを適用する。 提案手法では, メッシュ化やラスタ化のステップは不要であり, 大型3次元モデルでは効率的であり, 暗黙の曲面定義から抽出した等曲面にも適用可能である。 本手法は,暗黙的,メッシュ的,パラメトリックサーフェスに基づく逆レンダリングおよびニューラルネットワークトレーニングアプリケーションに対して有効であることを示す。 特に,ニューラルラジアンス場(NeRF)から抽出したアイソサーフェスを,初めて効率よく,微分可能なレンダリングで示し,体積ベースではなく表面ベースでNeRFのレンダリングを示す。

We present a method for differentiable rendering of 3D surfaces that supports both explicit and implicit representations, provides derivatives at occlusion boundaries, and is fast and simple to implement. The method first samples the surface using non-differentiable rasterization, then applies differentiable, depth-aware point splatting to produce the final image. Our approach requires no differentiable meshing or rasterization steps, making it efficient for large 3D models and applicable to isosurfaces extracted from implicit surface definitions. We demonstrate the effectiveness of our method for implicit-, mesh-, and parametric-surface-b ased inverse rendering and neural-network training applications. In particular, we show for the first time efficient, differentiable rendering of an isosurface extracted from a neural radiance field (NeRF), and demonstrate surface-based, rather than volume-based, rendering of a NeRF.
翻訳日:2021-08-12 21:17:59 公開日:2021-08-10
# (参考訳) プルーニングが対向ロバスト性に及ぼす影響について [全文訳有]

On the Effect of Pruning on Adversarial Robustness ( http://arxiv.org/abs/2108.04890v1 )

ライセンス: CC BY 4.0
Artur Jordao and Helio Pedrini(参考訳) プルーニングは、深層畳み込みネットワークの計算コストを削減するためのよく知られたメカニズムである。 しかし、研究はプラニングを正規化の一形態として示しており、過剰フィッティングを減少させ、一般化を改善する。 我々は,この戦略群が計算性能と一般化以上の利点をもたらすことを実証する。 解析の結果,畳み込みネットワークからのプルーニング構造(フィルタ層)は,一般化だけでなく,逆画像に対する堅牢性も向上することがわかった。 このような成果は、プレニングがネットワーク容量を削減し、敵画像に対して有効なツールである正規化を提供するため可能である。 敵画像によるトレーニングと慎重な正規化を必要とする有望な防御機構とは対照的に,プルーニングは自然画像のみを考慮した競争結果を得る(例えば,標準および低コストのトレーニング)。 これらの知見をいくつかの敵の攻撃やアーキテクチャ上で確認し,敵画像に対する新たな防御機構としてのプルーニングの可能性を示した。

Pruning is a well-known mechanism for reducing the computational cost of deep convolutional networks. However, studies have shown the potential of pruning as a form of regularization, which reduces overfitting and improves generalization. We demonstrate that this family of strategies provides additional benefits beyond computational performance and generalization. Our analyses reveal that pruning structures (filters and/or layers) from convolutional networks increase not only generalization but also robustness to adversarial images (natural images with content modified). Such achievements are possible since pruning reduces network capacity and provides regularization, which have been proven effective tools against adversarial images. In contrast to promising defense mechanisms that require training with adversarial images and careful regularization, we show that pruning obtains competitive results considering only natural images (e.g., the standard and low-cost training). We confirm these findings on several adversarial attacks and architectures; thus suggesting the potential of pruning as a novel defense mechanism against adversarial images.
翻訳日:2021-08-12 21:03:23 公開日:2021-08-10
# (参考訳) 対話型画像生成のための生成敵対ネットワークの解釈 [全文訳有]

Interpreting Generative Adversarial Networks for Interactive Image Generation ( http://arxiv.org/abs/2108.04896v1 )

ライセンス: CC BY 4.0
Bolei Zhou(参考訳) 画像生成のためのGAN(Generative Adversarial Networks)の発展により、大きな進歩を遂げた。 しかし、ランダムなベクトルからGANの深い表現によって現実的なイメージがどのように生成されるかは十分に理解されていない。 本章では、深層生成モデル解釈に関する最近の研究の概要を述べる。 学習表現に現れる人間の理解可能な概念を識別し、インタラクティブな画像生成と編集に利用する方法について検討する。

Great progress has been made by the advances in Generative Adversarial Networks (GANs) for image generation. However, there lacks enough understanding on how a realistic image can be generated by the deep representations of GANs from a random vector. This chapter will give a summary of recent works on interpreting deep generative models. We will see how the human-understandable concepts that emerge in the learned representation can be identified and used for interactive image generation and editing.
翻訳日:2021-08-12 20:41:25 公開日:2021-08-10
# (参考訳) 階層的クロスモーダルアテンションを用いた奥行き注入バイノーラルオーディオ生成 [全文訳有]

Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal Attention ( http://arxiv.org/abs/2108.04906v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Siddharth Srivastava, Neeraj Matiyali, Gaurav Sharma(参考訳) バイノーラルオーディオは、リスナーに録音場所にいる感覚を与え、AR/VRと組み合わせることで没入感を高める。 しかし、バイノーラルオーディオ記録の問題は、単一のマイクで録音できる従来のモノオーディオと比較して、ハンドヘルドデバイス内で製造できない特別な設定を必要とすることである。 この欠点を克服するために、先行研究は、視覚入力を条件とした後処理ステップとして、モノ録音音声をバイノーラルオーディオに高めようとした。 しかし、以前のアプローチはすべて、タスクに必要な他の重要な情報を見逃していた。 録音装置から異なる音が生成する物体の距離。 本研究では、シーンの奥行きマップがシーン内の物体の距離情報を符号化するプロキシとして機能し、画像の特徴を付加することで、質的にも定量的にも性能が向上することを示す。 本稿では,デコーダの各層に音声特徴を有するトランスフォーマーバックボーンから抽出した画像と深度特徴を符号化するために,階層的アテンション機構を用いた新しいエンコーダデコーダアーキテクチャを提案する。

Binaural audio gives the listener the feeling of being in the recording place and enhances the immersive experience if coupled with AR/VR. But the problem with binaural audio recording is that it requires a specialized setup which is not possible to fabricate within handheld devices as compared to traditional mono audio that can be recorded with a single microphone. In order to overcome this drawback, prior works have tried to uplift the mono recorded audio to binaural audio as a post processing step conditioning on the visual input. But all the prior approaches missed other most important information required for the task, i.e. distance of different sound producing objects from the recording setup. In this work, we argue that the depth map of the scene can act as a proxy for encoding distance information of objects in the scene and show that adding depth features along with image features improves the performance both qualitatively and quantitatively. We propose a novel encoder-decoder architecture, where we use a hierarchical attention mechanism to encode the image and depth feature extracted from individual transformer backbone, with audio features at each layer of the decoder.
翻訳日:2021-08-12 20:35:50 公開日:2021-08-10
# (参考訳) 異常検出のためのフローベースSVDD [全文訳有]

Flow-based SVDD for anomaly detection ( http://arxiv.org/abs/2108.04907v1 )

ライセンス: CC BY 4.0
Marcin Sendera, Marek \'Smieja, {\L}ukasz Maziarka, {\L}ukasz Struski, Przemys{\l}aw Spurek, Jacek Tabor(参考訳) 我々はflowsvddを提案する。flowsvddは、ディープラーニングツールを使用してよく知られたsvdd原則を実現する、異常/異常検出のためのフローベースの1クラス分類器である。 ディープsvddに対する他のアプローチとは対照的に、提案されたモデルはフローベースのモデルを使用してインスタンス化される。 実験の結果,FlowSVDDは現在の最先端手法と同等の結果が得られ,ベンチマークデータセット上での深部SVDDメソッドよりも大幅に優れていた。

We propose FlowSVDD -- a flow-based one-class classifier for anomaly/outliers detection that realizes a well-known SVDD principle using deep learning tools. Contrary to other approaches to deep SVDD, the proposed model is instantiated using flow-based models, which naturally prevents from collapsing of bounding hypersphere into a single point. Experiments show that FlowSVDD achieves comparable results to the current state-of-the-art methods and significantly outperforms related deep SVDD methods on benchmark datasets.
翻訳日:2021-08-12 20:29:11 公開日:2021-08-10
# (参考訳) FLAME-in-NeRF : 自由視点顔アニメーションのための放射場ニューラル制御 [全文訳有]

FLAME-in-NeRF : Neural control of Radiance Fields for Free View Face Animation ( http://arxiv.org/abs/2108.04913v1 )

ライセンス: CC BY 4.0
ShahRukh Athar, Zhixin Shu, Dimitris Samaras(参考訳) 本稿では,映像合成のためのニューラルレンダリング手法を提案する。 ニューラルレイディアンス・フィールド(NeRF)のようなボリューム・ニューラルレンダリングの最近の進歩は、印象的な結果を伴う静的シーンのフォトリアリスティック・ノベルビュー合成を可能にした。 しかし、このようなシーン表現のあるシーンの一部として動的かつ制御可能なオブジェクトをモデリングすることは依然として困難である。 本研究では,人物とシーン背景を含むポートレートビデオの新しいビュー合成と,低次元表現表現による表情の明示的な制御を実現するシステムの設計を行う。 本研究では,3次元形態素顔モデル(3DMM)の表情空間を利用して表情の分布を表現し,NeRFボリューム関数の条件付けを行う。 さらに,3DMMの装着によってもたらされた空間的先入観をネットワークに誘導し,シーンの外観や顔の動作に対する不整合制御を学習する。 本手法は,表現制御を施したポートレート映像のフリービュー合成に有効であることを示す。 シーンを訓練するには,モバイルデバイスで撮影された被写体の短い映像のみが必要となる。

This paper presents a neural rendering method for controllable portrait video synthesis. Recent advances in volumetric neural rendering, such as neural radiance fields (NeRF), has enabled the photorealistic novel view synthesis of static scenes with impressive results. However, modeling dynamic and controllable objects as part of a scene with such scene representations is still challenging. In this work, we design a system that enables both novel view synthesis for portrait video, including the human subject and the scene background, and explicit control of the facial expressions through a low-dimensional expression representation. We leverage the expression space of a 3D morphable face model (3DMM) to represent the distribution of human facial expressions, and use it to condition the NeRF volumetric function. Furthermore, we impose a spatial prior brought by 3DMM fitting to guide the network to learn disentangled control for scene appearance and facial actions. We demonstrate the effectiveness of our method on free view synthesis of portrait videos with expression controls. To train a scene, our method only requires a short video of a subject captured by a mobile device.
翻訳日:2021-08-12 20:23:48 公開日:2021-08-10
# (参考訳) 変分オートエンコーダを用いた任意自由含意ボラティリティ表面生成 [全文訳有]

Arbitrage-Free Implied Volatility Surface Generation with Variational Autoencoders ( http://arxiv.org/abs/2108.04941v1 )

ライセンス: CC BY-SA 4.0
Brian Ning, Sebastian Jaimungal, Xiaorong Zhang, Maxime Bergeron(参考訳) 本稿では,モデルフリー変分オートエンコーダ (vaes) と連続時間確率微分方程式 (sde) 駆動モデルを組み合わせて,歴史的データと整合した調停自由含意ボラティリティ (iv) 面を生成するハイブリッド手法を提案する。 SDEモデルの2つのクラス、すなわちレギュラースイッチングモデルとL\'evy加法プロセスに焦点を当てる。 歴史的曲面をSDEモデルパラメータの空間に投影することにより、VAEをトレーニングするデータに忠実なパラメータ部分空間上の分布を得る。 アービタージュフリーIV曲面は、潜在空間の後方分布からサンプリングし、復号してSDEモデルパラメータを取得し、最終的にそれらのパラメータをIV曲面にマッピングすることで生成される。

We propose a hybrid method for generating arbitrage-free implied volatility (IV) surfaces consistent with historical data by combining model-free Variational Autoencoders (VAEs) with continuous time stochastic differential equation (SDE) driven models. We focus on two classes of SDE models: regime switching models and L\'evy additive processes. By projecting historical surfaces onto the space of SDE model parameters, we obtain a distribution on the parameter subspace faithful to the data on which we then train a VAE. Arbitrage-free IV surfaces are then generated by sampling from the posterior distribution on the latent space, decoding to obtain SDE model parameters, and finally mapping those parameters to IV surfaces.
翻訳日:2021-08-12 20:10:24 公開日:2021-08-10
# Embodied BERT:Embodied, Language-Guided Visual Task Completionのためのトランスフォーマモデル

Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion ( http://arxiv.org/abs/2108.04927v1 )

ライセンス: Link先を確認
Alessandro Suglia, Qiaozi Gao, Jesse Thomason, Govind Thattai, Gaurav Sukhatme(参考訳) 家庭やオフィスで仕事をする言語誘導ロボットは、世界をナビゲートし、対話しなければならない。 視覚的な観察や環境における行動に対する言語指示の接地は、オープンな課題である。 Embodied BERT (EmBERT) は,言語条件のタスク完了のために,長時間の時間的水平線を越えた高次元マルチモーダル入力に対応可能なトランスフォーマーモデルである。 さらに,非対話エージェントに使用されるオブジェクト中心ナビゲーションモデルと言語誘導視覚タスク補完ベンチマークであるALFREDとのギャップを,EmBERTトレーニングのためのオブジェクトナビゲーションターゲットを導入することで埋める。 我々はALFREDベンチマークで競合性能を達成し、EmBERTはALFREDの長い水平・密度のマルチモーダル履歴を扱う最初のトランスフォーマーベースモデルであり、オブジェクト中心のナビゲーションターゲットを利用する最初のALFREDモデルである。

Language-guided robots performing home and office tasks must navigate in and interact with the world. Grounding language instructions against visual observations and actions to take in an environment is an open challenge. We present Embodied BERT (EmBERT), a transformer-based model which can attend to high-dimensional, multi-modal inputs across long temporal horizons for language-conditioned task completion. Additionally, we bridge the gap between successful object-centric navigation models used for non-interactive agents and the language-guided visual task completion benchmark, ALFRED, by introducing object navigation targets for EmBERT training. We achieve competitive performance on the ALFRED benchmark, and EmBERT marks the first transformer-based model to successfully handle the long-horizon, dense, multi-modal histories of ALFRED, and the first ALFRED model to utilize object-centric navigation targets.
翻訳日:2021-08-12 13:45:13 公開日:2021-08-10
# berthop : 胸部x線疾患診断に有効な視覚言語モデル

BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis ( http://arxiv.org/abs/2108.04938v1 )

ライセンス: Link先を確認
Masoud Monajatipoor, Mozhdeh Rouhsedaghat, Liunian Harold Li, Aichi Chien, C.-C. Jay Kuo, Fabien Scalzo, and Kai-Wei Chang(参考訳) vision-and-language( v&l)モデルは、画像とテキストを入力として、それらの間の関連をキャプチャする。 事前学習されたv&lモデルは、視覚質問応答(vqa)のような下流タスクのモデル性能を著しく向上させることができる。 しかしながら、V&Lモデルは、医療領域(例えば、X線画像や臨床ノート)で適用した場合、ドメインギャップのため、効果が低い。 本稿では,医療応用における事前学習型V&Lモデルの適用課題について検討する。 特に、一般的なV&Lモデルにおける視覚的表現は、医療データ処理には適さない。 この制限を克服するために,PixelHop++とVisualBERTをベースとしたトランスフォーマーモデルであるBERTHopを提案する。 一般に使用される胸部疾患診断のベンチマークであるOpenIデータセットの実験では、BERTHopは、9倍のデータセットでトレーニングされている間、最先端(SOTA)よりも1.62%高い98.12%の平均的な曲線下面積を達成している。

Vision-and-language( V&L) models take image and text as input and learn to capture the associations between them. Prior studies show that pre-trained V&L models can significantly improve the model performance for downstream tasks such as Visual Question Answering (VQA). However, V&L models are less effective when applied in the medical domain (e.g., on X-ray images and clinical notes) due to the domain gap. In this paper, we investigate the challenges of applying pre-trained V&L models in medical applications. In particular, we identify that the visual representation in general V&L models is not suitable for processing medical data. To overcome this limitation, we propose BERTHop, a transformer-based model based on PixelHop++ and VisualBERT, for better capturing the associations between the two modalities. Experiments on the OpenI dataset, a commonly used thoracic disease diagnosis benchmark, show that BERTHop achieves an average Area Under the Curve (AUC) of 98.12% which is 1.62% higher than state-of-the-art (SOTA) while it is trained on a 9 times smaller dataset.
翻訳日:2021-08-12 13:44:56 公開日:2021-08-10
# 有意グラフに対する自己教師付きコンセンサス表現学習

Self-supervised Consensus Representation Learning for Attributed Graph ( http://arxiv.org/abs/2108.04822v1 )

ライセンス: Link先を確認
Changshu Liu, Liangjian Wen, Zhao Kang, Guangchun Luo, Ling Tian(参考訳) 属性グラフのトポロジ構造とノード特徴の豊富な情報を十分に活用しようと,グラフ表現学習に自己教師付き学習機構を導入し,新しい自己教師型コンセンサス表現学習(SCRL)フレームワークを提案する。 1つのグラフのみを探索する既存のほとんどの作品とは対照的に、提案するscrl法は2つの視点からグラフを扱います。 我々は、それらの埋め込みはいくつかの共通の情報を共有するべきであると主張している。 具体的には,k-nearest近傍アルゴリズムを用いてノード特徴の特徴グラフを構築する。 グラフ畳み込みネットワーク(GCN)エンコーダは、2つのグラフからそれぞれ特徴を抽出する。 自己教師付き損失は、トポロジーグラフと特徴グラフにおける同一ノードの埋め込みの一致を最大化するように設計されている。 実引用ネットワークとソーシャルネットワークに関する広範囲な実験により,半教師付きノード分類タスクにおける最先端手法に対する提案のscrlの優位性が証明された。 一方、SCRLは主要なライバルと比べてかなり効率的だ。

Attempting to fully exploit the rich information of topological structure and node features for attributed graph, we introduce self-supervised learning mechanism to graph representation learning and propose a novel Self-supervised Consensus Representation Learning (SCRL) framework. In contrast to most existing works that only explore one graph, our proposed SCRL method treats graph from two perspectives: topology graph and feature graph. We argue that their embeddings should share some common information, which could serve as a supervisory signal. Specifically, we construct the feature graph of node features via k-nearest neighbor algorithm. Then graph convolutional network (GCN) encoders extract features from two graphs respectively. Self-supervised loss is designed to maximize the agreement of the embeddings of the same node in the topology graph and the feature graph. Extensive experiments on real citation networks and social networks demonstrate the superiority of our proposed SCRL over the state-of-the-art methods on semi-supervised node classification task. Meanwhile, compared with its main competitors, SCRL is rather efficient.
翻訳日:2021-08-12 13:44:34 公開日:2021-08-10
# オーラセンス:全表面近接検出によるロボット衝突回避

AuraSense: Robot Collision Avoidance by Full Surface Proximity Detection ( http://arxiv.org/abs/2108.04867v1 )

ライセンス: Link先を確認
Xiaoran Fan, Riley Simmons-Edler, Daewon Lee, Larry Jackel, Richard Howard, Daniel Lee(参考訳) 障害物の認識と衝突の回避は、特にロボットが非常にダイナミックな人間の環境で動作しなければならない場合、ロボットシステムの安全な動作に不可欠である。 ロボット搭載センサーを用いた近接検出は衝突の回避や緩和に使用できる。 しかし、既存の近接センシング手法は方向と配置に依存しており、多数のセンサでも盲点となる。 本稿では,新しいセンシングモダリティであるLaky Surface Wave(LSW)と,LSWを用いた近接検出システムであるAuraSenseを紹介する。 AuraSenseはロボットアームの非死点近接センシングを実現する最初のシステムである。 1組の圧電トランスデューサしか必要とせず、最小限の修正で市販のロボットにも容易に適用できる。 さらに,近接センシングにlswを使用する際のユニークな課題に対処するために,信号処理技術と軽量ニューラルネットワークについても紹介する。 最後に,ロボットマニピュレータ上に一対の圧電素子からなるプロトタイプシステムを試作し,その設計を検証した。 マイクロベンチマーク実験を行い,様々なロボットアーム材料,衝突物体,アプローチパターン,ロボット移動パターンを用いた2000以上のロボット近接検出実験を行った。 aurasenseは、アームが静的障害物と移動障害物に近づくと、100%と95.3%の正の近接検出率を達成し、99%以上の真の負の速度で、このシステムの現実の生存率を示している。

Perceiving obstacles and avoiding collisions is fundamental to the safe operation of a robot system, particularly when the robot must operate in highly dynamic human environments. Proximity detection using on-robot sensors can be used to avoid or mitigate impending collisions. However, existing proximity sensing methods are orientation and placement dependent, resulting in blind spots even with large numbers of sensors. In this paper, we introduce the phenomenon of the Leaky Surface Wave (LSW), a novel sensing modality, and present AuraSense, a proximity detection system using the LSW. AuraSense is the first system to realize no-dead-spot proximity sensing for robot arms. It requires only a single pair of piezoelectric transducers, and can easily be applied to off-the-shelf robots with minimal modifications. We further introduce a set of signal processing techniques and a lightweight neural network to address the unique challenges in using the LSW for proximity sensing. Finally, we demonstrate a prototype system consisting of a single piezoelectric element pair on a robot manipulator, which validates our design. We conducted several micro benchmark experiments and performed more than 2000 on-robot proximity detection trials with various potential robot arm materials, colliding objects, approach patterns, and robot movement patterns. AuraSense achieves 100% and 95.3% true positive proximity detection rates when the arm approaches static and mobile obstacles respectively, with a true negative rate over 99%, showing the real-world viability of this system.
翻訳日:2021-08-12 13:43:55 公開日:2021-08-10
# トランスフォーマーに基づく自然言語処理モデルを用いた肺癌患者の健康の社会的・行動的要因の検討

A Study of Social and Behavioral Determinants of Health in Lung Cancer Patients Using Transformers-based Natural Language Processing Models ( http://arxiv.org/abs/2108.04949v1 )

ライセンス: Link先を確認
Zehao Yu, Xi Yang, Chong Dang, Songzi Wu, Prakash Adekkanattu, Jyotishman Pathak, Thomas J. George, William R. Hogan, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 社会的および行動的健康決定因子(SBDoH)は、人々の健康を形作る上で重要な役割を担っている。 臨床研究、特に比較有効研究において、SBDoH因子の調整の失敗は、統計的分析と機械学習ベースのモデルにおいて、相反する問題と誤分類エラーを引き起こす可能性がある。 しかし、現在の電子健康記録(ehr)システムでは構造化されたsbdoh情報がないため、臨床結果のsbdoh因子を調べる研究は限られており、sbdoh情報の多くは臨床物語に記録されている。 したがって、自然言語処理(nlp)は、非構造化臨床テキストからそのような情報を抽出する重要な技術である。 しかし、SBDoHに焦点をあてた成熟した臨床NLPシステムはない。 本研究では,BERTとRoBERTaを含む2種類の最先端トランスフォーマーベースNLPモデルを用いて臨床物語からSBDoH概念を抽出し,肺がん検診患者コホート上でSBDoH概念を抽出するための最高の性能モデルを適用し,NLP抽出結果と構造化ERH(国際疾患分類法などの標準語彙でキャプチャされたSBDoH情報)の相違について検討した。 実験の結果, bert ベースの nlp モデルは 0.8791 と 0.8999 の f1-score が最適であった。 肺がん患者864名161,933名を対象に,NLP抽出SBDoH情報と構造化EHR情報との比較を行ったところ,喫煙,教育,雇用に関する詳細な情報は臨床物語にのみ収録され,臨床物語と構造化EHRの両方を用いて患者のSBDoH因子のより完全な画像を構築する必要があることが示唆された。

Social and behavioral determinants of health (SBDoH) have important roles in shaping people's health. In clinical research studies, especially comparative effectiveness studies, failure to adjust for SBDoH factors will potentially cause confounding issues and misclassification errors in either statistical analyses and machine learning-based models. However, there are limited studies to examine SBDoH factors in clinical outcomes due to the lack of structured SBDoH information in current electronic health record (EHR) systems, while much of the SBDoH information is documented in clinical narratives. Natural language processing (NLP) is thus the key technology to extract such information from unstructured clinical text. However, there is not a mature clinical NLP system focusing on SBDoH. In this study, we examined two state-of-the-art transformer-based NLP models, including BERT and RoBERTa, to extract SBDoH concepts from clinical narratives, applied the best performing model to extract SBDoH concepts on a lung cancer screening patient cohort, and examined the difference of SBDoH information between NLP extracted results and structured EHRs (SBDoH information captured in standard vocabularies such as the International Classification of Diseases codes). The experimental results show that the BERT-based NLP model achieved the best strict/lenient F1-score of 0.8791 and 0.8999, respectively. The comparison between NLP extracted SBDoH information and structured EHRs in the lung cancer patient cohort of 864 patients with 161,933 various types of clinical notes showed that much more detailed information about smoking, education, and employment were only captured in clinical narratives and that it is necessary to use both clinical narratives and structured EHRs to construct a more complete picture of patients' SBDoH factors.
翻訳日:2021-08-12 13:40:33 公開日:2021-08-10
# 表データに対する注意的特徴説明

Attention-like feature explanation for tabular data ( http://arxiv.org/abs/2108.04855v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) グラフデータによる機械学習によるブラックボックスモデル予測の局所的およびグローバル的説明法を提案する。 AFEX(Attention-like Feature Explanation)と呼ばれるシステムとして実装され、2つの主要な部分から構成される。 第1部は、形状関数の基底の形で全ての特徴の特定の表現を得ることを目的とした、一機能神経サブネットワークのセットである。 サブネットワークはネットワーク性能を改善するためにトレーニング可能なパラメータとショートカット接続を使用する。 AFEXの第2部は、注目機構を用いて重みが計算される基底形状関数の重み付け和として特徴の形状関数を生成する。 AFEXは、異なる特徴に対応する形状関数のペアワイズ乗算に基づいて、特徴間のペアワイズ相互作用を特定する。 ブラックボックスモデルに近似した追加の代理モデルを組み込んだAFEXの修正を提案する。 AFEXは、説明段階でニューラルネットワークを再びトレーニングする必要がなくなるように、データセット全体をエンドツーエンドにトレーニングする。 合成および実データによる数値実験はAFEXを例証する。

A new method for local and global explanation of the machine learning black-box model predictions by tabular data is proposed. It is implemented as a system called AFEX (Attention-like Feature EXplanation) and consisting of two main parts. The first part is a set of the one-feature neural subnetworks which aim to get a specific representation for every feature in the form of a basis of shape functions. The subnetworks use shortcut connections with trainable parameters to improve the network performance. The second part of AFEX produces shape functions of features as the weighted sum of the basis shape functions where weights are computed by using an attention-like mechanism. AFEX identifies pairwise interactions between features based on pairwise multiplications of shape functions corresponding to different features. A modification of AFEX with incorporating an additional surrogate model which approximates the black-box model is proposed. AFEX is trained end-to-end on a whole dataset only once such that it does not require to train neural networks again in the explanation stage. Numerical experiments with synthetic and real data illustrate AFEX.
翻訳日:2021-08-12 13:39:53 公開日:2021-08-10
# 線形複雑度を考慮した適応型マルチリゾリューションアテンション

Adaptive Multi-Resolution Attention with Linear Complexity ( http://arxiv.org/abs/2108.04962v1 )

ライセンス: Link先を確認
Yao Zhang, Yunpu Ma, Thomas Seidl, Volker Tresp(参考訳) トランスフォーマはシーケンスモデリングの様々なタスクで最先端の技術を改善した。 シークエンス長の2次計算とメモリの複雑さの他に、自己認識機構は情報のみを同じスケールで処理する、すなわちすべての注目ヘッドは同じ解像度であり、トランスフォーマーの限られたパワーをもたらす。 そこで本研究では,AdaMRA(Adaptive Multi-Resolution Attention, 略称AdaMRA)という,時間と空間の観点から線形に配列長にスケールする構造を提案する。 具体的には,マルチレゾリューション・マルチヘッド・アテンション機構を活用し,アテンションヘッドが広帯域の文脈情報を粗い方法で捉えられるようにした。 さらに,問合せ表現と異なる注意の手がかりとの潜在的な関係を捉えるために,問合せにどの注意分解能を使用するかという決定を下し,バニラトランスに比べてモデルのキャパシティがさらに向上する。 複雑さを減らすために、パフォーマンスを劣化させることなくカーネルの注意を払っています。 いくつかのベンチマークにおける広範囲な実験は、最先端のパフォーマンス・効率・メモリトレードオフを達成することによって、モデルの有効性と効率を実証する。 科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。

Transformers have improved the state-of-the-art across numerous tasks in sequence modeling. Besides the quadratic computational and memory complexity w.r.t the sequence length, the self-attention mechanism only processes information at the same scale, i.e., all attention heads are in the same resolution, resulting in the limited power of the Transformer. To remedy this, we propose a novel and efficient structure named Adaptive Multi-Resolution Attention (AdaMRA for short), which scales linearly to sequence length in terms of time and space. Specifically, we leverage a multi-resolution multi-head attention mechanism, enabling attention heads to capture long-range contextual information in a coarse-to-fine fashion. Moreover, to capture the potential relations between query representation and clues of different attention granularities, we leave the decision of which resolution of attention to use to query, which further improves the model's capacity compared to vanilla Transformer. In an effort to reduce complexity, we adopt kernel attention without degrading the performance. Extensive experiments on several benchmarks demonstrate the effectiveness and efficiency of our model by achieving a state-of-the-art performance-efficien cy-memory trade-off. To facilitate AdaMRA utilization by the scientific community, the code implementation will be made publicly available.
翻訳日:2021-08-12 13:39:37 公開日:2021-08-10
# 引退する大人: 公正な機械学習のための新しいデータセット

Retiring Adult: New Datasets for Fair Machine Learning ( http://arxiv.org/abs/2108.04884v1 )

ライセンス: Link先を確認
Frances Ding, Moritz Hardt, John Miller, Ludwig Schmidt(参考訳) 公正なコミュニティはデータの重要性を認識しているが、この領域の研究者は主に表データに関してUCIアダルトに依存している。 1994年の国勢調査から派生したこのデータセットは、何百もの研究論文に登場し、多くのアルゴリズム的公正な介入の開発と比較の基礎となった。 UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。 私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張するUS Censusの調査から得られた、一連の新しいデータセットです。 我々は、収入、雇用、健康、交通、住宅に関する予測タスクを作成します。 データは複数の年月と米国のすべての州にまたがっており、研究者は時間変化と地理的変動を研究することができる。 公平性の基準、アルゴリズムによる介入のパフォーマンス、新しいデータセットに基づく分散シフトの役割のトレードオフに関する、新たな経験的洞察の広範な初見を浮き彫りにします。 本研究は,現在進行中の議論,既存の物語への挑戦,今後の研究方向性を示唆するものである。 私たちのデータセットはhttps://github.com/z ykls/folktablesで利用可能です。

Although the fairness community has recognized the importance of data, researchers in the area primarily rely on UCI Adult when it comes to tabular data. Derived from a 1994 US Census survey, this dataset has appeared in hundreds of research papers where it served as the basis for the development and comparison of many algorithmic fairness interventions. We reconstruct a superset of the UCI Adult data from available US Census sources and reveal idiosyncrasies of the UCI Adult dataset that limit its external validity. Our primary contribution is a suite of new datasets derived from US Census surveys that extend the existing data ecosystem for research on fair machine learning. We create prediction tasks relating to income, employment, health, transportation, and housing. The data span multiple years and all states of the United States, allowing researchers to study temporal shift and geographic variation. We highlight a broad initial sweep of new empirical insights relating to trade-offs between fairness criteria, performance of algorithmic interventions, and the role of distribution shift based on our new datasets. Our findings inform ongoing debates, challenge some existing narratives, and point to future research directions. Our datasets are available at https://github.com/z ykls/folktables.
翻訳日:2021-08-12 13:39:15 公開日:2021-08-10
# 2層ニューラルネットワークの線形近似性:スペクトル減衰に基づく包括的解析

Linear approximability of two-layer neural networks: A comprehensive analysis based on spectral decay ( http://arxiv.org/abs/2108.04964v1 )

ライセンス: Link先を確認
Jihao Long, Lei Wu(参考訳) 本稿では,2層ニューラルネットワークの線形近似をスペクトルベースで研究する。 まず、単一ニューロンの場合について考察し、コルモゴロフ幅で定量化される線形近似性は、共役核の固有値崩壊によって制御されることを示す。 そして、同様の結果が2層ニューラルネットワークにも当てはまることを示す。 このスペクトルに基づくアプローチにより、上界、下界、および明示的な硬実例を統一的に得ることができる。 特に、これらの境界は滑らかな関数によって活性化されるネットワークに対して、内層重みのノルムを制限することは表現性を著しく損なう可能性を示唆している。 対照的に、ReLUのような非滑らかな活性化関数では、ネットワーク表現性は内層重みノルムとは独立である。 さらに、reluを含む非スムース活性化関数の族に対して、ランダムな特徴を持つ任意のニューロンを近似させることは、次元の補題である \emph{curse} に苦しむことを証明する。 これにより、ニューラルネットワークとランダム特徴モデル間の表現性が明確に分離される。

In this paper, we present a spectral-based approach to study the linear approximation of two-layer neural networks. We first consider the case of single neuron and show that the linear approximability, quantified by the Kolmogorov width, is controlled by the eigenvalue decay of an associate kernel. Then, we show that similar results also hold for two-layer neural networks. This spectral-based approach allows us to obtain upper bounds, lower bounds, and explicit hard examples in a united manner. In particular, these bounds imply that for networks activated by smooth functions, restricting the norms of inner-layer weights may significantly impair the expressiveness. By contrast, for non-smooth activation functions, such as ReLU, the network expressiveness is independent of the inner-layer weight norms. In addition, we prove that for a family of non-smooth activation functions, including ReLU, approximating any single neuron with random features suffers from the \emph{curse of dimensionality}. This provides an explicit separation of expressiveness between neural networks and random feature models.
翻訳日:2021-08-12 13:38:55 公開日:2021-08-10
# 自己教師付き学習は, きめ細かい頭部ポーズ推定にどのように役立つか?

How Self-Supervised Learning Can be Used for Fine-Grained Head Pose Estimation? ( http://arxiv.org/abs/2108.04893v1 )

ライセンス: Link先を確認
Mahdi pourmirzaei and gholam ali montazer and farzaneh esmaili(参考訳) 自己監視学習(SSL)の最近の進歩は、コンピュータビジョン分野におけるこれらの手法の能力を示している。 しかし、この進歩は、ヘッドポーズ推定のようなきめ細かいタスクの約束を示さなかった。 SSLはどのようにしてヘッドポーズ推定に使えるのか? 一般的にsslを使うための主なアプローチは2つある。 トレーニング済みのウェイトを使用することで、ImageNetでの事前トレーニングやSSLタスクで実行できる。 2. SSLをスーパーバイザードラーニング(SL)タスクに加えて、補助的なコトレーニングタスクとして活用する。 本研究では,sslプリテキストタスクとしてjigsaw puzzlingとローテーションの修正版を使用し,提案するハイブリッドマルチタスク学習 (hmtl) のための最善のアーキテクチャを見いだした。 最後に、ベースラインとしてHopeNet法を選択し、HMTLとSLの両方でSSL事前トレーニングとImageNet事前トレーニングの影響を比較した。 htmlメソッドによるエラー率は11%まで減少し、slと比較した。 さらにhmtl法では,ランダム,イメージネット,sslプリトレーニングウェイトなど,すべての初期重み付けが良好であった。 また,パズル画像を用いた場合,局所的な空間的特徴の重要性を示すSLとHMTLの平均誤差率をグローバルな空間的特徴と比較した。

Recent progress of Self-Supervised Learning (SSL) demonstrates the capability of these methods in computer vision field. However, this progress could not show any promises for fine-grained tasks such as Head Pose estimation. In this article, we have tried to answer a question: How SSL can be used for Head Pose estimation? In general, there are two main approaches to use SSL: 1. Using pre-trained weights which can be done via weights pre-training on ImageNet or via SSL tasks. 2. Leveraging SSL as an auxiliary co-training task besides of Supervised Learning (SL) tasks at the same time. In this study, modified versions of jigsaw puzzling and rotation as SSL pre-text tasks are used and the best architecture for our proposed Hybrid Multi-Task Learning (HMTL) is found. Finally, the HopeNet method as a baseline is selected and the impact of SSL pre-training and ImageNet pre-training on both HMTL and SL are compared. The error rate reduced by the HTML method up to 11% compare to the SL. Moreover, HMTL method showed that it was good with all kinds of initial weights: random, ImageNet and SSL pre-training weights. Also, it was observed, when puzzled images are used for SL alone, the average error rate placed between SL and HMTL which showed the importance of local spatial features compare to global spatial features.
翻訳日:2021-08-12 13:38:36 公開日:2021-08-10
# 合成画像再構成のための画像ベースジェネレータアーキテクチャ

An Image-based Generator Architecture for Synthetic Image Refinement ( http://arxiv.org/abs/2108.04957v1 )

ライセンス: Link先を確認
Alex Nasser(参考訳) 提案手法は, 境界平衡生成型逆ネットワークのための代替生成回路アーキテクチャであり, 逆学習によるシミュレーション画像および教師なし画像からの学習に動機づけられている。 ノイズベースの潜在空間の必要性を解消する。 生成装置は主に精製ネットワークとして動作し、与えられた合成画像の写実的な表示を得る。 また、ノイズ注入の必要性を排除し、イメージベースの概念に置き換えることで、潜在空間の未理解の性質を解決しようとする。 新しいフレキシブルでシンプルなジェネレータアーキテクチャは、制限的な洗練と表現力のトレードオフを制御する力も与えます。 他の利用可能な方法とは異なり、このアーキテクチャはトレーニングフェーズのために実画像と合成画像のペアまたはペアのデータセットを必要としない。 実際の画像の比較的小さなセットだけで十分だ。

Proposed are alternative generator architectures for Boundary Equilibrium Generative Adversarial Networks, motivated by Learning from Simulated and Unsupervised Images through Adversarial Training. It disentangles the need for a noise-based latent space. The generator will operate mainly as a refiner network to gain a photo-realistic presentation of the given synthetic images. It also attempts to resolve the latent space's poorly understood properties by eliminating the need for noise injection and replacing it with an image-based concept. The new flexible and simple generator architecture will also give the power to control the trade-off between restrictive refinement and expressiveness ability. Contrary to other available methods, this architecture will not require a paired or unpaired dataset of real and synthetic images for the training phase. Only a relatively small set of real images would suffice.
翻訳日:2021-08-12 13:38:14 公開日:2021-08-10
# 環境平均治療効果」(cate)と「個人的治療効果」(ite)の区別について

On the Distinction Between "Conditional Average Treatment Effects" (CATE) and "Individual Treatment Effects" (ITE) Under Ignorability Assumptions ( http://arxiv.org/abs/2108.04939v1 )

ライセンス: Link先を確認
Brian G. Vegetabile(参考訳) 近年,「個人的治療効果」の推定に焦点をあてる手法が急増している。 これらの方法は、しばしば無知な仮定の下での不均一な処理効果の推定に焦点が当てられる。 本稿は,無知な仮定の下では必ずしも「個人的」な効果は存在せず,個々の効果を孤立させるには追加的な仮定が必要であるという事実に注目することを目的とする。 このような個々の効果は、多くの場合、より正確には「条件平均治療効果」と説明され、両者の混同はパーソナライズされた個人化された効果推定の進歩を妨げる可能性がある。

Recent years have seen a swell in methods that focus on estimating "individual treatment effects". These methods are often focused on the estimation of heterogeneous treatment effects under ignorability assumptions. This paper hopes to draw attention to the fact that there is nothing necessarily "individual" about such effects under ignorability assumptions and isolating individual effects may require additional assumptions. Such individual effects, more often than not, are more precisely described as "conditional average treatment effects" and confusion between the two has the potential to hinder advances in personalized and individualized effect estimation.
翻訳日:2021-08-12 13:36:29 公開日:2021-08-10
# 医用ビジョンタスクの究極的ベネフィットのためのMRIアンサンプパターン

Optimal MRI Undersampling Patterns for Ultimate Benefit of Medical Vision Tasks ( http://arxiv.org/abs/2108.04914v1 )

ライセンス: Link先を確認
Artem Razumov, Oleg Y. Rogov, Dmitry V. Dylov(参考訳) MRIを高速化するために、圧縮センシングの分野は従来、測定可能な$\textit{k}$-spaceの部分アンサンプ後の画質の最適化に関係している。 本研究では,再構成画像の品質から下流画像解析結果の品質に焦点を移すことを提案する。 具体的には,再建画像中の病理所見の検出や局所化の程度に応じて,そのパターンを最適化することを提案する。 共通の医療的視覚問題(再構築、セグメンテーション、分類)に関心のある対象値関数を最大化する$\textit{k}$-spaceの最適なアンダーサンプリングパターンを見つけ、これらのタスクに普遍的に適した新しい反復的勾配サンプリングルーチンを提案する。 提案したMRIアクセラレーションパラダイムを3つの古典的医療データセット上で検証し,高いアクセラレーション係数における目標指標の顕著な改善を示す($\times$16アクセラレーションにおけるセグメンテーション問題については,他のアンダーサンプリングパターンよりも最大12%改善したことを報告した)。

To accelerate MRI, the field of compressed sensing is traditionally concerned with optimizing the image quality after a partial undersampling of the measurable $\textit{k}$-space. In our work, we propose to change the focus from the quality of the reconstructed image to the quality of the downstream image analysis outcome. Specifically, we propose to optimize the patterns according to how well a sought-after pathology could be detected or localized in the reconstructed images. We find the optimal undersampling patterns in $\textit{k}$-space that maximize target value functions of interest in commonplace medical vision problems (reconstruction, segmentation, and classification) and propose a new iterative gradient sampling routine universally suitable for these tasks. We validate the proposed MRI acceleration paradigm on three classical medical datasets, demonstrating a noticeable improvement of the target metrics at the high acceleration factors (for the segmentation problem at $\times$16 acceleration, we report up to 12% improvement in Dice score over the other undersampling patterns).
翻訳日:2021-08-12 13:33:39 公開日:2021-08-10
# 1級地方無秩序登録

First Order Locally Orderless Registration ( http://arxiv.org/abs/2108.04926v1 )

ライセンス: Link先を確認
Sune Darkner and Jose D Tascon and Francois Lauze(参考訳) first order local orderless registration (flor) は画像の類似性を定義するのに使われる画像密度推定のためのスケールスペースフレームワークである。 Locally Orderless Registrationフレームワークは、原則としてゼロ階情報を使用し、画像スケール、強度スケール、統合スケールの3つのスケールで画像密度推定を提供するように設計されている。 我々はこれを拡張して、一階情報を考慮し、高階情報をヒントにします。 標準類似度尺度がフレームワークにどのように拡張されるかを示す。 特に、正方形差分(SSD)と正規化相互相関(NCC)について検討するが、正規化相互情報(NMI)をどのように含めるかの理論を提示する。

First Order Locally Orderless Registration (FLOR) is a scale-space framework for image density estimation used for defining image similarity, mainly for Image Registration. The Locally Orderless Registration framework was designed in principle to use zeroth-order information, providing image density estimates over three scales: image scale, intensity scale, and integration scale. We extend it to take first-order information into account and hint at higher-order information. We show how standard similarity measures extend into the framework. We study especially Sum of Squared Differences (SSD) and Normalized Cross-Correlation (NCC) but present the theory of how Normalised Mutual Information (NMI) can be included.
翻訳日:2021-08-12 13:33:18 公開日:2021-08-10
# 例によるODE2VAEの解析

Analysis of ODE2VAE with Examples ( http://arxiv.org/abs/2108.04899v1 )

ライセンス: Link先を確認
Batuhan Koyuncu(参考訳) 深層生成モデルは観測データを生成する基盤となる分布を学習することを目的としている。 生成分布が複雑で難解であるという事実を考えると、深潜変数モデルは確率的枠組みを用いて、データとその低次元隠れ変数に対するより表現力のある合同確率分布を学ぶ。 教師なしのシーケンシャルデータ上で複雑な確率分布を学習することは、深層生成モデルにとって難しい課題である。 正規微分方程式変分オートエンコーダ(ODE2VAE)は,高次元逐次データとその低次元表現上の複素分布の学習を目的とした潜時変分モデルである。 ODE2VAEは低次元階層型潜在空間における高次元入力の連続潜時ダイナミクスを推論する。 連続潜在空間の階層構造は、モデルに物理誘導帰納バイアスを埋め込む。 本稿では,ode2vaeモデルで推定される潜時表現を,バウンシングボール,投射運動,単純な振り子という3種類の物理運動データセット上で解析する。 実験を通して, 学習された動的潜在表現に対するODE2VAEモデルの物理誘導帰納バイアスの影響について検討した。 モデルが有意義な潜在表現をある程度学習できることを,何の監督もせずに示す。

Deep generative models aim to learn underlying distributions that generate the observed data. Given the fact that the generative distribution may be complex and intractable, deep latent variable models use probabilistic frameworks to learn more expressive joint probability distributions over the data and their low-dimensional hidden variables. Learning complex probability distributions over sequential data without any supervision is a difficult task for deep generative models. Ordinary Differential Equation Variational Auto-Encoder (ODE2VAE) is a deep latent variable model that aims to learn complex distributions over high-dimensional sequential data and their low-dimensional representations. ODE2VAE infers continuous latent dynamics of the high-dimensional input in a low-dimensional hierarchical latent space. The hierarchical organization of the continuous latent space embeds a physics-guided inductive bias in the model. In this paper, we analyze the latent representations inferred by the ODE2VAE model over three different physical motion datasets: bouncing balls, projectile motion, and simple pendulum. Through our experiments, we explore the effects of the physics-guided inductive bias of the ODE2VAE model over the learned dynamical latent representations. We show that the model is able to learn meaningful latent representations to an extent without any supervision.
翻訳日:2021-08-12 13:24:22 公開日:2021-08-10
# 献血のためのマッチングアルゴリズム

Matching Algorithms for Blood Donation ( http://arxiv.org/abs/2108.04862v1 )

ライセンス: Link先を確認
Duncan C McElfresh, Christian Kroer, Sergey Pupyrev, Eric Sodomka, Karthik Sankararaman, Zack Chauvin, Neil Dexter, John P Dickerson(参考訳) 献血された血液の世界的な需要は供給をはるかに超えており、低所得国や中所得国では不均一な需要が最も大きい。 facebookの献血ツールを使用して、献血機会と献血者の大規模なマッチングを行う。 実際の寄付率の測定は依然として課題であるが、実際の寄付の代理として寄付者行動(寄付者指名など)を測定する。 我々は、オンラインマッチングモデルに基づいて、患者とドナーのマッチングのための自動ポリシーを開発する。 我々は,これらの政策について,期待される献金数と血液受給者の公平な処置に関する理論的保証を提供する。 シミュレーションでは、単純なマッチング戦略が寄付数を5~10%増加させ、実寄付者によるパイロット実験ではドナーの行動率(3.7%から3.9%)が5%上昇している。 グローバルな献血ツールのユーザーベースにスケールすると、約10万人のユーザーが寄付に向けて行動している。 さらに、ソーシャルネットワーク上でのドナー行動の観察は、ドナーの行動やインセンティブに対する反応に光を当てることができる。 ドナー行動に関する医学・社会科学文献におけるいくつかの知見と一致した。

Global demand for donated blood far exceeds supply, and unmet need is greatest in low- and middle-income countries; experts suggest that large-scale coordination is necessary to alleviate demand. Using the Facebook Blood Donation tool, we conduct the first large-scale algorithmic matching of blood donors with donation opportunities. While measuring actual donation rates remains a challenge, we measure donor action (e.g., making a donation appointment) as a proxy for actual donation. We develop automated policies for matching patients and donors, based on an online matching model. We provide theoretical guarantees for these policies, both regarding the number of expected donations and the equitable treatment of blood recipients. In simulations, a simple matching strategy increases the number of donations by 5-10%; a pilot experiment with real donors shows a 5% relative increase in donor action rate (from 3.7% to 3.9%). When scaled to the global Blood Donation tool user base, this corresponds to an increase of around one hundred thousand users taking action toward donation. Further, observing donor action on a social network can shed light onto donor behavior and response to incentives. Our initial findings align with several observations made in the medical and social science literature regarding donor behavior.
翻訳日:2021-08-12 13:22:05 公開日:2021-08-10
# 知識に基づく安定ルームメイト問題 : 実世界のアプリケーション

Knowledge-Based Stable Roommates Problem: A Real-World Application ( http://arxiv.org/abs/2108.04940v1 )

ライセンス: Link先を確認
Muge Fidan, Esra Erdem(参考訳) 安定ルームメイト問題 (Stable Roommates problem with Ties and Incomplete list, SRTI) は、ルームメイトとして他のエージェントよりもエージェントを優先することが特徴である。 SRTIは安定であり、時にはドメインに依存しない公正基準(例えば平等主義)を最適化するマッチングを求める。 しかし、現実世界のアプリケーション(例えば学生を寮のルームメイトに割り当てるなど)では、エージェントの習慣や欲求に対する好みに応じて、さまざまなドメイン固有の基準が考慮される。 そこで本研究では,srtiにドメイン固有の知識を考慮した知識ベース手法を導入し,学生を学生寮のルームメイトに割り当てるための実世界応用について検討する。 本稿では,論理プログラミングの理論と実践(TPLP)の受容について検討する。

The Stable Roommates problem with Ties and Incomplete lists (SRTI) is a matching problem characterized by the preferences of agents over other agents as roommates, where the preferences may have ties or be incomplete. SRTI asks for a matching that is stable and, sometimes, optimizes a domain-independent fairness criterion (e.g., Egalitarian). However, in real-world applications (e.g., assigning students as roommates at a dormitory), we usually consider a variety of domain-specific criteria depending on preferences over the habits and desires of the agents. With this motivation, we introduce a knowledge-based method to SRTI considering domain-specific knowledge, and investigate its real-world application for assigning students as roommates at a university dormitory. This paper is under consideration for acceptance in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-08-12 13:19:36 公開日:2021-08-10
# タンパク質リン酸化サイト予測のための機械学習技術の概要

A Brief Review of Machine Learning Techniques for Protein Phosphorylation Sites Prediction ( http://arxiv.org/abs/2108.04951v1 )

ライセンス: Link先を確認
Farzaneh Esmaili, Mahdi Pourmirzaei, Shahin Ramazi, Elham Yavari(参考訳) 可逆的翻訳後修飾 (Reversible Post-Translational Modifications, PTMs) はタンパク質の機能的多様性を拡大し、真核生物や真核生物のタンパク質機能の調節に重要な役割を果たす。 PTMは、様々な細胞プロセスを制御するために利用される重要な分子制御機構として発生してきた。 しかしながら、最もよく研究されているPTMのうち、主にタンパク質の種類はリン酸化を含み、多くの生物学的プロセスにおいて重要な役割を担っている。 この修飾の障害は、神経疾患やがんを含む複数の疾患によって引き起こされる。 したがって、未キャラクタリゼーションアミノ酸配列における標的残基のリン酸化を予測する必要がある。 リン酸化を予測するためのほとんどの実験技術は、時間消費、コスト、エラーが発生しやすい。 ところで、これらの手法は計算手法に取って代わられた。 近年、大量のリン酸化データが多くのオンラインデータベースから公開されている。 本研究では,まず,リン酸化部位 (p-sites) を含むPTMの全データセットを網羅的にレビューした。 さらに,機械学習によるリン酸化予測には,基本的に2つの主要なアプローチがあることを示した。 私たちは両者の概要を説明した。 また,従来の機械学習手法を中心に,重要な特徴抽出手法を15種類導入した。

Reversible Post-Translational Modifications (PTMs) have vital roles in extending the functional diversity of proteins and effect meaningfully the regulation of protein functions in prokaryotic and eukaryotic organisms. PTMs have happened as crucial molecular regulatory mechanisms that are utilized to regulate diverse cellular processes. Nevertheless, among the most well-studied PTMs can say mainly types of proteins are containing phosphorylation and significant roles in many biological processes. Disorder in this modification can be caused by multiple diseases including neurological disorders and cancers. Therefore, it is necessary to predict the phosphorylation of target residues in an uncharacterized amino acid sequence. Most experimental techniques for predicting phosphorylation are time-consuming, costly, and error-prone. By the way, computational methods have replaced these techniques. These days, a vast amount of phosphorylation data is publicly accessible through many online databases. In this study, at first, all datasets of PTMs that include phosphorylation sites (p-sites) were comprehensively reviewed. Furthermore, we showed that there are basically two main approaches for phosphorylation prediction by machine learning: End-to-End and conventional. We gave an overview for both of them. Also, we introduced 15 important feature extraction techniques which mostly have been used for conventional machine learning methods
翻訳日:2021-08-12 13:18:39 公開日:2021-08-10
# 高温ギブス状態からの量子ハミルトンの最適学習

Optimal learning of quantum Hamiltonians from high-temperature Gibbs states ( http://arxiv.org/abs/2108.04842v1 )

ライセンス: Link先を確認
Jeongwan Haah, Robin Kothari, Ewin Tang(参考訳) 我々は、ハミルトニアン$H$を精度良く学習する問題を研究し、そのギブス状態 $\rho=\exp(-\beta H)/\operatorname{Tr}(\exp(-\beta H))$ のコピーを既知の逆温度 $\beta$ で与えられる。 Anshu, Arunachalam, Kuwahara, and Soleimanifar (Nature Physics, 2021) は、幾何学的に局所的な$N$-qubit Hamiltonianに対してこの問題のサンプル複雑性($$\rho$のコピーの数)を研究した。 高温(低い$\beta$)では、それらのアルゴリズムはポリ(N, 1/\beta,1/\varepsilo n)$のサンプル複雑性を持ち、多項式で実装できるが、最適でない時間複雑性を持つ。 本稿では、より一般的なハミルトンのクラスについて、同様の質問を考察する。 我々は、サンプル複雑性$S = O(\log N/(\beta\varepsilon) ^{2})$と時間複雑性をサンプルサイズで線形に、$O(S N)$で誤りを犯すハミルトニアンの係数を学習する方法を示す。 さらに,アルゴリズムのサンプル複雑性が最適であることを示し,時間複雑性も最適であることを示す。 付録では、ほぼ同じアルゴリズムを用いて、実時間進化単位の$e^{-it H}$から、類似のサンプルと時間複雑性を持つ小さな$t$レジームで$H$を学習できることが示されている。

We study the problem of learning a Hamiltonian $H$ to precision $\varepsilon$, supposing we are given copies of its Gibbs state $\rho=\exp(-\beta H)/\operatorname{Tr}(\exp(-\beta H))$ at a known inverse temperature $\beta$. Anshu, Arunachalam, Kuwahara, and Soleimanifar (Nature Physics, 2021) recently studied the sample complexity (number of copies of $\rho$ needed) of this problem for geometrically local $N$-qubit Hamiltonians. In the high-temperature (low $\beta$) regime, their algorithm has sample complexity poly$(N, 1/\beta,1/\varepsilo n)$ and can be implemented with polynomial, but suboptimal, time complexity. In this paper, we study the same question for a more general class of Hamiltonians. We show how to learn the coefficients of a Hamiltonian to error $\varepsilon$ with sample complexity $S = O(\log N/(\beta\varepsilon) ^{2})$ and time complexity linear in the sample size, $O(S N)$. Furthermore, we prove a matching lower bound showing that our algorithm's sample complexity is optimal, and hence our time complexity is also optimal. In the appendix, we show that virtually the same algorithm can be used to learn $H$ from a real-time evolution unitary $e^{-it H}$ in a small $t$ regime with similar sample and time complexity.
翻訳日:2021-08-12 13:16:12 公開日:2021-08-10
# 結合に対処する因果順序の識別:バイナリ変数

Causal Order Identification to Address Confounding: Binary Variables ( http://arxiv.org/abs/2108.04947v1 )

ライセンス: Link先を確認
Joe Suzuki and Yusuke Inaoka(参考訳) 本稿では,線形非ガウス非巡回モデル(lingam)の拡張について検討し,ノイズを含む一組の線形方程式によって表される変数がデータセットから変数間の因果順序を決定する。 特に、変数がバイナリであると仮定します。 既存のLiNGAMは、実際には制限のある欠点はないと仮定している。 本稿では,独立成分分析(ica)の概念に基づき,雑音間の相互情報を最小限にする拡張枠組みを提案する。 もう一つの重要な貢献は、最短経路問題の実現を減らすことである。 各一対のノード間の距離は関連する相互情報値を表し、最小和(kl発散)のパスを求める。 相互情報値を比較する必要があるが, コンバウンドが存在しない場合, 本論文は計算量を劇的に削減する。 提案アルゴリズムはグローバルな最適解を求めるが,既存のアルゴリズムは仮説テストに基づく順序を求める。 相互情報推定のための独立性を正確に検出するベイズ/mdlの意味で最高の推定器を用いる。 人工的および実データを用いた実験により,提案したLiNGAMは,特にコンバウンディングが存在する場合,性能が著しく向上することが示された。

This paper considers an extension of the linear non-Gaussian acyclic model (LiNGAM) that determines the causal order among variables from a dataset when the variables are expressed by a set of linear equations, including noise. In particular, we assume that the variables are binary. The existing LiNGAM assumes that no confounding is present, which is restrictive in practice. Based on the concept of independent component analysis (ICA), this paper proposes an extended framework in which the mutual information among the noises is minimized. Another significant contribution is to reduce the realization of the shortest path problem. The distance between each pair of nodes expresses an associated mutual information value, and the path with the minimum sum (KL divergence) is sought. Although $p!$ mutual information values should be compared, this paper dramatically reduces the computation when no confounding is present. The proposed algorithm finds the globally optimal solution, while the existing locally greedily seek the order based on hypothesis testing. We use the best estimator in the sense of Bayes/MDL that correctly detects independence for mutual information estimation. Experiments using artificial and actual data show that the proposed version of LiNGAM achieves significantly better performance, particularly when confounding is present.
翻訳日:2021-08-12 13:15:41 公開日:2021-08-10
# (参考訳) 多言語社会イベント検出のための知識蒸留 [全文訳有]

Transferring Knowledge Distillation for Multilingual Social Event Detection ( http://arxiv.org/abs/2108.03084v2 )

ライセンス: CC BY 4.0
Jiaqian Ren and Hao Peng and Lei Jiang and Jia Wu and Yongxin Tong and Lihong Wang and Xu Bai and Bo Wang and Qiang Yang(参考訳) 最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。 しかし、ほとんどの研究は、豊富なトレーニングサンプルを持つ言語における単言語データに向けられている。 これは、より一般的な多言語設定と、比較的未熟な話し言葉を残している。 本稿では,多言語データストリームにおけるイベント検出のための言語間埋め込みを組み込んだgnnを提案する。 最初のエクスプロイトは、GNNを多言語データで動作させることである。 このために、ノードレベルとセマンティックレベルの両方で異なる言語でメッセージを整列する構築戦略を概説する。 メッセージ間の関係は、同一だが異なる言語で参照されるエンティティをマージすることによって確立される。 非英語のメッセージ表現は、言語間埋め込みによって英語意味空間に変換される。 得られたメッセージグラフは、GNNモデルによって一様に符号化される。 より少ない言語を検出する必要がある特別な場合、CLKDと呼ばれる新しい言語間知識蒸留フレームワークは、英語の類似スレッドから学んだ事前知識を活用して、注釈付きデータの曖昧さを補う。 合成データと実世界のデータセットの両方の実験により、このフレームワークは多言語データとトレーニングサンプルが不足している言語の両方で検出に非常に効果的であることが示されている。

Recently published graph neural networks (GNNs) show promising performance at social event detection tasks. However, most studies are oriented toward monolingual data in languages with abundant training samples. This has left the more common multilingual settings and lesser-spoken languages relatively unexplored. Thus, we present a GNN that incorporates cross-lingual word embeddings for detecting events in multilingual data streams. The first exploit is to make the GNN work with multilingual data. For this, we outline a construction strategy that aligns messages in different languages at both the node and semantic levels. Relationships between messages are established by merging entities that are the same but are referred to in different languages. Non-English message representations are converted into English semantic space via the cross-lingual word embeddings. The resulting message graph is then uniformly encoded by a GNN model. In special cases where a lesser-spoken language needs to be detected, a novel cross-lingual knowledge distillation framework, called CLKD, exploits prior knowledge learned from similar threads in English to make up for the paucity of annotated data. Experiments on both synthetic and real-world datasets show the framework to be highly effective at detection in both multilingual data and in languages where training samples are scarce.
翻訳日:2021-08-12 06:35:36 公開日:2021-08-10
# (参考訳) igibson 2.0: 日常生活タスクのロボット学習のためのオブジェクト中心シミュレーション [全文訳有]

IGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks ( http://arxiv.org/abs/2108.03272v2 )

ライセンス: CC BY 4.0
Chengshu Li, Fei Xia, Roberto Mart\'in-Mart\'in, Michael Lingelbach, Sanjana Srivastava, Bokui Shen, Kent Vainio, Cem Gokmen, Gokul Dharan, Tanish Jain, Andrey Kurenkov, C. Karen Liu, Hyowon Gweon, Jiajun Wu, Li Fei-Fei, Silvio Savarese(参考訳) 近年,ロボット学習手法の開発と訓練にシミュレーション環境を用いることで,AIの具体化に関する最近の研究が進められている。 しかし、シミュレーションの使用は、ロボットシミュレーターがシミュレートできるもの(モーションと物理的接触)だけを必要とするタスクに注意を向けている。 提案するiGibson 2.0は,3つの重要なイノベーションを通じて,より多様な家庭用タスクのシミュレーションを支援する,オープンソースのシミュレーション環境である。 まず、iGibson 2.0は、温度、湿性レベル、清潔度レベル、および幅広いタスクをカバーするために必要なトグルおよびスライス状態を含むオブジェクト状態をサポートする。 第2に、iGibson 2.0は述語論理関数のセットを実装し、シミュレータ状態をCookedやSoakedのような論理状態にマッピングする。 さらに、論理状態が与えられた場合、iGibson 2.0はそれを満たす有効な物理状態をサンプリングすることができる。 この機能は、ユーザから最小限の労力で、潜在的に無限のタスクインスタンスを生成することができる。 サンプリング機構により、シーンは意味的に意味のある場所にある小さなオブジェクトでより密集している。 第3に、iGibson 2.0にはバーチャルリアリティ(VR)インターフェースがあり、人間をシーンに浸してデモを収集する。 その結果,人間による新しいタスクのデモを収集し,模倣学習に利用することができる。 igibson 2.0の新たな能力を評価して,新しいタスクのロボット学習を可能にし,具体化aiにおける新たな研究を支援する新たなシミュレータの可能性を示すことを期待する。 iGibson 2.0とその新しいデータセットはhttp://svl.stanford. edu/igibson/で公開される。

Recent research in embodied AI has been boosted by the use of simulation environments to develop and train robot learning approaches. However, the use of simulation has skewed the attention to tasks that only require what robotics simulators can simulate: motion and physical contact. We present iGibson 2.0, an open-source simulation environment that supports the simulation of a more diverse set of household tasks through three key innovations. First, iGibson 2.0 supports object states, including temperature, wetness level, cleanliness level, and toggled and sliced states, necessary to cover a wider range of tasks. Second, iGibson 2.0 implements a set of predicate logic functions that map the simulator states to logic states like Cooked or Soaked. Additionally, given a logic state, iGibson 2.0 can sample valid physical states that satisfy it. This functionality can generate potentially infinite instances of tasks with minimal effort from the users. The sampling mechanism allows our scenes to be more densely populated with small objects in semantically meaningful locations. Third, iGibson 2.0 includes a virtual reality (VR) interface to immerse humans in its scenes to collect demonstrations. As a result, we can collect demonstrations from humans on these new types of tasks, and use them for imitation learning. We evaluate the new capabilities of iGibson 2.0 to enable robot learning of novel tasks, in the hope of demonstrating the potential of this new simulator to support new research in embodied AI. iGibson 2.0 and its new dataset will be publicly available at http://svl.stanford. edu/igibson/.
翻訳日:2021-08-12 05:53:49 公開日:2021-08-10
# (参考訳) 微分可能なNASにおけるアーキテクチャ選択の再考 [全文訳有]

Rethinking Architecture Selection in Differentiable NAS ( http://arxiv.org/abs/2108.04392v1 )

ライセンス: CC BY 4.0
Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, Cho-Jui Hsieh(参考訳) 微分可能なニューラルアーキテクチャ探索(英: differentiable neural architecture search)は、最も一般的なニューラルアーキテクチャ探索(nas)手法の1つで、モデル重みとアーキテクチャパラメータをグラデーションベースのアルゴリズムによる重み付けスーパーネットで共同で最適化することによって達成される。 探索フェーズの最後には、アーキテクチャパラメータの値が演算強度を反映しているという暗黙の仮定で、最大のアーキテクチャパラメータを持つ操作が最終アーキテクチャを形成するために選択される。 スーパーネットの最適化について多くの議論がなされているが、アーキテクチャの選択プロセスはほとんど注目されていない。 アーキテクチャパラメータの規模が必ずしもその操作がスーパーネットの性能にどの程度貢献するかを示すものではないことを示す実証的および理論的分析を提供する。 スーパーネットに対する各操作の影響を直接測定する代替の摂動ベースのアーキテクチャ選択を提案する。 提案したアーキテクチャ選択により、いくつかの異なるNAS手法を再評価し、基盤となるスーパーネットから大幅に改良されたアーキテクチャを一貫して抽出できることを見出した。 さらに,提案手法では複数のdartの障害モードが大幅に緩和され,dartで観測される貧弱な一般化の多くはスーパーネットの最適化ではなく,マグニチュードベースのアーキテクチャ選択の失敗に起因していることが示唆された。

Differentiable Neural Architecture Search is one of the most popular Neural Architecture Search (NAS) methods for its search efficiency and simplicity, accomplished by jointly optimizing the model weight and architecture parameters in a weight-sharing supernet via gradient-based algorithms. At the end of the search phase, the operations with the largest architecture parameters will be selected to form the final architecture, with the implicit assumption that the values of architecture parameters reflect the operation strength. While much has been discussed about the supernet's optimization, the architecture selection process has received little attention. We provide empirical and theoretical analysis to show that the magnitude of architecture parameters does not necessarily indicate how much the operation contributes to the supernet's performance. We propose an alternative perturbation-based architecture selection that directly measures each operation's influence on the supernet. We re-evaluate several differentiable NAS methods with the proposed architecture selection and find that it is able to extract significantly improved architectures from the underlying supernets consistently. Furthermore, we find that several failure modes of DARTS can be greatly alleviated with the proposed selection method, indicating that much of the poor generalization observed in DARTS can be attributed to the failure of magnitude-based architecture selection rather than entirely the optimization of its supernet.
翻訳日:2021-08-12 01:09:28 公開日:2021-08-10
# (参考訳) 閉区間のラベル付けによるストローク対応 [全文訳有]

Stroke Correspondence by Labeling Closed Areas ( http://arxiv.org/abs/2108.04393v1 )

ライセンス: CC BY 4.0
Ryoma Miyauchi, Tsukasa Fukusato, Haoran Xie, Kazunori Miyata(参考訳) キーフレーム間のストローク対応を構築することは、手描きの中間フレームの生産パイプラインにおいて最も重要なプロセスの1つである。 このプロセスには、アニメーターに多大な負担を課す、時間を要する手動作業が必要です。 ベクトル化処理なしでラスタ文字画像(キーフレーム)間のストローク対応を推定する手法を提案する。 まず,各鍵フレーム内の閉領域を分離し,形状,深さ,閉領域接続の特性を用いて閉領域間の対応性を推定する。 第2に,提案システムは,推定閉領域対応からストローク対応を推定する。 提案手法の有効性を,ユーザによる研究を行い,提案手法と従来手法との比較により示す。

Constructing stroke correspondences between keyframes is one of the most important processes in the production pipeline of hand-drawn inbetweening frames. This process requires time-consuming manual work imposing a tremendous burden on the animators. We propose a method to estimate stroke correspondences between raster character images (keyframes) without vectorization processes. First, the proposed system separates the closed areas in each keyframe and estimates the correspondences between closed areas by using the characteristics of shape, depth, and closed area connection. Second, the proposed system estimates stroke correspondences from the estimated closed area correspondences. We demonstrate the effectiveness of our method by performing a user study and comparing the proposed system with conventional approaches.
翻訳日:2021-08-12 00:44:07 公開日:2021-08-10
# (参考訳) 手続き的対向騒音攻撃と防御について [全文訳有]

On Procedural Adversarial Noise Attack And Defense ( http://arxiv.org/abs/2108.04409v1 )

ライセンス: CC BY 4.0
Jun Yan and Xiaoyang Deng and Huilin Yin and Wancheng Ge(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、ニューラルネットワークが入力画像に小さな摂動で予測エラーを発生させる敵の例に対して脆弱である。 研究者は、勾配のないデータ分布に関する知識がほとんどない普遍的敵摂動(UAP)の研究を促進することに熱心である。 手続き型逆雑音at-tckはデータフリーな普遍摂動生成法である。 本稿では,手続き的雑音関数に基づく2つのユニバーサル対向摂動(UAP)生成手法を提案する。 本フレームワークでは,レンダリング技術によって視覚的分類を乱すシェーディングを生成する。 セマンティック表現を変更することなく、我々の手法によって生成された敵の例は攻撃に対して優れた性能を示す。

Deep Neural Networks (DNNs) are vulnerable to adversarial examples which would inveigle neural networks to make prediction errors with small per- turbations on the input images. Researchers have been devoted to promoting the research on the universal adversarial perturbations (UAPs) which are gradient-free and have little prior knowledge on data distributions. Procedural adversarial noise at- tack is a data-free universal perturbation generation method. In this paper, we propose two universal adversarial perturbation (UAP) generation methods based on procedural noise functions: Simplex noise and Worley noise. In our framework, the shading which disturbs visual classification is generated with rendering technology. Without changing the semantic representations, the adversarial examples generated via our methods show superior performance on the attack.
翻訳日:2021-08-12 00:31:58 公開日:2021-08-10
# (参考訳) ft-tdr:周波数誘導変圧器およびブラインドフェイスペイント用トップダウンリファインメントネットワーク [全文訳有]

FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for Blind Face Inpainting ( http://arxiv.org/abs/2108.04424v1 )

ライセンス: CC0 1.0
Junke Wang, Shaoxiang Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) ブラインド・フェイス・インペインティング(Blind face Inpainting)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。 本課題は,(1)異なる形状や内容の様々なマスクパターンの検出方法,(2)マスク領域における視覚的に妥当で心地よいコンテンツの復元方法,の2つの課題に直面している。 本稿では,この課題に取り組むために,周波数誘導トランスとトップダウンリファインメントネットワーク(ft-tdr)という2段階ブラインドフェースインペインティング手法を提案する。 具体的には、まず、異なるパッチ間の関係をモデル化して、劣化した領域をマスクとして検出するためにトランスフォーマーベースのネットワークを使用する。 また,検出結果の改善のために周波数モダリティを補完的情報として活用し,局所的文脈的不整合を捉え,境界整合性を高める。 次に,階層的に異なるレベルの特徴を復元し,未知の顔領域にセマンティックに整合した内容を生成するために,トップダウンリファインメントネットワークを提案する。 広汎な実験により,本手法は最先端のブラインドおよび非ブラインドフェース塗装法より質的,定量的に優れていることが示された。

Blind face inpainting refers to the task of reconstructing visual contents without explicitly indicating the corrupted regions in a face image. Inherently, this task faces two challenges: (1) how to detect various mask patterns of different shapes and contents; (2) how to restore visually plausible and pleasing contents in the masked regions. In this paper, we propose a novel two-stage blind face inpainting method named Frequency-guided Transformer and Top-Down Refinement Network (FT-TDR) to tackle these challenges. Specifically, we first use a transformer-based network to detect the corrupted regions to be inpainted as masks by modeling the relation among different patches. We also exploit the frequency modality as complementary information for improved detection results and capture the local contextual incoherence to enhance boundary consistency. Then a top-down refinement network is proposed to hierarchically restore features at different levels and generate contents that are semantically consistent with the unmasked face regions. Extensive experiments demonstrate that our method outperforms current state-of-the-art blind and non-blind face inpainting methods qualitatively and quantitatively.
翻訳日:2021-08-12 00:02:43 公開日:2021-08-10
# (参考訳) 線形代数の基本定理の再検討

Revisit the Fundamental Theorem of Linear Algebra ( http://arxiv.org/abs/2108.04432v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) この調査は、線型代数の基本定理とそれらの背後にある理論の紹介を提供することを目的としている。 我々のゴールは、線形代数に先立つような厳密な導入を読者に与えることである。 具体的には、いくつかの結果(strang, 1993)の詳細と証明を提供する。 次に、異なる視点から線型代数の基本定理を説明し、ビューの背後にある性質と関係を見出す。 線形代数の基本定理は、電気工学、計算機科学、機械学習、ディープラーニングなど、多くの分野において不可欠である。 この調査は、主に目的の要約であり、背後にある重要な理論の意義である。 この調査の唯一の目的は、線型代数の基本定理と厳密な解析の背後にある理論における概念と数学的道具を自己完結的に導入し、その性質を次のセクションで4つの部分空間にシームレスに導入することである。 しかし、すべての有用で興味深い結果をカバーすることができないことをはっきりと認識し、この議論、例えば(正方形)射影行列の分離分析を提示するためのスコープのpaucityを与えられた。 線形代数の分野における文献の読み手を参照し、関連する分野のより詳細な紹介を行う。 優れた例としては、Rose, 1982; Strang, 2009; Trefethen and Bau III, 1997; Strang, 2019, 2021などが挙げられる。

This survey is meant to provide an introduction to the fundamental theorem of linear algebra and the theories behind them. Our goal is to give a rigorous introduction to the readers with prior exposure to linear algebra. Specifically, we provide some details and proofs of some results from (Strang, 1993). We then describe the fundamental theorem of linear algebra from different views and find the properties and relationships behind the views. The fundamental theorem of linear algebra is essential in many fields, such as electrical engineering, computer science, machine learning, and deep learning. This survey is primarily a summary of purpose, significance of important theories behind it. The sole aim of this survey is to give a self-contained introduction to concepts and mathematical tools in theory behind the fundamental theorem of linear algebra and rigorous analysis in order to seamlessly introduce its properties in four subspaces in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results and given the paucity of scope to present this discussion, e.g., the separated analysis of the (orthogonal) projection matrices. We refer the reader to literature in the field of linear algebra for a more detailed introduction to the related fields. Some excellent examples include (Rose, 1982; Strang, 2009; Trefethen and Bau III, 1997; Strang, 2019, 2021).
翻訳日:2021-08-11 23:42:18 公開日:2021-08-10
# (参考訳) AdaRNN: 時系列の適応学習と予測 [全文訳有]

AdaRNN: Adaptive Learning and Forecasting of Time Series ( http://arxiv.org/abs/2108.04443v1 )

ライセンス: CC BY 4.0
Yuntao Du, Jindong Wang, Wenjie Feng, Sinno Pan, Tao Qin, Chongjun Wang(参考訳) 時系列は現実世界で広く応用されており、予測が難しいことが知られている。 統計的性質は経時的に変化するため、分布も時間的に変化し、既存の方法に厳しい分布シフト問題を引き起こす。 しかし、分布の観点から時系列をモデル化することは未定である。 本稿では、これを時間的共変量シフト(TCS)と呼ぶ。 本稿では, 未確認テストデータに基づく適応モデルを構築し, 適応RNN(AdaRNN)を用いてTCS問題に対処する手法を提案する。 AdaRNNは2つの新しいアルゴリズムで構成されている。 まず,ts内の分布情報をよりよく特徴付けるために,時間分布特性を提案する。 次に,tsの分布ミスマッチを低減し,適応型tsモデルを学ぶための時間分布マッチングを提案する。 AdaRNNは、柔軟な分布距離を統合した一般的なフレームワークである。 ヒトの行動認識、空気質予測、財務分析の実験は、AdaRNNが最新の手法を2.6%の分類精度で上回り、RMSEを9.0%減少させることを示している。 また, 時間分布マッチングアルゴリズムを Transformer 構造に拡張することで, 性能を向上できることを示す。

Time series has wide applications in the real world and is known to be difficult to forecast. Since its statistical properties change over time, its distribution also changes temporally, which will cause severe distribution shift problem to existing methods. However, it remains unexplored to model the time series in the distribution perspective. In this paper, we term this as Temporal Covariate Shift (TCS). This paper proposes Adaptive RNNs (AdaRNN) to tackle the TCS problem by building an adaptive model that generalizes well on the unseen test data. AdaRNN is sequentially composed of two novel algorithms. First, we propose Temporal Distribution Characterization to better characterize the distribution information in the TS. Second, we propose Temporal Distribution Matching to reduce the distribution mismatch in TS to learn the adaptive TS model. AdaRNN is a general framework with flexible distribution distances integrated. Experiments on human activity recognition, air quality prediction, and financial analysis show that AdaRNN outperforms the latest methods by a classification accuracy of 2.6% and significantly reduces the RMSE by 9.0%. We also show that the temporal distribution matching algorithm can be extended in Transformer structure to boost its performance.
翻訳日:2021-08-11 23:41:11 公開日:2021-08-10
# (参考訳) 鳥類の分類のためのオーディオパイプラインアプローチに関する実証的研究 [全文訳有]

An empirical investigation into audio pipeline approaches for classifying bird species ( http://arxiv.org/abs/2108.04449v1 )

ライセンス: CC BY 4.0
David Behr, Ciira wa Maina, Vukosi Marivate(参考訳) 本稿では,エッジデバイス上での鳥類種のモニタリングに適した音声分類パイプラインについて検討する。 これらの側面には、転送学習、データ拡張、モデル最適化が含まれる。 結果のモデルが、鳥の個体数を監視するためにエッジデバイスにデプロイする良い候補になることを期待している。 従来型深層ニューラルネットワーク(dnn)と畳み込み層(dnn)の有効性を検討する2つの分類手法を考察し,それぞれのアプローチのメリットとデメリットに関する実証的証拠を提供することを目的としている。

This paper is an investigation into aspects of an audio classification pipeline that will be appropriate for the monitoring of bird species on edges devices. These aspects include transfer learning, data augmentation and model optimization. The hope is that the resulting models will be good candidates to deploy on edge devices to monitor bird populations. Two classification approaches will be taken into consideration, one which explores the effectiveness of a traditional Deep Neural Network(DNN) and another that makes use of Convolutional layers.This study aims to contribute empirical evidence of the merits and demerits of each approach.
翻訳日:2021-08-11 23:18:40 公開日:2021-08-10
# (参考訳) 深層強化学習を用いた高品質検索クエリの提案 [全文訳有]

High Quality Related Search Query Suggestions using Deep Reinforcement Learning ( http://arxiv.org/abs/2108.04452v1 )

ライセンス: CC BY-SA 4.0
Praveen Kumar Bodigutla(参考訳) The High Quality Related Search Query Suggestions” タスクは,リアルタイムで正確で,多様な,関連性の高い検索クエリを推奨する。 大量のクエリ品質のヒューマンアノテーションを得ることは費用がかかる。 教師付きクエリ提案モデルに関する以前の作業は選択バイアスと露出バイアスに苦しめられ、スリムでノイズの多い即時ユーザフィードバック(クリックなど)に依存していたため、品質が低かった。 検索結果からの用語を用いてクエリを再構築するために使用される強化学習技術は、大規模産業アプリケーションに対するスケーラビリティに制限がある。 高品質な検索クエリを推奨するために,ユーザが次に入力するクエリを予測するために,深い強化学習モデルをトレーニングする。 報酬信号は、長期セッションベースユーザフィードバック、構文関連性、生成したクエリの自然性推定によって構成される。 提案手法は,ベースライン教師モデルと比較して,レコメンデーションの多様性(3%),ダウンストリームユーザエンゲージメント(4.2%),センテンス毎の単語反復(82%)において,相対的に大きな改善を達成している。

"High Quality Related Search Query Suggestions" task aims at recommending search queries which are real, accurate, diverse, relevant and engaging. Obtaining large amounts of query-quality human annotations is expensive. Prior work on supervised query suggestion models suffered from selection and exposure bias, and relied on sparse and noisy immediate user-feedback (e.g., clicks), leading to low quality suggestions. Reinforcement Learning techniques employed to reformulate a query using terms from search results, have limited scalability to large-scale industry applications. To recommend high quality related search queries, we train a Deep Reinforcement Learning model to predict the query a user would enter next. The reward signal is composed of long-term session-based user feedback, syntactic relatedness and estimated naturalness of generated query. Over the baseline supervised model, our proposed approach achieves a significant relative improvement in terms of recommendation diversity (3%), down-stream user-engagement (4.2%) and per-sentence word repetitions (82%).
翻訳日:2021-08-11 23:12:17 公開日:2021-08-10
# (参考訳) 物流・交通システムにおける需要駆動型サービスのための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Demand Driven Services in Logistics and Transportation Systems: A Survey ( http://arxiv.org/abs/2108.04462v1 )

ライセンス: CC BY 4.0
Zefang Zong, Tao Feng, Tong Xia, Depeng and Yong Li(参考訳) 最近の技術開発は、ライドシェアリング、オンデマンドデリバリー、急行システム、ウェアハウスなど、多くの新しい需要駆動サービス(DDS)の都市生活にブームをもたらしている。 DDSでは、サービスループは、サービスワーカー、サービスプロバイダ、および対応するサービスターゲットを含む要素構造である。 サービスワーカーは、提供者からターゲットの場所へ人間または小包を輸送する必要がある。 そのため、DDS内の様々な計画タスクは、(1)需要/供給分布からサービスループを形成するディスパッチ、(2)構築されたループ内の特定のサービス順序を決定するルーティングの2つの段階に分けられる。 両方の段階で高品質な戦略を生成することはDDSを開発する上で重要であるが、いくつかの課題に直面している。 一方,近年,深層強化学習(DRL)が急速に発展している。 DRLは、あまりにも多くの問題ベースの仮定に頼ることなくパラメトリックモデルを学習し、シーケンシャルな決定を学習することで長期的な効果を最適化できるため、これらの問題を解決する強力なツールである。 このサーベイでは、まずDDSを定義し、次に一般的なアプリケーションと重要な意思決定/制御の問題を強調します。 各問題に対して、既存のDRLソリューションを包括的に紹介し、さらにそれを textit{https://github.com/t singhua-fib-lab/DDS\ _Survey} に要約する。 また,ddsアプリケーションの開発と評価のためのオープンシミュレーション環境を提案する。 最後に,残った課題を分析し,DRLソリューションのさらなる研究機会について考察する。

Recent technology development brings the booming of numerous new Demand-Driven Services (DDS) into urban lives, including ridesharing, on-demand delivery, express systems and warehousing. In DDS, a service loop is an elemental structure, including its service worker, the service providers and corresponding service targets. The service workers should transport either humans or parcels from the providers to the target locations. Various planning tasks within DDS can thus be classified into two individual stages: 1) Dispatching, which is to form service loops from demand/supply distributions, and 2)Routing, which is to decide specific serving orders within the constructed loops. Generating high-quality strategies in both stages is important to develop DDS but faces several challenging. Meanwhile, deep reinforcement learning (DRL) has been developed rapidly in recent years. It is a powerful tool to solve these problems since DRL can learn a parametric model without relying on too many problem-based assumptions and optimize long-term effect by learning sequential decisions. In this survey, we first define DDS, then highlight common applications and important decision/control problems within. For each problem, we comprehensively introduce the existing DRL solutions, and further summarize them in \textit{https://github.com/t singhua-fib-lab/DDS\ _Survey}. We also introduce open simulation environments for development and evaluation of DDS applications. Finally, we analyze remaining challenges and discuss further research opportunities in DRL solutions for DDS.
翻訳日:2021-08-11 22:57:33 公開日:2021-08-10
# (参考訳) クリックスルーレート予測モデルにおけるエンド・ツー・エンドユーザの行動検索 [全文訳有]

End-to-End User Behavior Retrieval in Click-Through RatePrediction Model ( http://arxiv.org/abs/2108.04468v1 )

ライセンス: CC BY 4.0
Qiwei Chen, Changhua Pei, Shanshan Lv, Chao Li, Junfeng Ge, Wenwu Ou(参考訳) CTR(Click-Through Rate)予測は、推奨システム(RS)における中核的なタスクの1つである。 ユーザーとアイテムのペアごとにパーソナライズされたクリック確率を予測する。 近年,CTRモデルの性能は,ユーザ行動系列,特に長期ユーザ行動系列を考慮することで大幅に向上することが報告されている。 eコマースのwebサイトのレポートによると、過去5ヶ月で23\%のユーザーが1000回以上クリックしている。 逐次的ユーザ行動のモデリングに焦点をあてる作業は数多くあるが、現実のシステムにおける厳密な推論時間制約のため、長期的なユーザ行動シーケンスを処理できる作業はほとんどない。 性能向上のために2段階の手法が提案されている。 第1段階では、長期ユーザ動作シーケンスから最大$k$の類似アイテムを取得するように補助タスクが設計されている。 第2段階では、第1ステージで選択された候補項目と$k$項目との間に古典的注意機構を行う。 しかし、情報ギャップは検索段階とメインのCTRタスクの間に生じる。 この目標分岐は、長期ユーザシーケンスのパフォーマンス向上を大幅に減少させる。 本稿では,reformerに触発されたローカリティ感応ハッシュ(lsh)手法であるeta(end-to-end target attention)を提案する。 オフライン実験とオンライン実験の両方で,モデルの有効性を確認した。 我々は、etaを大規模実世界のeコマースシステムに展開し、2段階の長期ユーザーシーケンスctrモデルと比較してgmv(グロス商品価値)を3.1\%向上させた。

Click-Through Rate (CTR) prediction is one of the core tasks in recommender systems (RS). It predicts a personalized click probability for each user-item pair. Recently, researchers have found that the performance of CTR model can be improved greatly by taking user behavior sequence into consideration, especially long-term user behavior sequence. The report on an e-commerce website shows that 23\% of users have more than 1000 clicks during the past 5 months. Though there are numerous works focus on modeling sequential user behaviors, few works can handle long-term user behavior sequence due to the strict inference time constraint in real world system. Two-stage methods are proposed to push the limit for better performance. At the first stage, an auxiliary task is designed to retrieve the top-$k$ similar items from long-term user behavior sequence. At the second stage, the classical attention mechanism is conducted between the candidate item and $k$ items selected in the first stage. However, information gap happens between retrieval stage and the main CTR task. This goal divergence can greatly diminishing the performance gain of long-term user sequence. In this paper, inspired by Reformer, we propose a locality-sensitive hashing (LSH) method called ETA (End-to-end Target Attention) which can greatly reduce the training and inference cost and make the end-to-end training with long-term user behavior sequence possible. Both offline and online experiments confirm the effectiveness of our model. We deploy ETA into a large-scale real world E-commerce system and achieve extra 3.1\% improvements on GMV (Gross Merchandise Value) compared to a two-stage long user sequence CTR model.
翻訳日:2021-08-11 22:14:43 公開日:2021-08-10
# (参考訳) NASAWorldviewのためのスケーラブルなリバースイメージ検索エンジン [全文訳有]

Scalable Reverse Image Search Engine for NASAWorldview ( http://arxiv.org/abs/2108.04479v1 )

ライセンス: CC BY 4.0
Abhigya Sodani, Michael Levy, Anirudh Koul, Meher Anand Kasam, Siddha Ganju(参考訳) 研究者たちは、何週間も、無ラベルの衛星画像(NASAワールドビュー)を精査し、研究を開始するためのデータセットを開発する。 対話的でスケーラブルで高速な画像類似性検索エンジン(クェリ画像として1つ以上の画像を取り出せる)を開発し、ラベルのないデータセットを自動的に抽出し、データセットの生成時間を数週間から数分に短縮した。 本研究では,エンドツーエンドパイプラインの主要なコンポーネントについて述べる。 我々の類似性検索システムは,入力画像に類似する可能性のあるペタバイト規模のデータベースから類似画像を識別するために作成され,そのために,各クエリ画像をその特徴に分解し,教師付き方法で訓練されたCNNの分類層で生成する必要があった。 これらの機能を効率的に保存し、検索するには、いくつかのスケーラビリティの改善が必要でした。 速度の向上、ストレージの削減、埋め込み検索のメモリ要件の縮小のために、cnnに完全に接続されたレイヤを追加して、すべてのイメージを分類層に入る前に128長さのベクターにします。 これにより、画像機能のサイズを2048年(resnetではフェアチュアライザとして試しました)から、新しいカスタムモデルで128に圧縮しました。 さらに,既存の近距離探索ライブラリを用いて埋め込み検索を大幅に高速化する。 当社のシステムは現在,クラウド上の単一の仮想マシン上で,クエリ毎に5秒でイメージデータベース全体を検索しています。 将来的には、人間によるラベル付けなしにトレーニングできるSimCLRベースの成果化モデルを取り入れたいと思っています(このユースケースとは無関係なので)。

Researchers often spend weeks sifting through decades of unlabeled satellite imagery(on NASA Worldview) in order to develop datasets on which they can start conducting research. We developed an interactive, scalable and fast image similarity search engine (which can take one or more images as the query image) that automatically sifts through the unlabeled dataset reducing dataset generation time from weeks to minutes. In this work, we describe key components of the end to end pipeline. Our similarity search system was created to be able to identify similar images from a potentially petabyte scale database that are similar to an input image, and for this we had to break down each query image into its features, which were generated by a classification layer stripped CNN trained in a supervised manner. To store and search these features efficiently, we had to make several scalability improvements. To improve the speed, reduce the storage, and shrink memory requirements for embedding search, we add a fully connected layer to our CNN make all images into a 128 length vector before entering the classification layers. This helped us compress the size of our image features from 2048 (for ResNet, which was initially tried as our featurizer) to 128 for our new custom model. Additionally, we utilize existing approximate nearest neighbor search libraries to significantly speed up embedding search. Our system currently searches over our entire database of images at 5 seconds per query on a single virtual machine in the cloud. In the future, we would like to incorporate a SimCLR based featurizing model which could be trained without any labelling by a human (since the classification aspect of the model is irrelevant to this use case).
翻訳日:2021-08-11 21:57:27 公開日:2021-08-10
# (参考訳) Split-and-Shareモジュールによるエクスプロイト機能 [全文訳有]

Exploiting Featureswith Split-and-Share Module ( http://arxiv.org/abs/2108.04500v1 )

ライセンス: CC BY 4.0
Jaemin Lee, Minseok Seo, Jongchan Park, Dong-Geol Choi(参考訳) deep convolutional neural networks (cnns)は様々なコンピュータビジョンタスクで最先端のパフォーマンスを示している。 cnnアーキテクチャの進歩は、主に特徴抽出器の畳み込みブロックを設計することに集中しているが、抽出された特徴を利用する分類器には依存していない。 本研究では,与えられた機能を部分に分割する分類器であるssm(slit-and-share module)を提案する。 私たちの直感では、機能が共有されるほど、それらがより一般的になり、SSMは分割された機能においてそのような構造的特性を奨励します。 SSMは、鐘や笛なしで簡単にどんなアーキテクチャにも統合できる。 我々は,ImageNet-1K分類タスクにおけるSSMの有効性を広範囲に検証し,ベースラインアーキテクチャよりも一貫した,重要な改善点を示した。 また,Grad-CAM視覚化を用いてSSMの効果を分析する。

Deep convolutional neural networks (CNNs) have shown state-of-the-art performances in various computer vision tasks. Advances on CNN architectures have focused mainly on designing convolutional blocks of the feature extractors, but less on the classifiers that exploit extracted features. In this work, we propose Split-and-Share Module (SSM),a classifier that splits a given feature into parts, which are partially shared by multiple sub-classifiers. Our intuition is that the more the features are shared, the more common they will become, and SSM can encourage such structural characteristics in the split features. SSM can be easily integrated into any architecture without bells and whistles. We have extensively validated the efficacy of SSM on ImageNet-1K classification task, andSSM has shown consistent and significant improvements over baseline architectures. In addition, we analyze the effect of SSM using the Grad-CAM visualization.
翻訳日:2021-08-11 21:53:06 公開日:2021-08-10
# (参考訳) MotionInput v2.0 Support DirectX: 既存のソフトウェアをWebカメラで操作・制御するためのオープンソースのジェスチャーベースの機械学習とコンピュータビジョンのモジュールライブラリ [全文訳有]

MotionInput v2.0 supporting DirectX: A modular library of open-source gesture-based machine learning and computer vision methods for interacting and controlling existing software with a webcam ( http://arxiv.org/abs/2108.04357v1 )

ライセンス: CC BY 4.0
Ashild Kummen, Guanlin Li, Ali Hassan, Teodora Ganeva, Qianying Lu, Robert Shaw, Chenuka Ratwatte, Yang Zou, Lu Han, Emil Almazov, Sheena Visram, Andrew Taylor, Neil J Sebire, Lee Stott, Yvonne Rogers, Graham Roberts, Dean Mohamedally(参考訳) 新型コロナウイルス(COVID-19)のパンデミック期には、タッチレスコンピューターの相互作用が重要視されている。 高度なジェスチャー認識を可能にする機械学習とコンピュータビジョンの進歩にもかかわらず、そのようなオープンソースメソッドの統合コレクションと、既存のソフトウェアにおけるタッチレスインタラクションのための低コストソリューションでそれらを利用するユーザフレンドリなアプローチは、まだ欠落している。 本稿では motioninput v2.0 アプリケーションについて述べる。 このアプリケーションは、標準のRGBウェブカメラからビデオストリームを入力として取り出すために、公開されたオープンソースライブラリと追加のジェスチャー定義を利用する。 そして人間の動きのジェスチャーを、既存のアプリケーションやゲームの入力操作にマップする。 ユーザーは、単独およびバイモーダルハンドジェスチャー、全身反復または四肢に基づくエクササイズ、頭と顔の動き、目の動き、およびそれらの組み合わせを含む一連のモーションタイプから、自分の好みのインタラクション方法を選択することができる。 また,アイドル状態のジェスチャ,自動キャリブレーション,2d rgb webcamストリームからの奥行きキャプチャ,口の動き,ウィンキング,回転による頭部方向などの顔の動きの追跡など,直接入力トリガーとして,多彩なジェスチャ認識の分類も導入する。 3つのユースケース領域はモジュールの開発を支援した:創造性ソフトウェア、オフィスおよび臨床ソフトウェア、ゲームソフトウェア。 オープンソースのライブラリのコレクションが統合され、DirectXを介してWindowsの既存のマウスとキーボードコントロールの上にモジュラーなジェスチャーマッピング層を提供する。 多くのラップトップやデスクトップコンピュータに統合されたウェブカメラへのアクセスが容易になるにつれ、タッチレスコンピューティングはMotionInput v2.0でより利用できるようになる。

Touchless computer interaction has become an important consideration during the COVID-19 pandemic period. Despite progress in machine learning and computer vision that allows for advanced gesture recognition, an integrated collection of such open-source methods and a user-customisable approach to utilising them in a low-cost solution for touchless interaction in existing software is still missing. In this paper, we introduce the MotionInput v2.0 application. This application utilises published open-source libraries and additional gesture definitions developed to take the video stream from a standard RGB webcam as input. It then maps human motion gestures to input operations for existing applications and games. The user can choose their own preferred way of interacting from a series of motion types, including single and bi-modal hand gesturing, full-body repetitive or extremities-based exercises, head and facial movements, eye tracking, and combinations of the above. We also introduce a series of bespoke gesture recognition classifications as DirectInput triggers, including gestures for idle states, auto calibration, depth capture from a 2D RGB webcam stream and tracking of facial motions such as mouth motions, winking, and head direction with rotation. Three use case areas assisted the development of the modules: creativity software, office and clinical software, and gaming software. A collection of open-source libraries has been integrated and provide a layer of modular gesture mapping on top of existing mouse and keyboard controls in Windows via DirectX. With ease of access to webcams integrated into most laptops and desktop computers, touchless computing becomes more available with MotionInput v2.0, in a federated and locally processed method.
翻訳日:2021-08-11 21:44:20 公開日:2021-08-10
# (参考訳) ニューラルネットワークを用いた手のポーズ分類 [全文訳有]

Hand Pose Classification Based on Neural Networks ( http://arxiv.org/abs/2108.04529v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本研究では,30名のボランティアの助けを借りて作成した強固な手洗いデータセットのセグメントに対して,ディープラーニングモデルを適用する。 本研究は,移動学習に基づく場面における片手・両手・手の存在の分類を実証するものである。 予め訓練されたモデルであり、Kerasライブラリから最も単純なNNを使用して、手ジェスチャーの704イメージでネットワークをトレーニングし、入力画像に対して予測を行う。 制御および制限されたデータセットにより、入力画像の正確な予測を行い、トレーニング中に100%精度が達成される。 AlexNetのような高密度モデルによる手洗いデータセットを手衛生段階の動画分類に使用する予定である。

In this work, deep learning models are applied to a segment of a robust hand-washing dataset that has been created with the help of 30 volunteers. This work demonstrates the classification of presence of one hand, two hands and no hand in the scene based on transfer learning. The pre-trained model; simplest NN from Keras library is utilized to train the network with 704 images of hand gestures and the predictions are carried out for the input image. Due to the controlled and restricted dataset, 100% accuracy is achieved during the training with correct predictions for the input image. Complete handwashing dataset with dense models such as AlexNet for video classification for hand hygiene stages will be used in the future work.
翻訳日:2021-08-11 21:38:07 公開日:2021-08-10
# (参考訳) ASMR:Adaptive Semantic Margin Regularizerを用いた属性に基づく人物探索 [全文訳有]

ASMR: Learning Attribute-Based Person Search with Adaptive Semantic Margin Regularizer ( http://arxiv.org/abs/2108.04533v1 )

ライセンス: CC BY 4.0
Boseung Jeong, Jicheol Park, Suha Kwak(参考訳) 属性に基づく人物検索は、クエリとして与えられたテキスト属性のセットに最もよくマッチする人物画像を見つけるタスクである。 このタスクの主な課題は、属性と画像の間の大きなモダリティギャップである。 このギャップを減らすために,属性に基づく人物探索の文脈において,モーダルな埋め込みを学習する際の新たな損失を提示する。 属性のセットを、同じ特性を共有する人々のカテゴリとみなします。 2つのモダリティの合同埋め込み空間において、損失は、モダリティアライメントのための個人カテゴリに近いイメージを引き出す。 さらに重要なことに、その意味的距離によって適応的に決定されるマージンによって、2つの人カテゴリを分割し、その距離メトリックをエンドツーエンドに学習することで、人カテゴリに関連する各属性の重要性を考慮する。 適応的セマンティック・マージンによって導かれる損失は、より差別的でセマンティックに適切に配置された人物画像の分布につながる。 その結果、単純な埋め込みモデルにより、ベルやホイッスルを使わずに、公開ベンチマークで最先端の記録を達成できる。

Attribute-based person search is the task of finding person images that are best matched with a set of text attributes given as query. The main challenge of this task is the large modality gap between attributes and images. To reduce the gap, we present a new loss for learning cross-modal embeddings in the context of attribute-based person search. We regard a set of attributes as a category of people sharing the same traits. In a joint embedding space of the two modalities, our loss pulls images close to their person categories for modality alignment. More importantly, it pushes apart a pair of person categories by a margin determined adaptively by their semantic distance, where the distance metric is learned end-to-end so that the loss considers importance of each attribute when relating person categories. Our loss guided by the adaptive semantic margin leads to more discriminative and semantically well-arranged distributions of person images. As a consequence, it enables a simple embedding model to achieve state-of-the-art records on public benchmarks without bells and whistles.
翻訳日:2021-08-11 21:33:58 公開日:2021-08-10
# (参考訳) 骨格に基づく行動認識のためのマルチグラニュラー時空間グラフネットワークの学習 [全文訳有]

Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition ( http://arxiv.org/abs/2108.04536v1 )

ライセンス: CC BY 4.0
Tailin Chen, Desen Zhou, Jian Wang, Shidong Wang, Yu Guan, Xuming He, Errui Ding(参考訳) 骨格に基づく行動認識の課題は、人間の動きの多様さと大きな変動により、人間中心のシーン理解において依然として重要な課題である。 既存のアプローチでは、通常、異なる動きパターンに対して単一の神経表現を用いるが、限られたトレーニングデータでは、きめ細かいアクションクラスを捉えることが困難である。 上記の問題に対処するために,粗粒と細粒のスケルトン運動パターンを共同でモデル化する,スケルトンベース行動分類のための多面的時空間グラフネットワークを提案する。 そこで本研究では,2つの分枝からなる双頭グラフネットワークを開発し,2つの時空間分解能の特徴を効果的かつ効率的な方法で抽出する。 さらに,本ネットワークは,両頭部の表現を相互に強化するクロスヘッド通信戦略を利用する。 NTU RGB+D 60, NTU RGB+D 120, Kinetics-Skeletonの3つの大規模データセットについて広範な実験を行い, 提案手法の有効性を検証した。

The task of skeleton-based action recognition remains a core challenge in human-centred scene understanding due to the multiple granularities and large variation in human motion. Existing approaches typically employ a single neural representation for different motion patterns, which has difficulty in capturing fine-grained action classes given limited training data. To address the aforementioned problems, we propose a novel multi-granular spatio-temporal graph network for skeleton-based action classification that jointly models the coarse- and fine-grained skeleton motion patterns. To this end, we develop a dual-head graph network consisting of two interleaved branches, which enables us to extract features at two spatio-temporal resolutions in an effective and efficient manner. Moreover, our network utilises a cross-head communication strategy to mutually enhance the representations of both heads. We conducted extensive experiments on three large-scale datasets, namely NTU RGB+D 60, NTU RGB+D 120, and Kinetics-Skeleton, and achieves the state-of-the-art performance on all the benchmarks, which validates the effectiveness of our method.
翻訳日:2021-08-11 21:12:50 公開日:2021-08-10
# (参考訳) マルチ忠実度評価による進化的ニューラルアーキテクチャ探索の高速化 [全文訳有]

Accelerating Evolutionary Neural Architecture Search via Multi-Fidelity Evaluation ( http://arxiv.org/abs/2108.04541v1 )

ライセンス: CC BY 4.0
Shangshang Yang, Ye Tian, Xiaoshu Xiang, Shichen Peng, and Xingyi Zhang(参考訳) 進化的ニューラルアーキテクチャサーチ(ENAS)は、最近、高品質なニューラルアーキテクチャを効果的に見つけることで注目を集めているが、個々の評価において完全なエポックのために各個人によって符号化されたアーキテクチャを訓練することで、高い計算コストを消費している。 評価コストを削減するために多くのenasアプローチが開発されているが、ほとんどの手法が高い評価精度を達成するのは難しい。 そこで本稿では,mfenas と呼ばれる多元性評価による高速化 enas を提案し,各個人が符号化したアーキテクチャを少数のエポック数で訓練することにより,個々の評価コストを大幅に削減する手法を提案する。 評価コストと評価精度のバランスは、異なる数の訓練エポックの下で複数の評価を統合することで、前世代から生き残れない可能性のある、潜在的に良い個人を特定する多要素評価を提案することにより、よく維持される。 ニューラルアーキテクチャの多様性が高いため、resnetライクなアーキテクチャからインセプションのようなアーキテクチャまで、さまざまなニューラルアーキテクチャを生み出すための集団初期化戦略が考案されている。 CIFAR-10の実験結果から、提案したMFENASで得られたアーキテクチャは、NVIDIA 2080TIのGPUでわずか0.6GPUのコストで2.39%のエラー率を達成し、計算コストとアーキテクチャ品質の両方の観点から、最新のNASアプローチよりも提案したMFENASの方が優れていることを示した。 提案したMFENAS で得られたアーキテクチャは CIFAR-100 と ImageNet に転送され、既存のNAS アプローチで得られたアーキテクチャと競合する性能を示す。 MFENASのソースコードはhttps://github.com/D evilYangS/MFENAS/で公開されている。

Evolutionary neural architecture search (ENAS) has recently received increasing attention by effectively finding high-quality neural architectures, which however consumes high computational cost by training the architecture encoded by each individual for complete epochs in individual evaluation. Numerous ENAS approaches have been developed to reduce the evaluation cost, but it is often difficult for most of these approaches to achieve high evaluation accuracy. To address this issue, in this paper we propose an accelerated ENAS via multifidelity evaluation termed MFENAS, where the individual evaluation cost is significantly reduced by training the architecture encoded by each individual for only a small number of epochs. The balance between evaluation cost and evaluation accuracy is well maintained by suggesting a multi-fidelity evaluation, which identifies the potentially good individuals that cannot survive from previous generations by integrating multiple evaluations under different numbers of training epochs. For high diversity of neural architectures, a population initialization strategy is devised to produce different neural architectures varying from ResNet-like architectures to Inception-like ones. Experimental results on CIFAR-10 show that the architecture obtained by the proposed MFENAS achieves a 2.39% test error rate at the cost of only 0.6 GPU days on one NVIDIA 2080TI GPU, demonstrating the superiority of the proposed MFENAS over state-of-the-art NAS approaches in terms of both computational cost and architecture quality. The architecture obtained by the proposed MFENAS is then transferred to CIFAR-100 and ImageNet, which also exhibits competitive performance to the architectures obtained by existing NAS approaches. The source code of the proposed MFENAS is available at https://github.com/D evilYangS/MFENAS/.
翻訳日:2021-08-11 20:55:35 公開日:2021-08-10
# (参考訳) 医療画像における既知のオペレーター学習とハイブリッド機械学習 ---過去・現在・未来を振り返って- [全文訳有]

Known Operator Learning and Hybrid Machine Learning in Medical Imaging --- A Review of the Past, the Present, and the Future ( http://arxiv.org/abs/2108.04543v1 )

ライセンス: CC BY 4.0
Andreas Maier, Harald K\"ostler, Marco Heisig, Patrick Krauss, Seung Hee Yang(参考訳) 本稿では,医療画像におけるハイブリッド機械学習の現状について概観する。 私たちは、機械学習における過去の一般的な展開と、過去数十年における一般的なおよび専門的なアプローチの競合について、簡単な要約から始めます。 特に焦点は、理論と実験の証拠proとcontraのハイブリッドモデリングである。 次に,いわゆる既知のオペレータラーニングに注目したハイブリッド機械学習に関する新たな展開と,医療画像解析や医用画像解析のあらゆる応用において,ハイブリッドアプローチがいかに勢いを増しているかを検証する。 多くの例で指摘するように、ハイブリッドモデルは画像再構成と解析に取って代わられている。 物理シミュレーションやスキャナー、取得設計といったドメインでさえ、機械学習のグレーボックスモデリングアプローチを使って対処されている。 この記事の終わりに向けて、私たちはいくつかの今後の方向性を調査し、ハイブリッドモデリング、メタ学習、その他のドメインが最先端を前進させるであろう関連領域を指摘します。

In this article, we perform a review of the state-of-the-art of hybrid machine learning in medical imaging. We start with a short summary of the general developments of the past in machine learning and how general and specialized approaches have been in competition in the past decades. A particular focus will be the theoretical and experimental evidence pro and contra hybrid modelling. Next, we inspect several new developments regarding hybrid machine learning with a particular focus on so-called known operator learning and how hybrid approaches gain more and more momentum across essentially all applications in medical imaging and medical image analysis. As we will point out by numerous examples, hybrid models are taking over in image reconstruction and analysis. Even domains such as physical simulation and scanner and acquisition design are being addressed using machine learning grey box modelling approaches. Towards the end of the article, we will investigate a few future directions and point out relevant areas in which hybrid modelling, meta learning, and other domains will likely be able to drive the state-of-the-art ahead.
翻訳日:2021-08-11 20:21:02 公開日:2021-08-10
# (参考訳) 進化的計算のエピジェネティックな機会 [全文訳有]

Epigenetic opportunities for Evolutionary Computation ( http://arxiv.org/abs/2108.04546v1 )

ライセンス: CC BY 4.0
Sizhe Yuen, Thomas H.G. Ezard, Adam J. Sobey(参考訳) 進化的計算は、複雑な最適化問題を解決するために使われる生物学的にインスパイアされたアルゴリズムのグループである。 遺伝的遺伝からインスピレーションを得る進化的アルゴリズムと、文化的遺伝からインスピレーションを得るSwarm Intelligenceアルゴリズムに分けることができる。 しかし、近年の進歩は計算や数学的適応に焦点を合わせ、生物学的なルーツを残している。 これは現代の進化文学の多くを比較的未開拓に残している。 本稿では, 進化のメカニズムを解明するために, 古典的, 遺伝学の焦点を絞った拡張的進化的合成に基づく, 現代の生物学的枠組みの下で, バイオインスパイアされたアルゴリズムを成功裏に分解する。 この分析は、ダーウィン主義と現代合成が進化的計算に組み入れられたことを示しているが、拡張進化的合成は、Swarm Intelligenceアルゴリズムのサブセットに組み込まれた文化継承、CMA-ESによる進化可能性、マルチレベル遺伝的アルゴリズムによる多段階選択など、広く無視されている。 このフレームワークは進化計算におけるエピジェネティック継承の欠如を示しているが、進化がどのように起こるかの現代の解釈において重要な構成要素である。 エピジェネティック遺伝は、生物が環境条件に迅速に適応し、環境の変化の安定性を維持しながら収束の速度を高めることによって、個体の遺伝子型を変えることなく、迅速な適応を説明することができる。 これは、進化計算の中でさらに探究すべき低い吊り果実として、生物学的にインスパイアされた様々なメカニズムを残している。

Evolutionary Computation is a group of biologically inspired algorithms used to solve complex optimisation problems. It can be split into Evolutionary Algorithms, which take inspiration from genetic inheritance, and Swarm Intelligence algorithms, that take inspiration from cultural inheritance. However, recent developments have focused on computational or mathematical adaptions, leaving their biological roots behind. This has left much of the modern evolutionary literature relatively unexplored. To understand which evolutionary mechanisms have been considered, and which have been overlooked, this paper breaks down successful bio-inspired algorithms under a contemporary biological framework based on the Extended Evolutionary Synthesis, an extension of the classical, genetics focussed, Modern Synthesis. The analysis shows that Darwinism and the Modern Synthesis have been incorporated into Evolutionary Computation but that the Extended Evolutionary Synthesis has been broadly ignored beyond:cultural inheritance, incorporated in the sub-set of Swarm Intelligence algorithms, evolvability, through CMA-ES, and multilevel selection, through Multi-Level Selection Genetic Algorithm. The framework shows a missing gap in epigenetic inheritance for Evolutionary Computation, despite being a key building block in modern interpretations of how evolution occurs. Epigenetic inheritance can explain fast adaptation, without changes in an individual's genotype, by allowing biological organisms to self-adapt quickly to environmental cues, which, increases the speed of convergence while maintaining stability in changing environments. This leaves a diverse range of biologically inspired mechanisms as low hanging fruit that should be explored further within Evolutionary Computation.
翻訳日:2021-08-11 19:54:39 公開日:2021-08-10
# (参考訳) 学習とテストの意思決定木について

On Learning and Testing Decision Tree ( http://arxiv.org/abs/2108.04587v1 )

ライセンス: CC BY 4.0
Nader H. Bshouty and Catherine A. Haddad-Zaknoon(参考訳) 本稿では,n$の属性数よりもかなり小さいサイズと深さの学習とテストの意思決定木について検討する。 我々の主な結果はpoly$(n,1/\epsilon)$ time algorithm with poly$(s,1/\epsilon)$ query complexity (independent of $n$) with the function that are decision tree of size $s$ from that function that $\epsilon$-far from any decision tree of size $\phi(s,1/\epsilon)$ for some function $\phi > s$である。 最もよく知られた結果は、空白、ランジュ、タン、~\cite{blanclt20} から続き、$\phi(s,1/\epsilon)=2^{o((\log^3s)/\epsilon^3)}$ となる。 本稿では,$\phi(s,1/\epsilon) =2^{o(\log^2 (s/\epsilon))} を達成する新しいアルゴリズムを提案する。 さらに,Deep-d$決定木とDeep-d^2$決定木から$\epsilon$-farの関数を区別するDeep-d$決定木の有効性について検討し,Deep-d$決定木とDeep-d$決定木との区別を行う。 特に、$s$の決定木の場合、木深さが$O(\log(s/\epsilon)) $であるとき、上記の結果は分布のないモデルに成り立つ。 また,本論文で得られた文献といくつかの結果をもとに,サイズ決定木と深さ決定木について,学習とテストに関する新たな結果を提示する。

In this paper, we study learning and testing decision tree of size and depth that are significantly smaller than the number of attributes $n$. Our main result addresses the problem of poly$(n,1/\epsilon)$ time algorithms with poly$(s,1/\epsilon)$ query complexity (independent of $n$) that distinguish between functions that are decision trees of size $s$ from functions that are $\epsilon$-far from any decision tree of size $\phi(s,1/\epsilon)$ , for some function $\phi > s$. The best known result is the recent one that follows from Blank, Lange and Tan,~\cite{BlancLT20}, that gives $\phi(s,1/\epsilon)=2^{O((\log^3s)/\epsilon^3)}$. In this paper, we give a new algorithm that achieves $\phi(s,1/\epsilon)=2^{O(\log^2 (s/\epsilon))}$. Moreover, we study the testability of depth-$d$ decision tree and give a {\it distribution free} tester that distinguishes between depth-$d$ decision tree and functions that are $\epsilon$-far from depth-$d^2$ decision tree. In particular, for decision trees of size $s$, the above result holds in the distribution-free model when the tree depth is $O(\log(s/\epsilon)) $. We also give other new results in learning and testing of size-$s$ decision trees and depth-$d$ decision trees that follow from results in the literature and some results we prove in this paper.
翻訳日:2021-08-11 19:29:48 公開日:2021-08-10
# (参考訳) カメラ・LiDAR融合による複数物体の同時検出と追跡 [全文訳有]

Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving ( http://arxiv.org/abs/2108.04602v1 )

ライセンス: CC BY 4.0
Kemiao Huang and Qi Hao(参考訳) カメラとLiDARの融合による多対象追跡(MOT)は、オブジェクト検出、親和性計算、データ関連の正確な結果をリアルタイムに要求する。 本稿では、オンライン共同検出・追跡手法と自律運転用ロバストデータアソシエーションを備えた効率的なマルチモーダルMOTフレームワークを提案する。 本研究の新規性は,(1)2次元および3次元計測を用いた関節物体検出・相関のためのエンドツーエンドのディープニューラルネットワークの開発,(2)3次元空間における咬合認識と運動親和性を計算する頑健な親和性計算モジュールの開発,(3)検出信頼度,親和性,始末確率のジョイント最適化のための包括的データアソシエーションモジュールの開発である。 kittiトラッキングベンチマーク実験の結果,提案手法の性能は,追跡精度と処理速度の両方において優れていた。

Multi-object tracking (MOT) with camera-LiDAR fusion demands accurate results of object detection, affinity computation and data association in real time. This paper presents an efficient multi-modal MOT framework with online joint detection and tracking schemes and robust data association for autonomous driving applications. The novelty of this work includes: (1) development of an end-to-end deep neural network for joint object detection and correlation using 2D and 3D measurements; (2) development of a robust affinity computation module to compute occlusion-aware appearance and motion affinities in 3D space; (3) development of a comprehensive data association module for joint optimization among detection confidences, affinities and start-end probabilities. The experiment results on the KITTI tracking benchmark demonstrate the superior performance of the proposed method in terms of both tracking accuracy and processing speed.
翻訳日:2021-08-11 19:28:28 公開日:2021-08-10
# (参考訳) 白血球サブタイプの検出と分類 [全文訳有]

White blood cell subtype detection and classification ( http://arxiv.org/abs/2108.04614v1 )

ライセンス: CC BY 4.0
Nalla Praveen, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 機械学習は医療業界に無限の応用がある。 白血球の分類は、興味深い、有望な研究分野の1つである。 白血球の分類は、診断において重要な役割を担っている。 実践的な白血球分類では、血液を少量の塗抹し、顕微鏡で慎重に検査することにより、造血学者が行う。 白血球サブタイプを同定する現在の手順は、より時間がかかり、エラーが発生しやすい。 白血球の検出および診断を支援するコンピュータは、ヒューマンエラーを回避し、白血球の分類に要する時間を短縮する傾向がある。 近年では、白血球の分類における深層学習のアプローチが開発され、血液細胞画像中の白血球の位置を特定できるが、位置を特定できない。 そこで本研究では, YOLOv3オブジェクト検出技術を用いて, 白血球の局在化と分類を行う。 徹底的な実験分析により、提案された研究は、99.2%の精度で白血球を検出し、90%の精度で分類する。

Machine learning has endless applications in the health care industry. White blood cell classification is one of the interesting and promising area of research. The classification of the white blood cells plays an important part in the medical diagnosis. In practise white blood cell classification is performed by the haematologist by taking a small smear of blood and careful examination under the microscope. The current procedures to identify the white blood cell subtype is more time taking and error-prone. The computer aided detection and diagnosis of the white blood cells tend to avoid the human error and reduce the time taken to classify the white blood cells. In the recent years several deep learning approaches have been developed in the context of classification of the white blood cells that are able to identify but are unable to localize the positions of white blood cells in the blood cell image. Following this, the present research proposes to utilize YOLOv3 object detection technique to localize and classify the white blood cells with bounding boxes. With exhaustive experimental analysis, the proposed work is found to detect the white blood cell with 99.2% accuracy and classify with 90% accuracy.
翻訳日:2021-08-11 19:15:31 公開日:2021-08-10
# (参考訳) 資源の少ないkannada言語におけるホープ音声検出 [全文訳有]

Hope Speech detection in under-resourced Kannada language ( http://arxiv.org/abs/2108.04616v1 )

ライセンス: CC BY 4.0
Adeep Hande, Ruba Priyadharshini, Anbukkarasi Sampath, Kingston Pal Thamburaj, Prabakaran Chandran, Bharathi Raja Chakravarthi(参考訳) ソーシャルメディアプラットフォームから悪質、不快、激しいコメントを排除することで、近代における否定性の拡散を監視するために多くの方法が開発されている。 しかし、オンラインフォーラムでは、肯定性を受け入れ、支援的・安心的なコンテンツを補強する研究が比較的少ない。 そこで本研究では,英語-kannada hope音声データセットkanhopeの作成と,いくつかの実験の比較を行った。 このデータセットは、6,176件のユーザー生成コメントから成り、youtubeから抽出されたkannadaを、ホープスピーチまたはノンホップスピーチとして手作業でアノテートする。 さらに,2チャンネルモデルであるDC-BERT4HOPEを導入する。 このアプローチは重み付きF1スコアの0.756を達成し、他のモデルより優れている。 その後、KanHopeはカンナダの研究を奨励し、研究者にオンラインコンテンツに対する実践的なアプローチを奨励し、肯定的かつ支援的だ。

Numerous methods have been developed to monitor the spread of negativity in modern years by eliminating vulgar, offensive, and fierce comments from social media platforms. However, there are relatively lesser amounts of study that converges on embracing positivity, reinforcing supportive and reassuring content in online forums. Consequently, we propose creating an English-Kannada Hope speech dataset, KanHope and comparing several experiments to benchmark the dataset. The dataset consists of 6,176 user-generated comments in code mixed Kannada scraped from YouTube and manually annotated as bearing hope speech or Not-hope speech. In addition, we introduce DC-BERT4HOPE, a dual-channel model that uses the English translation of KanHope for additional training to promote hope speech detection. The approach achieves a weighted F1-score of 0.756, bettering other models. Henceforth, KanHope aims to instigate research in Kannada while broadly promoting researchers to take a pragmatic approach towards online content that encourages, positive, and supportive.
翻訳日:2021-08-11 19:09:03 公開日:2021-08-10
# (参考訳) 影響を最大化する学習 [全文訳有]

Learning to Maximize Influence ( http://arxiv.org/abs/2108.04623v1 )

ライセンス: CC BY 4.0
George Panagopoulos, Nikolaos Tziortziotis, Fragkiskos D. Malliaros, Michalis Vazirgiannis(参考訳) コンビネート最適化のための機械学習の分野が進むにつれて、従来の問題は新たな視点で再浮上し、読み直される。 文学の圧倒的多数は小さなグラフ問題に焦点を合わせているが、いくつかの実世界の問題は大きなグラフに当てられている。 ここでは, 影響推定, \#p-ハードカウント問題, 影響最大化, np-ハード問題という2つの問題に焦点を当てた。 我々は,自然に影響評価の上限をパラメータ化し,それを小さなシミュレーショングラフ上で訓練するグラフニューラルネットワーク(GNN)であるGLIEを開発した。 実験により、GLIEは列車の10倍のグラフの代替よりも正確に予測できることがわかった。 さらに重要なことに、任意の大きなグラフで影響の最大化に利用することができ、精度が低下しても効果的に種集合をランク付けすることができる。 これを示すために,従来の影響推定をGLIEの予測に置き換える標準影響最大化(IM)アルゴリズムのバージョンを提案する。また,GLIEの隠れ表現と予測を用いて,影響を逐次的に最大化する種の選択方法を学ぶ強化学習モデルにGLIEを移す。 その結果,提案手法は従来のGNN-RL手法を超越し,最先端のIMアルゴリズムに匹敵する性能を示した。

As the field of machine learning for combinatorial optimization advances, traditional problems are resurfaced and readdressed through this new perspective. The overwhelming majority of the literature focuses on small graph problems, while several real-world problems are devoted to large graphs. Here, we focus on two such problems that are related: influence estimation, a \#P-hard counting problem, and influence maximization, an NP-hard problem. We develop GLIE, a Graph Neural Network (GNN) that inherently parameterizes an upper bound of influence estimation and train it on small simulated graphs. Experiments show that GLIE can provide accurate predictions faster than the alternatives for graphs 10 times larger than the train set. More importantly, it can be used on arbitrary large graphs for influence maximization, as the predictions can rank effectively seed sets even when the accuracy deteriorates. To showcase this, we propose a version of a standard Influence Maximization (IM) algorithm where we substitute traditional influence estimation with the predictions of GLIE.We also transfer GLIE into a reinforcement learning model that learns how to choose seeds to maximize influence sequentially using GLIE's hidden representations and predictions. The final results show that the proposed methods surpasses a previous GNN-RL approach and perform on par with a state-of-the-art IM algorithm.
翻訳日:2021-08-11 18:43:23 公開日:2021-08-10
# (参考訳) きめ細かな認識のための標準3次元物体表現の学習 [全文訳有]

Learning Canonical 3D Object Representation for Fine-Grained Recognition ( http://arxiv.org/abs/2108.04628v1 )

ライセンス: CC BY 4.0
Sunghun Joung, Seungryong Kim, Minsu Kim, Ig-Jae Kim, Kwanghoon Sohn(参考訳) 本研究では, 1 つの画像から3次元空間における物体の変動を復元し, 3次元アノテーションを使わずに画像収集を訓練する, 細粒度物体認識のための新しいフレームワークを提案する。 物体を3次元形状とその外観の合成として表現し, カメラ視点の影響をなくし, 正準形状で表現することでこれを実現する。 2次元画像のみの空間変動をモデル化する従来の手法とは異なり、本手法は標準3次元空間における外観特徴を再構成することができ、その後のオブジェクト分類器を3次元形状変化下で不変にすることができる。 我々の表現はまた、オブジェクト認識のための追加のキューとして3次元形状のバリエーションを取り入れることで、既存の方法を超えることができる。 3dアノテーションなしでモデルを学習するために、微分可能なレンダラを解析・合成フレームワークにデプロイする。 深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習し,微細な画像認識と車両再識別における競合性能を実現する。 また, 微細な形状変形の学習により, 三次元形状復元性能が向上することが実証された。

We propose a novel framework for fine-grained object recognition that learns to recover object variation in 3D space from a single image, trained on an image collection without using any ground-truth 3D annotation. We accomplish this by representing an object as a composition of 3D shape and its appearance, while eliminating the effect of camera viewpoint, in a canonical configuration. Unlike conventional methods modeling spatial variation in 2D images only, our method is capable of reconfiguring the appearance feature in a canonical 3D space, thus enabling the subsequent object classifier to be invariant under 3D geometric variation. Our representation also allows us to go beyond existing methods, by incorporating 3D shape variation as an additional cue for object recognition. To learn the model without ground-truth 3D annotation, we deploy a differentiable renderer in an analysis-by-synthesi s framework. By incorporating 3D shape and appearance jointly in a deep representation, our method learns the discriminative representation of the object and achieves competitive performance on fine-grained image recognition and vehicle re-identification. We also demonstrate that the performance of 3D shape reconstruction is improved by learning fine-grained shape deformation in a boosting manner.
翻訳日:2021-08-11 18:26:56 公開日:2021-08-10
# (参考訳) FoodLogoDet-1500:マルチスケール特徴デカップリングネットワークによる大規模食品ロゴ検出用データセット [全文訳有]

FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network ( http://arxiv.org/abs/2108.04644v1 )

ライセンス: CC BY 4.0
Qiang Hou, Weiqing Min, Jing Wang, Sujuan Hou, Yuanjie Zheng, Shuqiang Jiang(参考訳) 食品のロゴ検出は、セルフサービスショップの食品推奨やeコマースプラットフォームの侵害検出など、幅広い現実のアプリケーションにおいてマルチメディアにおいて重要な役割を果たす。 高度な食品ロゴ検出アルゴリズムの開発には,大規模食品ロゴデータセットが緊急に必要である。 しかし、食品ブランド情報を含む食品ロゴデータセットは提供されていない。 食品ロゴ検出に向けた取り組みを支援するために,1500のカテゴリ,約10万枚の画像,約15万個の手作業でアノテーション付き食品ロゴオブジェクトを備えた,新しい大規模食品ロゴデータセットであるfoodlogodet-1500を紹介する。 本稿では,foodlogodet-1500の収集とアノテーションのプロセスを説明し,その規模と多様性を分析し,他のロゴデータセットと比較する。 われわれの知る限りでは、FoodLogoDet-1500は、食品のロゴ検出のための、初めて公開された高品質なデータセットだ。 食品ロゴ検出の課題は、食品ロゴカテゴリ間の大規模なカテゴリと類似性にある。 そこで本研究では,食品ロゴの分類と回帰を2つの分枝に分離し,その分枝に着目し,複数の食品ロゴ分類を区別する新しい食品ロゴ検出手法(mfdnet)を提案する。 具体的には,変形学習を最適分類オフセットに活用し,検出における分類の最も代表的な特徴を効果的に得ることのできる特徴オフセットモジュールを提案する。 さらに,グローバル情報に注目し,マルチスケール機能マップのバランスをとり,機能抽出能力を高めるmfdnetのバランス機能ピラミッドを採用した。 FoodLogoDet-1500および他の2つのベンチマークロゴデータセットに関する総合実験により,提案手法の有効性が示された。 FoodLogoDet-1500は、このhttpsURLで見ることができる。

Food logo detection plays an important role in the multimedia for its wide real-world applications, such as food recommendation of the self-service shop and infringement detection on e-commerce platforms. A large-scale food logo dataset is urgently needed for developing advanced food logo detection algorithms. However, there are no available food logo datasets with food brand information. To support efforts towards food logo detection, we introduce the dataset FoodLogoDet-1500, a new large-scale publicly available food logo dataset, which has 1,500 categories, about 100,000 images and about 150,000 manually annotated food logo objects. We describe the collection and annotation process of FoodLogoDet-1500, analyze its scale and diversity, and compare it with other logo datasets. To the best of our knowledge, FoodLogoDet-1500 is the first largest publicly available high-quality dataset for food logo detection. The challenge of food logo detection lies in the large-scale categories and similarities between food logo categories. For that, we propose a novel food logo detection method Multi-scale Feature Decoupling Network (MFDNet), which decouples classification and regression into two branches and focuses on the classification branch to solve the problem of distinguishing multiple food logo categories. Specifically, we introduce the feature offset module, which utilizes the deformation-learning for optimal classification offset and can effectively obtain the most representative features of classification in detection. In addition, we adopt a balanced feature pyramid in MFDNet, which pays attention to global information, balances the multi-scale feature maps, and enhances feature extraction capability. Comprehensive experiments on FoodLogoDet-1500 and other two benchmark logo datasets demonstrate the effectiveness of the proposed method. The FoodLogoDet-1500 can be found at this https URL.
翻訳日:2021-08-11 18:10:14 公開日:2021-08-10
# (参考訳) U-Net-and-a-half:複数の専門家駆動アノテーションを用いたバイオメディカルイメージセグメンテーションのための畳み込みネットワーク [全文訳有]

U-Net-and-a-half: Convolutional network for biomedical image segmentation using multiple expert-driven annotations ( http://arxiv.org/abs/2108.04658v1 )

ライセンス: CC BY 4.0
Yichi Zhang, Jesper Kers, Clarissa A. Cassol, Joris J. Roelofs, Najia Idrees, Alik Farber, Samir Haroon, Kevin P. Daly, Suvranu Ganguli, Vipul C. Chitalia, Vijaya B. Kolachalama(参考訳) 生物医学的なセグメンテーションのためのディープラーニングシステムの開発には、しばしば専門家主導の手動アノテーション付きデータセットへのアクセスが必要である。 同じ画像のアノテーションに1人以上の専門家が関わっている場合、専門家間の合意は必ずしも完璧ではなく、すべての画像に対するいわゆる関心領域の真実を正確に捉えることはできない。 また、複数の専門家のアノテーションを使って参照推定を生成するのも簡単ではない。 ここでは、複数の専門家が同じ画像集合上で実行するアノテーションから同時に学習できる、U-Net-and-a-halfとして定義されるディープニューラルネットワークを提案する。 U-Net-and-a-halfには、入力画像から特徴を生成する畳み込みエンコーダ、複数の専門家が独立して生成したアノテーションから得られる画像マスクから同時に学習する複数のデコーダ、共有低次元特徴空間が含まれる。 この枠組みの適用性を示すために,デジタル病理学と放射線学の2つの異なるデータセットを用いた。 具体的には,ヒト腎生検(10例)のスライス画像全体に対する糸球体造影法と,血管内超音波画像(10例)から得られたヒト動静脈ジストロフィーの腔断面のX線学的アノテーションを用いて2つの異なるモデルを訓練した。 U-Net-and-a-halfに基づくモデルは、単一の専門家アノテーションだけで訓練された従来のU-Netモデルの性能を上回り、バイオメディカルイメージセグメンテーションの文脈でマルチタスク学習の範囲を広げた。

Development of deep learning systems for biomedical segmentation often requires access to expert-driven, manually annotated datasets. If more than a single expert is involved in the annotation of the same images, then the inter-expert agreement is not necessarily perfect, and no single expert annotation can precisely capture the so-called ground truth of the regions of interest on all images. Also, it is not trivial to generate a reference estimate using annotations from multiple experts. Here we present a deep neural network, defined as U-Net-and-a-half, which can simultaneously learn from annotations performed by multiple experts on the same set of images. U-Net-and-a-half contains a convolutional encoder to generate features from the input images, multiple decoders that allow simultaneous learning from image masks obtained from annotations that were independently generated by multiple experts, and a shared low-dimensional feature space. To demonstrate the applicability of our framework, we used two distinct datasets from digital pathology and radiology, respectively. Specifically, we trained two separate models using pathologist-driven annotations of glomeruli on whole slide images of human kidney biopsies (10 patients), and radiologist-driven annotations of lumen cross-sections of human arteriovenous fistulae obtained from intravascular ultrasound images (10 patients), respectively. The models based on U-Net-and-a-half exceeded the performance of the traditional U-Net models trained on single expert annotations alone, thus expanding the scope of multitask learning in the context of biomedical image segmentation.
翻訳日:2021-08-11 17:56:36 公開日:2021-08-10
# (参考訳) 伝達学習と遅延空間類似度正規化を用いた自動音声キャプション [全文訳有]

Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization ( http://arxiv.org/abs/2108.04692v1 )

ライセンス: CC BY 4.0
Andrew Koh, Fuzhao Xue, Eng Siong Chng(参考訳) 本稿では,事前学習された音声ニューラルネットワーク(pann)を用いたトランスファー学習の利用について検討し,自動音声キャプションタスクにおいて,pannが提供する音響的特徴をより活用できるアーキテクチャを提案する。 また,新たな自己教師型目標であるRestruction Latent Space similarity Regularization (RLSSR)を導入する。 RLSSRモジュールはエンコーダとデコーダの埋め込みの類似性を最小化することでモデルのトレーニングを補完する。 両方の手法を組み合わせることで、いくつかのメトリクスとベンチマークでClathoデータセットのかなりのマージンで、アート結果の状態を超えることができます。

In this paper, we examine the use of Transfer Learning using Pretrained Audio Neural Networks (PANNs), and propose an architecture that is able to better leverage the acoustic features provided by PANNs for the Automated Audio Captioning Task. We also introduce a novel self-supervised objective, Reconstruction Latent Space Similarity Regularization (RLSSR). The RLSSR module supplements the training of the model by minimizing the similarity between the encoder and decoder embedding. The combination of both methods allows us to surpass state of the art results by a significant margin on the Clotho dataset across several metrics and benchmarks.
翻訳日:2021-08-11 17:38:17 公開日:2021-08-10
# (参考訳) 軌道テンソルを用いたマルチカメラ軌道予測 [全文訳有]

Multi-Camera Trajectory Forecasting with Trajectory Tensors ( http://arxiv.org/abs/2108.04694v1 )

ライセンス: CC BY 4.0
Olly Styles, Tanaya Guha and Victor Sanchez(参考訳) 本稿では,移動物体の移動経路をカメラネットワーク上で予測するマルチカメラ軌道予測(MCTF)の問題を紹介する。 監視や交通監視などのアプリケーションでは、マルチカメラのセットアップが広く使われているが、既存のトラジェクトリ予測手法はシングルカメラトラジェクトリ予測(SCTF)に重点を置いており、そのようなアプリケーションの使用を制限する。 さらに、単一のカメラを使用すると視野が制限され、長期の軌道予測が不可能になる。 SCTFのこれらの欠点に対処するため、MCTFフレームワークを開発し、複数の視点から推定された全ての相対的対象位置を同時に利用し、可能な全ての視点で対象の将来の位置を予測する。 我々のフレームワークは、オブジェクトがどのカメラに現れるか、そして、いつ、どこに現れるかを予測する、その時空のアプローチに従っています。 この目的のために,複数のカメラビューと関連する不確実性にまたがる軌跡を符号化する新しい手法である軌道テンソルの概念を提案する。 トラジェクトリテンソルのためのエンコーダ・デコーダMCTFモデルを開発し、特にMCTFタスクのために作成したデータベース(15カメラビューから600時間のビデオデータを含む)で広範な実験を行う。 その結果, 軌道テンソルモデルは, 座標軌道に基づくMCTFモデルおよび既存のSCTF法よりも優れていた。 https://github.com/o lly-styles/Trajector y-Tensors

We introduce the problem of multi-camera trajectory forecasting (MCTF), which involves predicting the trajectory of a moving object across a network of cameras. While multi-camera setups are widespread for applications such as surveillance and traffic monitoring, existing trajectory forecasting methods typically focus on single-camera trajectory forecasting (SCTF), limiting their use for such applications. Furthermore, using a single camera limits the field-of-view available, making long-term trajectory forecasting impossible. We address these shortcomings of SCTF by developing an MCTF framework that simultaneously uses all estimated relative object locations from several viewpoints and predicts the object's future location in all possible viewpoints. Our framework follows a Which-When-Where approach that predicts in which camera(s) the objects appear and when and where within the camera views they appear. To this end, we propose the concept of trajectory tensors: a new technique to encode trajectories across multiple camera views and the associated uncertainties. We develop several encoder-decoder MCTF models for trajectory tensors and present extensive experiments on our own database (comprising 600 hours of video data from 15 camera views) created particularly for the MCTF task. Results show that our trajectory tensor models outperform coordinate trajectory-based MCTF models and existing SCTF methods adapted for MCTF. Code is available from: https://github.com/o lly-styles/Trajector y-Tensors
翻訳日:2021-08-11 17:29:28 公開日:2021-08-10
# (参考訳) BIDCD - Bosch Industrial Depth Completion Dataset [全文訳有]

BIDCD - Bosch Industrial Depth Completion Dataset ( http://arxiv.org/abs/2108.04706v1 )

ライセンス: CC BY 4.0
Adam Botach, Yuri Feldman, Yakov Miron, Yoel Shapiro, Dotan Di Castro(参考訳) BIDCD - Bosch Industrial Depth Completion Datasetを紹介する。 bidcdは、金属産業用の新しいrgbdデータセットで、ロボットマニピュレータに搭載された深度カメラで収集される。 このデータセットの主な目的は、物流や製造タスクで使用されるドメイン固有の深度補完モデルのトレーニングを容易にすることである。 このデータセットで最先端の奥行き完了モデルをトレーニングし、その結果を報告し、最初のベンチマークを設定しました。

We introduce BIDCD - the Bosch Industrial Depth Completion Dataset. BIDCD is a new RGBD dataset of metallic industrial objects, collected with a depth camera mounted on a robotic manipulator. The main purpose of this dataset is to facilitate the training of domain-specific depth completion models, to be used in logistics and manufacturing tasks. We trained a State-of-the-Art depth completion model on this dataset, and report the results, setting an initial benchmark.
翻訳日:2021-08-11 17:11:19 公開日:2021-08-10
# (参考訳) サンプリングに基づくニューラルネットワーク翻訳のための最小ベイズリスクデコーディング [全文訳有]

Sampling-Based Minimum Bayes Risk Decoding for Neural Machine Translation ( http://arxiv.org/abs/2108.04718v1 )

ライセンス: CC BY 4.0
Bryan Eikema and Wilker Aziz(参考訳) ニューラルマシン翻訳(NMT)では,モデル分布のモードを探索して予測を行う。 ビーム探索によって発見された他の高確率翻訳と同様に、モードはしばしばいくつかの方法で不十分であることが示されている。 これにより、特殊な同期翻訳は、ビーム検索の呪いとして知られるデコードアルゴリズムによって選択されるため、より良い検索を通じて翻訳品質を改善することができない。 近年,nmtの代替決定ルールとして,最小ベイズリスク(mbr)復号に対するサンプリングベース近似が提案されている。 我々はこの近似を解析し、ビーム探索の呪いに相当するものを持たないことを立証する。 より良い検索は 常により良い翻訳につながる また,探索コストと期待ユーティリティのロバストな推定コストとの分離を目的とした,異なる近似も設計した。 これにより、より大きな仮説空間を探索できるが、これは有益であることを示す。 また,ビーム探索や核サンプリングなどの戦略を用いて仮説空間を効率的に構築することは有益であることを示す。 我々は、3つの言語対(ドイツ語、ルーマニア語、ネパール語)で、MBRは適度な計算でビームサーチにより改善可能であることを示す。

In neural machine translation (NMT), we search for the mode of the model distribution to form predictions. The mode as well as other high probability translations found by beam search have been shown to often be inadequate in a number of ways. This prevents practitioners from improving translation quality through better search, as these idiosyncratic translations end up being selected by the decoding algorithm, a problem known as the beam search curse. Recently, a sampling-based approximation to minimum Bayes risk (MBR) decoding has been proposed as an alternative decision rule for NMT that would likely not suffer from the same problems. We analyse this approximation and establish that it has no equivalent to the beam search curse, i.e. better search always leads to better translations. We also design different approximations aimed at decoupling the cost of exploration from the cost of robust estimation of expected utility. This allows for exploration of much larger hypothesis spaces, which we show to be beneficial. We also show that it can be beneficial to make use of strategies like beam search and nucleus sampling to construct hypothesis spaces efficiently. We show on three language pairs (English into and from German, Romanian, and Nepali) that MBR can improve upon beam search with moderate computation.
翻訳日:2021-08-11 17:01:53 公開日:2021-08-10
# (参考訳) クラウドソーシングデータベースとsuジェネリス権利 [全文訳有]

Crowdsourced Databases and Sui Generis Rights ( http://arxiv.org/abs/2108.04727v1 )

ライセンス: CC BY 4.0
Gon\c{c}alo Sim\~oes de Almeida, Gon\c{c}alo Faria Abreu(参考訳) 本研究では,ヨーロッパにおけるデータベースの法的保護に関する議論に新たな概念的アプローチを加え,データベース(crowdsourced database)の新たな概念を提案する。 私たちはまた、現在の法的枠組みと現在のインデックス化とwebスクレイピングのプラクティスを要約します。

In this study we propose a new concept of databases (crowdsourced databases), adding a new conceptual approach to the debate on legal protection of databases in Europe. We also summarise the current legal framework and current indexing and web scraping practices - it would not be prudent to suggest a new theory without contextualising it in the legal and practical context in which it is developed.
翻訳日:2021-08-11 16:37:40 公開日:2021-08-10
# (参考訳) 半逆モデルにおける相関クラスタリング再構成

Correlation Clustering Reconstruction in Semi-Adversarial Models ( http://arxiv.org/abs/2108.04729v1 )

ライセンス: CC BY 4.0
Flavio Chierichetti, Alessandro Panconesi, Giuseppe Re, Luca Trevisan(参考訳) 相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。 本研究では,無作為な雑音や逆向きの修正によって損なわれた潜在クラスタリングを再構築しようとする問題の再構成版について検討する。 後者については,雑音の後に副次的修正が現れる標準的な「副次的後」モデルについて検討し,また,雑音の前に副次的修正が現れる「前副次的」モデルを紹介し分析する。 そのような半逆生成モデルからの入力を考えると、目標はほぼ完全に、高い確率で潜在クラスタリングを再構築することである。 隠れたクラスタのサイズが同じである場合に注目し、以下のことを示します。 前向きの設定では、スペクトルアルゴリズムは、再構成が不可能な情報理論のしきい値まで全て再構成するという意味で最適である。 対照的に、先進的な設定では、隠れたクラスタを復元する能力はしきい値の前に停止するが、ギャップはSDPベースのアルゴリズムで最適に満たされる。

Correlation Clustering is an important clustering problem with many applications. We study the reconstruction version of this problem in which one is seeking to reconstruct a latent clustering that has been corrupted by random noise and adversarial modifications. Concerning the latter, we study a standard "post-adversarial&quo t; model, in which adversarial modifications come after the noise, and also introduce and analyze a "pre-adversarial" ; model in which adversarial modifications come before the noise. Given an input coming from such a semi-adversarial generative model, the goal is to reconstruct almost perfectly and with high probability the latent clustering. We focus on the case where the hidden clusters have equal size and show the following. In the pre-adversarial setting, spectral algorithms are optimal, in the sense that they reconstruct all the way to the information-theoreti c threshold beyond which no reconstruction is possible. In contrast, in the post-adversarial setting their ability to restore the hidden clusters stops before the threshold, but the gap is optimally filled by SDP-based algorithms.
翻訳日:2021-08-11 16:24:38 公開日:2021-08-10
# (参考訳) ヘッドスパンに基づく射影依存性解析 [全文訳有]

Headed Span-Based Projective Dependency Parsing ( http://arxiv.org/abs/2108.04750v1 )

ライセンス: CC BY 4.0
Songlin Yang, Kewei Tu(参考訳) 本稿では,プロジェクティブ依存関係解析のための階層型スパンベース手法を提案する。 射影木では、各単語に根付いた部分木は、表面順序の連続配列(つまり、スパン)で発生し、スパン-ヘッドワード対 \textit{headed span} と呼ぶ。 この見方では、射影木は頭上のスパンの集合と見なすことができる。 選挙区木を構成スパンのコレクションとみなすことができるため、選挙区解析の場合と似ている。 Span-based method is decompose the score of constituency tree sorely into the score of composition spans and using the CYK algorithm for global training and exact inference, obtained the State-of-the-art results in constituency parsing。 それらに触発されて、依存木のスコアを先頭のスパンのスコアに分解します。 我々はニューラルネットワークを用いて、グローバルトレーニングと正確な推論を可能にする新しい$O(n^3)$動的プログラミングアルゴリズムを設計する。 本手法をptb, ctb, udで評価し, 最新の結果, 比較結果を得た。

We propose a headed span-based method for projective dependency parsing. In a projective tree, the subtree rooted at each word occurs in a contiguous sequence (i.e., span) in the surface order, we call the span-headword pair \textit{headed span}. In this view, a projective tree can be regarded as a collection of headed spans. It is similar to the case in constituency parsing since a constituency tree can be regarded as a collection of constituent spans. Span-based methods decompose the score of a constituency tree sorely into the score of constituent spans and use the CYK algorithm for global training and exact inference, obtaining state-of-the-art results in constituency parsing. Inspired by them, we decompose the score of a dependency tree into the score of headed spans. We use neural networks to score headed spans and design a novel $O(n^3)$ dynamic programming algorithm to enable global training and exact inference. We evaluate our method on PTB, CTB, and UD, achieving state-of-the-art or comparable results.
翻訳日:2021-08-11 16:23:35 公開日:2021-08-10
# (参考訳) 論理情報セルI

Logical Information Cells I ( http://arxiv.org/abs/2108.04751v1 )

ライセンス: CC BY 4.0
Jean-Claude Belfiore, Daniel Bennequin and Xavier Giraud(参考訳) 本研究では,単純な人工ネットワークにおける可視的推論の自発的帰属を探索し,この実験を意味情報の概念と結びつける。 2017年と2018年にneromyliotisとmoschovakisが研究した、サルの自然ニューロンのdnnモデルの再現から始まり、指先の動きのみをコードする「運動等価ニューロン」が、他のニューロンによって補足され、行動のアクター、アイe、手h、目と手を特定する。 内部ニューロンは論理的な働きをし、例えばEV EHのような中間命題を作る。 次に、第2の隠蔽層を追加し、学習のための対称メートル法を選択すると、ニューロンの活動はほぼ定量化され、より情報的になる。 カルナップ (Carnap) とBar-Hillel 1952 (Bar-Hillel 1952) の業績を用いて、そのような細胞の集合に対する論理値の尺度を定義する。 論理的なスコアは、層の深さ、すなわち、成長する。 出力決定に関する情報が増加し、ある種のボトルネック原理が確認できる。 そして、もう少し複雑なタスク、述語論理を含む優先順位を研究します。 論理と測定した重量を比較する。 これは、ニューロンのグループに対して、論理的なスコアと重みの大きさの間の適切な相関を示す。 層間の間隔を示す。 最も壮大な結果は、全ての条件で結論できる三重項に関するもので、その重み行列をそれらの論理行列に適用すると、分類を回復する。 これは重みが正確に証明を行うことを示す。

In this study we explore the spontaneous apparition of visible intelligible reasoning in simple artificial networks, and we connect this experimental observation with a notion of semantic information. We start with the reproduction of a DNN model of natural neurons in monkeys, studied by Neromyliotis and Moschovakis in 2017 and 2018, to explain how "motor equivalent neurons", coding only for the action of pointing, are supplemented by other neurons for specifying the actor of the action, the eye E, the hand H, or the eye and the hand together EH. There appear inner neurons performing a logical work, making intermediary proposition, for instance E V EH. Then, we remarked that adding a second hidden layer and choosing a symmetric metric for learning, the activities of the neurons become almost quantized and more informative. Using the work of Carnap and Bar-Hillel 1952, we define a measure of the logical value for collections of such cells. The logical score growths with the depth of the layer, i.e. the information on the output decision increases, which confirms a kind of bottleneck principle. Then we study a bit more complex tasks, a priori involving predicate logic. We compare the logic and the measured weights. This shows, for groups of neurons, a neat correlation between the logical score and the size of the weights. It exhibits a form of sparsity between the layers. The most spectacular result concerns the triples which can conclude for all conditions: when applying their weight matrices to their logical matrix, we recover the classification. This shows that weights precisely perform the proofs.
翻訳日:2021-08-11 16:08:12 公開日:2021-08-10
# (参考訳) 多値認知地図:数を用いない言語変数による計算 [全文訳有]

Multi-Valued Cognitive Maps: Calculations with Linguistic Variables without Using Numbers ( http://arxiv.org/abs/2108.04760v1 )

ライセンス: CC BY 4.0
Dmitry Maximov(参考訳) 本稿では,多値認知マップの概念を紹介する。 その概念はファジィなものを広げる。 しかし、全ての変数と重みは概念において線型順序付けではないが、部分的に順序付けされているだけである。 このようなアプローチにより,曖昧な曖昧/難読化手法を使わずに,言語変数を部分順序付けした認知地図上で直接操作することができる。 したがって、ファジィの場合よりも専門家の不確実性の度合いの微妙な違いを考慮することができる。 このような認知写像の収束を証明し、そのような半順序の不確かさ度スケールを用いて簡単な計算例を示す。

A concept of multi-valued cognitive maps is introduced in this paper. The concept expands the fuzzy one. However, all variables and weights are not linearly ordered in the concept, but are only partially-ordered. Such an ap- proach allows us to operate in cognitive maps with partially-ordered linguis- tic variables directly, without vague fuzzification/defuzz ification methods. Hence, we may consider more subtle differences in degrees of experts' uncer- tainty, than in the fuzzy case. We prove the convergence of such cognitive maps and give a simple computational example which demonstrates using such a partially-ordered uncertainty degree scale.
翻訳日:2021-08-11 16:07:01 公開日:2021-08-10
# (参考訳) 解集合プログラミングにおける接地の基礎について

On the Foundations of Grounding in Answer Set Programming ( http://arxiv.org/abs/2108.04769v1 )

ライセンス: CC BY-SA 4.0
Roland Kaminski and Torsten Schaub(参考訳) ASP(Answer Set Programming)において、変数のインスタンス化やグラウンド化の理論の基礎を包括的に解明する。 aspのモデリング言語のセマンティクスに基づいて、(固定点)演算子という観点で、接地アルゴリズムの形式的特徴付けを導入する。 主要な役割は、オン・ザ・フライの単純化と共に接地の結果を示すための意味的ガイダンスを提供する専門の確立したオペレータによって担われる。 本稿では,再帰的集約を組み込んだ論理プログラムの表現型クラスに対処し,既存のASPモデリング言語の範囲に相当する。 これは、再帰的な集合の基底を詳述する単純なアルゴリズムの枠組みを伴う。 与えられたアルゴリズムは、基本的にASP grounder gringoで使用されるアルゴリズムに対応する。

We provide a comprehensive elaboration of the theoretical foundations of variable instantiation, or grounding, in Answer Set Programming (ASP). Building on the semantics of ASP's modeling language, we introduce a formal characterization of grounding algorithms in terms of (fixed point) operators. A major role is played by dedicated well-founded operators whose associated models provide semantic guidance for delineating the result of grounding along with on-the-fly simplifications. We address an expressive class of logic programs that incorporates recursive aggregates and thus amounts to the scope of existing ASP modeling languages. This is accompanied with a plain algorithmic framework detailing the grounding of recursive aggregates. The given algorithms correspond essentially to the ones used in the ASP grounder gringo.
翻訳日:2021-08-11 15:53:39 公開日:2021-08-10
# (参考訳) sunet: ロールシャッター補正のための対称非歪ネットワーク [全文訳有]

SUNet: Symmetric Undistortion Network for Rolling Shutter Correction ( http://arxiv.org/abs/2108.04775v1 )

ライセンス: CC BY 4.0
Bin Fan and Yuchao Dai and Mingyi He(参考訳) 現代のコンシューマー級カメラの大多数はローリングシャッター機構を採用しており、画像取得中にカメラが動くと画像歪みが発生する。 本稿では,2つの連続フレームを用いた転がりシャッター補正問題を解くための新しいディープネットワークを提案する。 このパイプラインは2つのフレームの中間時間に対応するグローバルシャッター画像を予測するように対称的に設計されており,2つのフレームと最も異なるカメラポーズに対応するため,既存の手法では困難である。 まず, ピラミッド構造, ウォーピング, コストボリューム処理という確立した原理を用いて, 時間対称な2つの非歪流を推定する。 そして、両ローリングシャッター画像は、それぞれ特徴空間内の共通のグローバルシャッター画像に巻き込まれる。 最後に、画像デコーダ内に対称整合性制約を構築し、2つのローリングシャッター画像のコンテキストキューを効果的に集約し、高品質なグローバルシャッター画像の復元を行う。 公開ベンチマークから得られた合成データと実データの両方を用いた広範な実験により,最先端手法に対する提案手法の優位性が証明された。

The vast majority of modern consumer-grade cameras employ a rolling shutter mechanism, leading to image distortions if the camera moves during image acquisition. In this paper, we present a novel deep network to solve the generic rolling shutter correction problem with two consecutive frames. Our pipeline is symmetrically designed to predict the global shutter image corresponding to the intermediate time of these two frames, which is difficult for existing methods because it corresponds to a camera pose that differs most from the two frames. First, two time-symmetric dense undistortion flows are estimated by using well-established principles: pyramidal construction, warping, and cost volume processing. Then, both rolling shutter images are warped into a common global shutter one in the feature space, respectively. Finally, a symmetric consistency constraint is constructed in the image decoder to effectively aggregate the contextual cues of two rolling shutter images, thereby recovering the high-quality global shutter image. Extensive experiments with both synthetic and real data from public benchmarks demonstrate the superiority of our proposed approach over the state-of-the-art methods.
翻訳日:2021-08-11 15:52:38 公開日:2021-08-10
# (参考訳) 新型コロナウイルス(covid-19)パンデミックが道路交通安全に及ぼす影響分析:ニューヨーク、ロサンゼルス、ボストンを事例として [全文訳有]

Analyzing Effects of The COVID-19 Pandemic on Road Traffic Safety: The Cases of New York City, Los Angeles, and Boston ( http://arxiv.org/abs/2108.04787v1 )

ライセンス: CC BY 4.0
Lahari Karadla, Weizi Li(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界中で大きな社会的・経済的影響をもたらした。 健康上の影響に加えて、交通行動への影響も急激で劇的なものだった。 我々は,米国におけるニューヨーク市,ロサンゼルス,ボストンの道路交通安全が,パンデミックとそれに対応する自治体の命令と規制によってどのように影響を受けるかを分析した。 具体的には、パンデミック発生前後の事故ホットスポットの分布を調査し、前年に比べて交通事故が場所と時間の両方で変化していることを発見した。 さらに,これらのホットスポット地域での道路ネットワーク特性について検討し,ホットスポットシフトの根本原因を明らかにすることを期待した。

The COVID-19 pandemic has resulted in significant social and economic impacts throughout the world. In addition to the health consequences, the impacts on traffic behaviors have also been sudden and dramatic. We have analyzed how the road traffic safety of New York City, Los Angeles, and Boston in the U.S. have been impacted by the pandemic and corresponding local government orders and restrictions. To be specific, we have studied the accident hotspots' distributions before and after the outbreak of the pandemic and found that traffic accidents have shifted in both location and time compared to previous years. In addition, we have studied the road network characteristics in those hotspot regions with the hope to understand the underlying cause of the hotspot shifts.
翻訳日:2021-08-11 15:18:24 公開日:2021-08-10
# (参考訳) ベイズ最適化によるスパイダーウェブナノメカニカル共振器-自然に触発され機械学習に導かれる [全文訳有]

Spiderweb nanomechanical resonators via Bayesian optimization: inspired by nature and guided by machine learning ( http://arxiv.org/abs/2108.04809v1 )

ライセンス: CC BY 4.0
Dongil Shin, Andrea Cupertino, Matthijs H. J. de Jong, Peter G. Steeneken, Miguel A. Bessa, Richard A. Norte(参考訳) 基本力の超感度検出器から量子ネットワークやセンサーまで、機械共振器は次世代技術を室温環境で動作させることができる。 現在、窒化ケイ素ナノ共振器は、周囲の熱雑音から著しく分離された機械的共振器を許容することにより、これらの進歩において主要なマイクロチッププラットフォームとなっている。 しかし、これまでのところ、人間の直観はデザインプロセスの原動力であり続けている。 ここでは,自然に触発され,機械学習によって誘導されるスパイダーウェブ型ナノメカニカル共振器を開発し,データ駆動最適化アルゴリズムによって新たに発見された「ねじりソフトクランプ」機構を用いて,環境熱環境から分離した振動モードを示す。 このバイオインスパイアされた共振器はその後製造され、室温環境では10億以上の品質因子を持つ力学の新しいパラダイムを実験的に確認した。 他の最先端の共振器とは対照的に、このマイルストーンはサブミクロンリソグラフィーの特徴や複雑なフォノニックバンドギャップを必要としないコンパクトな設計で達成され、大規模な製造でかなり簡単で安価である。 ここでは、創造性を高めるために人間の直感と連動して働く機械学習の能力を示し、コンピューティングとナノテクノロジーの新しい戦略を明らかにする。

From ultra-sensitive detectors of fundamental forces to quantum networks and sensors, mechanical resonators are enabling next-generation technologies to operate in room temperature environments. Currently, silicon nitride nanoresonators stand as a leading microchip platform in these advances by allowing for mechanical resonators whose motion is remarkably isolated from ambient thermal noise. However, to date, human intuition has remained the driving force behind design processes. Here, inspired by nature and guided by machine learning, a spiderweb nanomechanical resonator is developed that exhibits vibration modes which are isolated from ambient thermal environments via a novel "torsional soft-clamping" mechanism discovered by the data-driven optimization algorithm. This bio-inspired resonator is then fabricated; experimentally confirming a new paradigm in mechanics with quality factors above 1 billion in room temperature environments. In contrast to other state-of-the-art resonators, this milestone is achieved with a compact design which does not require sub-micron lithographic features or complex phononic bandgaps, making it significantly easier and cheaper to manufacture at large scales. Here we demonstrate the ability of machine learning to work in tandem with human intuition to augment creative possibilities and uncover new strategies in computing and nanotechnology.
翻訳日:2021-08-11 15:11:29 公開日:2021-08-10
# (参考訳) 属性の不確かさの情報:入力データの誤りについてどんな畳み込みニューラルネットワークが学べるか

The information of attribute uncertainties: what convolutional neural networks can learn about errors in input data ( http://arxiv.org/abs/2108.04742v1 )

ライセンス: CC BY 4.0
Nat\'alia V. N. Rodrigues, L. Raul Abramo, Nina S. Hirata(参考訳) 測定におけるエラーはデータの重み付けの鍵であるが、機械学習(ml)では無視されることが多い。 畳み込みニューラルネットワーク(CNN)が,信号と雑音の文脈やパターンを学習し,分類法の性能向上につながることを示す。 2つのオブジェクトのクラスが基礎となるガウス分布に従い、特徴(入力データ)が変化するが既知のノイズレベルが変化するモデルを構築する。 このモデルは科学的データセットの性質を模倣し、ノイズは基礎となる分布が知られているランダムなプロセスの実現として生じる。 これらのオブジェクトの分類は、標準統計技術(最小二乗最小化やマルコフ連鎖モンテカルロなど)とml技術を用いて行うことができる。 これにより、オブジェクト分類に対する最大限のアプローチを活用でき、入力データの不確実性にML手法が情報を組み込んでいる量を測定することができる。 各データポイントが異なるレベルのノイズ(すなわち、分布関数の異なるノイズ)にさらされている場合、情報をCNNによって学習することができ、最小二乗法の少なくとも同じレベルまでML性能を上昇させ、時にはそれを超えることもあることを示す。 さらに, 雑音レベルが変化する場合, ml分類器の信頼度は累積分布関数のプロキシとして機能するが, 特定の入力データの不確かさに関する情報がcnnsに提供された場合にのみ有効であることを示す。

Errors in measurements are key to weighting the value of data, but are often neglected in Machine Learning (ML). We show how Convolutional Neural Networks (CNNs) are able to learn about the context and patterns of signal and noise, leading to improvements in the performance of classification methods. We construct a model whereby two classes of objects follow an underlying Gaussian distribution, and where the features (the input data) have varying, but known, levels of noise. This model mimics the nature of scientific data sets, where the noises arise as realizations of some random processes whose underlying distributions are known. The classification of these objects can then be performed using standard statistical techniques (e.g., least-squares minimization or Markov-Chain Monte Carlo), as well as ML techniques. This allows us to take advantage of a maximum likelihood approach to object classification, and to measure the amount by which the ML methods are incorporating the information in the input data uncertainties. We show that, when each data point is subject to different levels of noise (i.e., noises with different distribution functions), that information can be learned by the CNNs, raising the ML performance to at least the same level of the least-squares method -- and sometimes even surpassing it. Furthermore, we show that, with varying noise levels, the confidence of the ML classifiers serves as a proxy for the underlying cumulative distribution function, but only if the information about specific input data uncertainties is provided to the CNNs.
翻訳日:2021-08-11 14:36:57 公開日:2021-08-10
# 人間追従行動観察によるグラウンドドインストラクション生成のための連続学習

Continual Learning for Grounded Instruction Generation by Observing Human Following Behavior ( http://arxiv.org/abs/2108.04812v1 )

ライセンス: Link先を確認
Noriyuki Kojima, Alane Suhr, Yoav Artzi(参考訳) 人間の指示実行を観察し,自然言語命令生成のための連続学習について検討した。 我々は,自然言語を用いてタスクの動作と委譲を行う,協調的なシナリオに注目した。 生成した命令のユーザ実行を,その意図を伝えるシステムの成功を示す指標として,元のシステム意図と比較する。 我々は,この信号を用いて,文脈的バンディット学習による命令生成能力を向上させる方法を示す。 実際のユーザと対話することで,時間とともに言語を生成する能力が劇的に向上することを示す。

We study continual learning for natural language instruction generation, by observing human users' instruction execution. We focus on a collaborative scenario, where the system both acts and delegates tasks to human users using natural language. We compare user execution of generated instructions to the original system intent as an indication to the system's success communicating its intent. We show how to use this signal to improve the system's ability to generate instructions via contextual bandit learning. In interaction with real users, our system demonstrates dramatic improvements in its ability to generate language over time.
翻訳日:2021-08-11 14:35:38 公開日:2021-08-10
# NoTeacherを用いた放射線画像の半教師による分類--意味不明の教師

Semi-supervised classification of radiology images with NoTeacher: A Teacher that is not Mean ( http://arxiv.org/abs/2108.04423v1 )

ライセンス: Link先を確認
Balagopal Unnikrishnan, Cuong Nguyen, Shafa Balaram, Chao Li, Chuan Sheng Foo, Pavitra Krishnaswamy(参考訳) 深層学習モデルは放射線画像分類において高い性能を達成するが、大規模なラベル付きトレーニングデータセットの必要性により、その実践的応用はボトルネックとなる。 semi-supervised learning (ssl) アプローチは、小さなラベル付きデータセットと大きなラベル付きデータセットを併用し、ラベル付きコストを削減する可能性を提供する。 本研究では,確率的グラフィカルモデルを組み込んだ新しい一貫性ベースのSSLフレームワークであるNoTeacherを紹介する。 教師ネットワークを時間的アンサンブルで更新する平均教師とは異なり、NoTeacherは2つの独立したネットワークを採用しており、教師ネットワークの必要性を排除している。 放射線画像分類における様々な課題に対処するために,NoTeacherをどのようにカスタマイズできるかを示す。 具体的には、トレーニングデータのラベル付き部分とラベルなし部分の間の2次元および3次元入力、ユニおよびマルチラベル分類、クラス分布ミスマッチのシナリオに対する適応について述べる。 放射線学(X-Ray, CT, MRI)の能動モーダル性にまたがる3つの公開ベンチマークデータセットの現実的評価において,NoTeacherは5~15%の予算で全監督されたAUROCの90~95%以上を達成していることを示す。 さらに、NoTeacherは、最小限のハイパーパラメータチューニングによるSSLメソッドよりも優れており、放射線学応用における半教師あり学習の原則的かつ実践的な選択肢として含んでいる。

Deep learning models achieve strong performance for radiology image classification, but their practical application is bottlenecked by the need for large labeled training datasets. Semi-supervised learning (SSL) approaches leverage small labeled datasets alongside larger unlabeled datasets and offer potential for reducing labeling cost. In this work, we introduce NoTeacher, a novel consistency-based SSL framework which incorporates probabilistic graphical models. Unlike Mean Teacher which maintains a teacher network updated via a temporal ensemble, NoTeacher employs two independent networks, thereby eliminating the need for a teacher network. We demonstrate how NoTeacher can be customized to handle a range of challenges in radiology image classification. Specifically, we describe adaptations for scenarios with 2D and 3D inputs, uni and multi-label classification, and class distribution mismatch between labeled and unlabeled portions of the training data. In realistic empirical evaluations on three public benchmark datasets spanning the workhorse modalities of radiology (X-Ray, CT, MRI), we show that NoTeacher achieves over 90-95% of the fully supervised AUROC with less than 5-15% labeling budget. Further, NoTeacher outperforms established SSL methods with minimal hyperparameter tuning, and has implications as a principled and practical option for semisupervised learning in radiology applications.
翻訳日:2021-08-11 14:35:12 公開日:2021-08-10
# UniNet: 対人攻撃のレンズによる一元的情景理解ネットワークとマルチタスク関係の探索

UniNet: A Unified Scene Understanding Network and Exploring Multi-Task Relationships through the Lens of Adversarial Attacks ( http://arxiv.org/abs/2108.04584v1 )

ライセンス: Link先を確認
NareshKumar Gurulingan, Elahe Arani, and Bahram Zonooz(参考訳) 現場理解は、現実世界で運用しようとする自律システムにとって不可欠である。 単一タスクビジョンネットワークは、シーンのいくつかの側面のみに基づいて情報を抽出する。 一方で、マルチタスク学習(mtl)では、これら1つのタスクが共同で学習され、タスクが情報を共有し、より包括的な理解を得る機会となる。 この目的のために,オブジェクト検出,意味セグメンテーション,インスタンスセグメンテーション,単眼深度推定,単眼的インスタンス深度推定,単眼的インスタンス深度予測など,重要な視覚課題を正確かつ効率的に推測する統一シーン理解ネットワークuninetを開発した。 これらのタスクは、異なる意味的および幾何学的情報を見るので、相互補完または相反することができる。 したがって、タスク間の関係を理解することは、補完的な情報共有を可能にする有用な手がかりとなる。 ニューラルネットワークにおける学習バイアスやタスクインタラクションを活用できるという考えから,UniNetにおけるタスク関係を敵攻撃のレンズを用いて評価する。 Cityscapesデータセットの大規模な実験では、未ターゲティングおよびターゲットアタックを使用して、セマンティックタスクが互いに強く相互作用し、幾何学的タスクにも同じことが示される。 さらに,意味的タスクと幾何学的タスクの関係は非対称であり,その相互作用はより高度な表現へと進むにつれて弱くなることを示す。

Scene understanding is crucial for autonomous systems which intend to operate in the real world. Single task vision networks extract information only based on some aspects of the scene. In multi-task learning (MTL), on the other hand, these single tasks are jointly learned, thereby providing an opportunity for tasks to share information and obtain a more comprehensive understanding. To this end, we develop UniNet, a unified scene understanding network that accurately and efficiently infers vital vision tasks including object detection, semantic segmentation, instance segmentation, monocular depth estimation, and monocular instance depth prediction. As these tasks look at different semantic and geometric information, they can either complement or conflict with each other. Therefore, understanding inter-task relationships can provide useful cues to enable complementary information sharing. We evaluate the task relationships in UniNet through the lens of adversarial attacks based on the notion that they can exploit learned biases and task interactions in the neural network. Extensive experiments on the Cityscapes dataset, using untargeted and targeted attacks reveal that semantic tasks strongly interact amongst themselves, and the same holds for geometric tasks. Additionally, we show that the relationship between semantic and geometric tasks is asymmetric and their interaction becomes weaker as we move towards higher-level representations.
翻訳日:2021-08-11 14:34:41 公開日:2021-08-10
# cvpr 2021画像マッチングチャレンジへの取り組み

Method Towards CVPR 2021 Image Matching Challenge ( http://arxiv.org/abs/2108.04453v1 )

ライセンス: Link先を確認
Xiaopeng Bi, Yu Chen, Xinyang Liu, Dehao Zhang, Ran Yan, Zheng Chai, Haotian Zhang, Xiao Liu(参考訳) 本稿では,megvii-3dチームによるcvpr 2021画像マッチングワークショップについて述べる。

This report describes Megvii-3D team's approach towards CVPR 2021 Image Matching Workshop.
翻訳日:2021-08-11 14:33:44 公開日:2021-08-10
# TrUMAn:映画とアニメのトロープ理解

TrUMAn: Trope Understanding in Movies and Animations ( http://arxiv.org/abs/2108.04542v1 )

ライセンス: Link先を確認
Hung-Ting Su, Po-Wei Shen, Bing-Chen Tsai, Wen-Feng Cheng, Ke-Jyun Wang, Winston H. Hsu(参考訳) ビデオコンテンツの理解と理解は,検索やレコメンデーションシステムなど,多くの現実世界のアプリケーションにとって不可欠である。 近年のディープラーニングの進歩は、視覚的手がかりを用いた様々なタスクのパフォーマンスを高める一方で、意図、動機、因果関係を推論するための深い認知は依然として困難である。 既存のデータセットは、アクション、オブジェクト、関係などの視覚的な信号に焦点を当て、テキストバイアスを利用して答えることができる。 そこで本研究では,映像とアニメーションのトロープ理解(TrUMAn)とともに,視覚信号以外の学習システムの評価・開発を目的とした新しい課題を提案する。 トロピーは創造的な作品のためにしばしば使用されるストーリーテリングデバイスである。 トロープ理解タスクに対処し、マシンの深い認識能力を実現することで、データマイニングアプリケーションとアルゴリズムを次のレベルに導くことができると楽観的に思っています。 そこで,本研究では,ビデオエンコーダを潜在空間上でビデオストーリーテリングすることにより,映像エンコーダをガイドする新たな概念ストーリーテラーモジュールを,トロペ理解とストーリーテリング (trust) に導入する。 生成されたストーリー埋め込みは、さらなるシグナルを提供するためにトロペ理解モデルに送られます。 実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。 また、人間に注釈された記述を持つoracleの場合でさえ、bert context embeddedは、精度の最大28%を達成する。 提案したTrUStは,モデル性能を13.94%向上させる。 また、今後の研究の道程を詳細に分析する。 TrUMAnは、https://www.cmlab.cs ie.ntu.edu.tw/projec t/tropeで公開されている。

Understanding and comprehending video content is crucial for many real-world applications such as search and recommendation systems. While recent progress of deep learning has boosted performance on various tasks using visual cues, deep cognition to reason intentions, motivation, or causality remains challenging. Existing datasets that aim to examine video reasoning capability focus on visual signals such as actions, objects, relations, or could be answered utilizing text bias. Observing this, we propose a novel task, along with a new dataset: Trope Understanding in Movies and Animations (TrUMAn), intending to evaluate and develop learning systems beyond visual signals. Tropes are frequently used storytelling devices for creative works. By coping with the trope understanding task and enabling the deep cognition skills of machines, we are optimistic that data mining applications and algorithms could be taken to the next level. To tackle the challenging TrUMAn dataset, we present a Trope Understanding and Storytelling (TrUSt) with a new Conceptual Storyteller module, which guides the video encoder by performing video storytelling on a latent space. The generated story embedding is then fed into the trope understanding model to provide further signals. Experimental results demonstrate that state-of-the-art learning systems on existing tasks reach only 12.01% of accuracy with raw input signals. Also, even in the oracle case with human-annotated descriptions, BERT contextual embedding achieves at most 28% of accuracy. Our proposed TrUSt boosts the model performance and reaches 13.94% performance. We also provide detailed analysis topave the way for future research. TrUMAn is publicly available at:https://www.cmlab .csie.ntu.edu.tw/pro ject/trope
翻訳日:2021-08-11 14:33:41 公開日:2021-08-10
# CLSEBERT: 構文強化型コード事前訓練モデルのコントラスト学習

CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained Model ( http://arxiv.org/abs/2108.04556v1 )

ライセンス: Link先を確認
Xin Wang, Yasheng Wang, Pingyi Zhou, Meng Xiao, Yadao Wang, Li Li, Xiao Liu, Hao Wu, Jin Liu, Xin Jiang(参考訳) プログラミング言語の事前学習モデルは、コード検索、コードクローン検出、コード翻訳など、様々なコード関連タスクにおいて重要な価値を証明している。 現在、トレーニング済みのほとんどのモデルは、コードスニペットをトークンのシーケンスとして扱うか、コード識別子間のデータフローのみに焦点を当てている。 しかし、コード表現の強化に役立つ重要な構造情報やコードの意味ルールを提供するような、リッチなコード構文と階層は無視される。 さらに,BERTをベースとしたコード事前学習モデルは,多くの下流タスクにおいて高い性能を達成しているが,BERTのネイティブな配列表現は低品質であることが証明されている。 このような問題に対処するため,さまざまなコードインテリジェンスタスクを扱うための構文拡張コード事前訓練モデルであるCLSEBERTを提案する。 事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層を考察し、構成学習を利用してノイズ不変のコード表現を学習する。 マスク言語モデリング(MLM)に加えて,2つの新しい事前学習目標も導入する。 1つは抽象構文木内のノード間のエッジを予測し、もう1つはコードトークンの型を予測することである。 4つのコードインテリジェンスタスクに関する広範な実験を通じて,提案手法の有効性を実証した。

Pre-trained models for programming languages have proven their significant values in various code-related tasks, such as code search, code clone detection, and code translation. Currently, most pre-trained models treat a code snippet as a sequence of tokens or only focus on the data flow between code identifiers. However, rich code syntax and hierarchy are ignored which can provide important structure information and semantic rules of codes to help enhance code representations. In addition, although the BERT-based code pre-trained models achieve high performance on many downstream tasks, the native derived sequence representations of BERT are proven to be of low-quality, it performs poorly on code matching and similarity tasks. To address these problems, we propose CLSEBERT, a Constrastive Learning Framework for Syntax Enhanced Code Pre-Trained Model, to deal with various code intelligence tasks. In the pre-training stage, we consider the code syntax and hierarchy contained in the Abstract Syntax Tree (AST) and leverage the constrastive learning to learn noise-invariant code representations. Besides the masked language modeling (MLM), we also introduce two novel pre-training objectives. One is to predict the edges between nodes in the abstract syntax tree, and the other is to predict the types of code tokens. Through extensive experiments on four code intelligence tasks, we successfully show the effectiveness of our proposed model.
翻訳日:2021-08-11 14:33:14 公開日:2021-08-10
# 逆ニューラルネットワークを用いた正則化系列潜時変動モデル

Regularized Sequential Latent Variable Models with Adversarial Neural Networks ( http://arxiv.org/abs/2108.04496v1 )

ライセンス: Link先を確認
Jin Huang, Ming Xiao(参考訳) リッチな内部状態と柔軟な非線形遷移関数を持つリカレントニューラルネットワーク(RNN)は、高度に構造化されたシーケンシャルデータをモデル化するタスクにおいて、隠れマルコフモデル(HMM)のような動的ベイズ的ネットワークを追い越している。 これらのデータ(音声や手書きなど)は、下層の変動要因と観測データの間の複雑な関係をしばしば含んでいる。 標準RNNモデルは、出力条件付き確率モデルから得られる、構造において非常に限定的なランダム性または変動性を持つ。 本稿では、逐次データにおける変動をモデル化するために、RNNの高レベル潜在確率変数を使用する方法と、VAE(Variational Autoencoder)の原理に基づくそのようなRNNモデルのトレーニング方法を提案する。 本稿では,変動型rnnモデルの学習に逆行法を利用する可能性について検討する。 競合するアプローチとは対照的に,本手法はモデルトレーニングにおいて理論的に最適であり,モデルトレーニングの安定性が向上する。 本手法は, 分離した逆訓練ステップにより, 変動推論ネットワークの後方近似も改善する。 TIMIT音声データからシミュレーションした数値結果から, 復元損失と証拠値の低下が同一レベルに収束し, 対向訓練損失が0。

The recurrent neural networks (RNN) with richly distributed internal states and flexible non-linear transition functions, have overtaken the dynamic Bayesian networks such as the hidden Markov models (HMMs) in the task of modeling highly structured sequential data. These data, such as from speech and handwriting, often contain complex relationships between the underlaying variational factors and the observed data. The standard RNN model has very limited randomness or variability in its structure, coming from the output conditional probability model. This paper will present different ways of using high level latent random variables in RNN to model the variability in the sequential data, and the training method of such RNN model under the VAE (Variational Autoencoder) principle. We will explore possible ways of using adversarial method to train a variational RNN model. Contrary to competing approaches, our approach has theoretical optimum in the model training and provides better model training stability. Our approach also improves the posterior approximation in the variational inference network by a separated adversarial training step. Numerical results simulated from TIMIT speech data show that reconstruction loss and evidence lower bound converge to the same level and adversarial training loss converges to 0.
翻訳日:2021-08-11 14:32:29 公開日:2021-08-10
# データ駆動型VRP:VRPの隠れた嗜好を学習するニューラルネットワークモデル

Data Driven VRP: A Neural Network Model to Learn Hidden Preferences for VRP ( http://arxiv.org/abs/2108.04578v1 )

ライセンス: Link先を確認
Jayanta Mandi, Rocsildes Canoy, V\'ictor Bucarey, Tias Guns(参考訳) 従来のCVRP(Capacitated Vehicle Routing Problem)は、車両の容量制限の下でのルートの総距離を最小化する。 しかし、より多くは、旅行の全体距離だけでなく、旅行費、旅行時間、燃料消費などのその他の要因を含む複数の基準が設定されており、さらに、実際には、ルートプランナーやドライバーの心に潜む暗黙の嗜好が数多く存在する。 例えば、ドライバーは特定の地区や道路の状態に関する知識に精通しており、休憩や昼休みに最適な場所を考えることが多い。 この知識は、運用のルーティング決定を行う必要がある場合、公式化とバランスが難しい。 これは、過去のソリューションから暗黙の好みを学び、これらの学習された好みを最適化プロセスに組み込む動機となります。 これらの選好はアーク確率の形で、すなわちルートがより好まれるほど、結合確率が高くなる。 この研究の目新しさは、arc確率を推定するためにニューラルネットワークモデルを使うことであり、追加機能とパラメータの自動推定を可能にする。 これは、一般的に利用可能なデータが少ないことを考慮し、適切な機能、ニューラルアーキテクチャ、損失関数を特定する必要がある。 本研究では,先行重み付きマルコフ計数手法による差異を調査し,ニューラルネットワークの適用性について検討した。

The traditional Capacitated Vehicle Routing Problem (CVRP) minimizes the total distance of the routes under the capacity constraints of the vehicles. But more often, the objective involves multiple criteria including not only the total distance of the tour but also other factors such as travel costs, travel time, and fuel consumption.Moreover , in reality, there are numerous implicit preferences ingrained in the minds of the route planners and the drivers. Drivers, for instance, have familiarity with certain neighborhoods and knowledge of the state of roads, and often consider the best places for rest and lunch breaks. This knowledge is difficult to formulate and balance when operational routing decisions have to be made. This motivates us to learn the implicit preferences from past solutions and to incorporate these learned preferences in the optimization process. These preferences are in the form of arc probabilities, i.e., the more preferred a route is, the higher is the joint probability. The novelty of this work is the use of a neural network model to estimate the arc probabilities, which allows for additional features and automatic parameter estimation. This first requires identifying suitable features, neural architectures and loss functions, taking into account that there is typically few data available. We investigate the difference with a prior weighted Markov counting approach, and study the applicability of neural networks in this setting.
翻訳日:2021-08-11 14:32:06 公開日:2021-08-10
# PreCODE - 深層漏洩防止のためのジェネリックモデル拡張

PRECODE - A Generic Model Extension to Prevent Deep Gradient Leakage ( http://arxiv.org/abs/2108.04725v1 )

ライセンス: Link先を確認
Daniel Scheliga and Patrick M\"ader and Marco Seeland(参考訳) ニューラルネットワークの協調トレーニングは、異なるクライアント間で勾配情報を交換することで、分散データを活用する。 トレーニングデータは完全にクライアントに格納されているが、最近の研究は、そのような交換された勾配情報からトレーニングデータが再構築可能であることを示している。 プライバシーを高めるため、勾配摂動技術が提案されている。 しかし、モデル性能の低下、収束時間の増加、データ要求の増加といったコストが伴う。 本稿では,任意のモデルアーキテクチャの汎用拡張として使用できるPRivacy EnhanCing mODulEであるPrepreCODEを紹介する。 変動モデルを用いたPreCODEの簡易かつ効果的な実現法を提案する。 変分モデルによって引き起こされる確率的サンプリングは、勾配からのプライバシーリークを効果的に防止し、データ所有者のプライバシーを保ちます。 3つのデータセットでトレーニングされた2つの異なるモデルアーキテクチャに対するアート勾配反転攻撃の状態を用いてPreCODEを評価する。 一般的な防御機構とは対照的に,提案手法では攻撃成功率を0%に抑えつつ,モデルトレーニングや最終性能に悪影響を与えることはほとんどない。 その結果、PreCODEはプライバシー強化モデル拡張への有望な道を明らかにした。

Collaborative training of neural networks leverages distributed data by exchanging gradient information between different clients. Although training data entirely resides with the clients, recent work shows that training data can be reconstructed from such exchanged gradient information. To enhance privacy, gradient perturbation techniques have been proposed. However, they come at the cost of reduced model performance, increased convergence time, or increased data demand. In this paper, we introduce PRECODE, a PRivacy EnhanCing mODulE that can be used as generic extension for arbitrary model architectures. We propose a simple yet effective realization of PRECODE using variational modeling. The stochastic sampling induced by variational modeling effectively prevents privacy leakage from gradients and in turn preserves privacy of data owners. We evaluate PRECODE using state of the art gradient inversion attacks on two different model architectures trained on three datasets. In contrast to commonly used defense mechanisms, we find that our proposed modification consistently reduces the attack success rate to 0% while having almost no negative impact on model training and final performance. As a result, PRECODE reveals a promising path towards privacy enhancing model extensions.
翻訳日:2021-08-11 14:31:44 公開日:2021-08-10
# デュアルアテンショナル・ナレッジ・トレーシングを意識したマルチファクター

Multi-Factors Aware Dual-Attentional Knowledge Tracing ( http://arxiv.org/abs/2108.04741v1 )

ライセンス: Link先を確認
Moyu Zhang (1), Xinning Zhu (1), Chunhong Zhang (1), Yang Ji (1), Feng Pan (1), Changchuan Yin (1) ((1) Beijing University of Posts and Telecommunications)(参考訳) パーソナライズされた学習の需要が高まるにつれ、学生の歴史的実践に基づいて知識状態を追跡する知識追跡の重要性が高まっている。 因子分析法は主に,学生の知識状態をモデル化するために,学生と個別に関係する2種類の要因を用いる。 これらの手法は,生徒の学習の進捗をモデル化するために,学生の試行回数の合計を用いており,近年の関連する実践の影響をほとんど強調しない。 さらに、現在の因子分析法は、質問に含まれる豊富な情報を無視する。 本稿では、質問表現を豊かにし、複数の要因を用いて学生の学習進捗を2つの意図的メカニズムに基づいてモデル化するマルチファクター意識モデル(MF-DAKT)を提案する。 より具体的には,最近の演習の効果を強調するために,学生の関連する概念に関する最新の試みを記録する,新しい学生関連因子を提案する。 質問表現を充実させるために,質問の関係や難易度を含む2種類の質問情報を事前学習手法を用いる。 また,学生のパフォーマンスを予測する過程において,事前学習した質問表現を微調整に限定するために,質問の難易度に関する正規化用語を追加する。 さらに,異なる実践記録における最終予測に,因子と因子相互作用の寄与を区別するために,二重注意機構を適用した。 その結果,MF-DAKTが既存の知識追跡手法より優れていることが示された。 また,MF-DAKTの各成分の効果を検証するためにいくつかの研究を行った。

With the increasing demands of personalized learning, knowledge tracing has become important which traces students' knowledge states based on their historical practices. Factor analysis methods mainly use two kinds of factors which are separately related to students and questions to model students' knowledge states. These methods use the total number of attempts of students to model students' learning progress and hardly highlight the impact of the most recent relevant practices. Besides, current factor analysis methods ignore rich information contained in questions. In this paper, we propose Multi-Factors Aware Dual-Attentional model (MF-DAKT) which enriches question representations and utilizes multiple factors to model students' learning progress based on a dual-attentional mechanism. More specifically, we propose a novel student-related factor which records the most recent attempts on relevant concepts of students to highlight the impact of recent exercises. To enrich questions representations, we use a pre-training method to incorporate two kinds of question information including questions' relation and difficulty level. We also add a regularization term about questions' difficulty level to restrict pre-trained question representations to fine-tuning during the process of predicting students' performance. Moreover, we apply a dual-attentional mechanism to differentiate contributions of factors and factor interactions to final prediction in different practice records. At last, we conduct experiments on several real-world datasets and results show that MF-DAKT can outperform existing knowledge tracing methods. We also conduct several studies to validate the effects of each component of MF-DAKT.
翻訳日:2021-08-11 14:31:28 公開日:2021-08-10
# 遷移状態計算のためのアクティブラーニング

Active Learning for Transition State Calculation ( http://arxiv.org/abs/2108.04698v1 )

ライセンス: Link先を確認
Shuting Gu, Hongqiao Wang, Xiang Zhou(参考訳) 遷移状態(TS)計算は、計算集約エネルギー関数にとって大きな課題である。 従来の手法では、非常に多くの場所でエネルギー関数の勾配を評価する必要がある。 真の勾配の高価な計算量を削減するため,エネルギー関数に対する統計代用モデル,ガウス過程回帰(GPR),サドル型遷移状態に対するアクセント・アクセント・ダイナミクス(GAD)の単一ウォーカー・ダイナミックス法からなる能動的学習フレームワークを提案する。 TSは勾配ベクトルとヘッセン行列のGPR代理に適用されるGADによって検出される。 効率改善の鍵となる要素は,最も有意義な位置を逐次設計し,これらの地点で元のモデルの評価を受け,gprを訓練するアクティブラーニング手法である。 我々は,このアクティブラーニングタスクを最適実験設計問題として定式化し,最適な位置を構築するためのサンプルベースサブ最適基準を提案する。 提案手法は, 原モデルの必要エネルギー数や力量評価を大幅に削減することを示す。

The transition state (TS) calculation is a grand challenge for computational intensive energy function. The traditional methods need to evaluate the gradients of the energy function at a very large number of locations. To reduce the number of expensive computations of the true gradients, we propose an active learning framework consisting of a statistical surrogate model, Gaussian process regression (GPR) for the energy function, and a single-walker dynamics method, gentle accent dynamics (GAD), for the saddle-type transition states. TS is detected by the GAD applied to the GPR surrogate for the gradient vector and the Hessian matrix. Our key ingredient for efficiency improvements is an active learning method which sequentially designs the most informative locations and takes evaluations of the original model at these locations to train GPR. We formulate this active learning task as the optimal experimental design problem and propose a very efficient sample-based sub-optimal criterion to construct the optimal locations. We show that the new method significantly decreases the required number of energy or force evaluations of the original model.
翻訳日:2021-08-11 14:31:01 公開日:2021-08-10
# 強化学習による模倣学習

Imitation Learning by Reinforcement Learning ( http://arxiv.org/abs/2108.04763v1 )

ライセンス: Link先を確認
Kamil Ciosek(参考訳) 模倣学習アルゴリズムは、専門家の行動の実証からポリシーを学ぶ。 直観に反することに、決定論的専門家にとって、模倣学習は強化学習への還元によってなされるが、これは一般的にはより難しいと考えられている。 我々は, 連続制御タスクにおいて, 実効性を確認する実験を行う。

Imitation Learning algorithms learn a policy from demonstrations of expert behavior. Somewhat counterintuitively, we show that, for deterministic experts, imitation learning can be done by reduction to reinforcement learning, which is commonly considered more difficult. We conduct experiments which confirm that our reduction works well in practice for a continuous control task.
翻訳日:2021-08-11 14:30:43 公開日:2021-08-10
# 精密医療のためのバンディットアルゴリズム

Bandit Algorithms for Precision Medicine ( http://arxiv.org/abs/2108.04782v1 )

ライセンス: Link先を確認
Yangyi Lu, Ziping Xu, Ambuj Tewari(参考訳) オックスフォード英語辞典(Oxford English Dictionary)は、精密医療を「特に遺伝子または分子プロファイリングを用いて、特定の患者のグループに対する効率や治療効果を最適化するために設計された医療」と定義している。 古代の医師は、医療は患者の特性の個人的変化を考慮する必要があると認識していた。 しかし、現代の精密医療運動は、遺伝学や薬理学などの分野における科学的進歩、モバイルデバイスやウェアラブルセンサーの技術的進歩、コンピューティングとデータサイエンスにおける方法論的進歩といった一連の出来事によって実現されている。 この章は、精密医学に特有なデータサイエンスの分野であるバンディットアルゴリズムについて書かれている。 ベルマン、ロビンス、ライらの独創的な研究に根ざしたバンディットアルゴリズムは、現代のデータ科学(lattimore and szepesvari, 2020)において中心的な位置を占めるようになった。 バンディットアルゴリズムは、何らかの健康結果を最適化するために治療決定を行う必要がある状況で使用できる。 精密医療は患者の特徴を利用して治療をガイドすることに焦点を当てているため、文脈的バンディットアルゴリズムはそのような情報を考慮に入れているため、特に有用である。 モバイルヘルスやデジタル表現型化といった精密医療分野におけるバンディットアルゴリズムの役割は以前にも検討されてきた(tewari and murphy, 2017; rabbi et al., 2019)。 これらのレビューが公表されて以来、バンディットアルゴリズムはモバイルの健康に利用され続けており、バンディットアルゴリズムの研究に新たなトピックがいくつか出現している。 この章は、モバイルの健康に使われているバンディットアルゴリズムのアルゴリズムや数学的詳細を知ることに興味がある統計学、機械学習、オペレーション研究などの分野の定量的研究者のために書かれている。

The Oxford English Dictionary defines precision medicine as "medical care designed to optimize efficiency or therapeutic benefit for particular groups of patients, especially by using genetic or molecular profiling." It is not an entirely new idea: physicians from ancient times have recognized that medical treatment needs to consider individual variations in patient characteristics. However, the modern precision medicine movement has been enabled by a confluence of events: scientific advances in fields such as genetics and pharmacology, technological advances in mobile devices and wearable sensors, and methodological advances in computing and data sciences. This chapter is about bandit algorithms: an area of data science of special relevance to precision medicine. With their roots in the seminal work of Bellman, Robbins, Lai and others, bandit algorithms have come to occupy a central place in modern data science ( Lattimore and Szepesvari, 2020). Bandit algorithms can be used in any situation where treatment decisions need to be made to optimize some health outcome. Since precision medicine focuses on the use of patient characteristics to guide treatment, contextual bandit algorithms are especially useful since they are designed to take such information into account. The role of bandit algorithms in areas of precision medicine such as mobile health and digital phenotyping has been reviewed before (Tewari and Murphy, 2017; Rabbi et al., 2019). Since these reviews were published, bandit algorithms have continued to find uses in mobile health and several new topics have emerged in the research on bandit algorithms. This chapter is written for quantitative researchers in fields such as statistics, machine learning, and operations research who might be interested in knowing more about the algorithmic and mathematical details of bandit algorithms that have been used in mobile health.
翻訳日:2021-08-11 14:30:39 公開日:2021-08-10
# スクリーニングマンモグラフィ分類器のメタレポジトリ

Meta-repository of screening mammography classifiers ( http://arxiv.org/abs/2108.04800v1 )

ライセンス: Link先を確認
Benjamin Stadnick, Jan Witowski, Vishwaesh Rajiv, Jakub Ch{\l}\k{e}dowski, Farah E. Shamout, Kyunghyun Cho and Krzysztof J. Geras(参考訳) 人工知能(AI)は医学を変革し、臨床診断を改善することを約束している。 乳がん検診において、最近のいくつかの研究では、AIは放射線科医の精度を向上させる可能性があり、その後早期がんの診断と不要な作業の軽減に役立つことが示されている。 提案するモデルの数と複雑性が増加するにつれて、結果を再現し、異なるアプローチを比較するために再実装することがますます難しくなってきている。 この応用領域における研究の再現性を実現し、異なる方法の比較を可能にするために、マンモグラムの分類のための深層学習モデルを含むメタリポジトリをリリースする。 このメタリポジトリは、任意のプライベートまたはパブリックスクリーニングマンモグラフィデータセット上で機械学習モデルの評価を可能にするフレームワークを作成する。 当社のメタリポジトリには、オープンソース実装とクロスプラットフォーム互換性を備えた5つの最先端モデルが含まれています。 2つのプライベートニューヨーク大学乳がん検診データセットと,3つの公開データセット(ddsm,inbreast,china mammography database)を比較した。 われわれのフレームワークはフレキシブルな設計で、他の医用画像解析タスクに一般化できる。 meta-repositoryはhttps://www.github.c om/nyukat/mammograph y_metarepositoryで利用可能である。

Artificial intelligence (AI) is transforming medicine and showing promise in improving clinical diagnosis. In breast cancer screening, several recent studies show that AI has the potential to improve radiologists' accuracy, subsequently helping in early cancer diagnosis and reducing unnecessary workup. As the number of proposed models and their complexity grows, it is becoming increasingly difficult to re-implement them in order to reproduce the results and to compare different approaches. To enable reproducibility of research in this application area and to enable comparison between different methods, we release a meta-repository containing deep learning models for classification of screening mammograms. This meta-repository creates a framework that enables the evaluation of machine learning models on any private or public screening mammography data set. At its inception, our meta-repository contains five state-of-the-art models with open-source implementations and cross-platform compatibility. We compare their performance on five international data sets: two private New York University breast cancer screening data sets as well as three public (DDSM, INbreast and Chinese Mammography Database) data sets. Our framework has a flexible design that can be generalized to other medical image analysis tasks. The meta-repository is available at https://www.github.c om/nyukat/mammograph y_metarepository.
翻訳日:2021-08-11 14:29:44 公開日:2021-08-10
# プライバシ保護型機械学習: 方法、課題、方向性

Privacy-Preserving Machine Learning: Methods, Challenges and Directions ( http://arxiv.org/abs/2108.04417v1 )

ライセンス: Link先を確認
Runhua Xu, Nathalie Baracaldo, James Joshi(参考訳) 機械学習(ML)は、さまざまなアプリケーションドメインでますます採用されている。 通常、優れたMLモデル、特に新興のディープニューラルネットワークモデルは、大量のトレーニングデータと高出力の計算リソースに依存している。 大量のデータの必要性は、プライバシーに敏感な情報漏洩のリスクと、プライバシーに敏感なデータへのアクセスと使用をますます制限する規制環境の進展によって、深刻なプライバシー上の懸念を引き起こす。 さらに、トレーニングされたMLモデルは、メンバシップ/プロパティ推論攻撃やモデル反転攻撃といった敵攻撃にも脆弱である可能性がある。 したがって、よく設計されたプライバシ保護ML(PPML)ソリューションは不可欠であり、学術や産業から研究の関心が高まりつつある。 PPMLのさらなる取り組みとして、プライバシ保護技術をMLアルゴリズムに統合すること、プライバシ保護アプローチをMLパイプラインに融合すること、既存のMLシステムのためのさまざまなプライバシ保護アーキテクチャを設計すること、などが提案されている。 特に、既存のPPMLアーツのクロスカットML、システム、セキュリティ、プライバシは、最先端の研究、関連する課題、将来の研究のロードマップを理解するための重要な必要性がある。 本稿では,既存のプライバシ保存手法を体系的に検討,要約し,プライバシ保存機能を詳細に分解することで,様々なPPMLソリューションの評価をガイドするPGUモデルを提案する。 PGUモデルは、フェーズ、保証、技術的ユーティリティのトリアードとして設計されている。 さらに, PPMLの特徴と課題についても論じ, 今後の研究の方向性を概説し, 機械学習, 分散システム, セキュリティ, プライバシ分野の幅広い研究コミュニティに便益を与える。

Machine learning (ML) is increasingly being adopted in a wide variety of application domains. Usually, a well-performing ML model, especially, emerging deep neural network model, relies on a large volume of training data and high-powered computational resources. The need for a vast volume of available data raises serious privacy concerns because of the risk of leakage of highly privacy-sensitive information and the evolving regulatory environments that increasingly restrict access to and use of privacy-sensitive data. Furthermore, a trained ML model may also be vulnerable to adversarial attacks such as membership/property inference attacks and model inversion attacks. Hence, well-designed privacy-preserving ML (PPML) solutions are crucial and have attracted increasing research interest from academia and industry. More and more efforts of PPML are proposed via integrating privacy-preserving techniques into ML algorithms, fusing privacy-preserving approaches into ML pipeline, or designing various privacy-preserving architectures for existing ML systems. In particular, existing PPML arts cross-cut ML, system, security, and privacy; hence, there is a critical need to understand state-of-art studies, related challenges, and a roadmap for future research. This paper systematically reviews and summarizes existing privacy-preserving approaches and proposes a PGU model to guide evaluation for various PPML solutions through elaborately decomposing their privacy-preserving functionalities. The PGU model is designed as the triad of Phase, Guarantee, and technical Utility. Furthermore, we also discuss the unique characteristics and challenges of PPML and outline possible directions of future work that benefit a wide range of research communities among ML, distributed systems, security, and privacy areas.
翻訳日:2021-08-11 14:29:22 公開日:2021-08-10
# ABC-FL:フェデレートラーニングにおける異常と良性クライアント分類

ABC-FL: Anomalous and Benign client Classification in Federated Learning ( http://arxiv.org/abs/2108.04551v1 )

ライセンス: Link先を確認
Hyejun Jeong, Joonyong Hwang, Tai Myung Chung(参考訳) フェデレーション学習(federated learning)は、データプライバシを保護するために設計された、分散機械学習フレームワークである。 プライバシーを保ちながら機械学習技術を利用できるため、連合学習が人気を集めている。 しかし、ディープラーニング技術で発生した脆弱性と感受性を継承する。 例えば、フェデレーション学習は、分散した性質と生データにアクセスできないため、パフォーマンスと整合性が低下する可能性のあるデータ中毒攻撃に対して特に脆弱である。 さらに、非独立性および/またはIdentically Distributed(非IID)データのため、悪意のあるクライアントを正しく識別することは極めて困難である。 現実世界のデータは複雑で多様であり、生のデータに直接アクセスすることなく悪意のあるデータと区別できない。 以前の研究は、iidデータを持つクライアントのみを良性として扱いながら、悪意のあるクライアントの検出に重点を置いてきた。 本研究では,良性クライアントが非IIDデータを持つ場合,良性クライアントから異常クライアントを検出し,分類する手法を提案する。 提案手法は,特徴次元の縮小,動的クラスタリング,コサイン類似度に基づくクリッピングを利用する。 実験の結果,提案手法は悪意のあるクライアントを分類するだけでなく,手続き全体の悪影響を軽減できることを確認した。 今後の研究では,多様なデータを用いたモデル構築において,異常なクライアントを効果的に排除するために用いることができる。

Federated Learning is a distributed machine learning framework designed for data privacy preservation i.e., local data remain private throughout the entire training and testing procedure. Federated Learning is gaining popularity because it allows one to use machine learning techniques while preserving privacy. However, it inherits the vulnerabilities and susceptibilities raised in deep learning techniques. For instance, Federated Learning is particularly vulnerable to data poisoning attacks that may deteriorate its performance and integrity due to its distributed nature and inaccessibility to the raw data. In addition, it is extremely difficult to correctly identify malicious clients due to the non-Independently and/or Identically Distributed (non-IID) data. The real-world data can be complex and diverse, making them hardly distinguishable from the malicious data without direct access to the raw data. Prior research has focused on detecting malicious clients while treating only the clients having IID data as benign. In this study, we propose a method that detects and classifies anomalous clients from benign clients when benign ones have non-IID data. Our proposed method leverages feature dimension reduction, dynamic clustering, and cosine similarity-based clipping. The experimental results validates that our proposed method not only classifies the malicious clients but also alleviates their negative influences from the entire procedure. Our findings may be used in future studies to effectively eliminate anomalous clients when building a model with diverse data.
翻訳日:2021-08-11 14:28:53 公開日:2021-08-10
# 高次元CPモデルにおけるテンソル主成分分析

Tensor Principal Component Analysis in High Dimensional CP Models ( http://arxiv.org/abs/2108.04428v1 )

ライセンス: Link先を確認
Yuefeng Han and Cun-Hui Zhang(参考訳) 高次元非直交スパイクテンソルに対するCP分解は、多くの分野にわたる幅広い応用において重要な問題である。 しかし、理論的な保証を持つ以前の研究は通常、CP成分の基底ベクトルに制限的不整合条件を仮定する。 本稿では,テンソルCP分解のための計算効率の良い合成PCAと並列直交化アルゴリズムを提案する。 複合PCAは、主成分又は特異値分解を2回施し、まずテンソルデータの展開行列に施して特異ベクトルを得る。 これはテンソルcp分解の任意の反復最適化スキームの初期化として使うことができる。 並列直交アルゴリズムは、他のcp成分が生成する空間の直交補空間に投影を同時に適用することにより、テンソルの各モードにおける基底ベクトルを反復的に推定する。 低または中程度のcp階のテンソルに対する交互最小二乗推定器や他の高次直交反復の形式を改善するように設計されている。 この2つのアルゴリズムに対する推定精度と統計的収束率について理論的検討を行った。 我々の合成データの実装は, 既存の手法よりも実用上優れていることを示す。

The CP decomposition for high dimensional non-orthogonal spike tensors is an important problem with broad applications across many disciplines. However, previous works with theoretical guarantee typically assume restrictive incoherence conditions on the basis vectors for the CP components. In this paper, we propose new computationally efficient composite PCA and concurrent orthogonalization algorithms for tensor CP decomposition with theoretical guarantees under mild incoherence conditions. The composite PCA applies the principal component or singular value decompositions twice, first to a matrix unfolding of the tensor data to obtain singular vectors and then to the matrix folding of the singular vectors obtained in the first step. It can be used as an initialization for any iterative optimization schemes for the tensor CP decomposition. The concurrent orthogonalization algorithm iteratively estimates the basis vector in each mode of the tensor by simultaneously applying projections to the orthogonal complements of the spaces generated by others CP components in other modes. It is designed to improve the alternating least squares estimator and other forms of the high order orthogonal iteration for tensors with low or moderately high CP ranks. Our theoretical investigation provides estimation accuracy and statistical convergence rates for the two proposed algorithms. Our implementations on synthetic data demonstrate significant practical superiority of our approach over existing methods.
翻訳日:2021-08-11 14:27:54 公開日:2021-08-10
# 最小二乗問題におけるSGDからの急激な正規化のメリット

The Benefits of Implicit Regularization from SGD in Least Squares Problems ( http://arxiv.org/abs/2108.04552v1 )

ライセンス: Link先を確認
Difan Zou and Jingfeng Wu and Vladimir Braverman and Quanquan Gu and Dean P. Foster and Sham M. Kakade(参考訳) 確率勾配降下(SGD)はアルゴリズムの正則化効果が強く、現代の機械学習アプローチの一般化に重要な役割を果たしていると仮定されている。 本研究では,これらの問題を,(非正規化)平均SGDと隆起回帰の明示的な正則化による暗黙正則化の鋭いインスタンスベース比較を行うことを目標とする線形回帰(過パラメータ化と過パラメータ化の両方を含む)の簡易な設定で理解することを目的とする。 For a broad class of least squares problem instances (that are natural in high-dimensional settings), we show: (1) for every problem instance and for every ridge parameter, (unregularized) SGD, when provided with logarithmically more samples than that provided to the ridge algorithm, generalizes no worse than the ridge solution (provided SGD uses a tuned constant stepsize); (2) conversely, there exist instances (in this wide problem class) where optimally-tuned ridge regression requires quadratically more samples than SGD in order to have the same generalization performance. 本結果から,SGDの一般化性能は,対数的要因により,広範囲な過パラメータ化問題におけるリッジ回帰よりも常に劣っていることが示唆された。 より一般的には、より単純な(過パラメータ化された)凸設定においてもアルゴリズム正則化が重要な結果をもたらすことを示す。

Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice, which has been hypothesized to play an important role in the generalization of modern machine learning approaches. In this work, we seek to understand these issues in the simpler setting of linear regression (including both underparameterized and overparameterized regimes), where our goal is to make sharp instance-based comparisons of the implicit regularization afforded by (unregularized) average SGD with the explicit regularization of ridge regression. For a broad class of least squares problem instances (that are natural in high-dimensional settings), we show: (1) for every problem instance and for every ridge parameter, (unregularized) SGD, when provided with logarithmically more samples than that provided to the ridge algorithm, generalizes no worse than the ridge solution (provided SGD uses a tuned constant stepsize); (2) conversely, there exist instances (in this wide problem class) where optimally-tuned ridge regression requires quadratically more samples than SGD in order to have the same generalization performance. Taken together, our results show that, up to the logarithmic factors, the generalization performance of SGD is always no worse than that of ridge regression in a wide range of overparameterized problems, and, in fact, could be much better for some problem instances. More generally, our results show how algorithmic regularization has important consequences even in simpler (overparameterized) convex settings.
翻訳日:2021-08-11 14:27:38 公開日:2021-08-10
# R4Dyn:動的シーンの自己監督単眼深度推定のためのレーダ探査

R4Dyn: Exploring Radar for Self-Supervised Monocular Depth Estimation of Dynamic Scenes ( http://arxiv.org/abs/2108.04814v1 )

ライセンス: Link先を確認
Stefano Gasperini, Patrick Koch, Vinzenz Dallabetta, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) 運転シナリオにおける自己教師付き単眼深度推定は教師付きアプローチと同等の性能を達成しているが、静的世界仮説の違反は、交通参加者の誤った深さ予測につながる可能性があり、潜在的な安全性の問題となっている。 本稿では,自己教師型深度推定フレームワーク上に費用効率の高いレーダデータを利用する新しい手法であるR4Dynを提案する。 特に,弱い監視信号として訓練中にレーダをどのように使用できるか,また,推定時のロバスト性を高めるための追加入力として用いるかを示す。 自動車レーダーは容易に利用できるため、既存の様々な車両からトレーニングデータを収集することができる。 さらに、信号のフィルタリングと拡張により、学習に基づくアプローチと互換性を持たせることにより、ノイズやスパーシティといったレーダー固有の問題に対処する。 R4Dynでは、自己教師付き深さ推定の大きな限界を克服することができる。 交通参加者の予測です 我々は,車両等の動的物体の推定を,難解なnuscenesデータセット上で37%大きく改善し,レーダが自動運転車の単眼深度推定に有用な付加センサであることを示す。 さらに、コードの公開も計画しています。

While self-supervised monocular depth estimation in driving scenarios has achieved comparable performance to supervised approaches, violations of the static world assumption can still lead to erroneous depth predictions of traffic participants, posing a potential safety issue. In this paper, we present R4Dyn, a novel set of techniques to use cost-efficient radar data on top of a self-supervised depth estimation framework. In particular, we show how radar can be used during training as weak supervision signal, as well as an extra input to enhance the estimation robustness at inference time. Since automotive radars are readily available, this allows to collect training data from a variety of existing vehicles. Moreover, by filtering and expanding the signal to make it compatible with learning-based approaches, we address radar inherent issues, such as noise and sparsity. With R4Dyn we are able to overcome a major limitation of self-supervised depth estimation, i.e. the prediction of traffic participants. We substantially improve the estimation on dynamic objects, such as cars by 37% on the challenging nuScenes dataset, hence demonstrating that radar is a valuable additional sensor for monocular depth estimation in autonomous vehicles. Additionally, we plan on making the code publicly available.
翻訳日:2021-08-11 14:27:13 公開日:2021-08-10
# マルチストラテジーリバランスによる生涯意図検出

Lifelong Intent Detection via Multi-Strategy Rebalancing ( http://arxiv.org/abs/2108.04445v1 )

ライセンス: Link先を確認
Qingbin Liu, Xiaoyan Yu, Shizhu He, Kang Liu, Jun Zhao(参考訳) 従来のインテント検出(id)モデルは、通常はオフラインでトレーニングされるが、これは固定データセットと事前定義されたインテントクラスに依存している。 しかし、現実世界のアプリケーションでは、オンラインシステムは通常、継続的な新しいユーザー意図を巻き込み、オフライントレーニングパラダイムに大きな課題をもたらします。 近年,生涯学習が注目され,この課題に対する最も有望な解決策と考えられている。 本稿では,新たなデータに対するIDモデルを継続的に訓練して新たな意図を学習し,破滅的な古いデータを忘れないようにするライフロングインテント検出(LID)を提案する。 それにもかかわらず、既存の生涯学習手法は、通常、LIDタスクにおける古いデータと新しいデータの間の深刻な不均衡に悩まされる。 そこで本研究では,コサイン正規化,階層的知識蒸留,クラス間マージン損失からなり,不均衡問題の多重負の効果を緩和する,生涯学習法であるマルチストラテジーリバランス(msr)を提案する。 実験の結果,本手法はatis,snips,hwu64,cli nc150ベンチマークにおいて,最先端の生涯学習法を著しく上回る効果を示した。

Conventional Intent Detection (ID) models are usually trained offline, which relies on a fixed dataset and a predefined set of intent classes. However, in real-world applications, online systems usually involve continually emerging new user intents, which pose a great challenge to the offline training paradigm. Recently, lifelong learning has received increasing attention and is considered to be the most promising solution to this challenge. In this paper, we propose Lifelong Intent Detection (LID), which continually trains an ID model on new data to learn newly emerging intents while avoiding catastrophically forgetting old data. Nevertheless, we find that existing lifelong learning methods usually suffer from a serious imbalance between old and new data in the LID task. Therefore, we propose a novel lifelong learning method, Multi-Strategy Rebalancing (MSR), which consists of cosine normalization, hierarchical knowledge distillation, and inter-class margin loss to alleviate the multiple negative effects of the imbalance problem. Experimental results demonstrate the effectiveness of our method, which significantly outperforms previous state-of-the-art lifelong learning methods on the ATIS, SNIPS, HWU64, and CLINC150 benchmarks.
翻訳日:2021-08-11 14:26:52 公開日:2021-08-10
# BROS:ドキュメント理解のためのレイアウト対応事前学習言語モデル

BROS: A Layout-Aware Pre-trained Language Model for Understanding Documents ( http://arxiv.org/abs/2108.04539v1 )

ライセンス: Link先を確認
Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, and Sungrae Park(参考訳) 文書を視覚的スナップショットから理解することは、高度なコンピュータビジョンとNLPメソッドの両方を必要とする新たな問題である。 ocrの最近の進歩により、テキストブロックの正確な認識が可能となったが、レイアウトの多様性から文書からキー情報を抽出することは依然として困難である。 近年の事前学習言語モデルの研究では、このタスクにレイアウト情報を組み込むことの重要性が示されているが、テキストの共役とそのレイアウトは、1Dテキストを理解するために最適化されたBERTのスタイルに従っている。 これは、テキストレイアウトの2d特質を考慮する余地があることを意味する。 本稿では、個々のテキストブロックに含まれる情報とそのレイアウトを効果的に活用する事前学習型言語モデルBERT Relying On Spaceity(BROS)を提案する。 具体的には、相対位置を利用して空間情報を符号化し、新しい領域マスキング戦略を用いてOCRブロック間の空間依存を学習する。 これらの2つの新しいアプローチは、低リソース環境下でのBROSのロバストな性能によって強調された空間レイアウト情報の効率的な符号化につながる。 また,テキストブロック間に順序情報がない場合でも,BROSと組み合わせて鍵情報を抽出できる汎用パーサを導入する。 BROSは、FUNSD、SROIE*、CORD、SciTSRの4つの公開ベンチマークにおいて、その優位性を示し、テキストブロックの順序情報が入手できない実例では、その堅牢性を示している。 様々なトレーニング例によるさらなる実験は、我々のアプローチの高いトレーニング効率を示す。 私たちのコードは一般公開されます。

Understanding documents from their visual snapshots is an emerging problem that requires both advanced computer vision and NLP methods. The recent advance in OCR enables the accurate recognition of text blocks, yet it is still challenging to extract key information from documents due to the diversity of their layouts. Although recent studies on pre-trained language models show the importance of incorporating layout information on this task, the conjugation of texts and their layouts still follows the style of BERT optimized for understanding the 1D text. This implies there is room for further improvement considering the 2D nature of text layouts. This paper introduces a pre-trained language model, BERT Relying On Spatiality (BROS), which effectively utilizes the information included in individual text blocks and their layouts. Specifically, BROS encodes spatial information by utilizing relative positions and learns spatial dependencies between OCR blocks with a novel area-masking strategy. These two novel approaches lead to an efficient encoding of spatial layout information highlighted by the robust performance of BROS under low-resource environments. We also introduce a general-purpose parser that can be combined with BROS to extract key information even when there is no order information between text blocks. BROS shows its superiority on four public benchmarks---FUNSD, SROIE*, CORD, and SciTSR---and its robustness in practical cases where order information of text blocks is not available. Further experiments with a varying number of training examples demonstrate the high training efficiency of our approach. Our code will be open to the public.
翻訳日:2021-08-11 14:26:32 公開日:2021-08-10
# 変圧器ヘッドの可変サブセットプルーニング

Differentiable Subset Pruning of Transformer Heads ( http://arxiv.org/abs/2108.04657v1 )

ライセンス: Link先を確認
Jiaoda Li, Ryan Cotterell, Mrinmaya Sachan(参考訳) 入力の異なる部分に独立して関与する複数の注意機構の集合であるマルチヘッドアテンションがトランスフォーマーの重要な要素である(Vaswaniet al., 2017)。 しかし、近年の研究では、トランスフォーマーのマルチヘッドアテンション機構におけるヘッドの大部分が、モデルの性能を著しく損なうことなく安全にプルーピングできることが示されている。 我々の研究は、微分可能なサブセットプルーニングと呼ばれる新しいヘッドプルーニング技術を導入している。 直観的には頭毎重要度変数を学習し、ユーザが指定した頭数に対するハード制約を強制する。 重要性変数は確率勾配降下によって学習される。 自然言語の推論と機械翻訳に関する実験を行い、Voitaらと同等かそれ以上に異なるサブセットプルーニングを行うことを示す。 (2019) ミシェルらと同じ数の頭部を正確に制御した。 (2019).

Multi-head attention, a collection of several attention mechanisms that independently attend to different parts of the input, is the key ingredient in the Transformer (Vaswaniet al., 2017). Recent work has shown, however, that a large proportion of the heads in a Transformer's multi-head attention mechanism can be safely pruned away without significantly harming the performance of the model; such pruning leads to models that are noticeably smaller and faster in practice. Our work introduces a new head pruning technique that we term differentiable subset pruning. Intuitively, our method learns per-head importance variables and then enforces a user-specified hard constraint on the number of unpruned heads. The importance variables are learned via stochastic gradient descent. We conduct experiments on natural language inference and machine translation; we show that differentiable subset pruning performs comparably or better than Voita et al. (2019) while offering the same exact control over the number of heads as Michel et al. (2019).
翻訳日:2021-08-11 14:26:08 公開日:2021-08-10
# 常識知識が自然言語課題にどのように役立つか--最近の資源・方法論調査

How Commonsense Knowledge Helps with Natural Language Tasks: A Survey of Recent Resources and Methodologies ( http://arxiv.org/abs/2108.04674v1 )

ライセンス: Link先を確認
Yubo Xie, Pearl Pu(参考訳) 本稿では,自然言語処理におけるコモンセンス推論の概要について述べる。文脈を深く理解し,通常,暗黙の外部知識よりも推論を必要とする。 まず,いくつかの一般的なコモンセンス知識ベースとコモンセンス推論ベンチマークをレビューするが,外部知識ベースを生かした自然言語問題の解決を目的とした最近のアプローチを含め,方法論に重点を置いている。 最後に,自然言語処理におけるコモンセンス推論の境界を推し進める際の今後の方向性について論じる。

In this paper, we give an overview of commonsense reasoning in natural language processing, which requires a deeper understanding of the contexts and usually involves inference over implicit external knowledge. We first review some popular commonsense knowledge bases and commonsense reasoning benchmarks, but give more emphasis on the methodologies, including recent approaches that aim at solving some general natural language problems that take advantage of external knowledge bases. Finally, we discuss some future directions in pushing the boundary of commonsense reasoning in natural language processing.
翻訳日:2021-08-11 14:25:49 公開日:2021-08-10
# 病理領域の深部学習とアルツハイマー病診断

Deep Joint Learning of Pathological Region Localization and Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2108.04555v1 )

ライセンス: Link先を確認
Changhyun Park and Heung-Il Suk(参考訳) 構造磁気共鳴画像(mri)を用いたアルツハイマー病(ad)とその早期診断は研究者の注目を集めている。 病気の進行に伴う脳の微妙で局所的な形態変化を捉えるために、様々なデータ駆動アプローチが導入された。 微妙な変更をキャプチャする典型的なアプローチの1つは、パッチレベルの特徴表現である。 しかし、パッチを抽出する所定の領域は、潜在的なバイオマーカーの探索を中断することで分類性能を制限することができる。 さらに、既存のパッチレベルの分析では、意思決定の説明が難しい。 このような問題に対処するため,我々は,病的領域の局所化とAD診断をエンドツーエンドで共同学習するBrainBagNet(PG-Brain BagNet)を提案する。 事前に、すべてのスキャンが画像処理のテンプレートに整列されているため、脳画像の位置は、MRIスキャンで共有される3次元カルテシアン空間を通して表現することができる。 提案手法は全脳MRI画像からのパッチレベル応答と位置情報からの識別的脳領域を示す。 結果に基づいてパッチレベルのクラス証拠を算出し、透明な集計によって画像レベルの予測を推測する。 提案モデルはadniデータセット上で評価された。 5倍のクロスバリデーションでは,AD診断(AD対正規制御)と軽度認知障害(MCI対安定MCI)の変換予測(プログレッシブMCI対安定MCI)の両方において,提案手法の分類性能は最先端の手法よりも優れていた。 また、識別された識別領域の変化と、モデルトレーニングに使用するパッチサイズに応じたパッチレベルのクラス証拠を提示し分析する。

The identification of Alzheimer's disease (AD) and its early stages using structural magnetic resonance imaging (MRI) has been attracting the attention of researchers. Various data-driven approaches have been introduced to capture subtle and local morphological changes of the brain accompanied by the disease progression. One of the typical approaches for capturing subtle changes is patch-level feature representation. However, the predetermined regions to extract patches can limit classification performance by interrupting the exploration of potential biomarkers. In addition, the existing patch-level analyses have difficulty explaining their decision-making. To address these problems, we propose the BrainBagNet with a position-based gate (PG-BrainBagNet), a framework for jointly learning pathological region localization and AD diagnosis in an end-to-end manner. In advance, as all scans are aligned to a template in image processing, the position of brain images can be represented through the 3D Cartesian space shared by the overall MRI scans. The proposed method represents the patch-level response from whole-brain MRI scans and discriminative brain-region from position information. Based on the outcomes, the patch-level class evidence is calculated, and then the image-level prediction is inferred by a transparent aggregation. The proposed models were evaluated on the ADNI datasets. In five-fold cross-validation, the classification performance of the proposed method outperformed that of the state-of-the-art methods in both AD diagnosis (AD vs. normal control) and mild cognitive impairment (MCI) conversion prediction (progressive MCI vs. stable MCI) tasks. In addition, changes in the identified discriminant regions and patch-level class evidence according to the patch size used for model training are presented and analyzed.
翻訳日:2021-08-11 14:25:32 公開日:2021-08-10
# 絶対的・相対的感情情報の統合のための新しいマルコフフレームワーク

A Novel Markovian Framework for Integrating Absolute and Relative Ordinal Emotion Information ( http://arxiv.org/abs/2108.04605v1 )

ライセンス: Link先を確認
Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah(参考訳) 順序尺度に沿った感情の表現と予測に対する感情コンピューティングへの関心が高まっている。 しかしながら、順序感情ラベル(ordinal emotion label)という用語は、低覚醒(low arousal)や高覚醒(high arousal)といった絶対的な概念と、高覚醒(arousal)のような関係概念の両方を指すのに用いられてきた。 本稿では,この区別を明確にするために,絶対ラベルと相対順序ラベルという用語を導入し,それらを統合し,それらの相補的な性質を活用しようとする。 本稿では,絶対的および相対的順序性情報を利用する動的順序性マルコフモデル(DOMM)と呼ばれるマルコフフレームワークを提案し,音声に基づく順序性感情予測を改善する。 最後に、このフレームワークは、感情コンピューティングで一般的に使用される2つの音声コーパス、RECOLAとIEMOCAPデータベースに対して、様々なシステム構成で検証される。 その結果、相対順序情報の統合は絶対順序感情予測を改善することが示唆された。

There is growing interest in affective computing for the representation and prediction of emotions along ordinal scales. However, the term ordinal emotion label has been used to refer to both absolute notions such as low or high arousal, as well as relation notions such as arousal is higher at one instance compared to another. In this paper, we introduce the terminology absolute and relative ordinal labels to make this distinction clear and investigate both with a view to integrate them and exploit their complementary nature. We propose a Markovian framework referred to as Dynamic Ordinal Markov Model (DOMM) that makes use of both absolute and relative ordinal information, to improve speech based ordinal emotion prediction. Finally, the proposed framework is validated on two speech corpora commonly used in affective computing, the RECOLA and the IEMOCAP databases, across a range of system configurations. The results consistently indicate that integrating relative ordinal information improves absolute ordinal emotion prediction.
翻訳日:2021-08-11 14:25:02 公開日:2021-08-10
# ドメイン対応ユニバーサルスタイル転送

Domain-Aware Universal Style Transfer ( http://arxiv.org/abs/2108.04441v1 )

ライセンス: Link先を確認
Kibeom Hong, Seogkyu Jeon, Huan Yang, Jianlong Fu, Hyeran Byun(参考訳) スタイル転送は、参照画像からスタイルでコンテンツイメージを再生することを目的としている。 既存のユニバーサルスタイル転送手法は、芸術的またはフォトリアリズム的な方法で、オリジナルイメージに任意のスタイルを届けることに成功した。 しかし、既存の作品で定義されている「アービタリースタイル」の範囲は、その構造的制限のため、特定の領域に制限されている。 具体的には、予め定義された対象領域に従ってコンテンツ保存及びスタイリゼーションの度合いを確立する。 その結果、フォトリアリスティックモデルと芸術モデルの両方が、他のドメインに対して望ましいスタイル転送を行うのに困難である。 この制限を克服するために、ドメイン対応スタイル転送ネットワーク(DSTN)という統一アーキテクチャを提案し、そのスタイルだけでなく、ドメインの性質(すなわち、ドメイン性)を与えられた参照画像から転送する。 この目的のために,参照画像のテクスチャと構造的特徴からドメイン性値をキャプチャする新しいドメイン性インジケータを設計する。 さらに,ストロークとパレットを,ドメイン性インジケータが指示する入力内容に適応的に転送する,ドメイン認識スキップ接続を備えた統一フレームワークを提案する。 広範な実験により,我々のモデルが質的結果を生み出すことを検証し,芸術的およびフォトリアリスティックなスタイライゼーションの指標として,これまでの手法を上回った。

Style transfer aims to reproduce content images with the styles from reference images. Existing universal style transfer methods successfully deliver arbitrary styles to original images either in an artistic or a photo-realistic way. However, the range of 'arbitrary style' defined by existing works is bounded in the particular domain due to their structural limitation. Specifically, the degrees of content preservation and stylization are established according to a predefined target domain. As a result, both photo-realistic and artistic models have difficulty in performing the desired style transfer for the other domain. To overcome this limitation, we propose a unified architecture, Domain-aware Style Transfer Networks (DSTN) that transfer not only the style but also the property of domain (i.e., domainness) from a given reference image. To this end, we design a novel domainness indicator that captures the domainness value from the texture and structural features of reference images. Moreover, we introduce a unified framework with domain-aware skip connection to adaptively transfer the stroke and palette to the input contents guided by the domainness indicator. Our extensive experiments validate that our model produces better qualitative results and outperforms previous methods in terms of proxy metrics on both artistic and photo-realistic stylizations.
翻訳日:2021-08-11 14:24:45 公開日:2021-08-10
# snowflakenet:skip-tr ansformerを用いたsnowflake point deconvolutionによるポイントクラウド完成

SnowflakeNet: Point Cloud Completion by Snowflake Point Deconvolution with Skip-Transformer ( http://arxiv.org/abs/2108.04444v1 )

ライセンス: Link先を確認
Peng Xiang, Xin Wen, Yu-Shen Liu, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Zhizhong Han(参考訳) ポイント雲の完成は、その部分的な観測から高精度に完全な形状を予測することを目的としている。 しかし、従来の手法は通常、点雲の離散的性質と局所領域における点の非構造的予測に苦しむため、完全な形状の詳細な局所幾何学的詳細を明らかにすることは困難である。 この問題を解決するために,Snowflake Point Deconvolution (SPD) を用いたSnowflakeNetを提案する。 スノーフレークネットは3次元空間における点のスノーフレーク的成長として完全点雲の生成をモデル化し、そこでは各spdの後に親点を分割して子点が徐々に生成される。 詳細な幾何学を明らかにする上での洞察は,ローカル領域に最適な点分割パターンを学習するために,SPDにスキップ変換器を導入することである。 スキップ変換器は注意機構を利用して、前のSPD層で使われる分割パターンを要約し、現在のSPD層で分割を生成する。 SPDによって生成された局所的コンパクトで構造化された点雲は、局所的なパッチにおける3次元形状の構造特性を正確に捉え、スムーズな領域、鋭いエッジ、角といった高度に詳細なジオメトリを予測できる。 実験結果は,広く使用されているベンチマークにおいて,最先端のクラウド補完手法を上回っている。 コードはhttps://github.com/A llenXiangX/Snowflake Netで入手できる。

Point cloud completion aims to predict a complete shape in high accuracy from its partial observation. However, previous methods usually suffered from discrete nature of point cloud and unstructured prediction of points in local regions, which makes it hard to reveal fine local geometric details on the complete shape. To resolve this issue, we propose SnowflakeNet with Snowflake Point Deconvolution (SPD) to generate the complete point clouds. The SnowflakeNet models the generation of complete point clouds as the snowflake-like growth of points in 3D space, where the child points are progressively generated by splitting their parent points after each SPD. Our insight of revealing detailed geometry is to introduce skip-transformer in SPD to learn point splitting patterns which can fit local regions the best. Skip-transformer leverages attention mechanism to summarize the splitting patterns used in the previous SPD layer to produce the splitting in the current SPD layer. The locally compact and structured point cloud generated by SPD is able to precisely capture the structure characteristic of 3D shape in local patches, which enables the network to predict highly detailed geometries, such as smooth regions, sharp edges and corners. Our experimental results outperform the state-of-the-art point cloud completion methods under widely used benchmarks. Code will be available at https://github.com/A llenXiangX/Snowflake Net.
翻訳日:2021-08-11 14:24:24 公開日:2021-08-10
# CPNet: 効率的な異常検出のためのクロスパラレルネットワーク

CPNet: Cross-Parallel Network for Efficient Anomaly Detection ( http://arxiv.org/abs/2108.04454v1 )

ライセンス: Link先を確認
Youngsaeng Jin, David Han and Hanseok Ko(参考訳) ビデオストリームの異常検出は,異常事象の欠如と正確な注釈付けの難しさから困難であり,教師なし学習に基づく予測手法がこれまで適用されてきた。 これらのアプローチは、通常のイベントのみを用いてモデルを訓練し、ofencoder-decoderアーキテクチャを用いて、前のフレームのシーケンスからfu-tureフレームを予測する。 しかし、アーキテクチャには計算負荷が伴うため、一部の異常検出タスクは計算コストを犠牲にすることなく再要求する。 本稿では,性能低下を伴わずに計算量を最小化するクロス並列ネットワーク(cpnet)を提案する。 これはN leaster parallel U-Netで構成され、それぞれが単一の入力フレームを処理するように設計されており、計算をより効率的にする。 さらに,se-quentialフレーム間の時間的関係を捉えるためにネットワーク間シフトモジュールが組み込まれ,将来の予測精度が向上した。

Anomaly detection in video streams is a challengingproblem because of the scarcity of abnormal events andthe difficulty of accurately annotating them.To allevi-ate these issues, unsupervised learning-based predictionmethods have been previously applied. These approachestrain the model with only normal events and predict a fu-ture frame from a sequence of preceding frames by use ofencoder-decoder architectures so that they result in smallprediction errors on normal events but large errors on ab-normal events. The architecture, however, comes with thecomputational burden as some anomaly detection tasks re-quire low computational cost without sacrificing perfor-mance. In this paper, Cross-Parallel Network (CPNet) forefficient anomaly detection is proposed here to minimizecomputations without performance drops. It consists ofNsmaller parallel U-Net, each of which is designed to handlea single input frame, to make the calculations significantlymore efficient. Additionally, an inter-network shift moduleis incorporated to capture temporal relationships among se-quential frames to enable more accurate future predictions.The quantitative results show that our model requires lesscomputational cost than the baseline U-Net while deliver-ing equivalent performance in anomaly detection.
翻訳日:2021-08-11 14:23:56 公開日:2021-08-10
# 参照ベース欠陥検出ネットワーク

Reference-based Defect Detection Network ( http://arxiv.org/abs/2108.04456v1 )

ライセンス: Link先を確認
Zhaoyang Zeng, Bei Liu, Jianlong Fu, Hongyang Chao(参考訳) 欠陥検出タスクは、コンピュータビジョン分野におけるオブジェクト検出の現実的なシナリオと見なすことができ、産業分野で広く利用されている。 欠陥検出タスクにバニラ物体検出器を直接適用することで有望な結果が得られるが、未解決の課題はまだ残っている。 第1の問題は、トレーニングされた欠陥検出モデルが目に見えないテクスチャによって容易に影響を受けることを意味するテクスチャシフトであり、第2の問題は、部分的な欠陥検出ボックスが完全なボックスと視覚的に類似していることを示す部分的な視覚的混乱である。 これら2つの問題に対処するために,参照型欠陥検出ネットワーク(RDDN)を提案する。 具体的には,これら2つの問題に対してテンプレート参照とコンテキスト参照を導入する。 テンプレート参照は、画像、特徴、領域レベルからのテクスチャシフトを減らし、結果として検出器が欠陥領域にもっと集中するように促す。 本研究では, テンプレート画像と擬似テンプレート生成器の出力をテンプレート参照として使用することができる。 部分的な視覚的混乱を解決するため,各領域提案の同心大ボックスであるコンテキスト参照のコンテキスト情報を活用し,より正確な領域分類と回帰を行う。 2つの欠陥検出データセットの実験により,提案手法の有効性が示された。

The defect detection task can be regarded as a realistic scenario of object detection in the computer vision field and it is widely used in the industrial field. Directly applying vanilla object detector to defect detection task can achieve promising results, while there still exists challenging issues that have not been solved. The first issue is the texture shift which means a trained defect detector model will be easily affected by unseen texture, and the second issue is partial visual confusion which indicates that a partial defect box is visually similar with a complete box. To tackle these two problems, we propose a Reference-based Defect Detection Network (RDDN). Specifically, we introduce template reference and context reference to against those two problems, respectively. Template reference can reduce the texture shift from image, feature or region levels, and encourage the detectors to focus more on the defective area as a result. We can use either well-aligned template images or the outputs of a pseudo template generator as template references in this work, and they are jointly trained with detectors by the supervision of normal samples. To solve the partial visual confusion issue, we propose to leverage the carried context information of context reference, which is the concentric bigger box of each region proposal, to perform more accurate region classification and regression. Experiments on two defect detection datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2021-08-11 14:23:35 公開日:2021-08-10
# CVPR 2021 SimLocMatch Challenge への取り組み

Method Towards CVPR 2021 SimLocMatch Challenge ( http://arxiv.org/abs/2108.04466v1 )

ライセンス: Link先を確認
Xiaopeng Bi, Ran Yan, Zheng Chai, Haotian Zhang, Xiao Liu(参考訳) 本報告では,Megvii-3DチームのアプローチをSimLocMatch Challenge @ CVPR 2021 Image Matching Workshopで紹介する。

This report describes Megvii-3D team's approach to-wards SimLocMatch Challenge @ CVPR 2021 Image Matching Workshop.
翻訳日:2021-08-11 14:23:14 公開日:2021-08-10
# SP-GAN:球型3次元形状生成と操作

SP-GAN: Sphere-Guided 3D Shape Generation and Manipulation ( http://arxiv.org/abs/2108.04476v1 )

ライセンス: Link先を確認
Ruihui Li, Xianzhi Li, Ka-Hei Hui, Chi-Wing Fu(参考訳) 点雲の形で3次元形状を直接合成するための新しい教師なし球誘導生成モデルSP-GANを提案する。 既存のモデルと比較して、SP-GANは多種多様な高品質な形状を細部まで合成し、部分認識型形状の生成と操作の制御性を促進できるが、部分アノテーションなしでは訓練できる。 SP-GANでは、球面上の一様点)をグローバルに組み込んで生成過程を空間的にガイドし、各球面に局所的前置符号(ランダム潜在符号)をアタッチして局所的詳細を提供する。 我々の設計における重要な洞察は、複雑な3次元形状生成タスクをグローバルな形状モデリングと局所構造調整に切り離し、学習プロセスの容易化と形状生成品質の向上である。 また,本モデルでは,各生成した形状の球点と点間の暗黙の密接な対応を成し,既存の生成モデルを超えて,部分編集,部分的形状補間,多形部品合成などの構造認識形状の操作を可能にする。 視覚的および定量的な評価を含む実験結果から,我々のモデルは,最先端のモデルと比較して,細部と低ノイズで多様な点雲を合成できることを示した。

We present SP-GAN, a new unsupervised sphere-guided generative model for direct synthesis of 3D shapes in the form of point clouds. Compared with existing models, SP-GAN is able to synthesize diverse and high-quality shapes with fine details and promote controllability for part-aware shape generation and manipulation, yet trainable without any parts annotations. In SP-GAN, we incorporate a global prior (uniform points on a sphere) to spatially guide the generative process and attach a local prior (a random latent code) to each sphere point to provide local details. The key insight in our design is to disentangle the complex 3D shape generation task into a global shape modeling and a local structure adjustment, to ease the learning process and enhance the shape generation quality. Also, our model forms an implicit dense correspondence between the sphere points and points in every generated shape, enabling various forms of structure-aware shape manipulations such as part editing, part-wise shape interpolation, and multi-shape part composition, etc., beyond the existing generative models. Experimental results, which include both visual and quantitative evaluations, demonstrate that our model is able to synthesize diverse point clouds with fine details and less noise, as compared with the state-of-the-art models.
翻訳日:2021-08-11 14:23:10 公開日:2021-08-10
# tbnet:2-stream boundary-aware network for generic image manipulation localization

TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation Localization ( http://arxiv.org/abs/2108.04508v1 )

ライセンス: Link先を確認
Zan Gao, Chao Sun, Zhiyong Cheng, Weili Guan, Anan Liu, Meng Wang(参考訳) 画像中の改ざんされた領域を見つけることは、機械学習とコンピュータビジョンにおけるホットな研究トピックである。 多くの画像操作ロケーションアルゴリズムが提案されているが、その多くは異なる色空間を持つrgb画像のみに焦点を当てており、潜在的な改ざん手がかりを含む周波数情報はしばしば無視されている。 本稿では,rgbストリーム,周波数ストリーム,境界アーティファクトロケーションを統一フレームワークで探索する汎用画像操作ローカライズのために,エンドツーエンドの2ストリーム境界認識ネットワーク(tbnet)を提案する。 具体的には, 適応周波数選択モジュール (afs) をまず設計し, 不整合統計をマイニングするために適切な周波数を適応的に選択し, 冗長統計の干渉を除去した。 次に、RGB特徴と周波数特徴を適応的に融合させる適応的クロスアテンション融合モジュール(ACF)を提案する。 最後に、境界アーティファクト位置ネットワーク(BAL)は、パラメータがACFの出力によって共同で更新される境界アーティファクトを見つけるように設計されており、その結果はデコーダにさらに供給される。 したがって、RGBストリーム、周波数ストリーム、境界アーティファクト位置ネットワークのパラメータを協調的に最適化し、その潜在相補関係を完全にマイニングする。 casia1.0, cover, carvalho, in-the-wildの4つの画像操作ローカライズタスクの公開ベンチマーク実験の結果から,提案するtbnetはmccとf1の両方において,最先端の汎用的画像操作ローカライズ手法を大幅に上回ることができることが示された。

Finding tampered regions in images is a hot research topic in machine learning and computer vision. Although many image manipulation location algorithms have been proposed, most of them only focus on the RGB images with different color spaces, and the frequency information that contains the potential tampering clues is often ignored. In this work, a novel end-to-end two-stream boundary-aware network (abbreviated as TBNet) is proposed for generic image manipulation localization in which the RGB stream, the frequency stream, and the boundary artifact location are explored in a unified framework. Specifically, we first design an adaptive frequency selection module (AFS) to adaptively select the appropriate frequency to mine inconsistent statistics and eliminate the interference of redundant statistics. Then, an adaptive cross-attention fusion module (ACF) is proposed to adaptively fuse the RGB feature and the frequency feature. Finally, the boundary artifact location network (BAL) is designed to locate the boundary artifacts for which the parameters are jointly updated by the outputs of the ACF, and its results are further fed into the decoder. Thus, the parameters of the RGB stream, the frequency stream, and the boundary artifact location network are jointly optimized, and their latent complementary relationships are fully mined. The results of extensive experiments performed on four public benchmarks of the image manipulation localization task, namely, CASIA1.0, COVER, Carvalho, and In-The-Wild, demonstrate that the proposed TBNet can significantly outperform state-of-the-art generic image manipulation localization methods in terms of both MCC and F1.
翻訳日:2021-08-11 14:22:42 公開日:2021-08-10
# ロバストな視覚オブジェクト追跡のための多領域協調特徴表現

Multi-domain Collaborative Feature Representation for Robust Visual Object Tracking ( http://arxiv.org/abs/2108.04521v1 )

ライセンス: Link先を確認
Jiqing Zhang and Kai Zhao and Bo Dong and Yingkai Fu and Yuxin Wang and Xin Yang and Baocai Yin(参考訳) 複数の異なる補完的なドメイン情報を共同で活用することは、堅牢なオブジェクト追跡を実行する効果的な方法であることが証明されている。 本稿では,課題シナリオにおけるオブジェクト追跡性能向上のために,フレームドメインとイベントドメインの補完機能を効果的に表現し,活用することに焦点を当てる。 具体的には,RGBドメインとイベントドメインから共通表現を学習するための共通特徴エクストラクタ(CFE)を提案する。 2つのドメインのユニークな特徴を学習するために、スパイキングニューラルネットワークに基づくユニークなイベントエクストラクタ(UEE)を用いて、いくつかの困難な条件下でRGBに欠落する可能性のあるイベントドメインのエッジキューを抽出し、深部畳み込みニューラルネットワークに基づくRGBのためのユニークなエクストラクタを用いて、RGBドメインのテクスチャとセマンティック情報を抽出する。 標準RGBベンチマークと実イベント追跡データセットの大規模な実験により,提案手法の有効性が示された。 我々のアプローチは、最先端のトラッキングアルゴリズムよりも優れており、イベントベースのデータが、困難な場面で追跡するための強力なキューであることを示す。

Jointly exploiting multiple different yet complementary domain information has been proven to be an effective way to perform robust object tracking. This paper focuses on effectively representing and utilizing complementary features from the frame domain and event domain for boosting object tracking performance in challenge scenarios. Specifically, we propose Common Features Extractor (CFE) to learn potential common representations from the RGB domain and event domain. For learning the unique features of the two domains, we utilize a Unique Extractor for Event (UEE) based on Spiking Neural Networks to extract edge cues in the event domain which may be missed in RGB in some challenging conditions, and a Unique Extractor for RGB (UER) based on Deep Convolutional Neural Networks to extract texture and semantic information in RGB domain. Extensive experiments on standard RGB benchmark and real event tracking dataset demonstrate the effectiveness of the proposed approach. We show our approach outperforms all compared state-of-the-art tracking algorithms and verify event-based data is a powerful cue for tracking in challenging scenes.
翻訳日:2021-08-11 14:22:07 公開日:2021-08-10
# 衣服交換者再識別のためのマルチグラニュラービジュアルセマンティック埋め込み

Multigranular Visual-Semantic Embedding for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2108.04527v1 )

ライセンス: Link先を確認
Zan Gao, Hongwei Wei, Weili Guan, Weizhi Nie, Meng Liu, Meng Wang(参考訳) 人物再識別(ReID)は、機械学習やコンピュータビジョンにおいて非常にホットな研究テーマであり、多くの人物ReIDアプローチが提案されているが、これらの手法の多くは、同一人物が短い時間内に同じ衣服を持っていると仮定し、視覚的外観が類似している必要がある。 しかし、実際の監視環境では、一定時間が経つと着替えの可能性がかなり高く、また、持ち物が異なることもしばしばある。 既存の人物のReIDメソッドがこの種のケースに適用されると、ほとんど全員が失敗します。 現状では、着替えのReID作業に焦点を絞った作品はほとんどないが、着替えの人を表す汎用的で堅牢な特徴を抽出することは極めて困難であるため、性能の向上が求められる。 また、視覚情報はしばしば無視される。 そこで本研究では,ネットワークに視覚的な意味情報と人的属性を組み込んだマルチグラナール視覚意味埋め込みアルゴリズム(mvse)を提案し,その汎用的な外観特徴を学習し,衣料変化の問題を効果的に解決する。 具体的には、衣服の変化をフルに表現するために、人間の変わらずの部分に焦点を合わせるために多粒性特徴表現スキーム(MGR)を用い、その後、異なる衣服の人に対して、異なる人間の属性をフル活用したアプローチの特徴堅牢性を改善するために布脱感ネットワーク(CDN)を設計する。 さらに、異なるカメラ視点下でのポーズの変化やオクルージョンの問題を更に解決するために、人間の属性の整合に使用される視覚意味情報を得るために、部分意味的整合ネットワーク(PSA)を提案する。

Person reidentification (ReID) is a very hot research topic in machine learning and computer vision, and many person ReID approaches have been proposed; however, most of these methods assume that the same person has the same clothes within a short time interval, and thus their visual appearance must be similar. However, in an actual surveillance environment, a given person has a great probability of changing clothes after a long time span, and they also often take different personal belongings with them. When the existing person ReID methods are applied in this type of case, almost all of them fail. To date, only a few works have focused on the cloth-changing person ReID task, but since it is very difficult to extract generalized and robust features for representing people with different clothes, their performances need to be improved. Moreover, visual-semantic information is often ignored. To solve these issues, in this work, a novel multigranular visual-semantic embedding algorithm (MVSE) is proposed for cloth-changing person ReID, where visual semantic information and human attributes are embedded into the network, and the generalized features of human appearance can be well learned to effectively solve the problem of clothing changes. Specifically, to fully represent a person with clothing changes, a multigranular feature representation scheme (MGR) is employed to focus on the unchanged part of the human, and then a cloth desensitization network (CDN) is designed to improve the feature robustness of the approach for the person with different clothing, where different high-level human attributes are fully utilized. Moreover, to further solve the issue of pose changes and occlusion under different camera perspectives, a partially semantically aligned network (PSA) is proposed to obtain the visual-semantic information that is used to align the human attributes.
翻訳日:2021-08-11 14:21:47 公開日:2021-08-10
# 画像-画像間翻訳におけるコントラスト学習のためのインスタンス単位のハード負例生成

Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2108.04547v1 )

ライセンス: Link先を確認
Weilun Wang, Wengang Zhou, Jianmin Bao, Dong Chen and Houqiang Li(参考訳) コントラスト学習は画像と画像の翻訳において大きな可能性を秘めているが、翻訳結果は品質が悪く、コンテンツは一貫して保存されないこともある。 本稿では,画像翻訳における対照学習の性能に負の例が重要な役割を担っていることを明らかにする。 過去の手法における負の例は、ソースイメージ内の異なる位置のパッチからランダムにサンプリングされるが、クエリの例に近い正の例をプッシュするには効果がない。 この問題に対処するために、未ペア画像から画像への翻訳(NEGCUT)におけるコントラスト学習のための否定例生成法を提案する。 具体的には、オンラインでネガティブな例を生成するためにジェネレータを訓練する。 ジェネレータは2つの観点から斬新である: 1) 生成したサンプルが入力イメージに基づくインスタンスワイズであり、2) 敵の損失でトレーニングされるため、ハードネガティブな例を生成することができる。 生成装置では、未ペア画像-画像間変換の性能が大幅に向上する。 3つのベンチマークデータセットの実験により、提案したNEGCUTフレームワークは、従来の手法と比較して最先端のパフォーマンスを達成することが示された。

Contrastive learning shows great potential in unpaired image-to-image translation, but sometimes the translated results are in poor quality and the contents are not preserved consistently. In this paper, we uncover that the negative examples play a critical role in the performance of contrastive learning for image translation. The negative examples in previous methods are randomly sampled from the patches of different positions in the source image, which are not effective to push the positive examples close to the query examples. To address this issue, we present instance-wise hard Negative Example Generation for Contrastive learning in Unpaired image-to-image Translation~(NEGCUT) . Specifically, we train a generator to produce negative examples online. The generator is novel from two perspectives: 1) it is instance-wise which means that the generated examples are based on the input image, and 2) it can generate hard negative examples since it is trained with an adversarial loss. With the generator, the performance of unpaired image-to-image translation is significantly improved. Experiments on three benchmark datasets demonstrate that the proposed NEGCUT framework achieves state-of-the-art performance compared to previous methods.
翻訳日:2021-08-11 14:21:13 公開日:2021-08-10
# 人間の視覚システムと深層ネットワークから得られた視覚的説明を用いた文字認識

Understanding Character Recognition using Visual Explanations Derived from the Human Visual System and Deep Networks ( http://arxiv.org/abs/2108.04558v1 )

ライセンス: Link先を確認
Chetan Ralekar, Shubham Choudhary, Tapan Kumar Gandhi, Santanu Chaudhury(参考訳) 人間の観察者は視覚パターンを分類する際に選択的な情報を取り込む。 ディープニューラルネットワークは、現在最も高性能な人工視覚システムを構成している。 我々のゴールは、2つのシステムの情報収集戦略における相違、あるいはその欠如を調べることである。 我々は文字認識タスクとして調査を運用した。 我々は,情報ホットスポットの空間分布を固定マップを用いて計測するためにアイトラッキングと,可視化マップを用いて深層ネットワークの類似分布を得るためのアクティベーションマッピング技術を用いた。 可視化マップと固定マップの質的な比較は、合同の興味深い相関関係を示す。 ディープラーニングモデルは、人間が正しく分類された文字の場合固定した文字の類似領域を検討した。 一方,ヒトや深層網では焦点領域が異なる場合,後者では文字を誤分類することが多い。 そこで,アイトラッキング実験から得られた視覚固定マップを,モデルの焦点を関連する文字領域に合わせるための監督入力として用いることを提案する。 このような監視はモデルの性能を大幅に改善し、追加のパラメータを必要としないことがわかった。 このアプローチは、医療分析や監視といったさまざまな領域で応用され、説明可能性によってシステムの忠実性が決定される可能性がある。

Human observers engage in selective information uptake when classifying visual patterns. The same is true of deep neural networks, which currently constitute the best performing artificial vision systems. Our goal is to examine the congruence, or lack thereof, in the information-gatherin g strategies of the two systems. We have operationalized our investigation as a character recognition task. We have used eye-tracking to assay the spatial distribution of information hotspots for humans via fixation maps and an activation mapping technique for obtaining analogous distributions for deep networks through visualization maps. Qualitative comparison between visualization maps and fixation maps reveals an interesting correlate of congruence. The deep learning model considered similar regions in character, which humans have fixated in the case of correctly classified characters. On the other hand, when the focused regions are different for humans and deep nets, the characters are typically misclassified by the latter. Hence, we propose to use the visual fixation maps obtained from the eye-tracking experiment as a supervisory input to align the model's focus on relevant character regions. We find that such supervision improves the model's performance significantly and does not require any additional parameters. This approach has the potential to find applications in diverse domains such as medical analysis and surveillance in which explainability helps to determine system fidelity.
翻訳日:2021-08-11 14:20:53 公開日:2021-08-10
# オープンワールドセマンティックセグメンテーションのためのDeep Metric Learning

Deep Metric Learning for Open World Semantic Segmentation ( http://arxiv.org/abs/2108.04562v1 )

ライセンス: Link先を確認
Jun Cen, Peng Yun, Junhao Cai, Michael Yu Wang, Ming Liu(参考訳) 古典的クローズセットセマンティックセグメンテーションネットワークは、自律運転のような安全クリティカルなアプリケーションにとって重要なOOD(out-of-distriion )オブジェクトを検出する能力に制限がある。 アノテーションの少ないOODオブジェクトを漸進的に学習することは、ディープラーニングモデルの知識ベースを拡大する理想的な方法である。 本稿では,(1)内分布とoodオブジェクトの両方を検出するオープンセットセマンティクスセグメンテーションモジュールという2つのモジュールを含むオープンワールドセマンティクスセグメンテーションシステムを提案する。 2) OODオブジェクトを既存の知識ベースに徐々に組み込むための,段階的な数ショット学習モジュール。 このオープンワールドセマンティクスセグメンテーションシステムは、oodオブジェクトを識別し、それに対応する監督によって徐々に学習することができる人間のように振る舞う。 我々は,オープンセットセマンティクスセグメンテーションを実装するために,対照クラスタリングを用いたディープメトリック学習ネットワーク(dmlnet)を採用する。 他のオープンセットセマンティックセグメンテーション手法と比較して、我々のDMLNetは、追加のデータや生成モデルを用いることなく、3つの挑戦的なオープンセットセマンティックセグメンテーションデータセットに対して最先端のパフォーマンスを達成する。 そこで本研究では,OODオブジェクトのアノテーションを用いて,DMLNetを段階的に改善する2つの段階的な数ショット学習手法を提案する。

Classical close-set semantic segmentation networks have limited ability to detect out-of-distribution (OOD) objects, which is important for safety-critical applications such as autonomous driving. Incrementally learning these OOD objects with few annotations is an ideal way to enlarge the knowledge base of the deep learning models. In this paper, we propose an open world semantic segmentation system that includes two modules: (1) an open-set semantic segmentation module to detect both in-distribution and OOD objects. (2) an incremental few-shot learning module to gradually incorporate those OOD objects into its existing knowledge base. This open world semantic segmentation system behaves like a human being, which is able to identify OOD objects and gradually learn them with corresponding supervision. We adopt the Deep Metric Learning Network (DMLNet) with contrastive clustering to implement open-set semantic segmentation. Compared to other open-set semantic segmentation methods, our DMLNet achieves state-of-the-art performance on three challenging open-set semantic segmentation datasets without using additional data or generative models. On this basis, two incremental few-shot learning methods are further proposed to progressively improve the DMLNet with the annotations of OOD objects.
翻訳日:2021-08-11 14:20:36 公開日:2021-08-10
# 点雲上の単一オブジェクト追跡のためのbox-aware機能拡張

Box-Aware Feature Enhancement for Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2108.04728v1 )

ライセンス: Link先を確認
Chaoda Zheng, Xu Yan, Jiantao Gao, Weibing Zhao, Wei Zhang, Zhen Li, Shuguang Cui(参考訳) 現在の3dシングルオブジェクトトラッキングアプローチは、ターゲットテンプレートと検索エリアの特徴比較に基づいてターゲットを追跡する。 しかし、LiDARスキャンの一般的な閉塞のため、厳密なスパースと不完全な形状の正確な特徴比較を行うのは簡単ではない。 本研究では,第1フレームに与えられた基本真理境界ボックスを強靭なキューとして利用して,対象物の特徴記述を強化することにより,より正確な特徴比較をシンプルかつ効果的に実現する。 特に、まず、ポイント・ツー・ボックス関係を用いてオブジェクトを記述するための、情報的かつロバストな表現であるboxcloudを提案します。 さらに,信頼性の高い機能マッチングと組み込みのために,前述のboxcloudを活用する効率的なbox-aware feature fusionモジュールも設計する。 提案する汎用コンポーネントを既存のモデルP2Bに統合し,より優れたボックス認識トラッカー(BAT)を構築する。 実験によると、提案するbatはkittiベンチマークとnuscenesベンチマークの両方において、以前の最先端を上回っており、20%高速で動作しながら精度が12.8%向上している。

Current 3D single object tracking approaches track the target based on a feature comparison between the target template and the search area. However, due to the common occlusion in LiDAR scans, it is non-trivial to conduct accurate feature comparisons on severe sparse and incomplete shapes. In this work, we exploit the ground truth bounding box given in the first frame as a strong cue to enhance the feature description of the target object, enabling a more accurate feature comparison in a simple yet effective way. In particular, we first propose the BoxCloud, an informative and robust representation, to depict an object using the point-to-box relation. We further design an efficient box-aware feature fusion module, which leverages the aforementioned BoxCloud for reliable feature matching and embedding. Integrating the proposed general components into an existing model P2B, we construct a superior box-aware tracker (BAT). Experiments confirm that our proposed BAT outperforms the previous state-of-the-art by a large margin on both KITTI and NuScenes benchmarks, achieving a 12.8% improvement in terms of precision while running ~20% faster.
翻訳日:2021-08-11 14:20:15 公開日:2021-08-10
# semantics-stgcnn:マルチクラス軌道予測のためのsemantics-guided spatial-temporal graph convolutional network

Semantics-STGCNN: A Semantics-guided Spatial-Temporal Graph Convolutional Network for Multi-class Trajectory Prediction ( http://arxiv.org/abs/2108.04740v1 )

ライセンス: Link先を確認
Ben A. Rainbow, Qianhui Men, Hubert P. H. Shum(参考訳) 現実シナリオにおける複数クラスの道路利用者の移動軌跡の予測は,多様な軌道パターンのために難しい課題である。 近年の歩行者追跡予測は、相対距離に基づく周辺環境の影響をモデル化することに成功したが、マルチクラス軌道予測には効果がない。 これは、異なる種類の道路利用者間の暗黙の相関関係が予測される軌道に与える影響を無視しているためである。 本稿では,グラフ畳み込みニューラルネットワークにクラス情報を導入することにより,個人の軌跡を予測する手法を提案する。 周辺物体のクラスラベルをラベル隣接行列 (LAM) に埋め込み, 速度に基づく近接行列 (VAM) と組み合わせることで, セマンティックス誘導グラフ隣接行列 (SAM) を生成する。 SAMは、トレーニング可能なパラメータで意味情報を効果的にモデル化し、固定速度に基づく軌道に寄与する埋め込みラベル機能を自動的に学習する。 このような空間的および時間的依存関係の情報はグラフ畳み込みおよび時間的畳み込みネットワークに渡され、予測された軌道分布を推定する。 さらに,ネットワーク精度をより正確に評価する指標として,平均2変位誤差(aade)と平均最終変位誤差(afde)を提案する。 フレームワークをSemantics-STGCNNと呼びます。 既存のメトリクスや新しく提案されたメトリクスの最先端よりも、一貫して優れたパフォーマンスを示している。

Predicting the movement trajectories of multiple classes of road users in real-world scenarios is a challenging task due to the diverse trajectory patterns. While recent works of pedestrian trajectory prediction successfully modelled the influence of surrounding neighbours based on the relative distances, they are ineffective on multi-class trajectory prediction. This is because they ignore the impact of the implicit correlations between different types of road users on the trajectory to be predicted - for example, a nearby pedestrian has a different level of influence from a nearby car. In this paper, we propose to introduce class information into a graph convolutional neural network to better predict the trajectory of an individual. We embed the class labels of the surrounding objects into the label adjacency matrix (LAM), which is combined with the velocity-based adjacency matrix (VAM) comprised of the objects' velocity, thereby generating a semantics-guided graph adjacency (SAM). SAM effectively models semantic information with trainable parameters to automatically learn the embedded label features that will contribute to the fixed velocity-based trajectory. Such information of spatial and temporal dependencies is passed to a graph convolutional and temporal convolutional network to estimate the predicted trajectory distributions. We further propose new metrics, known as Average2 Displacement Error (aADE) and Average Final Displacement Error (aFDE), that assess network accuracy more accurately. We call our framework Semantics-STGCNN. It consistently shows superior performance to the state-of-the-arts in existing and the newly proposed metrics.
翻訳日:2021-08-11 14:19:53 公開日:2021-08-10
# 損失が一般化に及ぼす影響:合成肺結節データに関する実証的研究

The Effect of the Loss on Generalization: Empirical Study on Synthetic Lung Nodule Data ( http://arxiv.org/abs/2108.04815v1 )

ライセンス: Link先を確認
Vasileios Baltatzis, Loic Le Folgoc, Sam Ellis, Octavio E. Martinez Manzanera, Kyriaki-Margarita Bintsi, Arjun Nair, Sujal Desai, Ben Glocker, Julia A. Schnabel(参考訳) 畳み込みニューラルネットワーク(CNN)は、医療画像を含む様々な分野で画像分類に広く用いられている。 多くの研究は、このようなタスクで損失関数としてクロスエントロピーを展開しているが、多くのアプローチが対照的な学習に基づく損失のファミリーへと変化している。 CNN分類器の評価には, 精度, 感度, 特異性などの性能指標が定期的に用いられているが, これらの分類器が実際に学習する特徴は滅多に同定されず, 分布外試験試料に対する分類性能への影響が不十分である。 本稿では,肺結節分類の現実的な課題を動機として,CNNが学習した特徴を,変動の制御された合成データセットの異なる分布で学習し,検証した。 異なる損失関数が学習される特徴に結びつき、その結果、未確認データに対する分類器の一般化能力に影響を及ぼすことを示す。 本研究は,医用イメージングタスクのための深層学習ソリューションの設計に関する重要な知見を提供する。

Convolutional Neural Networks (CNNs) are widely used for image classification in a variety of fields, including medical imaging. While most studies deploy cross-entropy as the loss function in such tasks, a growing number of approaches have turned to a family of contrastive learning-based losses. Even though performance metrics such as accuracy, sensitivity and specificity are regularly used for the evaluation of CNN classifiers, the features that these classifiers actually learn are rarely identified and their effect on the classification performance on out-of-distribution test samples is insufficiently explored. In this paper, motivated by the real-world task of lung nodule classification, we investigate the features that a CNN learns when trained and tested on different distributions of a synthetic dataset with controlled modes of variation. We show that different loss functions lead to different features being learned and consequently affect the generalization ability of the classifier on unseen data. This study provides some important insights into the design of deep learning solutions for medical imaging tasks.
翻訳日:2021-08-11 14:19:26 公開日:2021-08-10
# ホルダ拡大下における凸最適化のための不規則近点アルゴリズムの計算複雑性

Computational complexity of Inexact Proximal Point Algorithm for Convex Optimization under Holderian Growth ( http://arxiv.org/abs/2108.04482v1 )

ライセンス: Link先を確認
Andrei Patrascu, Paul Irofti(参考訳) 数十年前、PPA (Proximal Point Algorithm) は抽象演算子理論と数値最適化のコミュニティの両方に多くの注目を集め始めた。 現代の応用においても、研究者は高次元モデルにおける非滑らか性を克服するスケーラブルなアルゴリズムを設計するために、近位最小化理論を用いている。 \cite{fer:91,ber:82constra ined,ber:89parallel, tom:11} は ppa の収束率と目的関数の正則性の間の密接な局所関係を分析した。 しかしながら、各PPAイテレーションの計算に費やされる具体的な計算労力を考慮せずに、イテレーションの複雑さは抽象的で純粋に有益である。 本論文は,PPAの計算複雑性を(近)勾配/下位反復の観点から評価することを目的としており,一階法のクラスにおける有名なPPA数値性能の公平な位置決めを可能にしている。 まず、完全かつ不正確な PPA の漸近的反復複雑性推定を導出し、凸関数を$\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ ($\gamma \in [1,2]$) と $\BigO{1/\epsilon^{\gamma - 2}}$ ($\gamma > 2$) で最小化する。 特に, 鋭い極小の有限収束と二次成長の線形収束という, 不正確性の存在下でもよく知られたppaの結果を復元する。 第二に、通常の(近似的な)勾配/下位のメソッドサブルーチンが不正確なPPA反復を計算するために使用されると仮定すると、目的関数の成長に関する情報が得られない場合に利用可能な、不正確なPPAの再開された変種に、新しい計算複雑性境界が現れる。 数値実験では,提案方式の実用性と実装性を確認した。

Several decades ago the Proximal Point Algorithm (PPA) started to gain much attraction for both abstract operator theory and the numerical optimization communities. Even in modern applications, researchers still use proximal minimization theory to design scalable algorithms that overcome nonsmoothness in high dimensional models. Several remarkable references as \cite{Fer:91,Ber:82constra ined,Ber:89parallel, Tom:11} analyzed the tight local relations between the convergence rate of PPA and the regularity of the objective function. However, without taking into account the concrete computational effort paid for computing each PPA iteration, any iteration complexity remains abstract and purely informative. In this manuscript we aim to evaluate the computational complexity of practical PPA in terms of (proximal) gradient/subgradient iterations, which might allow a fair positioning of the famous PPA numerical performance in the class of first order methods. First, we derive nonasymptotic iteration complexity estimates of exact and inexact PPA to minimize convex functions under $\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ (for $\gamma \in [1,2]$) and $\BigO{1/\epsilon^{\gamma - 2}}$ (for $\gamma > 2$). In particular, we recover well-known results on exact PPA: finite convergence for sharp minima and linear convergence for quadratic growth, even under presence of inexactness. Second, assuming that an usual (proximal) gradient/subgradient method subroutine is employed to compute inexact PPA iteration, we show novel computational complexity bounds on a restarted variant of the inexact PPA, available when no information on the growth of the objective function is known. In the numerical experiments we confirm the practical performance and implementability of our schemes.
翻訳日:2021-08-11 14:19:07 公開日:2021-08-10
# ノード分類のためのラベル付きグラフ構造学習

Label-informed Graph Structure Learning for Node Classification ( http://arxiv.org/abs/2108.04595v1 )

ライセンス: Link先を確認
Liping Wang, Fenyu Hu, Shu Wu, Liang Wang(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域で大きな成功を収めている。 しかしながら、ほとんどのGNN法はグラフ構造の品質に敏感である。 この問題に対処するために、異なるグラフ構造学習戦略を利用して、元のグラフ構造を洗練させる研究もある。 しかし,これらの手法は利用可能なラベル情報を無視しながらのみ特徴情報を考慮している。 本稿では,クラス遷移行列を通してラベル情報を明示的に組み込んだ新しいラベルインフォームグラフ構造学習フレームワークを提案する。 7つのノード分類ベンチマークデータセットについて広範な実験を行い,本手法が最先端のベースラインよりも優れ,あるいは一致していることを示す。

Graph Neural Networks (GNNs) have achieved great success among various domains. Nevertheless, most GNN methods are sensitive to the quality of graph structures. To tackle this problem, some studies exploit different graph structure learning strategies to refine the original graph structure. However, these methods only consider feature information while ignoring available label information. In this paper, we propose a novel label-informed graph structure learning framework which incorporates label information explicitly through a class transition matrix. We conduct extensive experiments on seven node classification benchmark datasets and the results show that our method outperforms or matches the state-of-the-art baselines.
翻訳日:2021-08-11 14:18:24 公開日:2021-08-10
# FPGA上のバイナリ複雑ニューラルネットワーク高速化

Binary Complex Neural Network Acceleration on FPGA ( http://arxiv.org/abs/2108.04811v1 )

ライセンス: Link先を確認
Hongwu Peng, Shanglin Zhou, Scott Weitze, Jiaxin Li, Sahidul Islam, Tong Geng, Ang Li, Wei Zhang, Minghu Song, Mimi Xie, Hang Liu, and Caiwen Ding(参考訳) 位相情報を持つ複雑なデータから学習できることは多くの信号処理アプリケーションにとって必須である。 今日のs real-valued deep neural networks (dnns) は潜時情報分析において効率性を示しているが、複雑な領域に適用すると不足する。 対照的に、ディープ・コンプレックス・ネットワーク(DCN)は複雑なデータから学習することができるが、計算コストが高いため、短い観測や短い信号バーストを扱う多くのデプロイ可能なシステムの即時決定要件を満たすことはできない。 近年、DCNと二項化ニューラルネットワーク(BNN)を統合した二項化ニューラルネットワーク(BCNN)は、複雑なデータをリアルタイムに分類する大きな可能性を示している。 本稿では,エッジデバイス上で5,000フレーム/s以上のスループットを実現することができる構造的プルーニングベースのbcnn加速器を提案する。 ハイパフォーマンスは、アルゴリズムとハードウェアの両方からもたらされる。 アルゴリズム側では、元のBCNNモデルに対して構造的プルーニングを行い、信頼できない精度で20$\times$プルーニングレートを得る。 実験の結果,提案手法は90%以上の利用率で動作し,複雑な nin-net と resnet-18 に対して cifar-10 データセットと alveo u280 ボードを用いた 5882 フレーム/s と 4938 フレーム/s の推論スループットを実現することができた。

Being able to learn from complex data with phase information is imperative for many signal processing applications. Today' s real-valued deep neural networks (DNNs) have shown efficiency in latent information analysis but fall short when applied to the complex domain. Deep complex networks (DCN), in contrast, can learn from complex data, but have high computational costs; therefore, they cannot satisfy the instant decision-making requirements of many deployable systems dealing with short observations or short signal bursts. Recent, Binarized Complex Neural Network (BCNN), which integrates DCNs with binarized neural networks (BNN), shows great potential in classifying complex data in real-time. In this paper, we propose a structural pruning based accelerator of BCNN, which is able to provide more than 5000 frames/s inference throughput on edge devices. The high performance comes from both the algorithm and hardware sides. On the algorithm side, we conduct structural pruning to the original BCNN models and obtain 20 $\times$ pruning rates with negligible accuracy loss; on the hardware side, we propose a novel 2D convolution operation accelerator for the binary complex neural network. Experimental results show that the proposed design works with over 90% utilization and is able to achieve the inference throughput of 5882 frames/s and 4938 frames/s for complex NIN-Net and ResNet-18 using CIFAR-10 dataset and Alveo U280 Board.
翻訳日:2021-08-11 14:18:15 公開日:2021-08-10
# StarGAN-VC+ASR: 音声認識による非並列音声変換

StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized by Automatic Speech Recognition ( http://arxiv.org/abs/2108.04395v1 )

ライセンス: Link先を確認
Shoki Sakamoto, Akira Taniguchi, Tadahiro Taniguchi, Hirokazu Kameoka(参考訳) 音声変換(VC)において,入力音声の言語内容の保存が不可欠である。 stargenerative adversarial network-based vc method(stargan-vc)は、非並列多対多vcを可能にする手法である。 この方法は強力であるが、利用可能な訓練サンプルの数が極めて少ない場合、入力音声の言語的内容の保存に失敗する可能性がある。 この問題を克服するために,モデル学習支援,特に低リソースシナリオにおけるstargan-vc改善のための自動音声認識の利用を提案する。 実験の結果,提案手法を用いることで,Vanilla StarGAN-VCよりも言語情報を保持できることがわかった。

Preserving the linguistic content of input speech is essential during voice conversion (VC). The star generative adversarial network-based VC method (StarGAN-VC) is a recently developed method that allows non-parallel many-to-many VC. Although this method is powerful, it can fail to preserve the linguistic content of input speech when the number of available training samples is extremely small. To overcome this problem, we propose the use of automatic speech recognition to assist model training, to improve StarGAN-VC, especially in low-resource scenarios. Experimental results show that using our proposed method, StarGAN-VC can retain more linguistic information than vanilla StarGAN-VC.
翻訳日:2021-08-11 14:17:26 公開日:2021-08-10
# 局所化グラフ協調フィルタリング

Localized Graph Collaborative Filtering ( http://arxiv.org/abs/2108.04475v1 )

ライセンス: Link先を確認
Yiqi Wang, Chaozhuo Li, Mingzheng Li, Wei Jin, Yuming Liu, Hao Sun, Xing Xie(参考訳) レコメンデーションにおけるユーザとイテムの相互作用は、自然にユーザとイテムの2部グラフとして記述できる。 グラフ表現学習におけるグラフニューラルネットワーク(GNN)の成功を踏まえ、GNNベースのC手法はレコメンデータシステムを推進するために提案されている。 これらのメソッドは、学習したユーザとアイテムの埋め込みに基づいて推奨することが多い。 しかし,実世界のレコメンデーションではよく見られるような,スリムなユーザ・テーマグラフはうまく動作しないことがわかった。 そこで本研究では,提案フレームワークのローカライズグラフ協調フィルタリング(lgcf)に繋がるレコメンデーションのためのgnnベースのcfメソッドを構築するための新しい視点を提案する。 LGCFの重要な利点の1つは、各ユーザとアイテムの埋め込みを学ぶ必要がないことである。 あるいはlgcfは、有用なcf情報をローカライズされたグラフにエンコードし、そのようなグラフに基づいて推奨することを目指している。 各種データセットに対する大規模な実験は、特にスパースシナリオにおけるLGCFの有効性を検証する。 さらに,LGCFは組込み型CFモデルに補完的な情報を提供し,レコメンデーション性能の向上に有効であることを示す。

User-item interactions in recommendations can be naturally de-noted as a user-item bipartite graph. Given the success of graph neural networks (GNNs) in graph representation learning, GNN-based C methods have been proposed to advance recommender systems. These methods often make recommendations based on the learned user and item embeddings. However, we found that they do not perform well wit sparse user-item graphs which are quite common in real-world recommendations. Therefore, in this work, we introduce a novel perspective to build GNN-based CF methods for recommendations which leads to the proposed framework Localized Graph Collaborative Filtering (LGCF). One key advantage of LGCF is that it does not need to learn embeddings for each user and item, which is challenging in sparse scenarios. Alternatively, LGCF aims at encoding useful CF information into a localized graph and making recommendations based on such graph. Extensive experiments on various datasets validate the effectiveness of LGCF especially in sparse scenarios. Furthermore, empirical results demonstrate that LGCF provides complementary information to the embedding-based CF model which can be utilized to boost recommendation performance.
翻訳日:2021-08-11 14:17:14 公開日:2021-08-10
# 分散ストリーム処理における負荷予測手法の評価

Evaluation of Load Prediction Techniques for Distributed Stream Processing ( http://arxiv.org/abs/2108.04749v1 )

ライセンス: Link先を確認
Kordian Gontarska, Morgan Geldenhuys, Dominik Scheinert, Philipp Wiesner, Andreas Polze, Lauritz Thamsen(参考訳) 分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。 それらは、多くのデータ集約型アプリケーションと分析プラットフォームの重要な部分です。 dspシステムにイベントが到着する速度は、データストリーム内のトレンド、循環、季節パターンによって、時間とともに大きく変化する可能性がある。 入ってくるワークロードの事前知識によって、動的スケーリング、リソースのライブマイグレーション、実行時の構成パラメータのチューニングなど、リソース管理や最適化タスクへの積極的なアプローチが可能になるため、サービスのクオリティが向上する可能性がある。 本稿では, DSPジョブに対する負荷予測手法の総合評価を行う。 DSPジョブに特有の負荷予測を行うための3つのユースケースと要件を定式化する。 古典的およびディープラーニングの自動最適化手法は、典型的なDSPドメインから9つの異なるデータセットで評価されている。 IoT、Web 2.0、クラスタ監視。 モデルの性能を総合的精度とトレーニング期間と比較する。 その結果,深層学習手法は,評価されたデータセットの大部分に対して,最も正確な負荷予測を提供することがわかった。

Distributed Stream Processing (DSP) systems enable processing large streams of continuous data to produce results in near to real time. They are an essential part of many data-intensive applications and analytics platforms. The rate at which events arrive at DSP systems can vary considerably over time, which may be due to trends, cyclic, and seasonal patterns within the data streams. A priori knowledge of incoming workloads enables proactive approaches to resource management and optimization tasks such as dynamic scaling, live migration of resources, and the tuning of configuration parameters during run-times, thus leading to a potentially better Quality of Service. In this paper we conduct a comprehensive evaluation of different load prediction techniques for DSP jobs. We identify three use-cases and formulate requirements for making load predictions specific to DSP jobs. Automatically optimized classical and Deep Learning methods are being evaluated on nine different datasets from typical DSP domains, i.e. the IoT, Web 2.0, and cluster monitoring. We compare model performance with respect to overall accuracy and training duration. Our results show that the Deep Learning methods provide the most accurate load predictions for the majority of the evaluated datasets.
翻訳日:2021-08-11 14:16:55 公開日:2021-08-10
# 非局所低域正規化に基づく反復自己一貫性並列磁気共鳴画像再構成

Iterative Self-consistent Parallel Magnetic Resonance Imaging Reconstruction based on Nonlocal Low-Rank Regularization ( http://arxiv.org/abs/2108.04517v1 )

ライセンス: Link先を確認
Ting Pan, Jizhong Duan, Junfeng Wang, Yu Liu(参考訳) 反復型自己整合性並列画像再構成(SPIRiT)は、並列磁気共鳴画像(PMRI)に有効な自己校正再構成モデルである。 ウェーブレット係数のジョイントL1ノルムと関節総変分(TV)正規化項をSPIRiTモデルに組み込んで再構成性能を向上させる。 k空間データの同時二方向低ランク化(STDLR)をSPIRiTに組み込んで改良された再構成を実現する。 近年,画像の非局所的自己相似性(NSS)を利用して,類似パッチの非局所的低ランク性を付与し,優れた性能を実現している。 磁気共鳴(MR)画像のNASとk空間領域のキャリブレーション整合性を両立させるために,NLR正則化をSPIRiTモデルに組み込んだ非局所低ランク(NLR)-SPIRiTモデルを提案する。 重み付き核ノルム(WNN)をランクの代用として適用し,NLR-SPIRiTモデルの効率的な解法として,Nash equilibrium(NE)の定式化と乗算器の交互方向法(ADMM)を用いる。 実験の結果,3つの客観的指標と視覚的比較による最先端手法よりもNLR-SPIRiTの方が優れた性能を示した。

Iterative self-consistent parallel imaging reconstruction (SPIRiT) is an effective self-calibrated reconstruction model for parallel magnetic resonance imaging (PMRI). The joint L1 norm of wavelet coefficients and joint total variation (TV) regularization terms are incorporated into the SPIRiT model to improve the reconstruction performance. The simultaneous two-directional low-rankness (STDLR) in k-space data is incorporated into SPIRiT to realize improved reconstruction. Recent methods have exploited the nonlocal self-similarity (NSS) of images by imposing nonlocal low-rankness of similar patches to achieve a superior performance. To fully utilize both the NSS in Magnetic resonance (MR) images and calibration consistency in the k-space domain, we propose a nonlocal low-rank (NLR)-SPIRiT model by incorporating NLR regularization into the SPIRiT model. We apply the weighted nuclear norm (WNN) as a surrogate of the rank and employ the Nash equilibrium (NE) formulation and alternating direction method of multipliers (ADMM) to efficiently solve the NLR-SPIRiT model. The experimental results demonstrate the superior performance of NLR-SPIRiT over the state-of-the-art methods via three objective metrics and visual comparison.
翻訳日:2021-08-11 14:15:19 公開日:2021-08-10
# 属性オブジェクトペア認識のための関係認識型ゼロショット学習

Relation-aware Compositional Zero-shot Learning for Attribute-Object Pair Recognition ( http://arxiv.org/abs/2108.04603v1 )

ライセンス: Link先を確認
Ziwei Xu, Guangzhi Wang, Yongkang Wong, Mohan Kankanhalli(参考訳) 本稿では,複合属性オブジェクト概念を用いた画像認識のための新しいモデルを提案する。 私たちは、属性とオブジェクトのペアを構成するプリミティブ概念のリッチでロバストな機能を学ぶために、タスクが必要とする3つの重要な特性 -- 関係認識、一貫性、分離 -- を探求することを目指しています。 そこで我々は,Blocked Message Passing Network (BMP-Net)を提案する。 モデルは2つのモジュールで構成される。 コンセプトモジュールはプリミティブ概念に対して意味的に意味のある特徴を生成し、ビジュアルモジュールは入力画像から属性やオブジェクトの視覚的特徴を抽出する。 メッセージパッシングメカニズムは、プリミティブな概念間の関係をキャプチャするためにコンセプトモジュールで使用される。 さらに, モデルが合成概念に偏りを生じないようにし, 属性とオブジェクト間の絡み合いを低減するため, 可視概念と無視概念の両方においてモデルに利用可能な情報を等しくするブロッキング機構を提案する。 2つのベンチマークの大規模な実験とアブレーション研究により,提案モデルの有効性が示された。

This paper proposes a novel model for recognizing images with composite attribute-object concepts, notably for composite concepts that are unseen during model training. We aim to explore the three key properties required by the task --- relation-aware, consistent, and decoupled --- to learn rich and robust features for primitive concepts that compose attribute-object pairs. To this end, we propose the Blocked Message Passing Network (BMP-Net). The model consists of two modules. The concept module generates semantically meaningful features for primitive concepts, whereas the visual module extracts visual features for attributes and objects from input images. A message passing mechanism is used in the concept module to capture the relations between primitive concepts. Furthermore, to prevent the model from being biased towards seen composite concepts and reduce the entanglement between attributes and objects, we propose a blocking mechanism that equalizes the information available to the model for both seen and unseen concepts. Extensive experiments and ablation studies on two benchmarks show the efficacy of the proposed model.
翻訳日:2021-08-11 14:14:53 公開日:2021-08-10
# クアドロター・ウェイポイント飛行の時間最適計画

Time-Optimal Planning for Quadrotor Waypoint Flight ( http://arxiv.org/abs/2108.04537v1 )

ライセンス: Link先を確認
Philipp Foehn, Angel Romero, Davide Scaramuzza(参考訳) クアドロターは最も機敏な飛行ロボットの1つである。 しかし、複数の経路点を通るアクティベーション限界における時間-最適軌道の計画は未解決の問題である。 これは検査、配送、捜索救助、ドローンレースなどのアプリケーションにとって非常に重要である。 初期の作品では多項式軌道の定式化が用いられ、固有な滑らかさのためにアクチュエータポテンシャルをフル活用しなかった。 最近の研究は数値最適化に頼っているが、特定の離散時間におけるコストや制約としてウェイポイントを割り当てる必要がある。 しかし、この時間割当は事前不明であり、以前の作品では真の時間最適軌跡を生成できない。 真の時間最適化トラジェクタを生成するために,全四重子のアクチュエータポテンシャルを活用しつつ,時間割当問題の解を提案する。 時間割当と軌道自体の同時最適化を可能にする軌道に沿って進行の定式化を導入することでこれを実現できる。 我々は、我々の手法を関連するアプローチと比較し、世界最大規模のモーションキャプチャーシステムで実際の飛行でそれを検証する。

Quadrotors are among the most agile flying robots. However, planning time-optimal trajectories at the actuation limit through multiple waypoints remains an open problem. This is crucial for applications such as inspection, delivery, search and rescue, and drone racing. Early works used polynomial trajectory formulations, which do not exploit the full actuator potential because of their inherent smoothness. Recent works resorted to numerical optimization but require waypoints to be allocated as costs or constraints at specific discrete times. However, this time allocation is a priori unknown and renders previous works incapable of producing truly time-optimal trajectories. To generate truly time-optimal trajectories, we propose a solution to the time allocation problem while exploiting the full quadrotor's actuator potential. We achieve this by introducing a formulation of progress along the trajectory, which enables the simultaneous optimization of the time allocation and the trajectory itself. We compare our method against related approaches and validate it in real-world flights in one of the world's largest motion-capture systems, where we outperform human expert drone pilots in a drone-racing task.
翻訳日:2021-08-11 14:14:09 公開日:2021-08-10
# 互換性保証を備えた多様性対応web apiレコメンデーション

Diversity-aware Web APIs Recommendation with Compatibility Guarantee ( http://arxiv.org/abs/2108.04389v1 )

ライセンス: Link先を確認
Wenwen Gonga, Yulan Zhang, Xuyun Zhang, Yucong Duan, Yawei Wang, Yifei Chena and Lianyong Qi(参考訳) スマートなソフトウェア開発を可能にするWeb API(Application Programming Interfaces)の普及により、ソフトウェア開発者の機能的ニーズを企業的に満たすことのできる既存のWeb APIのリストを、経済的かつ便利な方法で開発するための有望な方法となった。 しかしながら、候補となるWeb APIの膨大な量と多様性は、最終的に選択されたWeb APIセットの多様性と互換性を同時に保証することが困難なタスクであることが多いため、アプリ開発者のWeb API選択決定にさらに負担をかけます。 この課題を考慮すると、多様性を意識し、互換性を指向したweb apiレコメンデーションアプローチであるdivcarが本論文で提案されている。 まず、divcarは、予め構築された相関グラフにランダムウォークサンプリング技術を用いて、多様な相関部分グラフを生成する。 その後、多様な相関グラフを用いて、互換性のあるWeb APIレコメンデーション問題を最小グループSteiner木探索問題としてモデル化する。 最小グループSteinerツリー検索の問題を解決することで、互換性のあるさまざまなWeb APIの多様体セットがアプリケーション開発者に返される。 最後に、www. ProgrammableWeb.comからクロールした実世界のデータセット上で、一連の実験を設計、実施する。 Web APIの多様性と互換性のバランスをとる上で,提案したDivCARアプローチの有効性と効率を実験的に検証した。

With the ever-increasing prevalence of web APIs (Application Programming Interfaces) in enabling smart software developments, finding and composing a list of existing web APIs that can corporately fulfil the software developers' functional needs have become a promising way to develop a successful mobile app, economically and conveniently. However, the big volume and diversity of candidate web APIs put additional burden on the app developers' web APIs selection decision-makings, since it is often a challenging task to simultaneously guarantee the diversity and compatibility of the finally selected a set of web APIs. Considering this challenge, a Diversity-aware and Compatibility-driven web APIs Recommendation approach, namely DivCAR, is put forward in this paper. First, to achieve diversity, DivCAR employs random walk sampling technique on a pre-built correlation graph to generate diverse correlation subgraphs. Afterwards, with the diverse correlation subgraphs, we model the compatible web APIs recommendation problem to be a minimum group Steiner tree search problem. Through solving the minimum group Steiner tree search problem, manifold sets of compatible and diverse web APIs ranked are returned to the app developers. At last, we design and enact a set of experiments on a real-world dataset crawled from www.programmableWeb. com. Experimental results validate the effectiveness and efficiency of our proposed DivCAR approach in balancing the web APIs recommendation diversity and compatibility.
翻訳日:2021-08-11 14:13:51 公開日:2021-08-10
# 対人訓練による知識トラクションの強化

Enhancing Knowledge Tracing via Adversarial Training ( http://arxiv.org/abs/2108.04430v1 )

ライセンス: Link先を確認
Xiaopeng Guo, Zhijie Huang, Jie Gao, Mingyu Shang, Maojing Shu, Jun Sun(参考訳) 本研究では,学生の知識習得度を時間とともに追跡し,将来の成績を予測することを目的とした知識追跡(KT)問題について検討する。 ディープニューラルネットワーク(DNN)の優れた表現能力のため、KTの最近の進歩は、KTの性能を改善するためにDNNの探索に集中している。 しかし、我々は、DNNベースのKTモデルが、特に小さなデータセットにおいて過度に適合するリスクを負う可能性があることを実証的に明らかにした。 本稿では, 対戦訓練(AT)の現在の進歩を活用して, KTモデルの一般化を向上し, KTの限界を推し進めるため, 効率的なATベースKT法を提案する。 具体的には、まず対向摂動を構築し、元の相互作用埋め込みを対向例として追加する。 元の例と逆例は、KTモデルを共同で訓練するためにさらに使われ、逆例に対して堅牢であるだけでなく、元の例よりも一般化を高めるためにも用いられる。 そこでキーとなるのは,従来の知識隠れ状態から情報を適応的に集約し,現在の知識隠れ状態の重要性を強調してより正確な予測を行う,提案する知識隠れ状態注意モジュールである。 4つの公開ベンチマークデータセットに対する大規模な実験は、ATKTが新しい最先端のパフォーマンスを達成することを示す。 コードは以下の通りである。 \color{blue} {\url{https://github.com/x iaopengguo/ATKT}}。

We study the problem of knowledge tracing (KT) where the goal is to trace the students' knowledge mastery over time so as to make predictions on their future performance. Owing to the good representation capacity of deep neural networks (DNNs), recent advances on KT have increasingly concentrated on exploring DNNs to improve the performance of KT. However, we empirically reveal that the DNNs based KT models may run the risk of overfitting, especially on small datasets, leading to limited generalization. In this paper, by leveraging the current advances in adversarial training (AT), we propose an efficient AT based KT method (ATKT) to enhance KT model's generalization and thus push the limit of KT. Specifically, we first construct adversarial perturbations and add them on the original interaction embeddings as adversarial examples. The original and adversarial examples are further used to jointly train the KT model, forcing it is not only to be robust to the adversarial examples, but also to enhance the generalization over the original ones. To better implement AT, we then present an efficient attentive-LSTM model as KT backbone, where the key is a proposed knowledge hidden state attention module that adaptively aggregates information from previous knowledge hidden states while simultaneously highlighting the importance of current knowledge hidden state to make a more accurate prediction. Extensive experiments on four public benchmark datasets demonstrate that our ATKT achieves new state-of-the-art performance. Code is available at: \color{blue} {\url{https://github.com/x iaopengguo/ATKT}}.
翻訳日:2021-08-11 14:13:28 公開日:2021-08-10
# 深層学習による動的モード分割

Deep Learning Enhanced Dynamic Mode Decomposition ( http://arxiv.org/abs/2108.04433v1 )

ライセンス: Link先を確認
Christopher W. Curtis, Daniel Jay Alford-Lago, Opal Issan(参考訳) クープマン作用素論は、非線形力学系がシステムの観測可能なヒルベルト空間上で作用する無限次元線型作用素として表現できることを示す。 しかし、この無限次元作用素の関連するモードと固有値を決定することは困難である。 拡張動的モード分解(EDMD)は、クープマンスペクトルとモードの近似を生成する方法の1つであるが、ユーザ定義のオブザーバブルを必要とするため、EDMD法は独自の課題に直面している。 この問題に対処するために,コンボリューション型オートエンコーダネットワークを用いて,観測可能な空間への正確な流れの埋め込みと,観測可能な物体のフロー座標への没入の両方を同時に生成する可観測器の最適ファミリーを探索する。 このネットワークはフローのグローバルな変換をもたらし、EDMDとデコーダネットワークを介して将来の状態を予測する。 我々はこの手法をディープラーニング動的モード分解 (DLDMD) と呼ぶ。 本手法は標準非線形データセット上で試験を行い,標準DMD手法よりも優れた結果が得られることを示した。

Koopman operator theory shows how nonlinear dynamical systems can be represented as an infinite-dimensional , linear operator acting on a Hilbert space of observables of the system. However, determining the relevant modes and eigenvalues of this infinite-dimensional operator can be difficult. The extended dynamic mode decomposition (EDMD) is one such method for generating approximations to Koopman spectra and modes, but the EDMD method faces its own set of challenges due to the need of user defined observables. To address this issue, we explore the use of convolutional autoencoder networks to simultaneously find optimal families of observables which also generate both accurate embeddings of the flow into a space of observables and immersions of the observables back into flow coordinates. This network results in a global transformation of the flow and affords future state prediction via EDMD and the decoder network. We call this method deep learning dynamic mode decomposition (DLDMD). The method is tested on canonical nonlinear data sets and is shown to produce results that outperform a standard DMD approach.
翻訳日:2021-08-11 14:13:02 公開日:2021-08-10
# データ処理と分析のための深層強化学習に関する研究

A Survey on Deep Reinforcement Learning for Data Processing and Analytics ( http://arxiv.org/abs/2108.04526v1 )

ライセンス: Link先を確認
Qingpeng Cai, Can Cui, Yiyuan Xiong, Zhongle Xie and Meihui Zhang(参考訳) データ処理と分析は基本的で普及している。 アルゴリズムは、多くのアルゴリズム設計が人間の知識と経験からヒューリスティックと一般的なルールを取り入れ、その効果を向上させるためにデータ処理と分析において重要な役割を果たす。 近年、強化学習、特に深層強化学習(DRL)は、静的設計アルゴリズムよりも複雑な環境でのより良い戦略を学習できるため、多くの分野で研究され、活用されている。 この傾向に動機づけられて,深層強化学習によるデータ処理と分析の改善に焦点を当てた最近の研究の包括的レビューを行った。 まず,深層強化学習における重要な概念,理論,手法について紹介する。 次に、データベースシステムにおける深層強化学習の展開について論じ、データ構造、スケジューリング、チューニング、インデックス化など、さまざまな面でデータ処理と分析を容易にする。 次に,データ準備,自然言語インターフェースから医療,フィンテックに至るまで,データ処理と分析における深層強化学習の応用について調査した。 最後に,データ処理と分析における深層強化学習の課題と今後の研究方向性について論じる。

Data processing and analytics are fundamental and pervasive. Algorithms play a vital role in data processing and analytics where many algorithm designs have incorporated heuristics and general rules from human knowledge and experience to improve their effectiveness. Recently, reinforcement learning, deep reinforcement learning (DRL) in particular, is increasingly explored and exploited in many areas because it can learn better strategies in complicated environments it is interacting with than statically designed algorithms. Motivated by this trend, we provide a comprehensive review of recent works focusing on utilizing deep reinforcement learning to improve data processing and analytics. First, we present an introduction to key concepts, theories, and methods in deep reinforcement learning. Next, we discuss deep reinforcement learning deployment on database systems, facilitating data processing and analytics in various aspects, including data organization, scheduling, tuning, and indexing. Then, we survey the application of deep reinforcement learning in data processing and analytics, ranging from data preparation, natural language interface to healthcare, fintech, etc. Finally, we discuss important open challenges and future research directions of using deep reinforcement learning in data processing and analytics.
翻訳日:2021-08-11 14:12:45 公開日:2021-08-10
# オープンセットRFF認証のための一般化可能なモデルとデータ駆動アプローチ

A Generalizable Model-and-Data Driven Approach for Open-Set RFF Authentication ( http://arxiv.org/abs/2108.04436v1 )

ライセンス: Link先を確認
Renjie Xie, Wei Xu, Yanzhi Chen, Jiabao Yu, Aiqun Hu, Derrick Wing Kwan Ng, A. Lee Swindlehurst(参考訳) 高周波指紋(rff)は、低コストな物理層認証を実現するための有望なソリューションである。 rff抽出と識別には機械学習に基づく手法が提案されている。 しかし、既存のほとんどの手法は、デバイスの集合が変化しないクローズドセットのシナリオのために設計されている。 これらの手法は未知のデバイスのRFF識別に一般化することはできない。 未知のデバイスと未知のデバイスの両方からRFFを識別するために、生受信信号からRFFを抽出するエンドツーエンドのディープラーニングフレームワークを提案する。 提案するフレームワークは、ニューラル同期(NS)と呼ばれる新しい前処理モジュールで構成されており、通信モデルに基づく処理の帰納バイアスとして、信号処理に先行するデータ駆動学習を組み込んでいる。 静的な従来のキャリア同期技術と比較して、このモジュールはRFF抽出器で共同で訓練された2つの学習可能なディープニューラルネットワークによってオフセットを推定する。 さらに、RFFの識別をさらに改善するために、超球表現を提案する。 理論的分析により、このようなデータ・アンド・モデル・フレームワークは、デバイスアイデンティティとRFF間の相互情報を最適化し、パフォーマンスが向上することが示された。 実験結果から,提案RFFは,データ駆動型DNN設計法と既存の手作りRFF法において,識別性とネットワークの一般化性の両方の観点から大きく優れていたことが確認された。

Radio-frequency fingerprints~(RFFs) are promising solutions for realizing low-cost physical layer authentication. Machine learning-based methods have been proposed for RFF extraction and discrimination. However, most existing methods are designed for the closed-set scenario where the set of devices is remains unchanged. These methods can not be generalized to the RFF discrimination of unknown devices. To enable the discrimination of RFF from both known and unknown devices, we propose a new end-to-end deep learning framework for extracting RFFs from raw received signals. The proposed framework comprises a novel preprocessing module, called neural synchronization~(NS) , which incorporates the data-driven learning with signal processing priors as an inductive bias from communication-model based processing. Compared to traditional carrier synchronization techniques, which are static, this module estimates offsets by two learnable deep neural networks jointly trained by the RFF extractor. Additionally, a hypersphere representation is proposed to further improve the discrimination of RFF. Theoretical analysis shows that such a data-and-model framework can better optimize the mutual information between device identity and the RFF, which naturally leads to better performance. Experimental results verify that the proposed RFF significantly outperforms purely data-driven DNN-design and existing handcrafted RFF methods in terms of both discrimination and network generalizability.
翻訳日:2021-08-11 14:12:02 公開日:2021-08-10
# 圧縮による分散複合最適化

Decentralized Composite Optimization with Compression ( http://arxiv.org/abs/2108.04448v1 )

ライセンス: Link先を確認
Yao Li, Xiaorui Liu, Jiliang Tang, Ming Yan, Kun Yuan(参考訳) 分散最適化と通信圧縮は、実際に通信ボトルネックを緩和することにより、分散機械学習を加速する大きな可能性を示した。 通信圧縮を伴う既存の分散化アルゴリズムは、スムーズなコンポーネントのみの問題に主に焦点をあてるが、非滑らかなコンポーネントを含む分散化確率的複合最適化問題について検討する。 一般確率的設定と有限サム設定における厳密な理論解析を用いて, 圧縮型集中型アルゴリズム prox-lead を提案する。 我々の定理は、prox-leadは任意の圧縮精度で動作し、通信コストをほぼ無償で大幅に削減することを示している。 提案手法は,コンバージェンス複雑度と数値実験の観点から,最先端アルゴリズムとの比較により優れていることを示す。 我々のアルゴリズムフレームワークは、通常、他の原始的アルゴリズムに対する圧縮通信を啓蒙し、不正確な反復の影響を減少させます。

Decentralized optimization and communication compression have exhibited their great potential in accelerating distributed machine learning by mitigating the communication bottleneck in practice. While existing decentralized algorithms with communication compression mostly focus on the problems with only smooth components, we study the decentralized stochastic composite optimization problem with a potentially non-smooth component. A \underline{Prox}imal gradient \underline{L}in\underline{EA}r convergent \underline{D}ecentralized algorithm with compression, Prox-LEAD, is proposed with rigorous theoretical analyses in the general stochastic setting and the finite-sum setting. Our theorems indicate that Prox-LEAD works with arbitrary compression precision, and it tremendously reduces the communication cost almost for free. The superiorities of the proposed algorithms are demonstrated through the comparison with state-of-the-art algorithms in terms of convergence complexities and numerical experiments. Our algorithmic framework also generally enlightens the compressed communication on other primal-dual algorithms by reducing the impact of inexact iterations, which might be of independent interest.
翻訳日:2021-08-11 14:11:41 公開日:2021-08-10
# 未知非線形安定系のリカレントニューラルネットワークに基づく内部モデル制御

Recurrent neural network-based Internal Model Control of unknown nonlinear stable systems ( http://arxiv.org/abs/2108.04585v1 )

ライセンス: Link先を確認
Fabio Bonassi, Riccardo Scattolini(参考訳) 優れたモデリング能力のため、GRU(Gated Recurrent Units)やLSTM(Long Short-Term Memory Network)といったゲート型リカレントニューラルネットワーク(RNN)は、動的システムを学ぶための一般的なツールとなっている。 本稿では、内部モデル制御(IMC)アーキテクチャの合成にこれらのネットワークをどのように適用できるかについて議論する。 この目的のために、第1ゲートRNNを用いて未知の入出力安定プラントのモデルを学ぶ。 そして、モデル逆近似の別のゲートrnnを訓練する。 提案手法は制御変数の飽和に対処することができ、オンライン計算を必要としないため、低消費電力の組み込みコントローラにデプロイすることができる。 このアプローチはQuadruple Tankベンチマークシステムでテストされ、十分なクローズドループ性能が得られる。

Owing to their superior modeling capabilities, gated Recurrent Neural Networks (RNNs), such as Gated Recurrent Units (GRUs) and Long Short-Term Memory networks (LSTMs), have become popular tools for learning dynamical systems. This paper aims to discuss how these networks can be adopted for the synthesis of Internal Model Control (IMC) architectures. To this end, a first gated RNN is used to learn a model of the unknown input-output stable plant. Then, another gated RNN approximating the model inverse is trained. The proposed scheme is able to cope with the saturation of the control variables, and it can be deployed on low-power embedded controllers since it does not require any online computation. The approach is then tested on the Quadruple Tank benchmark system, resulting in satisfactory closed-loop performances.
翻訳日:2021-08-11 14:11:22 公開日:2021-08-10
# 分割線形目標関数に対するreluアクティベーション付きニューラルネットワークの学習におけるランダム初期化を用いた勾配降下最適化法の収束の証明

A proof of convergence for the gradient descent optimization method with random initializations in the training of neural networks with ReLU activation for piecewise linear target functions ( http://arxiv.org/abs/2108.04620v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert(参考訳) 勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。 Despite the great success of GD type optimization methods in numerical simulations for the training of ANNs with ReLU activation, it remains - even in the simplest situation of the plain vanilla GD optimization method with random initializations and ANNs with one hidden layer - an open problem to prove (or disprove) the conjecture that the risk of the GD optimization method converges in the training of such ANNs to zero as the width of the ANNs, the number of independent random initializations, and the number of GD steps increase to infinity. 本稿では、入力データの確率分布がコンパクト区間上の連続一様分布と等価である場合、annパラメータのランダム初期化の確率分布が標準正規分布であり、対象関数が連続かつ区分的なアフィン線型である場合において、この予想を証明する。 Roughly speaking, the key ingredients in our mathematical convergence analysis are (i) to prove that suitable sets of global minima of the risk functions are \emph{twice continuously differentiable submanifolds of the ANN parameter spaces}, (ii) to prove that the Hessians of the risk functions on these sets of global minima satisfy an appropriate \emph{maximal rank condition}, and, thereafter, (iii) to apply the machinery in [Fehrman, B., Gess, B., Jentzen, A., Convergence rates for the stochastic gradient descent method for non-convex objective functions. J. Mach 学ぶ。 Res! 21(136): ランダム初期化によるGD最適化法の収束を確立するための1-48, 2020]。

Gradient descent (GD) type optimization methods are the standard instrument to train artificial neural networks (ANNs) with rectified linear unit (ReLU) activation. Despite the great success of GD type optimization methods in numerical simulations for the training of ANNs with ReLU activation, it remains - even in the simplest situation of the plain vanilla GD optimization method with random initializations and ANNs with one hidden layer - an open problem to prove (or disprove) the conjecture that the risk of the GD optimization method converges in the training of such ANNs to zero as the width of the ANNs, the number of independent random initializations, and the number of GD steps increase to infinity. In this article we prove this conjecture in the situation where the probability distribution of the input data is equivalent to the continuous uniform distribution on a compact interval, where the probability distributions for the random initializations of the ANN parameters are standard normal distributions, and where the target function under consideration is continuous and piecewise affine linear. Roughly speaking, the key ingredients in our mathematical convergence analysis are (i) to prove that suitable sets of global minima of the risk functions are \emph{twice continuously differentiable submanifolds of the ANN parameter spaces}, (ii) to prove that the Hessians of the risk functions on these sets of global minima satisfy an appropriate \emph{maximal rank condition}, and, thereafter, (iii) to apply the machinery in [Fehrman, B., Gess, B., Jentzen, A., Convergence rates for the stochastic gradient descent method for non-convex objective functions. J. Mach. Learn. Res. 21(136): 1--48, 2020] to establish convergence of the GD optimization method with random initializations.
翻訳日:2021-08-11 14:11:07 公開日:2021-08-10
# FedPAGE: コミュニケーション効率の良いフェデレーション学習のための高速局所確率勾配法

FedPAGE: A Fast Local Stochastic Gradient Method for Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2108.04755v1 )

ライセンス: Link先を確認
Haoyu Zhao, Zhize Li, Peter Richt\'arik(参考訳) federated averaging (fedavg, local-sgd) (mcmahan et al., 2017) は、クライアントが複数のローカルsgdステップを実行して、更新をオーケストレーションサーバに伝達する、古典的なフェデレーション学習アルゴリズムである。 本研究では,fedavgにおける平易なsgdではなく,最近の最適ページ法(li et al., 2021)を用いることにより,通信の複雑さをさらに低減できる新しいフェデレーション学習アルゴリズムであるfeedpageを提案する。 我々はFedPAGEが、フェデレーション凸と非凸最適化の両方において、従来のローカル手法よりもはるかに少ない通信ラウンドを使用することを示す。 Concretely, 1) in the convex setting, the number of communication rounds of FedPAGE is $O(\frac{N^{3/4}}{S\epsilon})$, improving the best-known result $O(\frac{N}{S\epsilon})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/4}$, where $N$ is the total number of clients (usually is very large in federated learning), $S$ is the sampled subset of clients in each communication round, and $\epsilon$ is the target error; 2) in the nonconvex setting, the number of communication rounds of FedPAGE is $O(\frac{\sqrt{N}+S}{S\epsilon^2})$, improving the best-known result $O(\frac{N^{2/3}}{S^{2/3}\epsilon^2})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/6}S^{1/3}$, if the sampled clients $S\leq \sqrt{N}$. どちらの設定でも、各ラウンドの通信コストはFedPAGEとSCAFFOLDの両方で同じです。 その結果、FedPAGEは、フェデレーション凸と非凸最適化の両方の通信複雑性の観点から、最先端の新たな結果を達成する。

Federated Averaging (FedAvg, also known as Local-SGD) (McMahan et al., 2017) is a classical federated learning algorithm in which clients run multiple local SGD steps before communicating their update to an orchestrating server. We propose a new federated learning algorithm, FedPAGE, able to further reduce the communication complexity by utilizing the recent optimal PAGE method (Li et al., 2021) instead of plain SGD in FedAvg. We show that FedPAGE uses much fewer communication rounds than previous local methods for both federated convex and nonconvex optimization. Concretely, 1) in the convex setting, the number of communication rounds of FedPAGE is $O(\frac{N^{3/4}}{S\epsilon})$, improving the best-known result $O(\frac{N}{S\epsilon})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/4}$, where $N$ is the total number of clients (usually is very large in federated learning), $S$ is the sampled subset of clients in each communication round, and $\epsilon$ is the target error; 2) in the nonconvex setting, the number of communication rounds of FedPAGE is $O(\frac{\sqrt{N}+S}{S\epsilon^2})$, improving the best-known result $O(\frac{N^{2/3}}{S^{2/3}\epsilon^2})$ of SCAFFOLD (Karimireddy et al.,2020) by a factor of $N^{1/6}S^{1/3}$, if the sampled clients $S\leq \sqrt{N}$. Note that in both settings, the communication cost for each round is the same for both FedPAGE and SCAFFOLD. As a result, FedPAGE achieves new state-of-the-art results in terms of communication complexity for both federated convex and nonconvex optimization.
翻訳日:2021-08-11 14:10:22 公開日:2021-08-10
# 深層学習モデルの表現力と損失面

Expressive Power and Loss Surfaces of Deep Learning Models ( http://arxiv.org/abs/2108.03579v2 )

ライセンス: Link先を確認
Simant Dube(参考訳) この論文の目標は2つある。 最初の目標は、ディープラーニングの成功の理由に関する幾何学的直観を強調するディープラーニングモデルの作業に関する解説チュートリアルとして機能することである。 第2の目標は、ディープラーニングモデルとその損失面の表現力に関する現在の結果を、新たな洞察と結果で補完することである。 特に、深部ニューラルネットワークが乗算ニューロンを導入したときに多様体をどう彫るのかを述べる。 乗算はドット製品や注意機構で使われ、カプセルネットワークや自己注意に基づく変換器で使用される。 また,損失面上のランダム多項式,ランダム行列,スピングラス,計算複雑性の観点が相互に結合されていることも述べる。

The goals of this paper are two-fold. The first goal is to serve as an expository tutorial on the working of deep learning models which emphasizes geometrical intuition about the reasons for success of deep learning. The second goal is to complement the current results on the expressive power of deep learning models and their loss surfaces with novel insights and results. In particular, we describe how deep neural networks carve out manifolds especially when the multiplication neurons are introduced. Multiplication is used in dot products and the attention mechanism and it is employed in capsule networks and self-attention based transformers. We also describe how random polynomial, random matrix, spin glass and computational complexity perspectives on the loss surfaces are interconnected.
翻訳日:2021-08-11 11:24:26 公開日:2021-08-10
# StrucTexT:マルチモーダル変換器による構造化テキスト理解

StrucTexT: Structured Text Understanding with Multi-Modal Transformers ( http://arxiv.org/abs/2108.02923v2 )

ライセンス: Link先を確認
Yulin Li and Yuxi Qian and Yuchen Yu and Xiameng Qin and Chengquan Zhang and Yan Liu and Kun Yao and Junyu Han and Jingtuo Liu and Errui Ding(参考訳) Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。 VRDにおけるコンテンツとレイアウトの複雑さのため、構造化されたテキスト理解は難しい課題でした。 既存の研究の多くは、この問題をエンティティラベリングとエンティティリンクという2つのサブタスクに分離している。 しかし、異なるレベルから効率的に構造化データを抽出するソリューションに関する作業はほとんどなかった。 本稿では,両サブタスクを柔軟かつ効果的に処理できる,structext という統一フレームワークを提案する。 具体的には、変換器に基づいて、異なるレベルの粒度でエンティティラベリングやエンティティリンクタスクを扱うセグメントツーケン整列エンコーダを導入する。 さらに,よりリッチな表現を学ぶために,3つの自己監督タスクを用いた新しい事前学習戦略を設計する。 StrucTexTは、既存のMasked Visual Language Modelingタスクと、Sentence Longngth PredictionとPaired Boxes Directionタスクを使用して、テキスト、画像、レイアウトにマルチモーダル情報を組み込む。 本手法は,セグメントレベルとトークンレベルで構造化テキスト理解を行い,funsd,sroie,ephoieデータセットにおいて,最先端のテキスト理解よりも優れた性能を示す。

Structured text understanding on Visually Rich Documents (VRDs) is a crucial part of Document Intelligence. Due to the complexity of content and layout in VRDs, structured text understanding has been a challenging task. Most existing studies decoupled this problem into two sub-tasks: entity labeling and entity linking, which require an entire understanding of the context of documents at both token and segment levels. However, little work has been concerned with the solutions that efficiently extract the structured data from different levels. This paper proposes a unified framework named StrucTexT, which is flexible and effective for handling both sub-tasks. Specifically, based on the transformer, we introduce a segment-token aligned encoder to deal with the entity labeling and entity linking tasks at different levels of granularity. Moreover, we design a novel pre-training strategy with three self-supervised tasks to learn a richer representation. StrucTexT uses the existing Masked Visual Language Modeling task and the new Sentence Length Prediction and Paired Boxes Direction tasks to incorporate the multi-modal information across text, image, and layout. We evaluate our method for structured text understanding at segment-level and token-level and show it outperforms the state-of-the-art counterparts with significantly superior performance on the FUNSD, SROIE, and EPHOIE datasets.
翻訳日:2021-08-11 11:24:13 公開日:2021-08-10
# AutoVideo: 自動ビデオアクション認識システム

AutoVideo: An Automated Video Action Recognition System ( http://arxiv.org/abs/2108.04212v2 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Yi-Wei Chen, Yicheng Wang, Sirui Ding, Anmoll Kumar Jain, Mohammad Qazim Bhat, Kwei-Herng Lai, Jiaben Chen, Na Zou, Xia Hu(参考訳) 行動認識はビデオ理解にとって重要な課題である。 本稿では,自動ビデオ行動認識のためのPythonシステムであるAutoVideoを提案する。 現在、7つのアクション認識アルゴリズムと様々な前処理モジュールをサポートしている。 モデル動物園のみを提供する既存のライブラリとは異なり、AutoVideoは標準パイプライン言語で構築されている。 基本的なビルディングブロックはプリミティブで、前処理モジュールやアルゴリズムをハイパーパラメータでラップする。 AutoVideoは高度にモジュール化され拡張可能である。 AutoML検索と簡単に組み合わせることができる。 パイプライン言語は非常に一般的なので,将来的にはさまざまなビデオ関連タスクのアルゴリズムでAutoVideoを簡単に拡張できるようになります。 autovideoはmitライセンスでhttps://github.com/d atamllab/autovideoでリリース

Action recognition is a crucial task for video understanding. In this paper, we present AutoVideo, a Python system for automated video action recognition. It currently supports seven action recognition algorithms and various pre-processing modules. Unlike the existing libraries that only provide model zoos, AutoVideo is built with the standard pipeline language. The basic building block is primitive, which wraps a pre-processing module or an algorithm with some hyperparameters. AutoVideo is highly modular and extendable. It can be easily combined with AutoML searchers. The pipeline language is quite general so that we can easily enrich AutoVideo with algorithms for various other video-related tasks in the future. AutoVideo is released under MIT license at https://github.com/d atamllab/autovideo
翻訳日:2021-08-11 11:23:51 公開日:2021-08-10
# 潜在表現の分離によるセグメンテーションネットワークの新たなドメインへの適応

Adapting Segmentation Networks to New Domains by Disentangling Latent Representations ( http://arxiv.org/abs/2108.03021v2 )

ライセンス: Link先を確認
Francesco Barbato, Umberto Michieli, Marco Toldo and Pietro Zanuttigh(参考訳) ディープラーニングモデルはセマンティックセグメンテーションにおいて顕著な精度を達成するが、最適化には大量のラベル付きデータが必要である。 したがって、ラベル関連ソースドメインから取得した知識を関連するラベル関連ターゲットドメインに転送するために、ドメイン適応アプローチが採用されている。 しかし、そのようなモデルは、トレーニングサンプルのものと完全に一致しない統計特性を持つデータに対してうまく一般化しない。 本研究では,意味セグメンテーションにおけるドメイン間差異を低減すべく,複数の潜在空間形成規則化戦略を設計・慎重に分析する。 特に、ドメインアライメントを向上させるための機能クラスタリング戦略、現在のバッチに存在しないものを含む、異なる意味クラスに属するspace apart機能に対する機能垂直性制約、アクティブチャネルと非アクティブチャネルを分離する機能規範アライメント戦略を考案する。 さらに,教師付き学習と比較して適応戦略の相対的効果を捉えるための新しいパフォーマンス指標を提案する。 提案手法の有効性を検証し,複数の路面ベンチマークにおける従来の最先端手法と異なるバックボーンを用いて評価した。

Deep learning models achieve outstanding accuracy in semantic segmentation, however they require a huge amount of labeled data for their optimization. Hence, domain adaptation approaches have come into play to transfer knowledge acquired on a label-abundant source domain to a related label-scarce target domain. However, such models do not generalize well to data with statistical properties not perfectly matching the ones of the training samples. In this work, we design and carefully analyze multiple latent space-shaping regularization strategies that work in conjunction to reduce the domain discrepancy in semantic segmentation. In particular, we devise a feature clustering strategy to increase domain alignment, a feature perpendicularity constraint to space apart feature belonging to different semantic classes, including those not present in the current batch, and a feature norm alignment strategy to separate active and inactive channels. Additionally, we propose a novel performance metric to capture the relative efficacy of an adaptation strategy compared to supervised training. We verify the effectiveness of our framework in synthetic-to-real and real-to-real adaptation scenarios, outperforming previous state-of-the-art methods on multiple road scenes benchmarks and using different backbones.
翻訳日:2021-08-11 11:23:42 公開日:2021-08-10
# 単眼映像からの適応クロス重み付き損失を考慮した咬合認識3次元形状知覚の自己教師あり学習

Self-supervised Learning of Occlusion Aware Flow Guided 3D Geometry Perception with Adaptive Cross Weighted Loss from Monocular Videos ( http://arxiv.org/abs/2108.03893v2 )

ライセンス: Link先を確認
Jiaojiao Fang, Guizhong Liu(参考訳) 自己教師付き深層学習に基づく3dシーン理解手法は,密接なラベル付き地層獲得の難しさを克服し,多くの進歩を遂げている。 しかし、オクルージョンや動くオブジェクトは依然として大きな制限の1つだ。 本稿では,学習可能なオクルージョン認識型自己監督深度とカメラポーズ推定を適応的クロス重み付き損失により検討し,上記の制限に対処する。 まず, 学習可能なオクルージョンマスクを融合した光フローネットワークを, 時間的補足情報を伴うオクルージョンアウェアフォトメトリックロスと隣接ビューの後方方向一貫性により訓練する。 そして、静止シーンの仮定に反する移動物体を識別するために、幾何学的および測光的誤差の深さ位置と光学的フロー損失の間の適応的相互重み付き損失を設計する。 提案手法は,kitti,make3d,citysc apesデータセットの複数のタスクにおける有望な結果を示す。 また,様々な課題シナリオにおいて,優れた一般化能力を示す。

Self-supervised deep learning-based 3D scene understanding methods can overcome the difficulty of acquiring the densely labeled ground-truth and have made a lot of advances. However, occlusions and moving objects are still some of the major limitations. In this paper, we explore the learnable occlusion aware optical flow guided self-supervised depth and camera pose estimation by an adaptive cross weighted loss to address the above limitations. Firstly, we explore to train the learnable occlusion mask fused optical flow network by an occlusion-aware photometric loss with the temporally supplemental information and backward-forward consistency of adjacent views. And then, we design an adaptive cross-weighted loss between the depth-pose and optical flow loss of the geometric and photometric error to distinguish the moving objects which violate the static scene assumption. Our method shows promising results on KITTI, Make3D, and Cityscapes datasets under multiple tasks. We also show good generalization ability under a variety of challenging scenarios.
翻訳日:2021-08-11 11:23:21 公開日:2021-08-10
# プリスチン特徴の幻覚による非参照画像品質評価

No-Reference Image Quality Assessment by Hallucinating Pristine Features ( http://arxiv.org/abs/2108.04165v2 )

ライセンス: Link先を確認
Baoliang Chen, Lingyu Zhu, Chenqi Kong, Hanwei Zhu, Shiqi Wang and Zhu Li(参考訳) 本稿では,特徴レベルの擬似参照(PR)幻覚を用いた非参照画像品質評価(IQA)手法を提案する。 提案した品質評価フレームワークは,従来の自然画像統計行動モデルに基づいており,視覚的品質を特徴付けるために知覚的に意味のある特徴をうまく活用できるという視点に根ざしている。 ここで、歪んだ画像からのpr特徴を、プリスティーヌ参照を監督とする相互学習スキームによって学習し、さらに、三重項制約によりpr特徴の判別特性をさらに確保する。 品質推定のための歪み画像が与えられると、最終的な品質予測のために可逆神経層で特徴レベルの不等角化が行われ、prとそれに対応する歪み特徴とが比較される。 提案手法の有効性は4つの一般的なIQAデータベース上で実証され,データベース間評価における優れた性能は,提案手法の高一般化能力を示す。 本手法の実装はhttps://github.com/B aoliang93/FPRで公開されている。

In this paper, we propose a no-reference (NR) image quality assessment (IQA) method via feature level pseudo-reference (PR) hallucination. The proposed quality assessment framework is grounded on the prior models of natural image statistical behaviors and rooted in the view that the perceptually meaningful features could be well exploited to characterize the visual quality. Herein, the PR features from the distorted images are learned by a mutual learning scheme with the pristine reference as the supervision, and the discriminative characteristics of PR features are further ensured with the triplet constraints. Given a distorted image for quality inference, the feature level disentanglement is performed with an invertible neural layer for final quality prediction, leading to the PR and the corresponding distortion features for comparison. The effectiveness of our proposed method is demonstrated on four popular IQA databases, and superior performance on cross-database evaluation also reveals the high generalization capability of our method. The implementation of our method is publicly available on https://github.com/B aoliang93/FPR.
翻訳日:2021-08-11 11:23:02 公開日:2021-08-10
# メタグラデーションadversarial attack

Meta Gradient Adversarial Attack ( http://arxiv.org/abs/2108.04204v2 )

ライセンス: Link先を確認
Zheng Yuan, Jie Zhang, Yunpei Jia, Chuanqi Tan, Tao Xue, Shiguang Shan(参考訳) 近年,敵対的攻撃に関する研究が注目されている。 トランスファーベースの敵対攻撃に関する現在の文献は、ブラックボックスモデルの転送性を改善するという有望な結果を得ているが、まだまだ先は長い。 メタラーニングの概念に触発されて,プラグイン・アンド・プレイ可能なメタグラディエント・アタック(MGAA)と呼ばれる新しいアーキテクチャを提案する。 具体的には、モデル動物園から複数のモデルをランダムにサンプリングして異なるタスクを作成し、各タスクにおけるホワイトボックス攻撃とブラックボックス攻撃を反復的にシミュレートします。 ホワイトボックスアタックとブラックボックスアタックの勾配方向間のギャップを狭めることにより、ブラックボックス設定における逆例の転送性を向上させることができる。 CIFAR10とImageNetデータセットの大規模な実験により、我々のアーキテクチャはブラックボックスとホワイトボックスの両方の攻撃設定において最先端の手法よりも優れています。

In recent years, research on adversarial attacks has become a hot spot. Although current literature on the transfer-based adversarial attack has achieved promising results for improving the transferability to unseen black-box models, it still leaves a long way to go. Inspired by the idea of meta-learning, this paper proposes a novel architecture called Meta Gradient Adversarial Attack (MGAA), which is plug-and-play and can be integrated with any existing gradient-based attack method for improving the cross-model transferability. Specifically, we randomly sample multiple models from a model zoo to compose different tasks and iteratively simulate a white-box attack and a black-box attack in each task. By narrowing the gap between the gradient directions in white-box and black-box attacks, the transferability of adversarial examples on the black-box setting can be improved. Extensive experiments on the CIFAR10 and ImageNet datasets show that our architecture outperforms the state-of-the-art methods for both black-box and white-box attack settings.
翻訳日:2021-08-11 11:22:45 公開日:2021-08-10
# 作業計画と作業計画による未知物体の長期操作

Long-Horizon Manipulation of Unknown Objects via Task and Motion Planning with Estimated Affordances ( http://arxiv.org/abs/2108.04145v2 )

ライセンス: Link先を確認
Aidan Curtis, Xiaolin Fang, Leslie Pack Kaelbling, Tom\'as Lozano-P\'erez, Caelan Reed Garrett(参考訳) 本稿では,汎用的なタスク・アンド・モーション・プランナと,未知の物体の性質と価値を推定する認識モジュールを統合した,汎用的なロボット操作システムを設計・構築するための戦略を提案する。 このようなシステムは、RGB画像、深度画像、ロボット関節エンコーダ測定からロボット関節位置コマンドにマッピングするクローズドループポリシーである。 この戦略に従うと、操作可能なオブジェクトの集合やジオメトリ、それらの余裕に関する事前知識がなくても、タスク・アンド・モーション・プランナーが知的行動の計画に利用できることを示す。 セグメンテーション, 特性検出, 形状推定, 把握生成のための知覚モジュールの実装方法について検討する。 本稿では,これらのモジュールをpddlstream task and motion planning frameworkに統合する方法を示す。 最後に、この戦略により、環境を事前に知ることなく、再トレーニングすることなく、幅広い種類のオブジェクト、オブジェクトアレンジメント、目標を一般化し、単一のシステムが様々な実世界のマルチステップ操作タスクを実行できることを実証する。

We present a strategy for designing and building very general robot manipulation systems involving the integration of a general-purpose task-and-motion planner with engineered and learned perception modules that estimate properties and affordances of unknown objects. Such systems are closed-loop policies that map from RGB images, depth images, and robot joint encoder measurements to robot joint position commands. We show that following this strategy a task-and-motion planner can be used to plan intelligent behaviors even in the absence of a priori knowledge regarding the set of manipulable objects, their geometries, and their affordances. We explore several different ways of implementing such perceptual modules for segmentation, property detection, shape estimation, and grasp generation. We show how these modules are integrated within the PDDLStream task and motion planning framework. Finally, we demonstrate that this strategy can enable a single system to perform a wide variety of real-world multi-step manipulation tasks, generalizing over a broad class of objects, object arrangements, and goals, without any prior knowledge of the environment and without re-training.
翻訳日:2021-08-11 11:22:25 公開日:2021-08-10
# コード解析に対するスマートで防御的なヒューマンマシンアプローチ

A Smart and Defensive Human-Machine Approach to Code Analysis ( http://arxiv.org/abs/2108.03294v2 )

ライセンス: Link先を確認
Fitzroy D. Nembhard, Marco M. Carvalho(参考訳) 静的解析は、貧弱または脆弱なプログラムコードを検出して修正する最も一般的なアプローチの1つである。 これは、エラー、開発標準違反、その他の問題を特定するためのコードリスト、テスト結果、または他のドキュメントの検査を含み、システムとソフトウェアが可能な限り安全になるようにこれらのエラーを修正する究極のゴールである。 静的解析ツールが多数存在するため、企業やプログラマがプログラムコードを分析するツールを選択するのが難しくなっている。 セキュリティリスクを軽減するために、サイバーディフェンダーがコード解析を活用できるように、コード解析を改善する方法を見つけることが不可欠である。 本研究では,仮想アシスタントを用いてプログラマと協力し,安全上重要なシステムをデータ漏洩やその他の攻撃から保護するために,ソフトウェアが可能な限り安全であることを保証する手法を提案する。 pro-posdメソッドは、さまざまなメトリクスを使用して、プログラマがプロジェクトに最も適切なコード解析ツールを選択し、分析プロセスを通じてそれらをガイドするレコメンダシステムを採用している。 このシステムは、推奨プラクティスの採用に関するユーザの行動をさらに追跡する。

Static analysis remains one of the most popular approaches for detecting and correcting poor or vulnerable program code. It involves the examination of code listings, test results, or other documentation to identify errors, violations of development standards, or other problems, with the ultimate goal of fixing these errors so that systems and software are as secure as possible. There exists a plethora of static analysis tools, which makes it challenging for businesses and programmers to select a tool to analyze their program code. It is imperative to find ways to improve code analysis so that it can be employed by cyber defenders to mitigate security risks. In this research, we propose a method that employs the use of virtual assistants to work with programmers to ensure that software are as safe as possible in order to protect safety-critical systems from data breaches and other attacks. The pro- posed method employs a recommender system that uses various metrics to help programmers select the most appropriate code analysis tool for their project and guides them through the analysis process. The system further tracks the user's behavior regarding the adoption of the recommended practices.
翻訳日:2021-08-11 11:22:05 公開日:2021-08-10
# 数ショット意味セグメンテーションのためのメタクラスメモリの学習

Learning Meta-class Memory for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2108.02958v2 )

ライセンス: Link先を確認
Zhonghua Wu, Xiangxi Shi, Guosheng lin, Jianfei Cai(参考訳) 現在、最先端手法は、各クラスが独立であると仮定して、条件付き前景・後景セグメンテーション問題として、数少ない意味セグメンテーションタスクを扱う。 本稿では、メタクラスの概念、すなわちメタ情報(例えば、メタクラス)について紹介する。 特定のミドルレベルの特徴) すべてのクラスで共有できる。 そこで我々は,メタクラス学習時にメタクラス情報を記憶し,推論段階に新しいクラスに転送する学習可能なメモリ埋め込みのセットを導入する,メタクラスメモリベースのマイクロショットセグメンテーション手法(MM-Net)を提案する。 さらに,k$-shot シナリオでは,支援画像の集合から画像を選択するための新しい画像品質測定モジュールを提案する。 品質測定値に基づいて, 画像特徴量の重み付けで高品質なプロトタイプを得ることができた。 PASCAL-$5^i$とCOCOデータセットの両方で実験した結果,提案手法は1ショットと5ショットの両方で最先端の結果を得られることがわかった。 特に,提案するmm-netは,従来よりも5.1\%高い1ショット設定でcocoデータセット上で37.5\%miouを達成する。

Currently, the state-of-the-art methods treat few-shot semantic segmentation task as a conditional foreground-backgroun d segmentation problem, assuming each class is independent. In this paper, we introduce the concept of meta-class, which is the meta information (e.g. certain middle-level features) shareable among all classes. To explicitly learn meta-class representations in few-shot segmentation task, we propose a novel Meta-class Memory based few-shot segmentation method (MM-Net), where we introduce a set of learnable memory embeddings to memorize the meta-class information during the base class training and transfer to novel classes during the inference stage. Moreover, for the $k$-shot scenario, we propose a novel image quality measurement module to select images from the set of support images. A high-quality class prototype could be obtained with the weighted sum of support image features based on the quality measure. Experiments on both PASCAL-$5^i$ and COCO dataset shows that our proposed method is able to achieve state-of-the-art results in both 1-shot and 5-shot settings. Particularly, our proposed MM-Net achieves 37.5\% mIoU on the COCO dataset in 1-shot setting, which is 5.1\% higher than the previous state-of-the-art.
翻訳日:2021-08-11 11:21:48 公開日:2021-08-10
# ビデオキャプションのための識別潜在セマンティックグラフ

Discriminative Latent Semantic Graph for Video Captioning ( http://arxiv.org/abs/2108.03662v2 )

ライセンス: Link先を確認
Yang Bai, Junyan Wang, Yang Long, Bingzhang Hu, Yang Song, Maurice Pagnucco, Yu Guan(参考訳) ビデオキャプションは、与えられたビデオの視覚コンテンツを記述できる自然言語文を自動的に生成することを目的としている。 エンコーダ・デコーダフレームワークのような既存の生成モデルでは、複雑な時空間データからオブジェクトレベルのインタラクションやフレームレベルの情報を明示的に探り出して意味に富んだキャプションを生成することはできない。 我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。 1)強化されたオブジェクトの提案:我々は時空間情報を潜在オブジェクト提案に融合できる新しい条件付きグラフを提案する。 2)視覚知識:より高度な意味レベルを持つ視覚単語を動的に抽出する潜在提案集約を提案する。 3)文の検証: 生成したキャプションを検証し, 重要な意味概念を効果的に保存するために, 新たな判別言語検証器を提案する。 特にBLEU-4とCIDErの2つの公開データセット(MVSDとMSR-VTT)に対する実験は、すべての指標に対する最先端のアプローチよりも顕著に改善されている。 私たちのコードはhttps://github.com/b aiyang4/d-lsg-video- captionで利用可能です。

Video captioning aims to automatically generate natural language sentences that can describe the visual contents of a given video. Existing generative models like encoder-decoder frameworks cannot explicitly explore the object-level interactions and frame-level information from complex spatio-temporal data to generate semantic-rich captions. Our main contribution is to identify three key problems in a joint framework for future video summarization tasks. 1) Enhanced Object Proposal: we propose a novel Conditional Graph that can fuse spatio-temporal information into latent object proposal. 2) Visual Knowledge: Latent Proposal Aggregation is proposed to dynamically extract visual words with higher semantic levels. 3) Sentence Validation: A novel Discriminative Language Validator is proposed to verify generated captions so that key semantic concepts can be effectively preserved. Our experiments on two public datasets (MVSD and MSR-VTT) manifest significant improvements over state-of-the-art approaches on all metrics, especially for BLEU-4 and CIDEr. Our code is available at https://github.com/b aiyang4/D-LSG-Video- Caption.
翻訳日:2021-08-11 11:21:25 公開日:2021-08-10
# 遅延強調mriの自動評価のためのディープラーニング法 EMIDECチャレンジの結果

Deep Learning methods for automatic evaluation of delayed enhancement-MRI. The results of the EMIDEC challenge ( http://arxiv.org/abs/2108.04016v2 )

ライセンス: Link先を確認
Alain Lalande, Zhihao Chen, Thibaut Pommier, Thomas Decourselle, Abdul Qayyum, Michel Salomon, Dominique Ginhac, Youssef Skandarani, Arnaud Boucher, Khawla Brahim, Marleen de Bruijne, Robin Camarasa, Teresa M. Correia, Xue Feng, Kibrom B. Girum, Anja Hennemuth, Markus Huellebrand, Raabid Hussain, Matthias Ivantsits, Jun Ma, Craig Meyer, Rishabh Sharma, Jixi Shi, Nikolaos V. Tsekos, Marta Varela, Xiyue Wang, Sen Yang, Hannu Zhang, Yichi Zhang, Yuncheng Zhou, Xiahai Zhuang, Raphael Couturier, Fabrice Meriaudeau(参考訳) 心筋梗塞(MI)後の心臓状態を評価する重要な要因は、再灌流または再血管形成療法後に心筋セグメントが有効かどうかを測定することである。 造影剤を投与した数分後に行われる遅延造影MRI(de-MRI)は、生存可能な心筋と非生存可能な心筋との間に高いコントラストを与え、MIの程度を評価する方法である。 本論文では, 心筋状態を自動的に評価するために, 本課題に焦点をあてたEMIDECチャレンジの結果について述べる。 挑戦の主な目的は2つだった。 まず,深層学習法が正常症例と病理症例を区別できるかどうかを評価する。 第2に、心筋梗塞の程度を自動的に計算する。 公開されているデータベースは、コントラスト剤を注射した後の正常MRI50例と、心筋梗塞100例(そして、D-MRIのハイパーエンハンス領域を含む)に分けて構成される。 MRIとともに臨床的特徴も提供される。 いくつかの研究から得られた結果から、試験の自動分類は到達可能なタスク(精度0.92の最良の方法)であり、心筋の自動分割が可能であることが示されている。 しかし, 地域規模が小さかったり, 周辺構造とのコントラストの欠如などにより, 疾患領域のセグメンテーションは改善される必要がある。

A key factor for assessing the state of the heart after myocardial infarction (MI) is to measure whether the myocardium segment is viable after reperfusion or revascularization therapy. Delayed enhancement-MRI or DE-MRI, which is performed several minutes after injection of the contrast agent, provides high contrast between viable and nonviable myocardium and is therefore a method of choice to evaluate the extent of MI. To automatically assess myocardial status, the results of the EMIDEC challenge that focused on this task are presented in this paper. The challenge's main objectives were twofold. First, to evaluate if deep learning methods can distinguish between normal and pathological cases. Second, to automatically calculate the extent of myocardial infarction. The publicly available database consists of 150 exams divided into 50 cases with normal MRI after injection of a contrast agent and 100 cases with myocardial infarction (and then with a hyperenhanced area on DE-MRI), whatever their inclusion in the cardiac emergency department. Along with MRI, clinical characteristics are also provided. The obtained results issued from several works show that the automatic classification of an exam is a reachable task (the best method providing an accuracy of 0.92), and the automatic segmentation of the myocardium is possible. However, the segmentation of the diseased area needs to be improved, mainly due to the small size of these areas and the lack of contrast with the surrounding structures.
翻訳日:2021-08-11 11:20:56 公開日:2021-08-10
# DNN(Deep Neural Network for DrawiNg Networks, DNN)^2

Deep Neural Network for DrawiNg Networks, (DNN)^2 ( http://arxiv.org/abs/2108.03632v2 )

ライセンス: Link先を確認
Loann Giovannangeli, Frederic Lalanne, David Auber, Romain Giot and Romain Bourqui(参考訳) 確率勾配降下法の最近の進歩を生かして、グラフを最適目的関数の最適化によって効率的にレイアウトできることがいくつかの研究で示されている。 一方、Deep Learning (DL)技術は多くのアプリケーションで大きなパフォーマンスを実現した。 本稿では,グラフ関連目的関数により,DL手法を用いてグラフからレイアウトまでの操作列を学習できることを実証する。 本稿では,(dnn)^2: deep neural network for drawing networksという新しいグラフ描画フレームワークを提案する。 本手法では,モデル学習にグラフ畳み込みネットワークを用いる。 学習は、トレーニング中に(DNN)^2生成したレイアウトを評価するグラフトポロジ関連損失関数を最適化することで達成される。 トレーニングが完了すると、(DNN)^モデルは任意の入力グラフを素早くレイアウトすることができる。 dnn^2を実験し,最適化に基づく正規グラフレイアウトアルゴリズムと比較した。 その結果,(DNN)^2 はグラフ描画への深層学習アプローチが新鮮であり,将来的な研究の先駆けとなるものが多いことが示唆された。

By leveraging recent progress of stochastic gradient descent methods, several works have shown that graphs could be efficiently laid out through the optimization of a tailored objective function. In the meantime, Deep Learning (DL) techniques achieved great performances in many applications. We demonstrate that it is possible to use DL techniques to learn a graph-to-layout sequence of operations thanks to a graph-related objective function. In this paper, we present a novel graph drawing framework called (DNN)^2: Deep Neural Network for DrawiNg Networks. Our method uses Graph Convolution Networks to learn a model. Learning is achieved by optimizing a graph topology related loss function that evaluates (DNN)^2 generated layouts during training. Once trained, the (DNN)^ model is able to quickly lay any input graph out. We experiment (DNN)^2 and statistically compare it to optimization-based and regular graph layout algorithms. The results show that (DNN)^2 performs well and are encouraging as the Deep Learning approach to Graph Drawing is novel and many leads for future works are identified.
翻訳日:2021-08-11 11:20:31 公開日:2021-08-10