このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210430となっている論文です。

PDF登録状況(公開日: 20210430)

TitleAuthorsAbstract論文公表日・翻訳日
# 畳み込みニューラルネットワークを用いた調理物体の分類

Classifying States of Cooking Objects Using Convolutional Neural Network ( http://arxiv.org/abs/2105.14196v1 )

ライセンス: Link先を確認
Qi Zheng(参考訳) 自動調理機は将来の目標である。 主な目的は、調理プロセスを簡単かつ安全にし、人間の福祉を創造することである。 ロボットが調理活動を正確に行うためには,調理環境を理解し,その対象,特に調理対象の状態を正確に識別することが重要である。 これにより、以下の調理レシピの正確性が著しく向上する。 このプロジェクトでは、料理物の状態をスクラッチから分類するための堅牢な深層畳み込みニューラルネットワークを設計するために、実験の一部が実施された。 このモデルは、アーキテクチャ層の調整、キーハイパーパラメータのチューニング、状態分類の精度を最大化するために異なる最適化技術を用いて評価される。

Automated cooking machine is a goal for the future. The main aim is to make the cooking process easier, safer, and create human welfare. To allow robots to accurately perform the cooking activities, it is important for them to understand the cooking environment and recognize the objects, especially correctly identifying the state of the cooking objects. This will significantly improve the correctness of the following cooking recipes. In this project, several parts of the experiment were conducted to design a robust deep convolutional neural network for classifying the state of the cooking objects from scratch. The model is evaluated by using various techniques, such as adjusting architecture layers, tuning key hyperparameters, and using different optimization techniques to maximize the accuracy of state classification.
翻訳日:2021-06-06 11:07:43 公開日:2021-04-30
# 3次元多孔質媒質中の多相流シミュレーションのための物理制約深層学習モデル

A Physics-Constrained Deep Learning Model for Simulating Multiphase Flow in 3D Heterogeneous Porous Media ( http://arxiv.org/abs/2105.09467v1 )

ライセンス: Link先を確認
Bicheng Yan, Dylan Robert Harp, Bailian Chen, Rajesh Pawar(参考訳) 本研究では, 3次元不均質媒質中の多相流を解決するために, 効率的な物理制約付き深層学習モデルを開発した。 このモデルは畳み込みニューラルネットワークの空間的トポロジー予測能力を完全に活用し、空間的連続性を必要とするフロー応答を予測する効率的な連続性に基づくスムーザと結合する。 さらに、過渡領域がペナル化されてトレーニングプロセスが進行し、モデルがこれらの領域の流れを正確に捉えることができる。 このモデルは多孔質媒質の性質、流体特性、井戸制御などの入力を受け取り、状態変数の時空間的進化(圧力と飽和)を予測する。 流体の流れの連続性を維持しながら、3次元空間領域を2次元画像に分解してトレーニングコストを低減し、この分解によりトレーニングデータサンプル数が増え、トレーニング効率が向上する。 さらに,ディープラーニングモデルから状態変数の予測に基づいて,適切な流量を算出するための後処理系として代理モデルを構築した。 本研究では, 塩類帯水層へのCO2注入例を用いて物理シミュレーションデータからトレーニングし, 物理過程をエミュレートした物理制約深層学習モデルを適用する。 このモデルは物理に基づくシミュレーションと比較して約1400倍の速度で予測を行い、予測された圧力と飽和プルームの平均時間誤差はそれぞれ0.27%と0.099%である。 さらに, 平均誤差を5%以下に抑えながら, 水の生産速度を井戸流量の代理モデルにより効率的に予測する。 したがって、多孔質媒体における流体流動の忠実度に対処する独自のスキームにより、物理制約された深層学習モデルは、逆問題や他の結合過程を計算的に要求する効率的な予測モデルとなることができる。

In this work, an efficient physics-constrained deep learning model is developed for solving multiphase flow in 3D heterogeneous porous media. The model fully leverages the spatial topology predictive capability of convolutional neural networks, and is coupled with an efficient continuity-based smoother to predict flow responses that need spatial continuity. Furthermore, the transient regions are penalized to steer the training process such that the model can accurately capture flow in these regions. The model takes inputs including properties of porous media, fluid properties and well controls, and predicts the temporal-spatial evolution of the state variables (pressure and saturation). While maintaining the continuity of fluid flow, the 3D spatial domain is decomposed into 2D images for reducing training cost, and the decomposition results in an increased number of training data samples and better training efficiency. Additionally, a surrogate model is separately constructed as a postprocessor to calculate well flow rate based on the predictions of state variables from the deep learning model. We use the example of CO2 injection into saline aquifers, and apply the physics-constrained deep learning model that is trained from physics-based simulation data and emulates the physics process. The model performs prediction with a speedup of ~1400 times compared to physics-based simulations, and the average temporal errors of predicted pressure and saturation plumes are 0.27% and 0.099% respectively. Furthermore, water production rate is efficiently predicted by a surrogate model for well flow rate, with a mean error less than 5%. Therefore, with its unique scheme to cope with the fidelity in fluid flow in porous media, the physics-constrained deep learning model can become an efficient predictive model for computationally demanding inverse problems or other coupled processes.
翻訳日:2021-05-21 19:17:03 公開日:2021-04-30
# (参考訳) AIとは、コビッド・ヘルスの時代における不平等の増大を意味するか? [全文訳有]

Does "AI" stand for augmenting inequality in the era of covid-19 healthcare? ( http://arxiv.org/abs/2105.07844v1 )

ライセンス: CC BY 4.0
David Leslie, Anjali Mazumder, Aidan Peppin, Maria Wolters and Alexa Hagerty(参考訳) 新型コロナウイルスのパンデミックの最も被害の大きい特徴は、不適切な地域社会に対する不均等な影響である。 アウトブレイクが世界中に広まるにつれて、システム的人種差別、限界化、構造的不平等といった要因が経路依存を生み出し、健康状態が悪化する。 これらの感染症や災害の危険性の社会的決定要因は、経済的不安定性、病気の曝露、感染の重症度、死亡のレベルが高い既に不利な地域社会に影響を与えている。 人工知能(AI)技術は、伝染病と闘うための健康情報ツールキットの重要な部分である。 しかし、aiは既存の不平等を誘引し強化できるアルゴリズムバイアスに影響を受けやすいことがよく知られている。 新型コロナウイルスとの戦いにおいてAIを非クリティカルに展開することで、パンデミックが脆弱なグループに悪影響を及ぼすリスクが増大し、健康上の不平等が悪化する。 本稿では、AIシステムは、データセットに定着する健康差別のパターン、データ代表性、およびこれらのシステムの設計、開発、展開中に行われる人間の選択の3つの方法でバイアスと差別を導入または反映できると主張している。 特に、黒人、アジア人、その他の少数民族、高齢者、社会経済的地位の低い人々に対する、コビッド19の異なる影響を悪化させるようなAI技術の使用について強調する。 我々は、AIがコビッド-19に関連する不平等に対する複合効果を軽減するために、意思決定者、技術開発者、健康担当者はAIプロセスのあらゆる段階で潜在的なバイアスと不平等を考慮しなければならないと結論付けている。

Among the most damaging characteristics of the covid-19 pandemic has been its disproportionate effect on disadvantaged communities. As the outbreak has spread globally, factors such as systemic racism, marginalisation, and structural inequality have created path dependencies that have led to poor health outcomes. These social determinants of infectious disease and vulnerability to disaster have converged to affect already disadvantaged communities with higher levels of economic instability, disease exposure, infection severity, and death. Artificial intelligence (AI) technologies are an important part of the health informatics toolkit used to fight contagious disease. AI is well known, however, to be susceptible to algorithmic biases that can entrench and augment existing inequality. Uncritically deploying AI in the fight against covid-19 thus risks amplifying the pandemic's adverse effects on vulnerable groups, exacerbating health inequity. In this paper, we claim that AI systems can introduce or reflect bias and discrimination in three ways: in patterns of health discrimination that become entrenched in datasets, in data representativeness, and in human choices made during the design, development, and deployment of these systems. We highlight how the use of AI technologies threaten to exacerbate the disparate effect of covid-19 on marginalised, under-represented, and vulnerable groups, particularly black, Asian, and other minoritised ethnic people, older populations, and those of lower socioeconomic status. We conclude that, to mitigate the compounding effects of AI on inequalities associated with covid-19, decision makers, technology developers, and health officials must account for the potential biases and inequities at all stages of the AI process.
翻訳日:2021-05-20 08:02:05 公開日:2021-04-30
# (参考訳) DONE:フェデレーションエッジ学習のための分散近似ニュートン方式 [全文訳有]

DONE: Distributed Approximate Newton-type Method for Federated Edge Learning ( http://arxiv.org/abs/2012.05625v3 )

ライセンス: CC BY-SA 4.0
Canh T. Dinh, Nguyen H. Tran, Tuan Dung Nguyen, Wei Bao, Amir Rezaei Balef, Albert Y. Zomaya(参考訳) エッジコンピューティングに分散機械学習を適用することへの関心が高まっている。 フェデレーションエッジ学習は非i.i.d. そして、異種データや、遠くの場所や不安定なワイヤレスネットワークを通じて、エッジワーカー間の通信は、ローカルな計算オーバーヘッドよりもコストがかかる。 本研究では,通信効率の高いフェデレーションエッジ学習のための高速収束率を持つ分散近似ニュートン型アルゴリズムである doneを提案する。 第一に、強い凸関数と滑らかな損失関数により、DONEは各エッジワーカーの古典的リチャードソン反復を用いてニュートン方向を分散的に近似する。 第二に、DONE は線形四次収束を持ち、通信の複雑さを解析する。 最後に、実験結果は非i.i.d。 ヘテロジニアスなデータから、DONEはNewtonの手法に匹敵する性能を発揮する。 特に、DONEは分散勾配降下よりも通信イテレーションを少なくし、非二次的損失関数の場合、DANEとFEDL、最先端のアプローチより優れている。

There is growing interest in applying distributed machine learning to edge computing, forming federated edge learning. Federated edge learning faces non-i.i.d. and heterogeneous data, and the communication between edge workers, possibly through distant locations and with unstable wireless networks, is more costly than their local computational overhead. In this work, we propose DONE, a distributed approximate Newton-type algorithm with fast convergence rate for communication-effici ent federated edge learning. First, with strongly convex and smooth loss functions, DONE approximates the Newton direction in a distributed manner using the classical Richardson iteration on each edge worker. Second, we prove that DONE has linear-quadratic convergence and analyze its communication complexities. Finally, the experimental results with non-i.i.d. and heterogeneous data show that DONE attains a comparable performance to the Newton's method. Notably, DONE requires fewer communication iterations compared to distributed gradient descent and outperforms DANE and FEDL, state-of-the-art approaches, in the case of non-quadratic loss functions.
翻訳日:2021-05-15 17:34:01 公開日:2021-04-30
# 凸最適化によるニューラルネットワークのインクリメンタル2次制約の認定

Certifying Incremental Quadratic Constraints for Neural Networks via Convex Optimization ( http://arxiv.org/abs/2012.05981v3 )

ライセンス: Link先を確認
Navid Hashemi, Justin Ruths, Mahyar Fazlyab(参考訳) ニューラルネットワークが入力や出力に課す制約を抽象化することは、ニューラルネットワーク分類器の分析や、ニューラルネットワークを含むフィードバックシステムの安定性と堅牢性を保証する最適化ベースのアルゴリズムの導出に非常に有用である。 本稿では,LMI(Linear Matrix Inequality)という形で,関心領域におけるニューラルネットワークのマップ上の漸進的な二次的制約を証明するための凸プログラムを提案する。 これらの証明は、(局所)リプシッツ連続性、片側リプシッツ連続性、可逆性、収縮など、いくつかの有用な性質を捉えることができる。 このアプローチの有用性を2つの異なる設定で説明します。 まず,ニューラルネットワークの局所リプシッツ定数の上限の保証とシャープを計算し,ランダムネットワークとmnistでトレーニングされたネットワーク上での結果を説明する半定値プログラムを開発した。 第二に,ニューラルネットワークによってパラメータ化される近似モデル予測制御器を用いたフィードバックにおける線形時間不変システムを考える。 次に、安定性解析を半確定実現プログラムに変換し、閉ループ系に対する楕円不変集合を推定する。

Abstracting neural networks with constraints they impose on their inputs and outputs can be very useful in the analysis of neural network classifiers and to derive optimization-based algorithms for certification of stability and robustness of feedback systems involving neural networks. In this paper, we propose a convex program, in the form of a Linear Matrix Inequality (LMI), to certify incremental quadratic constraints on the map of neural networks over a region of interest. These certificates can capture several useful properties such as (local) Lipschitz continuity, one-sided Lipschitz continuity, invertibility, and contraction. We illustrate the utility of our approach in two different settings. First, we develop a semidefinite program to compute guaranteed and sharp upper bounds on the local Lipschitz constant of neural networks and illustrate the results on random networks as well as networks trained on MNIST. Second, we consider a linear time-invariant system in feedback with an approximate model predictive controller parameterized by a neural network. We then turn the stability analysis into a semidefinite feasibility program and estimate an ellipsoidal invariant set for the closed-loop system.
翻訳日:2021-05-15 06:07:53 公開日:2021-04-30
# (参考訳) グラフクラスタリングのためのグラフプールを用いたノード選択 [全文訳有]

Seeing All From a Few: Nodes Selection Using Graph Pooling for Graph Clustering ( http://arxiv.org/abs/2105.05320v1 )

ライセンス: CC BY 4.0
Yiming Wang, Dongxia Chang, Zhiqian Fu, and Yao Zhao(参考訳) 近年,グラフ情報を用いたデータの分割を目的としたグラフクラスタリングが注目されている。 しかし、グラフ内のノイズの多いエッジとノードはクラスタリング結果を悪化させる可能性がある。 本稿では,ノイズの多いノードやエッジに対するグラフクラスタリングのロバスト性を改善するために,新しいデュアルグラフ埋め込みネットワーク(DGEN)を提案する。 DGENはグラフプーリング層で接続された2段階のグラフエンコーダとして設計され、選択したノードのグラフ埋め込みを学習する。 ノードとその隣接ノードが同じクラスタに属するべきであるという仮定に基づいて、ノードと隣接ノードのクラスタリング割り当てに基づいて、頂点の最も有益なサブセットを選択するために、隣接クラスタプール(ncpool)を考案する。 これにより、ノイズエッジがクラスタリングに与える影響を効果的に軽減できる。 選択されたノードのクラスタリング代入を取得すると、これらの選択されたノードを使用して分類器を訓練し、この分類器により全てのノードに対する最終的なクラスタリング代入を得ることができる。 3つのベンチマークグラフデータセットの実験は、いくつかの最先端アルゴリズムと比較して優位性を示す。

Graph clustering aiming to obtain a partition of data using the graph information, has received considerable attention in recent years. However, noisy edges and nodes in the graph may make the clustering results worse. In this paper, we propose a novel dual graph embedding network(DGEN) to improve the robustness of the graph clustering to the noisy nodes and edges. DGEN is designed as a two-step graph encoder connected by a graph pooling layer, which learns the graph embedding of the selected nodes. Based on the assumption that a node and its nearest neighbors should belong to the same cluster, we devise the neighbor cluster pooling(NCPool) to select the most informative subset of vertices based on the clustering assignments of nodes and their nearest neighbor. This can effectively alleviate the impact of the noise edge to the clustering. After obtaining the clustering assignments of the selected nodes, a classifier is trained using these selected nodes and the final clustering assignments for all the nodes can be obtained by this classifier. Experiments on three benchmark graph datasets demonstrate the superiority compared with several state-of-the-art algorithms.
翻訳日:2021-05-14 13:03:41 公開日:2021-04-30
# 人工生命の創発

Emergence in artificial life ( http://arxiv.org/abs/2105.03216v1 )

ライセンス: Link先を確認
Carlos Gershenson(参考訳) 出現に類似した概念は古代から用いられてきたが、出現の定義には一致していない。 それでも、出現は複雑なシステムの特徴の1つとして認識されている。 ほとんどが「人生は複雑だ」という意見に同意している。 したがって、出現と複雑さを理解することは、生体システムの研究に役立つだろう。 生命は複雑な分子の相互作用から生まれると言える。 しかし、これが生きたシステムを理解するのにどれくらい役立つのか? 人工生命(ALife)は、合成アプローチを用いて生命を研究するために、ここ数十年で開発された。 ALifeシステムは、ソフト(シミュレーション)、ハード(ロボット)、ウェット(プロトセル)など、それほど複雑ではない。 次に、まず生命の出現を理解することを目指して、生物学でこの知識を利用する。 私は、出現と生活を理解するために、情報をフレームワークとして使うのが役に立ちます。 ある意味では、出現はあるスケールに存在するが別のスケールに存在する情報として定義することができる。 この視点は物質主義的な枠組みから創発を研究する問題を避け、自己組織化と複雑性を研究するのに有用である。

Concepts similar to emergence have been used since antiquity, but we lack an agreed definition of emergence. Still, emergence has been identified as one of the features of complex systems. Most would agree on the statement "life is complex". Thus, understanding emergence and complexity should benefit the study of living systems. It can be said that life emerges from the interactions of complex molecules. But how useful is this to understand living systems? Artificial life (ALife) has been developed in recent decades to study life using a synthetic approach: build it to understand it. ALife systems are not so complex, be them soft (simulations), hard (robots), or wet (protocells). Then, we can aim at first understanding emergence in ALife, for then using this knowledge in biology. I argue that to understand emergence and life, it becomes useful to use information as a framework. In a general sense, emergence can be defined as information that is not present at one scale but is present at another scale. This perspective avoids problems of studying emergence from a materialistic framework, and can be useful to study self-organization and complexity.
翻訳日:2021-05-11 08:35:37 公開日:2021-04-30
# (参考訳) CHS-Net: COVID-19感染CT画像の階層的セグメンテーションのためのディープラーニングアプローチ [全文訳有]

CHS-Net: A Deep learning approach for hierarchical segmentation of COVID-19 infected CT images ( http://arxiv.org/abs/2012.07079v4 )

ライセンス: CC BY 4.0
Narinder Singh Punn, Sonali Agarwal(参考訳) 新型コロナウイルス感染症(COVID-19)として知られる重症急性呼吸器症候群(SARS-CoV-2)のパンデミックが世界中に広がり、死者が急増している。 CT(Computed tomography)やX線(X線)などの医用画像は、臓器の構造に関する優れた詳細を提示することにより、患者の診断に重要な役割を果たす。 しかし、このようなスキャンを分析する放射線科医にとっては、面倒で時間がかかる作業だ。 新たなディープラーニング技術は、新型コロナウイルスなどの疾患やウイルスのより迅速な診断を支援するために、このようなスキャンを分析する上での強みを示している。 本稿では,ct画像を用いて肺からcovid-19感染領域を識別するための意味的階層的セグメンタとして機能する,自動ディープラーニングモデルであるchs-netを提案する。 CHS-Netは、まず肺の輪郭マップを生成し、次にCOVID-19感染地域を生成する2つの残留注意開始U-Net(RAIU-Net)モデルで開発された。 RAIU-Netは、奥行き分離可能な畳み込みとハイブリッドプーリング(マックスとスペクトルプーリング)の収縮と膨張フェーズからなる、スペクトル空間および深度注意ネットワーク(SSD)を持つ残留開始U-Netモデルで構成され、セマンティックおよび様々な解像度情報を効率的にエンコードしデコードする。 CHS-Netは、二項交叉エントロピー損失とダイス損失の重み付け平均であるセグメンテーション損失関数を用いて訓練され、偽陰性および偽正の予測をペナルライズする。 このアプローチは、最近提案された標準メトリクスに基づく研究と比較される。 広範な臨床試験を経て,提案手法が最近提案されているアプローチを上回り,肺の新型コロナウイルス感染地域を効果的に分断することが確認された。

The pandemic of novel severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) also known as COVID-19 has been spreading worldwide, causing rampant loss of lives. Medical imaging such as computed tomography (CT), X-ray, etc., plays a significant role in diagnosing the patients by presenting the excellent details about the structure of the organs. However, for any radiologist analyzing such scans is a tedious and time-consuming task. The emerging deep learning technologies have displayed its strength in analyzing such scans to aid in the faster diagnosis of the diseases and viruses such as COVID-19. In the present article, an automated deep learning based model, COVID-19 hierarchical segmentation network (CHS-Net) is proposed that functions as a semantic hierarchical segmenter to identify the COVID-19 infected regions from lungs contour via CT medical imaging. The CHS-Net is developed with the two cascaded residual attention inception U-Net (RAIU-Net) models where first generates lungs contour maps and second generates COVID-19 infected regions. RAIU-Net comprises of a residual inception U-Net model with spectral spatial and depth attention network (SSD), consisting of contraction and expansion phases of depthwise separable convolutions and hybrid pooling (max and spectral pooling) to efficiently encode and decode the semantic and varying resolution information. The CHS-Net is trained with the segmentation loss function that is the weighted average of binary cross entropy loss and dice loss to penalize false negative and false positive predictions. The approach is compared with the recently proposed research works on the basis of standard metrics. With extensive trials, it is observed that the proposed approach outperformed the recently proposed approaches and effectively segments the COVID-19 infected regions in the lungs.
翻訳日:2021-05-09 16:11:40 公開日:2021-04-30
# 確率的対比主成分分析

Probabilistic Contrastive Principal Component Analysis ( http://arxiv.org/abs/2012.07977v2 )

ライセンス: Link先を確認
Didong Li, Andrew Jones and Barbara Engelhardt(参考訳) 次元減少は探索データ解析に有用である。 多くのアプリケーションにおいて、"背景"データセットに対して"背景"データセットに富んだバリエーションを見つけることが興味がある。 近年, コントラスト主成分分析 (CPCA) が提案されている。 しかし、形式的確率モデルがないため、CPCAについて推論し、ハイパーパラメータを調整することは困難である。 本研究では,CPCAのモデルに基づく代替品であるPCPCA(probabilistic contrastive principal component analysis)を提案する。 理論および実際においてハイパーパラメータの設定方法について議論し,cpcaに対するpcpcaのアドバンテージとして,解釈性の向上,不確実性定量化と原理推論,ノイズと欠落データに対する頑健性,モデルからデータを生成する能力などを示す。 遺伝子発現,タンパク質発現,画像のデータセットを用いた一連のシミュレーションおよびケースコントロール実験を通じてpcpcaの性能を実証する。

Dimension reduction is useful for exploratory data analysis. In many applications, it is of interest to discover variation that is enriched in a "foreground" dataset relative to a "background" dataset. Recently, contrastive principal component analysis (CPCA) was proposed for this setting. However, the lack of a formal probabilistic model makes it difficult to reason about CPCA and to tune its hyperparameter. In this work, we propose probabilistic contrastive principal component analysis (PCPCA), a model-based alternative to CPCA. We discuss how to set the hyperparameter in theory and in practice, and we show several of PCPCA's advantages over CPCA, including greater interpretability, uncertainty quantification and principled inference, robustness to noise and missing data, and the ability to generate data from the model. We demonstrate PCPCA's performance through a series of simulations and case-control experiments with datasets of gene expression, protein expression, and images.
翻訳日:2021-05-08 14:14:34 公開日:2021-04-30
# (参考訳) 6G AI-Native Air Interfaceに向けて [全文訳有]

Toward a 6G AI-Native Air Interface ( http://arxiv.org/abs/2012.08285v2 )

ライセンス: CC BY 4.0
Jakob Hoydis, Fay\c{c}al Ait Aoudia, Alvaro Valcarce, Harish Viswanathan(参考訳) 各世代のセル通信システムは、4gの直交周波数分割多重化 (ofdm) や5gの大規模多重入力多重出力 (mimo) といった、その時代の画期的な破壊的技術によって特徴づけられる。 人工知能(AI)は時代の決定技術であるため、それが6Gにどのような役割を果たすのかを尋ねるのは当然です。 6Gが大規模分散学習システムのニーズに適合する必要があることは明らかだが、AIが6G自体の設計において決定的な役割を果たすかどうかは定かではない。 本稿の目的は、任意のハードウェア、無線環境、アプリケーションに対して最適化された通信スキームを実現するために、AIによって部分的に設計された新しい空気インターフェースのビジョンを描くことである。

Each generation of cellular communication systems is marked by a defining disruptive technology of its time, such as orthogonal frequency division multiplexing (OFDM) for 4G or Massive multiple-input multiple-output (MIMO) for 5G. Since artificial intelligence (AI) is the defining technology of our time, it is natural to ask what role it could play for 6G. While it is clear that 6G must cater to the needs of large distributed learning systems, it is less certain if AI will play a defining role in the design of 6G itself. The goal of this article is to paint a vision of a new air interface which is partially designed by AI to enable optimized communication schemes for any hardware, radio environment, and application.
翻訳日:2021-05-08 05:09:53 公開日:2021-04-30
# 不均一データセットクラスタリングのための進化的クラスタリングアルゴリズムstarの性能評価結果

Performance evaluation results of evolutionary clustering algorithm star for clustering heterogeneous datasets ( http://arxiv.org/abs/2105.02810v1 )

ライセンス: Link先を確認
Bryar A. Hassan, TarikA. Rashid, Seyedali Mirjalili(参考訳) 本稿では、従来の5つのクラスタリングアルゴリズムと比較して、進化的クラスタリングアルゴリズムスター(ECA*)の性能を評価するために使用されるデータについて述べる。 クラスタリング++(GENCLUST++)、学習ベクトル量子化(LVQ)、期待最大化(EM)、K-means++(KM++)、K-means(KM)の遺伝的アルゴリズムに対するECA*の性能を実験的に検討する。 これらのアルゴリズムは32の異種および多機能データセットに適用され、3つのテストでどれがうまく機能するかを決定する。 例えば、therの論文は、クラスタリング評価尺度を用いて、対応するアルゴリズムと矛盾するeca*の効率を検証している。 これらの評価基準は客観的関数とクラスタ品質測定である。 また、varosデータセット機能(クラスタ次元、クラスタ数、クラスタ重なり、クラスタ形状、クラスタ構造)におけるこれらのアルゴリズムのパフォーマンス感度を測定するためのパフォーマンス評価フレームワークも提案している。 これらの実験の貢献は2つある: (i) ECA*は、正しいクラスタ番号を見つける能力において、対応するアロリスを超える; (ii) ECA*は、競合する技術に比べてデータセット機能に敏感でない。 にもかかわらず、実験の結果はECA*のいくつかの制限を証明している: (i) ECA* は、事前の知識が存在しないという前提に基づいて完全には適用されていない; (ii) ECA* を複数の実アプリケーションに適用し活用することは、まだ達成されていない。

This article presents the data used to evaluate the performance of evolutionary clustering algorithm star (ECA*) compared to five traditional and modern clustering algorithms. Two experimental methods are employed to examine the performance of ECA* against genetic algorithm for clustering++ (GENCLUST++), learning vector quantisation (LVQ) , expectation maximisation (EM) , K-means++ (KM++) and K-means (KM). These algorithms are applied to 32 heterogenous and multi-featured datasets to determine which one performs well on the three tests. For one, ther paper examines the efficiency of ECA* in contradiction of its corresponding algorithms using clustering evaluation measures. These validation criteria are objective function and cluster quality measures. For another, it suggests a performance rating framework to measurethe the performance sensitivity of these algorithms on varos dataset features (cluster dimensionality, number of clusters, cluster overlap, cluster shape and cluster structure). The contributions of these experiments are two-folds: (i) ECA* exceeds its counterpart aloriths in ability to find out the right cluster number; (ii) ECA* is less sensitive towards dataset features compared to its competitive techniques. Nonetheless, the results of the experiments performed demonstrate some limitations in the ECA*: (i) ECA* is not fully applied based on the premise that no prior knowledge exists; (ii) Adapting and utilising ECA* on several real applications has not been achieved yet.
翻訳日:2021-05-08 00:00:08 公開日:2021-04-30
# 多孔質媒質中の多相流シミュレーションのための勾配型深層ニューラルネットワークモデル

A Gradient-based Deep Neural Network Model for Simulating Multiphase Flow in Porous Media ( http://arxiv.org/abs/2105.02652v1 )

ライセンス: Link先を確認
Bicheng Yan, Dylan Robert Harp, Rajesh J. Pawar(参考訳) 多孔質媒質中の多相流のシミュレーションは地下エネルギーと環境関連活動の効果的管理に不可欠である。 このような過程をモデル化するために用いられる数値シミュレータは、支配的部分微分方程式(pdes)の数値的手法による代数的系への空間的および時間的離散化に依存する。 これらのシミュレータは通常、専用のソフトウェア開発とメンテナンスを必要とし、実行時とメモリの観点から低い効率を損なう。 したがって、ディープラーニングのアプローチは普遍的な近似と見なされるため、コスト効率の高いデータ駆動モデルの開発が実用的な選択となる。 本稿では多孔質媒体の多相流に関する物理に制約された勾配型ディープニューラルネットワーク(GDNN)について述べる。 非線形pdesを初等微分作用素の辞書に分解することにより,多孔質媒質中の流れの非線形性,流体物性,流体-岩石相互作用に挑戦する。 我々は,岩盤の空間的不均一性と対流による流体流動を演算子の組み合わせで処理する。 拡張微分作用素は流体の物理に本質的に関係しているため、GDNNトレーニングを正則化するための知識前の第一原理として扱う。 本研究では, 塩水帯水層にCO2を注入し, 塩水帯水層にブラインを発生させた地質CO2貯蔵地における圧力管理の例を用いて, 物理シミュレーションデータからトレーニングした予測モデルを構築し, 物理過程をエミュレートする。 GDNNは, 圧力と飽和プルームの時空間進化を含む地下応答の非線形パターンを効果的に予測できることを実証した。 GDNNは、高非線形物理によって支配される課題に取り組み、より忠実なデータ駆動モデルの開発を可能にする大きな可能性を秘めている。

Simulation of multiphase flow in porous media is crucial for the effective management of subsurface energy and environment related activities. The numerical simulators used for modeling such processes rely on spatial and temporal discretization of the governing partial-differential equations (PDEs) into algebraic systems via numerical methods. These simulators usually require dedicated software development and maintenance, and suffer low efficiency from a runtime and memory standpoint. Therefore, developing cost-effective, data-driven models can become a practical choice since deep learning approaches are considered to be universal approximations. In this paper, we describe a gradient-based deep neural network (GDNN) constrained by the physics related to multiphase flow in porous media. We tackle the nonlinearity of flow in porous media induced by rock heterogeneity, fluid properties and fluid-rock interactions by decomposing the nonlinear PDEs into a dictionary of elementary differential operators. We use a combination of operators to handle rock spatial heterogeneity and fluid flow by advection. Since the augmented differential operators are inherently related to the physics of fluid flow, we treat them as first principles prior knowledge to regularize the GDNN training. We use the example of pressure management at geologic CO2 storage sites, where CO2 is injected in saline aquifers and brine is produced, and apply GDNN to construct a predictive model that is trained from physics-based simulation data and emulates the physics process. We demonstrate that GDNN can effectively predict the nonlinear patterns of subsurface responses including the temporal-spatial evolution of the pressure and saturation plumes. GDNN has great potential to tackle challenging problems that are governed by highly nonlinear physics and enables development of data-driven models with higher fidelity.
翻訳日:2021-05-07 23:59:39 公開日:2021-04-30
# (参考訳) 信頼できるAIを開発するための倫理ベースの監査 [全文訳有]

Ethics-Based Auditing to Develop Trustworthy AI ( http://arxiv.org/abs/2105.00002v1 )

ライセンス: CC BY 4.0
Jakob Mokander and Luciano Floridi(参考訳) 最近の一連の発展は、AI倫理における原則と実践のギャップを埋めるための有望なメカニズムとして監査に向けられている。 倫理に基づく監査に関する議論が続いており、3つのコントリビューションを提供している。 まず,倫理に基づく監査は,意思決定の質の向上,ユーザの満足度の向上,成長可能性の解放,法制化,人的苦痛の軽減に有効である,と論じる。 第2に、倫理ベースの監査の設計と実施をサポートする現在のベストプラクティスを強調する。 実現可能かつ効果的であるためには、倫理ベースの監査は、継続的かつ建設的なプロセスの形をとり、システムの観点から倫理的アライメントにアプローチし、倫理的に望ましい行動のための公共政策とインセンティブに合わせるべきである。 第3に,倫理ベースの監査に関する制約を特定し,議論する。 これらの制約の理解と説明によってのみ、倫理ベースの監査はaiの倫理的連携を促進し、社会は自動化による経済的、社会的利益を享受できる。

A series of recent developments points towards auditing as a promising mechanism to bridge the gap between principles and practice in AI ethics. Building on ongoing discussions concerning ethics-based auditing, we offer three contributions. First, we argue that ethics-based auditing can improve the quality of decision making, increase user satisfaction, unlock growth potential, enable law-making, and relieve human suffering. Second, we highlight current best practices to support the design and implementation of ethics-based auditing: To be feasible and effective, ethics-based auditing should take the form of a continuous and constructive process, approach ethical alignment from a system perspective, and be aligned with public policies and incentives for ethically desirable behaviour. Third, we identify and discuss the constraints associated with ethics-based auditing. Only by understanding and accounting for these constraints can ethics-based auditing facilitate ethical alignment of AI, while enabling society to reap the full economic and social benefits of automation.
翻訳日:2021-05-06 06:23:17 公開日:2021-04-30
# (参考訳) データキュレーションアクティビティ検出のための機械学習の活用 [全文訳有]

Leveraging Machine Learning to Detect Data Curation Activities ( http://arxiv.org/abs/2105.00030v1 )

ライセンス: CC BY 4.0
Sara Lafia, Andrea Thomer, David Bleckley, Dharma Akmon, Libby Hemphill(参考訳) 本稿では,大規模社会科学データアーカイブ icpsr におけるデータキュレーション作業ログの注釈と分析のための機械学習手法について述べる。 icpsrにおけるトラックキュレーション作業とチームの意思決定のコーディネートを研究した。 Repositoryのスタッフはこれらのシステムを使用して、データセット上で行われるキュレーション作業の整理、優先順位付け、ドキュメント化を行います。 しかし、重要な課題は、同様のアクティビティを分類して、それらが測定され、影響メトリクスと関連付けられるようにすることだ。 本稿では,1)データキュレーション活動のスキーマ,2)作業ログ記述におけるキュレーション行動の識別のための計算モデル,3)icpsrにおける頻繁なデータのキュレーション活動の分析を行う。 まず、キュレーション作業の影響を分析するのに役立つデータキュレーションアクションのスキーマを提案する。 次に、このスキーマを使用して、データ変換の記録とリポジトリのスタッフが完了したプロジェクト管理決定を含む一連のデータキュレーションログを注釈付けします。 最後に、大量の作業ログのキュレーションアクションの頻度を検出するために、テキスト分類器をトレーニングします。 本手法は,研究データキュレーションとデータ再利用の関係を研究する上で重要なステップとして,作業ログシステムに記録されたキュレーション作業の分析を支援する。

This paper describes a machine learning approach for annotating and analyzing data curation work logs at ICPSR, a large social sciences data archive. The systems we studied track curation work and coordinate team decision-making at ICPSR. Repository staff use these systems to organize, prioritize, and document curation work done on datasets, making them promising resources for studying curation work and its impact on data reuse, especially in combination with data usage analytics. A key challenge, however, is classifying similar activities so that they can be measured and associated with impact metrics. This paper contributes: 1) a schema of data curation activities; 2) a computational model for identifying curation actions in work log descriptions; and 3) an analysis of frequent data curation activities at ICPSR over time. We first propose a schema of data curation actions to help us analyze the impact of curation work. We then use this schema to annotate a set of data curation logs, which contain records of data transformations and project management decisions completed by repository staff. Finally, we train a text classifier to detect the frequency of curation actions in a large set of work logs. Our approach supports the analysis of curation work documented in work log systems as an important step toward studying the relationship between research data curation and data reuse.
翻訳日:2021-05-06 06:18:12 公開日:2021-04-30
# (参考訳) 体外受精における胚選択のための人工知能の倫理的実装 [全文訳有]

Ethical Implementation of Artificial Intelligence to Select Embryos in In Vitro Fertilization ( http://arxiv.org/abs/2105.00060v1 )

ライセンス: CC BY-SA 4.0
Michael Anis Mihdi Afnan, Cynthia Rudin, Vincent Conitzer, Julian Savulescu, Abhishek Mishra, Yanhe Liu, Masoud Afnan(参考訳) AIは多くの医療分野に革命をもたらす可能性がある。 放射線学、皮膚学、眼科は、近い将来最も影響を受けやすい分野の一つであり、より広い研究コミュニティから大きな注目を集めている。 しかし、現在ai技術はin vitro受精(ivf)にも使われ始めており、特にどの胚を女性に移すかを選択するのに使われている。 aiのivfへの貢献は潜在的に重要であるが、倫理的な問題が重要なため、慎重に透過的に行う必要がある。 まず、IVFについて簡単な紹介を行い、胚選択におけるAIの使用についてレビューする。 本稿では, 報告結果の科学的, 実用的観点からの解釈に関する懸念について考察する。 次に、より広範な倫理的な問題を考える。 本稿では,この文脈におけるブラックボックス法の使用による問題点を詳細に論じ,解釈可能なモデルの使用を強く主張する。 重要なことは、AIとIVFの両方のコミュニティにおいて、臨床効果の試験は公開されておらず、この時点での臨床実践は時期尚早であると論じている。 最後に、幅広いAIコミュニティが関与し、科学的に健全で倫理的に責任あるAIの開発をIVFで確実にする方法について論じる。

AI has the potential to revolutionize many areas of healthcare. Radiology, dermatology, and ophthalmology are some of the areas most likely to be impacted in the near future, and they have received significant attention from the broader research community. But AI techniques are now also starting to be used in in vitro fertilization (IVF), in particular for selecting which embryos to transfer to the woman. The contribution of AI to IVF is potentially significant, but must be done carefully and transparently, as the ethical issues are significant, in part because this field involves creating new people. We first give a brief introduction to IVF and review the use of AI for embryo selection. We discuss concerns with the interpretation of the reported results from scientific and practical perspectives. We then consider the broader ethical issues involved. We discuss in detail the problems that result from the use of black-box methods in this context and advocate strongly for the use of interpretable models. Importantly, there have been no published trials of clinical effectiveness, a problem in both the AI and IVF communities, and we therefore argue that clinical implementation at this point would be premature. Finally, we discuss ways for the broader AI community to become involved to ensure scientifically sound and ethically responsible development of AI in IVF.
翻訳日:2021-05-06 06:00:13 公開日:2021-04-30
# (参考訳) 条件付き生成逆ネットワークを用いたデータ駆動フルウェーブフォームインバージョンサロゲート [全文訳有]

Data-driven Full-waveform Inversion Surrogate using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2105.00100v1 )

ライセンス: CC BY 4.0
Saraiva Marcus, Forechi Avelino, de Oliveira Neto Jorcy, DelRey Antonio and Rauber Thomas(参考訳) 石油・ガス産業において, 地下速度場の推定は, 地震処理, 貯留層キャラクタリゼーション, 炭化水素体積計算において重要なステップである。 フルウェーブフォーム・インバージョン(FWI)ベロシティ・モデリング(英: Full-waveform inversion, FWI)は、FWIイテレーション毎に必要となる物理ベースの数値シミュレーションにより非常に高い計算コストで精度が高く詳細な速度場モデルを提供する反復的手法である。 本研究では,複数の入力を持つ条件付き生成逆数ネットワーク(cGAN)を用いて,FWIによって得られた速度場モデルを生成する手法を提案する。 このアプローチの主な動機は、フルウェーブフォーム逆速度モデリングの非常に高いコストを回避することである。 提案するネットワークアーキテクチャのトレーニングとテストに実世界データを使用し,3つの評価指標(エラー率,構造類似性指標,視覚分析)を品質基準として採用した。 これらの測定値に基づいて評価した結果から、ganは実際のfwi生成した出力と正確に一致し、入力データから主要な地質構造と横方向の速度の変動を抽出できることが示唆された。 実験結果から,提案手法が展開されると,地球物理貯水池のキャラクタリゼーションプロセスの高速化,時間と計算資源の節約が期待できることがわかった。

In the Oil and Gas industry, estimating a subsurface velocity field is an essential step in seismic processing, reservoir characterization, and hydrocarbon volume calculation. Full-waveform inversion (FWI) velocity modeling is an iterative advanced technique that provides an accurate and detailed velocity field model, although at a very high computational cost due to the physics-based numerical simulations required at each FWI iteration. In this study, we propose a method of generating velocity field models, as detailed as those obtained through FWI, using a conditional generative adversarial network (cGAN) with multiple inputs. The primary motivation of this approach is to circumvent the extremely high cost of full-waveform inversion velocity modeling. Real-world data were used to train and test the proposed network architecture, and three evaluation metrics (percent error, structural similarity index measure, and visual analysis) were adopted as quality criteria. Based on these metrics, the results evaluated upon the test set suggest that the GAN was able to accurately match real FWI generated outputs, enabling it to extract from input data the main geological structures and lateral velocity variations. Experimental results indicate that the proposed method, when deployed, has the potential to increase the speed of geophysical reservoir characterization processes, saving on time and computational resources.
翻訳日:2021-05-06 05:39:57 公開日:2021-04-30
# (参考訳) リスク最小化のための離散最適輸送におけるセマンティクス階層の埋め込み [全文訳有]

Embedding Semantic Hierarchy in Discrete Optimal Transport for Risk Minimization ( http://arxiv.org/abs/2105.00101v1 )

ライセンス: CC BY 4.0
Yubin Ge, Site Li, Xuyang Li, Fangfang Fan, Wanqing Xie, Jane You, Xiaofeng Liu(参考訳) 広く使われているクロスエントロピー(CE)の損失に基づくディープネットワークは大きな進歩を遂げた。 分類の正確さです しかし、CE損失は本質的に、意味的階層木における予測とラベルの間の距離によって測定される誤分類のリスクを無視することができる。 本稿では,個別最適輸送(dot)トレーニングフレームワークにおけるリスク対応型クラス間相関を,地上距離行列の設定により組み込む手法を提案する。 基底距離行列は階層的セマンティックリスクの優先順位に従って事前定義することができる。 具体的には、階層的な意味木上でツリー誘導誤差(TIE)を定義し、最適化の観点からその増加関数に拡張する。 ツリーの各レベルにおける意味的類似性は情報ゲインと統合される。 本研究では,複数の大規模画像分類タスクにおいて,プラグアンドプレイ方式で意味木構造を用いて有望な結果を得る。

The widely-used cross-entropy (CE) loss-based deep networks achieved significant progress w.r.t. the classification accuracy. However, the CE loss can essentially ignore the risk of misclassification which is usually measured by the distance between the prediction and label in a semantic hierarchical tree. In this paper, we propose to incorporate the risk-aware inter-class correlation in a discrete optimal transport (DOT) training framework by configuring its ground distance matrix. The ground distance matrix can be pre-defined following a priori of hierarchical semantic risk. Specifically, we define the tree induced error (TIE) on a hierarchical semantic tree and extend it to its increasing function from the optimization perspective. The semantic similarity in each level of a tree is integrated with the information gain. We achieve promising results on several large scale image classification tasks with a semantic tree structure in a plug and play manner.
翻訳日:2021-05-06 05:28:31 公開日:2021-04-30
# (参考訳) 局所特徴属性の伝播による一連のモデルの説明

Explaining a Series of Models by Propagating Local Feature Attributions ( http://arxiv.org/abs/2105.00108v1 )

ライセンス: CC BY 4.0
Hugh Chen, Scott M. Lundberg, Su-In Lee(参考訳) 複数の機械学習モデル(例えば、スタック一般化アンサンブル、ニューラルネットワーク特徴抽出器)を含むパイプラインは、多くのドメインのパフォーマンスを改善するが、理解しにくい。 透明性を向上させるために,shapley値との接続に基づいて,モデルの複雑なパイプラインを通じて局所的な機能帰属を伝達するフレームワークを導入する。 Our framework enables us to (1) draw higher-level conclusions based on groups of gene expression features for Alzheimer's and breast cancer histologic grade prediction, (2) draw important insights about the errors a mortality prediction model makes by explaining a loss that is a non-linear transformation of the model's output, (3) explain pipelines of deep feature extractors fed into a tree model for MNIST digit classification, and (4) interpret important consumer scores and raw features in a stacked generalization setting to predict risk for home equity line of credit applications. 重要な点として、DeepSHAPは、私たちが認識している唯一の特徴属性技術であり、独立したエンティティ(例えば、融資機関、信用局)が独自のモデルを共有することなく、元の特徴に対する属性を計算することができる。 フレームワークとモデルに依存しないアプローチを定量的に比較すると、我々のアプローチは桁違いに高速であり、公平な説明を提供する。 さらに,実験的なベースライン分布を組み込むことにより,(1)単一ベースラインサンプルを用いた従来のアプローチのバイアスを実証し,(2)意味のあるベースライン分布を選択するための簡単な手法を提案する。

Pipelines involving a series of several machine learning models (e.g., stacked generalization ensembles, neural network feature extractors) improve performance in many domains but are difficult to understand. To improve their transparency, we introduce a framework to propagate local feature attributions through complex pipelines of models based on a connection to the Shapley value. Our framework enables us to (1) draw higher-level conclusions based on groups of gene expression features for Alzheimer's and breast cancer histologic grade prediction, (2) draw important insights about the errors a mortality prediction model makes by explaining a loss that is a non-linear transformation of the model's output, (3) explain pipelines of deep feature extractors fed into a tree model for MNIST digit classification, and (4) interpret important consumer scores and raw features in a stacked generalization setting to predict risk for home equity line of credit applications. Importantly, in the consumer scoring example, DeepSHAP is the only feature attribution technique we are aware of that allows independent entities (e.g., lending institutions, credit bureaus) to compute attributions for the original features without having to share their proprietary models. Quantitatively comparing our framework to model-agnostic approaches, we show that our approach is an order of magnitude faster while providing equally salient explanations. In addition, we describe how to incorporate an empirical baseline distribution, which allows us to (1) demonstrate the bias of previous approaches that use a single baseline sample, and (2) present a straightforward methodology for choosing meaningful baseline distributions.
翻訳日:2021-05-06 05:19:35 公開日:2021-04-30
# ディープラーニングと言語ニューラルネットに基づくインターネットユーザレビューコーパスのフルサイズのNERラベル付きコーパスの分析

An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets ( http://arxiv.org/abs/2105.00059v1 )

ライセンス: Link先を確認
Alexander Sboev, Sanna Sboeva, Ivan Moloshnikov, Artem Gryaznov, Roman Rybka, Alexander Naumov, Anton Selivanov, Gleb Rylkov, Viacheslav Ilyin(参考訳) 我々は,ロシア語テキストから薬理学的に有意な実体を抽出する先進的な深層学習ニューラルネットワークのセットを用いて,このコーパスに到達した精度レベルの評価とともに,インターネットユーザレビューのNERラベル付き完全サイズコーパスを提示する。 コーパスアノテーションには、メディケーション(33005の言及)、副薬物反応(1778年)、疾患(17403年)、ノート(4490年)が含まれる。 治療と病気の2つ - 属性のセットで構成されています。 コーパスの一部には、300の文書に1560のコリファレンスチェーンを持つコリファレンスアノテーションがある。 言語モデルに基づく特殊マルチラベルモデルと,提案コーパスラベリングに適した特徴セットを開発した。 単語ベクトル表現、ロシア語で事前訓練された言語モデルの種類、テキスト正規化スタイル、その他の予備処理など、モデルの異なる変更の選択の影響を分析する。 コーパスのサイズが十分であれば、コーパス内のエンティティのラベル付けとバランスをとることの影響を研究することができる。 その結果、フルサイズのラベル付きコーパス上に、ロシア語の薬理学的実体抽出問題に対する技術の現状が確立される。 副作用(adr)の認識の場合、f1-exactの指標で61.1であり、分析によれば、類似した特徴を持つ他の言語コーパスの精度レベルと同等である。 コーパスにおけるコリファレンス関係抽出の基準精度は71であり、他のロシアのコーパスで得られた結果よりも高い。

We present the full-size Russian complexly NER-labeled corpus of Internet user reviews, along with an evaluation of accuracy levels reached on this corpus by a set of advanced deep learning neural networks to extract the pharmacologically meaningful entities from Russian texts. The corpus annotation includes mentions of the following entities: Medication (33005 mentions), Adverse Drug Reaction (1778), Disease (17403), and Note (4490). Two of them - Medication and Disease - comprise a set of attributes. A part of the corpus has the coreference annotation with 1560 coreference chains in 300 documents. Special multi-label model based on a language model and the set of features is developed, appropriate for presented corpus labeling. The influence of the choice of different modifications of the models: word vector representations, types of language models pre-trained for Russian, text normalization styles, and other preliminary processing are analyzed. The sufficient size of our corpus allows to study the effects of particularities of corpus labeling and balancing entities in the corpus. As a result, the state of the art for the pharmacological entity extraction problem for Russian is established on a full-size labeled corpus. In case of the adverse drug reaction (ADR) recognition, it is 61.1 by the F1-exact metric that, as our analysis shows, is on par with the accuracy level for other language corpora with similar characteristics and the ADR representativnes. The evaluated baseline precision of coreference relation extraction on the corpus is 71, that is higher the results reached on other Russian corpora.
翻訳日:2021-05-04 14:23:37 公開日:2021-04-30
# IPatch: リモートの敵パッチ

IPatch: A Remote Adversarial Patch ( http://arxiv.org/abs/2105.00113v1 )

ライセンス: Link先を確認
Yisroel Mirsky(参考訳) 自動運転車や医療スクリーニングなどのアプリケーションは、ディープラーニングモデルを使用して、1フレームに数百のオブジェクトをローカライズし、識別する。 過去には、敵のパッチをシーンに配置することで、攻撃者がこれらのモデルを騙す方法が示されている。 しかし、これらのパッチはターゲットの場所に配置されなければならず、イメージの他の部分のセマンティクスを明示的に変更する必要はない。 本稿では,画像のセマンティクスに対するモデルの認識を変化させる,新たなタイプの対角パッチを提案する。 これらのパッチはイメージ内のどこにでも配置でき、パッチから遠く離れた場所の分類や意味を変えることができる。 我々は,この新たな反対例のクラスを,RAP (remote adversarial patch) と呼ぶ。 我々は,IPatchと呼ばれる独自のRAPを実装し,CamVidストリートビューデータセット上に8種類のエンコーダを持つ5つの最先端アーキテクチャを用いて,画像セグメンテーションRAP攻撃の詳細な解析を行う。 さらに,人気のあるyolov3モデルの予備結果を用いて,攻撃を物体認識モデルに拡張できることを実証する。 その結果、パッチは平均93%の成功率でリモートターゲット領域の分類を変えることができることがわかった。

Applications such as autonomous vehicles and medical screening use deep learning models to localize and identify hundreds of objects in a single frame. In the past, it has been shown how an attacker can fool these models by placing an adversarial patch within a scene. However, these patches must be placed in the target location and do not explicitly alter the semantics elsewhere in the image. In this paper, we introduce a new type of adversarial patch which alters a model's perception of an image's semantics. These patches can be placed anywhere within an image to change the classification or semantics of locations far from the patch. We call this new class of adversarial examples `remote adversarial patches' (RAP). We implement our own RAP called IPatch and perform an in-depth analysis on image segmentation RAP attacks using five state-of-the-art architectures with eight different encoders on the CamVid street view dataset. Moreover, we demonstrate that the attack can be extended to object recognition models with preliminary results on the popular YOLOv3 model. We found that the patch can change the classification of a remote target region with a success rate of up to 93% on average.
翻訳日:2021-05-04 14:23:11 公開日:2021-04-30
# AISデータを用いた船舶・港湾効率測定

Vessel and Port Efficiency Metrics through Validated AIS data ( http://arxiv.org/abs/2105.00063v1 )

ライセンス: Link先を確認
Tomaz Martincic and Dejan Stepec and Joao Pita Costa and Kristijan Cagran and Athanasios Chaldeakis(参考訳) 自動識別システム(AIS)データは、海上交通に関する情報の豊富な源であり、ロジスティックチェーンの最適化と環境影響の低減に役立つデータ分析と予測モデリングソリューションに大きな可能性を提供する。 本研究では,AISナビゲーションデータフィールドの妥当性の主な限界に対処するため,機械学習に基づくデータ駆動手法を提案する。 さらに,得られたAISデータを用いて,船舶事業者や港が,時間的・空間的次元を通じて業務・環境効率を数値的に表現できる指標を提案する。 また,提案手法を実証するPARES(Port Area Vessel Movements)ツールについても紹介する。

Automatic Identification System (AIS) data represents a rich source of information about maritime traffic and offers a great potential for data analytics and predictive modeling solutions, which can help optimizing logistic chains and to reduce environmental impacts. In this work, we address the main limitations of the validity of AIS navigational data fields, by proposing a machine learning-based data-driven methodology to detect and (to the possible extent) also correct erroneous data. Additionally, we propose a metric that can be used by vessel operators and ports to express numerically their business and environmental efficiency through time and spatial dimensions, enabled with the obtained validated AIS data. We also demonstrate Port Area Vessel Movements (PARES) tool, which demonstrates the proposed solutions.
翻訳日:2021-05-04 14:21:52 公開日:2021-04-30
# 幾何学に基づく変分オートエンコーダを用いた高次元低サンプルサイズ設定におけるデータ拡張

Data Augmentation in High Dimensional Low Sample Size Setting Using a Geometry-Based Variational Autoencoder ( http://arxiv.org/abs/2105.00026v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec, Elina Thibeau-Sutre, Ninon Burgos and St\'ephanie Allassonni\`ere(参考訳) 本稿では,幾何に基づく変分オートエンコーダを用いた高次元低サンプルサイズ(HDLSS)設定において,信頼性の高いデータ拡張を行う新しい手法を提案する。 我々のアプローチは、リーマン多様体として見られるVAEの適切な潜在空間モデリングと、特に小さなデータセットの文脈においてより有意義なサンプルを生成する新しい生成スキームを組み合わせる。 提案手法は, データセット, 分類器, トレーニングサンプルサイズに対するロバスト性を重視した広範囲な実験により検証された。 また,提案するvaeフレームワークを用いて,少数の3次元脳mriを検討・拡張したadniデータベース上での医用画像分類タスクについても検証した。 いずれの場合も,提案手法は分類基準において有意かつ確実な利得が得られる。 例えば、認知正常(CN)50MRIで訓練された最先端のCNN分類器の66.3%から74.3%、認知正常(CN)50例、アルツハイマー病(AD)患者77.7%から86.3%まで、そして243 CNと210 ADで訓練された場合、感度と特異度を大きく改善した。

In this paper, we propose a new method to perform data augmentation in a reliable way in the High Dimensional Low Sample Size (HDLSS) setting using a geometry-based variational autoencoder. Our approach combines a proper latent space modeling of the VAE seen as a Riemannian manifold with a new generation scheme which produces more meaningful samples especially in the context of small data sets. The proposed method is tested through a wide experimental study where its robustness to data sets, classifiers and training samples size is stressed. It is also validated on a medical imaging classification task on the challenging ADNI database where a small number of 3D brain MRIs are considered and augmented using the proposed VAE framework. In each case, the proposed method allows for a significant and reliable gain in the classification metrics. For instance, balanced accuracy jumps from 66.3% to 74.3% for a state-of-the-art CNN classifier trained with 50 MRIs of cognitively normal (CN) and 50 Alzheimer disease (AD) patients and from 77.7% to 86.3% when trained with 243 CN and 210 AD while improving greatly sensitivity and specificity metrics.
翻訳日:2021-05-04 14:20:15 公開日:2021-04-30
# 対象データサブセット選択のためのサブモジュラー相互情報

Submodular Mutual Information for Targeted Data Subset Selection ( http://arxiv.org/abs/2105.00043v1 )

ライセンス: Link先を確認
Suraj Kothawade, Vishal Kaushal, Ganesh Ramakrishnan, Jeff Bilmes, Rishabh Iyer(参考訳) データの急速な成長に伴い、データの適切なサブセットでディープラーニングモデルのトレーニングや改善がますます難しくなってきている。 トレーニングデータに補助集合に類似したラベル付きデータポイントのサブセットを付加したターゲットデータサブセット選択(TSS)により、追加のラベル付けコストでこの問題を効果的に解決できることを示す。 サブモジュール・ミューチュアル・インフォメーション(SMI)関数の豊富なクラスを用いて,CIFAR-10およびMNISTデータセットの画像分類の有効性を示す。 最後に,TSSにおけるSMI関数の性能と,能動学習のような密接に関連する問題に対する最先端の手法を比較した。 SMI関数を用いて、ターゲットサブセットを追加して再トレーニングする前に、モデルの性能よりも約20-30%向上する。

With the rapid growth of data, it is becoming increasingly difficult to train or improve deep learning models with the right subset of data. We show that this problem can be effectively solved at an additional labeling cost by targeted data subset selection(TSS) where a subset of unlabeled data points similar to an auxiliary set are added to the training data. We do so by using a rich class of Submodular Mutual Information (SMI) functions and demonstrate its effectiveness for image classification on CIFAR-10 and MNIST datasets. Lastly, we compare the performance of SMI functions for TSS with other state-of-the-art methods for closely related problems like active learning. Using SMI functions, we observe ~20-30% gain over the model's performance before re-training with added targeted subset; ~12% more than other methods.
翻訳日:2021-05-04 14:19:02 公開日:2021-04-30
# セマンティクスセグメンテーション適応のための自己教師付き拡張一貫性

Self-supervised Augmentation Consistency for Adapting Semantic Segmentation ( http://arxiv.org/abs/2105.00097v1 )

ライセンス: Link先を確認
Nikita Araslanov and Stefan Roth(参考訳) 本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。 従来の研究とは対照的に、計算に係わる敵の目的、ネットワークアンサンブル、スタイル転送の使用は放棄する。 代わりに、標準的なデータ拡張技術$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、これらの画像変換におけるセマンティックな予測の一貫性を確保します。 我々は、この原則を、面倒な余分なトレーニングラウンドを必要とせずに、擬似ラベルを共進化させる軽量な自己教師型フレームワークで開発する。 実践者の立場から学ぶと,我々のアプローチは極めて効果的である。 適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。

We propose an approach to domain adaptation for semantic segmentation that is both practical and highly accurate. In contrast to previous work, we abandon the use of computationally involved adversarial objectives, network ensembles and style transfer. Instead, we employ standard data augmentation techniques $-$ photometric noise, flipping and scaling $-$ and ensure consistency of the semantic predictions across these image transformations. We develop this principle in a lightweight self-supervised framework trained on co-evolving pseudo labels without the need for cumbersome extra training rounds. Simple in training from a practitioner's standpoint, our approach is remarkably effective. We achieve significant improvements of the state-of-the-art segmentation accuracy after adaptation, consistent both across different choices of the backbone architecture and adaptation scenarios.
翻訳日:2021-05-04 14:18:47 公開日:2021-04-30
# リアルタイム深部畳み込みニューラルネットワークを用いた植込み型心臓ポンプのセンサレス制御システム

A Sensorless Control System for an Implantable Heart Pump using a Real-time Deep Convolutional Neural Network ( http://arxiv.org/abs/2105.00875v1 )

ライセンス: Link先を確認
Masoud Fetanat, Michael Stevens, Christopher Hayward and Nigel H. Lovell(参考訳) 左室補助装置(左室補助装置、LVAD)は、心臓不全(HF)患者を移植と治療の橋渡しとして使用できる機械式ポンプである。 LVADの速度を自動調整するためには、様々な臨床シナリオにおける患者の血行動態の変化に対応するために生理的制御システムを設計する必要がある。 これらの制御システムは、心臓血管系の圧力フィードバック信号を必要とする。 しかし、適切な長期植込み可能なセンサーは存在しない。 本研究では,lvadフローに基づく事前負荷推定のための,新しいリアルタイム深層畳み込みニューラルネットワーク(cnn)を提案する。 モデルフリー適応制御(FFDL-MFAC)のフルダイナミックフォームと,患者状態を安全な生理範囲で維持するためのプリロード推定器を用いて,LVADポンプのセンサレス適応型生理制御システムを開発した。 プレロード推定のためのcnnモデルは、100の異なる患者条件について10倍のクロス検証を行い、評価し、6つの異なる患者シナリオにまたがる30の患者条件の新しいテストセットで、センサレス制御システムを評価した。 提案したプレロード推定器は, 相関係数0.97, 根平均2乗誤差0.84 mmHg, 再現係数1.56 mmHg, 変動係数14.44 %, 試験データセットの偏差0.29 mmHgで極めて正確であった。 また, センサレス生理制御器は, 心室吸引や肺の混雑を防止するために, 測定前負荷を用いたLVADの生理的制御系と類似していることを示した。 本研究は, LVADが, 追加の圧力や流量測定を必要とせず, 患者状態や生理的要求に適切に対応できることを示唆する。

Left ventricular assist devices (LVADs) are mechanical pumps, which can be used to support heart failure (HF) patients as bridge to transplant and destination therapy. To automatically adjust the LVAD speed, a physiological control system needs to be designed to respond to variations of patient hemodynamics across a variety of clinical scenarios. These control systems require pressure feedback signals from the cardiovascular system. However, there are no suitable long-term implantable sensors available. In this study, a novel real-time deep convolutional neural network (CNN) for estimation of preload based on the LVAD flow was proposed. A new sensorless adaptive physiological control system for an LVAD pump was developed using the full dynamic form of model free adaptive control (FFDL-MFAC) and the proposed preload estimator to maintain the patient conditions in safe physiological ranges. The CNN model for preload estimation was trained and evaluated through 10-fold cross validation on 100 different patient conditions and the proposed sensorless control system was assessed on a new testing set of 30 different patient conditions across six different patient scenarios. The proposed preload estimator was extremely accurate with a correlation coefficient of 0.97, root mean squared error of 0.84 mmHg, reproducibility coefficient of 1.56 mmHg, coefficient of variation of 14.44 %, and bias of 0.29 mmHg for the testing dataset. The results also indicate that the proposed sensorless physiological controller works similarly to the preload-based physiological control system for LVAD using measured preload to prevent ventricular suction and pulmonary congestion. This study shows that the LVADs can respond appropriately to changing patient states and physiological demands without the need for additional pressure or flow measurements.
翻訳日:2021-05-04 14:14:17 公開日:2021-04-30
# 対話システムにおける基底性の評価:BEGINベンチマーク

Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark ( http://arxiv.org/abs/2105.00071v1 )

ライセンス: Link先を確認
Nouha Dziri, Hannah Rashkin, Tal Linzen, David Reitter(参考訳) 知識基底対話エージェントは、ウィキペディアページのような外部から提供された背景情報に基づいて会話を行うように設計されたシステムである。 このような対話エージェント、特にニューラルネットワーク言語モデルに基づくエージェントは、しばしば、流動的に聞こえるが背景情報によって正当化されない応答を生成する。 この問題への取り組みの進展には、背景情報にどの応答が基づいているかを定量化できる自動評価メトリクスの開発が必要である。 このような指標の評価を容易にするため,BEGIN (Benchmark for Evaluation of Grounded Interaction) を提案する。 beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。 これらのアノテーションは自然言語推論パラダイムの拡張に基づいている。 このベンチマークを用いて,既存の自然言語推論データセットに基づく評価基準の改善に,逆生成データの有効性を示す。

Knowledge-grounded dialogue agents are systems designed to conduct a conversation based on externally provided background information, such as a Wikipedia page. Such dialogue agents, especially those based on neural network language models, often produce responses that sound fluent but are not justified by the background information. Progress towards addressing this problem requires developing automatic evaluation metrics that can quantify the extent to which responses are grounded in background information. To facilitate evaluation of such metrics, we introduce the Benchmark for Evaluation of Grounded INteraction (BEGIN). BEGIN consists of 8113 dialogue turns generated by language-model-based dialogue systems, accompanied by humans annotations specifying the relationship between the system's response and the background information. These annotations are based on an extension of the natural language inference paradigm. We use the benchmark to demonstrate the effectiveness of adversarially generated data for improving an evaluation metric based on existing natural language inference datasets.
翻訳日:2021-05-04 14:08:53 公開日:2021-04-30
# オープンドメイン対話システムにおける後方推論による応答品質の向上

Improving Response Quality with Backward Reasoning in Open-domain Dialogue Systems ( http://arxiv.org/abs/2105.00079v1 )

ライセンス: Link先を確認
Ziming Li, Julia Kiseleva, Maarten de Rijke(参考訳) 情報とコヒーレントな対話応答を生成できることは、人間のようなオープンドメイン対話システムを設計する上で重要である。 エンコーダ-デコーダベースの対話モデルは、最も予測可能な応答が最も適切な応答ではなく非インフォーマティブ応答である可能性が高いため、デコードステップ中に汎用的かつ鈍い応答を生成する傾向がある。 この問題を軽減するために,バニラエンコーダデコーダトレーニングに後方推論ステップを追加することにより,生成モデルを双方向にトレーニングすることを提案する。 提案した後進推論ステップは、前進生成ステップの出力を使用して、後進方向の対話コンテキストを推論するため、より情報的で一貫性のあるコンテンツを生成するためにモデルをプッシュする。 提案手法の利点は,双方向最適化を容易にするために潜在変数を用いることで,前向きと後向きの推論ステップを同時に訓練することである。 副次的な情報(事前学習したトピックモデルなど)を導入することなく応答品質を向上させることができる。 提案する双方向応答生成手法は,応答品質の最先端性能を実現する。

Being able to generate informative and coherent dialogue responses is crucial when designing human-like open-domain dialogue systems. Encoder-decoder-base d dialogue models tend to produce generic and dull responses during the decoding step because the most predictable response is likely to be a non-informative response instead of the most suitable one. To alleviate this problem, we propose to train the generation model in a bidirectional manner by adding a backward reasoning step to the vanilla encoder-decoder training. The proposed backward reasoning step pushes the model to produce more informative and coherent content because the forward generation step's output is used to infer the dialogue context in the backward direction. The advantage of our method is that the forward generation and backward reasoning steps are trained simultaneously through the use of a latent variable to facilitate bidirectional optimization. Our method can improve response quality without introducing side information (e.g., a pre-trained topic model). The proposed bidirectional response generation method achieves state-of-the-art performance for response quality.
翻訳日:2021-05-04 14:08:38 公開日:2021-04-30
# 自己推定残留年齢埋め込みによる連続顔の老化

Continuous Face Aging via Self-estimated Residual Age Embedding ( http://arxiv.org/abs/2105.00020v1 )

ライセンス: Link先を確認
Zeqi Li, Ruowei Jiang and Parham Aarabi(参考訳) 特に顔の老化を含む顔合成は、生成的敵ネットワーク(gans)を用いて画像の忠実性が大幅に向上した主要な話題の1つである。 既存の顔の老化アプローチのほとんどは、データセットをいくつかの年齢グループに分割し、グループベースのトレーニング戦略を活用する。 本研究では,ganベースのモデルに線形年齢推定器を組み込んだ統一ネットワーク構造を提案し,エンコーダとデコーダと共同で組み込み年齢推定器を訓練し,顔画像の年齢を推定し,年齢進行/回帰のためのパーソナライズされたターゲット年齢推定器を提供する。 対象年齢のパーソナライズされた残余年齢埋め込みと、前回の老化ベースがリニア年齢推定器の学習重みから導出される目標年齢の模造顔老化ベースとを組み込んで、パーソナライズされた目標年齢埋め込みを合成する。 この定式化は、年齢を推定し、パーソナライズされた年齢の顔を生成するという統一的な視点をもたらす。 異なるデータセットに対する質的および定量的な評価は、最先端技術に対する継続的な顔の老化面の顕著な改善を示す。

Face synthesis, including face aging, in particular, has been one of the major topics that witnessed a substantial improvement in image fidelity by using generative adversarial networks (GANs). Most existing face aging approaches divide the dataset into several age groups and leverage group-based training strategies, which lacks the ability to provide fine-controlled continuous aging synthesis in nature. In this work, we propose a unified network structure that embeds a linear age estimator into a GAN-based model, where the embedded age estimator is trained jointly with the encoder and decoder to estimate the age of a face image and provide a personalized target age embedding for age progression/regressi on. The personalized target age embedding is synthesized by incorporating both personalized residual age embedding of the current age and exemplar-face aging basis of the target age, where all preceding aging bases are derived from the learned weights of the linear age estimator. This formulation brings the unified perspective of estimating the age and generating personalized aged face, where self-estimated age embeddings can be learned for every single age. The qualitative and quantitative evaluations on different datasets further demonstrate the significant improvement in the continuous face aging aspect over the state-of-the-art.
翻訳日:2021-05-04 14:06:37 公開日:2021-04-30
# 複合活動におけるサブアクション学習のための教師なし判別埋め込み

Unsupervised Discriminative Embedding for Sub-Action Learning in Complex Activities ( http://arxiv.org/abs/2105.00067v1 )

ライセンス: Link先を確認
Sirnam Swetha, Hilde Kuehne, Yogesh S Rawat, Mubarak Shah(参考訳) 長いビデオシーケンスの文脈における行動認識と検出は、研究コミュニティから注目を集めている。 しかし、複雑なアクティビティのアノテーションは通常、時間を使い、実際に挑戦する。 そこで,近年,複合活動におけるサブアクションの教師なし学習の問題に取り組み始めた。 本稿では,複雑な活動における教師なしサブアクション学習のための新しいアプローチを提案する。 提案手法は,視覚表現と時間表現の両方を,エンド・ツー・エンドの方法で識別的に学習する潜在空間にマップする。 そこで本研究では,潜在概念としてのサブアクションを学習し,新たな識別潜在概念学習(DLCL)モジュールがサブアクションの学習を支援することを提案する。 提案したDLCLモジュールは、潜在埋め込み空間におけるコンパクト表現を教師なしの方法で学習する潜在概念のアイデアに頼っている。 その結果は、埋め込み空間におけるクラスター中心として解釈できる潜在ベクトルの集合である。 潜在空間自体は、データの視覚的類似性と時間的順序をキャプチャする共同視覚および時間的埋め込みによって形成される。 識別的潜在概念モジュールを用いた共同学習は,明示的なクラスタリングの必要性を排除した。 提案手法を3つのベンチマークデータセットで検証し,視覚-時空間埋め込みと識別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。

Action recognition and detection in the context of long untrimmed video sequences has seen an increased attention from the research community. However, annotation of complex activities is usually time consuming and challenging in practice. Therefore, recent works started to tackle the problem of unsupervised learning of sub-actions in complex activities. This paper proposes a novel approach for unsupervised sub-action learning in complex activities. The proposed method maps both visual and temporal representations to a latent space where the sub-actions are learnt discriminatively in an end-to-end fashion. To this end, we propose to learn sub-actions as latent concepts and a novel discriminative latent concept learning (DLCL) module aids in learning sub-actions. The proposed DLCL module lends on the idea of latent concepts to learn compact representations in the latent embedding space in an unsupervised way. The result is a set of latent vectors that can be interpreted as cluster centers in the embedding space. The latent space itself is formed by a joint visual and temporal embedding capturing the visual similarity and temporal ordering of the data. Our joint learning with discriminative latent concept module is novel which eliminates the need for explicit clustering. We validate our approach on three benchmark datasets and show that the proposed combination of visual-temporal embedding and discriminative latent concepts allow to learn robust action representations in an unsupervised setting.
翻訳日:2021-05-04 14:06:13 公開日:2021-04-30
# 選択フレームのセマンティックセグメンテーションによるリアルタイム単眼SLAMの改善

Improved Real-Time Monocular SLAM Using Semantic Segmentation on Selective Frames ( http://arxiv.org/abs/2105.00114v1 )

ライセンス: Link先を確認
Jinkyu Lee, Muhyun Back, Sung Soo Hwang and Il Yong Chun(参考訳) 1台のカメラが安価で簡単にインストールできるため、先進的な運転支援システムや自動運転システムでは単眼同時ローカライズ・マッピング(slam)が登場している。 従来の単細胞スラムは、不正確な局在化とマッピングの2つの大きな課題がある。 まず、ローカライゼーションとマッピングのスケールを見積もることは困難である。 第二に、従来の単分子SLAMはマッピングにおいて動的対象や低パララックス等不適切なマッピング因子を用いる。 本稿では,ディープラーニングに基づくセマンティクスセグメンテーションを効率的に利用することにより,上記課題を解決するためのリアルタイム単眼スラムの改良を提案する。 提案手法のリアルタイム実行を実現するために,ダウンサンプリングされたキーフレームに対してのみ,マッピングプロセスと並行して意味セグメンテーションを適用する。 さらに,道路標識3D点と実カメラの高さから推定した地上面を用いて,カメラポーズと3次元3D点のスケールを補正する手法を提案する。 提案手法は,移動物体および低パララックス領域とラベル付けされた不適切なコーナー特徴を除去する。 6種類のビデオシーケンスを用いた実験により,提案方式は,最先端のモノクロスラムに比べて精度が向上し,最新のステレオスラムと比較して同等の追跡精度が得られた。

Monocular simultaneous localization and mapping (SLAM) is emerging in advanced driver assistance systems and autonomous driving, because a single camera is cheap and easy to install. Conventional monocular SLAM has two major challenges leading inaccurate localization and mapping. First, it is challenging to estimate scales in localization and mapping. Second, conventional monocular SLAM uses inappropriate mapping factors such as dynamic objects and low-parallax ares in mapping. This paper proposes an improved real-time monocular SLAM that resolves the aforementioned challenges by efficiently using deep learning-based semantic segmentation. To achieve the real-time execution of the proposed method, we apply semantic segmentation only to downsampled keyframes in parallel with mapping processes. In addition, the proposed method corrects scales of camera poses and three-dimensional (3D) points, using estimated ground plane from road-labeled 3D points and the real camera height. The proposed method also removes inappropriate corner features labeled as moving objects and low parallax areas. Experiments with six video sequences demonstrate that the proposed monocular SLAM system achieves significantly more accurate trajectory tracking accuracy compared to state-of-the-art monocular SLAM and comparable trajectory tracking accuracy compared to state-of-the-art stereo SLAM.
翻訳日:2021-05-04 14:05:53 公開日:2021-04-30
# 感情コンピューティングのためのカプセルによる脳波表現の蒸留

Distilling EEG Representations via Capsules for Affective Computing ( http://arxiv.org/abs/2105.00104v1 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) 脳波(EEG)による影響計算は、大規模な脳波信号に含まれる情報を効果的に学習するために煩雑なモデルを必要とする課題である。 本稿では, カプセル型アーキテクチャを用いて脳波表現を抽出し, 分類および回帰処理を行う新しい知識蒸留パイプラインを提案する。 我々の目標は、重モデルから主観的なタスクのための軽量モデルへの情報を抽出することです。 この目的のために、我々はまず、多数のトレーニングサンプル上で大きなモデル(教師ネットワーク)を事前訓練する。 そこで我々は,教師ネットワークを用いて,教師の特権知識を模倣する軽量モデル(学生ネットワーク)を採用することにより,カプセルに埋め込まれた差別的特徴を学習する。 教師が学んだ特権情報にはカプセル間の類似性が含まれており、学生ネットワークのトレーニング段階でのみ利用できる。 提案したアーキテクチャを2つの大規模パブリックEEGデータセット上で評価し,限られたトレーニングサンプルが提供されても,異なる圧縮比の学生ネットワークが教師から効果的に学習できることを示す。 最後に,本手法は2つのデータセットのうちの1つについて最先端の結果を得る。

Affective computing with Electroencephalogram (EEG) is a challenging task that requires cumbersome models to effectively learn the information contained in large-scale EEG signals, causing difficulties for real-time smart-device deployment. In this paper, we propose a novel knowledge distillation pipeline to distill EEG representations via capsule-based architectures for both classification and regression tasks. Our goal is to distill information from a heavy model to a lightweight model for subject-specific tasks. To this end, we first pre-train a large model (teacher network) on large number of training samples. Then, we employ the teacher network to learn the discriminative features embedded in capsules by adopting a lightweight model (student network) to mimic the teacher using the privileged knowledge. Such privileged information learned by the teacher contain similarities among capsules and are only available during the training stage of the student network. We evaluate the proposed architecture on two large-scale public EEG datasets, showing that our framework consistently enables student networks with different compression ratios to effectively learn from the teacher, even when provided with limited training samples. Lastly, our method achieves state-of-the-art results on one of the two datasets.
翻訳日:2021-05-04 13:58:08 公開日:2021-04-30
# positnn:低精度ポジットを混合したディープニューラルネットワークのトレーニング

PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit ( http://arxiv.org/abs/2105.00053v1 )

ライセンス: Link先を確認
Gon\c{c}alo Raposo and Pedro Tom\'as and Nuno Roma(参考訳) 低精度フォーマットは、メモリフットプリントだけでなく、ハードウェアリソースやディープラーニング計算の消費電力を削減する効率的な方法であることが証明されている。 この前提の下では、ポジットの数値形式はIEEE浮動小数点の代用として非常に有効なようだが、ニューラルネットワークトレーニングへの応用にはさらなる研究が必要である。 予備的な結果は、モデル精度を維持しながら、8ビット(さらに小さい)ポジットを推論と16ビットのトレーニングに使用できることを示している。 本研究の目的は, ポジットを用いた深部畳み込みニューラルネットワークの訓練の可能性を評価することである。 このような目的のために、ソフトウェアフレームワークは、エンドツーエンドのトレーニングと推論において、シミュレーションされたポジトリとクイアを使用するように開発された。 この実装では、様々な段階における異なる精度要件に適したビットサイズ、構成、および混合精度が利用可能である。 その結果, 8ビットポジットはトレーニング中に32ビットフロートを置換でき, 損失や精度に悪影響を及ぼさないことが示唆された。

Low-precision formats have proven to be an efficient way to reduce not only the memory footprint but also the hardware resources and power consumption of deep learning computations. Under this premise, the posit numerical format appears to be a highly viable substitute for the IEEE floating-point, but its application to neural networks training still requires further research. Some preliminary results have shown that 8-bit (and even smaller) posits may be used for inference and 16-bit for training, while maintaining the model accuracy. The presented research aims to evaluate the feasibility to train deep convolutional neural networks using posits. For such purpose, a software framework was developed to use simulated posits and quires in end-to-end training and inference. This implementation allows using any bit size, configuration, and even mixed precision, suitable for different precision requirements in various stages. The obtained results suggest that 8-bit posits can substitute 32-bit floats during training with no negative impact on the resulting loss and accuracy.
翻訳日:2021-05-04 13:46:26 公開日:2021-04-30
# クラスアウェアネットワークルーティングのためのフローパケットハイブリッドトラフィック分類

Flow-Packet Hybrid Traffic Classification for Class-Aware Network Routing ( http://arxiv.org/abs/2105.00074v1 )

ライセンス: Link先を確認
Sayantan Chowdhury, Ben Liang, Ali Tizghadam, Ilijc Albanese(参考訳) 機械学習技術を用いたネットワークトラフィック分類は広く研究されている。 既存のほとんどのスキームは交通の流れ全体を分類しているが、実用性には大きな制限がある。 ネットワークルータでは、パケットを最小遅延で処理する必要があるため、分類器は決定を下すためにフローの終了まで待つことができない。 さらに、複雑な機械学習アルゴリズムは、ルータ内に実装するには計算コストが高すぎる可能性がある。 本稿では,ルータの外部に存在するフローベース分類器から学習知識を転送することで設計されたルーティングポリシに基づいて,ルータがパケット毎に決定するフローパケットハイブリッドトラフィック分類(FPHTC)を紹介する。 我々はfphtcの一般化境界を分析し,通常のパケットベースのトラフィック分類よりもその利点を示す。 FPHTCの分類性能を示すために,実世界のトラフィックデータセットを用いた実験結果を示す。 トラフィックパターンの変更に対して堅牢であり、限られた計算リソースでデプロイできることを示す。

Network traffic classification using machine learning techniques has been widely studied. Most existing schemes classify entire traffic flows, but there are major limitations to their practicality. At a network router, the packets need to be processed with minimum delay, so the classifier cannot wait until the end of the flow to make a decision. Furthermore, a complicated machine learning algorithm can be too computationally expensive to implement inside the router. In this paper, we introduce flow-packet hybrid traffic classification (FPHTC), where the router makes a decision per packet based on a routing policy that is designed through transferring the learned knowledge from a flow-based classifier residing outside the router. We analyze the generalization bound of FPHTC and show its advantage over regular packet-based traffic classification. We present experimental results using a real-world traffic dataset to illustrate the classification performance of FPHTC. We show that it is robust toward traffic pattern changes and can be deployed with limited computational resource.
翻訳日:2021-05-04 13:46:05 公開日:2021-04-30
# 低メモリ次元縮小のためのテンソルランダム投影

Tensor Random Projection for Low Memory Dimension Reduction ( http://arxiv.org/abs/2105.00105v1 )

ライセンス: Link先を確認
Yiming Sun and Yang Guo and Joel A. Tropp and Madeleine Udell(参考訳) ランダム射影は、集合内のベクトル間の距離のような構造情報を保持しながら、ベクトルの集合の次元を減少させる。 本稿では, ランダムプロジェクションにおける行生成ランダム行列の新たな利用法を提案し, これをテンソルランダムプロジェクション(TRP)と呼ぶ。 既存の次元縮小写像よりも大幅に少ないメモリを必要とする。 trp マップは、いくつかの小さなランダム射影の khatri-rao 積として形成され、スパースマップを含む任意の基底ランダム射影と互換性があり、非常に低いクエリコストで浮動小数点演算を不要にできる。 また,分散拡張の低減も実現している。 本稿では,TRPのバイアスと分散の理論的解析と,より小さな2つの地図からなるTRPに対する非漸近誤差解析について述べる。 合成MNISTデータとMNISTデータの両方を用いた実験により,本手法は従来手法と同様に,保存量を大幅に削減した。

Random projections reduce the dimension of a set of vectors while preserving structural information, such as distances between vectors in the set. This paper proposes a novel use of row-product random matrices in random projection, where we call it Tensor Random Projection (TRP). It requires substantially less memory than existing dimension reduction maps. The TRP map is formed as the Khatri-Rao product of several smaller random projections, and is compatible with any base random projection including sparse maps, which enable dimension reduction with very low query cost and no floating point operations. We also develop a reduced variance extension. We provide a theoretical analysis of the bias and variance of the TRP, and a non-asymptotic error analysis for a TRP composed of two smaller maps. Experiments on both synthetic and MNIST data show that our method performs as well as conventional methods with substantially less storage.
翻訳日:2021-05-04 13:37:49 公開日:2021-04-30
# 無線ネットワークを用いた連合学習のための収束解析とシステム設計

Convergence Analysis and System Design for Federated Learning over Wireless Networks ( http://arxiv.org/abs/2105.00872v1 )

ライセンス: Link先を確認
Shuo Wan, Jiaxun Lu, Pingyi Fan, Yunfeng Shao, Chenghui Peng and Khaled B. letaief(参考訳) フェデレートラーニング(FL)は、IoTにおいて重要かつ有望な学習スキームとして最近登場し、デバイスが生データセットを共有することなく、共同でモデルを学習できるようにする。 しかし、FLのトレーニングデータは集中的に収集・保存されないため、FLトレーニングには頻繁なモデル交換が必要であり、無線通信ネットワークに大きく影響される。 制限された帯域幅とランダムなパッケージロスは、トレーニングにおけるインタラクションを制限する。 一方、分散クライアント間のメッセージ同期不足はFL収束に影響を与える可能性がある。 本稿では,通信ネットワークとトレーニング設定の協調的影響を考慮したFLトレーニングの収束率について分析する。 さらに、時間と電力の観点からのトレーニングコストを考慮し、通信ネットワークの最適スケジューリング問題を定式化する。 開発した理論結果は,システムのパラメータ選択を支援し,無線通信システムが分散トレーニングプロセスやネットワークスケジューリングにどのように影響を与えるのかを説明するのに利用できる。

Federated learning (FL) has recently emerged as an important and promising learning scheme in IoT, enabling devices to jointly learn a model without sharing their raw data sets. However, as the training data in FL is not collected and stored centrally, FL training requires frequent model exchange, which is largely affected by the wireless communication network. Therein, limited bandwidth and random package loss restrict interactions in training. Meanwhile, the insufficient message synchronization among distributed clients could also affect FL convergence. In this paper, we analyze the convergence rate of FL training considering the joint impact of communication network and training settings. Further by considering the training costs in terms of time and power, the optimal scheduling problems for communication networks are formulated. The developed theoretical results can be used to assist the system parameter selections and explain the principle of how the wireless communication system could influence the distributed training process and network scheduling.
翻訳日:2021-05-04 13:35:18 公開日:2021-04-30
# 力学問題における一般化性向上のための物理学に基づく損失関数のニューラルネットワークへの応用

Applying physics-based loss functions to neural networks for improved generalizability in mechanics problems ( http://arxiv.org/abs/2105.00075v1 )

ライセンス: Link先を確認
Samuel J. Raymond and David B. Camarillo(参考訳) 物理インフォームド・機械学習(PIML)は過去5年間で勢いを増し、科学者や研究者は機械学習、特にディープラーニングの進歩によって得られる利益を活用することを目指している。 豊かな時空間データと大量のデータを推論・解釈するための高性能コンピューティングを備えた大規模科学データセットにより、PIMLの課題は、これらの予測、分類、推論が物理法則によって強制され、課せられる制限に従うことを保証することである。 本稿では,物理学に基づく損失関数の利用を扱うPIMLの新たな利用法について論じる。 損失関数における物理方程式の典型的利用は、既知の支配方程式が満たされることを保証するために、微分やその他の関数の複雑な層を必要とするが、ここでは、特定の種類の出力データに対してより単純な損失関数を実装することによって、同様のレベルの強制を見出している。 このアプローチが持つ一般化性は、幅広い問題に対して十分に単純化された代理モデルと考えることができる単純な機械モデルの例を用いて示される。

Physics-Informed Machine Learning (PIML) has gained momentum in the last 5 years with scientists and researchers aiming to utilize the benefits afforded by advances in machine learning, particularly in deep learning. With large scientific data sets with rich spatio-temporal data and high-performance computing providing large amounts of data to be inferred and interpreted, the task of PIML is to ensure that these predictions, categorizations, and inferences are enforced by, and conform to the limits imposed by physical laws. In this work a new approach to utilizing PIML is discussed that deals with the use of physics-based loss functions. While typical usage of physical equations in the loss function requires complex layers of derivatives and other functions to ensure that the known governing equation is satisfied, here we show that a similar level of enforcement can be found by implementing more simpler loss functions on specific kinds of output data. The generalizability that this approach affords is shown using examples of simple mechanical models that can be thought of as sufficiently simplified surrogate models for a wide class of problems.
翻訳日:2021-05-04 13:34:36 公開日:2021-04-30
# いかにして(ノン)最適なレキシコンか?

How (Non-)Optimal is the Lexicon? ( http://arxiv.org/abs/2104.14279v2 )

ライセンス: Link先を確認
Tiago Pimentel, Irene Nikkarinen, Kyle Mahowald, Ryan Cotterell, Dami\'an Blasi(参考訳) 単語形式への語彙的意味のマッピングは自然言語の主要な特徴である。 使用圧は短い単語を頻繁な意味(Zipfの省略法則)に割り当てるが、生産的でオープンな語彙の必要性、記号列の局所的な制約、その他の様々な要因は、すべて世界の言語の語彙を形成する。 語彙構造の形成におけるそれらの重要性にもかかわらず、これらの要因の相対的貢献は完全に定量化されていない。 本稿では,レキシコンの符号化理論的視点と新しい生成統計モデルを用いて,様々な制約の下でレキシコンの圧縮性に関する上限を定義する。 7つの類型的多様言語からコーパスを抽出し、これらの上限を用いてレキシコンの最適性を定量化し、自然符号に対する大きな制約の相対コストを探索する。 コードの長さによって測られるように、(構成的な)形態学とグラフ戦術は、自然なコードの複雑さの大部分を十分に説明できる。

The mapping of lexical meanings to wordforms is a major feature of natural languages. While usage pressures might assign short words to frequent meanings (Zipf's law of abbreviation), the need for a productive and open-ended vocabulary, local constraints on sequences of symbols, and various other factors all shape the lexicons of the world's languages. Despite their importance in shaping lexical structure, the relative contributions of these factors have not been fully quantified. Taking a coding-theoretic view of the lexicon and making use of a novel generative statistical model, we define upper bounds for the compressibility of the lexicon under various constraints. Examining corpora from 7 typologically diverse languages, we use those upper bounds to quantify the lexicon's optimality and to explore the relative costs of major constraints on natural codes. We find that (compositional) morphology and graphotactics can sufficiently account for most of the complexity of natural codes -- as measured by code length.
翻訳日:2021-05-04 09:27:11 公開日:2021-04-30
# 話者認識における公平性向上

Improving Fairness in Speaker Recognition ( http://arxiv.org/abs/2104.14067v2 )

ライセンス: Link先を確認
Gianni Fenu, Giacomo Medda, Mirko Marras, and Giacomo Meloni(参考訳) 人間の声は個人の独特な特徴を伝達し、音声バイオメトリックスは様々な産業におけるアイデンティティを検証する重要な技術となる。 話者認識システムの正確性という印象的な進歩にもかかわらず、多くの倫理的・法的懸念、特にその公平性に関する懸念が提起されている。 本稿では,現在最先端のディープスピーカー認識システムによって達成されている性能の相違について,共通感性属性(例えば,性別)を特徴とする個人集団について検討する。 探索研究によって得られた不公平さを緩和するために,学習セットにおける異なる集団の表現のバランスをとることが,これらの集団集団のより平等な扱いにつながるかどうかを検討する。 2つの最先端ニューラルアーキテクチャと大規模パブリックデータセットの実験により、人口統計学的にバランスのとれたトレーニングセットでトレーニングされたモデルが異なるグループに対して公正な行動を示すことが示されている。 本研究は,話者認識における超精度目標(例えば,公正性)の具体的基礎を提供するものと期待されている。

The human voice conveys unique characteristics of an individual, making voice biometrics a key technology for verifying identities in various industries. Despite the impressive progress of speaker recognition systems in terms of accuracy, a number of ethical and legal concerns has been raised, specifically relating to the fairness of such systems. In this paper, we aim to explore the disparity in performance achieved by state-of-the-art deep speaker recognition systems, when different groups of individuals characterized by a common sensitive attribute (e.g., gender) are considered. In order to mitigate the unfairness we uncovered by means of an exploratory study, we investigate whether balancing the representation of the different groups of individuals in the training set can lead to a more equal treatment of these demographic groups. Experiments on two state-of-the-art neural architectures and a large-scale public dataset show that models trained with demographically-bala nced training sets exhibit a fairer behavior on different groups, while still being accurate. Our study is expected to provide a solid basis for instilling beyond-accuracy objectives (e.g., fairness) in speaker recognition.
翻訳日:2021-05-04 09:26:55 公開日:2021-04-30
# (参考訳) 暴力的な死の物語を処理するためのコリファレンスレゾリューションの適用 [全文訳有]

Adapting Coreference Resolution for Processing Violent Death Narratives ( http://arxiv.org/abs/2104.14703v1 )

ライセンス: CC BY 4.0
Ankith Uppunda, Susan D. Cochran, Jacob G. Foster, Alina Arseniev-Koehler, Vickie M. Mays, Kai-Wei Chang(参考訳) コリファレンスレゾリューションは、行政データ(例えば、臨床や警察の情報源)からナラティブテキストを分析する上で重要な要素である。 しかし、一般言語コーポラで訓練された既存のコリファレンスモデルは、特にレズビアン、ゲイ、バイセクシュアル、トランスジェンダー(lgbt)の個人による性差データに適用された場合、ドメイン間ギャップによる転送性に乏しい。 本稿では,米国疾病予防管理センター(CDC)全国暴力死亡報告システム(CDC)の暴力的死亡談話を英語で記述した例の行政文書におけるコアスペクション解決の課題について分析した。 確率的データプログラミングフレームワークを用いて,モデル性能を向上させるためのデータ拡張規則を開発した。 行政データベースからのナラティブに関する実験や、既存のジェンダー排他的コリファレンスデータセットは、lgbt個人に関するテキストデータをよりうまく処理できるコリファレンスモデルのトレーニングにおけるデータ拡張の有効性を示しています。

Coreference resolution is an important component in analyzing narrative text from administrative data (e.g., clinical or police sources). However, existing coreference models trained on general language corpora suffer from poor transferability due to domain gaps, especially when they are applied to gender-inclusive data with lesbian, gay, bisexual, and transgender (LGBT) individuals. In this paper, we analyzed the challenges of coreference resolution in an exemplary form of administrative text written in English: violent death narratives from the USA's Centers for Disease Control's (CDC) National Violent Death Reporting System. We developed a set of data augmentation rules to improve model performance using a probabilistic data programming framework. Experiments on narratives from an administrative database, as well as existing gender-inclusive coreference datasets, demonstrate the effectiveness of data augmentation in training coreference models that can better handle text data about LGBT individuals.
翻訳日:2021-05-04 02:12:59 公開日:2021-04-30
# (参考訳) 注意に基づく画像キャプション [全文訳有]

End-to-End Attention-based Image Captioning ( http://arxiv.org/abs/2104.14721v1 )

ライセンス: CC BY 4.0
Carola Sundaramoorthy, Lin Ziwen Kelvin, Mahak Sarin, Shubham Gupta(参考訳) 本稿では,特定の分子構造に対してinchi形式の化学記法が予測される場合,特に分子翻訳のための画像キャプションの問題に対処する。 現在のアプローチは主にルールベースまたはCNN+RNNベースの方法論に従っている。 しかし、ノイズの多い画像や少数の特徴を持つ画像では性能が劣っているようである。 そこで本研究では,エンドツーエンドトランスモデルを提案する。 注意に基づく手法と比較すると,提案手法は分子データセットよりも優れている。

In this paper, we address the problem of image captioning specifically for molecular translation where the result would be a predicted chemical notation in InChI format for a given molecular structure. Current approaches mainly follow rule-based or CNN+RNN based methodology. However, they seem to underperform on noisy images and images with small number of distinguishable features. To overcome this, we propose an end-to-end transformer model. When compared to attention-based techniques, our proposed model outperforms on molecular datasets.
翻訳日:2021-05-04 02:04:56 公開日:2021-04-30
# (参考訳) mood: 多レベル分散検出 [全文訳有]

MOOD: Multi-level Out-of-distribution Detection ( http://arxiv.org/abs/2104.14726v1 )

ライセンス: CC BY 4.0
Ziqian Lin, Sreya Dutta Roy, Yixuan Li(参考訳) out-of-distribution (ood) 検出は、異常な入力がデプロイ中にモデルが失敗するのを防ぐために不可欠である。 改良されたOOD検出手法が登場したが、最終的な層出力に依存し、任意の入力に対して完全なフィードフォワードパスを必要とすることが多い。 本稿では,動的かつ効率的なOOD推論のための中間分類器出力を利用する,新しいフレームワークであるマルチレベルアウトオブディストリビューション検出MOODを提案する。 我々は,OODデータ複雑性と最適出口レベルの直接的な関係を探求し,より深い層に伝播することなく,簡単なOODサンプルを早期に検出できることを示す。 各出口において、OODの例は、複数の分類器を持つネットワークに経験的かつ理論的に適合する調整エネルギースコアによって区別することができる。 幅広い複雑さにまたがる10個のOODデータセットにまたがるMOODを広範囲に評価した。 実験により, MOODは, 競合OOD検出性能を維持しながら, 71.05%の計算量削減を実現していることが示された。

Out-of-distribution (OOD) detection is essential to prevent anomalous inputs from causing a model to fail during deployment. While improved OOD detection methods have emerged, they often rely on the final layer outputs and require a full feedforward pass for any given input. In this paper, we propose a novel framework, multi-level out-of-distribution detection MOOD, which exploits intermediate classifier outputs for dynamic and efficient OOD inference. We explore and establish a direct relationship between the OOD data complexity and optimal exit level, and show that easy OOD examples can be effectively detected early without propagating to deeper layers. At each exit, the OOD examples can be distinguished through our proposed adjusted energy score, which is both empirically and theoretically suitable for networks with multiple classifiers. We extensively evaluate MOOD across 10 OOD datasets spanning a wide range of complexities. Experiments demonstrate that MOOD achieves up to 71.05% computational reduction in inference, while maintaining competitive OOD detection performance.
翻訳日:2021-05-04 01:56:55 公開日:2021-04-30
# (参考訳) CoSformer: トランスフォーマーによるCo-Salientオブジェクトの検出 [全文訳有]

CoSformer: Detecting Co-Salient Object with Transformers ( http://arxiv.org/abs/2104.14729v1 )

ライセンス: CC0 1.0
Lv Tang(参考訳) Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連画像群から共通かつ健全な物体を発見することを目的としている。 近年,高度な深層学習モデルの開発により,CoSODタスクの性能が大幅に向上した。 しかし,2つの大きな欠点は,1) 画像間関係モデリング,2) 画像間セパビリティの考慮が欠如している点である。 本稿では,複数画像から有意・共通的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。 Transformer アーキテクチャを利用することで,提案手法は入力順序の影響に対処し,CoSOD タスクの安定性を大幅に向上する。 また,画像間分離性という新しい概念を提案する。 画像間の分離性をモデル化するコントラスト学習手法を構築し、より識別的な埋め込み空間を学習し、真の共通オブジェクトとノイズのあるオブジェクトを区別する。 CoCA、CoSOD3k、Cosal2015の3つの挑戦的なベンチマークに関する大規模な実験は、CoSformerが最先端モデルより優れ、新しい最先端モデルを達成することを示した。 CoSformerが将来の研究を動機付け、よりビジュアルなコアナリシスタスクを実現できることを期待しています。

Co-Salient Object Detection (CoSOD) aims at simulating the human visual system to discover the common and salient objects from a group of relevant images. Recent methods typically develop sophisticated deep learning based models have greatly improved the performance of CoSOD task. But there are still two major drawbacks that need to be further addressed, 1) sub-optimal inter-image relationship modeling; 2) lacking consideration of inter-image separability. In this paper, we propose the Co-Salient Object Detection Transformer (CoSformer) network to capture both salient and common visual patterns from multiple images. By leveraging Transformer architecture, the proposed method address the influence of the input orders and greatly improve the stability of the CoSOD task. We also introduce a novel concept of inter-image separability. We construct a contrast learning scheme to modeling the inter-image separability and learn more discriminative embedding space to distinguish true common objects from noisy objects. Extensive experiments on three challenging benchmarks, i.e., CoCA, CoSOD3k, and Cosal2015, demonstrate that our CoSformer outperforms cutting-edge models and achieves the new state-of-the-art. We hope that CoSformer can motivate future research for more visual co-analysis tasks.
翻訳日:2021-05-04 01:38:55 公開日:2021-04-30
# (参考訳) fda:fourier domain adaptation forsemantic segmentationの再現性 [全文訳有]

Reproducibility of "FDA: Fourier Domain Adaptation forSemantic Segmentation ( http://arxiv.org/abs/2104.14749v1 )

ライセンス: CC BY 4.0
Arnesh Kumar Issar, Kirtan Mali, Aryan Mehta, Karan Uppal, Saurabh Mishra, Debashish Chakravarty(参考訳) 次の論文は、ml再現性チャレンジ2020の一部としてcvpr 2020で発表された"fda: fourier domain adapt for semantic segmentation"の再現性レポートである。 オリジナルのコードは著者によって利用可能になった。 WANDBと統合された元のコードから派生した全てのアブレーション研究を含むコードは、<github.com/thefatban dit/FDA>で利用可能であり、READMEで実験を行うための適切な指示がある。

The following paper is a reproducibility report for "FDA: Fourier Domain Adaptation for Semantic Segmentation" published in the CVPR 2020 as part of the ML Reproducibility Challenge 2020. The original code was made available by the author. The well-commented version of the code containing all ablation studies performed derived from the original code along with WANDB integration is available at <github.com/thefatban dit/FDA> with proper instructions to execute experiments in README.
翻訳日:2021-05-04 01:19:24 公開日:2021-04-30
# (参考訳) StyleMapGAN:リアルタイム画像編集のためのGANにおける潜時空間次元の爆発 [全文訳有]

StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing ( http://arxiv.org/abs/2104.14754v1 )

ライセンス: CC BY 4.0
Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, Youngjung Uh(参考訳) generative adversarial networks (gans) はランダムな潜在ベクトルから現実的な画像を合成する。 潜時ベクトルの操作は合成された出力を制御するが、実画像をGANで編集することは、実画像を潜時ベクトルに投影するための時間のかかる最適化、すなわちエンコーダによる不正確な埋め込みに苦しむ。 そこで我々はStyleMapGANを提案する: 中間潜伏空間は空間次元を持ち、空間変動変調はAdaINに取って代わる。 エンコーダによる埋め込みは、ganの特性を維持しつつ、既存の最適化ベースのメソッドよりも正確である。 実験の結果, 局所編集や画像補間などの様々な画像操作タスクにおいて, 本手法が最先端モデルを大幅に上回ることがわかった。 最後に、GANの従来の編集方法は、StyleMapGANでまだ有効です。 ソースコードはhttps://github.com/n aver-ai/stylemapganで入手できる。

Generative adversarial networks (GANs) synthesize realistic images from random latent vectors. Although manipulating the latent vectors controls the synthesized outputs, editing real images with GANs suffers from i) time-consuming optimization for projecting real images to the latent vectors, ii) or inaccurate embedding through an encoder. We propose StyleMapGAN: the intermediate latent space has spatial dimensions, and a spatially variant modulation replaces AdaIN. It makes the embedding through an encoder more accurate than existing optimization-based methods while maintaining the properties of GANs. Experimental results demonstrate that our method significantly outperforms state-of-the-art models in various image manipulation tasks such as local editing and image interpolation. Last but not least, conventional editing methods on GANs are still valid on our StyleMapGAN. Source code is available at https://github.com/n aver-ai/StyleMapGAN.
翻訳日:2021-05-04 01:02:57 公開日:2021-04-30
# (参考訳) GM-MLIC:グラフマッチングに基づくマルチラベル画像分類 [全文訳有]

GM-MLIC: Graph Matching based Multi-Label Image Classification ( http://arxiv.org/abs/2104.14762v1 )

ライセンス: CC BY 4.0
Yanan Wu, He Liu, Songhe Feng, Yi Jin, Gengyu Lyu, Zizhang Wu(参考訳) マルチラベル画像分類(MLIC)は、画像に存在するラベルの集合を予測することを目的としている。 このような問題に対処する鍵は、画像の内容とラベルの関連を掘り起こし、さらに画像とラベルの間の正しい割り当てを得ることである。 本稿では,各画像をインスタンスの袋として扱い,mlicのタスクをインスタンスラベルマッチング選択問題として再構成する。 このような問題をモデル化するために,グラフマッチングに基づくマルチラベル画像分類(GM-MLIC)と呼ばれる新しいディープラーニングフレームワークを提案する。 具体的には,まずインスタンス空間グラフとラベル意味グラフをそれぞれ構築し,各インスタンスをすべてのラベルに接続して構築した割当グラフに組み込む。 その後、グラフネットワークブロックを使用して、割り当てグラフ上のすべてのノードとエッジ状態を集約および更新し、各インスタンスとラベルの構造化表現を形成する。 最後に,各インスタンスラベル対応の予測スコアを導出し,重み付きクロスエントロピー損失との対応を最適化する。 様々な画像データセットを用いて大規模な実験を行い,提案手法の優位性を実証した。

Multi-Label Image Classification (MLIC) aims to predict a set of labels that present in an image. The key to deal with such problem is to mine the associations between image contents and labels, and further obtain the correct assignments between images and their labels. In this paper, we treat each image as a bag of instances, and reformulate the task of MLIC as an instance-label matching selection problem. To model such problem, we propose a novel deep learning framework named Graph Matching based Multi-Label Image Classification (GM-MLIC), where Graph Matching (GM) scheme is introduced owing to its excellent capability of excavating the instance and label relationship. Specifically, we first construct an instance spatial graph and a label semantic graph respectively, and then incorporate them into a constructed assignment graph by connecting each instance to all labels. Subsequently, the graph network block is adopted to aggregate and update all nodes and edges state on the assignment graph to form structured representations for each instance and label. Our network finally derives a prediction score for each instance-label correspondence and optimizes such correspondence with a weighted cross-entropy loss. Extensive experiments conducted on various image datasets demonstrate the superiority of our proposed method.
翻訳日:2021-05-04 00:45:41 公開日:2021-04-30
# (参考訳) ICOS: 応答を伴う効率的かつ高ロバストなポイントクラウド登録 [全文訳有]

ICOS: Efficient and Highly Robust Point Cloud Registration with Correspondences ( http://arxiv.org/abs/2104.14763v1 )

ライセンス: CC0 1.0
Lei Sun(参考訳) ポイントクラウド登録は、ロボット工学とコンピュータビジョンの基本的な問題である。 3Dキーポイントのマッチングプロセスの精度が限られているため、多くの現実世界のアプリケーションでは、おそらく非常に多数の外周の存在が一般的である。 本稿では,対応型ポイントクラウド登録問題に対する新しい,効率的かつ高ロバストな解であるicos(inlier search using compatible structures)を提案する。 具体的には、(i)様々な不変性が確立可能な登録問題に対して、一連の互換性のある構造を提案・構築し、(ii) 既知のスケール登録用と未知スケール登録用の2つの時間効率なフレームワークをデザインし、その適合構造上に構築された不変制約付きランダムサンプリングから外れ値をフィルタし、イリアーを求める。 このように、極端な外れ値比であっても、最適な変換を解くために、イリヤを検出して収集することができ、堅牢な登録解決器ICOSに繋がる。 i) ICOSは高速で正確で、99%のアウトレーヤに対して堅牢で、そのスケールが知られているか未知であるかに関わらず、インレーヤのリコール比率が100%近く、他の最先端の手法よりも優れており、(ii) ICOSは現実世界のアプリケーションでの使用には実用的です。

Point Cloud Registration is a fundamental problem in robotics and computer vision. Due to the limited accuracy in the matching process of 3D keypoints, the presence of outliers, probably in very large numbers, is common in many real-world applications. In this paper, we present ICOS (Inlier searching using COmpatible Structures), a novel, efficient and highly robust solution for the correspondence-based point cloud registration problem. Specifically, we (i) propose and construct a series of compatible structures for the registration problem where various invariants can be established, and (ii) design two time-efficient frameworks, one for known-scale registration and the other for unknown-scale registration, to filter out outliers and seek inliers from the invariant-constraine d random sampling built upon the compatible structures. In this manner, even with extreme outlier ratios, inliers can be detected and collected for solving the optimal transformation, leading to our robust registration solver ICOS. Through plentiful experiments over standard real datasets, we demonstrate that: (i) our solver ICOS is fast, accurate, robust against as many as 99% outliers with nearly 100% recall ratio of inliers whether the scale is known or unknown, outperforming other state-of-the-art methods, (ii) ICOS is practical for use in real-world applications.
翻訳日:2021-05-04 00:30:29 公開日:2021-04-30
# (参考訳) CoCon: 協調コントラスト学習 [全文訳有]

CoCon: Cooperative-Contrast ive Learning ( http://arxiv.org/abs/2104.14764v1 )

ライセンス: CC BY 4.0
Nishant Rai, Ehsan Adeli, Kuan-Hui Lee, Adrien Gaidon, Juan Carlos Niebles(参考訳) 大規模なビデオのラベル付けは現実的ではない。 その結果、効率的な映像解析には自己教師付き視覚表現学習が重要である。 最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。 しかし、現実世界の動画に適用すると、対照的な学習は、意味的に類似したイベントを含むインスタンスの分離につながる可能性がある。 本研究では,相互補完的情報を活用したコントラスト学習の協調型を導入し,この問題に対処した。 複数の入力ビデオビュー間の暗黙的な関係を利用してデータ駆動サンプリングを行う(例)。 RGB) または infered (例) フロー、セグメンテーションマスク、ポーズ)。 私たちは、インスタンス間の関係を活用して学習を促進する最初の試みの1つです。 動作認識の下流タスクにおける表現を実験的に評価した。 本手法は標準ベンチマーク (ucf101, hmdb51, kinetics400) の競合性能を実現する。 さらに, 定性実験により, モデルが高次クラス関係を捉えることができることを示した。

Labeling videos at scale is impractical. Consequently, self-supervised visual representation learning is key for efficient video analysis. Recent success in learning image representations suggests contrastive learning is a promising framework to tackle this challenge. However, when applied to real-world videos, contrastive learning may unknowingly lead to the separation of instances that contain semantically similar events. In our work, we introduce a cooperative variant of contrastive learning to utilize complementary information across views and address this issue. We use data-driven sampling to leverage implicit relationships between multiple input video views, whether observed (e.g. RGB) or inferred (e.g. flow, segmentation masks, poses). We are one of the firsts to explore exploiting inter-instance relationships to drive learning. We experimentally evaluate our representations on the downstream task of action recognition. Our method achieves competitive performance on standard benchmarks (UCF101, HMDB51, Kinetics400). Furthermore, qualitative experiments illustrate that our models can capture higher-order class relationships.
翻訳日:2021-05-04 00:08:56 公開日:2021-04-30
# (参考訳) 最小監督型異常検出のためのクラスタによるラベルノイズの浄化 [全文訳有]

Cleaning Label Noise with Clusters for Minimally Supervised Anomaly Detection ( http://arxiv.org/abs/2104.14770v1 )

ライセンス: CC BY 4.0
Muhammad Zaigham Zaheer, Jin-ha Lee, Marcella Astrid, Arif Mahmood, Seung-Ik Lee(参考訳) ビデオレベルのアノテーションを用いて実世界の異常事象を検出することは,ラベルのノイズが主な原因で難しい課題である。 異常ラベル付きビデオは、ビデオの残りが正常である間、短い期間でのみ異常を含む可能性がある。 本研究は,ビデオレベルラベルのみを用いてトレーニングした弱い教師付き異常検出手法を定式化する。 そこで本研究では,異常ビデオのラベルに存在するノイズを軽減するために,バイナリクラスタリングの利用を提案する。 提案方式では,主ネットワークとクラスタリングの双方が,弱い教師付きトレーニングの目標を達成するために相互補完することを推奨する。 提案手法はUCFと上海Techのデータセットでそれぞれ78.27%と84.16%のフレームレベルAUCが得られる。

Learning to detect real-world anomalous events using video-level annotations is a difficult task mainly because of the noise present in labels. An anomalous labelled video may actually contain anomaly only in a short duration while the rest of the video can be normal. In the current work, we formulate a weakly supervised anomaly detection method that is trained using only video-level labels. To this end, we propose to utilize binary clustering which helps in mitigating the noise present in the labels of anomalous videos. Our formulation encourages both the main network and the clustering to complement each other in achieving the goal of weakly supervised training. The proposed method yields 78.27% and 84.16% frame-level AUC on UCF-crime and ShanghaiTech datasets respectively, demonstrating its superiority over existing state-of-the-art algorithms.
翻訳日:2021-05-03 23:52:13 公開日:2021-04-30
# (参考訳) イベント駆動型時系列分析とCOVID-19に対する公衆反応の比較 [全文訳有]

Event-driven timeseries analysis and the comparison of public reactions on COVID-19 ( http://arxiv.org/abs/2104.14777v1 )

ライセンス: CC BY 4.0
Md. Khayrul Bashar(参考訳) 新型コロナウイルスの急速な拡大は、すでに世界中の人間の生活に影響を与えている。 各国政府は様々な措置を講じているが、その影響は明らかではない。 本研究では,日本,米国,英国,オーストラリアからの公開ツイートを用いて,上記の質問に答えるためにルールベースと機械学習モデルを適用した。 本研究は,2つの極性時間(meanPolとpnRatio)と2つのイベント,すなわち「ロックダウンまたは緊急(LED)」と「経済支援パッケージ(ESP)」について考察する。 ledイベントとespイベントを中心としたサブシリーズの統計テストでは、それぞれ、反対の効果を示した日本人と異なり、(英国とオーストラリア)と(米国と)の人々にポジティブな影響が見られた。 関連するツイートに対する手動検証は、統計結果と一致した。 教師付きロジスティック回帰を用いた日本語ツイートのケーススタディは、ツイートを83.11%の正確さでヒース・ウーリー、エコノミー・ウーリー、その他のクラスに分類する。 イベントに関する予測ツイートは、統計結果を再確認する。

The rapid spread of COVID-19 has already affected human lives throughout the globe. Governments of different countries have taken various measures, but how they affected people lives is not clear. In this study, a rule-based and a machine-learning based models are applied to answer the above question using public tweets from Japan, USA, UK, and Australia. Two polarity timeseries (meanPol and pnRatio) and two events, namely "lockdown or emergency (LED)" and "the economic support package (ESP)", are considered in this study. Statistical testing on the sub-series around LED and ESP events showed their positive impacts to the people of (UK and Australia) and (USA and UK), respectively unlike Japanese people that showed opposite effects. Manual validation with the relevant tweets showed an agreement with the statistical results. A case study with Japanese tweets using supervised logistic regression classifies tweets into heath-worry, economy-worry and other classes with 83.11% accuracy. Predicted tweets around events re-confirm the statistical outcomes.
翻訳日:2021-05-03 23:45:36 公開日:2021-04-30
# (参考訳) 量子アニールとランダム部分空間符号化による連続ブラックボックス最適化 [全文訳有]

Continuous black-box optimization with quantum annealing and random subspace coding ( http://arxiv.org/abs/2104.14778v1 )

ライセンス: CC BY 4.0
Syun Izawa, Koki Kitai, Shu Tanaka, Ryo Tamura, Koji Tsuda(参考訳) ベイズ最適化のようなブラックボックス最適化アルゴリズムは、基礎関数の推論と取得関数の最適化を交互に行い、未知関数の極限を求める。 高次元空間では、そのようなアルゴリズムは獲得関数の最適化が困難であるため、性能が劣る。 ここでは,連続ブラックボックス最適化の難しさを克服するために量子アニーリング(qa)を適用する。 QAはバイナリ問題の最適化を専門とするため、連続ベクトルをバイナリに符号化し、QAの解を変換する必要がある。 1) 連続ベクトルからバイナリベクトルへの軸-平行超矩形に基づくランダム部分空間符号化。 2) QAによって解かれる非負重み付き線形回帰モデルに基づいて, 獲得関数によって定義される二次的非制約バイナリ最適化(QUBO)。 3) qaソリューションが逆変換可能であることを保証するためのペナルゼーションスキーム。 D-Wave Advantage$^{\rm TM}$ quantum annealer を用いたベンチマークテストでは、高次元問題におけるガウス過程に基づく最先端の手法と競合することが示されている。 本手法は、ゲート量子量子コンピュータを用いた量子近似最適化アルゴリズム(qaoa)を含む量子アニーリングおよび他のquboソルバの新たな可能性を開き、その応用範囲を連続値問題に拡大する。

A black-box optimization algorithm such as Bayesian optimization finds extremum of an unknown function by alternating inference of the underlying function and optimization of an acquisition function. In a high-dimensional space, such algorithms perform poorly due to the difficulty of acquisition function optimization. Herein, we apply quantum annealing (QA) to overcome the difficulty in the continuous black-box optimization. As QA specializes in optimization of binary problems, a continuous vector has to be encoded to binary, and the solution of QA has to be translated back. Our method has the following three parts: 1) Random subspace coding based on axis-parallel hyperrectangles from continuous vector to binary vector. 2) A quadratic unconstrained binary optimization (QUBO) defined by acquisition function based on nonnegative-weighted linear regression model which is solved by QA. 3) A penalization scheme to ensure that the QA solution can be translated back. It is shown in benchmark tests that its performance using D-Wave Advantage$^{\rm TM}$ quantum annealer is competitive with a state-of-the-art method based on the Gaussian process in high-dimensional problems. Our method may open up a new possibility of quantum annealing and other QUBO solvers including quantum approximate optimization algorithm (QAOA) using a gated-quantum computers, and expand its range of application to continuous-valued problems.
翻訳日:2021-05-03 23:31:26 公開日:2021-04-30
# (参考訳) BiCnet-TKS:映像人物再同定のための空間時間表現の学習 [全文訳有]

BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification ( http://arxiv.org/abs/2104.14783v1 )

ライセンス: CC BY 4.0
Ruibing Hou, Hong Chang, Bingpeng Ma, Rui Huang and Shiguang Shan(参考訳) 本稿では,映像人物再識別(reID)のための効率的な時空間表現を提案する。 まず,空間的相補性モデリングのためのBilateral Complementary Network (BiCnet)を提案する。 具体的には、BiCnetには2つのブランチがある。 詳細ブランチプロセスフレーム 詳細な視覚手がかりを保存するためにオリジナルの解像度で、ダウンサンプリング戦略を備えたコンテキストブランチを使用して、長距離コンテキストをキャプチャする。 各ブランチにおいて、BiCnetは複数の並列かつ多様な注意モジュールを付加し、連続するフレームの分岐体部分を発見し、ターゲットアイデンティティの積分特性を得る。 さらに、時間的カーネル選択(TKS)ブロックは、適応モードにより、短期および長期の時間的関係をキャプチャするように設計されている。 TKSは任意の深さでBiCnetに挿入することができ、空間時間モデリングのためにBiCnetTKSを構築することができる。 複数のベンチマークによる実験結果から,BiCnet-TKSの最先端性能は約50%低下した。 ソースコードはhttps://github.com/ blue-blue272/BiCnet- TKSで入手できる。

In this paper, we present an efficient spatial-temporal representation for video person re-identification (reID). Firstly, we propose a Bilateral Complementary Network (BiCnet) for spatial complementarity modeling. Specifically, BiCnet contains two branches. Detail Branch processes frames at original resolution to preserve the detailed visual clues, and Context Branch with a down-sampling strategy is employed to capture long-range contexts. On each branch, BiCnet appends multiple parallel and diverse attention modules to discover divergent body parts for consecutive frames, so as to obtain an integral characteristic of target identity. Furthermore, a Temporal Kernel Selection (TKS) block is designed to capture short-term as well as long-term temporal relations by an adaptive mode. TKS can be inserted into BiCnet at any depth to construct BiCnetTKS for spatial-temporal modeling. Experimental results on multiple benchmarks show that BiCnet-TKS outperforms state-of-the-arts with about 50% less computations. The source code is available at https://github.com/ blue-blue272/BiCnet- TKS.
翻訳日:2021-05-03 23:17:00 公開日:2021-04-30
# (参考訳) 階層型ニューラル表現を用いた編集自由視点映像 [全文訳有]

Editable Free-viewpoint Video Using a Layered Neural Representation ( http://arxiv.org/abs/2104.14786v1 )

ライセンス: CC BY 4.0
Jiakai Zhang, Xinhang Liu, Xinyi Ye, Fuqiang Zhao, Yanshun Zhang, Minye Wu, Yingliang Zhang, Lan Xu, Jingyi Yu(参考訳) 没入型vr/ar体験には、自由視点ビデオの生成が不可欠だが、最近のニューラルな進歩は、大きなダイナミックシーンの視覚知覚を操作する編集能力に欠けている。 このギャップを埋めるために,本稿では,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成手法を提案する。 私たちのアプローチの中核は、新しい階層型ニューラルネットワーク表現であり、環境そのものを含む各動的エンティティは、st-nerfと呼ばれる時空コヒーレントなニューラルネットワーク階層型ラミアンス表現に定式化されます。 このような階層表現は、広い範囲で自由視聴体験をサポートしながら、動的シーンの完全な認識と現実的な操作をサポートする。 我々のST-NeRFでは、動的実体/層は連続関数として表現され、位置、変形、および連続的かつ自己監督的な動的実体の出現を実現する。 本研究では,空間情報を明示的にアンタングルする4次元ラベルマップ追跡のシーン解析と,時間的動きを暗黙的にアンタングルする連続変形モジュールを提案する。 さらに、全ての神経層を再組み立てするために、オブジェクト対応ボリュームレンダリングスキームを導入する。 我々は,複数のパフォーマーによる大規模動的シーンの効率的なトレーニングを可能にするために,新しい階層的損失・動き認識レイサンプリング戦略を採用する。このフレームワークにより,スケールと位置を操作するなど,様々な編集機能,個々の神経層を複製・再調整することで,高リアリズムを維持しながら多数の視覚効果を創出することができる。 広汎な実験により、ダイナミックシーンのための高品質でリアルで編集可能な自由視点ビデオ生成を実現するためのアプローチの有効性が実証された。

Generating free-viewpoint videos is critical for immersive VR/AR experience but recent neural advances still lack the editing ability to manipulate the visual perception for large dynamic scenes. To fill this gap, in this paper we propose the first approach for editable photo-realistic free-viewpoint video generation for large-scale dynamic scenes using only sparse 16 cameras. The core of our approach is a new layered neural representation, where each dynamic entity including the environment itself is formulated into a space-time coherent neural layered radiance representation called ST-NeRF. Such layered representation supports fully perception and realistic manipulation of the dynamic scene whilst still supporting a free viewing experience in a wide range. In our ST-NeRF, the dynamic entity/layer is represented as continuous functions, which achieves the disentanglement of location, deformation as well as the appearance of the dynamic entity in a continuous and self-supervised manner. We propose a scene parsing 4D label map tracking to disentangle the spatial information explicitly, and a continuous deform module to disentangle the temporal motion implicitly. An object-aware volume rendering scheme is further introduced for the re-assembling of all the neural layers. We adopt a novel layered loss and motion-aware ray sampling strategy to enable efficient training for a large dynamic scene with multiple performers, Our framework further enables a variety of editing functions, i.e., manipulating the scale and location, duplicating or retiming individual neural layers to create numerous visual effects while preserving high realism. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality, photo-realistic, and editable free-viewpoint video generation for dynamic scenes.
翻訳日:2021-05-03 22:48:31 公開日:2021-04-30
# (参考訳) 3階非線形シュロディンガー方程式の深層学習ニューラルネットワーク:ソリトン、呼吸器、ローグ波 [全文訳有]

Deep learning neural networks for the third-order nonlinear Schrodinger equation: Solitons, breathers, and rogue waves ( http://arxiv.org/abs/2104.14809v1 )

ライセンス: CC BY 4.0
Zijian Zhou and Zhenya Yan(参考訳) 3階非線形シュロディンガー方程式(広田方程式)は、プラズマ中の強い分散イオン音響波と光ファイバ中の超短光パルスの波動伝播、および深海における広帯域波を記述した深い傾きニューラルネットワークを用いて研究される。 本稿では,2種類の非摂動・非摂動(2%ノイズ)トレーニングデータを考慮した広田方程式のデータ駆動解(ソリトン,ブレッシャー,ローグ波など)を,物理学的不定型ニューラルネットワーク(pinns)深層学習法を用いて探索する。 さらに,pinns深層学習を用いて,広田方程式に現れるパラメータをソリトンを用いてデータ駆動的に発見する。

The third-order nonlinear Schrodinger equation (alias the Hirota equation) is investigated via deep leaning neural networks, which describes the strongly dispersive ion-acoustic wave in plasma and the wave propagation of ultrashort light pulses in optical fibers, as well as broader-banded waves on deep water. In this paper, we use the physics-informed neural networks (PINNs) deep learning method to explore the data-driven solutions (e.g., soliton, breather, and rogue waves) of the Hirota equation when the two types of the unperturbated and unperturbated (a 2% noise) training data are considered. Moreover, we use the PINNs deep learning to study the data-driven discovery of parameters appearing in the Hirota equation with the aid of solitons.
翻訳日:2021-05-03 22:15:23 公開日:2021-04-30
# (参考訳) ニューラルネットワークシステム図の構造論的解析 [全文訳有]

Structuralist analysis for neural network system diagrams ( http://arxiv.org/abs/2104.14810v1 )

ライセンス: CC BY-SA 4.0
Guy Clarke Marshall and Caroline Jay and Andre Freitas(参考訳) 本稿では,学術会議におけるニューラルネットワークシステム記述図について考察する。 学術コミュニケーションの多くの側面は、特にテキストやフォーマッティングに関連して制御されているが、図表はピアレビュー以上の中心的にキュレートされていないことが多い。 コーパスに基づくアプローチを用いて、ニューラルネットワークシステムで使われる異種図式表記法は、この領域における意味を示唆するものであると論じる。 これを (i) 表現されているコンテンツと (ii) 関係がどのようにエンコードされるかに分ける。 新たな構造主義的フレームワークを用いて、著者の表現的選択に応じて、コーパス分析を用いて図を定量的にクラスタリングする。 このヘテロジニアスドメインの定量的ダイアグラム分類は、さらなる分析の基盤となるかもしれない。

This short paper examines diagrams describing neural network systems in academic conference proceedings. Many aspects of scholarly communication are controlled, particularly with relation to text and formatting, but often diagrams are not centrally curated beyond a peer review. Using a corpus-based approach, we argue that the heterogeneous diagrammatic notations used for neural network systems has implications for signification in this domain. We divide this into (i) what content is being represented and (ii) how relations are encoded. Using a novel structuralist framework, we use a corpus analysis to quantitatively cluster diagrams according to the author's representational choices. This quantitative diagram classification in a heterogeneous domain may provide a foundation for further analysis.
翻訳日:2021-05-03 21:59:21 公開日:2021-04-30
# (参考訳) メンタルモデルのアクセスポイントとしてのAIシステムダイアグラム [全文訳有]

Scholarly AI system diagrams as an access point to mental models ( http://arxiv.org/abs/2104.14811v1 )

ライセンス: CC BY-SA 4.0
Guy Clarke Marshall and Caroline Jay and Andre Freitas(参考訳) 人工知能(AI)システムのような複雑なシステムは、多くの関連コンポーネントから構成されている。 これらのシステムを表現するためには、コンポーネント間の関係を示すことが不可欠である。 このためか、ダイアグラムは「関係のイコン」として、複雑なシステムを表すための一般的な媒体である。 AIシステムアーキテクチャを伝えるためのダイアグラムは現在、非常に多様である。 図式的概念モデリングの選択の多様性は、コミュニケーションのために優先順位付けされている側面について洞察を得る機会を提供する。 このAIシステム図の哲学的な探索では、概念モデル、コミュニケーション理論、セミオティックスの理論を統合する。 我々は、AIシステムのための標準化された図式言語の結果について議論し、システムを実装するエンジニアが標準の恩恵を受けるだろうが、研究者はガイドラインの恩恵を受けるだろうと結論付けた。

Complex systems, such as Artificial Intelligence (AI) systems, are comprised of many interrelated components. In order to represent these systems, demonstrating the relations between components is essential. Perhaps because of this, diagrams, as "icons of relation", are a prevalent medium for signifying complex systems. Diagrams used to communicate AI system architectures are currently extremely varied. The diversity in diagrammatic conceptual modelling choices provides an opportunity to gain insight into the aspects which are being prioritised for communication. In this philosophical exploration of AI systems diagrams, we integrate theories of conceptual models, communication theory, and semiotics. We discuss consequences of standardised diagrammatic languages for AI systems, concluding that while we expect engineers implementing systems to benefit from standards, researchers would have a larger benefit from guidelines.
翻訳日:2021-05-03 21:53:11 公開日:2021-04-30
# (参考訳) 学術刊行物における図面の数と質は引用数と関連している [全文訳有]

Number and quality of diagrams in scholarly publications is associated with number of citations ( http://arxiv.org/abs/2104.14815v1 )

ライセンス: CC BY-SA 4.0
Guy Clarke Marshall and Caroline Jay and Andre Freitas(参考訳) ダイアグラムはしばしば学術的なコミュニケーションに使用される。 学術的計算言語学会議(acl 2017)で見出された図のコーパスを分析し,システム図の包含と3年後の引用数との関係を見いだした。 この8ページ制限会議の3つ以上の図を含めると、引用数と相関することがわかった。 ニューラルネットワークシステムダイアグラムに着目し,高引用論文と一連のダイアグラムガイドラインの遵守度によって定量化される「良いダイアグラム化プラクティス」との相関性を見出した。 2つの図分類(視覚ベース、1つのメンタルモデルベース)は、引用数と相関しないが、これらの次元における不均一性の定量化を可能にした。 学術的な論文執筆ガイドを探求すると、ダイアグラムは無視されたメディアであることが分かる。 本研究は、図表が引用の予測に有用な品質データ源となり得ることを示唆し、現在不足している学者にとって「グラフィック」が鍵となるスキルであることを示唆している。

Diagrams are often used in scholarly communication. We analyse a corpus of diagrams found in scholarly computational linguistics conference proceedings (ACL 2017), and find inclusion of a system diagram to be correlated with higher numbers of citations after 3 years. Inclusion of over three diagrams in this 8-page limit conference was found to correlate with a lower citation count. Focusing on neural network system diagrams, we find a correlation between highly cited papers and "good diagramming practice" quantified by level of compliance with a set of diagramming guidelines. Two diagram classification types (one visually based, one mental model based) were not found to correlate with number of citations, but enabled quantification of heterogeneity in those dimensions. Exploring scholarly paper-writing guides, we find diagrams to be a neglected media. This study suggests that diagrams may be a useful source of quality data for predicting citations, and that "graphicacy" is a key skill for scholars with insufficient support at present.
翻訳日:2021-05-03 21:41:41 公開日:2021-04-30
# (参考訳) 疫学モデルの解釈可能性 : 非識別性の呪い [全文訳有]

Interpretability of Epidemiological Models : The Curse of Non-Identifiability ( http://arxiv.org/abs/2104.14821v1 )

ライセンス: CC BY 4.0
Ayush Deva, Siddhant Shingi, Avtansh Tiwari, Nayana Bannur, Sansiddh Jain, Jerome White, Alpan Raval, Srujana Merugu(参考訳) 疫学モデルの解釈可能性は重要な考慮事項であり、特にこれらのモデルが公衆衛生環境で使用される場合である。 解釈可能性は、基礎となるモデルパラメータの識別可能性、すなわち高信頼度でパラメータ値を推定する能力と強く結びついている。 本稿では,モデル定義が果たす役割,損失関数,適合方法論,データの質と量について考察する,識別可能性の3つの概念を定義する。 我々は、これらの非識別性問題とその緩和を強調する疫学的区分モデルフレームワークを定義する。

Interpretability of epidemiological models is a key consideration, especially when these models are used in a public health setting. Interpretability is strongly linked to the identifiability of the underlying model parameters, i.e., the ability to estimate parameter values with high confidence given observations. In this paper, we define three separate notions of identifiability that explore the different roles played by the model definition, the loss function, the fitting methodology, and the quality and quantity of data. We define an epidemiological compartmental model framework in which we highlight these non-identifiability issues and their mitigation.
翻訳日:2021-05-03 21:30:01 公開日:2021-04-30
# (参考訳) 大規模多言語ASRにおけるエンドツーエンドモデルのスケーリング [全文訳有]

Scaling End-to-End Models for Large-Scale Multilingual ASR ( http://arxiv.org/abs/2104.14830v1 )

ライセンス: CC BY 4.0
Bo Li, Ruoming Pang, Tara N. Sainath, Anmol Gulati, Yu Zhang, James Qin, Parisa Haghani, W. Ronny Huang, Min Ma(参考訳) 多くの言語ファミリーにまたがってasrモデルを構築することは、大きな言語のバリエーションと非常に不均衡なデータのために、難しいマルチタスク学習問題である。 既存の作業では、高リソースから低リソース言語へのポジティブな移行が示されている。 しかし、ヘテロジニアス多言語データからの干渉と言語単位のキャパシティの低下により、高資源言語の劣化がよく観察される。 言語毎のデータ量は7.7Kから54.7K時間まで様々である。 GShard [1] を用いて 10B パラメータを効率的にスケールアップする。 Empirically, we find that (1) scaling the number of model parameters is an effective way to solve the capacity bottleneck - our 500M-param model is already better than monolingual baselines and scaling it to 1B and 10B brought further quality gains; (2) larger models are not only more data efficient, but also more efficient in terms of training cost as measured in TPU days - the 1B-param model reaches the same accuracy at 34% of training time as the 500M-param model; (3) given a fixed capacity budget, adding depth usually works better than width and large encoders tend to do better than large decoders.

Building ASR models across many language families is a challenging multi-task learning problem due to large language variations and heavily unbalanced data. Existing work has shown positive transfer from high resource to low resource languages. However, degradations on high resource languages are commonly observed due to interference from the heterogeneous multilingual data and reduction in per-language capacity. We conduct a capacity study on a 15-language task, with the amount of data per language varying from 7.7K to 54.7K hours. We adopt GShard [1] to efficiently scale up to 10B parameters. Empirically, we find that (1) scaling the number of model parameters is an effective way to solve the capacity bottleneck - our 500M-param model is already better than monolingual baselines and scaling it to 1B and 10B brought further quality gains; (2) larger models are not only more data efficient, but also more efficient in terms of training cost as measured in TPU days - the 1B-param model reaches the same accuracy at 34% of training time as the 500M-param model; (3) given a fixed capacity budget, adding depth usually works better than width and large encoders tend to do better than large decoders.
翻訳日:2021-05-03 21:19:53 公開日:2021-04-30
# (参考訳) 抽象テキスト要約におけるFactual Unconsistency問題:調査 [全文訳有]

The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey ( http://arxiv.org/abs/2104.14839v1 )

ライセンス: CC BY 4.0
Yi-Chong Huang, Xia-Chong Feng, Xiao-Cheng Feng and Bing Qin(参考訳) 近年、Seq2Seqフレームワークによって開発された様々なニューラルエンコーダデコーダモデルが提案され、入力テキストを出力テキストにマッピングすることを学び、より抽象的な要約を生成するという目標が達成されている。 高いレベルでは、このようなニューラルモデルでは、使用する単語やフレーズに制約なく、サマリーを自由に生成することができる。 さらに、それらのフォーマットは人間編集の要約に近づき、出力はより読みやすく流動的である。 しかし、神経モデルの抽象化能力は二重刃の剣である。 生成した要約でよく見られる問題は、記事中の事実情報の歪みや生成である。 原文と要約の矛盾は,その適用性に様々な懸念を生じさせており,従来のテキスト要約の評価手法はこの問題には適していない。 以上の問題に対して、現在の研究方向は、事実整合性エラーのない出力を選択するための事実認識評価指標を設計することと、事実整合性に向けた新たな要約システムを開発することの2つのカテゴリに分けられる。 本稿では,これらのファクト特有の評価手法とテキスト要約モデルの包括的レビューを行う。

Recently, various neural encoder-decoder models pioneered by Seq2Seq framework have been proposed to achieve the goal of generating more abstractive summaries by learning to map input text to output text. At a high level, such neural models can freely generate summaries without any constraint on the words or phrases used. Moreover, their format is closer to human-edited summaries and output is more readable and fluent. However, the neural model's abstraction ability is a double-edged sword. A commonly observed problem with the generated summaries is the distortion or fabrication of factual information in the article. This inconsistency between the original text and the summary has caused various concerns over its applicability, and the previous evaluation methods of text summarization are not suitable for this issue. In response to the above problems, the current research direction is predominantly divided into two categories, one is to design fact-aware evaluation metrics to select outputs without factual inconsistency errors, and the other is to develop new summarization systems towards factual consistency. In this survey, we focus on presenting a comprehensive review of these fact-specific evaluation methods and text summarization models.
翻訳日:2021-05-03 21:05:47 公開日:2021-04-30
# (参考訳) Active WeaSuL: アクティブラーニングによる弱スーパービジョンの改善 [全文訳有]

Active WeaSuL: Improving Weak Supervision with Active Learning ( http://arxiv.org/abs/2104.14847v1 )

ライセンス: CC BY 4.0
Samantha Biegel, Rafah El-Khatib, Luiz Otavio Vilas Boas Oliveira, Max Baak, Nanne Aben(参考訳) ラベル付きデータの可用性は、マシンラーニングの主要な制限のひとつだ。 専門家定義のルールを使用するフレームワークである$\boldsymbol{\lambda}$を使用して、データセット全体の確率ラベルを$p(y|\boldsymbol{\lambda})$と見積もることができる。 しかしながら、これらのルールは、専門家が問題について知っていることに依存するため、不正確であるか、あるいは問題空間の重要な部分を捉えることができない可能性がある。 これを軽減するために,能動学習を弱監督に組み込む手法であるActive WeaSuLを提案する。 Active WeaSuLでは、専門家はルールを定義するだけでなく、弱い監督モデルが誤りやすい小さな点に対して真のラベルを反復的に提供し、確率的ラベルをより正確に見積もる。 このようにして、弱いラベルはウォームスタートを提供し、アクティブラーニングによって改善される。 我々は,1) 弱いラベルの組み合わせを通知し改善する弱監督損失関数の修正,2) 専門家ラベルがどのデータポイントに最も有用かを決定するmaxKL分散サンプリング戦略,の2つの貢献を行う。 私たちの実験は、ラベル付けデータの予算が限られている場合(例えば)に示します。 データポイントが$$$\leq 60$)、Active WeaSuLは、少数のラベル付きデータポイントだけで、弱い監視、アクティブラーニング、競合戦略を上回っている。 これにより、ラベル付きデータを取得するのが難しい状況では、Active WeaSuLが理想的になる。

The availability of labelled data is one of the main limitations in machine learning. We can alleviate this using weak supervision: a framework that uses expert-defined rules $\boldsymbol{\lambda}$ to estimate probabilistic labels $p(y|\boldsymbol{\lambda})$ for the entire data set. These rules, however, are dependent on what experts know about the problem, and hence may be inaccurate or may fail to capture important parts of the problem-space. To mitigate this, we propose Active WeaSuL: an approach that incorporates active learning into weak supervision. In Active WeaSuL, experts do not only define rules, but they also iteratively provide the true label for a small set of points where the weak supervision model is most likely to be mistaken, which are then used to better estimate the probabilistic labels. In this way, the weak labels provide a warm start, which active learning then improves upon. We make two contributions: 1) a modification of the weak supervision loss function, such that the expert-labelled data inform and improve the combination of weak labels; and 2) the maxKL divergence sampling strategy, which determines for which data points expert labelling is most beneficial. Our experiments show that when the budget for labelling data is limited (e.g. $\leq 60$ data points), Active WeaSuL outperforms weak supervision, active learning, and competing strategies, with only a handful of labelled data points. This makes Active WeaSuL ideal for situations where obtaining labelled data is difficult.
翻訳日:2021-05-03 20:51:25 公開日:2021-04-30
# (参考訳) 数十億の知識グラフの事前学習による会話推薦システムの改善 [全文訳有]

Improving Conversational Recommendation System by Pretraining on Billions Scale of Knowledge Graph ( http://arxiv.org/abs/2104.14899v1 )

ライセンス: CC BY 4.0
Chi-Man Wong, Fan Feng, Wen Zhang, Chi-Man Vong, Hui Chen, Yichi Zhang, Peng He, Huan Chen, Kun Zhao, Huajun Chen(参考訳) Eコマースプラットフォームの対話型レコメンダシステム(CRS)は、複数の対話型インタラクションを通じて、ユーザにアイテムを推奨することを目的としている。 クリックスルー率(CTR)予測モデルは、一般的に候補項目のランク付けに使用される。 しかし、ほとんどのCRSはデータ不足とスパース性の問題に悩まされている。 そこで本研究では,2段階のCTR予測モデルである知識強化深層ネットワーク(K-DCN)を提案する。 We first construct a billion-scale conversation knowledge graph (CKG) from information about users, items and conversations, and then pretrain CKG by introducing knowledge graph embedding method and graph convolution network to encode semantic and structural information respectively.To make the CTR prediction model sensible of current state of users and the relationship between dialogues and items, we introduce user-state and dialogue-interaction representations based on pre-trained CKG and propose K-DCN.In K-DCN, we fuse the user-state representation, dialogue-interaction representation and other normal feature representations via deep cross network, which will give the rank of candidate items to be recommended.We experimentally prove that our proposal significantly outperforms baselines and show it's real application in Alime.

Conversational Recommender Systems (CRSs) in E-commerce platforms aim to recommend items to users via multiple conversational interactions. Click-through rate (CTR) prediction models are commonly used for ranking candidate items. However, most CRSs are suffer from the problem of data scarcity and sparseness. To address this issue, we propose a novel knowledge-enhanced deep cross network (K-DCN), a two-step (pretrain and fine-tune) CTR prediction model to recommend items. We first construct a billion-scale conversation knowledge graph (CKG) from information about users, items and conversations, and then pretrain CKG by introducing knowledge graph embedding method and graph convolution network to encode semantic and structural information respectively.To make the CTR prediction model sensible of current state of users and the relationship between dialogues and items, we introduce user-state and dialogue-interaction representations based on pre-trained CKG and propose K-DCN.In K-DCN, we fuse the user-state representation, dialogue-interaction representation and other normal feature representations via deep cross network, which will give the rank of candidate items to be recommended.We experimentally prove that our proposal significantly outperforms baselines and show it's real application in Alime.
翻訳日:2021-05-03 20:37:52 公開日:2021-04-30
# (参考訳) 深層学習による鋼管溶接欠陥検出 [全文訳有]

Deep Learning Based Steel Pipe Weld Defect Detection ( http://arxiv.org/abs/2104.14907v1 )

ライセンス: CC BY 4.0
Dingming Yang, Yanrong Cui, Zeyu Yu and Hongqiang Yuan(参考訳) 鋼管は、石油、化学、天然ガス、シェールガスなどの高圧・高圧のシナリオで広く使用されている。 鋼管に何らかの欠陥がある場合、深刻な有害な結果をもたらす。 パイプ溶接欠陥検出と同定にディープラーニングの分野でオブジェクト検出を適用することで、検査効率を効果的に向上し、産業オートメーションの開発を促進することができる。 前者は従来のコンピュータビジョン法を用いて鋼管溶接継手の欠陥を検知した。 しかし,従来のコンピュータビジョン手法は先行知識に頼って単一特徴量で欠陥を検出できないため,ディープラーニングがエンドツーエンドであるのに対して,多欠陥分類のタスクを完了させることは困難である。 本稿では, 鋼管溶接欠陥検出の分野において, 最先端の単段物体検出アルゴリズム YOLOv5 を提案し, 2段代表物体検出アルゴリズム Faster R-CNN と比較した。 実験の結果, 鋼管溶接欠陥検出にyolov5を適用すると精度が大幅に向上し, マルチクラス化作業が完了し, リアルタイム検出の基準を満たした。

Steel pipes are widely used in high-risk and high-pressure scenarios such as oil, chemical, natural gas, shale gas, etc. If there is some defect in steel pipes, it will lead to serious adverse consequences. Applying object detection in the field of deep learning to pipe weld defect detection and identification can effectively improve inspection efficiency and promote the development of industrial automation. Most predecessors used traditional computer vision methods applied to detect defects of steel pipe weld seams. However, traditional computer vision methods rely on prior knowledge and can only detect defects with a single feature, so it is difficult to complete the task of multi-defect classification, while deep learning is end-to-end. In this paper, the state-of-the-art single-stage object detection algorithm YOLOv5 is proposed to be applied to the field of steel pipe weld defect detection, and compared with the two-stage representative object detection algorithm Faster R-CNN. The experimental results show that applying YOLOv5 to steel pipe weld defect detection can greatly improve the accuracy, complete the multi-classification task, and meet the criteria of real-time detection.
翻訳日:2021-05-03 20:27:03 公開日:2021-04-30
# (参考訳) PSEUDo: 局所感性ハッシュと関連フィードバックを用いた多変量時系列の対話型パターン探索 [全文訳有]

PSEUDo: Interactive Pattern Search in Multivariate Time Series with Locality-Sensitive Hashing and Relevance Feedback ( http://arxiv.org/abs/2104.14962v1 )

ライセンス: CC BY 4.0
Yuncong Yu, Dylan Kruyff, Tim Becker, Michael Behrisch(参考訳) マルチトラックシーケンシャルデータにおける視覚パターン探索のための適応的特徴学習手法PSEUDoを提案する。 我々のアプローチは、現在の深層学習システムにおいて、非経済的な再学習要件と非フレキシブルな表現学習を克服するために設計されている。 センサとデータストレージの増加により、前例のない規模でマルチトラック時系列データが生成される。 これらのデータセットには、神経マーケティングのような貴重なパターンがあり、研究者は生理的センサーからの連続したパターンと製品やサービスの購入行動の関連付けを試みる。 しかし、基礎的な真実と高いばらつきの欠如により、自動パターン検出は信頼できない。 我々の進歩は、多変量時系列ウィンドウの特徴に基づく表現を作成するために、クエリ対応の局所性に敏感なハッシュ技術に基づいている。 最も重要なことに、我々のアルゴリズムはサブ線形トレーニングと推論時間を備えている。 1万の異なる64トラックの時系列のモデリングと比較も可能で、それぞれが100ステップ(典型的なEEGデータセット)を0.8秒以下で達成できます。 この性能向上により、基礎となるパターン類似性モデルの迅速な関連フィードバック駆動適応が可能となり、速度vs精度トレードオフを徐々に修正することができる。 我々は,PSEUDoの効率,精度,操縦性において,現場における最先端のアルゴリズムと比較して,定量的な性能比較と質的な視覚的品質比較により優位性を示す。 さらに, 大規模気象データセットを用いて, 視覚パターン検索の概念を実証するケーススタディを通じてPSEUDoのユーザビリティを示す。 適応モデルでは,ユーザの類似性の概念を正確に把握し,多変量時系列データセットにおける探索的視覚パターンの探索を可能にする。

We present PSEUDo, an adaptive feature learning technique for exploring visual patterns in multi-track sequential data. Our approach is designed with the primary focus to overcome the uneconomic retraining requirements and inflexible representation learning in current deep learning-based systems. Multi-track time series data are generated on an unprecedented scale due to increased sensors and data storage. These datasets hold valuable patterns, like in neuromarketing, where researchers try to link patterns in multivariate sequential data from physiological sensors to the purchase behavior of products and services. But a lack of ground truth and high variance make automatic pattern detection unreliable. Our advancements are based on a novel query-aware locality-sensitive hashing technique to create a feature-based representation of multivariate time series windows. Most importantly, our algorithm features sub-linear training and inference time. We can even accomplish both the modeling and comparison of 10,000 different 64-track time series, each with 100 time steps (a typical EEG dataset) under 0.8 seconds. This performance gain allows for a rapid relevance feedback-driven adaption of the underlying pattern similarity model and enables the user to modify the speed-vs-accuracy trade-off gradually. We demonstrate superiority of PSEUDo in terms of efficiency, accuracy, and steerability through a quantitative performance comparison and a qualitative visual quality comparison to the state-of-the-art algorithms in the field. Moreover, we showcase the usability of PSEUDo through a case study demonstrating our visual pattern retrieval concepts in a large meteorological dataset. We find that our adaptive models can accurately capture the user's notion of similarity and allow for an understandable exploratory visual pattern retrieval in large multivariate time series datasets.
翻訳日:2021-05-03 20:17:25 公開日:2021-04-30
# (参考訳) オンラインコミュニティにおける規範違反検出のための学習 [全文訳有]

Learning for Detecting Norm Violation in Online Communities ( http://arxiv.org/abs/2104.14911v1 )

ライセンス: CC BY 4.0
Thiago Freitas dos Santos, Nardine Osman and Marco Schorlemmer(参考訳) 本稿では,オンラインコミュニティのための規範システムに焦点を当てる。 この論文は、異なるコミュニティメンバーが異なる方法でこれらの規範を解釈する際に生じる問題に対処し、通常、個人やコミュニティの体験に影響を与える規範違反と相互作用の予期せぬ行動を引き起こす可能性がある。 この問題に対処するため,我々は,規範違反を検知し,その行為の特徴に関する情報を違反者に提供し,この行為を規範に違反させるフレームワークを提案する。 分類アルゴリズムとしてロジスティックモデルツリーを用いて機械学習を用いてフレームワークを構築する。 規範違反は極めて文脈的であるため、ウィキペディアのオンラインコミュニティのデータ、すなわちウィキペディアの編集データを用いてモデルを訓練する。 そして、wikipediaのユースケースで評価され、ウィキペディアの編集における破壊行為を禁止する規範にフォーカスします。

In this paper, we focus on normative systems for online communities. The paper addresses the issue that arises when different community members interpret these norms in different ways, possibly leading to unexpected behavior in interactions, usually with norm violations that affect the individual and community experiences. To address this issue, we propose a framework capable of detecting norm violations and providing the violator with information about the features of their action that makes this action violate a norm. We build our framework using Machine Learning, with Logistic Model Trees as the classification algorithm. Since norm violations can be highly contextual, we train our model using data from the Wikipedia online community, namely data on Wikipedia edits. Our work is then evaluated with the Wikipedia use case where we focus on the norm that prohibits vandalism in Wikipedia edits.
翻訳日:2021-05-03 19:33:24 公開日:2021-04-30
# (参考訳) BERTがリレーショナルDBを発表:リレーショナルデータベースのコンテキスト表現 [全文訳有]

BERT Meets Relational DB: Contextual Representations of Relational Databases ( http://arxiv.org/abs/2104.14914v1 )

ライセンス: CC BY 4.0
Siddhant Arora, Vinayak Gupta, Garima Gaur, Srikanta Bedathur(参考訳) 本稿では,複数のテーブルからなる関係データベース上で,エンティティの低次元表現を学習する問題に対処する。 埋め込みはデータベースにエンコードされたセマンティクスをキャプチャするのに役立ち、テーブルの自動補完、リレーショナル結合の完全ニューラルなクエリ処理、欠落した値のシームレスな処理など、さまざまな設定で使用できる。 現在の作業は、単一のテーブルを使用するか、外部コーパスに事前トレーニングされた埋め込みを使用することで、現実世界のデータベースでの使用には適さない。 本研究では、これらの注意に基づくモデルを用いて、関係データベースのエンティティへの埋め込みを学習する。 我々はBERTスタイルの事前学習手法にインスパイアされ、構造化データベースでの表現学習にどのように拡張できるかを観察することに興味を持っている。 我々は、関係データベースの自動補完のアプローチを評価し、標準ベースラインよりも改善を達成する。

In this paper, we address the problem of learning low dimension representation of entities on relational databases consisting of multiple tables. Embeddings help to capture semantics encoded in the database and can be used in a variety of settings like auto-completion of tables, fully-neural query processing of relational joins queries, seamlessly handling missing values, and more. Current work is restricted to working with just single table, or using pretrained embeddings over an external corpus making them unsuitable for use in real-world databases. In this work, we look into ways of using these attention-based model to learn embeddings for entities in the relational database. We are inspired by BERT style pretraining methods and are interested in observing how they can be extended for representation learning on structured databases. We evaluate our approach of the autocompletion of relational databases and achieve improvement over standard baselines.
翻訳日:2021-05-03 19:21:30 公開日:2021-04-30
# (参考訳) 伝達学習と多入力畳み込みニューラルネットワークを用いた肺音のき裂検出 [全文訳有]

Crackle Detection In Lung Sounds Using Transfer Learning And Multi-Input Convolitional Neural Networks ( http://arxiv.org/abs/2104.14921v1 )

ライセンス: CC BY 4.0
Truc Nguyen and Franz Pernkopf(参考訳) 大規模な注釈付き肺音データベースが公開されており、診断システムのアルゴリズムのトレーニングに使用することができる。 しかし、少数の主題しか持たず、記録装置と設定の違いを示す小さな非公開データに対して、良好なパフォーマンスのアルゴリズムを開発することは難しいかもしれない。 本稿では,記録設定のミスマッチに対処するために転送学習を用いる。 これにより、あるデータセットから別のデータセットに知識を転送し、肺の音のひび割れを検出する。 特に、単一の入力畳み込みニューラルネットワーク(cnn)モデルは、最も広く入手可能な肺音データベースであるicbhi 2017を使用して、ソースドメイン上で事前トレーニングされる。 肺音の呼吸周期の特徴をlog-mel spectrogramを用いて解析した。 プレトレーニングネットワークは、呼吸サイクルとそれに対応する呼吸フェーズのネットワークアーキテクチャを共有するマルチ入力CNNモデルを構築するために使用される。 マルチインプットモデルは, クラックや正常な肺音を分類するために, 自己収集肺音データベースのターゲット領域に微調整される。 実験の結果,多入力cnnモデルを用いたf-scoreの9.84%(絶対値)の有意な性能改善が得られた。

Large annotated lung sound databases are publicly available and might be used to train algorithms for diagnosis systems. However, it might be a challenge to develop a well-performing algorithm for small non-public data, which have only a few subjects and show differences in recording devices and setup. In this paper, we use transfer learning to tackle the mismatch of the recording setup. This allows us to transfer knowledge from one dataset to another dataset for crackle detection in lung sounds. In particular, a single input convolutional neural network (CNN) model is pre-trained on a source domain using ICBHI 2017, the largest publicly available database of lung sounds. We use log-mel spectrogram features of respiratory cycles of lung sounds. The pre-trained network is used to build a multi-input CNN model, which shares the same network architecture for respiratory cycles and their corresponding respiratory phases. The multi-input model is then fine-tuned on the target domain of our self-collected lung sound database for classifying crackles and normal lung sounds. Our experimental results show significant performance improvements of 9.84% (absolute) in F-score on the target domain using the multi-input CNN model based on transfer learning for crackle detection in adventitious lung sound classification task.
翻訳日:2021-05-03 19:10:11 公開日:2021-04-30
# (参考訳) 電子版全文カウンタによる文書の単語レベルアライメント [全文訳有]

Word-Level Alignment of Paper Documents with their Electronic Full-Text Counterparts ( http://arxiv.org/abs/2104.14925v1 )

ライセンス: CC BY 4.0
Mark-Christoph M\"uller, Sucheta Ghosh, Ulrike Wittig, and Maja Rey(参考訳) 本稿では,印刷文書とその全文バージョン間の単語レベルのアライメントを自動生成するための簡単な手順について述べる。 手順は教師なしで、標準のオフザシェルフコンポーネントのみを使用し、基本設定では85.01、前処理と後処理では86.63に達する。 アプリケーションの潜在的な領域は、手動データベースキュレーション(incl)である。 文書トリアージ)および生医学的表現OCR。

We describe a simple procedure for the automatic creation of word-level alignments between printed documents and their respective full-text versions. The procedure is unsupervised, uses standard, off-the-shelf components only, and reaches an F-score of 85.01 in the basic setup and up to 86.63 when using pre- and post-processing. Potential areas of application are manual database curation (incl. document triage) and biomedical expression OCR.
翻訳日:2021-05-03 19:02:00 公開日:2021-04-30
# (参考訳) 公正な平均化によるフェデレーション学習 [全文訳有]

Federated Learning with Fair Averaging ( http://arxiv.org/abs/2104.14937v1 )

ライセンス: CC BY 4.0
Zheng Wang, Xiaoliang Fan, Jianzhong Qi, Chenglu Wen, Cheng Wang, Rongshan Yu(参考訳) フェアネスは、連邦学習(FL)において重要な問題となっている。 本研究では,fl -- \emph{conflicting} 勾配における不公平な原因を特定し,大小の差異を明らかにした。 この問題に対処するために、クライアント間の潜在的な衝突を軽減し、勾配を平均化するフェデレートフェア平均化(FedFV)アルゴリズムを提案する。 まず,コサイン類似性を用いて勾配の衝突を検知し,その方向と勾配の大きさの両方を変更することにより,このような衝突を反復的に排除する。 さらに,対立する勾配を緩和し,パレート定常解に収束するfeedfvの理論的基礎を示す。 一連のフェデレーションデータセットに関する大規模な実験は、FedFVが公正さ、正確性、効率の点で最先端の手法と好適に比較していることを確認した。

Fairness has emerged as a critical problem in federated learning (FL). In this work, we identify a cause of unfairness in FL -- \emph{conflicting} gradients with large differences in the magnitudes. To address this issue, we propose the federated fair averaging (FedFV) algorithm to mitigate potential conflicts among clients before averaging their gradients. We first use the cosine similarity to detect gradient conflicts, and then iteratively eliminate such conflicts by modifying both the direction and the magnitude of the gradients. We further show the theoretical foundation of FedFV to mitigate the issue conflicting gradients and converge to Pareto stationary solutions. Extensive experiments on a suite of federated datasets confirm that FedFV compares favorably against state-of-the-art methods in terms of fairness, accuracy and efficiency.
翻訳日:2021-05-03 18:46:26 公開日:2021-04-30
# (参考訳) インスタンスベース画像検索のためのコントラストモデルの評価 [全文訳有]

Evaluating Contrastive Models for Instance-based Image Retrieval ( http://arxiv.org/abs/2104.14939v1 )

ライセンス: CC BY 4.0
Tarun Krishna, Kevin McGuinness and Noel O'Connor(参考訳) 本研究では,画像検索作業におけるコントラストモデルの評価を行う。 識別学習を通じてインスタンス間の意味的類似性をエンコードするために学習されたモデルは、同一オブジェクトのインスタンスで関連性を定義する画像検索のタスクにおいてうまく機能するべきであると仮定する。 コントラスト法を用いてトレーニングしたモデルからの表現が,ImageNetラベルでトレーニングした教師付きベースラインとオンパー(およびパフォーマンス)で,様々な構成下での検索タスクにおいて,事前訓練を行った。 対照的なモデルは明確な監督を必要としないため、これは注目すべきことである。 したがって,これらのモデルは,より堅牢な画像検索エンジンを構築するために,ベースモデルのブートストラップに使用できる。

In this work, we evaluate contrastive models for the task of image retrieval. We hypothesise that models that are learned to encode semantic similarity among instances via discriminative learning should perform well on the task of image retrieval, where relevancy is defined in terms of instances of the same object. Through our extensive evaluation, we find that representations from models trained using contrastive methods perform on-par with (and outperforms) a pre-trained supervised baseline trained on the ImageNet labels in retrieval tasks under various configurations. This is remarkable given that the contrastive models require no explicit supervision. Thus, we conclude that these models can be used to bootstrap base models to build more robust image retrieval engines.
翻訳日:2021-05-03 18:25:52 公開日:2021-04-30
# (参考訳) SRDiff:拡散確率モデルを用いた単一画像超解法 [全文訳有]

SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models ( http://arxiv.org/abs/2104.14951v1 )

ライセンス: CC BY 4.0
Haoying Li, Yifan Yang, Meng Chang, Huajun Feng, Zhihai Xu, Qi Li, Yueting Chen(参考訳) 単一画像超解像(SISR)は、与えられた低解像度(LR)画像から高解像度(HR)画像を再構成することを目的としている。 近年,学習型SISR法は,PSNR法,GAN法,フローベース法において,過度な平滑化,モード崩壊,あるいはモデルフットプリントの問題に悩まされているが,従来の手法よりも優れていた。 そこで本研究では,sisrの最初の拡散ベースモデルであるsrdiff(single image super- resolution diffusion probabilistic model)を提案する。 SRDiffはデータ可能性の変動境界の変種に最適化されており、ガウスノイズを徐々にマルコフ連鎖を介してLR入力に条件付された超高解像度(SR)画像に変換することにより、多種多様な現実的なSR予測を提供することができる。 さらに,収束を高速化するために,フレームワーク全体の残差予測を導入する。 顔と一般的なベンチマーク(CelebA と DIV2K のデータセット)に関する広範な実験により,1) SRDiff は1つのLR入力しか持たない,多種多様な SR 結果を生成することができ,2) SRDiff は小さなフットプリントで容易に訓練でき,3) SRDiff は潜時空間補間やコンテンツ融合などの柔軟な画像操作を行うことができることがわかった。

Single image super-resolution (SISR) aims to reconstruct high-resolution (HR) images from the given low-resolution (LR) ones, which is an ill-posed problem because one LR image corresponds to multiple HR images. Recently, learning-based SISR methods have greatly outperformed traditional ones, while suffering from over-smoothing, mode collapse or large model footprint issues for PSNR-oriented, GAN-driven and flow-based methods respectively. To solve these problems, we propose a novel single image super-resolution diffusion probabilistic model (SRDiff), which is the first diffusion-based model for SISR. SRDiff is optimized with a variant of the variational bound on the data likelihood and can provide diverse and realistic SR predictions by gradually transforming the Gaussian noise into a super-resolution (SR) image conditioned on an LR input through a Markov chain. In addition, we introduce residual prediction to the whole framework to speed up convergence. Our extensive experiments on facial and general benchmarks (CelebA and DIV2K datasets) show that 1) SRDiff can generate diverse SR results in rich details with state-of-the-art performance, given only one LR input; 2) SRDiff is easy to train with a small footprint; and 3) SRDiff can perform flexible image manipulation including latent space interpolation and content fusion.
翻訳日:2021-05-03 18:15:29 公開日:2021-04-30
# (参考訳) ガウス混合モデルに適合するリーマンニュートン信頼区間法 [全文訳有]

A Riemannian Newton Trust-Region Method for Fitting Gaussian Mixture Models ( http://arxiv.org/abs/2104.14957v1 )

ライセンス: CC BY 4.0
Lena Sembach, Jan Pablo Burgard, Volker H. Schulz(参考訳) ガウス混合モデルは、主にクラスタリングと密度近似に使用されるデータサイエンスと統計学の強力なツールである。 モデルパラメータを推定するタスクは、実際は、その単純さと低イテレーションコストに利点がある期待最大化(EM)アルゴリズムによって解決されることが多い。 しかし、隠れた情報や重なり合うクラスタが多数存在する場合、EMはゆっくりと収束する。 ガウス混合モデルの多様体最適化の最近の進歩は関心を集めている。 ガウス混合モデルに対するリーマン・ヘッセンの公式を導入する。 さらに、ランタイムとイテレーション数の両方において、現在のアプローチを上回る新しいリーマンニュートン信頼地域法を提案する。

Gaussian Mixture Models are a powerful tool in Data Science and Statistics that are mainly used for clustering and density approximation. The task of estimating the model parameters is in practice often solved by the Expectation Maximization (EM) algorithm which has its benefits in its simplicity and low per-iteration costs. However, the EM converges slowly if there is a large share of hidden information or overlapping clusters. Recent advances in Manifold Optimization for Gaussian Mixture Models have gained increasing interest. We introduce a formula for the Riemannian Hessian for Gaussian Mixture Models. On top, we propose a new Riemannian Newton Trust-Region method which outperforms current approaches both in terms of runtime and number of iterations.
翻訳日:2021-05-03 17:56:56 公開日:2021-04-30
# (参考訳) 画像からチェスゲーム状態を決定する [全文訳有]

Determining Chess Game State From an Image ( http://arxiv.org/abs/2104.14963v1 )

ライセンス: CC BY 4.0
Georg W\"olflein and Ognjen Arandjelovi\'c(参考訳) チェス盤の画像からチェス駒の構成を識別することは、まだ正確には解決されていないコンピュータビジョンの問題である。 しかし,手作業で手入力するオーバーヘッドを伴わずに,コンピュータの自動解析を容易にすることで,アマチュアチェス選手のゲーム改善を支援することが重要である。 現在のアプローチは、巨大なデータセットの欠如によって制限され、見えないチェスセットに適応するように設計されていない。 本稿では,既存のモデルよりも桁違いに大きい3次元モデルから合成した新しいデータセットについて述べる。 このデータセットでトレーニングされた新しいエンドツーエンドチェス認識システムは、従来のコンピュータビジョン技術とディープラーニングを組み合わせたものだ。 RANSACベースのアルゴリズムを用いてチェスボードをローカライズし、ボードの通常のグリッドへの射影変換を計算する。 2つの畳み込みニューラルネットワークを使って、歪んだ画像の正方形の占有マスクを予測し、最終的に部品を分類する。 記述されたシステムでは,テストセット上での誤差率は0.23%であり,現状の28倍である。 さらに、開始位置の2枚の写真のみを用いて、推論システムを未確認のチェスセットに適応させ、新しいチェスセットの画像の2乗あたりの精度99.83%を得る、数発の転写学習手法も開発されている。 データセットは公開されており、コードとトレーニングされたモデルはhttps://github.com/g eorgw777/chesscogで入手できる。

Identifying the configuration of chess pieces from an image of a chessboard is a problem in computer vision that has not yet been solved accurately. However, it is important for helping amateur chess players improve their games by facilitating automatic computer analysis without the overhead of manually entering the pieces. Current approaches are limited by the lack of large datasets and are not designed to adapt to unseen chess sets. This paper puts forth a new dataset synthesised from a 3D model that is an order of magnitude larger than existing ones. Trained on this dataset, a novel end-to-end chess recognition system is presented that combines traditional computer vision techniques with deep learning. It localises the chessboard using a RANSAC-based algorithm that computes a projective transformation of the board onto a regular grid. Using two convolutional neural networks, it then predicts an occupancy mask for the squares in the warped image and finally classifies the pieces. The described system achieves an error rate of 0.23% per square on the test set, 28 times better than the current state of the art. Further, a few-shot transfer learning approach is developed that is able to adapt the inference system to a previously unseen chess set using just two photos of the starting position, obtaining a per-square accuracy of 99.83% on images of that new chess set. The dataset is released publicly; code and trained models are available at https://github.com/g eorgw777/chesscog.
翻訳日:2021-05-03 17:10:00 公開日:2021-04-30
# (参考訳) オブジェクト検出のための教師なしデータ拡張 [全文訳有]

Unsupervised data augmentation for object detection ( http://arxiv.org/abs/2104.14965v1 )

ライセンス: CC BY 4.0
Yichen Zhang, Zeyang Song, Wenbo Li(参考訳) データ拡張は、データセットが小さい場合、オーバーフィッティング問題を克服するための効果的な方法でした。 水平フリップ、ランダム作物、あるいはミックスアップなど、すでに多くの拡張操作がある。 しかし、画像分類タスクとは異なり、対応する画像に対してラベル付きバウンディングボックス情報がないため、オブジェクト検出タスクではこれらの操作を単純に行えない。 この課題に対処するために,GAN(Generative Adversarial Networks)を用いて教師なしデータ拡張を行うフレームワークを提案する。 具体的には、最近発表されたyolov4の最高性能に基づいて、オブジェクトが特定の位置にあるイメージを生成する2段階のパイプラインを提案する。 このようにして、バウンディングボックスラベルで画像を生成するという目標を達成できます。

Data augmentation has always been an effective way to overcome overfitting issue when the dataset is small. There are already lots of augmentation operations such as horizontal flip, random crop or even Mixup. However, unlike image classification task, we cannot simply perform these operations for object detection task because of the lack of labeled bounding boxes information for corresponding generated images. To address this challenge, we propose a framework making use of Generative Adversarial Networks(GAN) to perform unsupervised data augmentation. To be specific, based on the recently supreme performance of YOLOv4, we propose a two-step pipeline that enables us to generate an image where the object lies in a certain position. In this way, we can accomplish the goal that generating an image with bounding box label.
翻訳日:2021-05-03 16:55:56 公開日:2021-04-30
# (参考訳) 層ワイドキャリブレーションによる後学習深層ニューラルネットワークプルーニング [全文訳有]

Post-training deep neural network pruning via layer-wise calibration ( http://arxiv.org/abs/2104.15023v1 )

ライセンス: CC BY 4.0
Ivan Lazarevich and Alexander Kozlov and Nikita Malinin(参考訳) 本稿では,実稼働環境では許容可能な精度レベルを実現し,デスクトップcpuやエッジデバイスなどのコモディティハードウェア上でも十分に高速に動作可能な,ディープニューラルネットワークのトレーニング後重みプルーニング手法を提案する。 本稿では,自動生成合成フラクタル画像に基づくコンピュータビジョンモデルへのアプローチを,データフリーで拡張する手法を提案する。 我々は、ImageNet上のResNet50で50%の間隔で、最大1.5%の精度で、データフリーニューラルネットワークプルーニングの最先端結果を得る。 実際のデータを使用する場合、imagenet上で65%のスパース率で8ビット精度のresnet50モデルを、1%のtop@1精度低下でトレーニング後設定で取得することができます。 OpenVINO(TM)ポストトレーニング最適化ツールの一部としてコードをリリースしています。

We present a post-training weight pruning method for deep neural networks that achieves accuracy levels tolerable for the production setting and that is sufficiently fast to be run on commodity hardware such as desktop CPUs or edge devices. We propose a data-free extension of the approach for computer vision models based on automatically-genera ted synthetic fractal images. We obtain state-of-the-art results for data-free neural network pruning, with ~1.5% top@1 accuracy drop for a ResNet50 on ImageNet at 50% sparsity rate. When using real data, we are able to get a ResNet50 model on ImageNet with 65% sparsity rate in 8-bit precision in a post-training setting with a ~1% top@1 accuracy drop. We release the code as a part of the OpenVINO(TM) Post-Training Optimization tool.
翻訳日:2021-05-03 16:48:11 公開日:2021-04-30
# (参考訳) 小さなMUSを使ってペンと紙のプラグの解法を説明する [全文訳有]

Using Small MUSes to Explain How to Solve Pen and Paper Puzzles ( http://arxiv.org/abs/2104.15040v1 )

ライセンス: CC BY 4.0
Joan Espasa, Ian P. Gent, Ruth Hoffmann, Christopher Jefferson, Alice M. Lynch(参考訳) ペンや紙製パズル(数独、不動式、超高層ビルなど)が盛んである。 このようなパズルを解くことは、現代のAIシステムにとって簡単な作業である。 しかし、ほとんどのAIシステムは、バックトラッキングの形式で問題を解決する一方、人々は可能な限りバックトラックを避けようとします。 つまり、既存のaiシステムは、人々にとって意味のある推論に関する説明を出力しない。 Demystifyは、高レベルの制約プログラミング言語でパズルを表現できるツールで、MUSを使ってパズルの解法におけるステップの記述を作成する。 私たちは、museでパズルを解く既存の技術にいくつかの改良を加え、より複雑なパズルを解き、より高品質な説明を行えるようにしました。 提案手法は,手作業でペンと紙のパズルを解くための文書化戦略と比較することにより,Demystifyの有効性と汎用性を実証し,同じ説明を多く見つけることができることを示す。

Pen and paper puzzles like Sudoku, Futoshiki and Skyscrapers are hugely popular. Solving such puzzles can be a trivial task for modern AI systems. However, most AI systems solve problems using a form of backtracking, while people try to avoid backtracking as much as possible. This means that existing AI systems do not output explanations about their reasoning that are meaningful to people. We present Demystify, a tool which allows puzzles to be expressed in a high-level constraint programming language and uses MUSes to allow us to produce descriptions of steps in the puzzle solving. We give several improvements to the existing techniques for solving puzzles with MUSes, which allow us to solve a range of significantly more complex puzzles and give higher quality explanations. We demonstrate the effectiveness and generality of Demystify by comparing its results to documented strategies for solving a range of pen and paper puzzles by hand, showing that our technique can find many of the same explanations.
翻訳日:2021-05-03 16:36:20 公開日:2021-04-30
# (参考訳) 分割・分割に基づく大規模スペクトルクラスタリング [全文訳有]

Divide-and-conquer based Large-Scale Spectral Clustering ( http://arxiv.org/abs/2104.15042v1 )

ライセンス: CC BY 4.0
Hongmin Li, Xiucai Ye, Akira Imakura and Tetsuya Sakurai(参考訳) スペクトルクラスタリングは最も人気のあるクラスタリング手法の1つである。 しかし,大規模なスペクトルクラスタリングと限られた計算資源との効率と効率のバランスを両立させる方法は,長い間適切に解決されていない。 本稿では,効率と効率のバランスを良好に保ちつつ,分割・分割に基づく大規模スペクトルクラスタリング手法を提案する。 提案手法では,超低コストでスパース類似度行列を構築するために,分割・分散型ランドマーク選択アルゴリズムと新しい近似類似度行列手法を設計する。 次に、クラスタリング結果は、二部グラフ分割プロセスを通じて素早く計算できる。 提案手法は,既存の大規模スペクトルクラスタリングよりも計算量が少なくなる。 10個の大規模データセットに対する実験結果から,提案手法の有効性と有効性が確認された。 提案手法と実験データセットのMATLABコードはhttps://github.com/L i-Hongmin/MyPaperWit hCode.comで公開されている。

Spectral clustering is one of the most popular clustering methods. However, how to balance the efficiency and effectiveness of the large-scale spectral clustering with limited computing resources has not been properly solved for a long time. In this paper, we propose a divide-and-conquer based large-scale spectral clustering method to strike a good balance between efficiency and effectiveness. In the proposed method, a divide-and-conquer based landmark selection algorithm and a novel approximate similarity matrix approach are designed to construct a sparse similarity matrix within extremely low cost. Then clustering results can be computed quickly through a bipartite graph partition process. The proposed method achieves the lower computational complexity than most existing large-scale spectral clustering. Experimental results on ten large-scale datasets have demonstrated the efficiency and effectiveness of the proposed methods. The MATLAB code of the proposed method and experimental datasets are available at https://github.com/L i-Hongmin/MyPaperWit hCode.
翻訳日:2021-05-03 16:24:45 公開日:2021-04-30
# (参考訳) Gated Recurrent Units と Thompson サンプリングによる動的スレート勧告 [全文訳有]

Dynamic Slate Recommendation with Gated Recurrent Units and Thompson Sampling ( http://arxiv.org/abs/2104.15046v1 )

ライセンス: CC BY 4.0
Simen Eide, David S. Leslie, Arnoldo Frigessi(参考訳) 我々は,インターネットプラットフォームのユーザに対して,アイテムリストとしてslatesという,関連するコンテンツを推薦する問題を考える。 本稿では,インターネットプラットフォームとユーザ間のインタラクションの時系列に作用し,実世界の産業状況にスケールするベイズ的リカレントニューラルネット推薦システムを提案する。 レコメンダシステムは、実際のユーザと、ノルウェーのwebベースのマーケットプレースであるfinn.noから収集されたオフラインデータセットの両方でオンラインでテストされている。 これは、ユーザーに提示されるすべてのスレートと、スレート内の(もしあるなら)どのアイテムがクリックされたかを含む、最初の公開データセットの1つである。 このようなデータセットは、ユーザがそれぞれのインタラクションで可能なすべての項目を考慮していると暗黙的に仮定する、一般的な仮定を超えることができます。 その代わりに、実際にスレートにあるアイテムを使って可能性を構築し、理論的および実験において両方のアプローチの長所と短所を評価する。 また,グループメンバシップに基づく項目パラメータの階層的事前設定も導入する。 アイテムパラメータとユーザの好みの両方が確率的に学習される。 さらに,本モデルとバンディット戦略を組み合わせて学習を確実にし,爆発的機会を最大化するためにスレートを利用する'in-slate Thompson Sampling'を導入する。 我々は,探索的レコメンデーション戦略が,同程度以上の欲望に対して有効であることを実験的に示す。 より効果的に学習するために探索を使わなくても、推奨スレートの多様性の改善によってクリック率が向上する。

We consider the problem of recommending relevant content to users of an internet platform in the form of lists of items, called slates. We introduce a variational Bayesian Recurrent Neural Net recommender system that acts on time series of interactions between the internet platform and the user, and which scales to real world industrial situations. The recommender system is tested both online on real users, and on an offline dataset collected from a Norwegian web-based marketplace, FINN.no, that is made public for research. This is one of the first publicly available datasets which includes all the slates that are presented to users as well as which items (if any) in the slates were clicked on. Such a data set allows us to move beyond the common assumption that implicitly assumes that users are considering all possible items at each interaction. Instead we build our likelihood using the items that are actually in the slate, and evaluate the strengths and weaknesses of both approaches theoretically and in experiments. We also introduce a hierarchical prior for the item parameters based on group memberships. Both item parameters and user preferences are learned probabilistically. Furthermore, we combine our model with bandit strategies to ensure learning, and introduce `in-slate Thompson Sampling' which makes use of the slates to maximise explorative opportunities. We show experimentally that explorative recommender strategies perform on par or above their greedy counterparts. Even without making use of exploration to learn more effectively, click rates increase simply because of improved diversity in the recommended slates.
翻訳日:2021-05-03 15:53:39 公開日:2021-04-30
# (参考訳) 2段階ワンショット学習によるアップダブル・シームズ・トラッカー [全文訳有]

Updatable Siamese Tracker with Two-stage One-shot Learning ( http://arxiv.org/abs/2104.15049v1 )

ライセンス: CC BY 4.0
Xinglong Sun, Guangliang Han, Lihong Guo, Tingfa Xu, Jianan Li, Peixun Liu(参考訳) オフラインのシームズネットワークは、特に精度と効率において、非常に有望な追跡性能を達成した。 しかし、オンラインアップデートが不十分なため、複雑なシーンでオブジェクトを追跡できないことが多い。 従来の更新器では、オブジェクトの不規則なバリエーションの処理やノイズのサンプリングが難しいため、siameseネットワークの更新にそれらを採用するのは極めて危険である。 本稿では,まず,多種多様なステージから対象サンプルを抽出した一次分類器の局所パラメータを予測可能な,二段階一発学習器を提案する。 次に,オンライン更新を補完できる学習者(SiamTOL)に基づいて,更新可能なSiameseネットワークを提案する。 具体的には、最新のオブジェクト特徴を逐次キャプチャするための追加入力ブランチを導入し、これらの特徴を使って初期例を更新するための残余モジュールを設計する。 さらに,ネットワークの過度な適合を回避するために,効果的なマルチアスペクトトレーニング損失を設計する。 OTB100, VOT2018, VOT2019, LaSOT, UAV123, GOT10k などの人気ベンチマークの大規模な実験結果から,提案したトラッカーが先行性能を達成し, その他の最先端手法よりも優れた結果が得られた。

Offline Siamese networks have achieved very promising tracking performance, especially in accuracy and efficiency. However, they often fail to track an object in complex scenes due to the incapacity in online update. Traditional updaters are difficult to process the irregular variations and sampling noises of objects, so it is quite risky to adopt them to update Siamese networks. In this paper, we first present a two-stage one-shot learner, which can predict the local parameters of primary classifier with object samples from diverse stages. Then, an updatable Siamese network is proposed based on the learner (SiamTOL), which is able to complement online update by itself. Concretely, we introduce an extra inputting branch to sequentially capture the latest object features, and design a residual module to update the initial exemplar using these features. Besides, an effective multi-aspect training loss is designed for our network to avoid overfit. Extensive experimental results on several popular benchmarks including OTB100, VOT2018, VOT2019, LaSOT, UAV123 and GOT10k manifest that the proposed tracker achieves the leading performance and outperforms other state-of-the-art methods
翻訳日:2021-05-03 15:25:52 公開日:2021-04-30
# (参考訳) 生成モデルによる低線量ctの再現性改善--シミュレーションによる検討 [全文訳有]

Generative Models Improve Radiomics Reproducibility in Low Dose CTs: A Simulation Study ( http://arxiv.org/abs/2104.15050v1 )

ライセンス: CC BY 4.0
Junhua Chen, Chong Zhang, Alberto Traverso, Ivan Zhovannik, Andre Dekker, Leonard Wee and Inigo Bermejo(参考訳) 放射線医学は医用画像解析研究の活発な領域であり、放射線学の再現性が低いことは臨床応用に限定している。 この問題は、低線量ct(low dose computed tomography)スキャンのようなノイズ画像から放射能の特徴を計算する際に特に顕著である。 本稿では, ノイズCTで計算した放射能の再現性を改善するために, 従来のデノナイズ法-非局所的手段-と2つの生成モデル-エンコーダ・デコーダ・ネットワーク(EDN)と条件付きデノナイズ・ネットワーク(CGAN)を試験モデルとして選択した。 低音CTと高音CTの2種類のノイズレベルを持つ低線量CTを模倣するために、フル線量CTのシノグラムにノイズを加えました。 また,同日リピート低線量ctのデータセットを用いて,実データでモデルの性能をテストし,画像中の放射線学的特徴の再現性を評価する。 EDNとCGANは、低ノイズ画像のコンコータンス相関係数(CCC)を0.87から0.92に、高ノイズ画像の0.68から0.92に改善した。 さらに、EDNとCGANは、実際の低線量CTに基づいて、放射能特性(平均CCCは0.89から0.94に増加した)のテスト再検査信頼性を改善した。 その結果, ednおよびcganを用いた雑音下ctで算出した放射能特性の再現性が向上した。 また、ノイズレベルの異なる画像は、高ノイズctのノイズ強度が同等または低ければ、再訓練することなく、これらのモデルを用いて再現性を向上させることができる。 著者らにとって、これは低線量CTスキャンで計算された放射能特性の再現性を改善するための最初の試みである。

Radiomics is an active area of research in medical image analysis, the low reproducibility of radiomics has limited its applicability to clinical practice. This issue is especially prominent when radiomic features are calculated from noisy images, such as low dose computed tomography (CT) scans. In this article, we investigate the possibility of improving the reproducibility of radiomic features calculated on noisy CTs by using generative models for denoising.One traditional denoising method - non-local means - and two generative models - encoder-decoder networks (EDN) and conditional generative adversarial networks (CGANs) - were selected as the test models. We added noise to the sinograms of full dose CTs to mimic low dose CTs with two different levels of noise: low-noise CT and high-noise CT. Models were trained on high-noise CTs and used to denoise low-noise CTs without re-training. We also test the performance of our model in real data, using dataset of same-day repeat low dose CTs to assess the reproducibility of radiomic features in denoised images. The EDN and the CGAN improved the concordance correlation coefficients (CCC) of radiomic features for low-noise images from 0.87 to 0.92 and for high-noise images from 0.68 to 0.92 respectively. Moreover, the EDN and the CGAN improved the test-retest reliability of radiomic features (mean CCC increased from 0.89 to 0.94) based on real low dose CTs. The results show that denoising using EDN and CGANs can improve the reproducibility of radiomic features calculated on noisy CTs. Moreover, images with different noise levels can be denoised to improve the reproducibility using these models without re-training, as long as the noise intensity is equal or lower than that in high-noise CTs. To the authors' knowledge, this is the first effort to improve the reproducibility of radiomic features calculated on low dose CT scans.
翻訳日:2021-05-03 15:12:41 公開日:2021-04-30
# (参考訳) AIOpsにおけるDRAM障害予測 - 経験的評価,課題,機会 [全文訳有]

DRAM Failure Prediction in AIOps: EmpiricalEvaluation, Challenges and Opportunities ( http://arxiv.org/abs/2104.15052v1 )

ライセンス: CC BY 4.0
Zhiyue Wu, Hongzuo Xu, Guansong Pang, Fengyuan Yu, Yijie Wang, Songlei Jian, Yongjun Wang(参考訳) DRAM障害予測は、大規模データセンターの信頼性と持続可能なサービスの維持に不可欠であるAIOpsにおいて重要なタスクである。 しかしながら、DRAMの障害予測には、公開データセットの欠如が主な原因となっている。 本稿では, Alibaba CloudがPAKDD 2021コンペティションを通じて提供した,300万以上のカーネル,アドレス,mcelogデータを含む大規模マルチソースデータセットを用いて, DRAM故障予測のための多様な機械学習手法の総合的評価を行う。 特に,まず問題をマルチクラス分類タスクとして定式化し,個々のデータソースと複数のデータソースの両方で7つの人気/最先端の分類器を徹底的に評価する。 この問題を教師なし異常検出タスクとして定式化し,3つの最先端異常検出器を評価した。 さらに,このコンペに参加した経験的結果と経験から,本課題における大きな課題と今後の研究機会について考察する。

DRAM failure prediction is a vital task in AIOps, which is crucial to maintain the reliability and sustainable service of large-scale data centers. However, limited work has been done on DRAM failure prediction mainly due to the lack of public available datasets. This paper presents a comprehensive empirical evaluation of diverse machine learning techniques for DRAM failure prediction using a large-scale multi-source dataset, including more than three millions of records of kernel, address, and mcelog data, provided by Alibaba Cloud through PAKDD 2021 competition. Particularly, we first formulate the problem as a multi-class classification task and exhaustively evaluate seven popular/state-of-the -art classifiers on both the individual and multiple data sources. We then formulate the problem as an unsupervised anomaly detection task and evaluate three state-of-the-art anomaly detectors. Further, based on the empirical results and our experience of attending this competition, we discuss major challenges and present future research opportunities in this task.
翻訳日:2021-05-03 14:59:11 公開日:2021-04-30
# (参考訳) グラフニューラルネットワークに対するブラックボックス勾配攻撃:グラフに基づく攻撃と防御に関する深い洞察 [全文訳有]

Black-box Gradient Attack on Graph Neural Networks: Deeper Insights in Graph-based Attack and Defense ( http://arxiv.org/abs/2104.15061v1 )

ライセンス: CC BY 4.0
Haoxi Zhan, Xiaobing Pei(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ表現学習タスクにおける最先端の性能のために注目されている。 しかし、近年の研究では、GNNは敵の攻撃に弱いことが判明している。 攻撃者はグラフ構造やノード機能を意図的に乱すことでGNNを騙すことができる。 GNNの性能をうまく低下させることができるが、既存の攻撃アルゴリズムのほとんどは、実際の世界では実用的ではないモデルパラメータまたはトレーニングデータにアクセスする必要がある。 本稿では,代表的なグレーボックス攻撃法であるMettackアルゴリズムについて,より深い知見を得た上で,勾配に基づくブラックボックス攻撃アルゴリズムを提案する。 まず,メッタックアルゴリズムがエッジを不均一に摂動させるため,特定のトレーニングセットに強く依存することを示す。 その結果、Mettackに対して防御するためのシンプルだが有用な戦略は、検証セットでGNNをトレーニングすることだ。 次に,この欠点を克服するために,ブラックボックス勾配攻撃 (bbga) アルゴリズムを提案する。 広範な実験により,提案手法がgnnのトレーニングセットにアクセスせずに,安定した攻撃性能を達成できることが実証された。 さらに, 本手法は, 各種防衛手法に対する攻撃にも適用可能であることを示す。

Graph Neural Networks (GNNs) have received significant attention due to their state-of-the-art performance on various graph representation learning tasks. However, recent studies reveal that GNNs are vulnerable to adversarial attacks, i.e. an attacker is able to fool the GNNs by perturbing the graph structure or node features deliberately. While being able to successfully decrease the performance of GNNs, most existing attacking algorithms require access to either the model parameters or the training data, which is not practical in the real world. In this paper, we develop deeper insights into the Mettack algorithm, which is a representative grey-box attacking method, and then we propose a gradient-based black-box attacking algorithm. Firstly, we show that the Mettack algorithm will perturb the edges unevenly, thus the attack will be highly dependent on a specific training set. As a result, a simple yet useful strategy to defense against Mettack is to train the GNN with the validation set. Secondly, to overcome the drawbacks, we propose the Black-Box Gradient Attack (BBGA) algorithm. Extensive experiments demonstrate that out proposed method is able to achieve stable attack performance without accessing the training sets of the GNNs. Further results shows that our proposed method is also applicable when attacking against various defense methods.
翻訳日:2021-05-03 14:48:45 公開日:2021-04-30
# (参考訳) 進化戦略を用いたブラックボックス攻撃 [全文訳有]

Black-box adversarial attacks using Evolution Strategies ( http://arxiv.org/abs/2104.15064v1 )

ライセンス: CC BY 4.0
Hao Qiu, Leonardo Lucio Custode, Giovanni Iacca(参考訳) 過去10年間で、ディープニューラルネットワークはコンピュータビジョンタスクにおいて非常に強力であることが証明され、コンピュータビジョンと機械学習分野の革命が始まった。 しかし、ディープニューラルネットワークは通常、入力データの摂動に対して堅牢ではない。 実際、いくつかの研究は、画像の内容がわずかに変化すると、攻撃されたニューラルネットワークの精度が劇的に低下する可能性があることを示した。 敵のサンプルを生成できるいくつかの方法は、現実のシナリオでは攻撃者が利用できない勾配を利用する。 このタイプの攻撃とは対照的に、ブラックボックスの敵攻撃と呼ばれる別の種類の敵攻撃が出現し、現実の攻撃シナリオにより適しているため、勾配に関する情報は利用されない。 本研究では,画像分類タスクにおけるブラックボックス攻撃の発生に関する3つの既知の進化戦略を比較した。 我々の結果は、攻撃されたニューラルネットワークは、ほとんどの場合、比較中のすべてのアルゴリズムに簡単に騙される可能性があることを示しているが、攻撃の成功率と効率(クエリ数)の両面で、いくつかのブラックボックス最適化アルゴリズムが"よりハード"な設定で優れていることを示している。

In the last decade, deep neural networks have proven to be very powerful in computer vision tasks, starting a revolution in the computer vision and machine learning fields. However, deep neural networks, usually, are not robust to perturbations of the input data. In fact, several studies showed that slightly changing the content of the images can cause a dramatic decrease in the accuracy of the attacked neural network. Several methods able to generate adversarial samples make use of gradients, which usually are not available to an attacker in real-world scenarios. As opposed to this class of attacks, another class of adversarial attacks, called black-box adversarial attacks, emerged, which does not make use of information on the gradients, being more suitable for real-world attack scenarios. In this work, we compare three well-known evolution strategies on the generation of black-box adversarial attacks for image classification tasks. While our results show that the attacked neural networks can be, in most cases, easily fooled by all the algorithms under comparison, they also show that some black-box optimization algorithms may be better in "harder" setups, both in terms of attack success rate and efficiency (i.e., number of queries).
翻訳日:2021-05-03 14:37:22 公開日:2021-04-30
# (参考訳) GTN-ED:グラフトランスを用いたイベント検出 [全文訳有]

GTN-ED: Event Detection Using Graph Transformer Networks ( http://arxiv.org/abs/2104.15104v1 )

ライセンス: CC BY 4.0
Sanghamitra Dutta and Liang Ma and Tanay Kumar Saha and Di Lu and Joel Joel Tetreault and Alex Jaimes(参考訳) 近年の研究では、依存パーサから生成される文のグラフ構造が、イベント検出を改善する可能性を秘めている。 しかし、しばしば単語間のエッジ(依存性)のみを利用し、依存ラベル(例:名目-サブジェクト)を破棄し、基礎となるグラフエッジを均質として扱う。 本稿では,グラフトランスフォーマーネットワーク(GTN)と呼ばれる手法を用いて,依存関係とラベルを一体化するための新しいフレームワークを提案する。 我々はgtnを統合し,既存の2つの均質グラフモデルへの依存関係を活用し,aceデータセットにおけるf1スコアの改善を示す。

Recent works show that the graph structure of sentences, generated from dependency parsers, has potential for improving event detection. However, they often only leverage the edges (dependencies) between words, and discard the dependency labels (e.g., nominal-subject), treating the underlying graph edges as homogeneous. In this work, we propose a novel framework for incorporating both dependencies and their labels using a recently proposed technique called Graph Transformer Networks (GTN). We integrate GTNs to leverage dependency relations on two existing homogeneous-graph-ba sed models, and demonstrate an improvement in the F1 score on the ACE dataset.
翻訳日:2021-05-03 14:28:08 公開日:2021-04-30
# (参考訳) 距離測定の情報内容のランク付け [全文訳有]

Ranking the information content of distance measures ( http://arxiv.org/abs/2104.15079v1 )

ライセンス: CC BY 4.0
Aldo Glielmo, Claudio Zeni, Bingqing Cheng, Gabor Csanyi, Alessandro Laio(参考訳) 実世界のデータは通常、自然、関連性、および測定単位においてしばしば不均一な多くの特徴を含む。 データポイント間の類似性を評価する場合、これらの特徴のサブセットを使用して様々な距離測定を構築することができる。 最も少ない特徴を用いるが、システムに関する十分な情報を保持することは、多くの統計的学習手法、特にデータが不足している場合において重要である。 2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入し、それらが等価か独立か、あるいは一方が他方よりも情報的であるかを決定する。 これにより、候補者のプールから最も情報性の高い距離を測定することができる。 このアプローチは、Covid-19の流行を制御するための最も関連するポリシー変数を見つけ、コンパクトで情報に富む原子構造の表現を見つけるために応用されるが、その潜在的な応用は科学の多くの分野において幅広い。

Real-world data typically contain a large number of features that are often heterogeneous in nature, relevance, and also units of measure. When assessing the similarity between data points, one can build various distance measures using subsets of these features. Using the fewest features but still retaining sufficient information about the system is crucial in many statistical learning approaches, particularly when data are sparse. We introduce a statistical test that can assess the relative information retained when using two different distance measures, and determine if they are equivalent, independent, or if one is more informative than the other. This in turn allows finding the most informative distance measure out of a pool of candidates. The approach is applied to find the most relevant policy variables for controlling the Covid-19 epidemic and to find compact yet informative representations of atomic structures, but its potential applications are wide ranging in many branches of science.
翻訳日:2021-05-03 14:08:42 公開日:2021-04-30
# 説明に基づくNLPモデルのヒューマンデバッグに関する調査

Explanation-Based Human Debugging of NLP Models: A Survey ( http://arxiv.org/abs/2104.15135v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Francesca Toni(参考訳) プログラムのバグを修正するには、バグの所在を特定し、なぜ問題を引き起こすのかを理解し、それに応じてコードをパッチする必要がある。 このプロセスは、プログラムが訓練された機械学習モデルであり、不透明なディープラーニングモデルにとってさらに困難になる。 本研究では,人間によるNLPモデルのデバッグを可能にするために,説明を利用した論文をレビューする。 我々はこの問題を,EBHD (Human Debug) と呼ぶ。 特に、EBHD(バグコンテキスト、ワークフロー、実験環境)の3つの主要な側面に沿った既存の研究を分類し、議論し、EBHDコンポーネントがヒューマンデバッガにどのように影響するかの知見をコンパイルし、将来の研究方向であるオープンな問題を強調する。

To fix a bug in a program, we need to locate where the bug is, understand why it causes the problem, and patch the code accordingly. This process becomes harder when the program is a trained machine learning model and even harder for opaque deep learning models. In this survey, we review papers that exploit explanations to enable humans to debug NLP models. We call this problem explanation-based human debugging (EBHD). In particular, we categorize and discuss existing works along three main dimensions of EBHD (the bug context, the workflow, and the experimental setting), compile findings on how EBHD components affect human debuggers, and highlight open problems that could be future research directions.
翻訳日:2021-05-03 13:54:19 公開日:2021-04-30
# 水中画像における魚数計測のための自己監督と不確実性正則化による深層学習

Deep learning with self-supervision and uncertainty regularization to count fish in underwater images ( http://arxiv.org/abs/2104.14964v1 )

ライセンス: Link先を確認
Penny Tarling, Mauricio Cantor, Albert Clap\'es and Sergio Escalera(参考訳) 効果的な保全活動には効果的な個体群モニタリングが必要である。 しかし、野生動物を正確に数えて保護の意思決定を伝えることは困難である。 画像サンプリングによる人口のモニタリングは、データの収集を安く、広くなり、侵入も少ないが、このデータを効率的に処理し分析する必要がある。 このようなデータから動物を数えることは、特にノイズの多い画像が密集している場合には困難である。 手動で試すのは遅くて高価だが、従来のコンピュータビジョンの手法は汎用性に制限がある。 深層学習は多くのコンピュータビジョンタスクの最先端の手法であるが、動物を数えるためにはまだ十分に研究されていない。 この目的のために,魚を低解像度ソナー画像にカウントするために,密度に基づく回帰手法を用いた深層学習を用いる。 我々は,500点のラベル付き画像を含む野生のmullet school (mugil liza) を録画するためにデプロイされたsonarビデオの大規模なデータセットを紹介する。 我々は、教師付きカウントタスクを改善するために、自己教師付きタスクで大量の未ラベルデータを活用する。 この文脈で初めて不確実性定量化を導入することで、モデルトレーニングを改善し、よりインフォームドな生物学的意思決定のための予測不確実性尺度を提供する。 最後に,様々な生息地(deepfish)から得られた高分解能アノテート水中画像のベンチマークデータセットを用いて,提案手法の汎用性を示す。 両方の対照的なデータセットの実験から、この課題を解決するために実装されたいくつかのディープラーニングモデルよりも、ネットワークが優れていることを示す。 トレーニングデータとともにオープンソースのフレームワークを提供することにより,水生動物を群集にカウントするための効率的なディープラーニングテンプレートが提供され,より多くなる視覚データから自然個体群を評価する効果的な方法が提案された。

Effective conservation actions require effective population monitoring. However, accurately counting animals in the wild to inform conservation decision-making is difficult. Monitoring populations through image sampling has made data collection cheaper, wide-reaching and less intrusive but created a need to process and analyse this data efficiently. Counting animals from such data is challenging, particularly when densely packed in noisy images. Attempting this manually is slow and expensive, while traditional computer vision methods are limited in their generalisability. Deep learning is the state-of-the-art method for many computer vision tasks, but it has yet to be properly explored to count animals. To this end, we employ deep learning, with a density-based regression approach, to count fish in low-resolution sonar images. We introduce a large dataset of sonar videos, deployed to record wild mullet schools (Mugil liza), with a subset of 500 labelled images. We utilise abundant unlabelled data in a self-supervised task to improve the supervised counting task. For the first time in this context, by introducing uncertainty quantification, we improve model training and provide an accompanying measure of prediction uncertainty for more informed biological decision-making. Finally, we demonstrate the generalisability of our proposed counting framework through testing it on a recent benchmark dataset of high-resolution annotated underwater images from varying habitats (DeepFish). From experiments on both contrasting datasets, we demonstrate our network outperforms the few other deep learning models implemented for solving this task. By providing an open-source framework along with training data, our study puts forth an efficient deep learning template for crowd counting aquatic animals thereby contributing effective methods to assess natural populations from the ever-increasing visual data.
翻訳日:2021-05-03 13:53:52 公開日:2021-04-30
# アクション・イン・マインド:アクション認識とセグメンテーションへのニューラルネットワークアプローチ

Action in Mind: A Neural Network Approach to Action Recognition and Segmentation ( http://arxiv.org/abs/2104.14870v1 )

ライセンス: Link先を確認
Zahra Gharaee(参考訳) ヒューマンアクションの認識と分類は、人間とロボットのインタラクション、ビデオ分析、監視、ビデオ検索、医療システム、エンタテインメント産業といった様々な分野のアプリケーションにおいて重要なタスクである。 本稿では,ニューラルネットワークに基づく多層アーキテクチャの異なる実装によるヒューマンアクション認識のための新しい計算手法を提案する。 各システムレベルの開発は、オンラインリアルタイム処理、アクションセグメンテーション、オブジェクトの関与を含む、アクション認識問題のさまざまな側面を解決するように設計されている。 実験結果の分析は6つの記事で説明されている。 この論文のアクション認識アーキテクチャは、前処理層、順序付きベクトル表現層、ニューラルネットワークの3層を含む複数の処理層で構成されている。 メインのニューラルネットワーク層として、Kohonenのフィーチャーマップや成長するグリッドなどの自己組織化ニューラルネットワークを使用している。 したがって、このアーキテクチャは、ニューロンの地形構造、側方相互作用、半教師あり学習、低次元マップにおける高次元入力空間を表現する能力など、特定の特徴を持つ生物学的に妥当なアプローチを示す。 開発の各段階において、システムは連続する3d体姿勢からなる入力データで訓練され、システムがこれまで経験したことのない一般的な入力データでテストされる。 異なるシステムレベルの開発実験の結果から,システムは人間の行動を認識するのに非常に高い精度で機能することが示された。

Recognizing and categorizing human actions is an important task with applications in various fields such as human-robot interaction, video analysis, surveillance, video retrieval, health care system and entertainment industry. This thesis presents a novel computational approach for human action recognition through different implementations of multi-layer architectures based on artificial neural networks. Each system level development is designed to solve different aspects of the action recognition problem including online real-time processing, action segmentation and the involvement of objects. The analysis of the experimental results are illustrated and described in six articles. The proposed action recognition architecture of this thesis is composed of several processing layers including a preprocessing layer, an ordered vector representation layer and three layers of neural networks. It utilizes self-organizing neural networks such as Kohonen feature maps and growing grids as the main neural network layers. Thus the architecture presents a biological plausible approach with certain features such as topographic organization of the neurons, lateral interactions, semi-supervised learning and the ability to represent high dimensional input space in lower dimensional maps. For each level of development the system is trained with the input data consisting of consecutive 3D body postures and tested with generalized input data that the system has never met before. The experimental results of different system level developments show that the system performs well with quite high accuracy for recognizing human actions.
翻訳日:2021-05-03 13:53:24 公開日:2021-04-30
# 多言語ドメイン固有単語埋め込みに基づく言語間ヘイトスピーチ検出

Cross-lingual hate speech detection based on multilingual domain-specific word embeddings ( http://arxiv.org/abs/2104.14728v1 )

ライセンス: Link先を確認
Aym\'e Arango, Jorge P\'erez and Barbara Poblete(参考訳) オンラインソーシャルネットワークにおけるヘイトスピーチの自動検出は、自然言語処理(NLP)において重要な問題である。 ヘイトスピーチは多次元の問題であり、言語や文化的要因に強く依存している。 その関連性にもかかわらず、この話題に関する研究はほとんど英語に限られている。 ラベル付きデータセットやNLPツールなど、ほとんどの教師付き学習リソースがこの言語用に作成されている。 世界中のユーザーが英語以外の言語で話すことを考えると、多言語ヘイトスピーチ検出のための効率的なアプローチを作るための重要なニーズがある。 本研究では,トランスファー学習の観点から,多言語ヘイトスピーチ検出の問題に対処することを提案する。 我々のゴールは、ある特定の言語からの知識が他の言語を分類するのに使えるかどうかを判断し、これを達成する効果的な方法を決定することである。 我々はヘイト固有のデータ表現を提案し,その効果を汎用普遍表現に対して評価する。 我々は、言語横断的な設定に焦点を当て、その言語のためにラベル付きデータにアクセスすることなく、ある言語でヘイトスピーチを分類する必要がある。 単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。 我々は、ヘイトスピーチが異なる言語でどのように現れるかに関して、我々の特定の表現が共通のパターンを捉えることができることを示す定性的な分析でこれを説明する。 提案は,我々の知る限りでは,多言語固有タスク表現構築の最初の試みである。 その単純さにもかかわらず、実験的なセットアップのほとんどにおいて、我々のモデルは以前のアプローチよりも優れていた。 我々の発見は、ドメイン固有表現の使用に対する将来の解決策を導き出すことができる。

Automatic hate speech detection in online social networks is an important open problem in Natural Language Processing (NLP). Hate speech is a multidimensional issue, strongly dependant on language and cultural factors. Despite its relevance, research on this topic has been almost exclusively devoted to English. Most supervised learning resources, such as labeled datasets and NLP tools, have been created for this same language. Considering that a large portion of users worldwide speak in languages other than English, there is an important need for creating efficient approaches for multilingual hate speech detection. In this work we propose to address the problem of multilingual hate speech detection from the perspective of transfer learning. Our goal is to determine if knowledge from one particular language can be used to classify other language, and to determine effective ways to achieve this. We propose a hate specific data representation and evaluate its effectiveness against general-purpose universal representations most of which, unlike our proposed model, have been trained on massive amounts of data. We focus on a cross-lingual setting, in which one needs to classify hate speech in one language without having access to any labeled data for that language. We show that the use of our simple yet specific multilingual hate representations improves classification results. We explain this with a qualitative analysis showing that our specific representation is able to capture some common patterns in how hate speech presents itself in different languages. Our proposal constitutes, to the best of our knowledge, the first attempt for constructing multilingual specific-task representations. Despite its simplicity, our model outperformed the previous approaches for most of the experimental setups. Our findings can orient future solutions toward the use of domain-specific representations.
翻訳日:2021-05-03 13:52:46 公開日:2021-04-30
# 知識表現学習のための逆伝達ネットワーク

An Adversarial Transfer Network for Knowledge Representation Learning ( http://arxiv.org/abs/2104.14757v1 )

ライセンス: Link先を確認
Huijuan Wang, Shuangyin Li, Rong Pan(参考訳) 知識表現学習はここ数年、多くの注目を集めてきた。 既存の手法の成功は知識グラフの品質に大きく依存している。 少ない三重項を持つ実体は、表現力の少ないものを学ぶ傾向がある。 幸いにも、さまざまな情報源から構築された知識グラフは数多く存在し、その表現には多くの情報が含まれる可能性がある。 本稿では,教師の知識グラフから対象の知識を,明示的なデータ漏洩を伴わずにアライメントされたエンティティセットを介して伝達する,敵対的埋め込み転送ネットワークatransnを提案する。 具体的には,既存の知識表現学習手法に,アライメントされたエンティティペアと近傍にソフト制約を加える。 教師と目標知識グラフの分布差の問題に対処するために, 対角適応モジュールを導入する。 このモジュールの判別器は、アライメントされたエンティティペアの埋め込みの間の一貫性の度合いを評価する。 その後、一貫性スコアがソフト制約の重みとして使用される。 実体表現のみを利用するため、教師知識グラフにおける関係や三つ子を取得する必要はない。 知識グラフ補完の結果から,ATransNはCN3l,WK3l,DWY100kの3つのデータセットを転送することなく,ベースラインに対してより良い性能が得られることが示された。 アブレーション研究は、ATransNが異なる設定で安定して一貫した改善をもたらすことを示した。 他の知識グラフ埋め込みアルゴリズムと3つの教師グラフの拡張を組み合わせた拡張は、逆転送ネットワークの有望な一般化を表示する。

Knowledge representation learning has received a lot of attention in the past few years. The success of existing methods heavily relies on the quality of knowledge graphs. The entities with few triplets tend to be learned with less expressive power. Fortunately, there are many knowledge graphs constructed from various sources, the representations of which could contain much information. We propose an adversarial embedding transfer network ATransN, which transfers knowledge from one or more teacher knowledge graphs to a target one through an aligned entity set without explicit data leakage. Specifically, we add soft constraints on aligned entity pairs and neighbours to the existing knowledge representation learning methods. To handle the problem of possible distribution differences between teacher and target knowledge graphs, we introduce an adversarial adaption module. The discriminator of this module evaluates the degree of consistency between the embeddings of an aligned entity pair. The consistency score is then used as the weights of soft constraints. It is not necessary to acquire the relations and triplets in teacher knowledge graphs because we only utilize the entity representations. Knowledge graph completion results show that ATransN achieves better performance against baselines without transfer on three datasets, CN3l, WK3l, and DWY100k. The ablation study demonstrates that ATransN can bring steady and consistent improvement in different settings. The extension of combining other knowledge graph embedding algorithms and the extension with three teacher graphs display the promising generalization of the adversarial transfer network.
翻訳日:2021-05-03 13:52:24 公開日:2021-04-30
# 強化校正による言語モデルにおける政治的バイアスの緩和

Mitigating Political Bias in Language Models Through Reinforced Calibration ( http://arxiv.org/abs/2104.14795v1 )

ライセンス: Link先を確認
Ruibo Liu, Chenyan Jia, Jason Wei, Guangxuan Xu, Lili Wang, Soroush Vosoughi(参考訳) 現在の大規模言語モデルは、トレーニングされたデータの結果、政治的に偏りがあり、実際の環境にデプロイされた時に深刻な問題を引き起こす可能性がある。 本稿では,gpt-2世代における政治的バイアスを測定するための指標について述べるとともに,生成テキストにおける政治的バイアスを軽減するための強化学習(rl)フレームワークを提案する。 単語埋め込みや分類器からの報酬を利用することで、我々のRLフレームワークは、トレーニングデータにアクセスしたり、モデルを再訓練する必要なしに、縮退した生成をガイドする。 政治的バイアス(性別,場所,話題)に敏感な3つの属性に関する実証実験では,可読性とセマンティック・コヒーレンスを維持しつつ,指標と人的評価の両方に応じてバイアスを減らした。

Current large-scale language models can be politically biased as a result of the data they are trained on, potentially causing serious problems when they are deployed in real-world settings. In this paper, we describe metrics for measuring political bias in GPT-2 generation and propose a reinforcement learning (RL) framework for mitigating political biases in generated text. By using rewards from word embeddings or a classifier, our RL framework guides debiased generation without having access to the training data or requiring the model to be retrained. In empirical experiments on three attributes sensitive to political bias (gender, location, and topic), our methods reduced bias according to both our metrics and human evaluation, while maintaining readability and semantic coherence.
翻訳日:2021-05-03 13:52:03 公開日:2021-04-30
# 車両属性とカメラ間の相互排除に基づく車両再識別手法

Vehicle Re-identification Method Based on Vehicle Attribute and Mutual Exclusion Between Cameras ( http://arxiv.org/abs/2104.14882v1 )

ライセンス: Link先を確認
Junru Chen, Shiqing Geng, Yongluan Yan, Danyang Huang, Hao Liu, Yadong Li(参考訳) 車両の再識別は、時間とカメラの視点で特定の車両を特定することを目的としている。 インテリジェント交通システムとスマートシティの急速な成長に伴い、車両再識別技術はますます注目を集めている。 しかし、同じブランドに属する車両の射撃角度の違いと高い類似性により、車両の再識別は既存手法にとって大きな課題となる。 本稿では,車両のRe-ID結果を再ランクする車両属性誘導手法を提案する。 属性には車両の向きと車両のブランドが含まれる。 また,カメラ情報に着目し,カメラ相互排他理論を導入し,検索結果をさらに微調整する。 特徴抽出の観点からは、マルチ解像度のデータ拡張と大型モデルアンサンブルを組み合わせることで、より堅牢な車両機能を実現する。 CVPR 2021 AI City Challengeでは,mAPの63.73%,ランク1の精度76.61%を達成した。

Vehicle Re-identification aims to identify a specific vehicle across time and camera view. With the rapid growth of intelligent transportation systems and smart cities, vehicle Re-identification technology gets more and more attention. However, due to the difference of shooting angle and the high similarity of vehicles belonging to the same brand, vehicle re-identification becomes a great challenge for existing method. In this paper, we propose a vehicle attribute-guided method to re-rank vehicle Re-ID result. The attributes used include vehicle orientation and vehicle brand . We also focus on the camera information and introduce camera mutual exclusion theory to further fine-tune the search results. In terms of feature extraction, we combine the data augmentations of multi-resolutions with the large model ensemble to get a more robust vehicle features. Our method achieves mAP of 63.73% and rank-1 accuracy 76.61% in the CVPR 2021 AI City Challenge.
翻訳日:2021-05-03 13:51:49 公開日:2021-04-30
# フラット化多パラメータ階層クラスタリングファクタ

Flattening Multiparameter Hierarchical Clustering Functors ( http://arxiv.org/abs/2104.14734v1 )

ライセンス: Link先を確認
Dan Shiebler(参考訳) 我々は,マルチパラメータ階層クラスタリングを研究するために,トポロジカルデータ解析,応用カテゴリ理論,機械学習を組み合わせる。 まず,マルチパラメータ階層クラスタリングのフラット化手順を導入する。 この手順は、マルチパラメータ階層分割のカテゴリからバイナリ整数プログラムのカテゴリへの関手であることを実証する。 また,その効果を示す実験結果も含む。 次に,データからクラスタリングパラメータを学習するためのベイズ更新アルゴリズムを提案する。 このアルゴリズムの平坦化手順による構成が整合性を満たすことを実証する。

We bring together topological data analysis, applied category theory, and machine learning to study multiparameter hierarchical clustering. We begin by introducing a procedure for flattening multiparameter hierarchical clusterings. We demonstrate that this procedure is a functor from a category of multiparameter hierarchical partitions to a category of binary integer programs. We also include empirical results demonstrating its effectiveness. Next, we introduce a Bayesian update algorithm for learning clustering parameters from data. We demonstrate that the composition of this algorithm with our flattening procedure satisfies a consistency property.
翻訳日:2021-05-03 13:51:37 公開日:2021-04-30
# 交通予測のための動的グラフ畳み込みリカレントネットワーク:ベンチマークと解法

Dynamic Graph Convolutional Recurrent Network for Traffic Prediction: Benchmark and Solution ( http://arxiv.org/abs/2104.14917v1 )

ライセンス: Link先を確認
Fuxian Li, Jie Feng, Huan Yan, Guangyin Jin, Depeng Jin, and Yong Li(参考訳) 交通予測はインテリジェントな交通システムの基盤である。 スマートシティ、すなわちインテリジェントな交通管理と都市計画の応用には、正確な交通予測が不可欠である。 時空間モデリングには様々な手法が提案されているが,道路網における相関の動的特性は無視できる。 一方、ほとんどのリカレントニューラルネットワーク(RNN)ベースの作業は、リカレント操作のために十分に効率が良くない。 さらに、同じデータセット上の異なるメソッド間での公平な比較が極めて欠如している。 本稿では,上記の課題に対処するために,動的グラフ畳み込みリカレントネットワーク(dgcrn)と呼ばれる新しいトラヒック予測フレームワークを提案する。 DGCRNでは、ハイパーネットワークはノード属性から動的特性を活用、抽出するために設計され、動的フィルタのパラメータは各ステップで生成される。 ノードの埋め込みをフィルタリングし、それを使って動的グラフを生成し、事前に定義された静的グラフと統合する。 我々の知る限りでは、動的グラフの微妙なトポロジーを各ステップごとにモデル化する生成法を最初に採用した。 さらに,効率と性能を向上させるために,DGCRNのトレーニング戦略を用いて,前方・後方伝搬におけるデコーダの繰り返し数を制限する。 最後に、公平な比較とさらなる研究のために、再現可能な標準ベンチマークと真新しい代表トラフィックデータセットがオープンされる。 3つのデータセットに対する大規模な実験により、我々のモデルは15のベースラインを一貫して上回ります。 ソースコードはhttps://github.com/t singhua-fib-lab/traf fic-benchmarkで入手できる。

Traffic prediction is the cornerstone of an intelligent transportation system. Accurate traffic forecasting is essential for the applications of smart cities, i.e., intelligent traffic management and urban planning. Although various methods are proposed for spatio-temporal modeling, they ignore the dynamic characteristics of correlations among locations on road networks. Meanwhile, most Recurrent Neural Network (RNN) based works are not efficient enough due to their recurrent operations. Additionally, there is a severe lack of fair comparison among different methods on the same datasets. To address the above challenges, in this paper, we propose a novel traffic prediction framework, named Dynamic Graph Convolutional Recurrent Network (DGCRN). In DGCRN, hyper-networks are designed to leverage and extract dynamic characteristics from node attributes, while the parameters of dynamic filters are generated at each time step. We filter the node embeddings and then use them to generate a dynamic graph, which is integrated with a pre-defined static graph. As far as we know, we are the first to employ a generation method to model fine topology of dynamic graph at each time step. Further, to enhance efficiency and performance, we employ a training strategy for DGCRN by restricting the iteration number of decoder during forward and backward propagation. Finally, a reproducible standardized benchmark and a brand new representative traffic dataset are opened for fair comparison and further research. Extensive experiments on three datasets demonstrate that our model outperforms 15 baselines consistently. Source codes are available at https://github.com/t singhua-fib-lab/Traf fic-Benchmark.
翻訳日:2021-05-03 13:51:31 公開日:2021-04-30
# ネットワーク上での学習。 フェデレーション学習とスプリット学習の比較研究

On In-network learning. A Comparative Study with Federated and Split Learning ( http://arxiv.org/abs/2104.14929v1 )

ライセンス: Link先を確認
Matei Moldoveanu and Abdellatif Zaidi(参考訳) 本稿では,無線ネットワークにおいて,分散抽出機能を用いて推論を行う問題について考察する。 本稿では,提案するアーキテクチャを「ネットワーク内学習」と呼び,適切な損失関数を提供し,ニューラルネットワークを用いた最適化について考察する。 我々はフェデレート学習とスプリット学習を比較し、このアーキテクチャがより精度と帯域幅の節約を提供することを示す。

In this paper, we consider a problem in which distributively extracted features are used for performing inference in wireless networks. We elaborate on our proposed architecture, which we herein refer to as "in-network learning", provide a suitable loss function and discuss its optimization using neural networks. We compare its performance with both Federated- and Split learning; and show that this architecture offers both better accuracy and bandwidth savings.
翻訳日:2021-05-03 13:50:49 公開日:2021-04-30
# 時空間トラヒックデータインプテーションのための低ランク自己回帰テンソル補完

Low-Rank Autoregressive Tensor Completion for Spatiotemporal Traffic Data Imputation ( http://arxiv.org/abs/2104.14936v1 )

ライセンス: Link先を確認
Xinyu Chen, Mengying Lei, Nicolas Saunier, Lijun Sun(参考訳) センサーシステムから収集された時空間交通時間(例えば、交通量/速度)は、しばしばかなりの汚職と大量の欠落した値で不完全であり、利用者がデータの完全なパワーを利用するのを妨げている。 データ計算の欠如は長年の研究課題であり、現実世界のインテリジェント交通システムにとって重要な応用である。 広く応用された計算法は低ランク行列/テンソル完備化であるが、低ランク仮定は時空間データの強い局所的一貫性を無視しながら大域構造を保っている。 本稿では,第3次テンソル(センサ $\times$ time of day $\times$ day)の完了に新しい正規化項として \textit{temporal variation} を導入することで,低ランク自己回帰テンソル補完(latc)フレームワークを提案する。 3階テンソル構造により、季節性や日々の類似性など、トラフィックデータのグローバルな一貫性をよりよく捉えることができる。 局所的な整合性を達成するため,各時系列に対してAR($p$)モデルを学習可能なパラメータとして与えることで時間変動を設計する。 従来の空間的・時間的規則化方式と異なり、時間的変動の最小化は局所的滑らか性を超えた時間的生成機構をより特徴付けることができ、「ブラックアウト」欠落のようなより困難なシナリオに対処することができる。 LATCにおける最適化問題を解決するため,低ランクテンソルと自己回帰係数を反復的に推定する交代最小化方式を提案する。 本研究では,複数の実世界の交通データ集合について広範な数値実験を行い,LATCの有効性を実証した。

Spatiotemporal traffic time series (e.g., traffic volume/speed) collected from sensing systems are often incomplete with considerable corruption and large amounts of missing values, preventing users from harnessing the full power of the data. Missing data imputation has been a long-standing research topic and critical application for real-world intelligent transportation systems. A widely applied imputation method is low-rank matrix/tensor completion; however, the low-rank assumption only preserves the global structure while ignores the strong local consistency in spatiotemporal data. In this paper, we propose a low-rank autoregressive tensor completion (LATC) framework by introducing \textit{temporal variation} as a new regularization term into the completion of a third-order (sensor $\times$ time of day $\times$ day) tensor. The third-order tensor structure allows us to better capture the global consistency of traffic data, such as the inherent seasonality and day-to-day similarity. To achieve local consistency, we design the temporal variation by imposing an AR($p$) model for each time series with coefficients as learnable parameters. Different from previous spatial and temporal regularization schemes, the minimization of temporal variation can better characterize temporal generative mechanisms beyond local smoothness, allowing us to deal with more challenging scenarios such "blackout" missing. To solve the optimization problem in LATC, we introduce an alternating minimization scheme that estimates the low-rank tensor and autoregressive coefficients iteratively. We conduct extensive numerical experiments on several real-world traffic data sets, and our results demonstrate the effectiveness of LATC in diverse missing scenarios.
翻訳日:2021-05-03 13:50:42 公開日:2021-04-30
# 確率的推論のための縮退ガウス因子

Degenerate Gaussian factors for probabilistic inference ( http://arxiv.org/abs/2104.15010v1 )

ライセンス: Link先を確認
J. C. Schoeman, C. E. van Daalen, J. A. du Preez(参考訳) 本稿では,確率変数間に線形依存が存在するガウスネットワーク上での推論を可能にするパラメータ係数を提案する。 我々の因子表現は、(共分散および精密行列の)正定値制約が緩和された伝統的なガウスパラメータの一般化である。 この目的のために、様々な統計演算と結果(確率変数のマージン化、乗法、アフィン変換など)を導出し、ガウス因子の能力をこれらの退化設定に拡張する。 この原理的因子の定義を用いることで、デジネラシーは計算コストを少し加えることなく正確かつ自動的に収容できる。 本手法を,協調移動ロボットの帰納的状態推定を含む代表例に適用する。

In this paper, we propose a parametrised factor that enables inference on Gaussian networks where linear dependencies exist among the random variables. Our factor representation is a generalisation of traditional Gaussian parametrisations where the positive-definite constraint (of covariance and precision matrices) has been relaxed. For this purpose, we derive various statistical operations and results (such as marginalisation, multiplication and affine transformations of random variables) which extend the capabilities of Gaussian factors to these degenerate settings. By using this principled factor definition, degeneracies can be accommodated accurately and automatically at little additional computational cost. As illustration, we apply our methodology to a representative example involving recursive state estimation of cooperative mobile robots.
翻訳日:2021-05-03 13:50:11 公開日:2021-04-30
# 宝くじ刈りマスクの一貫性と構成性に関する研究

Studying the Consistency and Composability of Lottery Ticket Pruning Masks ( http://arxiv.org/abs/2104.14753v1 )

ライセンス: Link先を確認
Rajiv Movva, Jonathan Frankle, Michael Carbin(参考訳) マグニチュードプルーニング(Magnitude pruning)は、スパースサブネットワークを精度の低いコストで識別する一般的な、効果的な手法である。 本研究では,特定のアーキテクチャの精度とスパーシティのトレードオフを,複数のトレーニング実行におけるプルーニング情報を組み合わせて改善できるかどうかを問う。 共有 ResNet-20 の初期化から CIFAR-10 上で異なる SGD データオーダを用いて複数のネットワークコピー (\emph{siblings} ) をトレーニングする。 兄弟姉妹の刈り取りマスクは、偶然とあまり似ていないが、数回の共有前訓練の後、兄弟姉妹のトレーニングを開始すると、刈り取りの重なりが著しく増加する。 次に、(1)兄弟姉妹の刈り取り(マスク結合)を生き残るすべての重み(マスク交叉)、(2)全ての兄弟姉妹の刈り取りを生き残る重みのみを取る(マスク交叉)のいずれかによってサブネットワークを選択する。 その結果、サブネットワークが再トレーニングされる。 興味深いことに、結合マスクと交叉マスクは同じような働きをする。 どちらの手法も、最大$k = 10$兄弟のマスクを組み合わせても、一等級プルーニングベースラインの精度とスパーシティのトレードオフに一致する。

Magnitude pruning is a common, effective technique to identify sparse subnetworks at little cost to accuracy. In this work, we ask whether a particular architecture's accuracy-sparsity tradeoff can be improved by combining pruning information across multiple runs of training. From a shared ResNet-20 initialization, we train several network copies (\emph{siblings}) to completion using different SGD data orders on CIFAR-10. While the siblings' pruning masks are naively not much more similar than chance, starting sibling training after a few epochs of shared pretraining significantly increases pruning overlap. We then choose a subnetwork by either (1) taking all weights that survive pruning in any sibling (mask union), or (2) taking only the weights that survive pruning across all siblings (mask intersection). The resulting subnetwork is retrained. Strikingly, we find that union and intersection masks perform very similarly. Both methods match the accuracy-sparsity tradeoffs of the one-shot magnitude pruning baseline, even when we combine masks from up to $k = 10$ siblings.
翻訳日:2021-05-03 13:49:18 公開日:2021-04-30
# TREND:正確なGAN評価のためのインセプション埋め込みの一般正規密度推定法

TREND: Truncated Generalized Normal Density Estimation of Inception Embeddings for Accurate GAN Evaluation ( http://arxiv.org/abs/2104.14767v1 )

ライセンス: Link先を確認
Junghyuk Lee and Jong-Seok Lee(参考訳) generative adversarial networks (gans) などの画像生成モデルの評価は難しい問題である。 一般的なアプローチは、基底真理画像の集合と生成されたテスト画像の集合の分布を比較することである。 frech\'etインセプション距離はganの評価に最も広く使われている指標の1つであり、一連の画像に対する訓練されたインセプションモデルの特徴が正規分布に従うと仮定している。 本稿では, 一般化正規分布を用いてより正確な密度推定が可能であり, 信頼性に乏しい評価結果をもたらすような, 単純化された仮定であると主張する。 そこで本研究では, TREND (TRuncated gEneralized Normal Density Estimation of inception embeddeds) という, GANの精度評価のための新しい指標を提案する。 提案手法は密度推定の誤差を著しく低減し,その結果,誤り評価結果のリスクを低減できることを実証する。 さらに,提案手法は画像サンプル数の変動に対する評価結果のロバスト性を大幅に向上させることを示した。

Evaluating image generation models such as generative adversarial networks (GANs) is a challenging problem. A common approach is to compare the distributions of the set of ground truth images and the set of generated test images. The Frech\'et Inception distance is one of the most widely used metrics for evaluation of GANs, which assumes that the features from a trained Inception model for a set of images follow a normal distribution. In this paper, we argue that this is an over-simplified assumption, which may lead to unreliable evaluation results, and more accurate density estimation can be achieved using a truncated generalized normal distribution. Based on this, we propose a novel metric for accurate evaluation of GANs, named TREND (TRuncated gEneralized Normal Density estimation of inception embeddings). We demonstrate that our approach significantly reduces errors of density estimation, which consequently eliminates the risk of faulty evaluation results. Furthermore, we show that the proposed metric significantly improves robustness of evaluation results against variation of the number of image samples.
翻訳日:2021-05-03 13:48:57 公開日:2021-04-30
# ノイズロスト深層学習のための高速メタ更新戦略

Faster Meta Update Strategy for Noise-Robust Deep Learning ( http://arxiv.org/abs/2104.15092v1 )

ライセンス: Link先を確認
Youjiang Xu, Linchao Zhu, Lu Jiang, Yi Yang(参考訳) ディープニューラルネットワークはバイアス付きトレーニングデータに過度に適合する傾向があることが示されている。 この問題に対処するために,メタ学習では,トレーニングバイアスの修正にメタモデルを採用している。 有望なパフォーマンスにもかかわらず、super slow trainingは現在、メタ学習アプローチのボトルネックとなっている。 本稿では,メタグラデーション計算における最も費用のかかるステップを,より高速な層別近似に置き換える,新しい高速メタ更新戦略(famus)を提案する。 実験により, FaMUS は合理的な精度だけでなく, メタ勾配の低分散近似も得られることがわかった。 提案手法を2つのタスクで検証するための広範囲な実験を行った。 本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。 特に,本手法は,合成および現実的な雑音ラベル上での最先端性能を実現し,標準ベンチマーク上での長期認識において有望な性能を得る。

It has been shown that deep neural networks are prone to overfitting on biased training data. Towards addressing this issue, meta-learning employs a meta model for correcting the training bias. Despite the promising performances, super slow training is currently the bottleneck in the meta learning approaches. In this paper, we introduce a novel Faster Meta Update Strategy (FaMUS) to replace the most expensive step in the meta gradient computation with a faster layer-wise approximation. We empirically find that FaMUS yields not only a reasonably accurate but also a low-variance approximation of the meta gradient. We conduct extensive experiments to verify the proposed method on two tasks. We show our method is able to save two-thirds of the training time while still maintaining the comparable or achieving even better generalization performance. In particular, our method achieves the state-of-the-art performance on both synthetic and realistic noisy labels, and obtains promising performance on long-tailed recognition on standard benchmarks.
翻訳日:2021-05-03 13:48:21 公開日:2021-04-30
# ニューラルネットワークアンサンブルにおける多重線形性問題の排除:インクリメンタル,負相関,最適凸ブレンディング

Eliminating Multicollinearity Issues in Neural Network Ensembles: Incremental, Negatively Correlated, Optimal Convex Blending ( http://arxiv.org/abs/2104.14715v1 )

ライセンス: Link先を確認
Pola Lydia Lagari, Lefteri H. Tsoukalas, Salar Safarkhani, Isaac E. Lagaris(参考訳) features, target}データセットが与えられたとき、ニューラルネットワークのアンサンブルを使用してアグリゲートレグレッサを構成するインクリメンタルアルゴリズムを導入します。 アンサンブル法は、一般的なトレーニングデータセットに起因する冗長性の顕現であるマルチコリニア性の問題に苦しむことがよく知られている。 現在の漸進的アプローチでは,各段階でアグリゲートレグレッセプタと新たに訓練されたニューラルネットワークを,必要であれば負の相関を生じさせる凸性制約下で最適にブレンドする。 このフレームワークでは、コリニア性の問題はまったく発生せず、レンダリングによって、メソッドは正確かつ堅牢になる。

Given a {features, target} dataset, we introduce an incremental algorithm that constructs an aggregate regressor, using an ensemble of neural networks. It is well known that ensemble methods suffer from the multicollinearity issue, which is the manifestation of redundancy arising mainly due to the common training-dataset. In the present incremental approach, at each stage we optimally blend the aggregate regressor with a newly trained neural network under a convexity constraint which, if necessary, induces negative correlations. Under this framework, collinearity issues do not arise at all, rendering so the method both accurate and robust.
翻訳日:2021-05-03 13:47:33 公開日:2021-04-30
# パラメトリケーションゲームにおける人間の戦略的意思決定

Human strategic decision making in parametrized games ( http://arxiv.org/abs/2104.14744v1 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 現実世界のゲームの多くは、支払い、アクションスペース、情報状態に影響を与えるパラメータを含んでいる。 パラメータの固定値の場合、ゲームは標準的なアルゴリズムで解くことができる。 しかし、多くの設定では、エージェントは事前に遭遇するパラメータの値を知ることなく行動しなければならない。 多くの場合、決定は時間とリソースの制約の下で人間が行う必要があり、人間がリアルタイムでゲームを解けると仮定するのは現実的ではない。 我々は,人間の意思決定者がリアルタイム解法を使わずに素早く意思決定できる新しいフレームワークを提案する。 複数のプレイヤーによる設定や不完全な情報を含む様々な状況に適用可能であることを示す。

Many real-world games contain parameters which can affect payoffs, action spaces, and information states. For fixed values of the parameters, the game can be solved using standard algorithms. However, in many settings agents must act without knowing the values of the parameters that will be encountered in advance. Often the decisions must be made by a human under time and resource constraints, and it is unrealistic to assume that a human can solve the game in real time. We present a new framework that enables human decision makers to make fast decisions without the aid of real-time solvers. We demonstrate applicability to a variety of situations including settings with multiple players and imperfect information.
翻訳日:2021-05-03 13:47:22 公開日:2021-04-30
# エンド・ツー・エンド強化学習によるクアドロレータの分散Swarm衝突回避

Decentralized Swarm Collision Avoidance for Quadrotors via End-to-End Reinforcement Learning ( http://arxiv.org/abs/2104.14912v1 )

ライセンス: Link先を確認
Ramzi Ourari, Kai Cui, Heinz Koeppl(参考訳) 衝突回避アルゴリズムは多くのドローンアプリケーションにとって重要な関心事である。 特に、集中型通信が計算的に禁止される場合、分散化されたアプローチがロバストなドローン群ソリューションを実現する鍵となるかもしれない。 本研究では,ヒトデの群集(Sturnus vulgaris)から生物学的インスピレーションを得て,その知見をエンドツーエンドの分散衝突回避に応用する。 具体的には,生物模倣的トポロジカル相互作用則に従って,安定した学習と頑健な回避行動をもたらす新しいスケーラブルな観測モデルを提案する。 さらに、先行研究は主に分離原則、すなわち分離原則の提唱に焦点を当てている。 特定のタスクに依存しない衝突回避設計。 一般的な強化学習手法を適用することで,衝突回避を様々なタスクやダイナミクスと統合するための全体論的学習に基づくアプローチを提案する。 このアプローチの汎用性を検証するため,提案手法を多数の構成に適用した。 学習したポリシーはシミュレーションでテストされ、その後実世界のドローンに転送され、実世界の応用性を検証する。

Collision avoidance algorithms are of central interest to many drone applications. In particular, decentralized approaches may be the key to enabling robust drone swarm solutions in cases where centralized communication becomes computationally prohibitive. In this work, we draw biological inspiration from flocks of starlings (Sturnus vulgaris) and apply the insight to end-to-end learned decentralized collision avoidance. More specifically, we propose a new, scalable observation model following a biomimetic topological interaction rule that leads to stable learning and robust avoidance behavior. Additionally, prior work primarily focuses on invoking a separation principle, i.e. designing collision avoidance independent of specific tasks. By applying a general reinforcement learning approach, we propose a holistic learning-based approach to integrating collision avoidance with various tasks and dynamics. To validate the generality of this approach, we successfully apply our methodology to a number of configurations. Our learned policies are tested in simulation and subsequently transferred to real-world drones to validate their real-world applicability.
翻訳日:2021-05-03 13:47:13 公開日:2021-04-30
# 雑音データから線形時間特性を学習する: MaxSAT アプローチ

Learning Linear Temporal Properties from Noisy Data: A MaxSAT Approach ( http://arxiv.org/abs/2104.15083v1 )

ライセンス: Link先を確認
Jean-Rapha\"el Gaglione, Daniel Neider, Rajarshi Roy, Ufuk Topcu and Zhe Xu(参考訳) 本稿では, 線形時間論理(LTL)を用いたシステム動作の記述を, 有限の正と負の例から推定する問題に対処する。 そのようなタスクを解決する既存のアプローチのほとんどは、推論された式の構造を導くための事前定義されたテンプレートに依存している。 一方、任意の ltl 公式を推論できるアプローチは、データのノイズに対して堅牢ではない。 このような制約を緩和するため,ノイズの存在下でも簡潔LTL式を推定する2つのアルゴリズムを考案した。 第1のアルゴリズムは,最大充足性の問題に推論問題を還元し,既定のmaxsatソルバを用いて解を求めることで,最小のltl公式を推定する。 我々の知識を最大限に活用するため、我々は ltl の式を推論するために maxsat ソルバを最初に組み込んだ。 我々の第2の学習アルゴリズムは、決定木学習アルゴリズムに基づいてLTL式よりも決定木を導出する最初のアルゴリズムに依存している。 我々は,2つのアルゴリズムを実装し,ノイズがあっても簡潔なLTL記述の抽出に有効であることを検証した。

We address the problem of inferring descriptions of system behavior using Linear Temporal Logic (LTL) from a finite set of positive and negative examples. Most of the existing approaches for solving such a task rely on predefined templates for guiding the structure of the inferred formula. The approaches that can infer arbitrary LTL formulas, on the other hand, are not robust to noise in the data. To alleviate such limitations, we devise two algorithms for inferring concise LTL formulas even in the presence of noise. Our first algorithm infers minimal LTL formulas by reducing the inference problem to a problem in maximum satisfiability and then using off-the-shelf MaxSAT solvers to find a solution. To the best of our knowledge, we are the first to incorporate the usage of MaxSAT solvers for inferring formulas in LTL. Our second learning algorithm relies on the first algorithm to derive a decision tree over LTL formulas based on a decision tree learning algorithm. We have implemented both our algorithms and verified that our algorithms are efficient in extracting concise LTL descriptions even in the presence of noise.
翻訳日:2021-05-03 13:46:59 公開日:2021-04-30
# ペルシアにおける感情分析に関する調査:資源の課題と進歩を包括する包括的システム視点と方法

A Survey on sentiment analysis in Persian: A Comprehensive System Perspective Covering Challenges and Advances in Resources, and Methods ( http://arxiv.org/abs/2104.14751v1 )

ライセンス: Link先を確認
Zeinab Rajabi, MohammadReza Valavi(参考訳) ソーシャルメディアはここ数年で著しく成長している。 今日では、ソーシャルメディアのウェブサイトにメッセージを投稿することは、最も人気のあるインターネット活動の1つとなっている。 膨大な量のユーザー生成コンテンツが、ソーシャルメディアを世論の最も広範なデータソースにしている。 感性分析は、ユーザ生成データを分析する技術のひとつだ。 ペルシア語には特定の特徴があり、英語とは異なる感情分析のために採用される独自の方法とモデルが必要である。 各言語の知覚分析には前提条件があるため、ペルシャ語で英語で開発された方法、道具、資源の直接使用には限界がある。 本研究の目的はペルシャの感情分析における最先端の進展に関する総合的な文献調査を提供することである。 本研究は,ペルシア語テキストに関する過去の感情分析研究を調査・比較し,過去10年間の論文に提示された貢献について述べることを目的としている。 まず、感情分析のレベル、アプローチ、タスクについて説明する。 そこで,ペルシア語テキストの感情分析手法について詳細な調査を行い,それ以前のペルシア語に関する研究について述べる。 さらに,本調査では,ペルシャの感情分析のために実施した標準感情分析リソースと進歩について報告する。 最後に、英語の感情分析の最先端の発展により、ペルシア語のテキストで対処されない問題や課題がリストアップされ、ペルシア語のテキストに関する今後の研究のためのガイドラインや傾向が提示される。 この論文は、この分野の新規または確立された研究者や、運用完全な感情分析システムを展開しようとする業界開発者を支援する情報を提供する。

Social media has been remarkably grown during the past few years. Nowadays, posting messages on social media websites has become one of the most popular Internet activities. The vast amount of user-generated content has made social media the most extensive data source of public opinion. Sentiment analysis is one of the techniques used to analyze user-generated data. The Persian language has specific features and thereby requires unique methods and models to be adopted for sentiment analysis, which are different from those in English language. Sentiment analysis in each language has specified prerequisites; hence, the direct use of methods, tools, and resources developed for English language in Persian has its limitations. The main target of this paper is to provide a comprehensive literature survey for state-of-the-art advances in Persian sentiment analysis. In this regard, the present study aims to investigate and compare the previous sentiment analysis studies on Persian texts and describe contributions presented in articles published in the last decade. First, the levels, approaches, and tasks for sentiment analysis are described. Then, a detailed survey of the sentiment analysis methods used for Persian texts is presented, and previous relevant works on Persian Language are discussed. Moreover, we present in this survey the authentic and published standard sentiment analysis resources and advances that have been done for Persian sentiment analysis. Finally, according to the state-of-the-art development of English sentiment analysis, some issues and challenges not being addressed in Persian texts are listed, and some guidelines and trends are provided for future research on Persian texts. The paper provides information to help new or established researchers in the field as well as industry developers who aim to deploy an operational complete sentiment analysis system.
翻訳日:2021-05-03 13:45:45 公開日:2021-04-30
# スコープ外領域の階層モデルと意図分類

Hierarchical Modeling for Out-of-Scope Domain and Intent Classification ( http://arxiv.org/abs/2104.14781v1 )

ライセンス: Link先を確認
Pengfei Liu, Kun Li and Helen Meng(参考訳) 現実世界のダイアログシステムのユーザクエリは、システム機能の範囲外になることがあるが、適切なシステム応答は、ヒューマンコンピュータ間のインタラクションを通じてスムーズな処理を可能にする。 本稿では,ユーザの意図に配慮し,対話システムにおけるスコープ外意図分類に着目した。 ユーザ意図はアプリケーション領域と高い相関性を持つが、意図分類にそのような相関性を利用する研究はほとんどない。 最初にドメインとインテントを分類する2段階のアプローチを開発するのではなく、ドメインとインテントを同時に分類するジョイントモデルに基づいた階層型マルチタスク学習手法を提案する。 提案手法では,(1)2段階パイプラインを代替するドメインとインテント分類の合同モデリングにおいて教師付きスコープ外信号を共有すること,(2)上位層と下位層でそれぞれインテントとドメイン表現を学ぶ階層モデルを導入すること,などが新しい手法である。 実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。 さらに、しきい値に基づく後処理は、インテント分類における精度とリコールのバランスをとることにより、パフォーマンスをさらに向上させる。

User queries for a real-world dialog system may sometimes fall outside the scope of the system's capabilities, but appropriate system responses will enable smooth processing throughout the human-computer interaction. This paper is concerned with the user's intent, and focuses on out-of-scope intent classification in dialog systems. Although user intents are highly correlated with the application domain, few studies have exploited such correlations for intent classification. Rather than developing a two-stage approach that first classifies the domain and then the intent, we propose a hierarchical multi-task learning approach based on a joint model to classify domain and intent simultaneously. Novelties in the proposed approach include: (1) sharing supervised out-of-scope signals in joint modeling of domain and intent classification to replace a two-stage pipeline; and (2) introducing a hierarchical model that learns the intent and domain representations in the higher and lower layers respectively. Experiments show that the model outperforms existing methods in terms of accuracy, out-of-scope recall and F1. Additionally, threshold-based post-processing further improves performance by balancing precision and recall in intent classification.
翻訳日:2021-05-03 13:45:18 公開日:2021-04-30
# 要約,単純化,生成:特許の場合

Summarization, Simplification, and Generation: The Case of Patents ( http://arxiv.org/abs/2104.14860v1 )

ライセンス: Link先を確認
Silvia Casola and Alberto Lavelli(参考訳) 我々は,特許のテキストを要約し,単純化し,生成するための自然言語処理(NLP)アプローチを調査した。 これらの課題を解決する一方で、r&dプロセスにおける特許の集中性を考えると、特許の慣用性は、現在のnlp技術に特有の課題を開く。 本調査は,特許の特徴と現状のNLPシステムへの疑問,b) 先行研究とその進化を批判的に提示すること,c) さらなる研究が必要である研究の方向性に注意を向けることを目的としたものである。 私たちの知る限りでは、特許領域における生成的アプローチに関する最初の調査である。

We survey Natural Language Processing (NLP) approaches to summarizing, simplifying, and generating patents' text. While solving these tasks has important practical applications - given patents' centrality in the R&D process - patents' idiosyncrasies open peculiar challenges to the current NLP state of the art. This survey aims at a) describing patents' characteristics and the questions they raise to the current NLP systems, b) critically presenting previous work and its evolution, and c) drawing attention to directions of research in which further work is needed. To the best of our knowledge, this is the first survey of generative approaches in the patent domain.
翻訳日:2021-05-03 13:44:58 公開日:2021-04-30
# スケールでのパラフレーズ表現

Paraphrastic Representations at Scale ( http://arxiv.org/abs/2104.15114v1 )

ライセンス: Link先を確認
John Wieting, Kevin Gimpel, Graham Neubig, Taylor Berg-Kirkpatrick(参考訳) 本稿では,ユーザが様々な言語で独自の文表現を訓練できるシステムを提案する。 英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語のトレーニングモデルもリリースしています。 これらのモデルを大量のデータでトレーニングし,単言語的意味的類似性,言語間意味的類似性,バイテキストマイニングタスクの組について提案する論文から,その性能を大幅に向上させた。 さらに、結果として得られたモデルは、教師なしのセマンティックテキスト類似性に関する以前のすべての作業を超えており、Sentence-BERT (Reimers and Gurevych, 2019)のようなBERTベースのモデルよりも大幅に優れています。 さらに、我々のモデルは以前の作業よりも桁違いに高速で、推論速度の差がほとんどなく、CPU上で使用することができる(より多くのCPUコアを使用する場合、GPUよりも速度が向上する)。 最後に、パラフラスティック文モデルのトレーニング、推論と並列データを持つ任意の言語に対するトレーニングの両方での使用を緩和するためのコードベースに、大幅に機能拡張を加えました。 トレーニングデータをダウンロードして前処理するコードも含んでいます。

We present a system that allows users to train their own state-of-the-art paraphrastic sentence representations in a variety of languages. We also release trained models for English, Arabic, German, French, Spanish, Russian, Turkish, and Chinese. We train these models on large amounts of data, achieving significantly improved performance from the original papers proposing the methods on a suite of monolingual semantic similarity, cross-lingual semantic similarity, and bitext mining tasks. Moreover, the resulting models surpass all prior work on unsupervised semantic textual similarity, significantly outperforming even BERT-based models like Sentence-BERT (Reimers and Gurevych, 2019). Additionally, our models are orders of magnitude faster than prior work and can be used on CPU with little difference in inference speed (even improved speed over GPU when using more CPU cores), making these models an attractive choice for users without access to GPUs or for use on embedded devices. Finally, we add significantly increased functionality to the code bases for training paraphrastic sentence models, easing their use for both inference and for training them for any desired language with parallel data. We also include code to automatically download and preprocess training data.
翻訳日:2021-05-03 13:44:47 公開日:2021-04-30
# DPR-CAE:画像解析のための動的部分表現付きカプセルオートエンコーダ

DPR-CAE: Capsule Autoencoder with Dynamic Part Representation for Image Parsing ( http://arxiv.org/abs/2104.14735v1 )

ライセンス: Link先を確認
Canqun Xiang and Zhennan Wang and Wenbin Zou and Chen Xu(参考訳) イメージをオブジェクト、部品、関係の階層にパースすることは重要であり、多くのコンピュータビジョンタスクでは困難である。 本稿では,DPR-CAEと呼ばれる,単純で効率的なカプセルオートエンコーダを提案する。 私たちのアプローチでは、エンコーダは入力をポーズ、強度、動的ベクトルを含む一連の部分カプセルに解析します。 デコーダは、動的ベクトルと共有テンプレートバンクを組み合わせることで、新しい動的部分表現(DPR)を導入する。 これらの部分表現は対応するカプセルによって制御され、最終出力を解釈可能な方法で合成する。 さらに,dpr-caeにおける不確定なシーン・パート関係を直接学習することを避けるために,追加の翻訳不変モジュールを提案し,rm$-mnist と $rm$-fashion-mnist で有望な性能向上を実現する。 %) であり, 既存のスタックカプセルオートエンコーダと容易に組み合わせることができ, 教師なしオブジェクト分類による性能向上が実証された。 私たちのコードはAppendixで利用可能です。

Parsing an image into a hierarchy of objects, parts, and relations is important and also challenging in many computer vision tasks. This paper proposes a simple and effective capsule autoencoder to address this issue, called DPR-CAE. In our approach, the encoder parses the input into a set of part capsules, including pose, intensity, and dynamic vector. The decoder introduces a novel dynamic part representation (DPR) by combining the dynamic vector and a shared template bank. These part representations are then regulated by corresponding capsules to composite the final output in an interpretable way. Besides, an extra translation-invarian t module is proposed to avoid directly learning the uncertain scene-part relationship in our DPR-CAE, which makes the resulting method achieves a promising performance gain on $rm$-MNIST and $rm$-Fashion-MNIST. % to model the scene-object relationship DPR-CAE can be easily combined with the existing stacked capsule autoencoder and experimental results show it significantly improves performance in terms of unsupervised object classification. Our code is available in the Appendix.
翻訳日:2021-05-03 13:42:00 公開日:2021-04-30
# Chop Chop BERT: VisualBERTの頭部をチョップするビジュアル質問応答

Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's Heads ( http://arxiv.org/abs/2104.14741v1 )

ライセンス: Link先を確認
Chenyu Gao and Qi Zhu and Peng Wang and Qi Wu(参考訳) VL(Vision-and-Langua ge)事前トレーニングは、VL分野で最も一般的な問題の一つである視覚質問回答(VQA)など、多くの下流タスクにおいて大きな可能性を示している。 これらの事前訓練されたモデル(VisualBERT、ViLBERT、LXMERT、UNITERなど)はTransformerで構築されており、古典的な注意機構を複数の層や頭まで拡張している。 本稿では,これらのモデルがVQA上でどのように動作するのかを考察するため,トランスフォーマーモデルにおける個々の頭部と層の役割について,12ドルの異なる質問を取り扱う際に検討する。 具体的には、トレーニング済みのVisualBERTモデルからヘッド(またはレイヤ)を一度に手動で取り除き、異なるレベルの質問でテストしてパフォーマンスを記録します。 結果行列の興味深いエキロン形状で示されるように、実験では、異なる頭部と層が異なる質問タイプに責任があることが示され、高いレベルの層は高レベルの視覚的推論の質問によって活性化される。 この観測に基づいて、異なる質問を扱う際に、インスタンスレベルでVisualBERTの頭や層を自動的に取り除くことができる動的チョッピングモジュールを設計する。 私たちの動的チョッピングモジュールは、vqaタスクで精度を1%未満に抑えながら、元のモデルのパラメータを50%効果的に削減できます。

Vision-and-Language (VL) pre-training has shown great potential on many related downstream tasks, such as Visual Question Answering (VQA), one of the most popular problems in the VL field. All of these pre-trained models (such as VisualBERT, ViLBERT, LXMERT and UNITER) are built with Transformer, which extends the classical attention mechanism to multiple layers and heads. To investigate why and how these models work on VQA so well, in this paper we explore the roles of individual heads and layers in Transformer models when handling $12$ different types of questions. Specifically, we manually remove (chop) heads (or layers) from a pre-trained VisualBERT model at a time, and test it on different levels of questions to record its performance. As shown in the interesting echelon shape of the result matrices, experiments reveal different heads and layers are responsible for different question types, with higher-level layers activated by higher-level visual reasoning questions. Based on this observation, we design a dynamic chopping module that can automatically remove heads and layers of the VisualBERT at an instance level when dealing with different questions. Our dynamic chopping module can effectively reduce the parameters of the original model by 50%, while only damaging the accuracy by less than 1% on the VQA task.
翻訳日:2021-05-03 13:41:42 公開日:2021-04-30
# 再同定のためのセンター予測損失

Center Prediction Loss for Re-identification ( http://arxiv.org/abs/2104.14746v1 )

ライセンス: Link先を確認
Lu Yang, Yunlong Wang, Lingqiao Liu, Peng Wang, Lu Chi, Zehuan Yuan, Changhu Wang and Yanning Zhang(参考訳) 特定のトレーニングサンプル分布パターンを強制するトレーニング損失関数は、再識別(ReID)システムを構築する上で重要な役割を果たす。 識別の基本要件の他に、異なる同一性に対応する特徴を混合するべきではないが、同じ同一性に由来する特徴をその中心に近づけるといった追加のクラス内分布制約が、損失の構築に採用されている。 様々な新しい損失関数の進歩にもかかわらず、クラス内変動を減らす必要性と特定の分布の自由度とのバランスを取ることは依然として困難である。 本稿では,中心予測率に基づく新たな損失について述べる。つまり,同一クラス標本の中央位置を大まかに予測できるように,特徴空間の位置にサンプルを配置する必要がある。 予測誤差は、CPL(Center Prediction Loss)と呼ばれる損失と見なされる。 追加のハイパーパラメータを導入することなく、この新たな損失は、クラス間のサンプルが適切に分離されていることを保証しながら、より柔軟なクラス内分布制約をもたらすことを示す。 様々な実世界のReIDデータセットに対する大規模な実験により、提案された損失は優れた性能を達成でき、既存の損失を補完できることを示した。

The training loss function that enforces certain training sample distribution patterns plays a critical role in building a re-identification (ReID) system. Besides the basic requirement of discrimination, i.e., the features corresponding to different identities should not be mixed, additional intra-class distribution constraints, such as features from the same identities should be close to their centers, have been adopted to construct losses. Despite the advances of various new loss functions, it is still challenging to strike the balance between the need of reducing the intra-class variation and allowing certain distribution freedom. In this paper, we propose a new loss based on center predictivity, that is, a sample must be positioned in a location of the feature space such that from it we can roughly predict the location of the center of same-class samples. The prediction error is then regarded as a loss called Center Prediction Loss (CPL). We show that, without introducing additional hyper-parameters, this new loss leads to a more flexible intra-class distribution constraint while ensuring the between-class samples are well-separated. Extensive experiments on various real-world ReID datasets show that the proposed loss can achieve superior performance and can also be complementary to existing losses.
翻訳日:2021-05-03 13:41:16 公開日:2021-04-30
# pointlie: ローカルな可逆埋め込みによるポイントクラウドのサンプリングとリカバリ

PointLIE: Locally Invertible Embedding for Point Cloud Sampling and Recovery ( http://arxiv.org/abs/2104.14769v1 )

ライセンス: Link先を確認
Weibing Zhao, Xu Yan, Jiantao Gao, Ruimao Zhang, Jiayan Zhang, Zhen Li, Song Wu, Shuguang Cui(参考訳) ポイントクラウドサンプリングとリカバリ(PCSR)は,大規模なリアルタイムクラウド収集と処理において重要である。 本稿では,pcsrの基本的な問題である,任意のスケールで高密度点雲をダウンサンプルする方法と,廃棄点の局所トポロジをケースに依存しない方法で保存する方法について述べる。 ポイント関係のための追加ストレージなしで? 本稿では,ポイントクラウド適応型サンプリング・リカバリ(PointLIE)のためのローカル・インバータブル・エンベディングを提案する。 基礎となる幾何学の詳細を一見妥当な方法で予測する代わりに、pointlieは双方向学習を通じてポイントクラウドのサンプリングとアップサンプリングを1つのフレームワークに統合する。 具体的には、ポイントLIEは各スケールの隣接点を再帰的にサンプリングし、調整する。 そして、サンプリングされた点の隣接するオフセットを潜在空間に符号化し、サンプルされた点と対応する局所幾何学的関係を分解する。 潜在空間が決定され、深層モデルが最適化されると、復元されたサンプル点とランダムに描画された埋め込みを可逆演算で同じネットワークに渡すことで、回復処理を行うことができる。 このようなスキームは、サンプル点からの高密度点回復の忠実性を保証することができる。 広範な実験により、提案されたPointLIEは、定量的にも定性的にも、最先端技術よりも優れていることが示された。 私たちのコードはhttps://github.com/z wb0/pointlieでリリースしています。

Point Cloud Sampling and Recovery (PCSR) is critical for massive real-time point cloud collection and processing since raw data usually requires large storage and computation. In this paper, we address a fundamental problem in PCSR: How to downsample the dense point cloud with arbitrary scales while preserving the local topology of discarding points in a case-agnostic manner (i.e. without additional storage for point relationship)? We propose a novel Locally Invertible Embedding for point cloud adaptive sampling and recovery (PointLIE). Instead of learning to predict the underlying geometry details in a seemingly plausible manner, PointLIE unifies point cloud sampling and upsampling to one single framework through bi-directional learning. Specifically, PointLIE recursively samples and adjusts neighboring points on each scale. Then it encodes the neighboring offsets of sampled points to a latent space and thus decouples the sampled points and the corresponding local geometric relationship. Once the latent space is determined and that the deep model is optimized, the recovery process could be conducted by passing the recover-pleasing sampled points and a randomly-drawn embedding to the same network through an invertible operation. Such a scheme could guarantee the fidelity of dense point recovery from sampled points. Extensive experiments demonstrate that the proposed PointLIE outperforms state-of-the-arts both quantitatively and qualitatively. Our code is released through https://github.com/z wb0/PointLIE.
翻訳日:2021-05-03 13:40:58 公開日:2021-04-30
# Few-Shot Video Object Detection

Few-Shot Video Object Detection ( http://arxiv.org/abs/2104.14805v1 )

ライセンス: Link先を確認
Qi Fan, Chi-Keung Tang, Yu-Wing Tai(参考訳) We introduce Few-Shot Video Object Detection (FSVOD) with three important contributions: 1) a large-scale video dataset FSVOD-500 comprising of 500 classes with class-balanced videos in each category for few-shot learning; 2) a novel Tube Proposal Network (TPN) to generate high-quality video tube proposals to aggregate feature representation for the target video object; 3) a strategically improved Temporal Matching Network (TMN+) to match representative query tube features and supports with better discriminative ability. TPNとTMN+は共同で、エンドツーエンドで訓練されています。 広汎な実験により,本手法は,画像ベース法および他の単純ビデオベース拡張法と比較して,2つのビデオオブジェクト検出データセットに対して有意に優れた検出結果が得られた。 コードとデータセットはhttps://github.com/f anq15/FewXで公開される。

We introduce Few-Shot Video Object Detection (FSVOD) with three important contributions: 1) a large-scale video dataset FSVOD-500 comprising of 500 classes with class-balanced videos in each category for few-shot learning; 2) a novel Tube Proposal Network (TPN) to generate high-quality video tube proposals to aggregate feature representation for the target video object; 3) a strategically improved Temporal Matching Network (TMN+) to match representative query tube features and supports with better discriminative ability. Our TPN and TMN+ are jointly and end-to-end trained. Extensive experiments demonstrate that our method produces significantly better detection results on two few-shot video object detection datasets compared to image-based methods and other naive video-based extensions. Codes and datasets will be released at https://github.com/f anq15/FewX.
翻訳日:2021-05-03 13:40:34 公開日:2021-04-30
# GODIVA:nAturalの説明からオープンなDomaInビデオを生成する

GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions ( http://arxiv.org/abs/2104.14806v1 )

ライセンス: Link先を確認
Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, Nan Duan(参考訳) テキストからビデオを生成することは、トレーニングのための高い計算要求と、評価のための無限の答えのために難しい課題である。 既存の作業は通常、一般化能力が非常に限られている単純なデータセットや小さなデータセットで実験する。 本研究では,3次元のスパースアテンション機構を用いて,テキストから映像を自動回帰的に生成できるオープンドメイン型テキスト・ビデオ事前学習モデルGODIVAを提案する。 howto100mは、1億3600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験によると、GODIVAは下流のビデオ生成タスクで微調整できるだけでなく、目に見えないテキストでも優れたゼロショット機能を持つ。 また、ビデオ生成品質を自動評価するRM(Relative Matching)と呼ばれる新しい指標を提案する。 いくつかの課題がリストアップされ、今後の課題として議論される。

Generating videos from text is a challenging task due to its high computational requirements for training and infinite possible answers for evaluation. Existing works typically experiment on simple or small datasets, where the generalization ability is quite limited. In this work, we propose GODIVA, an open-domain text-to-video pretrained model that can generate videos from text in an auto-regressive manner using a three-dimensional sparse attention mechanism. We pretrain our model on Howto100M, a large-scale text-video dataset that contains more than 136 million text-video pairs. Experiments show that GODIVA not only can be fine-tuned on downstream video generation tasks, but also has a good zero-shot capability on unseen texts. We also propose a new metric called Relative Matching (RM) to automatically evaluate the video generation quality. Several challenges are listed and discussed as future work.
翻訳日:2021-05-03 13:40:17 公開日:2021-04-30
# SegmentMeIfYouCan: 異常セグメンテーションのベンチマーク

SegmentMeIfYouCan: A Benchmark for Anomaly Segmentation ( http://arxiv.org/abs/2104.14812v1 )

ライセンス: Link先を確認
Robin Chan, Krzysztof Lis, Svenja Uhlemeyer, Hermann Blum, Sina Honari, Roland Siegwart, Mathieu Salzmann, Pascal Fua and Matthias Rottmann(参考訳) state-of-the-art semantic or instance segmentation deep neural networks (dnn)は通常、閉じたセマンティッククラスでトレーニングされる。 そのため、それまで見つからなかったオブジェクトを扱うには不備がある。 しかし,このような物体の検出と位置決めは,特に前方の道路に現れる場合には,自動走行の認識などの安全上重要な応用に不可欠である。 いくつかのメソッドは、異常あるいは分散外オブジェクトのセグメンテーションのタスクに取り組んだが、大部分が堅実なベンチマークの欠如のため、進捗は遅く、既存のデータセットは合成データで構成されているか、ラベルの不一致に苦しめられている。 本稿では,このギャップを埋めるために"segmentmeifyoucan&qu ot;ベンチマークを導入する。 我々のベンチマークでは, 未確認のオブジェクトカテゴリを考慮に入れた異常なオブジェクトセグメンテーションと, 道路上の任意のオブジェクトに焦点を当てた道路障害物セグメンテーションの2つのタスクに対処する。 2つの対応するデータセットと、オブジェクトサイズに敏感な、確立されたピクセル単位のパフォーマンス指標と最近のコンポーネント単位の両方を考慮して、詳細なメソッド分析を行うテストスイートを提供する。 私たちは、ベンチマークスイートを使用して、データセットだけでなくパブリックなデータでも、異常/障害セグメンテーション用に特別に設計されたいくつかのメソッドを含む、最先端の複数のベースラインメソッドを経験的に評価しました。 異常および障害物セグメンテーションの結果は、データセットが両方のデータセットランドスケープの多様性と課題に寄与していることを示している。

State-of-the-art semantic or instance segmentation deep neural networks (DNNs) are usually trained on a closed set of semantic classes. As such, they are ill-equipped to handle previously-unseen objects. However, detecting and localizing such objects is crucial for safety-critical applications such as perception for automated driving, especially if they appear on the road ahead. While some methods have tackled the tasks of anomalous or out-of-distribution object segmentation, progress remains slow, in large part due to the lack of solid benchmarks; existing datasets either consist of synthetic data, or suffer from label inconsistencies. In this paper, we bridge this gap by introducing the "SegmentMeIfYouCan&qu ot; benchmark. Our benchmark addresses two tasks: Anomalous object segmentation, which considers any previously-unseen object category; and road obstacle segmentation, which focuses on any object on the road, may it be known or unknown. We provide two corresponding datasets together with a test suite performing an in-depth method analysis, considering both established pixel-wise performance metrics and recent component-wise ones, which are insensitive to object sizes. We empirically evaluate multiple state-of-the-art baseline methods, including several specifically designed for anomaly / obstacle segmentation, on our datasets as well as on public ones, using our benchmark suite. The anomaly and obstacle segmentation results show that our datasets contribute to the diversity and challengingness of both dataset landscapes.
翻訳日:2021-05-03 13:40:03 公開日:2021-04-30
# 高速かつ高精度な3Dディープラーニングのためのマルチボクセルポイントニューロン畳み込み(MVPConv)

Multi Voxel-Point Neurons Convolution (MVPConv) for Fast and Accurate 3D Deep Learning ( http://arxiv.org/abs/2104.14834v1 )

ライセンス: Link先を確認
Wei Zhou, Xin Cao, Xiaodan Zhang, Xingxing Hao, Dekui Wang, Ying He(参考訳) 我々は,高速かつ正確な3Dディープラーニングを実現するために,Multi Voxel-Point Neurons Convolution (MVPConv)と呼ばれる新しい畳み込みニューラルネットワークを提案する。 従来の研究では、個々の点ベースの特徴や、近隣のボクセルベースの特徴をプロセス3Dモデルに採用しており、非効率な計算によってモデルの性能が制限されている。 さらに、既存の3Dディープラーニングフレームワークのほとんどは、1つの特定のタスクを解決することを目標としています。 提案したMVPConvは,ボクセル法と点ベース法の両方の利点を統合することで,点ベースの特徴間の隣り合うコレクションを効果的に増加させ,ボクセルベースの特徴間の独立性を促進する。 MVPConvは、対応する畳み込みモジュールをMVPConvに置き換えるだけで、さまざまなバックボーンに適合して、幅広い3Dタスクを解決できることを示す。 様々なタスクのためのshapenet part、s3dis、kittiなどのベンチマークデータセットに関する広範な実験により、mvpconvはバックボーン(pointnet)の精度を最大36%向上させ、最大34倍のスピードアップでvoxelベースのモデルよりも高い精度を実現していることが示された。 加えて、mvpconvは最高8倍のスピードアップで最先端のポイントベースモデルを上回る。 特に、MVPConvは、最新のポイントボクセルベースモデルであるPVCNN(PointNetよりも効率的なモデル)よりもレイテンシの低い精度を実現しています。

We present a new convolutional neural network, called Multi Voxel-Point Neurons Convolution (MVPConv), for fast and accurate 3D deep learning. The previous works adopt either individual point-based features or local-neighboring voxel-based features to process 3D model, which limits the performance of models due to the inefficient computation. Moreover, most of the existing 3D deep learning frameworks aim at solving one specific task, and only a few of them can handle a variety of tasks. Integrating both the advantages of the voxel and point-based methods, the proposed MVPConv can effectively increase the neighboring collection between point-based features and also promote the independence among voxel-based features. Simply replacing the corresponding convolution module with MVPConv, we show that MVPConv can fit in different backbones to solve a wide range of 3D tasks. Extensive experiments on benchmark datasets such as ShapeNet Part, S3DIS and KITTI for various tasks show that MVPConv improves the accuracy of the backbone (PointNet) by up to 36%, and achieves higher accuracy than the voxel-based model with up to 34 times speedup. In addition, MVPConv also outperforms the state-of-the-art point-based models with up to 8 times speedup. Notably, our MVPConv achieves better accuracy than the newest point-voxel-based model PVCNN (a model more efficient than PointNet) with lower latency.
翻訳日:2021-05-03 13:39:38 公開日:2021-04-30
# ロバストフュージョン:単分子RGBDストリームからの人間と物体の相互作用によるロバストボリューム性能復元

RobustFusion: Robust Volumetric Performance Reconstruction under Human-object Interactions from Monocular RGBD Stream ( http://arxiv.org/abs/2104.14837v1 )

ライセンス: Link先を確認
Zhuo Su, Lan Xu, Dawei Zhong, Zhong Li, Fan Deng, Shuxue Quan and Lu Fang(参考訳) 多数の没入型vr/arアプリケーションを可能にする現実のシナリオでは、さまざまなオブジェクトとの複雑なインタラクションによる人間のパフォーマンスの高品質な4d再構築が不可欠である。 しかし,近年の進歩は,特に単眼環境において,困難な相互作用パターンや重度の咬合に苦しむなど,信頼性の高い性能回復には至っていない。 このギャップを埋めるために,1つのRGBDセンサのみを用いて,複雑な相互作用パターンと重度のオクルージョンを扱うために,様々なデータ駆動型視覚・インタラクションキューを組み合わせた,人間と物体の相互作用シナリオのためのロバストフュージョンを提案する。 セグメンテーションの洗練とロバストなオブジェクト追跡により,不確かさを回避し,時間的一貫性を維持するために,オクルージョンを明示的にモデル化する意味認識シーン分離スキームを提案する。 さらに,様々なデータ駆動手法を用いてロバストなパフォーマンスキャプチャ方式を導入することで,再初期化機能を実現するだけでなく,複雑なヒューマン・オブジェクト間インタラクションパターンをデータ駆動方式でモデル化する。 この目的を達成するために,不測の交点を防止すべく空間的関係を導入するとともに,自然運動の維持のためのデータ駆動インタラクションの手がかりを提示する。 また, 時間的コヒーレントな人間オブジェクト再構成のための適応的融合方式を, 閉塞解析と人間のパーシングキューに適用した。 大規模実験により, 軽量な単眼環境を維持しつつ, 複雑な物体間相互作用下での高品質な4次元ヒューマンパフォーマンス再構築を実現するための提案手法の有効性が実証された。

High-quality 4D reconstruction of human performance with complex interactions to various objects is essential in real-world scenarios, which enables numerous immersive VR/AR applications. However, recent advances still fail to provide reliable performance reconstruction, suffering from challenging interaction patterns and severe occlusions, especially for the monocular setting. To fill this gap, in this paper, we propose RobustFusion, a robust volumetric performance reconstruction system for human-object interaction scenarios using only a single RGBD sensor, which combines various data-driven visual and interaction cues to handle the complex interaction patterns and severe occlusions. We propose a semantic-aware scene decoupling scheme to model the occlusions explicitly, with a segmentation refinement and robust object tracking to prevent disentanglement uncertainty and maintain temporal consistency. We further introduce a robust performance capture scheme with the aid of various data-driven cues, which not only enables re-initialization ability, but also models the complex human-object interaction patterns in a data-driven manner. To this end, we introduce a spatial relation prior to prevent implausible intersections, as well as data-driven interaction cues to maintain natural motions, especially for those regions under severe human-object occlusions. We also adopt an adaptive fusion scheme for temporally coherent human-object reconstruction with occlusion analysis and human parsing cue. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality 4D human performance reconstruction under complex human-object interactions whilst still maintaining the lightweight monocular setting.
翻訳日:2021-05-03 13:39:07 公開日:2021-04-30
# NTIRE 2021 ビデオスーパーリゾリューションへの挑戦

NTIRE 2021 Challenge on Video Super-Resolution ( http://arxiv.org/abs/2104.14852v1 )

ライセンス: Link先を確認
Sanghyun Son, Suyoung Lee, Seungjun Nah, Radu Timofte, and Kyoung Mu Lee(参考訳) Super-Resolution (SR) は、与えられた低解像度の画像から高解像度のクリーンイメージを得るための基本的なコンピュータビジョンタスクである。 本稿は, NTIRE 2021 Challenge on Video Super-Resolutionについてレビューする。 本稿では,2つの競合トラックと提案ソリューションの評価結果について述べる。 トラック1は、復元品質に着目した従来のビデオSR手法の開発を目的としている。 トラック2はフレームレートの低いより困難な環境を仮定し、時空間SR問題をキャストする。 各競技会には、それぞれ247名と223名が登録されている。 最終テスト期間中、14チームが各トラックに出場し、ビデオSRタスクで最先端のパフォーマンスを達成した。

Super-Resolution (SR) is a fundamental computer vision task that aims to obtain a high-resolution clean image from the given low-resolution counterpart. This paper reviews the NTIRE 2021 Challenge on Video Super-Resolution. We present evaluation results from two competition tracks as well as the proposed solutions. Track 1 aims to develop conventional video SR methods focusing on the restoration quality. Track 2 assumes a more challenging environment with lower frame rates, casting spatio-temporal SR problem. In each competition, 247 and 223 participants have registered, respectively. During the final testing phase, 14 teams competed in each track to achieve state-of-the-art performance on video SR tasks.
翻訳日:2021-05-03 13:38:39 公開日:2021-04-30
# NTIRE 2021による画像劣化問題

NTIRE 2021 Challenge on Image Deblurring ( http://arxiv.org/abs/2104.14854v1 )

ライセンス: Link先を確認
Seungjun Nah, Sanghyun Son, Suyoung Lee, Radu Timofte, Kyoung Mu Lee(参考訳) モーションボケは、動的環境における一般的な写真アーチファクトであり、通常他のタイプの劣化と組み合わせて現れる。 NTIRE 2021 Challenge on Image Deblurringについて概説する。 本課題報告では,提案手法を用いて2つの競技トラックの課題仕様と評価結果について述べる。 両方のトラックは、ぼやけた画像から高品質なクリーンな画像を復元することを目指しているが、異なるアーティファクトが共同で関与している。 トラック1では、ぼやけた画像は低解像度であり、トラック2画像はJPEG形式で圧縮される。 各競技には338名と238名が参加し、最終試験では18名と17名のチームが出場した。 入賞方法は,共同で組み合わせた人工物を用いた画像劣化作業における最先端性能を示す。

Motion blur is a common photography artifact in dynamic environments that typically comes jointly with the other types of degradation. This paper reviews the NTIRE 2021 Challenge on Image Deblurring. In this challenge report, we describe the challenge specifics and the evaluation results from the 2 competition tracks with the proposed solutions. While both the tracks aim to recover a high-quality clean image from a blurry image, different artifacts are jointly involved. In track 1, the blurry images are in a low resolution while track 2 images are compressed in JPEG format. In each competition, there were 338 and 238 registered participants and in the final testing phase, 18 and 17 teams competed. The winning methods demonstrate the state-of-the-art performance on the image deblurring task with the jointly combined artifacts.
翻訳日:2021-05-03 13:38:28 公開日:2021-04-30
# 映像に基づく人物再同定のためのマルチグラニュラーハイパーグラフの学習

Learning Multi-Granular Hypergraphs for Video-Based Person Re-Identification ( http://arxiv.org/abs/2104.14913v1 )

ライセンス: Link先を確認
Yichao Yan, Jie Qin1, Jiaxin Chen, Li Liu, Fan Zhu, Ying Tai, Ling Shao(参考訳) ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。 難しいタスクに取り組むための鍵は、ビデオシーケンスで時間的手がかりと時間的手がかりの両方を利用することです。 本研究では,複数粒度の時空間依存性をモデル化することにより,より優れた表現能力を追求するためのグラフベースの新しいフレームワーク,MGHを提案する。 具体的には, 空間的粒度の異なるハイパーグラフを, ビデオシーケンス全体にわたる様々な部分的特徴を用いて構築する。 それぞれのハイパーグラフにおいて、異なる時間的粒度は、異なる時間的範囲にわたってグラフノードの集合(すなわち部分的特徴)を接続するハイパーエッジによってキャプチャされる。 2つの重要な問題(ミスアライメントとオクルージョン)は、提案されたハイパーグラフ伝搬と特徴集約スキームによって明確に解決される。 最後に、相互情報最小化に基づいて、複数の粒度のより多様化したグラフレベル表現を学習することにより、映像全体の表現をさらに強化する。 広く採用されている3つのベンチマークに関する広範囲な実験は、提案フレームワークの有効性を明確に示している。 特に、MARS上の90.0%のトップ-1精度はMGHを用いて達成され、最先端技術よりも優れている。 コードはhttps://github.com/d aodaofr/hypergraph_r eidで入手できる。

Video-based person re-identification (re-ID) is an important research topic in computer vision. The key to tackling the challenging task is to exploit both spatial and temporal clues in video sequences. In this work, we propose a novel graph-based framework, namely Multi-Granular Hypergraph (MGH), to pursue better representational capabilities by modeling spatiotemporal dependencies in terms of multiple granularities. Specifically, hypergraphs with different spatial granularities are constructed using various levels of part-based features across the video sequence. In each hypergraph, different temporal granularities are captured by hyperedges that connect a set of graph nodes (i.e., part-based features) across different temporal ranges. Two critical issues (misalignment and occlusion) are explicitly addressed by the proposed hypergraph propagation and feature aggregation schemes. Finally, we further enhance the overall video representation by learning more diversified graph-level representations of multiple granularities based on mutual information minimization. Extensive experiments on three widely adopted benchmarks clearly demonstrate the effectiveness of the proposed framework. Notably, 90.0% top-1 accuracy on MARS is achieved using MGH, outperforming the state-of-the-arts. Code is available at https://github.com/d aodaofr/hypergraph_r eid.
翻訳日:2021-05-03 13:38:16 公開日:2021-04-30
# Prototype-Guided Discriminative Latent Embeddings を用いた異常検出

Anomaly Detection with Prototype-Guided Discriminative Latent Embeddings ( http://arxiv.org/abs/2104.14945v1 )

ライセンス: Link先を確認
Yuandu Lai, Yahong Han(参考訳) ビデオ異常検出への最近の取り組みは、小さな再構成誤りを伴う通常のイベントパターンを記述するディープオートエンコーダを学習しようとしている。 大規模な再構成誤差のあるビデオ入力は、テスト時に異常と見なされる。 しかし、これらの手法はディープオートエンコーダの強力な一般化能力のため、異常入力をうまく再構成することがある。 この問題に対処するために,ビデオフレームの再構成に正規データの識別プロトタイプを利用する,新しい異常検出手法を提案する。 このようにして、モデルでは、正常事象の再構築を好み、異常事象の再構成を歪める。 具体的には,プロトタイプ誘導メモリモジュールを用いて識別潜在埋め込みを行う。 本稿では,メモリモジュールに対する新たな識別基準とそれに対応する損失関数を導入することで,メモリ項目に正規データの埋め込みを記録させる手法を提案する。 プロトタイプだ また、将来のフレーム予測ネットワークと、同じエンコーダを共有するRGB差分生成ネットワークで構成される2分岐オートエンコーダを設計する。 積み重ねられたRGB差分には光学的流れと同様に運動情報が含まれており、我々のモデルは時間的規則性を学ぶことができる。 本手法の有効性を3つのベンチマークデータセットで評価し,提案手法が最先端を上回っていることを示す。

Recent efforts towards video anomaly detection try to learn a deep autoencoder to describe normal event patterns with small reconstruction errors. The video inputs with large reconstruction errors are regarded as anomalies at the test time. However, these methods sometimes reconstruct abnormal inputs well because of the powerful generalization ability of deep autoencoder. To address this problem, we present a novel approach for anomaly detection, which utilizes discriminative prototypes of normal data to reconstruct video frames. In this way, the model will favor the reconstruction of normal events and distort the reconstruction of abnormal events. Specifically, we use a prototype-guided memory module to perform discriminative latent embedding. We introduce a new discriminative criterion for the memory module, as well as a loss function correspondingly, which can encourage memory items to record the representative embeddings of normal data, i.e. prototypes. Besides, we design a novel two-branch autoencoder, which is composed of a future frame prediction network and an RGB difference generation network that share the same encoder. The stacked RGB difference contains motion information just like optical flow, so our model can learn temporal regularity. We evaluate the effectiveness of our method on three benchmark datasets and experimental results demonstrate the proposed method outperforms the state-of-the-art.
翻訳日:2021-05-03 13:37:58 公開日:2021-04-30
# CAT:ワンショット物体検出用クロスアテンショントランス

CAT: Cross-Attention Transformer for One-Shot Object Detection ( http://arxiv.org/abs/2104.14984v1 )

ライセンス: Link先を確認
Weidong Lin, Yuyan Deng, Yang Gao, Ning Wang, Jinghao Zhou, Lingqiao Liu, Lei Zhang, Peng Wang(参考訳) 新規クラスからのクエリパッチが与えられた場合、ワンショットオブジェクト検出は、意味的類似性比較を通じてターゲットイメージ内のそのクラスのすべてのインスタンスを検出することを目的としている。 しかし,新規クラスでは極めて限定的なガイダンスや,クエリとターゲットインスタンスの外観の相違から,それらのセマンティックな類似性を適切に活用し,適切に一般化することは困難である。 この問題を軽減するため,単発物体検出における意味的類似性比較を高精度かつ効率的に行う汎用クロスアテンショントランス (CAT) モジュールを提案する。 提案したCATは,クエリとターゲット画像から任意の対の画素間の双方向対応を包括的にキャプチャするトランスフォーマー機構を利用して,それらのセマンティック特性を正確な類似性比較のために十分に活用することができる。 さらに,提案する cat では,性能損失を伴わない推論高速化のための特徴次元圧縮が可能となる。 COCO、VOC、FSODの1ショット設定による大規模な実験は、COCO上のAPにおいて、そのタスクにおける主要なベースラインであるCoAEを1.0%上回り、2.5倍近く高速に動作していることを示す。 コードは将来的に利用可能になる。

Given a query patch from a novel class, one-shot object detection aims to detect all instances of that class in a target image through the semantic similarity comparison. However, due to the extremely limited guidance in the novel class as well as the unseen appearance difference between query and target instances, it is difficult to appropriately exploit their semantic similarity and generalize well. To mitigate this problem, we present a universal Cross-Attention Transformer (CAT) module for accurate and efficient semantic similarity comparison in one-shot object detection. The proposed CAT utilizes transformer mechanism to comprehensively capture bi-directional correspondence between any paired pixels from the query and the target image, which empowers us to sufficiently exploit their semantic characteristics for accurate similarity comparison. In addition, the proposed CAT enables feature dimensionality compression for inference speedup without performance loss. Extensive experiments on COCO, VOC, and FSOD under one-shot settings demonstrate the effectiveness and efficiency of our method, e.g., it surpasses CoAE, a major baseline in this task by 1.0% in AP on COCO and runs nearly 2.5 times faster. Code will be available in the future.
翻訳日:2021-05-03 13:37:38 公開日:2021-04-30
# 解釈可能なセマンティック光ジオローカライゼーション

Interpretable Semantic Photo Geolocalization ( http://arxiv.org/abs/2104.14995v1 )

ライセンス: Link先を確認
Jonas Theiner, Eric M\"uller-Budack, Ralph Ewerth(参考訳) プラネットスケールフォトジオローカライズ(planet-scale photo geolocalization)は、その視覚コンテンツのみに基づいて画像に描かれた位置を推定する複雑なタスクである。 畳み込みニューラルネットワーク(CNN)の成功により、現在のアプローチは超人的性能を実現する。 しかし、以前の研究は局所化の精度の最適化に重点を置いてきた。 さらに,深層学習システムのブラックボックス特性から,その予測は人間にとって検証が難しい。 state-of-the-artメソッドはタスクを分類問題として扱い、クラスの選択、すなわち世界地図の分割が成功の鍵となる。 In this paper, we present two contributions in order to improve the interpretability of a geolocalization model: (1) We propose a novel, semantic partitioning method which intuitively leads to an improved understanding of the predictions, while at the same time state-of-the-art results are achieved for geolocational accuracy on benchmark test sets; (2) We introduce a novel metric to assess the importance of semantic visual concepts for a certain prediction to provide additional interpretable information, which allows for a large-scale analysis of already trained models.

Planet-scale photo geolocalization is the complex task of estimating the location depicted in an image solely based on its visual content. Due to the success of convolutional neural networks (CNNs), current approaches achieve super-human performance. However, previous work has exclusively focused on optimizing geolocalization accuracy. Moreover, due to the black-box property of deep learning systems, their predictions are difficult to validate for humans. State-of-the-art methods treat the task as a classification problem, where the choice of the classes, that is the partitioning of the world map, is the key for success. In this paper, we present two contributions in order to improve the interpretability of a geolocalization model: (1) We propose a novel, semantic partitioning method which intuitively leads to an improved understanding of the predictions, while at the same time state-of-the-art results are achieved for geolocational accuracy on benchmark test sets; (2) We introduce a novel metric to assess the importance of semantic visual concepts for a certain prediction to provide additional interpretable information, which allows for a large-scale analysis of already trained models.
翻訳日:2021-05-03 13:37:15 公開日:2021-04-30
# RR-Net:人間と物体の相互作用検出における対話的意味論の注入

RR-Net: Injecting Interactive Semantics in Human-Object Interaction Detection ( http://arxiv.org/abs/2104.15015v1 )

ライセンス: Link先を確認
Dongming Yang, Yuexian Zou, Can Zhang, Meng Cao, Jie Chen(参考訳) 人間-物体相互作用(Human-Object Interaction、HOI)は、人間が周囲の物体とどのように相互作用するかを学ぶこと。 最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。 そこで本稿では,hoi検出のための新しい関係推論を提案する。 まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。 a) 人間の対話的セマンティクスを活用してオブジェクトに渡してインタラクションを強化する,b) 人,オブジェクト,インタラクション間の対話的相関を統合して予測を促進する,というように,インタラクション拡張モジュールと相関解析モジュールを慎重に設計する。 上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。 RR-Net)。 大規模な実験により、提案したRR-NetはV-COCOとHICO-DETのベンチマークに新たな最先端を設定し、ベースラインを約5.5%と9.8%の相対的に改善した。

Human-Object Interaction (HOI) detection devotes to learn how humans interact with surrounding objects. Latest end-to-end HOI detectors are short of relation reasoning, which leads to inability to learn HOI-specific interactive semantics for predictions. In this paper, we therefore propose novel relation reasoning for HOI detection. We first present a progressive Relation-aware Frame, which brings a new structure and parameter sharing pattern for interaction inference. Upon the frame, an Interaction Intensifier Module and a Correlation Parsing Module are carefully designed, where: a) interactive semantics from humans can be exploited and passed to objects to intensify interactions, b) interactive correlations among humans, objects and interactions are integrated to promote predictions. Based on modules above, we construct an end-to-end trainable framework named Relation Reasoning Network (abbr. RR-Net). Extensive experiments show that our proposed RR-Net sets a new state-of-the-art on both V-COCO and HICO-DET benchmarks and improves the baseline about 5.5% and 9.8% relatively, validating that this first effort in exploring relation reasoning and integrating interactive semantics has brought obvious improvement for end-to-end HOI detection.
翻訳日:2021-05-03 13:37:00 公開日:2021-04-30
# 高分解能ビデオ合成に必要な良い画像生成装置

A Good Image Generator Is What You Need for High-Resolution Video Synthesis ( http://arxiv.org/abs/2104.15069v1 )

ライセンス: Link先を確認
Yu Tian, Jian Ren, Menglei Chai, Kyle Olszewski, Xi Peng, Dimitris N. Metaxas, Sergey Tulyakov(参考訳) 画像と映像の合成は、ノイズからコンテンツを生成するための密接な関連分野である。 大きな解像度、高品質なレンダリング、画像コンテンツの幅広いバリエーションを扱うための画像ベースモデルの改善が急速に進んでいるが、ビデオ生成結果に匹敵する結果が得られていない。 現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。 我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。 このようなフレームワークは高解像度ビデオをレンダリングするだけでなく、計算効率も桁違いに向上している。 本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。 このような表現により、我々のフレームワークは、コンテンツやモーション操作を含む幅広いアプリケーションを可能にする。 さらに,我々はクロスドメインビデオ合成と呼ばれる新しいタスクを導入し,画像とモーションジェネレータを,異なるドメインに属する異種データセット上でトレーニングする。 これにより、所望のビデオデータが利用できない移動オブジェクトを生成することができる。 各種データセットに対する大規模な実験により,既存の映像生成技術に対する手法の利点が示された。 コードはhttps://github.com/s nap-research/MoCoGAN -HDでリリースされる。

Image and video synthesis are closely related areas aiming at generating content from noise. While rapid progress has been demonstrated in improving image-based models to handle large resolutions, high-quality renderings, and wide variations in image content, achieving comparable video generation results remains problematic. We present a framework that leverages contemporary image generators to render high-resolution videos. We frame the video synthesis problem as discovering a trajectory in the latent space of a pre-trained and fixed image generator. Not only does such a framework render high-resolution videos, but it also is an order of magnitude more computationally efficient. We introduce a motion generator that discovers the desired trajectory, in which content and motion are disentangled. With such a representation, our framework allows for a broad range of applications, including content and motion manipulation. Furthermore, we introduce a new task, which we call cross-domain video synthesis, in which the image and motion generators are trained on disjoint datasets belonging to different domains. This allows for generating moving objects for which the desired video data is not available. Extensive experiments on various datasets demonstrate the advantages of our methods over existing video generation techniques. Code will be released at https://github.com/s nap-research/MoCoGAN -HD.
翻訳日:2021-05-03 13:36:36 公開日:2021-04-30
# 画像間翻訳のための知識蒸留を保存する意味関係

Semantic Relation Preserving Knowledge Distillation for Image-to-Image Translation ( http://arxiv.org/abs/2104.15082v1 )

ライセンス: Link先を確認
Zeqi Li, Ruowei Jiang and Parham Aarabi(参考訳) GAN(Generative Adversarial Network)は画像データの高次元分布、特に画像から画像への変換タスクをモデル化する上で大きな可能性を示している。 しかし、これらのタスクの複雑さのため、最先端のモデルには膨大なパラメータが含まれており、大きなモデルサイズと長い推論時間をもたらす。 本研究では,知識蒸留と意味的関係保存マトリックスの蒸留を併用して,この問題に対処する新しい手法を提案する。 このマトリックスは教師の特徴エンコーディングから派生したもので、学生モデルがよりセマンティックな関係を学習するのに役立つ。 分類タスク用に設計された既存の圧縮手法とは対照的に,提案手法は画像から画像への変換タスクによく適応する。 5つの異なるデータセットと3つの異なる教師と生徒モデルで行った実験は、我々の手法が質的および定量的に印象的な結果をもたらすという強い証拠を与える。

Generative adversarial networks (GANs) have shown significant potential in modeling high dimensional distributions of image data, especially on image-to-image translation tasks. However, due to the complexity of these tasks, state-of-the-art models often contain a tremendous amount of parameters, which results in large model size and long inference time. In this work, we propose a novel method to address this problem by applying knowledge distillation together with distillation of a semantic relation preserving matrix. This matrix, derived from the teacher's feature encoding, helps the student model learn better semantic relations. In contrast to existing compression methods designed for classification tasks, our proposed method adapts well to the image-to-image translation task on GANs. Experiments conducted on 5 different datasets and 3 different pairs of teacher and student models provide strong evidence that our methods achieve impressive results both qualitatively and quantitatively.
翻訳日:2021-05-03 13:36:18 公開日:2021-04-30
# Deep Multi-View Stereoが暴走

Deep Multi-View Stereo gone wild ( http://arxiv.org/abs/2104.15119v1 )

ライセンス: Link先を確認
Fran\c{c}ois Darmon and B\'en\'edicte Bascle and Jean-Cl\'ement Devaux and Pascal Monasse and Mathieu Aubry(参考訳) 深層マルチビューステレオ (deep multi-view stereo, deep mvs) 法は、単純なデータセットと比較して広く開発され、古典的アプローチよりも優れています。 本稿では,インターネット写真収集作業において,制御されたシナリオで到達した結論が有効かどうかを問う。 本稿では,ネットワークアーキテクチャ,トレーニングデータ,監視という,深層MVS手法の3つの側面の影響を評価する方法論を提案する。 我々は,深度予測と3次元再構成の両面において,定量的かつ定性的に検証する重要な観察を行った。 まず、単純なネットワークアーキテクチャを使用する際に、教師なしのオプションよりも完全な再構築を提供する単純なアプローチを導入することで、教師なしのテクニックの約束を概説する。 第二に、すべてのマルチスケールアーキテクチャが、特に監督なしで、制約のないシナリオに一般化するわけではないことを強調する。 最後に,画像の少ないシナリオでは,従来の手法に勝るネットワークに繋がる可能性がある,大規模3次元再構成によるノイズの監視の効率を示す。

Deep multi-view stereo (deep MVS) methods have been developed and extensively compared on simple datasets, where they now outperform classical approaches. In this paper, we ask whether the conclusions reached in controlled scenarios are still valid when working with Internet photo collections. We propose a methodology for evaluation and explore the influence of three aspects of deep MVS methods: network architecture, training data, and supervision. We make several key observations, which we extensively validate quantitatively and qualitatively, both for depth prediction and complete 3D reconstructions. First, we outline the promises of unsupervised techniques by introducing a simple approach which provides more complete reconstructions than supervised options when using a simple network architecture. Second, we emphasize that not all multiscale architectures generalize to the unconstrained scenario, especially without supervision. Finally, we show the efficiency of noisy supervision from large-scale 3D reconstructions which can even lead to networks that outperform classical methods in scenarios where very few images are available.
翻訳日:2021-05-03 13:36:04 公開日:2021-04-30
# 非剛性3dトラッキングのための微分可能イベントストリームシミュレータ

Differentiable Event Stream Simulator for Non-Rigid 3D Tracking ( http://arxiv.org/abs/2104.15139v1 )

ライセンス: Link先を確認
Jalees Nehvi and Vladislav Golyanik and Franziska Mueller and Hans-Peter Seidel and Mohamed Elgharib and Christian Theobalt(参考訳) 本稿では,イベントストリーム,すなわち,イベントカメラが記録する非同期輝度変化信号のストリームを識別可能な最初のシミュレータを提案する。 我々の微分可能シミュレータは、解析・合成原理を利用して、イベントストリームから変形可能な物体(人手、等尺面、一般的な水密メッシュなど)の非剛性3D追跡を可能にする。 これまでのところ、手や体のような3Dの非剛体オブジェクトのイベントベースの追跡と再構築は、明示的なイベントトラジェクトリや大規模なデータセットを使用して取り組まれている。 対照的に、このメソッドはそのような処理やデータを必要とせず、入ってくるイベントストリームに容易に適用できる。 様々な種類の非剛体物体に対するアプローチの有効性を示し, 既存の非剛体3次元追跡手法と比較した。 実験で提案したエネルギーベース定式化法は, 競合するRGB法よりも3次元誤差の方が優れていた。 ソースコードと新しいデータは公開されています。

This paper introduces the first differentiable simulator of event streams, i.e., streams of asynchronous brightness change signals recorded by event cameras. Our differentiable simulator enables non-rigid 3D tracking of deformable objects (such as human hands, isometric surfaces and general watertight meshes) from event streams by leveraging an analysis-by-synthesi s principle. So far, event-based tracking and reconstruction of non-rigid objects in 3D, like hands and body, has been either tackled using explicit event trajectories or large-scale datasets. In contrast, our method does not require any such processing or data, and can be readily applied to incoming event streams. We show the effectiveness of our approach for various types of non-rigid objects and compare to existing methods for non-rigid 3D tracking. In our experiments, the proposed energy-based formulations outperform competing RGB-based methods in terms of 3D errors. The source code and the new data are publicly available.
翻訳日:2021-05-03 13:35:47 公開日:2021-04-30
# ジョイントシーケンスオートエンコーダネットワークを用いた術中低酸素血症の予測

Predicting Intraoperative Hypoxemia with Joint Sequence Autoencoder Networks ( http://arxiv.org/abs/2104.14756v1 )

ライセンス: Link先を確認
Hanyang Liu, Michael Montana, Dingwen Li, Thomas Kannampallil, Chenyang Lu(参考訳) そこで本研究では,ストリーミング型生理時系列を用いたエンド・ツー・エンドモデルを用いて,低酸素血症の早期リスクを正確に予測する。 提案モデルは,ラベル予測のための識別デコーダを同時に最適化するジョイントシーケンスオートエンコーダと,データ再構成と予測のために訓練された2つの補助デコーダによって実現され,将来を示す潜在表現をシームレスに学習する。 すべてのデコーダはメモリベースのエンコーダを共有し、患者のデータのグローバルなダイナミクスをキャプチャする。 主要な学術医療センターにおける手術例73,536例の手術コホートにおいて,本モデルはすべてのベースラインを上回っており,最先端低酸素血症予測システムよりも大きな性能向上が期待できる。 高感度のカットオフが80%に達すると、低酸素血症の予測に99.36%の精度、さらに重篤で稀な低酸素血症の予測に86.81%の精度を示す。 誤報の頻度は極めて低いが,本モデルでは臨床意思決定の改善と医療システムへの負担の軽減が期待できる。

We present an end-to-end model using streaming physiological time series to accurately predict near-term risk for hypoxemia, a rare, but life-threatening condition known to cause serious patient harm during surgery. Our proposed model makes inference on both hypoxemia outcomes and future input sequences, enabled by a joint sequence autoencoder that simultaneously optimizes a discriminative decoder for label prediction, and two auxiliary decoders trained for data reconstruction and forecast, which seamlessly learns future-indicative latent representation. All decoders share a memory-based encoder that helps capture the global dynamics of patient data. In a large surgical cohort of 73,536 surgeries at a major academic medical center, our model outperforms all baselines and gives a large performance gain over the state-of-the-art hypoxemia prediction system. With a high sensitivity cutoff at 80%, it presents 99.36% precision in predicting hypoxemia and 86.81% precision in predicting the much more severe and rare hypoxemic condition, persistent hypoxemia. With exceptionally low rate of false alarms, our proposed model is promising in improving clinical decision making and easing burden on the health system.
翻訳日:2021-05-03 13:35:14 公開日:2021-04-30
# 実行時にアンサンブルを形成する:機械学習アプローチ

Forming Ensembles at Runtime: A Machine Learning Approach ( http://arxiv.org/abs/2104.14848v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Bure\v{s}, Ilias Gerostathopoulos, Petr Hn\v{e}tynka, Jan Pacovsk\'y(参考訳) サイバー物理システムと社会技術システムの上に構築されたスマートシステムアプリケーション(SSAs)は、自律的および相互に協調して動作するコンポーネントで構成されている。 ロボットの協力、自動車の艦隊、ドローンの艦隊、緊急調整システムはSSAの例である。 SSAの協調を可能にする1つのアプローチは、実行時に動的協調グループ-アンサンブルコンポーネントを形成することである。 アンサンブルは、その現在の状態と環境の状態に基づいてアンサンブルの一部であるべきコンポーネントを決定する事前定義されたルールに基づいて形成することができる(例えば、「障害物に近い3つのロボットをグループ化し、そのバッテリが十分であり、他のアンサンブルではより良く使用できない」)。 すべてのコンポーネントは実行時に可能なすべてのアンサンブルの潜在的なメンバであるため、これは計算上難しい問題です。 過去数年間、いくつかのケーススタディでアンサンブルを使った経験から、どのアンサンブルを作るべきかを決める制約プログラミングは、限られた数のコンポーネントやアンサンブルに対してスケールしない。 また、ハード/ソフト制約の観点からの厳格な定式化は、学習による実行時の自己適応を容易にはできない。 これは、大規模かつ部分的に不確実なSSAにおけるアンサンブルの使用に深刻な制限をもたらす。 そこで本研究では,アンサンブル形成問題を分類問題として再キャストし,機械学習を用いて大規模にアンサンブルを形成する手法を提案する。

Smart system applications (SSAs) built on top of cyber-physical and socio-technical systems are increasingly composed of components that can work both autonomously and by cooperating with each other. Cooperating robots, fleets of cars and fleets of drones, emergency coordination systems are examples of SSAs. One approach to enable cooperation of SSAs is to form dynamic cooperation groups-ensembles-bet ween components at runtime. Ensembles can be formed based on predefined rules that determine which components should be part of an ensemble based on their current state and the state of the environment (e.g., "group together 3 robots that are closer to the obstacle, their battery is sufficient and they would not be better used in another ensemble"). This is a computationally hard problem since all components are potential members of all possible ensembles at runtime. In our experience working with ensembles in several case studies the past years, using constraint programming to decide which ensembles should be formed does not scale for more than a limited number of components and ensembles. Also, the strict formulation in terms of hard/soft constraints does not easily permit for runtime self-adaptation via learning. This poses a serious limitation to the use of ensembles in large-scale and partially uncertain SSAs. To tackle this problem, in this paper we propose to recast the ensemble formation problem as a classification problem and use machine learning to efficiently form ensembles at scale.
翻訳日:2021-05-03 13:34:53 公開日:2021-04-30
# 潜在因子分解モデル:アンケートデータへの応用

Latent Factor Decomposition Model: Applications for Questionnaire Data ( http://arxiv.org/abs/2104.15106v1 )

ライセンス: Link先を確認
Connor J. McLaughlin, Efi G. Kokkotou, Jean A. King, Lisa A. Conboy, Ali Yousefi(参考訳) 臨床アンケートデータの分析には、多くの固有の課題が伴う。 これらの課題には、欠落したフィールドによるデータの処理や、さまざまなスケールとフォームのフィールドを持つデータセットの全体的な解釈が含まれる。 これらの課題に対処するために多くの方法が開発されてきたが、しばしば頑丈でない、統計的に健全で、容易に解釈できる。 本稿では,要素不足を伴う分類データと量的データの両方に対する主成分分析を拡張する潜在因子モデリングフレームワークを提案する。 このモデルは、各患者が潜伏空間においてこれらの基盤に投射する主成分(基底)を同時に提供する。 本研究は,Irritable Bowel Syndrome (IBS) 症状を応用し,これらのプロジェクションと他の標準化された患者症状尺度との相関関係を見いだした。 この潜在因子モデルは、クラスタリング分析と解釈可能な推論のために、異なる臨床アンケートデータセットに容易に適用できる。

The analysis of clinical questionnaire data comes with many inherent challenges. These challenges include the handling of data with missing fields, as well as the overall interpretation of a dataset with many fields of different scales and forms. While numerous methods have been developed to address these challenges, they are often not robust, statistically sound, or easily interpretable. Here, we propose a latent factor modeling framework that extends the principal component analysis for both categorical and quantitative data with missing elements. The model simultaneously provides the principal components (basis) and each patients' projections on these bases in a latent space. We show an application of our modeling framework through Irritable Bowel Syndrome (IBS) symptoms, where we find correlations between these projections and other standardized patient symptom scales. This latent factor model can be easily applied to different clinical questionnaire datasets for clustering analysis and interpretable inference.
翻訳日:2021-05-03 13:34:19 公開日:2021-04-30
# 近似固定点理論を用いた集約解集合プログラミングのセマンティックス解析

Analyzing Semantics of Aggregate Answer Set Programming Using Approximation Fixpoint Theory ( http://arxiv.org/abs/2104.14789v1 )

ライセンス: Link先を確認
Linde Vanbesien, Maurice Bruynooghe and Marc Denecker(参考訳) 集約は複雑な知識を表現するための簡潔な方法を提供する。 人間によって容易に理解されるが、解集合プログラミング(ASP)のための集合を形式化することは困難であることが証明されている。 この文献は必ずしも互換性のない多くのアプローチを提供している。 これらのアプローチの1つは、近似固定点理論(AFT)に基づいており、論理プログラミングの文脈で開発されており、ASP-Communityにはあまり共鳴がない。 本稿では,この研究を再考する。 我々は,三元満足関係の抽象概念を導入し,その観点で安定意味論を定義する。 3次満足度関係は,標準ゲルフォンド・リフシッツレダクトと,AFTの枠組みで定義された安定意味論のギャップを橋渡しすることを示す。 ASPプログラムの集約処理における3次満足度関係の特性を解析する。 最後に,文献から抽出した集約の処理方法の違いをフレームワークで記述し,それに対応する3次満足度関係について検討する。

Aggregates provide a concise way to express complex knowledge. While they are easily understood by humans, formalizing aggregates for answer set programming (ASP) has proven to be challenging . The literature offers many approaches that are not always compatible. One of these approaches, based on Approximation Fixpoint Theory (AFT), has been developed in a logic programming context and has not found much resonance in the ASP-community. In this paper we revisit this work. We introduce the abstract notion of a ternary satisfaction relation and define stable semantics in terms of it. We show that ternary satisfaction relations bridge the gap between the standard Gelfond-Lifschitz reduct, and stable semantics as defined in the framework of AFT. We analyse the properties of ternary satisfaction relations for handling aggregates in ASP programs. Finally, we show how different methods for handling aggregates taken from the literature can be described in the framework and we study the corresponding ternary satisfaction relations.
翻訳日:2021-05-03 13:34:06 公開日:2021-04-30
# Noe:マルチエージェントシステムにおける感情に基づくノルムの発生とロバスト性

Noe: Norms Emergence and Robustness Based on Emotions in Multiagent Systems ( http://arxiv.org/abs/2104.15034v1 )

ライセンス: Link先を確認
Sz-Ting Tzeng (1), Nirav Ajmeri (2) and Munindar P. Singh (1) ((1) North Carolina State University, (2) University of Bristol)(参考訳) 社会規範は、人間社会における集団的かつ受け入れられる集団の行為を特徴づける。 さらに、エージェントや人間の相互作用から社会規範が生まれる。 エージェントの自律性を達成し、規範満足度を説明するために、規範に準拠するか違反するかを評価する規範的推論プロセスに感情を含める。 具体的には、実行すべき行動を選択する前に、エージェントは環境を観察し、規範的満足感や社会規範違反の後に、その状態と内部状態との関係を推測する。 規範の満足度と違反は、さらなる感情をもたらし、その後の感情は規範の強制に影響を及ぼす。 本稿では,モデル感情が社会的規範の出現と堅牢性にどう影響するかを,社会シミュレーション実験を通して検討する。 我々は,規範満足と違反の結果に対する感情的反応を考えるエージェントの能力が,(1)規範遵守を促進すること,(2)社会福祉を改善することを見出した。

Social norms characterize collective and acceptable group conducts in human society. Furthermore, some social norms emerge from interactions of agents or humans. To achieve agent autonomy and make norm satisfaction explainable, we include emotions into the normative reasoning process, which evaluate whether to comply or violate a norm. Specifically, before selecting an action to execute, an agent observes the environment and infer the state and consequences with its internal states after norm satisfaction or violation of a social norm. Both norm satisfaction and violation provoke further emotions, and the subsequent emotions affect norm enforcement. This paper investigates how modeling emotions affect the emergence and robustness of social norms via social simulation experiments. We find that an ability in agents to consider emotional responses to the outcomes of norm satisfaction and violation (1) promote norm compliance; and (2) improve societal welfare.
翻訳日:2021-05-03 13:33:51 公開日:2021-04-30
# 圧縮アーティファクトとしてのステルス的バックドア

Stealthy Backdoors as Compression Artifacts ( http://arxiv.org/abs/2104.15129v1 )

ライセンス: Link先を確認
Yulong Tian, Fnu Suya, Fengyuan Xu, David Evans(参考訳) 機械学習モデルに対するバックドア攻撃では、敵は通常の入力に対して良好に動作するモデルを生成するが、小さなトリガーパターンを含む入力に対してターゲットの誤分類を出力する。 モデル圧縮は、多くの精度を損なうことなくディープラーニングモデルのサイズを減らすために広く使われているアプローチであり、リソース制約のあるデバイスで使用するためにリソースハングリーモデルを圧縮することができる。 本稿では,モデル圧縮が敵にステルスバックドアを注入する機会を与える可能性について検討する。 我々は、敵がリリースしたフルサイズのモデルがバックドアから解放されているように見えるようなステルスなバックドア攻撃を設計する(最先端技術を用いてテストしても)が、モデルが圧縮されると、非常に効果的なバックドアが現れる。 これはモデルプルーニングとモデル量子化という,2つの一般的なモデル圧縮手法で実現可能であることを示す。 我々の研究結果は、敵がバックドアを圧縮アーティファクトとして隠蔽し、プレ圧縮版ではなく実際にデプロイされるモデル上でセキュリティテストを実行することが重要であることを示す。

In a backdoor attack on a machine learning model, an adversary produces a model that performs well on normal inputs but outputs targeted misclassifications on inputs containing a small trigger pattern. Model compression is a widely-used approach for reducing the size of deep learning models without much accuracy loss, enabling resource-hungry models to be compressed for use on resource-constrained devices. In this paper, we study the risk that model compression could provide an opportunity for adversaries to inject stealthy backdoors. We design stealthy backdoor attacks such that the full-sized model released by adversaries appears to be free from backdoors (even when tested using state-of-the-art techniques), but when the model is compressed it exhibits highly effective backdoors. We show this can be done for two common model compression techniques -- model pruning and model quantization. Our findings demonstrate how an adversary may be able to hide a backdoor as a compression artifact, and show the importance of performing security tests on the models that will actually be deployed not their precompressed version.
翻訳日:2021-05-03 13:33:35 公開日:2021-04-30
# 適応受容場を有する変形可能なTDNNによる音声認識

Deformable TDNN with adaptive receptive fields for speech recognition ( http://arxiv.org/abs/2104.14791v1 )

ライセンス: Link先を確認
Keyu An, Yi Zhang, Zhijian Ou(参考訳) 時間遅延ニューラルネットワーク(TDNN)は、DNN-HMMに基づくハイブリッド音声認識システムと、最近のエンドツーエンドシステムの両方で広く使われている。 それでも、TDNNの受容領域は限定的かつ固定的であり、音声認識のようなタスクには適さない。 本稿では、変形可能なTDNNを用いて、エンドツーエンド音声認識における適応時間動的モデリングを提案する。 変形可能なConvNetにインスパイアされた変形可能なTDNNは、時間的サンプリング位置を追加のオフセットで増強し、追加の監督なしにASR基準に基づいて自動的にオフセットを学習する。 実験により、変形可能なTDNNはWSJベンチマーク(WSJ eval92/dev93でそれぞれ1.42\%/3.45\% WER)で最先端の結果を得ることができ、標準TDNNよりも大幅に優れていた。 さらに,変形可能なtdnnがストリーミングasrを精度劣化なく行うことを可能にする,変形可能なtdnnの遅延制御機構を提案する。

Time Delay Neural Networks (TDNNs) are widely used in both DNN-HMM based hybrid speech recognition systems and recent end-to-end systems. Nevertheless, the receptive fields of TDNNs are limited and fixed, which is not desirable for tasks like speech recognition, where the temporal dynamics of speech are varied and affected by many factors. This paper proposes to use deformable TDNNs for adaptive temporal dynamics modeling in end-to-end speech recognition. Inspired by deformable ConvNets, deformable TDNNs augment the temporal sampling locations with additional offsets and learn the offsets automatically based on the ASR criterion, without additional supervision. Experiments show that deformable TDNNs obtain state-of-the-art results on WSJ benchmarks (1.42\%/3.45\% WER on WSJ eval92/dev93 respectively), outperforming standard TDNNs significantly. Furthermore, we propose the latency control mechanism for deformable TDNNs, which enables deformable TDNNs to do streaming ASR without accuracy degradation.
翻訳日:2021-05-03 13:33:17 公開日:2021-04-30
# 風力発電のための風速アンサンブル予測の校正

Calibration of wind speed ensemble forecasts for power generation ( http://arxiv.org/abs/2104.14910v1 )

ライセンス: Link先を確認
S\'andor Baran and \'Agnes Baran(参考訳) 過去数十年間、風力発電は欧州連合で2番目に大きな電力供給源となり、電力需要の16%を占めた。 しかし、そのボラティリティのため、風力エネルギーを電気グリッドにうまく統合するには、正確な短距離風力予測が必要である。 風力の正確な予測には正確なハブ高さ風速予測が必要であり,複数の数値天気予報モデルから得られたアンサンブル予測に基づいて,工法の状態が確率的手法である。 それでも、アンサンブルの予測はしばしば未調整であり、バイアスもあるため、予測性能を改善するためにはある種の後処理が必要である。 本研究では,風速アンサンブル予測を校正するための新しいフレキシブル機械学習手法を提案する。 ハンガリー気象庁のオペレーショナルアンサンブル予測システムによって生成された100mの風速予測に基づくケーススタディにおいて、3つの異なるアンサンブルモデル出力統計アプローチと生アンサンブル予測の予測性能と比較した。 生のアンサンブルと比較すると,ポストプロセッシングは常に点予測の確率的精度と精度の校正を改良し,新しい機械学習によるアプローチによって全体の性能が向上することを示す。

In the last decades wind power became the second largest energy source in the EU covering 16% of its electricity demand. However, due to its volatility, accurate short range wind power predictions are required for successful integration of wind energy into the electrical grid. Accurate predictions of wind power require accurate hub height wind speed forecasts, where the state of the art method is the probabilistic approach based on ensemble forecasts obtained from multiple runs of numerical weather prediction models. Nonetheless, ensemble forecasts are often uncalibrated and might also be biased, thus require some form of post-processing to improve their predictive performance. We propose a novel flexible machine learning approach for calibrating wind speed ensemble forecasts, which results in a truncated normal predictive distribution. In a case study based on 100m wind speed forecasts produced by the operational ensemble prediction system of the Hungarian Meteorological Service, the forecast skill of this method is compared with the predictive performance of three different ensemble model output statistics approaches and the raw ensemble forecasts. We show that compared with the raw ensemble, post-processing always improves the calibration of probabilistic and accuracy of point forecasts and from the four competing methods the novel machine learning based approach results in the best overall performance.
翻訳日:2021-05-03 13:32:57 公開日:2021-04-30
# ハイブリッド・インテリジェンスのレンズを通して市民科学を再考する

Revisiting Citizen Science Through the Lens of Hybrid Intelligence ( http://arxiv.org/abs/2104.14961v1 )

ライセンス: Link先を確認
Janet Rafner, Miroslav Gajdacz, Gitte Kragh, Arthur Hjorth, Anna Gander, Blanka Palfi, Aleks Berditchevskaia, Fran\c{c}ois Grey, Kobi Gal, Avi Segal, Mike Walmsley, Josh Aaron Miller, Dominik Dellerman, Muki Haklay, Pietro Michelucci, Jacob Sherson(参考訳) 人工知能(AI)は、人間の認知を増強し、時には置き換えることもある。 生産性とともに人事機関を重んじる努力に触発され,人間と人工知能の相乗的混合であるハイブリッド・インテリジェンス(HI)を用いて市民科学(CS)タスクを解くことの利点について議論した。 現在、このような効果的なミックスを作るための明確なフレームワークや方法論はありません。 参加者中心のユニークな価値観と、人間の常識と21世紀の複雑なスキルの両方に基づくタスクの多さから、CSの分野は、21世紀のHIと人間中心AIの発展のための貴重なテストベッドを提供すると同時に、CSにも利益をもたらすと考えている。 この可能性を調べるために、まずCSを隣接する計算分野に関連付ける。 次に,デジタル化のレベルと参加に必要な知識や経験の量という2つの重要な次元を調べることで,高エンハンスメントの可能性に応じてcsプロジェクトをグループ化できることを実証する。 最後に,HIの確立された基準に基づき,CSにおける人間-AIインタラクションのタイプに関する枠組みを提案する。 このHIレンズはCSコミュニティに、AIと人間の知性の組み合わせをプロジェクトで活用するためのいくつかの方法の概要を提供する。 また、CSプロジェクトでAIを開発することによって、AIコミュニティが自身の分野をさらに発展させることができる。

Artificial Intelligence (AI) can augment and sometimes even replace human cognition. Inspired by efforts to value human agency alongside productivity, we discuss the benefits of solving Citizen Science (CS) tasks with Hybrid Intelligence (HI), a synergetic mixture of human and artificial intelligence. Currently there is no clear framework or methodology on how to create such an effective mixture. Due to the unique participant-centered set of values and the abundance of tasks drawing upon both human common sense and complex 21st century skills, we believe that the field of CS offers an invaluable testbed for the development of HI and human-centered AI of the 21st century, while benefiting CS as well. In order to investigate this potential, we first relate CS to adjacent computational disciplines. Then, we demonstrate that CS projects can be grouped according to their potential for HI-enhancement by examining two key dimensions: the level of digitization and the amount of knowledge or experience required for participation. Finally, we propose a framework for types of human-AI interaction in CS based on established criteria of HI. This "HI lens" provides the CS community with an overview of several ways to utilize the combination of AI and human intelligence in their projects. It also allows the AI community to gain ideas on how developing AI in CS projects can further their own field.
翻訳日:2021-05-03 13:32:35 公開日:2021-04-30
# トランスフォーマによる知覚画像品質評価

Perceptual Image Quality Assessment with Transformers ( http://arxiv.org/abs/2104.14730v1 )

ライセンス: Link先を確認
Manri Cheon, Sung-Jun Yoon, Byungyeon Kang, Junwoo Lee(参考訳) 本稿では,画像品質評価(IQA)タスクにトランスフォーマーアーキテクチャを適用した画像品質変換器(IQT)を提案する。 画像品質評価において知覚表現がより重要になる。 本稿では,畳み込みニューラルネットワーク(CNN)のバックボーンを用いて,各入力画像から知覚特徴表現を抽出する。 抽出された特徴マップをトランスエンコーダとデコーダに供給して、参照画像と歪画像を比較する。 トランスフォーマーベースのビジョンモデルのアプローチに従い、我々はさらに学習可能な品質埋め込みと位置埋め込みを使用する。 変圧器の出力は、最終品質スコアを予測するために予測ヘッドに渡される。 実験結果から,提案モデルが標準IQAデータセットに対して優れた性能を示した。 生成モデルの出力画像を含む大規模IQAデータセットについて,本モデルでは有望な結果を示す。 提案するiqtは,ntire 2021画像品質評価課題の参加者13名中,第1位にランクされた。 私たちの仕事は、IQAタスクのアプローチをさらに拡大する機会になります。

In this paper, we propose an image quality transformer (IQT) that successfully applies a transformer architecture to a perceptual full-reference image quality assessment (IQA) task. Perceptual representation becomes more important in image quality assessment. In this context, we extract the perceptual feature representations from each of input images using a convolutional neural network (CNN) backbone. The extracted feature maps are fed into the transformer encoder and decoder in order to compare a reference and distorted images. Following an approach of the transformer-based vision models, we use extra learnable quality embedding and position embedding. The output of the transformer is passed to a prediction head in order to predict a final quality score. The experimental results show that our proposed model has an outstanding performance for the standard IQA datasets. For a large-scale IQA dataset containing output images of generative model, our model also shows the promising results. The proposed IQT was ranked first among 13 participants in the NTIRE 2021 perceptual image quality assessment challenge. Our work will be an opportunity to further expand the approach for the perceptual IQA task.
翻訳日:2021-05-03 13:31:19 公開日:2021-04-30
# DCプログラミングのための精錬慣性DCA

A Refined Inertial DCA for DC Programming ( http://arxiv.org/abs/2104.14750v1 )

ライセンス: Link先を確認
Yu You, Yi-Shuai Niu(参考訳) 目的関数がレベルバウンドである差凸(dc)プログラミング問題を考える。 古典的DCアルゴリズム(DCA)はこの種の問題を解決することで知られており、臨界点を返す。 近年、デ・オリヴェイラとチェオは、ポテンシャル加速のために慣性力法をDCA(InDCA)に取り入れ、アルゴリズムがd(方向)定常でない臨界点に収束することを防ぐ。 本稿では,InDCAに基づく2つの改良慣性 DCA (RInDCA) を提案する。 改良版を臨界点へと後続収束させることを実証する。 さらに,目的関数のkurdyka-lojasiewicz( kl)特性を仮定することで,rindcaの逐次収束を確立する。 画像復元問題における数値シミュレーションは,拡大ステップサイズの利点を示す。

We consider the difference-of-convex (DC) programming problems whose objective function is level-bounded. The classical DC algorithm (DCA) is well-known for solving this kind of problems, which returns a critical point. Recently, de Oliveira and Tcheo incorporated the inertial-force procedure into DCA (InDCA) for potential acceleration and preventing the algorithm from converging to a critical point which is not d(directional)-stati onary. In this paper, based on InDCA, we propose two refined inertial DCA (RInDCA) with enlarged inertial step-sizes for better acceleration. We demonstrate the subsequential convergence of our refined versions to a critical point. In addition, by assuming the Kurdyka-Lojasiewicz (KL) property of the objective function, we establish the sequential convergence of RInDCA. Numerical simulations on image restoration problem show the benefit of enlarged step-size.
翻訳日:2021-05-03 13:31:04 公開日:2021-04-30
# マルチモーダル3次元組織再構成における複数染色とMRIのロバストな関節登録:アレンヒト脳アトラスへの応用

Robust joint registration of multiple stains and MRI for multimodal 3D histology reconstruction: Application to the Allen human brain atlas ( http://arxiv.org/abs/2104.14873v1 )

ライセンス: Link先を確認
Adri\`a Casamitjanaa, Marco Lorenzi, Sebastiano Ferraris, Loc Peter, Marc Modat, Allison Stevens, Bruce Fischld, Tom Vercauterenc, Juan Eugenio Iglesias(参考訳) 3D構造を復元するための2D組織学的区画の二重登録(3D組織学的再構成)は、アトラス構築や生体内イメージングの検証などの分野で応用される。 隣り合う部分の直線的登録はスムーズな再構築をもたらすが、バナナ効果(曲線構造の直線化)やzシフト(ドリフト)といったよく知られた問題がある。 これらの問題は、外部で線形に整列した基準(例えば、磁気共鳴画像)で緩和できるが、コントラスト差や、折りたたみや涙などの人工物を含む組織の強い非線形歪みにより、しばしば登録は不正確である。 そこで,本稿では,複数の組織学的染色の再現性を示す空間的変形の確率論的モデルを提案する。 このモデルは、すべてのセクションとスライスを繋ぐ潜性変換のスパンディングツリーに依存しており、任意の一対のイメージ間の登録は、2つのイメージを繋ぐ(おそらく反転)潜性変換の構成のノイズバージョンとして見ることができると仮定している。 ベイズ推論は、モダリティ内およびモダリティ間の画像ペア間のペア登録セットが与えられた最も可能性の高い潜在変換を計算するために用いられる。 また,複数のMRモードの合成変形の結果から,複数のコントラストを精度よく,かつ頑健に登録できることが示唆された。 アレンヒト脳房からの2つの染色(Nisslとparvalbumin)の3D組織学的再構成は、深刻な歪みを伴う実際のデータにその利点を示す。 また, 組織学とMRIにおいて最も多く用いられている2つのアトラスのギャップを埋めるMNI空間の対応も提供する。 データはhttps://openneuro.or g/datasets/ds003590とコードhttps://github.com/a casamitjana/3dhirest で入手できる。

Joint registration of a stack of 2D histological sections to recover 3D structure (3D histology reconstruction) finds application in areas such as atlas building and validation of in vivo imaging. Straighforward pairwise registration of neighbouring sections yields smooth reconstructions but has well-known problems such as banana effect (straightening of curved structures) and z-shift (drift). While these problems can be alleviated with an external, linearly aligned reference (e.g., Magnetic Resonance images), registration is often inaccurate due to contrast differences and the strong nonlinear distortion of the tissue, including artefacts such as folds and tears. In this paper, we present a probabilistic model of spatial deformation that yields reconstructions for multiple histological stains that that are jointly smooth, robust to outliers, and follow the reference shape. The model relies on a spanning tree of latent transforms connecting all the sections and slices, and assumes that the registration between any pair of images can be see as a noisy version of the composition of (possibly inverted) latent transforms connecting the two images. Bayesian inference is used to compute the most likely latent transforms given a set of pairwise registrations between image pairs within and across modalities. Results on synthetic deformations on multiple MR modalities, show that our method can accurately and robustly register multiple contrasts even in the presence of outliers. The 3D histology reconstruction of two stains (Nissl and parvalbumin) from the Allen human brain atlas, show its benefits on real data with severe distortions. We also provide the correspondence to MNI space, bridging the gap between two of the most used atlases in histology and MRI. Data is available at https://openneuro.or g/datasets/ds003590 and code https://github.com/a casamitjana/3dhirest .
翻訳日:2021-05-03 13:30:49 公開日:2021-04-30
# 安全都市UAVの緊急着陸認証

Certifying Emergency Landing for Safe Urban UAV ( http://arxiv.org/abs/2104.14928v1 )

ライセンス: Link先を確認
Joris Guerin, Kevin Delmas and J\'er\'emie Guiochet(参考訳) 無人航空機(UAV)は、都市環境における多くの用途に使用される可能性がある。 しかし、UAVが人口密度の高い上空を飛行できるようにすると、安全に関する懸念が高まる。 主な安全性問題の一つは、航法能力の喪失の原因となる可能性があり、その結果、忙しい道路などの危険な地域でuavが墜落・着陸し、致命的な事故を引き起こす可能性がある。 2019年に発表されたSORAのような現在の標準では、このような危険な状況に対処するための緩和技術は検討されていない。 したがって、UAVの都市事業の認定は、非常に高いレベルの整合性を示し、その結果、開発コストが禁じられることになる。 この問題に対処するため,本稿では緊急着陸(el)の概念について検討する。 都市型無人航空機のケーススタディにおいて安全解析を行い, ELをSORAの許容緩和平均として統合するための要件を提案する。 これらの要件に基づいて、EL実装とランタイム監視アーキテクチャが開発され、システムの信頼性が向上した。 予備的な定性的結果を示し、モニタはELシステムのエラーを効果的に検出できるように見える。

Unmanned Aerial Vehicles (UAVs) have the potential to be used for many applications in urban environments. However, allowing UAVs to fly above densely populated areas raises concerns regarding safety. One of the main safety issues is the possibility for a failure to cause the loss of navigation capabilities, which can result in the UAV falling/landing in hazardous areas such as busy roads, where it can cause fatal accidents. Current standards, such as the SORA published in 2019, do not consider applicable mitigation techniques to handle this kind of hazardous situations. Consequently, certifying UAV urban operations implies to demonstrate very high levels of integrity, which results in prohibitive development costs. To address this issue, this paper explores the concept of Emergency Landing (EL). A safety analysis is conducted on an urban UAV case study, and requirements are proposed to enable the integration of EL as an acceptable mitigation mean in the SORA. Based on these requirements, an EL implementation was developed, together with a runtime monitoring architecture to enhance confidence in the system. Preliminary qualitative results are presented and the monitor seem to be able to detect errors of the EL system effectively.
翻訳日:2021-05-03 13:30:15 公開日:2021-04-30
# 脳にインスパイアされた原理を用いて視覚パターン認識のための優れた表現を教師なしで学習する

Using brain inspired principles to unsupervisedly learn good representations for visual pattern recognition ( http://arxiv.org/abs/2104.14970v1 )

ライセンス: Link先を確認
Luis Sa-Couto and Andreas Wichert(参考訳) ディープラーニングは、視覚的パターン認識の難しい問題を解決しているが、ラベル付きトレーニングデータが多数存在するタスクでは主に成功している。 さらに、グローバルなバックプロパゲーションベースのトレーニングルールと採用レイヤーの量は、生物学的インスピレーションから逸脱している。 脳はこれらのタスクの大部分を、ラベル付きデータに制限されず、非常に一般的な方法で実行することができる。 これらの理由から、脳内の計算原理を検討することは、モデルが分類のようなタスクの実行に使用できる良質な表現を教師なしで学べるように導く上で、依然として重要な研究課題である。 本研究では、MNISTデータセットに対してそのような表現を生成するためのこれらの原則について検討する。 得られた結果と類似した最近の成果を比較し,極めて競争力の高い結果の検証を行う。

Although deep learning has solved difficult problems in visual pattern recognition, it is mostly successful in tasks where there are lots of labeled training data available. Furthermore, the global back-propagation based training rule and the amount of employed layers represents a departure from biological inspiration. The brain is able to perform most of these tasks in a very general way from limited to no labeled data. For these reasons it is still a key research question to look into computational principles in the brain that can help guide models to unsupervisedly learn good representations which can then be used to perform tasks like classification. In this work we explore some of these principles to generate such representations for the MNIST data set. We compare the obtained results with similar recent works and verify extremely competitive results.
翻訳日:2021-05-03 13:29:58 公開日:2021-04-30
# Deep Image Destruction: 敵対的攻撃に対するDeep Image-to- Image Modelの脆弱性に関する総合的研究

Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep Image-to-Image Models against Adversarial Attacks ( http://arxiv.org/abs/2104.15022v1 )

ライセンス: Link先を確認
Jun-Ho Choi, Huan Zhang, Jun-Hyuk Kim, Cho-Jui Hsieh, Jong-Seok Lee(参考訳) 近年,深部画像分類モデルの敵攻撃に対する脆弱性が調査されている。 しかし, 定量的評価, 攻撃結果, 防衛戦略に異なる特徴を持つ画像対画像モデルについては, 十分に研究されていない。 そこで本研究では,画像・画像モデルによる敵攻撃に対する脆弱性の包括的調査を行う。 5つのイメージ・ツー・イメージタスクに対して,攻撃による出力品質劣化,異なるタスク間の逆例の転送可能性,摂動特性など,さまざまな視点から16のディープモデルを解析した。 画像分類タスクとは異なり、画像間タスクの性能劣化は、例えば、攻撃方法やタスク目的など、様々な要因によって大きく異なる可能性がある。 さらに,画像・画像モデルのロバスト性を向上させるために,分類モデルに用いる従来の防御手法の有効性を解析した。

Recently, the vulnerability of deep image classification models to adversarial attacks has been investigated. However, such an issue has not been thoroughly studied for image-to-image models that can have different characteristics in quantitative evaluation, consequences of attacks, and defense strategy. To tackle this, we present comprehensive investigations into the vulnerability of deep image-to-image models to adversarial attacks. For five popular image-to-image tasks, 16 deep models are analyzed from various standpoints such as output quality degradation due to attacks, transferability of adversarial examples across different tasks, and characteristics of perturbations. We show that unlike in image classification tasks, the performance degradation on image-to-image tasks can largely differ depending on various factors, e.g., attack methods and task objectives. In addition, we analyze the effectiveness of conventional defense methods used for classification models in improving the robustness of the image-to-image models.
翻訳日:2021-05-03 13:29:45 公開日:2021-04-30
# DriveGAN:制御可能な高品質ニューラルネットワークを目指して

DriveGAN: Towards a Controllable High-Quality Neural Simulation ( http://arxiv.org/abs/2104.15060v1 )

ライセンス: Link先を確認
Seung Wook Kim, Jonah Philion, Antonio Torralba, Sanja Fidler(参考訳) 現実的なシミュレータはロボットシステムの訓練と検証に不可欠である。 現代のシミュレータのほとんどは手作りだが、シミュレータを構築するためのスケール可能な方法は、データから直接、アクションに応じて環境がどのように振る舞うかを機械学習を使って学習することだ。 本研究では,フレームとその関連アクションペアの無注列を観察することで,ピクセル空間内で直接動的環境をシミュレートすることを学ぶ。 本稿では,DriveGANと呼ばれる新しい高品質ニューラルネットワークを導入し,異なるコンポーネントを監督なしに切り離すことで制御性を実現する。 ステアリングコントロールに加えて、天気や非プレイヤーオブジェクトの位置などのシーンの特徴をサンプリングするコントロールも含まれている。 DriveGANは、完全に微分可能なシミュレータであるため、与えられたビデオシーケンスを再シミュレートし、エージェントが記録されたシーンを再びドライブし、おそらく異なるアクションをとることができる。 実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。 提案手法は,従来のデータ駆動シミュレータの性能を大幅に上回り,これまで検討されなかった新機能の実現を可能にする。

Realistic simulators are critical for training and verifying robotics systems. While most of the contemporary simulators are hand-crafted, a scaleable way to build simulators is to use machine learning to learn how the environment behaves in response to an action, directly from data. In this work, we aim to learn to simulate a dynamic environment directly in pixel-space, by watching unannotated sequences of frames and their associated action pairs. We introduce a novel high-quality neural simulator referred to as DriveGAN that achieves controllability by disentangling different components without supervision. In addition to steering controls, it also includes controls for sampling features of a scene, such as the weather as well as the location of non-player objects. Since DriveGAN is a fully differentiable simulator, it further allows for re-simulation of a given video sequence, offering an agent to drive through a recorded scene again, possibly taking different actions. We train DriveGAN on multiple datasets, including 160 hours of real-world driving data. We showcase that our approach greatly surpasses the performance of previous data-driven simulators, and allows for new features not explored before.
翻訳日:2021-05-03 13:29:28 公開日:2021-04-30
# 寄付と多様性制約による参加予算

Participatory Budgeting with Donations and Diversity Constraints ( http://arxiv.org/abs/2104.15075v1 )

ライセンス: Link先を確認
Jiehua Chen, Martin Lackner, Jan Maly(参考訳) PB(Participatory budgeting)は、市民が公共資金を分割可能なプロジェクトに分配する方法を共同で決める民主的なプロセスである。 本稿は、市民が資金提供を希望するプロジェクトに追加資金を提供するPBプロセスに焦点を当てる。 我々は,このようなpbに対する寄付の形式的枠組みを提案する。 当社のフレームワークは多様性の制約も許容しています。つまり、各プロジェクトは1つ以上のタイプに属しており、資金提供可能な同種のプロジェクト数には、下位と上位の境界があります。 本研究は,寄付の有無で市民の嗜好を集約する手法の3つの一般クラスを提案し,その公理的性質を分析する。 さらに,pbプロセスの結果を寄付で決定し,市民の最適な寄付戦略を求める計算複雑性について検討した。

Participatory budgeting (PB) is a democratic process where citizens jointly decide on how to allocate public funds to indivisible projects. This paper focuses on PB processes where citizens may give additional money to projects they want to see funded. We introduce a formal framework for this kind of PB with donations. Our framework also allows for diversity constraints, meaning that each project belongs to one or more types, and there are lower and upper bounds on the number of projects of the same type that can be funded. We propose three general classes of methods for aggregating the citizens' preferences in the presence of donations and analyze their axiomatic properties. Furthermore, we investigate the computational complexity of determining the outcome of a PB process with donations and of finding a citizen's optimal donation strategy.
翻訳日:2021-05-03 13:29:12 公開日:2021-04-30
# テクニカルレポートコンパイル:ソースコードによるファイアドリルアンチパターンの検出

Technical Reports Compilation: Detecting the Fire Drill anti-pattern using Source Code ( http://arxiv.org/abs/2104.15090v1 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) この文書は3つの別々の技術報告のまとめである。 具体的には,ソフトウェア開発プロジェクトにおけるいわゆる"アンチパターン"の存在を検出する手法の開発について述べる。 最初の技術的報告は、この具体的な問題に関係しており、2つの大きなビルディングブロックを促進する: 1つは、自己規則化境界時間/振幅整流(srBTAW)と呼ばれる新しい時間整流法の適用である。 第2のビルディングブロックは、ソースコード密度に基づいてコミットの分類子を作成するための詳細なウォークスルーである。 どちらのブロックも専用の技術レポートを持っている。 すべてのデータ、ソースコード、原材料はオンラインで見ることができる。 これらの報告と資源は再生のために利用可能である。 興味のある読者は歓迎され、すべての計算を再実行し、アイデアを拡張することができます。

This document is a compilation of three separate technical reports. In all detail, the development of a method for detecting the presence of so-called "anti-patterns" in software development projects is presented. The first technical report is concerned with this concrete problem, and it facilitates two major building blocks: The first is the application of a new method for time warping, called self-regularizing boundary time/amplitude warping (srBTAW). The second building block is a detailed walkthrough of creating a classifier for commits, based on source code density. Both these blocks have dedicated technical reports. All of the data, source code, and raw materials can be found online. These reports and resources are made available for reproduction purposes. The interested reader is welcome and enabled to re-run all of the computations and to extend our ideas.
翻訳日:2021-05-03 13:28:59 公開日:2021-04-30
# ライフサイエンスアプリケーション(UBayFS)の機能選択のためのユーザガイド型ベイズフレームワーク

A User-Guided Bayesian Framework for Ensemble Feature Selection in Life Science Applications (UBayFS) ( http://arxiv.org/abs/2104.14787v1 )

ライセンス: Link先を確認
Anna Jenul, Stefan Schrunner, J\"urgen Pilz, Oliver Tomic(参考訳) 高次元データセットでの予測モデルのトレーニングは、人工知能において難しい課題である。 ユーザーは過度な適合を防ぎ、モデルの複雑さを低く抑えなければならない。 このように、機能選択はデータ前処理において重要な役割を担い、データの体系的な変動に関する洞察を提供する。 後者の側面は、生命科学のようなモデル解釈可能性に依存する領域において重要である。 本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。 提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。 そこで,実験データから情報を抽出する基本特徴セレクタのアンサンブルを構築し,基本特徴セレクタ間の不整合を補償するメタモデルを構築した。 ユーザーはUBayFSを、特徴の重み付けと特定の特徴の組み合わせのペナルティ化によってガイドする。 このフレームワークは多項確率と制約付きディリクレ型事前分布の新しいバージョンに基づいており、初期特徴重みと側面制約を含んでいる。 定量的評価では,提案フレームワークがユーザ知識とデータ観測のバランスのとれたトレードオフを可能にすることを示す。 標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。

Training predictive models on high-dimensional datasets is a challenging task in artificial intelligence. Users must take measures to prevent overfitting and keep model complexity low. Thus, the feature selection plays a key role in data preprocessing and delivers insights into the systematic variation in the data. The latter aspect is crucial in domains that rely on model interpretability, such as life sciences. We propose UBayFS, an ensemble feature selection technique, embedded in a Bayesian statistical framework. Our approach enhances the feature selection process by considering two sources of information: data and domain knowledge. Therefore, we build an ensemble of elementary feature selectors that extract information from empirical data, leading to a meta-model, which compensates for inconsistencies between elementary feature selectors. The user guides UBayFS by weighting features and penalizing specific feature combinations. The framework builds on a multinomial likelihood and a novel version of constrained Dirichlet-type prior distribution, involving initial feature weights and side constraints. In a quantitative evaluation, we demonstrate that the presented framework allows for a balanced trade-off between user knowledge and data observations. A comparison with standard feature selectors underlines that UBayFS achieves competitive performance, while providing additional flexibility to incorporate domain knowledge.
翻訳日:2021-05-03 13:28:27 公開日:2021-04-30
# 微分プライバシーのための行列ガウス機構の改良

Improved Matrix Gaussian Mechanism for Differential Privacy ( http://arxiv.org/abs/2104.14808v1 )

ライセンス: Link先を確認
Jungang Yang, Liyao Xiang, Weiting Li, Wei Liu, Xinbing Wang(参考訳) 近年の機械学習の広範な展開は、大規模かつ高次元のデータに対する大きな需要をもたらし、プライバシーが深刻な懸念を生じさせている。 微分プライバシー(DP)メカニズムは、行列のような構造データではなく、スカラー値のために伝統的に開発されている。 本研究は,行列値DPのための改良行列ガウス機構 (IMGM) を提案し,$ (\varepsilon,\delta) $-differential privacy の必要十分条件に基づく。 IMGMはノイズの共分散行列の特異値にのみ制約を課し、設計の余地を残している。 行列値DPの正規ノイズ分布のうち、最適ノイズ分布はi.i.dであることが判明した。 ガウス雑音であり、dp制約は各要素の雑音下限となる。 さらに、IMGMの厳密な構成法を導出する。 理論的分析とは別に、さまざまなモデルやデータセットの実験では、IMGMが同じプライバシ保証で最先端のメカニズムよりもはるかに高い実用性が得られることが確認されている。

The wide deployment of machine learning in recent years gives rise to a great demand for large-scale and high-dimensional data, for which the privacy raises serious concern. Differential privacy (DP) mechanisms are conventionally developed for scalar values, not for structural data like matrices. Our work proposes Improved Matrix Gaussian Mechanism (IMGM) for matrix-valued DP, based on the necessary and sufficient condition of $ (\varepsilon,\delta) $-differential privacy. IMGM only imposes constraints on the singular values of the covariance matrices of the noise, which leaves room for design. Among the legitimate noise distributions for matrix-valued DP, we find the optimal one turns out to be i.i.d. Gaussian noise, and the DP constraint becomes a noise lower bound on each element. We further derive a tight composition method for IMGM. Apart from the theoretical analysis, experiments on a variety of models and datasets also verify that IMGM yields much higher utility than the state-of-the-art mechanisms at the same privacy guarantee.
翻訳日:2021-05-03 13:28:07 公開日:2021-04-30
# 非凸最適化のための確率移動平均推定器について

On Stochastic Moving-Average Estimators for Non-Convex Optimization ( http://arxiv.org/abs/2104.14840v1 )

ライセンス: Link先を確認
Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang(参考訳) 本稿では,移動平均(SEMA)に基づく確率的推定器の確率的非凸最適化問題に対する有効性を示す。 非凸最適化の3つのファミリー,すなわち標準確率的非凸最小化, 確率的非凸的 min-max 最適化, 確率的バイレベル最適化の3つのファミリに対するSEMAの分散再帰特性に基づいて, 様々な確率的手法(既存または新たに提案)を解析する。 Our contributions include: (i) for standard stochastic non-convex minimization, we present a simple and intuitive proof of convergence for a family Adam-style methods (including Adam) with an increasing or large "momentum" parameter for the first-order moment, which gives an alternative yet more natural way to guarantee Adam converge; (ii) for stochastic non-convex strongly-concave min-max optimization, we present a single-loop stochastic gradient descent ascent method based on the moving average estimators and establish its oracle complexity of $O(1/\epsilon^4)$ without using a large mini-batch size, addressing a gap in the literature; (iii) for stochastic bilevel optimization, we present a single-loop stochastic method based on the moving average estimators and establish its oracle complexity of $\widetilde O(1/\epsilon^4)$ without computing the inverse or SVD of the Hessian matrix, improving state-of-the-art results. これらの問題に対して、使用済み確率勾配推定器の分散低減結果も確立する。

In this paper, we demonstrate the power of a widely used stochastic estimator based on moving average (SEMA) on a range of stochastic non-convex optimization problems, which only requires {\bf a general unbiased stochastic oracle}. We analyze various stochastic methods (existing or newly proposed) based on the {\bf variance recursion property} of SEMA for three families of non-convex optimization, namely standard stochastic non-convex minimization, stochastic non-convex strongly-concave min-max optimization, and stochastic bilevel optimization. Our contributions include: (i) for standard stochastic non-convex minimization, we present a simple and intuitive proof of convergence for a family Adam-style methods (including Adam) with an increasing or large "momentum" parameter for the first-order moment, which gives an alternative yet more natural way to guarantee Adam converge; (ii) for stochastic non-convex strongly-concave min-max optimization, we present a single-loop stochastic gradient descent ascent method based on the moving average estimators and establish its oracle complexity of $O(1/\epsilon^4)$ without using a large mini-batch size, addressing a gap in the literature; (iii) for stochastic bilevel optimization, we present a single-loop stochastic method based on the moving average estimators and establish its oracle complexity of $\widetilde O(1/\epsilon^4)$ without computing the inverse or SVD of the Hessian matrix, improving state-of-the-art results. For all these problems, we also establish a variance diminishing result for the used stochastic gradient estimators.
翻訳日:2021-05-03 13:27:51 公開日:2021-04-30
# 環境状態を考慮した離散時間平均場制御

Discrete-Time Mean Field Control with Environment States ( http://arxiv.org/abs/2104.14900v1 )

ライセンス: Link先を確認
Kai Cui, Anam Tahir, Mark Sinzger, Heinz Koeppl(参考訳) 多エージェント強化学習法は複雑なマルチエージェント問題の解法において顕著な可能性を示しているが、理論的な保証がほとんどない。 近年,多数のエージェントによる大規模マルチエージェント問題の解法として,平均場制御と平均場ゲームが確立されている。 本研究は,モチベーションスケジューリング問題に動機づけられ,共通の環境状態を持つ離散時間平均場制御モデルを検討する。 エージェント数が有限エージェントの場合で増加するにつれて、近似最適性が厳密に確立され、動的プログラミング原理が成り立つことが判明し、最適な定常ポリシーが存在する。 限界平均場決定過程の連続的な作用空間により、正確な解は一般に難しいため、関連する平均場制御問題を解くために確立された深部強化学習法を適用する。 学習平均場制御ポリシーの性能は、典型的なマルチエージェント強化学習手法と比較し、十分な数のエージェントの平均場性能に収束し、得られた理論結果を検証し、競合解に達することが判明した。

Multi-agent reinforcement learning methods have shown remarkable potential in solving complex multi-agent problems but mostly lack theoretical guarantees. Recently, mean field control and mean field games have been established as a tractable solution for large-scale multi-agent problems with many agents. In this work, driven by a motivating scheduling problem, we consider a discrete-time mean field control model with common environment states. We rigorously establish approximate optimality as the number of agents grows in the finite agent case and find that a dynamic programming principle holds, resulting in the existence of an optimal stationary policy. As exact solutions are difficult in general due to the resulting continuous action space of the limiting mean field Markov decision process, we apply established deep reinforcement learning methods to solve the associated mean field control problem. The performance of the learned mean field control policy is compared to typical multi-agent reinforcement learning approaches and is found to converge to the mean field performance for sufficiently many agents, verifying the obtained theoretical results and reaching competitive solutions.
翻訳日:2021-05-03 13:26:48 公開日:2021-04-30
# 多ビット状態生成のための自動微分可能な量子回路

Automatically Differentiable Quantum Circuit for Many-qubit State Preparation ( http://arxiv.org/abs/2104.14949v1 )

ライセンス: Link先を確認
Peng-Fei Zhou, Rui Hong, Shi-Ju Ran(参考訳) 効率的な状態準備のための量子回路の構築は、量子情報と計算の分野における中心的なトピックに属する。 量子ビット数の増加に伴い、大規模量子回路を導出する方法が強く望まれる。 本研究では,任意の量子多量子ビット状態を効率的に作成するための自動微分可能な量子回路(adqc)手法を提案する。 鍵となる要素は、分解が量子回路を形成するユニタリゲートを与える潜在ゲートを導入することである。 この回路は、進化した状態と目標状態との間の距離を最小化するためにバック伝搬を用いて潜在ゲートを更新することで最適化される。 量子格子モデルとランダム行列積の基底状態を例にとると、フル係数を処理する量子ビットの数はありそうにないが、ADQCは少数の層を持つ高忠実度を$N_L \sim O(1)$とする。 行列積不整合子に基づく既存の状態準備手法と比較して, 上位精度が向上する。 MPSのパラメータ複雑性は、圧縮比$r \sim O(10^{-3})$でADQCにより著しく低減できる。 我々の研究は、機械学習手法と組み合わせることで、多量子ビットシステムにおける量子回路の「インテリジェントな構成」に光を当てている。

Constructing quantum circuits for efficient state preparation belongs to the central topics in the field of quantum information and computation. As the number of qubits grows fast, methods to derive large-scale quantum circuits are strongly desired. In this work, we propose the automatically differentiable quantum circuit (ADQC) approach to efficiently prepare arbitrary quantum many-qubit states. A key ingredient is to introduce the latent gates whose decompositions give the unitary gates that form the quantum circuit. The circuit is optimized by updating the latent gates using back propagation to minimize the distance between the evolved and target states. Taking the ground states of quantum lattice models and random matrix product states as examples, with the number of qubits where processing the full coefficients is unlikely, ADQC obtains high fidelities with small numbers of layers $N_L \sim O(1)$. Superior accuracy is reached compared with the existing state-preparation approach based on the matrix product disentangler. The parameter complexity of MPS can be significantly reduced by ADQC with the compression ratio $r \sim O(10^{-3})$. Our work sheds light on the "intelligent construction" of quantum circuits for many-qubit systems by combining with the machine learning methods.
翻訳日:2021-05-03 13:26:33 公開日:2021-04-30
# ModelGuard: Lipschitz-Continuous Modelのランタイムバリデーション

ModelGuard: Runtime Validation of Lipschitz-continuous Models ( http://arxiv.org/abs/2104.15006v1 )

ライセンス: Link先を確認
Taylor J. Carpenter, Radoslav Ivanov, Insup Lee, James Weimer(参考訳) 本稿では,Lipschitz-Continuou sモデルに対する実行モデル検証のためのサンプリングベースアプローチであるModelGuardを提案する。 多くの種類のモデルの検証技術が存在するが、これらの手法の大部分は、ニューラルネットワークモデルを含むリプシッツ連続モデル全体に適用することはできない。 加えて、既存の技術は一般にホワイトボックスモデルのみを考慮する。 サンプリングベースのアプローチを採用することで、入出力関係とリプシッツ定数によってのみ表現されるブラックボックスモデルに対処できる。 パラメータ空間からランダムにサンプリングし、モデルを評価することにより、ラベル付きトレースの正確性を保証することができ、一貫性のないラベル付きトレースの正確性に対する信頼性が得られることを示す。 物理プラットフォームを含む3つのケーススタディにおいて,modelguardの適用可能性とスケーラビリティを評価した。

This paper presents ModelGuard, a sampling-based approach to runtime model validation for Lipschitz-continuous models. Although techniques exist for the validation of many classes of models the majority of these methods cannot be applied to the whole of Lipschitz-continuous models, which includes neural network models. Additionally, existing techniques generally consider only white-box models. By taking a sampling-based approach, we can address black-box models, represented only by an input-output relationship and a Lipschitz constant. We show that by randomly sampling from a parameter space and evaluating the model, it is possible to guarantee the correctness of traces labeled consistent and provide a confidence on the correctness of traces labeled inconsistent. We evaluate the applicability and scalability of ModelGuard in three case studies, including a physical platform.
翻訳日:2021-05-03 13:26:14 公開日:2021-04-30
# 信頼された実行環境におけるメモリ効率の高いディープラーニング推論

Memory-Efficient Deep Learning Inference in Trusted Execution Environments ( http://arxiv.org/abs/2104.15109v1 )

ライセンス: Link先を確認
Jean-Baptiste Truong, William Gallagher, Tian Guo, Robert J. Walls(参考訳) 本研究では、畳み込み層の実行中のページスラッシングと、完全に接続された層における大きな重み行列の復号化という、信頼された実行環境(TEE)におけるディープニューラルネットワーク実行における2つの重要なボトルネックを解消する技術を提案する。 前者に対し,新たな分割方式であるy平面分割方式を提案し,(ii)teeセキュアメモリと比較して,レイヤ出力が大きい場合に一貫した実行時間を提供するように設計し,(ii)畳み込み層のメモリフットプリントを大幅に削減した。 後者では量子化と圧縮を利用する。 提案手法では、teeサイズで1.09倍から2倍のレイテンシオーバヘッドを発生させ、それに対してtee内部で実行した場合、未修正の実装では最大26倍のレイテンシを発生させた。

This study identifies and proposes techniques to alleviate two key bottlenecks to executing deep neural networks in trusted execution environments (TEEs): page thrashing during the execution of convolutional layers and the decryption of large weight matrices in fully-connected layers. For the former, we propose a novel partitioning scheme, y-plane partitioning, designed to (ii) provide consistent execution time when the layer output is large compared to the TEE secure memory; and (ii) significantly reduce the memory footprint of convolutional layers. For the latter, we leverage quantization and compression. In our evaluation, the proposed optimizations incurred latency overheads ranging from 1.09X to 2X baseline for a wide range of TEE sizes; in contrast, an unmodified implementation incurred latencies of up to 26X when running inside of the TEE.
翻訳日:2021-05-03 13:26:02 公開日:2021-04-30
# (参考訳) マルチテナントDNNアクセラレータスケジューリングのためのドメイン固有遺伝的アルゴリズム [全文訳有]

Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator Scheduling ( http://arxiv.org/abs/2104.13997v2 )

ライセンス: CC BY 4.0
Sheng-Chun Kao, Tushar Krishna(参考訳) Deep LearningはデータセンタやHPCでさまざまなアプリケーションを推進し続けているため、いくつかのサブアクセラレータコア/チップレットを備えた大規模アクセラレータの構築が増えている。 本研究は, 加速器におけるマルチテナント支援の問題について考察する。 特に、複数のDNNからのレイヤを同時にアクセラレーターにマッピングする問題に焦点を当てる。 非常に大きな探索空間を考えると、探索を最適化問題として定式化し、g# withcustom operatorと呼ばれる特殊な遺伝的アルゴリズムを開発し、構造化されたサンプル効率の探索を可能にする。 我々は、G#をいくつかの一般的なヒューリスティック、最先端最適化方法、異なるアクセラレータセットティング(大型/小型アクセラレータ)と異なるサブアクセラレータ構成(均一/均一)の強化学習手法と定量的に比較する。 さらに,リアルタイムスケジューリングを実現するために,学習スケジュールを一般化し,次のジョブのバッチに転送し,スケジュール計算時間をほぼゼロにする手法も示す。

As Deep Learning continues to drive a variety of applications in datacenters and HPC, there is a growing trend towards building large accelerators with several sub-accelerator cores/chiplets. This work looks at the problem of supporting multi-tenancy on such accelerators. In particular, we focus on the problem of mapping layers from several DNNs simultaneously on an accelerator. Given the extremely large search space, we formulate the search as an optimization problem and develop a specialized genetic algorithm called G# withcustom operators to enable structured sample-efficient exploration. We quantitatively compare G# with several common heuristics, state-of-the-art optimization methods, and reinforcement learning methods across different accelerator set-tings (large/small accelerators) and different sub-accelerator configurations (homogeneous/heterog eneous), and observeG# can consistently find better solutions. Further, to enable real-time scheduling, we also demonstrate a method to generalize the learnt schedules and transfer them to the next batch of jobs, reducing schedule compute time to near zero.
翻訳日:2021-05-03 13:01:27 公開日:2021-04-30
# (参考訳) 非凸規則化に基づく手のジェスチャー認識 [全文訳有]

Hand Gesture Recognition Based on a Nonconvex Regularization ( http://arxiv.org/abs/2104.14349v2 )

ライセンス: CC BY 4.0
Jing Qin and Joshua Ashley and Biyun Xie(参考訳) 手の動きの認識は人間とロボットの相互作用において最も基本的なタスクの1つである。 スパース表現に基づく手法は、その効率性と訓練データに対する低要求のために広く用いられている。 近年,画像処理コミュニティにおいて,効率の良い性能を保ちながら疎性を促進するために,$\ell_{1-2}$正規化を含む非凸正則化技術が提案されている。 本稿では,乗算器の交互方向法(ADMM)を用いて,$\ell_{1-2}$正規化に基づく視覚に基づく手動作認識モデルを提案する。 2値データセットとグレースケールデータセットの数値実験により,手の動きを識別する手法の有効性が示された。

Recognition of hand gestures is one of the most fundamental tasks in human-robot interaction. Sparse representation based methods have been widely used due to their efficiency and low requirements on the training data. Recently, nonconvex regularization techniques including the $\ell_{1-2}$ regularization have been proposed in the image processing community to promote sparsity while achieving efficient performance. In this paper, we propose a vision-based hand gesture recognition model based on the $\ell_{1-2}$ regularization, which is solved by the alternating direction method of multipliers (ADMM). Numerical experiments on binary and gray-scale data sets have shown the effectiveness of this method in identifying hand gestures.
翻訳日:2021-05-03 11:48:27 公開日:2021-04-30
# (参考訳) GasHis-Transformer:胃病理像分類のためのマルチスケール視覚変換器アプローチ [全文訳有]

GasHis-Transformer: A Multi-scale Visual Transformer Approach for Gastric Histopathology Image Classification ( http://arxiv.org/abs/2104.14528v2 )

ライセンス: CC BY 4.0
Haoyuan Chen, Chen Li, Xiaoyan Li, Weiming Hu, Yixin Li, Wanli Liu, Changhao Sun, Yudong Yao, Marcin Grzegorzek(参考訳) 胃癌の診断にインテリジェントに応用する深層学習法では,既存の手法は畳み込みニューラルネットワーク(cnn)に重点を置いているが,視覚トランスフォーマ(vt)を用いたアプローチはない。 VTの効率的で安定したディープラーニングモデルは、コンピュータビジョンの分野における最新の応用であり、画像におけるグローバル情報の認識を改善することができる。 本稿では, 胃病理組織像分類(ghic)課題に対して, 光学顕微鏡により胃組織像と正常癌の胃組織像を自動的に分類し, 病理医の医療作業を容易にするマルチスケール視覚トランスフォーマモデル(gashis-transformer) を提案する。 このGasHis-Transformerモデルは,グローバル情報モジュール(GIM)とローカル情報モジュール(LIM)の2つの基本モジュール上に構築されている。 実験では、280個の異常または正常な画像を有するオープンソースのヘマトキシリンおよびエオシン(H&E)染色胃病理データセットを1:1:2の割合でトレーニング、バリデーション、テストセットに分割した。 そして、試験セット98.0%,100.0%,96.0%,9 8.0%の精度、リコール、f1スコア、精度を得る。 さらにコントラスト実験では、374の画像を含むリンパ腫画像データセットと2つの拡張実験で1390画像を含む乳がんデータセットを用いてgathis-transformerモデルの一般化能力を試験し、それぞれ83.9%と89.4%の精度を達成した。 最後に、GasHis-Transformerモデルは高い分類性能を示し、GHICタスクの有効性と膨大なポテンシャルを示す。

For deep learning methods applied to the diagnosis of gastric cancer intelligently, existing methods concentrate more on Convolutional Neural Networks (CNN) but no approaches are available using Visual Transformer (VT). VT's efficient and stable deep learning models with the most recent application in the field of computer vision, which is capable of improving the recognition of global information in images. In this paper, a multi-scale visual transformer model (GasHis-Transformer) is proposed for a gastric histopathology image classification (GHIC) task, which enables the automatic classification of gastric histological images of abnormal and normal cancer by obtained by optical microscopy to facilitate the medical work of histopathologists. This GasHis-Transformer model is built on two fundamental modules, including a global information module (GIM) and a local information module (LIM). In the experiment, an open source hematoxylin and eosin (H&E) stained gastric histopathology dataset with 280 abnormal or normal images are divided into training, validation, and test sets at a ratio of 1:1:2 first. Then, GasHis-Transformer obtains precision, recall, F1-score, and accuracy on the testing set of 98.0%, 100.0%, 96.0%, and 98.0%. Furthermore, a contrast experiment also tests the generalization ability of the proposed GatHis-Transformer model with a lymphoma image dataset including 374 images and a breast cancer dataset including 1390 images in two extended experiments and achieves an accuracy of 83.9% and 89.4%, respectively. Finally, GasHis-Transformer model demonstrates high classification performance and shows its effectiveness and enormous potential in GHIC tasks.
翻訳日:2021-05-03 11:37:21 公開日:2021-04-30
# 光場高次物体検出のためのシナジスティックアテンションの学習

Learning Synergistic Attention for Light Field Salient Object Detection ( http://arxiv.org/abs/2104.13916v2 )

ライセンス: Link先を確認
Yi Zhang, Geng Chen, Qian Chen, Yujia Sun, Olivier Deforges, Wassim Hamidouche and Lu Zhang(参考訳) 本稿では,マルチモーダル特徴と高度な注意機構の相乗効果を確立することにより,光場サルエント物体検出に対応する新しい相乗的注意ネットワーク(sa-net)を提案する。 sa-netは3次元畳み込みニューラルネットワークを介して焦点スタックの豊富な情報を活用し、2つのカスケードされた相乗的注意モジュールでマルチモーダル光フィールドデータの高レベル特徴をデコードし、効果的な特徴融合モジュールを用いてサリエンシーマップを漸進的に予測する。 広く使用されている3つのベンチマークデータセットの大規模な実験により、我々のSA-Netは28の最先端モデルより優れており、その有効性と優位性を十分に証明している。 私たちのコードは公開されます。

We propose a novel Synergistic Attention Network (SA-Net) to address the light field salient object detection by establishing a synergistic effect between multi-modal features with advanced attention mechanisms. Our SA-Net exploits the rich information of focal stacks via 3D convolutional neural networks, decodes the high-level features of multi-modal light field data with two cascaded synergistic attention modules, and predicts the saliency map using an effective feature fusion module in a progressive manner. Extensive experiments on three widely-used benchmark datasets show that our SA-Net outperforms 28 state-of-the-art models, sufficiently demonstrating its effectiveness and superiority. Our code will be made publicly available.
翻訳日:2021-05-03 11:12:20 公開日:2021-04-30
# ZePHyR:ゼロショットポス仮説のレーティング

ZePHyR: Zero-shot Pose Hypothesis Rating ( http://arxiv.org/abs/2104.13526v2 )

ライセンス: Link先を確認
Brian Okorn, Qiao Gu, Martial Hebert, David Held(参考訳) ポーズ推定は多くのロボット操作パイプラインの基本モジュールである。 環境中の物体のポーズを推定することは、把握、運動計画、操作に有用である。 しかし、現在のポーズ推定手法は、大きな注釈付きトレーニングセットやシミュレーションデータに依存している。 さらに、これらの手法の長い訓練期間は、新しい物体との迅速な相互作用を禁止している。 これらの問題に対処するために,ゼロショットオブジェクトポーズ推定の新しい手法を提案する。 提案手法は仮説生成とスコアリングのフレームワークを用いて,トレーニングに使用されていないオブジェクトに一般化するスコアリング関数の学習に重点を置いている。 非順序点差の関数としてのレーティング仮説によるゼロショット一般化を実現する。 本手法は,テクスチャと非テクスチャの両方のオブジェクトを散らかした難易度の高いデータセットに対して,提案手法が従来の手法を大幅に上回ることを示す。 また,新しい物体のモデルを素早くスキャンして構築することで,本システムをどのように利用できるかを示す。 我々の研究により、ユーザーは再トレーニングを必要とせずに、新しいオブジェクトのポーズを推定できる。 詳細は私たちのWebサイトhttps://bokorn.githu b.io/zephyr/で確認できます。

Pose estimation is a basic module in many robot manipulation pipelines. Estimating the pose of objects in the environment can be useful for grasping, motion planning, or manipulation. However, current state-of-the-art methods for pose estimation either rely on large annotated training sets or simulated data. Further, the long training times for these methods prohibit quick interaction with novel objects. To address these issues, we introduce a novel method for zero-shot object pose estimation in clutter. Our approach uses a hypothesis generation and scoring framework, with a focus on learning a scoring function that generalizes to objects not used for training. We achieve zero-shot generalization by rating hypotheses as a function of unordered point differences. We evaluate our method on challenging datasets with both textured and untextured objects in cluttered scenes and demonstrate that our method significantly outperforms previous methods on this task. We also demonstrate how our system can be used by quickly scanning and building a model of a novel object, which can immediately be used by our method for pose estimation. Our work allows users to estimate the pose of novel objects without requiring any retraining. Additional information can be found on our website https://bokorn.githu b.io/zephyr/
翻訳日:2021-05-03 11:12:05 公開日:2021-04-30
# 線形時変システムの安定オンライン制御

Stable Online Control of Linear Time-Varying Systems ( http://arxiv.org/abs/2104.14134v2 )

ライセンス: Link先を確認
Guannan Qu, Yuanyuan Shi, Sahin Lale, Anima Anandkumar, Adam Wierman(参考訳) 線形時間変化(LTV)システムは、その一般化と単純さのため、現実の力学系のモデリングに広く用いられている。 LTVシステムの安定性を保証することは制御理論における中心的な問題の一つである。 しかし、安定性を保証する既存のアプローチは、現在のシステム情報や短期的なシステム情報しか利用できないオンライン設定において、非常に低い最適累積制御コストをもたらす。 本研究では,大規模LTVシステムの入出力安定性を保証し,制御コストを最小化する,効率的なオンライン制御アルゴリズムであるCOCO-LQ(Covariance Constrained Online Linear Quadratic)を提案する。 提案手法は,LQ最適制御器の半定値プログラミング(SDP)に状態共分散制約を組み込む。 我々は,COCO-LQの性能を実験および電力系統周波数制御の例で実証した。

Linear time-varying (LTV) systems are widely used for modeling real-world dynamical systems due to their generality and simplicity. Providing stability guarantees for LTV systems is one of the central problems in control theory. However, existing approaches that guarantee stability typically lead to significantly sub-optimal cumulative control cost in online settings where only current or short-term system information is available. In this work, we propose an efficient online control algorithm, COvariance Constrained Online Linear Quadratic (COCO-LQ) control, that guarantees input-to-state stability for a large class of LTV systems while also minimizing the control cost. The proposed method incorporates a state covariance constraint into the semi-definite programming (SDP) formulation of the LQ optimal controller. We empirically demonstrate the performance of COCO-LQ in both synthetic experiments and a power system frequency control example.
翻訳日:2021-05-03 11:11:46 公開日:2021-04-30
# 生活スタイル選択のプロキシとしてのオンラインショッピング行動の活用 : 慢性疾患予防リテラシーの新しい視点

Leveraging Online Shopping Behaviors as a Proxy for Personal Lifestyle Choices: New Insights into Chronic Disease Prevention Literacy ( http://arxiv.org/abs/2104.14281v2 )

ライセンス: Link先を確認
Yongzhen Wang, Xiaozhong Liu, Katy B\"orner, Jun Lin, Yingnan Ju, Changlong Sun, Luo Si(参考訳) ユビキタスなインターネットアクセスは私たちの生活様式を変えつつあるが、不健康な生活習慣に長時間曝露された慢性疾患を防ぐという前例のない課題が伴っている。 本稿では,電子商取引ユーザ体験がほとんどの人の日常生活に同化されている時代を対象とした,慢性疾患予防リテラシーの鮮明化に,オンラインショッピング行動を活用することを提案する。 ここで、何百万ものオンライン買い物客からの振り返りクエリーログと購入記録にアクセスし、さまざまな製品カテゴリと購入者のペルソナをカバーする幅広いライフスタイル機能を構築した。 処方薬を初めて購入する前のライフスタイル関連情報を用いて、オンライン買い物客の過去のライフスタイル選択と、特定の慢性疾患に悩まされているかどうかを判断できる。 新たなライフスタイルのリスク因子がうつ病と糖尿病の2つの例で発見され、その多くは既存の医療知識と認知的一致を示した。 また, 慢性疾患のリスクが高いオンライン買い物客(例えば, 抑うつに対する[受信者動作特性曲線]auc=0.68, 糖尿病に対するauc=0.70) に対して, 医療診断を基準としたスクリーニング調査の結果と密接に一致した。 電子商取引サイトでの慢性疾患の監視は、既に住んでいるデジタル空間の個人にすぐに同意するかもしれない。

Ubiquitous internet access is reshaping the way we live, but it is accompanied by unprecedented challenges to prevent chronic diseases planted in long exposure to unhealthy lifestyles. This paper proposes leveraging online shopping behaviors as a proxy for personal lifestyle choices to freshen chronic disease prevention literacy targeted for times when e-commerce user experience has been assimilated into most people's daily life. Here, retrospective longitudinal query logs and purchase records from millions of online shoppers were accessed, constructing a broad spectrum of lifestyle features covering assorted product categories and buyer personas. Using the lifestyle-related information preceding their first purchases of prescription drugs, we could determine associations between online shoppers' past lifestyle choices and if they suffered from a particular chronic disease. Novel lifestyle risk factors were discovered in two exemplars -- depression and diabetes, most of which showed cognitive congruence with existing healthcare knowledge. Further, such empirical findings could be adopted to locate online shoppers at high risk of chronic diseases with fair accuracy (e.g., [area under the receiver operating characteristic curve] AUC=0.68 for depression and AUC=0.70 for diabetes), closely matching the performance of screening surveys benchmarked against medical diagnosis. Unobtrusive chronic disease surveillance via e-commerce sites may soon meet consenting individuals in the digital space they already inhabit.
翻訳日:2021-05-03 11:11:31 公開日:2021-04-30