このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210327となっている論文です。

PDF登録状況(公開日: 20210327)

TitleAuthorsAbstract論文公表日・翻訳日
# Dual Geometric Graph Network (DG2N) -- 変形可能な形状アライメントのための反復ネットワーク

Dual Geometric Graph Network (DG2N) -- Iterative network for deformable shape alignment ( http://arxiv.org/abs/2011.14723v2 )

ライセンス: Link先を確認
Dvir Ginzburg and Dan Raviv(参考訳) 局所的な特徴がマッピング確率である双対グラフ構造を用いて幾何学モデルを調整する新しい手法を提案する。 非剛体構造のアライメントは、対応のモデル化に必要な未知数が多いため、最も難しいコンピュータビジョンタスクの1つである。 テンプレートアライメントや関数マップにおけるDNNモデルの利用は飛躍的に進んでいるが,非等尺変形が存在するクラス間のアライメントには失敗している。 ここでは,この課題を再考し,2つのグラフ構造 - 1つは前方マップ,もう1つは後方マップ - 上の2つのグラフ構造 - で展開する概念を用いることを提案する。 メッシュと点の雲の高速で安定な解における伸縮性ドメインのアライメントに関する技術成果を報告する。

We provide a novel new approach for aligning geometric models using a dual graph structure where local features are mapping probabilities. Alignment of non-rigid structures is one of the most challenging computer vision tasks due to the high number of unknowns needed to model the correspondence. We have seen a leap forward using DNN models in template alignment and functional maps, but those methods fail for inter-class alignment where nonisometric deformations exist. Here we propose to rethink this task and use unrolling concepts on a dual graph structure - one for a forward map and one for a backward map, where the features are pulled back matching probabilities from the target into the source. We report state of the art results on stretchable domains alignment in a rapid and stable solution for meshes and cloud of points.
翻訳日:2021-06-06 14:58:39 公開日:2021-03-27
# VisEvol:進化的最適化を通じてハイパーパラメータ検索をサポートするビジュアルアナリティクス

VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization ( http://arxiv.org/abs/2012.01205v3 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren(参考訳) 機械学習(ML)モデルのトレーニングフェーズでは、通常、複数のハイパーパラメータを設定する必要がある。 このプロセスは計算量が多く、与えられた問題に対して最適なハイパーパラメータ集合を推測するために広範囲な探索が必要である。 この課題は、ほとんどのmlモデルが内部で複雑であり、トレーニングには予測結果に著しく影響を及ぼす試行錯誤プロセスが含まれるという事実によってさらに悪化する。 さらに、MLアルゴリズムの各ハイパーパラメータは他のパラメータと相互に絡み合う可能性があり、変更は残りのハイパーパラメータに予期せぬ影響をもたらす可能性がある。 進化的最適化はこれらの問題に対処するための有望な方法である。 この方法によれば、パフォーマンスモデルを格納し、残りのモデルを遺伝的アルゴリズムにインスパイアされたクロスオーバーおよび突然変異プロセスによって改善する。 ハイパーパラメータのインタラクティブな探索と,この進化過程への介入を支援するビジュアル分析ツールであるvisevolを提案する。 まとめると、提案するツールは進化を通じて新しいモデルを生成するのに役立ち、最終的には広範囲のハイパーパラメータ空間の様々な領域で強力なハイパーパラメータの組み合わせを探索する。 結果は(平等な権利を持つ)投票アンサンブルであり、最終的な予測性能を高める。 VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。

During the training phase of machine learning (ML) models, it is usually necessary to configure several hyperparameters. This process is computationally intensive and requires an extensive search to infer the best hyperparameter set for the given problem. The challenge is exacerbated by the fact that most ML models are complex internally, and training involves trial-and-error processes that could remarkably affect the predictive result. Moreover, each hyperparameter of an ML algorithm is potentially intertwined with the others, and changing it might result in unforeseeable impacts on the remaining hyperparameters. Evolutionary optimization is a promising method to try and address those issues. According to this method, performant models are stored, while the remainder are improved through crossover and mutation processes inspired by genetic algorithms. We present VisEvol, a visual analytics tool that supports interactive exploration of hyperparameters and intervention in this evolutionary procedure. In summary, our proposed tool helps the user to generate new models through evolution and eventually explore powerful hyperparameter combinations in diverse regions of the extensive hyperparameter space. The outcome is a voting ensemble (with equal rights) that boosts the final predictive performance. The utility and applicability of VisEvol are demonstrated with two use cases and interviews with ML experts who evaluated the effectiveness of the tool.
翻訳日:2021-05-25 04:07:54 公開日:2021-03-27
# 拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Diffusion Recovery Likelihood ( http://arxiv.org/abs/2012.08125v2 )

ライセンス: Link先を確認
Ruiqi Gao, Yang Song, Ben Poole, Ying Nian Wu, Diederik P. Kingma(参考訳) エネルギーベースモデル(EBM)は多くの望ましい性質を示すが、高次元データセットのトレーニングとサンプリングは依然として困難である。 拡散確率モデルに関する最近の進歩に触発されて、データセットのノイズが増すバージョンで訓練された一連のESMから抽出・学習する拡散回復確率法を提案する。 各ebmは回復可能性で訓練され、より高いノイズレベルにおけるノイズバージョンによって、一定のノイズレベルにおけるデータの条件付き確率を最大化する。 条件分布からのサンプリングは限界分布からのサンプリングよりもはるかに容易であるので、回復可能性の最適化は限界確率よりも扱いやすい。 学習後、ガウスのホワイトノイズ分布から初期化し、徐々に低いノイズレベルで条件分布をサンプリングするサンプリングプロセスにより合成画像を生成することができる。 本手法は様々な画像データセット上で高忠実度サンプルを生成する。 非条件 CIFAR-10 では,本手法は FID 9.58 と開始スコア 8.30 を達成する。 さらに, 従来のEMMと異なり, 条件分布から得られたMCMCサンプルは相違せず, 現実的な画像を表現することができ, 高次元データセットにおいてもデータの正規化密度を正確に推定できることを示した。 実装はhttps://github.com/r uiqigao/recovery_lik elihoodで利用可能です。

While energy-based models (EBMs) exhibit a number of desirable properties, training and sampling on high-dimensional datasets remains challenging. Inspired by recent progress on diffusion probabilistic models, we present a diffusion recovery likelihood method to tractably learn and sample from a sequence of EBMs trained on increasingly noisy versions of a dataset. Each EBM is trained with recovery likelihood, which maximizes the conditional probability of the data at a certain noise level given their noisy versions at a higher noise level. Optimizing recovery likelihood is more tractable than marginal likelihood, as sampling from the conditional distributions is much easier than sampling from the marginal distributions. After training, synthesized images can be generated by the sampling process that initializes from Gaussian white noise distribution and progressively samples the conditional distributions at decreasingly lower noise levels. Our method generates high fidelity samples on various image datasets. On unconditional CIFAR-10 our method achieves FID 9.58 and inception score 8.30, superior to the majority of GANs. Moreover, we demonstrate that unlike previous work on EBMs, our long-run MCMC samples from the conditional distributions do not diverge and still represent realistic images, allowing us to accurately estimate the normalized density of data even for high-dimensional datasets. Our implementation is available at https://github.com/r uiqigao/recovery_lik elihood.
翻訳日:2021-05-07 05:34:53 公開日:2021-03-27
# 時空間グラフによるイベントベース動作分割

Event-based Motion Segmentation with Spatio-Temporal Graph Cuts ( http://arxiv.org/abs/2012.08730v2 )

ライセンス: Link先を確認
Yi Zhou, Guillermo Gallego, Xiuyuan Lu, Siqi Liu, and Shaojie Shen(参考訳) 独立して動く物体を識別することは動的なシーン理解に不可欠である。 しかし、ダイナミックシーンで使用される伝統的なカメラは、そのサンプリング原理により、動きのぼやけや露出アーティファクトに苦しむことがある。 対照的に、イベントベースのカメラは、そのような制限を克服する利点を提供する、新しいバイオインスパイアされたセンサーである。 ピクセル単位の強度変化を非同期に報告し、シーンダイナミクスと全く同じ速度で視覚情報を取得することができる。 本研究では,イベントベースカメラで取得した独立移動物体を識別する手法,すなわちイベントベース動作分割問題を解決する手法を開発した。 本稿では, 入力イベントの時空間構造を時空間グラフの形で利用することにより, エネルギー最小化による弱い制約付きマルチモデルフィッティングとして問題を定式化する方法と, イベントクラスタ割り当て(ラベル付け)とモーションモデルフィッティングの2つのサブプロブレムを反復的に解く方法について述べる。 利用可能なデータセットの実験では、異なる動きパターンと移動物体の数を持つシーンにおいて、メソッドの汎用性を示す。 提案手法は,期待される移動物体の数を事前に決定することなく,技術水準よりも同等以上の性能を発揮することを示す。

Identifying independently moving objects is an essential task for dynamic scene understanding. However, traditional cameras used in dynamic scenes may suffer from motion blur or exposure artifacts due to their sampling principle. By contrast, event-based cameras are novel bio-inspired sensors that offer advantages to overcome such limitations. They report pixel-wise intensity changes asynchronously, which enables them to acquire visual information at exactly the same rate as the scene dynamics. We have developed a method to identify independently moving objects acquired with an event-based camera, i.e., to solve the event-based motion segmentation problem. This paper describes how to formulate the problem as a weakly-constrained multi-model fitting one via energy minimization, and how to jointly solve its two subproblems -- event-cluster assignment (labeling) and motion model fitting -- in an iterative manner, by exploiting the spatio-temporal structure of input events in the form of a space-time graph. Experiments on available datasets demonstrate the versatility of the method in scenes with different motion patterns and number of moving objects. The evaluation shows that the method performs on par or better than the state of the art without having to predetermine the number of expected moving objects.
翻訳日:2021-05-03 02:58:09 公開日:2021-03-27
# 階層型グラフカプセルネットワーク

Hierarchical Graph Capsule Network ( http://arxiv.org/abs/2012.08734v2 )

ライセンス: Link先を確認
Jinyu Yang, Peilin Zhao, Yu Rong, Chaochao Yan, Chunyuan Li, Hehuan Ma, Junzhou Huang(参考訳) グラフニューラルネットワーク(gnns)は、構造化データのトポロジ情報を明確にモデル化することでその強みを生んでいる。 しかし、既存のGNNは、グラフ分類において重要な役割を果たす階層グラフ表現を捕捉する能力に限界がある。 本稿では,ノード埋め込みを共同で学習し,グラフ階層を抽出する階層型グラフカプセルネットワーク(HGCN)を提案する。 具体的には、各ノードの下にある異種因子を識別し、それらのインスタンス化パラメータが同一エンティティの異なる特性を表すことにより、不等角グラフカプセルが確立される。 階層的表現を学習するために、HGCNは、下層カプセル(部分)と下層カプセル(全体)の間の部分的関係を、その部分間の構造情報を明示的に考慮して特徴付ける。 HGCNの有効性と各成分の寄与を実験的に検証した。

Graph Neural Networks (GNNs) draw their strength from explicitly modeling the topological information of structured data. However, existing GNNs suffer from limited capability in capturing the hierarchical graph representation which plays an important role in graph classification. In this paper, we innovatively propose hierarchical graph capsule network (HGCN) that can jointly learn node embeddings and extract graph hierarchies. Specifically, disentangled graph capsules are established by identifying heterogeneous factors underlying each node, such that their instantiation parameters represent different properties of the same entity. To learn the hierarchical representation, HGCN characterizes the part-whole relationship between lower-level capsules (part) and higher-level capsules (whole) by explicitly considering the structure information among the parts. Experimental studies demonstrate the effectiveness of HGCN and the contribution of each component.
翻訳日:2021-05-03 02:48:32 公開日:2021-03-27
# Pct: Point Cloud Transformer

Pct: Point cloud transformer ( http://arxiv.org/abs/2012.09688v3 )

ライセンス: Link先を確認
Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin and Shi-Min Hu(参考訳) 不規則なドメインと順序の欠如は、ポイントクラウド処理のためのディープニューラルネットワークの設計を困難にする。 本稿では,ポイントクラウド学習のための新しいフレームワークであるpoint cloud transformer(pct)を提案する。 PCTはTransformerをベースにしており、自然言語処理において大きな成功を収め、画像処理において大きな可能性を示す。 これは本質的に点列を処理するために置換不変であり、点クラウド学習に適している。 ポイントクラウド内のローカルコンテキストをよりよく捉えるために,最遠のポイントサンプリングと近接探索をサポートすることで,入力埋め込みを強化する。 広範囲な実験により,PCTは形状分類,部分分割,正規推定タスクにおいて最先端の性能を達成することが示された。

The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation and normal estimation tasks.
翻訳日:2021-05-02 07:23:34 公開日:2021-03-27
# 因果学習のための生成的介入

Generative Interventions for Causal Learning ( http://arxiv.org/abs/2012.12265v2 )

ライセンス: Link先を確認
Chengzhi Mao, Augustine Cha, Amogh Gupta, Hao Wang, Junfeng Yang, Carl Vondrick(参考訳) 我々は,新しい視点,背景,シーンコンテキストに一般化したロバストな視覚表現を学ぶためのフレームワークを提案する。 識別モデルは、しばしば自然に発生する散発的な相関を学習し、トレーニング分布外の画像で失敗する。 本稿では, 生成モデルを用いて, コンバウンド要因による特徴の介入を行うことができることを示す。 実験,可視化,理論的結果は,この手法が根底にある因果関係とより整合した堅牢な表現を学習することを示している。 提案手法は分散の一般化を要求する複数のデータセットのパフォーマンスを改善し,imagenet から objectnet データセットへ一般化した最先端の性能を示す。

We introduce a framework for learning robust visual representations that generalize to new viewpoints, backgrounds, and scene contexts. Discriminative models often learn naturally occurring spurious correlations, which cause them to fail on images outside of the training distribution. In this paper, we show that we can steer generative models to manufacture interventions on features caused by confounding factors. Experiments, visualizations, and theoretical results show this method learns robust representations more consistent with the underlying causal relationships. Our approach improves performance on multiple datasets demanding out-of-distribution generalization, and we demonstrate state-of-the-art performance generalizing from ImageNet to ObjectNet dataset.
翻訳日:2021-04-26 07:38:32 公開日:2021-03-27
# 目標容量でロバストな畳み込みアーキテクチャを発見する:マルチショットアプローチ

Discovering Robust Convolutional Architecture at Targeted Capacity: A Multi-Shot Approach ( http://arxiv.org/abs/2012.11835v3 )

ライセンス: Link先を確認
Xuefei Ning, Junbo Zhao, Wenshuo Li, Tianchen Zhao, Yin Zheng, Huazhong Yang, Yu Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は敵の例に対して脆弱であり、アーキテクチャトポロジ(例えば、幅拡大)のモデル容量の増大は、一貫した堅牢性の向上をもたらすことを示している。 これはアーキテクチャ設計で考慮すべき明らかな堅牢性と効率のトレードオフを示している。 本稿では,キャパシティ予算を考慮したシナリオを考慮し,目標容量の対角的堅牢なアーキテクチャの発見を目指す。 最近の研究では、ロバストなアーキテクチャを発見するためにone-shot neural architecture search (nas)を用いた。 しかし、異なるトポロジの容量は探索過程において整列できないため、ワンショットNAS法はスーパーネットの容量が大きいトポロジを好む。 そして、検出されたトポロジは、ターゲットの容量に拡張した場合、最適ではないかもしれない。 本稿では,この問題に対処し,対象キャパシティでロバストなアーキテクチャを明示的に探索する,新しい多ショットnas手法を提案する。 2000mの目標地点で発見されたmsrobnet-2000は、最近のnasが発見したrobnet-largeを4%-7%という様々な基準で上回っている。 また、目標となる1560MのFLOPでは、MSRobNet-1560が、別のNASで発見されたアーキテクチャであるRobNetを2.3%、PGD-7の精度で1.3%上回る。 すべてのコードはhttps://github.com/w alkerning/aw\_nasで入手できる。

Convolutional neural networks (CNNs) are vulnerable to adversarial examples, and studies show that increasing the model capacity of an architecture topology (e.g., width expansion) can bring consistent robustness improvements. This reveals a clear robustness-efficienc y trade-off that should be considered in architecture design. In this paper, considering scenarios with capacity budget, we aim to discover adversarially robust architecture at targeted capacities. Recent studies employed one-shot neural architecture search (NAS) to discover robust architectures. However, since the capacities of different topologies cannot be aligned in the search process, one-shot NAS methods favor topologies with larger capacities in the supernet. And the discovered topology might be suboptimal when augmented to the targeted capacity. We propose a novel multi-shot NAS method to address this issue and explicitly search for robust architectures at targeted capacities. At the targeted FLOPs of 2000M, the discovered MSRobNet-2000 outperforms the recent NAS-discovered architecture RobNet-large under various criteria by a large margin of 4%-7%. And at the targeted FLOPs of 1560M, MSRobNet-1560 surpasses another NAS-discovered architecture RobNet-free by 2.3% and 1.3% in the clean and PGD-7 accuracies, respectively. All codes are available at https://github.com/w alkerning/aw\_nas.
翻訳日:2021-04-26 07:34:11 公開日:2021-03-27
# SDGNN:Signed Directed Networksのためのノード表現学習

SDGNN: Learning Node Representation for Signed Directed Networks ( http://arxiv.org/abs/2101.02390v3 )

ライセンス: Link先を確認
Junjie Huang, Huawei Shen, Liang Hou, Xueqi Cheng(参考訳) ネットワーク埋め込みは、ネットワーク内のノードを低次元ベクトル表現にマッピングすることを目的としている。 グラフニューラルネットワーク(gnns)は広く注目を集め、ノード表現の学習において最先端のパフォーマンスをもたらす。 しかし、ほとんどのgnnは、ポジティブリンクのみが存在する無署名ネットワークでのみ動作する。 これらのモデルを署名された有向ネットワークに転送するのは簡単なことではないが、実世界では広く観察されているが、あまり研究されていない。 本稿では,まず2つの基本社会学理論(ステータス理論とバランス理論)をレビューし,実世界のデータセットについて実証研究を行い,有向ネットワークにおける社会的メカニズムを分析する。 関連社会学理論によって導かれたSDGNNと呼ばれる新しい符号付きグラフニューラルネットワークモデルを提案し,符号付き有向ネットワークのノード埋め込みを学習する。 提案モデルは,リンク標識,リンク方向,符号付き有向三角形を同時に再構成する。 署名付きネットワーク埋め込みのベンチマークとして一般的に使用される5つの実世界のデータセット上で,モデルの有効性を検証する。 実験により,提案モデルが,機能ベース手法,ネットワーク埋め込み手法,gnn手法など既存のモデルを上回ることを示した。

Network embedding is aimed at mapping nodes in a network into low-dimensional vector representations. Graph Neural Networks (GNNs) have received widespread attention and lead to state-of-the-art performance in learning node representations. However, most GNNs only work in unsigned networks, where only positive links exist. It is not trivial to transfer these models to signed directed networks, which are widely observed in the real world yet less studied. In this paper, we first review two fundamental sociological theories (i.e., status theory and balance theory) and conduct empirical studies on real-world datasets to analyze the social mechanism in signed directed networks. Guided by related sociological theories, we propose a novel Signed Directed Graph Neural Networks model named SDGNN to learn node embeddings for signed directed networks. The proposed model simultaneously reconstructs link signs, link directions, and signed directed triangles. We validate our model's effectiveness on five real-world datasets, which are commonly used as the benchmark for signed network embedding. Experiments demonstrate the proposed model outperforms existing models, including feature-based methods, network embedding methods, and several GNN methods.
翻訳日:2021-04-10 13:31:53 公開日:2021-03-27
# (参考訳) スケーラブルで効率的なニューラル音声符号化 [全文訳有]

Scalable and Efficient Neural Speech Coding ( http://arxiv.org/abs/2103.14776v1 )

ライセンス: CC BY 4.0
Kai Zhen, Jongmo Sung, Mi Suk Lee, Seungkwon Beak, Minje Kim(参考訳) 本稿では,スケーラブルで効率的な音声圧縮用ニューラル波形コーデック(nwc)を提案する。 音声符号化問題を自動符号化タスクとして定式化し、畳み込みニューラルネットワーク(CNN)がフィードフォワードルーチンとして符号化と復号を行う。 提案したCNNオートエンコーダは、量子化とエントロピー符号化をトレーニング可能なモジュールとして定義し、最適化プロセス中に符号化アーティファクトとビットレート制御を処理する。 我々は,完全畳み込みネットワークモデルに,ゲート残差ネットワークや奥行き分離可能な畳み込みなど,コンパクトなモデルアーキテクチャを導入することで効率を向上する。 さらに,提案モデルには拡張性のあるアーキテクチャ,クロスモジュール残差学習(CMRL)を備え,幅広いビットレートをカバーする。 そこで我々は,複数のnwc自動エンコーディングモジュールを結合し,nwcモジュールが先行するモジュールが生成した復元損失を復元するために残余符号化を行う残余符号化方式を採用している。 CMRLは、低ビットレートをカバーするためにスケールダウンし、最初のオートエンコーダとして線形予測符号化(LPC)モジュールを使用する。 我々はLPCの量子化をトレーニング可能なモジュールとして再定義し、LPCとその後続のNWCモジュール間のビット割り当てトレードオフを強化する。 他の自己回帰型デコーダベースのニューラルスピーチコーダと比較すると、このデコーダはアーキテクチャがかなり小さい。例えば、0.12億パラメータしかなく、ウェーブネットデコーダより100倍以上小さい。 LPCNetベースの音声コーデックは低ビットレートのネットワーク複雑性を低減するために音声生成モデルを利用しており、我々は高いビットレートまで拡張して透過的な性能を実現することができる。 軽量なニューラル音声符号化モデルは,低ビットレート領域でamr-wbと同等の主観的スコアを達成し,32kbpsで透過的な符号化品質を提供する。

This work presents a scalable and efficient neural waveform codec (NWC) for speech compression. We formulate the speech coding problem as an autoencoding task, where a convolutional neural network (CNN) performs encoding and decoding as its feedforward routine. The proposed CNN autoencoder also defines quantization and entropy coding as a trainable module, so the coding artifacts and bitrate control are handled during the optimization process. We achieve efficiency by introducing compact model architectures to our fully convolutional network model, such as gated residual networks and depthwise separable convolution. Furthermore, the proposed models are with a scalable architecture, cross-module residual learning (CMRL), to cover a wide range of bitrates. To this end, we employ the residual coding concept to concatenate multiple NWC autoencoding modules, where an NWC module performs residual coding to restore any reconstruction loss that its preceding modules have created. CMRL can scale down to cover lower bitrates as well, for which it employs linear predictive coding (LPC) module as its first autoencoder. We redefine LPC's quantization as a trainable module to enhance the bit allocation tradeoff between LPC and its following NWC modules. Compared to the other autoregressive decoder-based neural speech coders, our decoder has significantly smaller architecture, e.g., with only 0.12 million parameters, more than 100 times smaller than a WaveNet decoder. Compared to the LPCNet-based speech codec, which leverages the speech production model to reduce the network complexity in low bitrates, ours can scale up to higher bitrates to achieve transparent performance. Our lightweight neural speech coding model achieves comparable subjective scores against AMR-WB at the low bitrate range and provides transparent coding quality at 32 kbps.
翻訳日:2021-04-03 15:33:23 公開日:2021-03-27
# (参考訳) 必要と十分による地域説明:理論と実践の統一 [全文訳有]

Local Explanations via Necessity and Sufficiency: Unifying Theory and Practice ( http://arxiv.org/abs/2103.14651v1 )

ライセンス: CC BY 4.0
David Watson, Limor Gultchin, Ankur Taly, Luciano Floridi(参考訳) 必要と十分性は、すべての成功した説明の構成要素である。 しかし、その重要性にもかかわらず、これらの概念は概念的に過小評価され、説明可能な人工知能(XAI)に不整合的に適用されてきた。 論理学、確率論、因果論を基礎として、xaiにおける必要性と十分性の中心的役割を確立し、1つの形式的枠組みで一見異質な手法を統一する。 与えられた文脈に関して説明的因子を計算するための健全で完全なアルゴリズムを提供し、様々なタスクにおける芸術的代替品の状態に対してその柔軟性と競争力を示す。

Necessity and sufficiency are the building blocks of all successful explanations. Yet despite their importance, these notions have been conceptually underdeveloped and inconsistently applied in explainable artificial intelligence (XAI), a fast-growing research area that is so far lacking in firm theoretical foundations. Building on work in logic, probability, and causality, we establish the central role of necessity and sufficiency in XAI, unifying seemingly disparate methods in a single formal framework. We provide a sound and complete algorithm for computing explanatory factors with respect to a given context, and demonstrate its flexibility and competitive performance against state of the art alternatives on various tasks.
翻訳日:2021-04-03 15:05:41 公開日:2021-03-27
# (参考訳) CalibDNN:ディープニューラルネットワークを用いた知覚のためのマルチモーダルセンサキャリブレーション [全文訳有]

CalibDNN: Multimodal Sensor Calibration for Perception Using Deep Neural Networks ( http://arxiv.org/abs/2103.14793v1 )

ライセンス: CC BY 4.0
Ganning Zhao, Jiesi Hu, Suya You and C.-C. Jay Kuo(参考訳) 現在の知覚システムは、しばしば2Dカメラや3D LiDARセンサーのようなマルチモーダル・イメージとセンサーを搭載している。 下流知覚課題のためのデータを融合利用するために、マルチモーダルセンサデータのロバストで正確なキャリブレーションが不可欠である。 本稿では,マルチモーダルセンサ,特にLiDAR-Cameraペア間の正確な校正のための新しいディープラーニング駆動技術(CalibDNN)を提案する。 提案した研究の重要な革新は、特定のキャリブレーションターゲットやハードウェアアシスタントを必要とせず、処理全体を1つのモデルと1つのイテレーションで完全に自動化することである。 異なる手法と異なるデータセットに対する広範な実験の結果は、最先端の性能を示している。

Current perception systems often carry multimodal imagers and sensors such as 2D cameras and 3D LiDAR sensors. To fuse and utilize the data for downstream perception tasks, robust and accurate calibration of the multimodal sensor data is essential. We propose a novel deep learning-driven technique (CalibDNN) for accurate calibration among multimodal sensor, specifically LiDAR-Camera pairs. The key innovation of the proposed work is that it does not require any specific calibration targets or hardware assistants, and the entire processing is fully automatic with a single model and single iteration. Results comparison among different methods and extensive experiments on different datasets demonstrates the state-of-the-art performance.
翻訳日:2021-04-03 14:41:44 公開日:2021-03-27
# (参考訳) LSTMを用いた暗号通貨予測のための感度解析 [全文訳有]

LSTM Based Sentiment Analysis for Cryptocurrency Prediction ( http://arxiv.org/abs/2103.14804v1 )

ライセンス: CC0 1.0
Xin Huang, Wenbin Zhang, Yiyi Huang, Xuejiao Tang, Mingli Zhang, Jayachander Surbiryala, Vasileios Iosifidis, Zhen Liu and Ji Zhang(参考訳) ビッグデータ分析と自然言語処理の最近の研究は、ソーシャルメディア情報における感情分析の自動化技術を開発している。 さらに、ソーシャルメディアのユーザベースの増加と大量の投稿もまた、暗号通貨の価格変動を予測する貴重な感情情報を提供する。 本研究は,ソーシャルメディアの感情を分析し,その相関関係を見出すことにより,暗号通貨の揮発性価格変動を予測することを目的としている。 これまでの研究は、英語のソーシャルメディア投稿の感情を分析するために開発されたものだが、最も人気のある中国のソーシャルメディアプラットフォームであるシナ・ワイボーの中国ソーシャルメディア投稿の感情を識別する方法を提案する。 Weiboのポストをキャプチャし、暗号固有の感情辞書の作成を記述したパイプラインを開発し、Long Short-term memory(LSTM)ベースのリカレントニューラルネットワークと過去の暗号価格運動を提案し、将来の時間枠の価格動向を予測する。 提案手法は, 精度18.5%, リコール15.4%の精度で, 自己回帰ベースモデルの状態を上回った。

Recent studies in big data analytics and natural language processing develop automatic techniques in analyzing sentiment in the social media information. In addition, the growing user base of social media and the high volume of posts also provide valuable sentiment information to predict the price fluctuation of the cryptocurrency. This research is directed to predicting the volatile price movement of cryptocurrency by analyzing the sentiment in social media and finding the correlation between them. While previous work has been developed to analyze sentiment in English social media posts, we propose a method to identify the sentiment of the Chinese social media posts from the most popular Chinese social media platform Sina-Weibo. We develop the pipeline to capture Weibo posts, describe the creation of the crypto-specific sentiment dictionary, and propose a long short-term memory (LSTM) based recurrent neural network along with the historical cryptocurrency price movement to predict the price trend for future time frames. The conducted experiments demonstrate the proposed approach outperforms the state of the art auto regressive based model by 18.5% in precision and 15.4% in recall.
翻訳日:2021-04-03 14:17:06 公開日:2021-03-27
# (参考訳) selfgait: 自己教師付き歩行認識のための時空間表現学習法 [全文訳有]

SelfGait: A Spatiotemporal Representation Learning Method for Self-supervised Gait Recognition ( http://arxiv.org/abs/2103.14811v1 )

ライセンス: CC BY 4.0
Yiqun Liu, Yi Zeng, Jian Pu, Hongming Shan, Peiyang He, Junping Zhang(参考訳) 歩行は距離で知覚できるユニークな生体的特徴であるため、歩行認識は人間の識別において重要な役割を果たす。 既存の歩容認識法は歩容系列から歩容特徴を異なる方法で学習することができるが、歩容認識の性能はラベル付きデータの不足に苦しむ。 多数の歩行データをラベル付けするのは非現実的です。 本研究では,多種多様な未ラベルの歩行データを事前学習プロセスとして活用し,時空間後骨の表現能力を向上させる自己教師型歩行認識手法であるSelfGaitを提案する。 具体的には,水平ピラミッドマッピング (HPM) とマイクロモーションテンプレートビルダー (MTB) を時空間バックボーンとして用いて, マルチスケール時空間表現を捉える。 casia-b および ou-mvlp ベンチマーク gait データセットを用いた実験により,提案手法の有効性が実証された。 ソースコードはhttps://github.com/E choItLiu/SelfGaitで公開されている。

Gait recognition plays a vital role in human identification since gait is a unique biometric feature that can be perceived at a distance. Although existing gait recognition methods can learn gait features from gait sequences in different ways, the performance of gait recognition suffers from insufficient labeled data, especially in some practical scenarios associated with short gait sequences or various clothing styles. It is unpractical to label the numerous gait data. In this work, we propose a self-supervised gait recognition method, termed SelfGait, which takes advantage of the massive, diverse, unlabeled gait data as a pre-training process to improve the representation abilities of spatiotemporal backbones. Specifically, we employ the horizontal pyramid mapping (HPM) and micro-motion template builder (MTB) as our spatiotemporal backbones to capture the multi-scale spatiotemporal representations. Experiments on CASIA-B and OU-MVLP benchmark gait datasets demonstrate the effectiveness of the proposed SelfGait compared with four state-of-the-art gait recognition methods. The source code has been released at https://github.com/E choItLiu/SelfGait.
翻訳日:2021-04-03 14:11:45 公開日:2021-03-27
# (参考訳) 実演のない共模倣学習 [全文訳有]

Co-Imitation Learning without Expert Demonstration ( http://arxiv.org/abs/2103.14823v1 )

ライセンス: CC BY 4.0
Kun-Peng Ning, Hu Xu, Kun Zhu, Sheng-Jun Huang(参考訳) 模倣学習は、専門家のデモンストレーションを利用して強化学習の効率を向上させるための主要なアプローチである。 しかし、多くの現実のシナリオでは、専門家のデモンストレーションを得るのは非常に高価か、あるいは不可能かもしれない。 この課題を克服するために,本稿では,エージェントの過去の優れた経験を専門家のデモンストレーションなしに活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。 具体的には,それぞれのエージェントが交互に環境を探索し,ピアエージェントの経験を生かして,異なるエージェントを訓練する。 経験は価値や誤解を招く可能性があるが、我々は各経験の潜在的有用性を価値関数の期待値で見積もることを提案する。 これにより、ノイズをフィルタリングしながら、より有用な体験を強調して、エージェント同士を選択的に模倣することができる。 様々な課題に対する実験結果から,提案する共励学習フレームワークは,エージェント同士が外部の監督なしに相互に利益を享受できるという有意な優位性を示した。

Imitation learning is a primary approach to improve the efficiency of reinforcement learning by exploiting the expert demonstrations. However, in many real scenarios, obtaining expert demonstrations could be extremely expensive or even impossible. To overcome this challenge, in this paper, we propose a novel learning framework called Co-Imitation Learning (CoIL) to exploit the past good experiences of the agents themselves without expert demonstration. Specifically, we train two different agents via letting each of them alternately explore the environment and exploit the peer agent's experience. While the experiences could be valuable or misleading, we propose to estimate the potential utility of each piece of experience with the expected gain of the value function. Thus the agents can selectively imitate from each other by emphasizing the more useful experiences while filtering out noisy ones. Experimental results on various tasks show significant superiority of the proposed Co-Imitation Learning framework, validating that the agents can benefit from each other without external supervision.
翻訳日:2021-04-03 14:02:17 公開日:2021-03-27
# (参考訳) アクティブクエリによる摂動レベル適応補正によるモデルのロバスト性向上 [全文訳有]

Improving Model Robustness by Adaptively Correcting Perturbation Levels with Active Queries ( http://arxiv.org/abs/2103.14824v1 )

ライセンス: CC BY 4.0
Kun-Peng Ning, Lue Tao, Songcan Chen, Sheng-Jun Huang(参考訳) 高精度に加えて、さまざまなアプリケーションにおける機械学習モデルにとって堅牢性はますます重要になっている。 近年,騒音摂動訓練によるモデルロバスト性向上に多くの研究が注がれている。 既存の研究の多くは、すべてのトレーニング例に対して一定の摂動レベルを仮定しているが、実際のタスクではそうではない。 実際、過剰な摂動は例の差別的内容を破壊するかもしれないが、不十分な摂動は堅牢性を改善するための有益な情報を提供しない。 この観察に動機づけられ,訓練過程の各例に対する摂動レベルを適応的に調整することを提案する。 具体的には、モデルが人間の専門家から正しい摂動レベルを対話的に照会できるように、新しいアクティブラーニングフレームワークを提案する。 新しいクエリタイプとともにコスト効率の高いサンプリング戦略を設計することで、いくつかのクエリでロバスト性を大幅に改善することができる。 理論的解析と実験的研究の両方が提案手法の有効性を検証する。

In addition to high accuracy, robustness is becoming increasingly important for machine learning models in various applications. Recently, much research has been devoted to improving the model robustness by training with noise perturbations. Most existing studies assume a fixed perturbation level for all training examples, which however hardly holds in real tasks. In fact, excessive perturbations may destroy the discriminative content of an example, while deficient perturbations may fail to provide helpful information for improving the robustness. Motivated by this observation, we propose to adaptively adjust the perturbation levels for each example in the training process. Specifically, a novel active learning framework is proposed to allow the model to interactively query the correct perturbation level from human experts. By designing a cost-effective sampling strategy along with a new query type, the robustness can be significantly improved with a few queries. Both theoretical analysis and experimental studies validate the effectiveness of the proposed approach.
翻訳日:2021-04-03 13:46:09 公開日:2021-03-27
# (参考訳) 空間変換器と時間変換器を用いたエンドツーエンド多目的追跡 [全文訳有]

Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers ( http://arxiv.org/abs/2103.14829v1 )

ライセンス: CC BY 4.0
Tianyu Zhu, Markus Hiller, Mahsa Ehsanpour, Rongkai Ma, Tom Drummond, Hamid Rezatofighi(参考訳) この分野の最近の進歩にもかかわらず、ビデオシーケンス内の無期限なオブジェクト数を時間とともに追跡することは課題である。 長期の時間的情報を無視して、既存のほとんどのアプローチは、閉塞のような多目的追跡の課題を適切に扱えない。 これらの欠点に対処するため、MO3TRは、真のエンドツーエンドのTransformerベースのオンラインマルチオブジェクトトラッキング(MOT)フレームワークで、明示的なデータアソシエーションモジュールやヒューリスティックス/ポスト処理を必要とせずに、オクルージョン、開始、終了の追跡を学習する。 MO3TRは、空間変換器と時間変換器を組み合わせて、オブジェクトの相互作用を長期の時間的埋め込みにエンコードし、その情報を入力データと組み合わせて再帰的に使用して、時間とともに追跡対象の状態を推定する。 空間的注意機構により,対象物と対象物との間の暗黙的な表現を学習し,時間的注意機構は過去の情報の一部に焦点をあてることで,複数のフレーム上のオクルージョンを解決することができる。 実験では,この手法の可能性を実証し,複数のMOT測定値に関する最新の結果を得た。 私たちのコードは公開されます。

Tracking a time-varying indefinite number of objects in a video sequence over time remains a challenge despite recent advances in the field. Ignoring long-term temporal information, most existing approaches are not able to properly handle multi-object tracking challenges such as occlusion. To address these shortcomings, we present MO3TR: a truly end-to-end Transformer-based online multi-object tracking (MOT) framework that learns to handle occlusions, track initiation and termination without the need for an explicit data association module or any heuristics/post-proc essing. MO3TR encodes object interactions into long-term temporal embeddings using a combination of spatial and temporal Transformers, and recursively uses the information jointly with the input data to estimate the states of all tracked objects over time. The spatial attention mechanism enables our framework to learn implicit representations between all the objects and the objects to the measurements, while the temporal attention mechanism focuses on specific parts of past information, allowing our approach to resolve occlusions over multiple frames. Our experiments demonstrate the potential of this new approach, reaching new state-of-the-art results on multiple MOT metrics for two popular multi-object tracking benchmarks. Our code will be made publicly available.
翻訳日:2021-04-03 13:30:58 公開日:2021-03-27
# (参考訳) LiBRe: 逆検出のための実践的ベイズ的アプローチ [全文訳有]

LiBRe: A Practical Bayesian Approach to Adversarial Detection ( http://arxiv.org/abs/2103.14835v1 )

ライセンス: CC BY 4.0
Zhijie Deng, Xiao Yang, Shizhen Xu, Hang Su, Jun Zhu(参考訳) 魅力的な柔軟性にもかかわらず、ディープニューラルネットワーク(DNN)は敵の例に対して脆弱である。 この問題を解決するために様々な敵対的防衛戦略が提案されているが、それらは通常、普遍性、有効性、効率性に関する不可解な妥協のために制限された実用性を示している。 本研究では,bns(bayesian neural network)を敵検出に活用する目的で,より実用的な手法である軽量ベイズ改良法(libre)を提案する。 ベイズ原理に基づくタスクと攻撃非依存モデリングによって、LiBReは様々な訓練済みタスク依存のDNNを、不均一な敵攻撃を低コストで防御することができる。 We developed and integrated advanced learning technique to make LiBRe appropriate for adversarial detection。 具体的には,多層深層アンサンブルのバリエーションを構築し,LiBReの有効性と効率を高めるために,事前学習と微調整のワークフローを採用する。 さらに,逆検出指向の不確実性定量化を実現するための新たな洞察を提供する。 幅広いシナリオをカバーする大規模な実証研究は、LiBReの実用性を検証する。 モデリングと学習戦略の優位性を証明するために、徹底的なアブレーション研究も行っています。

Despite their appealing flexibility, deep neural networks (DNNs) are vulnerable against adversarial examples. Various adversarial defense strategies have been proposed to resolve this problem, but they typically demonstrate restricted practicability owing to unsurmountable compromise on universality, effectiveness, or efficiency. In this work, we propose a more practical approach, Lightweight Bayesian Refinement (LiBRe), in the spirit of leveraging Bayesian neural networks (BNNs) for adversarial detection. Empowered by the task and attack agnostic modeling under Bayes principle, LiBRe can endow a variety of pre-trained task-dependent DNNs with the ability of defending heterogeneous adversarial attacks at a low cost. We develop and integrate advanced learning techniques to make LiBRe appropriate for adversarial detection. Concretely, we build the few-layer deep ensemble variational and adopt the pre-training & fine-tuning workflow to boost the effectiveness and efficiency of LiBRe. We further provide a novel insight to realise adversarial detection-oriented uncertainty quantification without inefficiently crafting adversarial examples during training. Extensive empirical studies covering a wide range of scenarios verify the practicability of LiBRe. We also conduct thorough ablation studies to evidence the superiority of our modeling and learning strategies.
翻訳日:2021-04-03 13:12:30 公開日:2021-03-27
# (参考訳) ダウンスケーリングとアップスケーリングのための協調最適化戦略を用いたビデオリスケーリングネットワーク [全文訳有]

Video Rescaling Networks with Joint Optimization Strategies for Downscaling and Upscaling ( http://arxiv.org/abs/2103.14858v1 )

ライセンス: CC BY 4.0
Yan-Cheng Huang, Yi-Hsin Chen, Cheng-You Lu, Hui-Po Wang, Wen-Hsiao Peng and Ching-Chun Huang(参考訳) 本稿では,映像空間解像度を個々の視聴装置に適合させる必要性から生じる映像再スケーリングタスクについて述べる。 我々は,共同作業としてビデオダウンスケーリングとアップスケーリングを共同で最適化することを目指している。 最近の研究では、時間的情報を考慮しないイメージベースのソリューションに焦点が当てられている。 結合層を持つ可逆ニューラルネットワークに基づく2つの共同最適化手法を提案する。 我々のLong Short-Term Memory Video Rescaling Network (LSTM-VRN)は、低解像度ビデオの時間情報を利用して、アップスケーリングに欠落する高周波情報の明示的な予測を形成する。 マルチインプットマルチ出力ビデオリスケーリングネットワーク(mimo-vrn)は,ビデオフレーム群を同時にダウンスケールし,スケールアップするための新しい戦略を提案する。 定量的・定性的な結果の面では,画像ベースインバータブルモデルに勝るだけでなく,共同最適化を伴わないビデオリスケーリング法よりも優れたスケールアップ品質を示す。 我々の知る限り、この研究はビデオのダウンスケーリングとアップスケーリングを共同で最適化する最初の試みである。

This paper addresses the video rescaling task, which arises from the needs of adapting the video spatial resolution to suit individual viewing devices. We aim to jointly optimize video downscaling and upscaling as a combined task. Most recent studies focus on image-based solutions, which do not consider temporal information. We present two joint optimization approaches based on invertible neural networks with coupling layers. Our Long Short-Term Memory Video Rescaling Network (LSTM-VRN) leverages temporal information in the low-resolution video to form an explicit prediction of the missing high-frequency information for upscaling. Our Multi-input Multi-output Video Rescaling Network (MIMO-VRN) proposes a new strategy for downscaling and upscaling a group of video frames simultaneously. Not only do they outperform the image-based invertible model in terms of quantitative and qualitative results, but also show much improved upscaling quality than the video rescaling methods without joint optimization. To our best knowledge, this work is the first attempt at the joint optimization of video downscaling and upscaling.
翻訳日:2021-04-03 12:52:21 公開日:2021-03-27
# (参考訳) In-Crop雑草同定のためのディープラーニング技術:概観

Deep Learning Techniques for In-Crop Weed Identification: A Review ( http://arxiv.org/abs/2103.14872v1 )

ライセンス: CC BY 4.0
Kun Hu, Zhiyong Wang, Guy Coleman, Asher Bender, Tingting Yao, Shan Zeng, Dezhen Song, Arnold Schumann, Michael Walsh(参考訳) 雑草は農業の生産性と環境にとって大きな脅威である。 持続可能な農業への需要の増加は、除草剤への依存を減らすことを目的とした正確な雑草防除技術の革新を促した。 様々な視覚タスクにおけるディープラーニングの大きな成功により、多くの有望な画像ベース雑草検出アルゴリズムが開発されている。 本稿では,画像に基づく雑草検出における深層学習技術の最近の展開について概説する。 このレビューは、雑草検出に関連する深層学習の基本を概説することから始まる。 次に, 深層雑草検出に関する最近の進歩を, 公共雑草データセットを含む研究資料について検討する。 最後に, 実際に展開可能な雑草検出手法を開発する上での課題と今後の研究の機会の議論をまとめ, この分野のタイムリーな調査を行い, 学際的な研究課題に対処する研究者を多く呼び寄せることを期待する。

Weeds are a significant threat to the agricultural productivity and the environment. The increasing demand for sustainable agriculture has driven innovations in accurate weed control technologies aimed at reducing the reliance on herbicides. With the great success of deep learning in various vision tasks, many promising image-based weed detection algorithms have been developed. This paper reviews recent developments of deep learning techniques in the field of image-based weed detection. The review begins with an introduction to the fundamentals of deep learning related to weed detection. Next, recent progresses on deep weed detection are reviewed with the discussion of the research materials including public weed datasets. Finally, the challenges of developing practically deployable weed detection methods are summarized, together with the discussions of the opportunities for future research.We hope that this review will provide a timely survey of the field and attract more researchers to address this inter-disciplinary research problem.
翻訳日:2021-04-03 12:35:35 公開日:2021-03-27
# (参考訳) 知識ドリフトのループハンドリング [全文訳有]

Human-in-the-loop Handling of Knowledge Drift ( http://arxiv.org/abs/2103.14874v1 )

ライセンス: CC BY 4.0
Andrea Bontempelli, Fausto Giunchiglia, Andrea Passerini, Stefano Teso(参考訳) 我々は,階層的分類において発生する複雑なドリフト形式である知識ドリフト(kd)を導入し,研究する。 kdの下では、概念の語彙、個々の分布、それらの間のis-a関係は全て時間とともに変化する。 主な課題は、基底真実の概念階層が観測されていないため、異なる形式のKDを区別することは難しいことである。 例えば、2つの概念間の新しいis-a関係の導入は、これらの概念の個々の変更と混同される可能性があるが、同等とは程遠い。 正しい種類のKDを特定するのに失敗すると、分類器が使用する概念階層が損なわれ、体系的な予測エラーが生じる。 私たちのキーとなる観察は、ループ中の多くのアプリケーション(スマートパーソナルアシスタントなど)では、ユーザが最近どのようなドリフトが起こったかを知っていることです。 そこで,我々はtrckdについて紹介する。trckdは,ドリフトの自動検出と適応を,ユーザが異なる種類のkd間で曖昧さを解消するように要求するインタラクティブなステージと組み合わせた,新しいアプローチである。 さらにtrckdは、シンプルで効果的な知識認識適応戦略を実装している。 シミュレーションの結果,ユーザに対するクエリ数が少ないと,合成データと現実データの両方で予測性能が大幅に向上することがわかった。

We introduce and study knowledge drift (KD), a complex form of drift that occurs in hierarchical classification. Under KD the vocabulary of concepts, their individual distributions, and the is-a relations between them can all change over time. The main challenge is that, since the ground-truth concept hierarchy is unobserved, it is hard to tell apart different forms of KD. For instance, introducing a new is-a relation between two concepts might be confused with individual changes to those concepts, but it is far from equivalent. Failure to identify the right kind of KD compromises the concept hierarchy used by the classifier, leading to systematic prediction errors. Our key observation is that in many human-in-the-loop applications (like smart personal assistants) the user knows whether and what kind of drift occurred recently. Motivated by this, we introduce TRCKD, a novel approach that combines automated drift detection and adaptation with an interactive stage in which the user is asked to disambiguate between different kinds of KD. In addition, TRCKD implements a simple but effective knowledge-aware adaptation strategy. Our simulations show that often a handful of queries to the user are enough to substantially improve prediction performance on both synthetic and realistic data.
翻訳日:2021-04-03 12:34:17 公開日:2021-03-27
# (参考訳) ディープフィードフォワードニューラルネットワークによる異なるセルオートマトン規則の一般化 [全文訳有]

Generalization over different cellular automata rules learned by a deep feed-forward neural network ( http://arxiv.org/abs/2103.14886v1 )

ライセンス: CC BY 4.0
Marcel Aach, Jens Henrik Goebbert, Jenia Jitsev(参考訳) ディープニューラルネットワークのクラスを一般化する能力をテストするために、john conwayのgame of lifeに基づいて、2次元セルオートマトン(ca)のための多数の異なるルールセットをランダムに生成する。 これらのルールを用いて、各CAインスタンスに対する複数のトラジェクトリを計算する。 短距離および長距離のスキップ接続を持つ深層畳み込みエンコーダ・デコーダネットワークは、以前の状態から次のCA状態を予測するために、様々な生成されたCA軌道上で訓練される。 その結果、ネットワークは様々な複雑なセルオートマトン規則を学習し、見えない構成に一般化できることがわかった。 ある程度は、ネットワークはトレーニング中に全く見られなかったルールセットや近隣サイズへの一般化を示している。

To test generalization ability of a class of deep neural networks, we randomly generate a large number of different rule sets for 2-D cellular automata (CA), based on John Conway's Game of Life. Using these rules, we compute several trajectories for each CA instance. A deep convolutional encoder-decoder network with short and long range skip connections is trained on various generated CA trajectories to predict the next CA state given its previous states. Results show that the network is able to learn the rules of various, complex cellular automata and generalize to unseen configurations. To some extent, the network shows generalization to rule sets and neighborhood sizes that were not seen during the training at all.
翻訳日:2021-04-03 12:20:24 公開日:2021-03-27
# (参考訳) knowru: 多エージェント強化学習における知識蒸留による知識活用 [全文訳有]

KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2103.14891v1 )

ライセンス: CC BY 4.0
Zijian Gao, Kele Xu, Bo Ding, Huaimin Wang, Yiying Li, Hongda Jia(参考訳) 近年,多エージェント領域における深層強化学習(RL)アルゴリズムの進歩が著しく進んでいる。 しかし、ますます複雑なタスクのトレーニングには時間がかかり、リソースが消費される。 この課題を緩和するには,過去の研究では経験の効率的な活用が不可欠であり,そのほとんどは複雑な設計と環境力学により,変分的システムにおいてこの目標を達成できない可能性がある。 本稿では,複雑な手書き設計を伴わずに,多エージェント強化学習アルゴリズムの大部分に容易に展開可能な知識再利用手法「KnowRU」を提案する。 我々は,エージェント間の知識伝達に知識蒸留パラダイムを用い,エージェントの漸近的性能を改善しつつ,新たなタスクのトレーニングフェーズを加速する目標を掲げた。 我々は,knowruのロバスト性と有効性を実証するために,協調的および競争的シナリオにおける最先端マルチエージェント強化学習(marl)アルゴリズムに関する広範囲な実験を行った。 その結果,KnowRUは近年報告されている手法よりも優れており,MARLにおける知識再利用の重要性を強調している。

Recently, deep Reinforcement Learning (RL) algorithms have achieved dramatically progress in the multi-agent area. However, training the increasingly complex tasks would be time-consuming and resources-exhausting . To alleviate this problem, efficient leveraging the historical experience is essential, which is under-explored in previous studies as most of the exiting methods may fail to achieve this goal in a continuously variational system due to their complicated design and environmental dynamics. In this paper, we propose a method, named "KnowRU" for knowledge reusing which can be easily deployed in the majority of the multi-agent reinforcement learning algorithms without complicated hand-coded design. We employ the knowledge distillation paradigm to transfer the knowledge among agents with the goal to accelerate the training phase for new tasks, while improving the asymptotic performance of agents. To empirically demonstrate the robustness and effectiveness of KnowRU, we perform extensive experiments on state-of-the-art multi-agent reinforcement learning (MARL) algorithms on collaborative and competitive scenarios. The results show that KnowRU can outperform the recently reported methods, which emphasizes the importance of the proposed knowledge reusing for MARL.
翻訳日:2021-04-03 12:11:56 公開日:2021-03-27
# (参考訳) ビオリンブリッジアドミタンスの特徴に基づく表現 [全文訳有]

Feature-based Representation for Violin Bridge Admittances ( http://arxiv.org/abs/2103.14895v1 )

ライセンス: CC BY 4.0
R. Malvermi, S. Gonzalez, M. Quintavalla, F. Antonacci, A. Sarti, J. A. Torres and R. Corradi(参考訳) 周波数応答関数(frfs)は、音楽音響実験の基礎の一つである。 楽器が様々な周波数で振動する様子を記述し、それらの間の音響的差異を予測し理解するために使用される。 バイオリンのような弦楽器の特定の場合、ブリッジで評価されたRFは全身の振動を捉えることが知られている。 これらの指標はブリッジ・アセプタンスとも呼ばれ、比較分析の文献で広く使われている。 しかし、その複雑な構造のため、定量的に比較・研究することは困難である。 本論文では,第1共鳴ピークの周波数,振幅,品質因子の影響を分離する,frf,特にバイオリンブリッジのアシタンスの違いを定量化する手法を提案する。 提案手法により,FRFとクラスター計測との距離を,この距離に応じて定義することができる。 本研究では, 有限要素解析に基づく2つのケーススタディと, 実ヴァイオリンを用いた実測値を用いて, それらの表現の有効性を実証する。 特に、シミュレーションされた橋の吸音においては、提案される距離は、連続するシミュレーション「ステップ」が特定の振動特性に与える影響を強調することができ、実際のバイオリンでは、類似のスタイルと反対のスタイルについて最初の洞察を与えることができる。

Frequency Response Functions (FRFs) are one of the cornerstones of musical acoustic experimental research. They describe the way in which musical instruments vibrate in a wide range of frequencies and are used to predict and understand the acoustic differences between them. In the specific case of stringed musical instruments such as violins, FRFs evaluated at the bridge are known to capture the overall body vibration. These indicators, also called bridge admittances, are widely used in the literature for comparative analyses. However, due to their complex structure they are rather difficult to quantitatively compare and study. In this manuscript we present a way to quantify differences between FRFs, in particular violin bridge admittances, that separates the effects in frequency, amplitude and quality factor of the first resonance peaks characterizing the responses. This approach allows us to define a distance between FRFs and clusterise measurements according to this distance. We use two case studies, one based on Finite Element Analysis and another exploiting measurements on real violins, to prove the effectiveness of such representation. In particular, for simulated bridge admittances the proposed distance is able to highlight the different impact of consecutive simulation `steps' on specific vibrational properties and, for real violins, gives a first insight on similar styles of making, as well as opposite ones.
翻訳日:2021-04-03 12:00:26 公開日:2021-03-27
# (参考訳) ベイズ微細化近似ネットワークの表現, 解析:調査 [全文訳有]

Representation, Analysis of Bayesian Refinement Approximation Network: A Survey ( http://arxiv.org/abs/2103.14896v1 )

ライセンス: CC0 1.0
Ningbo Zhu and Fei Yang(参考訳) 人工モデルによる背景減算の後、ピクセルは前景と背景としてラベル付けされている。 以前の二次処理のアプローチでは、デノナイジングの出力は通常ベイズ法のような伝統的な方法を用いる。 本稿では,修正u-netモデルを用いてベイズ法の結果を近似し,その結果を改善することに焦点を当てる。 修正されたU-Netモデルでは、他のモデルからの背景抽出の結果と、統計分布を学習するための入力としてソースイメージを組み合わせる。 これにより、ソース画像から背景減算モデルによる損失情報を復元することができる。 さらに、入力画像の部分は、既に他のバックグラウンドサブトラクションモデルの出力であるため、特徴抽出は便利であるべきであり、ノイズピクセルのラベルを変更する必要がある。 従来の方法と比較すると、深層学習の方法が優れている。

After an artificial model background subtraction, the pixels have been labelled as foreground and background. Previous approaches to secondary processing the output for denoising usually use traditional methods such as the Bayesian refinement method. In this paper, we focus on using a modified U-Net model to approximate the result of the Bayesian refinement method and improve the result. In our modified U-Net model, the result of background subtraction from other models will be combined with the source image as input for learning the statistical distribution. Thus, the losing information caused by the background subtraction model can be restored from the source image. Moreover, since the part of the input image is already the output of the other background subtraction model, the feature extraction should be convenient, it only needs to change the labels of the noise pixels. Compare with traditional methods, using deep learning methods superiority in keeping details.
翻訳日:2021-04-02 10:47:05 公開日:2021-03-27
# (参考訳) ヒト大脳皮質の周波数特異的偏析と統合:内在的機能アトラス

Frequency-specific segregation and integration of human cerebral cortex: an intrinsic functional atlas ( http://arxiv.org/abs/2103.14907v1 )

ライセンス: CC BY 4.0
Zhiguo Luo, Ling-Li Zeng, Hui Shen and Dewen Hu(参考訳) 機能的ヒト脳ネットワークの周波数特異的結合機構は、その複雑な認知機能と行動機能を支える。 それでも、人間の脳の周波数特異的な部分分割とネットワークトポロジーは明らかになっていない。 本研究では,スペクトル接続を用いてヒト大脳皮質の機能的接続を推定し,固有クラスター法と勾配法を用いて周波数特異的解析を行い,その位相構造を調べた。 7t fmriデータをhcpデータセットの184名とし, 機能的ネットワークのトポロジー特性を探索し, 周波数特異的トポロジーの安定性を確認するために, 他の890名の3t fmriデータを用いた。 7~10個の機能的ネットワークを2~4個の解離性ハブカテゴリで安定に統合し,周波数のパーセルに応じて456個のパーセルを含む内在性機能的アトラスを提案した。 その結果, 機能的ネットワークは安定な周波数特性を持つトポロジーを有しており, 機能的ユニットの役割や, より複雑な相互作用を示唆する可能性が示唆された。

The frequency-specific coupling mechanism of the functional human brain networks underpins its complex cognitive and behavioral functions. Nevertheless, it is not well unveiled what are the frequency-specific subdivisions and network topologies of the human brain. In this study, we estimated functional connectivity of the human cerebral cortex using spectral connection, and conducted frequency-specific parcellation using eigen-clustering and gradient-based methods, and then explored their topological structures. 7T fMRI data of 184 subjects in the HCP dataset were used for parcellation and exploring the topological properties of the functional networks, and 3T fMRI data of another 890 subjects were used to confirm the stability of the frequency-specific topologies. Seven to ten functional networks were stably integrated by two to four dissociable hub categories at specific frequencies, and we proposed an intrinsic functional atlas containing 456 parcels according to the parcellations across frequencies. The results revealed that the functional networks contained stable frequency-specific topologies, which may imply more abundant roles of the functional units and more complex interactions among them.
翻訳日:2021-04-02 10:40:21 公開日:2021-03-27
# (参考訳) メトリクス学習を改善するためのラベルリラクゼーションによる埋め込み転送 [全文訳有]

Embedding Transfer with Label Relaxation for Improved Metric Learning ( http://arxiv.org/abs/2103.14908v1 )

ライセンス: CC BY 4.0
Sungyeon Kim, Dongwon Kim, Minsu Cho, Suha Kwak(参考訳) 本稿では,学習した埋め込みモデルの知識を他へ伝達する,新しい埋め込み変換手法を提案する。 本手法は,ソース埋め込み空間のサンプル間の類似性を知識として活用し,対象埋め込みモデルの学習に用いる損失を伝達する。 この目的のために, 相対的損失という新たな損失を設計し, ペアの類似性を, 標本間関係のための緩和ラベルとして利用する。 我々の損失は、クラス同値を超え、より重要なペアがより訓練に寄与し、ターゲット埋め込み空間の多様体に制限を課さないような、豊富な監督信号を提供する。 計量学習ベンチマーク実験により,本手法は性能を大幅に向上させるか,ターゲットモデルのサイズや出力寸法を効果的に削減することを示した。 さらに, 自己教師あり表現の品質向上や分類モデルの性能向上にも利用できることを示した。 全ての実験において,本手法は既存の埋め込み転送技術より明らかに優れている。

This paper presents a novel method for embedding transfer, a task of transferring knowledge of a learned embedding model to another. Our method exploits pairwise similarities between samples in the source embedding space as the knowledge, and transfers them through a loss used for learning target embedding models. To this end, we design a new loss called relaxed contrastive loss, which employs the pairwise similarities as relaxed labels for inter-sample relations. Our loss provides a rich supervisory signal beyond class equivalence, enables more important pairs to contribute more to training, and imposes no restriction on manifolds of target embedding spaces. Experiments on metric learning benchmarks demonstrate that our method largely improves performance, or reduces sizes and output dimensions of target models effectively. We further show that it can be also used to enhance quality of self-supervised representation and performance of classification models. In all the experiments, our method clearly outperforms existing embedding transfer techniques.
翻訳日:2021-04-02 10:39:06 公開日:2021-03-27
# (参考訳) NeMI:新しいビュー合成のためのマルチプレーン画像を用いたニューラルラジアンス場の統合 [全文訳有]

NeMI: Unifying Neural Radiance Fields with Multiplane Images for Novel View Synthesis ( http://arxiv.org/abs/2103.14910v1 )

ライセンス: CC BY 4.0
Jiaxin Li, Zijian Feng, Qi She, Henghui Ding, Changhu Wang, Gim Hee Lee(参考訳) 本稿では,1枚の画像から高密度な3次元再構成による新しいビュー合成と深度推定を行う手法を提案する。 我々のNeMIは、ニューラル放射場(NeRF)とマルチプレーン画像(MPI)を統合する。 具体的には、NeMIは、NeRFの一般的な2次元および画像条件拡張であり、MPIの連続深さ一般化である。 入力として1つの画像が与えられた場合、任意の深さ値で4チャンネル画像(RGBと体積密度)を予測し、カメラフラストラムを共同で再構築し、隠蔽された内容を埋める。 再構成および塗布されたフラストムは、微分レンダリングを用いて、新しいRGBや奥行きビューに容易にレンダリングすることができる。 RealEstate10K, KITTI, Flowers Light Fieldsの大規模な実験により、我々のNeMIは、新しいビューの合成において大きなマージンで最先端の性能を発揮することが示された。 また,iBims-1およびNYU-v2の奥行き推定において,注釈付き奥行き監視を伴わずに競合する結果を得た。 Project page available at https://vincentfung1 3.github.io/ projects/nemi/

In this paper, we propose an approach to perform novel view synthesis and depth estimation via dense 3D reconstruction from a single image. Our NeMI unifies Neural radiance fields (NeRF) with Multiplane Images (MPI). Specifically, our NeMI is a general two-dimensional and image-conditioned extension of NeRF, and a continuous depth generalization of MPI. Given a single image as input, our method predicts a 4-channel image (RGB and volume density) at arbitrary depth values to jointly reconstruct the camera frustum and fill in occluded contents. The reconstructed and inpainted frustum can then be easily rendered into novel RGB or depth views using differentiable rendering. Extensive experiments on RealEstate10K, KITTI and Flowers Light Fields show that our NeMI outperforms state-of-the-art by a large margin in novel view synthesis. We also achieve competitive results in depth estimation on iBims-1 and NYU-v2 without annotated depth supervision. Project page available at https://vincentfung1 3.github.io/projects /nemi/
翻訳日:2021-04-02 10:21:58 公開日:2021-03-27
# (参考訳) 乱用はコンテキストであり、NLPはどうか? 乱用言語アノテーションと検出における文脈の役割 [全文訳有]

Abuse is Contextual, What about NLP? The Role of Context in Abusive Language Annotation and Detection ( http://arxiv.org/abs/2103.14916v1 )

ライセンス: CC BY 4.0
Stefano Menini, Alessio Palmero Aprosio, Sara Tonelli(参考訳) 乱用言語検出に最も広く使用されているデータセットには、メッセージの一覧(通常、ツイート)が含まれており、1つ以上のアノテータによって手動で判断され、メッセージレベルでアノテーションが実行される。 本稿では,メッセージが曖昧であり,発生の文脈で解釈される必要があることを考慮し,メッセージの憎悪コンテンツも文脈に基づいて判断した場合に何が起こるかを検討する。 英語における乱用言語検出のための広範に使用されるデータセットの一部を,まず2つの条件で再注釈した。 文脈を伴わない。 次に,これら2種類のデータセットで得られた3つの分類アルゴリズムの性能を比較し,コンテキスト認識分類はより難しいが,実際のアプリケーションシナリオに類似していると主張する。

The datasets most widely used for abusive language detection contain lists of messages, usually tweets, that have been manually judged as abusive or not by one or more annotators, with the annotation performed at message level. In this paper, we investigate what happens when the hateful content of a message is judged also based on the context, given that messages are often ambiguous and need to be interpreted in the context of occurrence. We first re-annotate part of a widely used dataset for abusive language detection in English in two conditions, i.e. with and without context. Then, we compare the performance of three classification algorithms obtained on these two types of dataset, arguing that a context-aware classification is more challenging but also more similar to a real application scenario.
翻訳日:2021-04-02 10:00:55 公開日:2021-03-27
# (参考訳) oled: コンテクストマスキングを用いた1クラス学習エンコーダ・デコーダネットワーク [全文訳有]

OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context Masking for Novelty Detection ( http://arxiv.org/abs/2103.14953v1 )

ライセンス: CC BY 4.0
John Taylor Jewell, Vahid Reza Khazaie, Yalda Mohsenzadeh(参考訳) 新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。 訓練中、新しいクラスは欠席しており、伝統的な分類手法の使用を妨げている。 ディープオートエンコーダは多くの教師なしノベルティ検出法の基礎として広く使われている。 特にコンテキストオートエンコーダは、ランダムにマスクされた画像から元の画像を再構成することで学習するより効果的な表現により、ノベルティ検出タスクに成功している。 しかし、文脈オートエンコーダの重大な欠点は、ランダムマスキングが入力画像の重要な構造を一貫して覆うことに失敗し、特にノベルティ検出タスクにおいて、副最適表現(suboptimal representations)につながることである。 本稿では,入力マスキングを最適化するために,マスクモジュールとリコンストラクタという2つの競合するネットワークからなるフレームワークを設計した。 Mask Moduleは、画像の最も重要な部分をカバーする最適なマスクを生成するための畳み込みオートエンコーダである。 あるいは、Reconstructorは畳み込みエンコーダデコーダであり、マスクされた画像から未摂動画像を再構成することを目的としている。 ネットワークは、マスクモジュールが再構成者に与えられた画像に適用されるマスクを生成する敵対的な方法で訓練される。 このようにして、Maskモジュールは、リコンストラクタが最小化している再構築エラーを最大化する。 提案手法は,コンテキストの自動エンコーダと比較して意味的にリッチな表現を学習し,より最適なマスキングによりテスト時の新規性検出を向上させる。 mnistおよびcifar-10画像データセットの新規検出実験により,切削刃法に対する提案手法の優位性が示された。 ucsdビデオデータセットによる新奇性検出のさらなる実験において,提案手法は最先端の結果を得る。

Novelty detection is the task of recognizing samples that do not belong to the distribution of the target class. During training, the novelty class is absent, preventing the use of traditional classification approaches. Deep autoencoders have been widely used as a base of many unsupervised novelty detection methods. In particular, context autoencoders have been successful in the novelty detection task because of the more effective representations they learn by reconstructing original images from randomly masked images. However, a significant drawback of context autoencoders is that random masking fails to consistently cover important structures of the input image, leading to suboptimal representations - especially for the novelty detection task. In this paper, to optimize input masking, we have designed a framework consisting of two competing networks, a Mask Module and a Reconstructor. The Mask Module is a convolutional autoencoder that learns to generate optimal masks that cover the most important parts of images. Alternatively, the Reconstructor is a convolutional encoder-decoder that aims to reconstruct unperturbed images from masked images. The networks are trained in an adversarial manner in which the Mask Module generates masks that are applied to images given to the Reconstructor. In this way, the Mask Module seeks to maximize the reconstruction error that the Reconstructor is minimizing. When applied to novelty detection, the proposed approach learns semantically richer representations compared to context autoencoders and enhances novelty detection at test time through more optimal masking. Novelty detection experiments on the MNIST and CIFAR-10 image datasets demonstrate the proposed approach's superiority over cutting-edge methods. In a further experiment on the UCSD video dataset for novelty detection, the proposed approach achieves state-of-the-art results.
翻訳日:2021-04-01 14:12:55 公開日:2021-03-27
# (参考訳) 合成データを用いたt2強調MRIにおける前立腺全腺セグメンテーションの改善 [全文訳有]

Improving prostate whole gland segmentation in t2-weighted MRI with synthetically generated data ( http://arxiv.org/abs/2103.14955v1 )

ライセンス: CC BY 4.0
Alvaro Fernandez-Quilez and Steinar Valle Larsen and Morten Goodwin and Thor Ole Gulsurd and Svein Reidar Kjosavik and Ketil Oppedal(参考訳) 前立腺全腺(WG)分節は前立腺癌(PCa)の検出、ステージング、治療計画において重要な役割を担っている。 ディープラーニング(DL)メソッドが示す約束にもかかわらず、かなりの量の注釈付きデータの可用性に依存している。 画像の翻訳や回転などの拡張技術は、データの可用性を高める代替手段となる。 それでも、生成されたデータと原データとの相関により、変換されたデータによって提供される情報量が制限される。 本稿では,他の領域および医療領域における合成画像の生成におけるgan(generative adversarial networks)の最近の成功に基づいて,wgセグメンテーションマスクを生成し,マルチセンターデータセットに基づいた前立腺のt2強調mriを合成するパイプラインを提案する。 次に、生成されたデータをデータ拡張の形式として使用します。 その結果,標準的な拡張技術と比較してWGセグメンテーションの品質は向上した。

Whole gland (WG) segmentation of the prostate plays a crucial role in detection, staging and treatment planning of prostate cancer (PCa). Despite promise shown by deep learning (DL) methods, they rely on the availability of a considerable amount of annotated data. Augmentation techniques such as translation and rotation of images present an alternative to increase data availability. Nevertheless, the amount of information provided by the transformed data is limited due to the correlation between the generated data and the original. Based on the recent success of generative adversarial networks (GAN) in producing synthetic images for other domains as well as in the medical domain, we present a pipeline to generate WG segmentation masks and synthesize T2-weighted MRI of the prostate based on a publicly available multi-center dataset. Following, we use the generated data as a form of data augmentation. Results show an improvement in the quality of the WG segmentation when compared to standard augmentation techniques.
翻訳日:2021-04-01 13:59:21 公開日:2021-03-27
# (参考訳) 明示的な負サンプリングを伴わない自己教師付きグラフニューラルネットワーク [全文訳有]

Self-supervised Graph Neural Networks without explicit negative sampling ( http://arxiv.org/abs/2103.14958v1 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas(参考訳) 実世界のデータはラベル付けされていないか、わずかしかラベル付けされていない。 手動でデータをラベリングするのは、非常に高価で厄介な作業です。 これにより、半教師付き/教師付き技術と同等の結果が得られるほど強力な教師なし学習技術が要求される。 対照的な自己指導型学習は強力な方向として現れており、場合によっては指導型技術よりも優れている。 本研究では,明示的なコントラスト項に依存しない,新しいコントラスト型自己教師付きグラフニューラルネットワーク (gnn) であるselfgnnを提案する。 性能を犠牲にすることなく、暗黙の対照的な項を導入するバッチ正規化を利用する。 さらに,データ拡張がコントラスト学習の鍵となるため,グラフに4つの機能拡張(fa)技術を導入する。 グラフトポロジカル・アジュメンテーション(TA)は一般的に用いられているが, 実験の結果, FAはTAと同程度の性能を示した。 さらに、FA は TA とは異なり計算オーバーヘッドを伴わず、O(N^3) の時間複雑性、N 個のノードを持つことが多い。 公開されている7つの実世界のデータに対する実証的な評価は、SelfGNNは強力で、SOTAが監督するGNNに匹敵する性能を示し、常にSOTAが監督するGNNよりも優れていることを示している。 ソースコードはhttps://github.com/z ekarias-tilahun/Self GNNで公開されている。

Real world data is mostly unlabeled or only few instances are labeled. Manually labeling data is a very expensive and daunting task. This calls for unsupervised learning techniques that are powerful enough to achieve comparable results as semi-supervised/supe rvised techniques. Contrastive self-supervised learning has emerged as a powerful direction, in some cases outperforming supervised techniques. In this study, we propose, SelfGNN, a novel contrastive self-supervised graph neural network (GNN) without relying on explicit contrastive terms. We leverage Batch Normalization, which introduces implicit contrastive terms, without sacrificing performance. Furthermore, as data augmentation is key in contrastive learning, we introduce four feature augmentation (FA) techniques for graphs. Though graph topological augmentation (TA) is commonly used, our empirical findings show that FA perform as good as TA. Moreover, FA incurs no computational overhead, unlike TA, which often has O(N^3) time complexity, N-number of nodes. Our empirical evaluation on seven publicly available real-world data shows that, SelfGNN is powerful and leads to a performance comparable with SOTA supervised GNNs and always better than SOTA semi-supervised and unsupervised GNNs. The source code is available at https://github.com/z ekarias-tilahun/Self GNN.
翻訳日:2021-04-01 13:37:18 公開日:2021-03-27
# (参考訳) supersense and sensibility: 前置詞の意味的アノテーションのためのプロキシタスク [全文訳有]

Supersense and Sensibility: Proxy Tasks for Semantic Annotation of Prepositions ( http://arxiv.org/abs/2103.14961v1 )

ライセンス: CC BY 4.0
Luke Gessler, Shira Wein, Nathan Schneider(参考訳) Prepositional Supersenseアノテーションは時間がかかり、専門家のトレーニングが必要です。 そこで本稿では,表面置換と類似性判定を付与することにより,前提のスーパーセンスアノテーションを得るための2つの方法を提案する。 4つのパイロット研究により、どちらの手法も、専門家のアノテーションに匹敵する品質の暗黙のアノテーションを生成する可能性を示唆している。

Prepositional supersense annotation is time-consuming and requires expert training. Here, we present two sensible methods for obtaining prepositional supersense annotations by eliciting surface substitution and similarity judgments. Four pilot studies suggest that both methods have potential for producing prepositional supersense annotations that are comparable in quality to expert annotations.
翻訳日:2021-04-01 11:55:22 公開日:2021-03-27
# (参考訳) 粒子フィルタブリッジ補間 [全文訳有]

Particle Filter Bridge Interpolation ( http://arxiv.org/abs/2103.14963v1 )

ライセンス: CC BY 4.0
Adam Lindhe, Carl Ringqvist and Henrik Hult(参考訳) 自動符号化モデルは近年広く研究されている。 これらは、機能学習の分析だけでなく、サンプル生成のための効率的なフレームワークを提供する。 さらに、データポイント間の補間を意味的に意味のある方法で効率的に行う。 本稿では,以前に導入した正準,次元独立,確率的補間の生成法について述べる。 ここでは、補間経路の分布を、先行分布を不変分布とする潜在空間における人工ランダムデータ生成プロセスから構築されたブリッジプロセスの分布として表現する。 その結果、確率的補間経路は、前者が高い質量を持つ潜在空間の領域に存在する傾向にある。 一般的に、このような領域は意味的に有意義なサンプルを生成するため、これは望ましい特徴である。 本稿では,高い潜在表現密度の領域を正確に識別する判別器ネットワークを導入することにより,ブリッジプロセス法を拡張する。 識別器ネットワークは、基礎となる橋梁プロセスの尺度の変更として組み込まれ、シーケンシャルモンテカルロを用いて補間経路のサンプリングを行う。 得られたサンプリング手順により、補間経路のばらつきが大きくなり、データ密度の高い領域へのより強いドリフトが可能になる。

Auto encoding models have been extensively studied in recent years. They provide an efficient framework for sample generation, as well as for analysing feature learning. Furthermore, they are efficient in performing interpolations between data-points in semantically meaningful ways. In this paper, we build further on a previously introduced method for generating canonical, dimension independent, stochastic interpolations. Here, the distribution of interpolation paths is represented as the distribution of a bridge process constructed from an artificial random data generating process in the latent space, having the prior distribution as its invariant distribution. As a result the stochastic interpolation paths tend to reside in regions of the latent space where the prior has high mass. This is a desirable feature since, generally, such areas produce semantically meaningful samples. In this paper, we extend the bridge process method by introducing a discriminator network that accurately identifies areas of high latent representation density. The discriminator network is incorporated as a change of measure of the underlying bridge process and sampling of interpolation paths is implemented using sequential Monte Carlo. The resulting sampling procedure allows for greater variability in interpolation paths and stronger drift towards areas of high data density.
翻訳日:2021-04-01 11:41:49 公開日:2021-03-27
# (参考訳) 放射能確率アクティブセンシングによる透過体発見 [全文訳有]

Transmitter Discovery through Radio-Visual Probabilistic Active Sensing ( http://arxiv.org/abs/2103.14965v1 )

ライセンス: CC0 1.0
Luca Varotto, Angelo Cenedese(参考訳) マルチモーダル確率アクティブセンシング(mmpas)は、センサー融合と確率モデルを用いてロボットセンシングプラットフォームの知覚過程を制御する。 MMPASは、環境探索、協調移動ロボット、目標追跡に成功し、自律認識における高性能な保証によって育成されている。 そこで本稿では,送信機発見問題を解決するためのバイラジオ・ビジュアルPAS方式を提案する。 具体的には、まず無線と視覚の相関を利用して目標検出モデルを自己監督的に学習する。 そして、このモデルとアンテナ放射異方性を組み合わせたベイズ最適化フレームワークがプラットフォームを制御する。 提案手法は92%の精度を実現し,他の2つの確率的アクティブセンシングベースラインを上回った。

Multi-modal Probabilistic Active Sensing (MMPAS) uses sensor fusion and probabilistic models to control the perception process of robotic sensing platforms. MMPAS is successfully employed in environmental exploration, collaborative mobile robotics, and target tracking, being fostered by the high performance guarantees on autonomous perception. In this context, we propose a bi-Radio-Visual PAS scheme to solve the transmitter discovery problem. Specifically, we firstly exploit the correlation between radio and visual measurements to learn a target detection model in a self-supervised manner. Then, the model is combined with antenna radiation anisotropies into a Bayesian Optimization framework that controls the platform. We show that the proposed algorithm attains an accuracy of 92%, overcoming two other probabilistic active sensing baselines.
翻訳日:2021-04-01 11:30:59 公開日:2021-03-27
# (参考訳) 深層ニューラルネットワークを用いた体積医用画像セグメンテーションによる臨床診断パイプラインの触媒 : 過去・現在・未来 [全文訳有]

Catalyzing Clinical Diagnostic Pipelines Through Volumetric Medical Image Segmentation Using Deep Neural Networks: Past, Present, & Future ( http://arxiv.org/abs/2103.14969v1 )

ライセンス: CC BY 4.0
Teofilo E. Zosa(参考訳) ディープラーニングは、過去10年間に自然画像処理の分野に顕著な影響を与えてきた。 その結果、医療画像解析など、関連する領域における未解決タスク間でこの成功を複製することには、大きな関心がある。 医用画像分析の中核は、様々な臨床ワークフローを可能にするセグメンテーションのタスクである。 手動セグメンテーションに固有の課題のため、何十年もの間、拡張可能で自動化された専門家レベルのセグメンテーション技術を見つける研究が続けられてきた。 最近のニューラルネットワークベースの技術によって実証された画期的なパフォーマンスを考えると、ディープラーニングは歴史的に不可能だった方法を達成することができるように思える。 本稿では,最先端(sota)ニューラルネットワークに基づくセグメンテーションアルゴリズムについて,最新のアーキテクチャに着目し,各ネットワークトポロジーの貢献度と特性を比較し,比較する。 超音波検査をモチベーションの例として用いて、効果的な深層学習に基づくソリューションの臨床的意義を明らかにし、モダリティに特有の課題を明確にし、これらの課題に対応する新しいアプローチについて議論する。 最高の深層学習アプローチ(すなわち)の、一般的に観察される短命性を考える。 論文の主な貢献は、歴史的背景を持つ近代的な深層学習アーキテクチャの文脈化と、ボリューム医学画像セグメンテーション研究の現在の軌跡の解明である。

Deep learning has made a remarkable impact in the field of natural image processing over the past decade. Consequently, there is a great deal of interest in replicating this success across unsolved tasks in related domains, such as medical image analysis. Core to medical image analysis is the task of semantic segmentation which enables various clinical workflows. Due to the challenges inherent in manual segmentation, many decades of research have been devoted to discovering extensible, automated, expert-level segmentation techniques. Given the groundbreaking performance demonstrated by recent neural network-based techniques, deep learning seems poised to achieve what classic methods have historically been unable. This paper will briefly overview some of the state-of-the-art (SoTA) neural network-based segmentation algorithms with a particular emphasis on the most recent architectures, comparing and contrasting the contributions and characteristics of each network topology. Using ultrasonography as a motivating example, it will also demonstrate important clinical implications of effective deep learning-based solutions, articulate challenges unique to the modality, and discuss novel approaches developed in response to those challenges, concluding with the proposal of future directions in the field. Given the generally observed ephemerality of the best deep learning approaches (i.e. the extremely quick succession of the SoTA), the main contributions of the paper are its contextualization of modern deep learning architectures with historical background and the elucidation of the current trajectory of volumetric medical image segmentation research.
翻訳日:2021-04-01 11:19:06 公開日:2021-03-27
# (参考訳) ソーシャルメディアにおける憎悪と悪感の注釈 [全文訳有]

Annotating Hate and Offenses on Social Media ( http://arxiv.org/abs/2103.14972v1 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes, Fabr\'icio Benevenuto de Souza, Thiago Alexandre Salgueiro Pardo(参考訳) This paper describes a corpus annotation process to support the identification of hate speech and offensive language in social media.The corpus was collected from Instagram pages of political personalities and manually annotated, being composed by 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), the level of the offense (highly offensive, moderately offensive and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religion intolerance, partyism, apology to the dictatorship, antisemitism and fat phobia). 各コメントは3つの異なるアノテーションによって注釈付けされ、高いアノテーション間の合意が得られた。

This paper describes a corpus annotation process to support the identification of hate speech and offensive language in social media.The corpus was collected from Instagram pages of political personalities and manually annotated, being composed by 7,000 documents annotated according to three different layers: a binary classification (offensive versus non-offensive comments), the level of the offense (highly offensive, moderately offensive and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religion intolerance, partyism, apology to the dictatorship, antisemitism and fat phobia). Each comment was annotated by three different annotators, which achieved high inter-annotator agreement.
翻訳日:2021-04-01 10:49:09 公開日:2021-03-27
# (参考訳) 顔検出にもっと深く注ぐ:調査結果 [全文訳有]

Going Deeper Into Face Detection: A Survey ( http://arxiv.org/abs/2103.14983v1 )

ライセンス: CC BY 4.0
Shervin Minaee, Ping Luo, Zhe Lin, Kevin Bowyer(参考訳) 顔検出は多くの顔認識および顔分析システムにおいて重要な第一歩である。 初期の顔検出のアプローチは、主に、Haar CascadesやHistogram of Oriented Gradientsなどの局所画像領域から抽出された手作りの特徴の上に構築された分類器に基づいていた。 しかし、これらの手法は制御されていない環境の画像に対して高い精度を達成するには不十分であった。 2012年、ディープニューラルネットワークを用いた画像分類における画期的な取り組みにより、顔検出のパラダイムは大きく変化した。 コンピュータビジョンにおけるディープラーニングの急速な進歩に触発されて、ここ数年で顔検出のために多くのディープラーニングベースのフレームワークが提案され、精度が大幅に向上した。 本稿では,最も代表的な深層学習に基づく顔検出手法について,いくつかの主要なカテゴリに分類して概説し,その中核となる設計と評価を一般的なベンチマークで示す。 また,最も人気のある顔検出データセットについても述べる。 最後に、この分野の現在の課題について議論し、今後の研究の方向性を示唆する。

Face detection is a crucial first step in many facial recognition and face analysis systems. Early approaches for face detection were mainly based on classifiers built on top of hand-crafted features extracted from local image regions, such as Haar Cascades and Histogram of Oriented Gradients. However, these approaches were not powerful enough to achieve a high accuracy on images of from uncontrolled environments. With the breakthrough work in image classification using deep neural networks in 2012, there has been a huge paradigm shift in face detection. Inspired by the rapid progress of deep learning in computer vision, many deep learning based frameworks have been proposed for face detection over the past few years, achieving significant improvements in accuracy. In this work, we provide a detailed overview of some of the most representative deep learning based face detection methods by grouping them into a few major categories, and present their core architectural designs and accuracies on popular benchmarks. We also describe some of the most popular face detection datasets. Finally, we discuss some current challenges in the field, and suggest potential future research directions.
翻訳日:2021-04-01 10:33:42 公開日:2021-03-27
# (参考訳) ビデオからのリアルな顔アニメーション生成 [全文訳有]

Realistic face animation generation from videos ( http://arxiv.org/abs/2103.14984v1 )

ライセンス: CC0 1.0
Zihao Jian, Minshan Xie(参考訳) 3次元顔の再構成と顔のアライメントは、コンピュータビジョンにおける2つの基本的かつ高機能なトピックである。 近年,深層学習モデルを用いて3dmm係数を推定して3d顔形状を再構成する研究が始まっている。 しかし、事前に定義された顔テンプレートの制限により、パフォーマンスが制限される。 この問題に対処するために,3次元MM係数の計算を完全に回避できるエンドツーエンド手法を提案し,多くの注目を集めている。 本稿では,3次元顔再構成と顔アライメントの3つの最先端手法を紹介し,解析する。 PRNの潜在的な改善は、その精度と速度をさらに向上するために提案されている。

3D face reconstruction and face alignment are two fundamental and highly related topics in computer vision. Recently, some works start to use deep learning models to estimate the 3DMM coefficients to reconstruct 3D face geometry. However, the performance is restricted due to the limitation of the pre-defined face templates. To address this problem, some end-to-end methods, which can completely bypass the calculation of 3DMM coefficients, are proposed and attract much attention. In this report, we introduce and analyse three state-of-the-art methods in 3D face reconstruction and face alignment. Some potential improvement on PRN are proposed to further enhance its accuracy and speed.
翻訳日:2021-04-01 10:06:22 公開日:2021-03-27
# (参考訳) 確率分布の否定を生成する [全文訳有]

Generating Negations of Probability Distributions ( http://arxiv.org/abs/2103.14986v1 )

ライセンス: CC BY 4.0
Ildar Batyrshin, Luis Alfonso Villa-Vargas, Marco Antonio Ramirez-Salinas, Moises Salinas-Rosales, Nailya Kubysheva(参考訳) 近年,確率分布の否定が導入された。 このような否定の必要性は、知識ベースのシステムが、確率分布 (pd) で表される高でないような用語を使用できる場合に生じる。 例えば、高 ProFIT や高 PRICE などが考えられる。 デンプスター・シェーファー理論におけるこの否定の応用は多くの作品で検討された。 確率分布のいくつかの否定は提案されているが、どのように他の否定を構築するかは明らかではない。 本稿では,[0,1] 上の減少関数を用いた pd の点-点変換として確率分布の否定を考える。 ネゲータの生成法と対応するpdの否定法を提案し,その特性について検討する。 線形ネガネータをヤガーと均一ネガネータの凸結合として特徴づける。

Recently it was introduced a negation of a probability distribution. The need for such negation arises when a knowledge-based system can use the terms like NOT HIGH, where HIGH is represented by a probability distribution (pd). For example, HIGH PROFIT or HIGH PRICE can be considered. The application of this negation in Dempster-Shafer theory was considered in many works. Although several negations of probability distributions have been proposed, it was not clear how to construct other negations. In this paper, we consider negations of probability distributions as point-by-point transformations of pd using decreasing functions defined on [0,1] called negators. We propose the general method of generation of negators and corresponding negations of pd, and study their properties. We give a characterization of linear negators as a convex combination of Yager and uniform negators.
翻訳日:2021-04-01 09:56:58 公開日:2021-03-27
# (参考訳) 人工ニューラルネットワークの熱流束解析結果への適用に基づく熱透過率予測 [全文訳有]

Thermal transmittance prediction based on the application of artificial neural networks on heat flux method results ( http://arxiv.org/abs/2103.14995v1 )

ライセンス: CC BY 4.0
Sanjin Gumbarevi\'c, Bojan Milovanovi\'c, Mergim Ga\v{s}i, Marina Bagari\'c(参考訳) 建設株の深いエネルギー改革は、エネルギー効率関連指令によって欧州連合(EU)に焦点が当てられた。 深層エネルギーの改修が必要な建物の多くは古いもので、設計・改修の文書が欠落している可能性がある。 熱透過率(熱透過率) u値)は、建物内包要素による伝達熱損失を決定する上で最も重要なパラメータの1つである。 それは、建築要素を形成するすべての材料の厚さと熱的性質に依存する。 in-situ u-値はiso 9869-1標準 (heat flux method - hfm) で決定できる。 それでも、hfmが改修設計プロセス開始前にフィールドテストで広く使われていない理由の一つは測定期間である。 本稿では,1つの熱流センサによる並列測定により測定時間を短縮する可能性を分析する。 この並列化は、内部および外気温度の収集に基づいて未知の熱流束を予測するために、HFM結果にニューラルネットワーク(ANN)の特定のクラスを適用することで達成できる。 満足度予測が達成されれば、HFMセンサを別の測定位置に移すことができる。 本稿では,多層型パーセプトロンと3つのニューロンを隠れ層に配置した多層型パーセプトロン,100単位の長短期記憶,100単位のゲート型リカレントユニット,50単位の長短期記憶ユニットと50個のゲート型リカレントユニットを組み合わせることで,hfm測定に適用した4例の比較を行った。 解析の結果, 2つの入力温度に基づく熱流束率の予測に有望な結果が得られた。 別の壁のさらなる分析は、このトピックについてさらなる研究の方向となる方法の限界を示した。

Deep energy renovation of building stock came more into focus in the European Union due to energy efficiency related directives. Many buildings that must undergo deep energy renovation are old and may lack design/renovation documentation, or possible degradation of materials might have occurred in building elements over time. Thermal transmittance (i.e. U-value) is one of the most important parameters for determining the transmission heat losses through building envelope elements. It depends on the thickness and thermal properties of all the materials that form a building element. In-situ U-value can be determined by ISO 9869-1 standard (Heat Flux Method - HFM). Still, measurement duration is one of the reasons why HFM is not widely used in field testing before the renovation design process commences. This paper analyzes the possibility of reducing the measurement time by conducting parallel measurements with one heat-flux sensor. This parallelization could be achieved by applying a specific class of the Artificial Neural Network (ANN) on HFM results to predict unknown heat flux based on collected interior and exterior air temperatures. After the satisfying prediction is achieved, HFM sensor can be relocated to another measuring location. Paper shows a comparison of four ANN cases applied to HFM results for a measurement held on one multi-layer wall - multilayer perceptron with three neurons in one hidden layer, long short-term memory with 100 units, gated recurrent unit with 100 units and combination of 50 long short-term memory units and 50 gated recurrent units. The analysis gave promising results in term of predicting the heat flux rate based on the two input temperatures. Additional analysis on another wall showed possible limitations of the method that serves as a direction for further research on this topic.
翻訳日:2021-04-01 09:46:47 公開日:2021-03-27
# (参考訳) eXtended Artificial Intelligence: New prospects of Human-AI Interaction Research

eXtended Artificial Intelligence: New Prospects of Human-AI Interaction Research ( http://arxiv.org/abs/2103.15004v1 )

ライセンス: CC BY 4.0
Carolin Wienrich and Marc Erich Latoschik(参考訳) 人工知能(AI)は、幅広い計算問題やユースケースをカバーしている。 それらの多くは、人間がどのように人間と対話するか、それともAIと対話すべきかについて、深く、時には複雑な質問を暗示している。 さらに、多くのユーザーや将来のユーザーはAIとは何かという抽象的な考えを持っている。 人間中心設計アプローチは、異なる実施形態が人間の知覚とaiとの相互作用に与える影響を評価することを示唆する。 現実のアプリケーション・フィールドや具体化の複雑さのため実現が難しいアプローチである。 しかし、ここでXRは人間とAIの相互作用を研究する新しい可能性を開く。 まず、XR-AI組合せの異なるアプローチの枠組みと視点として、XR-AI連続体に基づく人間-AI相互作用の理論的処理とモデルを提供する。 XR-AIの組み合わせは、先進的な人間-AIインターフェースの効果を学ぶ方法として動機付けられ、なぜXRとAIの組み合わせが人間-AIインタラクションとインタフェースの有効かつ体系的な研究に役立っているのかを示す。 第2に、この記事では、2つの異なるAIシステムに対する前述のアプローチを実証する2つの模範的な実験を提供している。 最初の実験は人間とロボットの相互作用において興味深いジェンダー効果を示し、2つ目の実験はレコメンデーターシステムのエリザ効果を示す。 本稿では、人間とAIのインタラクションとインタフェースのためのXRテストベッドの2つのパラダイム実装を紹介し、有効かつ体系的な調査方法を示す。 要約すると、記事は、XRが人間中心のAI設計と開発にどう役立つか、という新しい視点を開いている。

Artificial Intelligence (AI) covers a broad spectrum of computational problems and use cases. Many of those implicate profound and sometimes intricate questions of how humans interact or should interact with AIs. Moreover, many users or future users do have abstract ideas of what AI is, significantly depending on the specific embodiment of AI applications. Human-centered-desig n approaches would suggest evaluating the impact of different embodiments on human perception of and interaction with AI. An approach that is difficult to realize due to the sheer complexity of application fields and embodiments in reality. However, here XR opens new possibilities to research human-AI interactions. The article's contribution is twofold: First, it provides a theoretical treatment and model of human-AI interaction based on an XR-AI continuum as a framework for and a perspective of different approaches of XR-AI combinations. It motivates XR-AI combinations as a method to learn about the effects of prospective human-AI interfaces and shows why the combination of XR and AI fruitfully contributes to a valid and systematic investigation of human-AI interactions and interfaces. Second, the article provides two exemplary experiments investigating the aforementioned approach for two distinct AI-systems. The first experiment reveals an interesting gender effect in human-robot interaction, while the second experiment reveals an Eliza effect of a recommender system. Here the article introduces two paradigmatic implementations of the proposed XR testbed for human-AI interactions and interfaces and shows how a valid and systematic investigation can be conducted. In sum, the article opens new perspectives on how XR benefits human-centered AI design and development.
翻訳日:2021-04-01 09:37:44 公開日:2021-03-27
# (参考訳) H-GAN:手にあるガンのパワー [全文訳有]

H-GAN: the power of GANs in your Hands ( http://arxiv.org/abs/2103.15017v1 )

ライセンス: CC BY 4.0
Sergiu Oprea, Giorgos Karvounas, Pablo Martinez-Gonzalez, Nikolaos Kyriazis, Sergio Orts-Escolano, Iason Oikonomidis, Alberto Garcia-Garcia, Aggeliki Tsoli, Jose Garcia-Rodriguez, Antonis Argyros(参考訳) 我々は,マルチスケールの知覚識別器を実装するサイクル一貫性のある逆学習手法であるHandGAN(H-GAN)を提案する。 手の合成画像を実際の領域に翻訳するように設計されている。 合成ハンドは、完全な地上アノテーションを提供するが、実際のデータのターゲット分布を表すものではない。 我々は、リアルな手の外観と合成アノテーションの完璧なブレンドを提供しようとしている。 画像から画像への翻訳を頼りに, 合成手の出現を改良し, 実画像の収集に基づく統計的分布を近似する。 H-GANは、クロスドメイントーンマッピングだけでなく、シェーディング不連続性のような局所的な領域における構造的差異に取り組む。 結果は, 従来よりも質的かつ定量的に評価された。 さらに, 生成した画像を手指分類タスクに適用することに成功した。

We present HandGAN (H-GAN), a cycle-consistent adversarial learning approach implementing multi-scale perceptual discriminators. It is designed to translate synthetic images of hands to the real domain. Synthetic hands provide complete ground-truth annotations, yet they are not representative of the target distribution of real-world data. We strive to provide the perfect blend of a realistic hand appearance with synthetic annotations. Relying on image-to-image translation, we improve the appearance of synthetic hands to approximate the statistical distribution underlying a collection of real images of hands. H-GAN tackles not only cross-domain tone mapping but also structural differences in localized areas such as shading discontinuities. Results are evaluated on a qualitative and quantitative basis improving previous works. Furthermore, we successfully apply the generated images to the hand classification task.
翻訳日:2021-04-01 09:36:36 公開日:2021-03-27
# 道に乗らないことの説明

Explaining the Road Not Taken ( http://arxiv.org/abs/2103.14973v1 )

ライセンス: Link先を確認
Hua Shen, Ting-Hao (Kenneth) Huang(参考訳) ディープニューラルネットワークモデルの既存の解釈がユーザのニーズに効果的に反応するかどうかは不明だ。 本稿では,200以上の論文で使われている自然言語処理(NLP)に関する一般的な説明形式(特徴属性,決定規則,プローブなど)を要約し,XAI質問銀行で収集されたユーザ質問と比較する。 すなわち、モデルが1つの結果を選択した理由であり、明確に定義されておらず、明らかに類似しているように思えるが、ほとんどのモデル解釈はこれらの質問に答えることができない。

It is unclear if existing interpretations of deep neural network models respond effectively to the needs of users. This paper summarizes the common forms of explanations (such as feature attribution, decision rules, or probes) used in over 200 recent papers about natural language processing (NLP), and compares them against user questions collected in the XAI Question Bank. We found that although users are interested in explanations for the road not taken - namely, why the model chose one result and not a well-defined, seemly similar legitimate counterpart - most model interpretations cannot answer these questions.
翻訳日:2021-03-30 15:30:20 公開日:2021-03-27
# グラフ学習

Graph Unlearning ( http://arxiv.org/abs/2103.14991v1 )

ライセンス: Link先を確認
Min Chen and Zhikun Zhang and Tianhao Wang and Michael Backes and Mathias Humbert and Yang Zhang(参考訳) 忘れられる権利は、データ対象がそれを格納しているエンティティからデータを消去する権利を有することを述べる。 機械学習(ML)のコンテキストにおいて、MLモデルプロバイダは、MLモデルを構築するために使用されるトレーニングセットから、データ対象のデータを削除する必要がある。 単純かつ合法ではあるが、未学習の要求を受け取ると、スクラッチからMLモデルをトレーニングすることは、トレーニングセットが大きい場合に高い計算オーバーヘッドを引き起こす。 この問題に対処するために、画像とテキストデータの領域において、SISAが最先端のソリューションである多くの近似アルゴリズムが提案されている。 トレーニングセットを複数のシャードにランダムに分割し、各シャードの構成モデルをトレーニングする。 しかし、グラフデータに直接SISAを適用すると、グラフ構造情報が著しく損なわれ、結果として得られるMLモデルの有用性が損なわれる。 本稿では,グラフデータに適した新しい機械学習手法であるGraphEraserを提案する。 その貢献には、2つの新しいグラフ分割アルゴリズムと学習に基づく集約方法が含まれる。 grapheraserの学習効率とモデルの有用性を説明するため、5つの実世界のデータセットを広範囲に実験した。 grapheraserは、スクラッチから再トレーニングするよりも、2.06$\times$ (small dataset)から35.94$\times$ (large dataset)アンラーニング時間の改善を達成している。 一方、GraphEraserはランダムパーティショニングよりも最大62.5\%高いF1スコアを達成する。 さらに,本提案手法は,多数決の集計結果よりも最大112\%のF1スコアを達成する。

The right to be forgotten states that a data subject has the right to erase their data from an entity storing it. In the context of machine learning (ML), it requires the ML model provider to remove the data subject's data from the training set used to build the ML model, a process known as \textit{machine unlearning}. While straightforward and legitimate, retraining the ML model from scratch upon receiving unlearning requests incurs high computational overhead when the training set is large. To address this issue, a number of approximate algorithms have been proposed in the domain of image and text data, among which SISA is the state-of-the-art solution. It randomly partitions the training set into multiple shards and trains a constituent model for each shard. However, directly applying SISA to the graph data can severely damage the graph structural information, and thereby the resulting ML model utility. In this paper, we propose GraphEraser, a novel machine unlearning method tailored to graph data. Its contributions include two novel graph partition algorithms, and a learning-based aggregation method. We conduct extensive experiments on five real-world datasets to illustrate the unlearning efficiency and model utility of GraphEraser. We observe that GraphEraser achieves 2.06$\times$ (small dataset) to 35.94$\times$ (large dataset) unlearning time improvement compared to retraining from scratch. On the other hand, GraphEraser achieves up to $62.5\%$ higher F1 score than that of random partitioning. In addition, our proposed learning-based aggregation method achieves up to $112\%$ higher F1 score than that of the majority vote aggregation.
翻訳日:2021-03-30 15:29:32 公開日:2021-03-27
# より良くできる! 予測をするときの理由を解明するなら

You Can Do Better! If You Elaborate the Reason When Making Prediction ( http://arxiv.org/abs/2103.14919v1 )

ライセンス: Link先を確認
Dongfang Li, Jingcong Tao, Qingcai Chen, Baotian Hu(参考訳) ニューラル予測モデルは、様々な自然言語処理タスクにおいて画期的なパフォーマンス改善を達成している。 しかしながら、ほとんどの神経予測モデルは、予測の説明可能性の欠如に悩まされ、特に医学領域において、実用性を制限する。 本稿では,大規模な事前学習言語モデルと結合して,予測を行い,それに対応する説明を同時に生成する新しいニューラルネットワーク予測フレームワークを提案する。 本研究は,中国語の医学的マルチチョイス質問応答,英語自然言語推論,コモンセンス質問応答課題に関する予備的検討を行った。 実験結果から,提案手法は,小規模の訓練説明文でも合理的に予測できることがわかった。 また,提案手法は,3つのデータセットに対する予測精度の向上を実現し,意思決定プロセスにおける説明の生成による予測のメリットを示す。

Neural predictive models have achieved groundbreaking performance improvements in various natural language processing tasks. However, most of neural predictive models suffer from the lack of explainability of predictions, limiting their practical utility, especially in the medical domain. This paper proposes a novel neural predictive framework coupled with large pre-trained language models to make a prediction and generate its corresponding explanation simultaneously. We conducted a preliminary empirical study on Chinese medical multiple-choice question answering, English natural language inference and commonsense question answering tasks. The experimental results show that the proposed approach can generate reasonable explanations for its predictions even with a small-scale training explanation text. The proposed method also achieves improved prediction accuracy on three datasets, which indicates that making predictions can benefit from generating the explanation in the decision process.
翻訳日:2021-03-30 15:26:51 公開日:2021-03-27
# 映像からテキストへの視点で見る視覚と言語 : 包括的なレビュー

Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review ( http://arxiv.org/abs/2103.14785v1 )

ライセンス: Link先を確認
Jesus Perez-Martin and Benjamin Bustos and Silvio Jamil F. Guimar\~aes and Ivan Sipiran and Jorge P\'erez and Grethel Coello Said(参考訳) 視覚と言語の研究は、視覚情報とテキスト情報を結びつけようとする挑戦的なトピックを含んでいる。 ビデオからテキストへの問題はこれらのトピックの1つであり、そのゴールは入力されたビデオとテキスト記述を結びつけることである。 この接続は主に、コーパスから最も重要な記述を取得するか、コンテキストビデオが与えられた新しい記述を生成することで作成できる。 これら2つの方法は、ビデオタスクからのテキスト検索とビデオキャプション/記述タスクと呼ばれる、コンピュータビジョンと自然言語処理コミュニティにとって不可欠なタスクである。 これら2つのタスクは、画像から1つの文を予測または検索するよりも、はるかに複雑である。 ビデオに含まれる時空間情報は、視覚内容と関連する言語記述の構造に関する多様性と複雑さをもたらす。 本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。 主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。 我々は、最も報告されたベンチマークデータセットがどのように作成されたかを分析し、問題要件に対するその欠点と強みを示します。 また、各データセットで研究者が行った驚くべき進歩も示しており、この進歩にもかかわらず、ビデオからテキストへの変換はまだ未解決である理由を分析しています。 最先端の技術は、ビデオ記述の生成や検索において人間のようなパフォーマンスを達成するにはまだまだ長い道のりです。 この分野におけるいくつかの重要な課題を取り上げ,今後の研究方向性について論じる。

Research in the area of Vision and Language encompasses challenging topics that seek to connect visual and textual information. The video-to-text problem is one of these topics, in which the goal is to connect an input video with its textual description. This connection can be mainly made by retrieving the most significant descriptions from a corpus or generating a new one given a context video. These two ways represent essential tasks for Computer Vision and Natural Language Processing communities, called text retrieval from video task and video captioning/descripti on task. These two tasks are substantially more complex than predicting or retrieving a single sentence from an image. The spatiotemporal information present in videos introduces diversity and complexity regarding the visual content and the structure of associated language descriptions. This review categorizes and describes the state-of-the-art techniques for the video-to-text problem. It covers the main video-to-text methods and the ways to evaluate their performance. We analyze how the most reported benchmark datasets have been created, showing their drawbacks and strengths for the problem requirements. We also show the impressive progress that researchers have made on each dataset, and we analyze why, despite this progress, the video-to-text conversion is still unsolved. State-of-the-art techniques are still a long way from achieving human-like performance in generating or retrieving video descriptions. We cover several significant challenges in the field and discuss future research directions.
翻訳日:2021-03-30 15:26:16 公開日:2021-03-27
# コード切替データの知覚分析のための教師なし自己学習

Unsupervised Self-Training for Sentiment Analysis of Code-Switched Data ( http://arxiv.org/abs/2103.14797v1 )

ライセンス: Link先を確認
Akshat Gupta, Sargam Menghani, Sai Krishna Rallabandi, Alan W Black(参考訳) 感情分析は、顧客レビュー、Twitter、Facebookフィードなどのソーシャルメディアコンテンツを理解する上で重要なタスクである。 世界中の多言語コミュニティでは、大量のソーシャルメディアのテキストがコードスイッチの存在によって特徴づけられている。 したがって、コード交換されたデータを処理できるモデルを構築することが重要になっている。 しかし、注釈付きコード切り換えデータが少なく、教師なしのモデルやアルゴリズムが必要となる。 本稿では,教師なし自己学習と呼ばれる汎用フレームワークを提案し,コード交換データの感情分析の応用例を示す。 我々は、事前学習されたBERTモデルのパワーを初期化に利用し、ゼロショット転送によって生成された擬似ラベルのみを用いて教師なしで微調整する。 我々は、アルゴリズムを複数のコードスイッチト言語でテストし、"教師なしモデルはコードスイッチト言語を理解しているのか、あるいは単に表現を学習しているのか? 我々の教師なしモデルは教師付きモデルとよく競合し、2つのクラスで訓練された教師付きモデルと比較して、その性能は1-7\%(重み付きF1スコア)以内である。

Sentiment analysis is an important task in understanding social media content like customer reviews, Twitter and Facebook feeds etc. In multilingual communities around the world, a large amount of social media text is characterized by the presence of Code-Switching. Thus, it has become important to build models that can handle code-switched data. However, annotated code-switched data is scarce and there is a need for unsupervised models and algorithms. We propose a general framework called Unsupervised Self-Training and show its applications for the specific use case of sentiment analysis of code-switched data. We use the power of pre-trained BERT models for initialization and fine-tune them in an unsupervised manner, only using pseudo labels produced by zero-shot transfer. We test our algorithm on multiple code-switched languages and provide a detailed analysis of the learning dynamics of the algorithm with the aim of answering the question - `Does our unsupervised model understand the Code-Switched languages or does it just learn its representations? 7;. Our unsupervised models compete well with their supervised counterparts, with their performance reaching within 1-7\% (weighted F1 scores) when compared to supervised models trained for a two class problem.
翻訳日:2021-03-30 15:25:04 公開日:2021-03-27
# 発電機規則化を伴う連続条件生成逆ネットワーク(cGAN)

Continuous Conditional Generative Adversarial Networks (cGAN) with Generator Regularization ( http://arxiv.org/abs/2103.14884v1 )

ライセンス: Link先を確認
Yufeng Zheng, Yunkai Zhang, Zeyu Zheng(参考訳) 条件付き生成逆ネットワークは、特に条件が連続かつ高次元である場合には、訓練が難しいことが知られている。 この問題を部分的に緩和するために,GAN発生器の損失をリプシッツペナルティの形で単純な生成元正規化項を提案する。 したがって、生成元が連続空間内の隣り合う条件で供給されると、正規化項は隣り合う情報を利用し、生成元を押して各隣の条件に類似した条件分布を持つサンプルを生成する。 提案する正規化項の効果を解析し,その頑健な性能が実世界の様々なタスクに与える影響を実証する。

Conditional Generative Adversarial Networks are known to be difficult to train, especially when the conditions are continuous and high-dimensional. To partially alleviate this difficulty, we propose a simple generator regularization term on the GAN generator loss in the form of Lipschitz penalty. Thus, when the generator is fed with neighboring conditions in the continuous space, the regularization term will leverage the neighbor information and push the generator to generate samples that have similar conditional distributions for each neighboring condition. We analyze the effect of the proposed regularization term and demonstrate its robust performance on a range of synthetic and real-world tasks.
翻訳日:2021-03-30 15:22:39 公開日:2021-03-27
# SceneGraphFusion:RGB -Dシーケンスからのインクリメンタル3次元Scene Graph予測

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences ( http://arxiv.org/abs/2103.14898v1 )

ライセンス: Link先を確認
Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab and Federico Tombari(参考訳) シーングラフはコンパクトで明示的な表現であり、様々な2次元シーン理解タスクでうまく使われている。 本研究は,RGB-Dフレームのシーケンスを与えられた3次元環境から意味シーングラフをインクリメンタルに構築する手法を提案する。 この目的のために,グラフニューラルネットワークを用いて,プリミティブシーンコンポーネントからポイントネットの特徴を集約する。 また,このようなインクリメンタル・リコンストラクションシナリオに存在する部分的および欠落グラフデータに適した新しい注意機構を提案する。 提案手法はシーンのサブマップ上で実行するように設計されているが、3dシーン全体への転送も行う。 実験により、3次元シーングラフの予測手法を高いマージンで上回り,その精度は35hzで動作中の他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等であることが判明した。

Scene graphs are a compact and explicit representation successfully used in a variety of 2D scene understanding tasks. This work proposes a method to incrementally build up semantic scene graphs from a 3D environment given a sequence of RGB-D frames. To this end, we aggregate PointNet features from primitive scene components by means of a graph neural network. We also propose a novel attention mechanism well suited for partial and missing graph data present in such an incremental reconstruction scenario. Although our proposed method is designed to run on submaps of the scene, we show it also transfers to entire 3D scenes. Experiments show that our approach outperforms 3D scene graph prediction methods by a large margin and its accuracy is on par with other 3D semantic and panoptic segmentation methods while running at 35 Hz.
翻訳日:2021-03-30 15:22:28 公開日:2021-03-27
# Ensemble-in-One: 対向ロバスト性向上のためのランダムゲートネットワーク内の学習アンサンブル

Ensemble-in-One: Learning Ensemble within Random Gated Networks for Enhanced Adversarial Robustness ( http://arxiv.org/abs/2103.14795v1 )

ライセンス: Link先を確認
Yi Cai, Xuefei Ning, Huazhong Yang, Yu Wang(参考訳) 敵の攻撃は現代のディープラーニングシステムに高いセキュリティリスクをもたらしている。 敵対的トレーニングは、非ロバスト特徴を抑えることで、ニューラルネットワークモデルのロバスト性を大幅に向上させることができる。 しかし、モデルはしばしばクリーンなデータに対してかなりの精度の損失を被る。 アンサンブルトレーニング手法は、サブモデル間の脆弱性を多様化し、標準トレーニングと同等の精度を維持することによって、敵対的攻撃を防御するための有望なソリューションとして浮上している。 しかし、既存のアンサンブル法はスケーラビリティが悪く、アンサンブルにより多くのサブモデルを含める場合、複雑さが急速に増加するためである。 さらに、実世界のアプリケーションでは、ハードウェアリソースの予算とレイテンシ要件が厳しいため、複数のサブモデルでアンサンブルをデプロイすることは困難である。 本研究では、1つのランダムゲートネットワーク(RGN)内でアンサンブルを訓練する簡易かつ効率的な方法であるアンサンブル・イン・ワン(EIO)を提案する。 EIOは、パラメータ化されたレイヤをマルチパスランダムゲートブロック(RGB)に置き換えてRGNを構築することで、オリジナルのモデルを強化する。 rgn内の多数のパスの脆弱性を多様化することで、より堅牢性が達成できる。 EIOネットワーク内のパスがネットワーク深さとともに指数関数的に増加するため、高いスケーラビリティを提供する。 実験の結果,EIOは従来のアンサンブル学習手法よりも計算オーバーヘッドが小さい。

Adversarial attacks have rendered high security risks on modern deep learning systems. Adversarial training can significantly enhance the robustness of neural network models by suppressing the non-robust features. However, the models often suffer from significant accuracy loss on clean data. Ensemble training methods have emerged as promising solutions for defending against adversarial attacks by diversifying the vulnerabilities among the sub-models, simultaneously maintaining comparable accuracy as standard training. However, existing ensemble methods are with poor scalability, owing to the rapid complexity increase when including more sub-models in the ensemble. Moreover, in real-world applications, it is difficult to deploy an ensemble with multiple sub-models, owing to the tight hardware resource budget and latency requirement. In this work, we propose ensemble-in-one (EIO), a simple but efficient way to train an ensemble within one random gated network (RGN). EIO augments the original model by replacing the parameterized layers with multi-path random gated blocks (RGBs) to construct a RGN. By diversifying the vulnerability of the numerous paths within the RGN, better robustness can be achieved. It provides high scalability because the paths within an EIO network exponentially increase with the network depth. Our experiments demonstrate that EIO consistently outperforms previous ensemble training methods with even less computational overhead.
翻訳日:2021-03-30 15:14:25 公開日:2021-03-27
# 低次元知識グラフ埋め込みのための高効率ユークリッドモデル

High-efficiency Euclidean-based Models for Low-dimensional Knowledge Graph Embeddings ( http://arxiv.org/abs/2103.14930v1 )

ライセンス: Link先を確認
Kai Wang, Yu Liu, Quan Z. Sheng(参考訳) 双曲幾何学に基づく最近の知識グラフ埋め込み(KGE)モデルは、低次元の埋め込み空間において大きなポテンシャルを示している。 しかし、双曲幾何学に基づく計算はユークリッド演算よりもはるかに複雑であるため、KGEにおける双曲空間の必要性は疑問視される。 本稿では,最先端のハイパーボリックモデルであるRotHに基づいて,RotLとRot2Lという2つの軽量ユークリッドモデルを開発する。 RotLモデルは、フレキシブルな正規化効果を維持しながら、双曲演算を単純化する。 新たな2層重ね合わせ変換とRotLをベースとしたRot2Lモデルは、表現能力の向上を図っているが、RotHよりもパラメータや計算コストが低い。 リンク予測実験の結果,Rot2Lは,低次元知識グラフ埋め込みにおいて広く使用されている2つのデータセットに対して,最先端の性能を達成することが示された。 さらに、RotLはRotHと同様のパフォーマンスを達成するが、トレーニング時間の半分しか必要としない。

Recent knowledge graph embedding (KGE) models based on hyperbolic geometry have shown great potential in a low-dimensional embedding space. However, the necessity of hyperbolic space in KGE is still questionable, because the calculation based on hyperbolic geometry is much more complicated than Euclidean operations. In this paper, based on the state-of-the-art hyperbolic-based model RotH, we develop two lightweight Euclidean-based models, called RotL and Rot2L. The RotL model simplifies the hyperbolic operations while keeping the flexible normalization effect. Utilizing a novel two-layer stacked transformation and based on RotL, the Rot2L model obtains an improved representation capability, yet costs fewer parameters and calculations than RotH. The experiments on link prediction show that Rot2L achieves the state-of-the-art performance on two widely-used datasets in low-dimensional knowledge graph embeddings. Furthermore, RotL achieves similar performance as RotH but only requires half of the training time.
翻訳日:2021-03-30 15:11:54 公開日:2021-03-27
# minecraftにおけるai決済生成チャレンジ:第1回レポート

The AI Settlement Generation Challenge in Minecraft: First Year Report ( http://arxiv.org/abs/2103.14950v1 )

ライセンス: Link先を確認
Christoph Salge, Michael Cerny Green, Rodrigo Canaan, Filip Skwarski, Rafael Fritsch, Adrian Brightmoore, Shaofang Ye, Changxing Cao and Julian Togelius(参考訳) この記事では、マインクラフトでのai決済生成コンペの初年度から学んだことを概説します。マインクラフトで興味深い決済を生成できるaiプログラムのコンペティションです。 この課題は、適応的かつ総合的な手続き的コンテンツ生成の研究に焦点を当てることを目指している。 既存の地図にマインクラフトの町や村を生成することは、生成されたコンテンツが適応的、機能的、挑発的、美的であることを同時に要求するので、これに適したタスクである。 ここでは,第1回大会の結果について述べる。 評価手法を議論し,競合他社による異なる技術アプローチを提示し,オープン問題を概説する。

This article outlines what we learned from the first year of the AI Settlement Generation Competition in Minecraft, a competition about producing AI programs that can generate interesting settlements in Minecraft for an unseen map. This challenge seeks to focus research into adaptive and holistic procedural content generation. Generating Minecraft towns and villages given existing maps is a suitable task for this, as it requires the generated content to be adaptive, functional, evocative and aesthetic at the same time. Here, we present the results from the first iteration of the competition. We discuss the evaluation methodology, present the different technical approaches by the competitors, and outline the open problems.
翻訳日:2021-03-30 15:11:40 公開日:2021-03-27
# 画像表現のための直交モーメントに関する調査:理論,実装,評価

A Survey of Orthogonal Moments for Image Representation: Theory, Implementation, and Evaluation ( http://arxiv.org/abs/2103.14799v1 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Jiantao Zhou, Xiaochun Cao(参考訳) 画像表現はコンピュータビジョンとパターン認識において重要なトピックである。 視覚コンテンツの理解に向け、様々なアプリケーションで基本的な役割を担っている。 モーメントに基づく画像表現は、その有益な数学的性質、特に幾何学的不変性と独立性のために意味記述のコア条件を満たすのに有効であると報告されている。 本稿では,画像表現における直交モーメントの包括的調査を行い,高速/精度計算,ロバスト性/不変性最適化,定義拡張の最近の進歩について述べる。 また,様々な広範に使用されている直交モーメントのためのソフトウェアパッケージを作成し,その手法を同一ベースで評価する。 提案した理論分析,ソフトウェア実装,評価結果は,特に新しい技術開発や実世界の応用の促進において,コミュニティを支援することができる。

Image representation is an important topic in computer vision and pattern recognition. It plays a fundamental role in a range of applications towards understanding visual contents. Moment-based image representation has been reported to be effective in satisfying the core conditions of semantic description due to its beneficial mathematical properties, especially geometric invariance and independence. This paper presents a comprehensive survey of the orthogonal moments for image representation, covering recent advances in fast/accurate calculation, robustness/invarianc e optimization, and definition extension. We also create a software package for a variety of widely-used orthogonal moments and evaluate such methods in a same base. The presented theory analysis, software implementation, and evaluation results can support the community, particularly in developing novel techniques and promoting real-world applications.
翻訳日:2021-03-30 15:08:49 公開日:2021-03-27
# 認識用顔トランスフォーマ

Face Transformer for Recognition ( http://arxiv.org/abs/2103.14803v1 )

ライセンス: Link先を確認
Yaoyao Zhong and Weihong Deng(参考訳) 近年,Transformer は NLP だけでなく,コンピュータビジョンにおいても大きな関心を集めている。 顔認識にトランスフォーマーが使えるのか、それともCNNより優れているのか。 そこで,顔認識におけるトランスフォーマーモデルの性能について検討する。 モデルは大規模な顔認識データベースMS-Celeb-1Mでトレーニングされ、LFW、SLLFW、CALFW、CPLFW、TALFW、CFP-FP、AGEDB、IJB-Cデータベースなどの主要なベンチマークで評価される。 我々は,Transformer モデルが CNN と同等の性能を示し,パラメータ数とMAC の類似性を実証した。

Recently there has been great interests of Transformer not only in NLP but also in computer vision. We wonder if transformer can be used in face recognition and whether it is better than CNNs. Therefore, we investigate the performance of Transformer models in face recognition. The models are trained on a large scale face recognition database MS-Celeb-1M and evaluated on several mainstream benchmarks, including LFW, SLLFW, CALFW, CPLFW, TALFW, CFP-FP, AGEDB and IJB-C databases. We demonstrate that Transformer models achieve comparable performance as CNN with similar number of parameters and MACs.
翻訳日:2021-03-30 15:08:36 公開日:2021-03-27
# 合成から現実へ:動物行動推定のための教師なしドメイン適応

From Synthetic to Real: Unsupervised Domain Adaptation for Animal Pose Estimation ( http://arxiv.org/abs/2103.14843v1 )

ライセンス: Link先を確認
Chen Li, Gim Hee Lee(参考訳) 動物のポーズ推定は近年注目を集めている重要な分野である。 このタスクの主な課題はラベル付きデータの欠如である。 既存の作品は、合成データのような他のアクセスしやすいドメインのデータから生成される擬似ラベルでこの問題を回避する。 しかし、これらの擬似ラベルは、データのドメインシフトによる整合性チェックや信頼度に基づくフィルタリングであってもうるさい。 この問題を解決するために,合成データと実データ間の領域ギャップを低減するため,MDAM(Multi-scale domain adapt module)を設計する。 さらに、オンラインの粗い擬似ラベル更新戦略を導入する。 具体的には,内面粗い更新ループにおける自己蒸留モジュールと外面粗い更新ループにおける平均教師を用いて,古いものを徐々に置き換える新しい擬似ラベルを生成する。 その結果,本モデルでは,初期の擬似ラベルから学習が可能となり,徐々に新しい擬似ラベルに切り替えることで,後期における過度な適合を防止することができる。 TigDogとVisDA 2019データセットに対するアプローチを評価し、既存のアプローチを大きなマージンで上回るようにしています。 また,未発見領域と未発見動物カテゴリの両方で広範囲にテストすることにより,このモデルの一般化能力を示す。 私たちのコードはプロジェクトのWebサイトで利用可能です。

Animal pose estimation is an important field that has received increasing attention in the recent years. The main challenge for this task is the lack of labeled data. Existing works circumvent this problem with pseudo labels generated from data of other easily accessible domains such as synthetic data. However, these pseudo labels are noisy even with consistency check or confidence-based filtering due to the domain shift in the data. To solve this problem, we design a multi-scale domain adaptation module (MDAM) to reduce the domain gap between the synthetic and real data. We further introduce an online coarse-to-fine pseudo label updating strategy. Specifically, we propose a self-distillation module in an inner coarse-update loop and a mean-teacher in an outer fine-update loop to generate new pseudo labels that gradually replace the old ones. Consequently, our model is able to learn from the old pseudo labels at the early stage, and gradually switch to the new pseudo labels to prevent overfitting in the later stage. We evaluate our approach on the TigDog and VisDA 2019 datasets, where we outperform existing approaches by a large margin. We also demonstrate the generalization ability of our model by testing extensively on both unseen domains and unseen animal categories. Our code is available at the project website.
翻訳日:2021-03-30 15:08:26 公開日:2021-03-27
# 細粒度物体分類のための知識伝達グラフを用いた深層協調学習

Deep Ensemble Collaborative Learning by using Knowledge-transfer Graph for Fine-grained Object Classification ( http://arxiv.org/abs/2103.14845v1 )

ライセンス: Link先を確認
Naoki Okamoto, Soma Minami, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(参考訳) 複数のネットワークが知識を共有して学習する相互学習は、各ネットワークのパフォーマンスを向上させる。 しかし、相互学習を施したネットワークのアンサンブルのパフォーマンスは、各ネットワークのパフォーマンスが大幅に向上したにもかかわらず、相互学習なしでは通常のアンサンブルに比べて大きくは向上しない。 これは相互学習における知識とアンサンブルにおけるネットワークの個性の関係によるものかもしれない。 本研究では,相互学習におけるネットワーク間の多様性を促進する損失設計を導入することにより,知識伝達を用いたアンサンブル手法を提案する。 我々は,ネットワークの中間層における確率分布と情報を表すアテンションマップを知識として利用する。 知識伝達手法にはネットワークと損失設計を組み合わせる多くの方法がある。 そこで,従来の相互学習・蒸留法をグラフィカルに表現し,ハイパーパラメータ探索により各要素を最適化することにより,知識伝達グラフの自動最適化を行い,様々な知識伝達法を検討する。 提案手法は,知識伝達グラフにおけるアンサンブル構築機構,注意損失,ネットワーク間の多様性を促進する損失設計から構成される。 我々は,知識伝達グラフを最適化し,アンサンブルの精度を最大化することで,最適なアンサンブル学習を探索する。 スタンフォード・ドッグス、スタンフォード・カーズ、CUB-200-2011のデータセットを用いたグラフの探索と評価実験から,提案手法が従来のアンサンブル法よりも精度が高いことを確認した。

Mutual learning, in which multiple networks learn by sharing their knowledge, improves the performance of each network. However, the performance of ensembles of networks that have undergone mutual learning does not improve significantly from that of normal ensembles without mutual learning, even though the performance of each network has improved significantly. This may be due to the relationship between the knowledge in mutual learning and the individuality of the networks in the ensemble. In this study, we propose an ensemble method using knowledge transfer to improve the accuracy of ensembles by introducing a loss design that promotes diversity among networks in mutual learning. We use an attention map as knowledge, which represents the probability distribution and information in the middle layer of a network. There are many ways to combine networks and loss designs for knowledge transfer methods. Therefore, we use the automatic optimization of knowledge-transfer graphs to consider a variety of knowledge-transfer methods by graphically representing conventional mutual-learning and distillation methods and optimizing each element through hyperparameter search. The proposed method consists of a mechanism for constructing an ensemble in a knowledge-transfer graph, attention loss, and a loss design that promotes diversity among networks. We explore optimal ensemble learning by optimizing a knowledge-transfer graph to maximize ensemble accuracy. From exploration of graphs and evaluation experiments using the datasets of Stanford Dogs, Stanford Cars, and CUB-200-2011, we confirm that the proposed method is more accurate than a conventional ensemble method.
翻訳日:2021-03-30 15:08:08 公開日:2021-03-27
# TS-CAM:弱教師付きオブジェクトローカライゼーションのためのToken Semantic Coupled Attention Map

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization ( http://arxiv.org/abs/2103.14862v1 )

ライセンス: Link先を確認
Wei Gao, Fang Wan, Xingjia Pan, Zhiliang Peng, Qi Tian, Zhenjun Han, Bolei Zhou, Qixiang Ye(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像カテゴリラベルが与えられた場合に難しい問題であるが、オブジェクトローカライゼーションモデルを学ぶ必要がある。 分類のための畳み込みニューラルネットワーク(CNN)の最適化は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向にあり、部分的な活性化問題を引き起こす。 本稿では,CNNの内在的特性によって部分的アクティベーションが生じると論じ,コンボリューション操作によって局所受容野が生成され,画素間の長距離特徴依存性を捉えることが困難になる。 長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。 TS-CAMはまず、画像を空間埋め込みのためのパッチトークンのシーケンスに分割し、部分的なアクティベーションを避けるために長距離視覚依存の注意マップを生成する。 TS-CAMは、パッチトークンのカテゴリ関連セマンティクスを再配置し、それぞれがオブジェクトカテゴリを認識できるようにする。 TS-CAMは最終的にパッチトークンと意味認識の注意マップを結合して意味認識のローカライゼーションを実現する。 ILSVRC/CUB-200-2011データセットの実験では、TS-CAMはWSOLのCNN-CAMよりも7.1%/27.1%向上し、最先端のパフォーマンスを達成した。

Weakly supervised object localization (WSOL) is a challenging problem when given image category labels but requires to learn object localization models. Optimizing a convolutional neural network (CNN) for classification tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among pixels. We introduce the token semantic coupled attention map (TS-CAM) to take full advantage of the self-attention mechanism in visual transformer for long-range dependency extraction. TS-CAM first splits an image into a sequence of patch tokens for spatial embedding, which produce attention maps of long-range visual dependency to avoid partial activation. TS-CAM then re-allocates category-related semantics for patch tokens, enabling each of them to be aware of object categories. TS-CAM finally couples the patch tokens with the semantic-agnostic attention map to achieve semantic-aware localization. Experiments on the ILSVRC/CUB-200-2011 datasets show that TS-CAM outperforms its CNN-CAM counterparts by 7.1%/27.1% for WSOL, achieving state-of-the-art performance.
翻訳日:2021-03-30 15:07:44 公開日:2021-03-27
# 埋め込み学習に組み込まれたクラスタ数によるインスタンスセグメンテーション

Instance segmentation with the number of clusters incorporated in embedding learning ( http://arxiv.org/abs/2103.14869v1 )

ライセンス: Link先を確認
Jianfeng Cao and Hong Yan(参考訳) セマンティックとインスタンスセグメンテーションのアルゴリズムは、畳み込みニューラルネットワークを利用した2つの一般的な画像セグメンテーションのソリューションである。 セマンティックセグメンテーションはエンドツーエンドのトレーニング戦略から大きく恩恵を受けるが、インスタンスセグメンテーションは学習ベースの識別とプロセス後のクラスタリングによってサポートされたマルチステージタスクとして頻繁にフレーム化される。 サブステージ上の独立最適化は、セグメンテーションエラーの蓄積を促す。 本研究では,事前クラスタリング情報を埋め込み学習フレームワークFCRNetに組み込むことを提案し,一段階のインスタンスセグメンテーションを刺激する。 FCRNetは、クラスタリンググループの数を埋め込み空間に組み込むことで、ポストプロセスの複雑さを和らげる。 FCRNetの優れた性能を検証し、核データセットBBBC006の他の手法と比較した。

Semantic and instance segmentation algorithms are two general yet distinct image segmentation solutions powered by Convolution Neural Network. While semantic segmentation benefits extensively from the end-to-end training strategy, instance segmentation is frequently framed as a multi-stage task, supported by learning-based discrimination and post-process clustering. Independent optimizations on substages instigate the accumulation of segmentation errors. In this work, we propose to embed prior clustering information into an embedding learning framework FCRNet, stimulating the one-stage instance segmentation. FCRNet relieves the complexity of post process by incorporating the number of clustering groups into the embedding space. The superior performance of FCRNet is verified and compared with other methods on the nucleus dataset BBBC006.
翻訳日:2021-03-30 15:07:17 公開日:2021-03-27
# アクティブな輪郭セグメンテーションのための効率的結合形状と外観

An Efficiently Coupled Shape and Appearance Prior for Active Contour Segmentation ( http://arxiv.org/abs/2103.14887v1 )

ライセンス: Link先を確認
Martin Mueller and Navdeep Dahiya and Anthony Yezzi(参考訳) 本稿では,画像やビデオのオブジェクトセグメンテーションのための形状と外観の特徴に基づく新しいトレーニングモデルを提案する。 このようなモデルのほとんどは二次元の外観テンプレートや有限のディスクリプタに依存するが、外観に基づく特徴は1次元関数であり、物体のiso-輪郭に沿った強度を積分することにより、物体の形状と効率的に結合する。 これらの形状と外観の連成PCAトレーニングは、形状と外観の相関をさらに活用し、その結果のトレーニングモデルは、認識分離タスクのための能動輪郭型エネルギー関数に組み込まれる。 合成および赤外画像の実験では、この形状と外観の訓練モデルがチャン・ヴェイゼエネルギーに基づく手法と比較して精度を向上する方法が示されている。

This paper proposes a novel training model based on shape and appearance features for object segmentation in images and videos. Whereas most such models rely on two-dimensional appearance templates or a finite set of descriptors, our appearance-based feature is a one-dimensional function, which is efficiently coupled with the object's shape by integrating intensities along the object's iso-contours. Joint PCA training on these shape and appearance features further exploits shape-appearance correlations and the resulting training model is incorporated in an active-contour-type energy functional for recognition-segmenta tion tasks. Experiments on synthetic and infrared images demonstrate how this shape and appearance training model improves accuracy compared to methods based on the Chan-Vese energy.
翻訳日:2021-03-30 15:07:03 公開日:2021-03-27
# CrossViT:画像分類のためのクロスアテンションマルチスケール視覚変換器

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification ( http://arxiv.org/abs/2103.14899v1 )

ライセンス: Link先を確認
Chun-Fu Chen, Quanfu Fan, Rameswar Panda(参考訳) 最近開発された視覚変換器(ViT)は畳み込みニューラルネットワークと比較して画像分類において有望な結果を得た。 そこで本稿では,画像分類のためのトランスフォーマモデルにおける多元的特徴表現の学習法について検討する。 そこで本研究では,異なるサイズの画像パッチ(すなわちトランスのトークン)を組み合わせて,より強力な画像特徴を生成する2分岐変換器を提案する。 提案手法では,計算複雑性の異なる2つの枝を分割して,小さなパッチと大きなパッチのトークンを処理し,これらのトークンを複数回注目して相互補完する。 さらに,クロスアテンションに基づく簡易かつ効果的なトークン融合モジュールを開発し,各ブランチに対する単一トークンをクエリとして使用し,他のブランチと情報を交換する。 提案手法は,2次時間ではなく,計算量とメモリ量の両方に線形時間を必要とする。 広範な実験により、提案手法は効率的なcnnモデルに加えて、視覚トランスフォーマーの複数の同時作業と同等か同等の性能を発揮することが証明された。 例えば、imagenet1kデータセットでは、いくつかのアーキテクチャ変更によって、最近のdeitを2対%という大きなマージンで上回っています。

The recently developed vision transformer (ViT) has achieved promising results on image classification compared to convolutional neural networks. Inspired by this, in this paper, we study how to learn multi-scale feature representations in transformer models for image classification. To this end, we propose a dual-branch transformer to combine image patches (i.e., tokens in a transformer) of different sizes to produce stronger image features. Our approach processes small-patch and large-patch tokens with two separate branches of different computational complexity and these tokens are then fused purely by attention multiple times to complement each other. Furthermore, to reduce computation, we develop a simple yet effective token fusion module based on cross attention, which uses a single token for each branch as a query to exchange information with other branches. Our proposed cross-attention only requires linear time for both computational and memory complexity instead of quadratic time otherwise. Extensive experiments demonstrate that the proposed approach performs better than or on par with several concurrent works on vision transformer, in addition to efficient CNN models. For example, on the ImageNet1K dataset, with some architectural changes, our approach outperforms the recent DeiT by a large margin of 2\%
翻訳日:2021-03-30 15:06:50 公開日:2021-03-27
# IoUアタック:ビジュアルオブジェクト追跡のための一時的にコヒーレントなブラックボックスアタックを目指す

IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking ( http://arxiv.org/abs/2103.14938v1 )

ライセンス: Link先を確認
Shuai Jia, Yibing Song, Chao Ma, Xiaokang Yang(参考訳) 敵の攻撃は、知覚不能な摂動によって注入された入力サンプルを知覚するディープニューラルネットワークの脆弱性によって生じる。 近年,ディープトラッカーのロバスト性を評価するために,視覚的物体追跡に対角攻撃を適用している。 ディープトラッカーのモデル構造が知られていると仮定すると、ビジュアルトラッキングに対する様々なホワイトボックス攻撃アプローチが有望な結果を示している。 しかし、ディープトラッカーに関するモデル知識は通常、実際のアプリケーションでは利用できない。 本稿では,ビジュアルオブジェクト追跡のための意思決定に基づくブラックボックス攻撃手法を提案する。 画像分類のための静的画像を扱う既存のブラックボックス対逆攻撃法とは対照的に,現在のフレームと歴史的フレームの両方から予測されたIoUスコアに基づいて逐次摂動を生成するIoU攻撃を提案する。 提案手法は,IoUスコアを小さくすることで,時間的コヒーレントなバウンディングボックス(物体の動き)の精度を低下させる。 さらに、学習した摂動を次の数フレームに移し、時間的動き攻撃を初期化する。 我々は、最先端のディープトラッカー(検出ベース、相関フィルタベース、長期トラッカー)に対するIoU攻撃を検証した。 ベンチマークデータセットの大規模な実験は、提案したIoU攻撃法の有効性を示している。 ソースコードはhttps://github.com/V ISION-SJTU/IoU attackで入手できる。

Adversarial attack arises due to the vulnerability of deep neural networks to perceive input samples injected with imperceptible perturbations. Recently, adversarial attack has been applied to visual object tracking to evaluate the robustness of deep trackers. Assuming that the model structures of deep trackers are known, a variety of white-box attack approaches to visual tracking have demonstrated promising results. However, the model knowledge about deep trackers is usually unavailable in real applications. In this paper, we propose a decision-based black-box attack method for visual object tracking. In contrast to existing black-box adversarial attack methods that deal with static images for image classification, we propose IoU attack that sequentially generates perturbations based on the predicted IoU scores from both current and historical frames. By decreasing the IoU scores, the proposed attack method degrades the accuracy of temporal coherent bounding boxes (i.e., object motions) accordingly. In addition, we transfer the learned perturbations to the next few frames to initialize temporal motion attack. We validate the proposed IoU attack on state-of-the-art deep trackers (i.e., detection based, correlation filter based, and long-term trackers). Extensive experiments on the benchmark datasets indicate the effectiveness of the proposed IoU attack method. The source code is available at https://github.com/V ISION-SJTU/IoUattack .
翻訳日:2021-03-30 15:06:30 公開日:2021-03-27
# HDRビデオ再構成:粗大なネットワークと実世界のベンチマークデータセット

HDR Video Reconstruction: A Coarse-to-fine Network and A Real-world Benchmark Dataset ( http://arxiv.org/abs/2103.14943v1 )

ライセンス: Link先を確認
Guanying Chen, Chaofeng Chen, Shi Guo, Zhetong Liang, Kwan-Yee K. Wong, Lei Zhang(参考訳) high dynamic range (hdr) video reconstruction from sequences capture with alternating exposures は、非常に難しい問題である。 既存の方法では、光学フローを用いて画像空間内の低ダイナミックレンジ(LDR)入力シーケンスを整列し、整列した画像をマージしてHDR出力を生成する。 しかし, 画像空間の正確なアライメントと融合は, 過剰露光領域の細部や未露光領域のノイズが不足しているため困難であり, ゴーストアーティファクトの減少を招いた。 より正確なアライメントとHDR融合を実現するため,HDRビデオ再構成のための粗い深層学習フレームワークを提案する。 まず,画像空間において粗いアライメントとピクセルブレンドを行い,粗いhdr映像を推定する。 第2に、粗いHDRビデオの特徴空間において、より洗練されたアライメントと時間的融合を行い、より良い再構成を実現する。 HDRビデオ再構成手法の定量的かつ包括的評価のための公開データセットがないことを考慮し,970ドルの静的シーンシーケンスと184回の動的シーンを含むベンチマークデータセットを収集する。 実験により,本手法は従来の最先端手法よりも優れた性能を示した。 私たちのデータセット、コード、モデルは公開されます。

High dynamic range (HDR) video reconstruction from sequences captured with alternating exposures is a very challenging problem. Existing methods often align low dynamic range (LDR) input sequence in the image space using optical flow, and then merge the aligned images to produce HDR output. However, accurate alignment and fusion in the image space are difficult due to the missing details in the over-exposed regions and noise in the under-exposed regions, resulting in unpleasing ghosting artifacts. To enable more accurate alignment and HDR fusion, we introduce a coarse-to-fine deep learning framework for HDR video reconstruction. Firstly, we perform coarse alignment and pixel blending in the image space to estimate the coarse HDR video. Secondly, we conduct more sophisticated alignment and temporal fusion in the feature space of the coarse HDR video to produce better reconstruction. Considering the fact that there is no publicly available dataset for quantitative and comprehensive evaluation of HDR video reconstruction methods, we collect such a benchmark dataset, which contains $97$ sequences of static scenes and 184 testing pairs of dynamic scenes. Extensive experiments show that our method outperforms previous state-of-the-art methods. Our dataset, code and model will be made publicly available.
翻訳日:2021-03-30 15:06:07 公開日:2021-03-27
# 自動バックエンドアウェアトレーニング後の量子化

Automated Backend-Aware Post-Training Quantization ( http://arxiv.org/abs/2103.14949v1 )

ライセンス: Link先を確認
Ziheng Jiang, Animesh Jain, Andrew Liu, Josh Fromm, Chengqian Ma, Tianqi Chen, Luis Ceze(参考訳) 量子化は、リソース要件を減らし、ニューラルネットワークデプロイメントのパフォーマンスを改善するための重要なテクニックである。 しかし、x86 CPU、NVIDIA GPU、ARM CPU、アクセラレータなどの異なるハードウェアバックエンドは、量子化されたネットワークに対する異なる実装を要求する可能性がある。 この多様性は、各ハードウェアターゲットに対して特別なトレーニング後の量子化パイプラインを構築することを求めている。 我々は、HAGOと呼ばれる自動トレーニング後量子化フレームワークでこの問題に取り組む。 HAGOは、ユーザ定義のハードウェア仕様に基づく一般的な量子化グラフ変換のセットを提供し、任意のモデルのハードウェア制約を満たしながら最適な量子化戦略を見つけるための検索メカニズムを実装している。 HAGOは,Intel Xeon Cascade Lake CPU,NVIDIA Tesla T4 GPU,ARM Cortex-A CPU,Raspberry Pi4上でそれぞれ2.9倍,1.97倍,2.48倍の高速化を実現し,各ケースで最高のトレーニング後量子化精度を維持した。

Quantization is a key technique to reduce the resource requirement and improve the performance of neural network deployment. However, different hardware backends such as x86 CPU, NVIDIA GPU, ARM CPU, and accelerators may demand different implementations for quantized networks. This diversity calls for specialized post-training quantization pipelines to built for each hardware target, an engineering effort that is often too large for developers to keep up with. We tackle this problem with an automated post-training quantization framework called HAGO. HAGO provides a set of general quantization graph transformations based on a user-defined hardware specification and implements a search mechanism to find the optimal quantization strategy while satisfying hardware constraints for any model. We observe that HAGO achieves speedups of 2.09x, 1.97x, and 2.48x on Intel Xeon Cascade Lake CPUs, NVIDIA Tesla T4 GPUs, ARM Cortex-A CPUs on Raspberry Pi4 relative to full precision respectively, while maintaining the highest reported post-training quantization accuracy in each case.
翻訳日:2021-03-30 15:05:45 公開日:2021-03-27
# Panoptic-PolarNet: 提案なしのLiDARポイントクラウドパノプティクスセグメンテーション

Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation ( http://arxiv.org/abs/2103.14962v1 )

ライセンス: Link先を確認
Zixiang Zhou, Yang Zhang, Hassan Foroosh(参考訳) panoptic segmentationは、単一のフレームワークでインスタンスセグメンテーションとセマンティクスセグメンテーションを統合することを目的として、検出とセグメンテーションの両方の利点を利用するための新しい課題を提示している。 しかし、LiDAR点雲の新興領域におけるパノプティカルセグメンテーションの効率的な解法は、まだオープンな研究問題であり、非常に未探索である。 本稿では,Panoptic-PolarNetと呼ばれる高速で堅牢なLiDAR点雲分割フレームワークを提案する。 本研究では,単一推論ネットワークにおけるセマンティックセグメンテーションとクラス非依存のインスタンスクラスタリングの両方を極鳥のアイビュー(BEV)表現を用いて学習し,都市の街路シーンにおけるインスタンス間の閉塞の問題を回避する。 また,ネットワークの学習性を向上させるために,適応型インスタンス拡張手法と,新しい逆点クラウドプルーニング手法を提案する。 実験の結果,Panoptic-PolarNetはSemanticKITTIおよびnuScenesデータセットのベースライン手法をほぼリアルタイムな推論速度で上回ることがわかった。 Panoptic-PolarNet は 54.1% の PQ を SemanticKITTI Panoptic segmentation leaderboard で達成し、nuScenes の検証セットのリードパフォーマンスを達成した。

Panoptic segmentation presents a new challenge in exploiting the merits of both detection and segmentation, with the aim of unifying instance segmentation and semantic segmentation in a single framework. However, an efficient solution for panoptic segmentation in the emerging domain of LiDAR point cloud is still an open research problem and is very much under-explored. In this paper, we present a fast and robust LiDAR point cloud panoptic segmentation framework, referred to as Panoptic-PolarNet. We learn both semantic segmentation and class-agnostic instance clustering in a single inference network using a polar Bird's Eye View (BEV) representation, enabling us to circumvent the issue of occlusion among instances in urban street scenes. To improve our network's learnability, we also propose an adapted instance augmentation technique and a novel adversarial point cloud pruning method. Our experiments show that Panoptic-PolarNet outperforms the baseline methods on SemanticKITTI and nuScenes datasets with an almost real-time inference speed. Panoptic-PolarNet achieved 54.1% PQ in the public SemanticKITTI panoptic segmentation leaderboard and leading performance for the validation set of nuScenes.
翻訳日:2021-03-30 15:05:26 公開日:2021-03-27
# Labels4Free: StyleGANを使った教師なしセグメンテーション

Labels4Free: Unsupervised Segmentation using StyleGAN ( http://arxiv.org/abs/2103.14968v1 )

ライセンス: Link先を確認
Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka(参考訳) 本稿では,StyleGAN生成オブジェクトに対する教師なしセグメンテーションフレームワークを提案する。 2つの主要な観察に基づいています まず、StyleGANが生成した機能は、セグメンテーションネットワークのトレーニングに利用できる貴重な情報を保持する。 第二に、前景と背景は、大きく独立して様々な方法で合成されることが多い。 提案手法では, セグメンテーションブランチによるStyleGAN2ジェネレータアーキテクチャの拡張と, ジェネレータをフォアグラウンドとバックグラウンドネットワークに分割することを提案する。 これにより、教師なしの方法で前景オブジェクトのソフトセグメンテーションマスクを生成することができる。 複数のオブジェクトクラスにおいて、最先端の教師付きセグメンテーションネットワークに対する比較結果が報告されているが、最良の教師なしセグメンテーションアプローチに対して、質的および定量的指標の両方において明確な改善が示されている。

We propose an unsupervised segmentation framework for StyleGAN generated objects. We build on two main observations. First, the features generated by StyleGAN hold valuable information that can be utilized towards training segmentation networks. Second, the foreground and background can often be treated to be largely independent and be composited in different ways. For our solution, we propose to augment the StyleGAN2 generator architecture with a segmentation branch and to split the generator into a foreground and background network. This enables us to generate soft segmentation masks for the foreground object in an unsupervised fashion. On multiple object classes, we report comparable results against state-of-the-art supervised segmentation networks, while against the best unsupervised segmentation approach we demonstrate a clear improvement, both in qualitative and quantitative metrics.
翻訳日:2021-03-30 15:05:01 公開日:2021-03-27
# ロバストグラフ畳み込みネットワーク入門

An Introduction to Robust Graph Convolutional Networks ( http://arxiv.org/abs/2103.14807v1 )

ライセンス: Link先を確認
Mehrnaz Najafi and Philip S. Yu(参考訳) グラフ畳み込みニューラルネットワーク(gcns)は、伝統畳み込みニューラルネットワーク(cnns)を低次元正規グラフ(画像など)から高次元不規則グラフ(例えば、単語埋め込みに関するテキスト文書)に一般化する。 避けられないデータ収集装置、偽装データ操作、その他のシステムエラーのため、データはエラーに汚染される可能性がある。 ノイズのようなわずかなエラーでさえ、GCNの能力を損なう可能性があり、それらを広範囲に許容できない。 重要な課題は、誤ったデータが存在する場合にGCNを効果的かつ効率的に利用する方法である。 本稿では,複数の情報源から得られる可能性のある誤ビューや複数ビューデータに対して,ロバストグラフ畳み込みニューラルネットワークを提案する。 従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付け、扱います。 実世界の様々なデータセットに対する実験結果から,提案モデルがベースライン法よりも優れていることや,異なるタイプのエラーに対する堅牢性を示す。

Graph convolutional neural networks (GCNs) generalize tradition convolutional neural networks (CNNs) from low-dimensional regular graphs (e.g., image) to high dimensional irregular graphs (e.g., text documents on word embeddings). Due to inevitable faulty data collection instruments, deceptive data manipulation, or other system errors, the data might be error-contaminated. Even a small amount of error such as noise can compromise the ability of GCNs and render them inadmissible to a large extent. The key challenge is how to effectively and efficiently employ GCNs in the presence of erroneous data. In this paper, we propose a novel Robust Graph Convolutional Neural Networks for possible erroneous single-view or multi-view data where data may come from multiple sources. By incorporating an extra layers via Autoencoders into traditional graph convolutional networks, we characterize and handle typical error models explicitly. Experimental results on various real-world datasets demonstrate the superiority of the proposed model over the baseline methods and its robustness against different types of error.
翻訳日:2021-03-30 14:49:02 公開日:2021-03-27
# マルチモーダル非ユークリッドデータのためのテンソルネットワーク

Tensor Networks for Multi-Modal Non-Euclidean Data ( http://arxiv.org/abs/2103.14998v1 )

ライセンス: Link先を確認
Yao Lei Xu, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 現代のデータソースは、通常、大規模でマルチモーダルな性質を持ち、不規則なドメインで取得され、従来のディープラーニングモデルに深刻な課題をもたらす。 これらの問題は、既存のディープラーニングアルゴリズムをグラフを通して不規則な領域に拡張するか、あるいは次元の曲線によって課される計算ボトルネックを軽減するためにテンソル法を用いることによって部分的に緩和される。 両問題を同時に解決するために,グラフ,テンソル,ニューラルネットワークの望ましい特性を物理的に有意かつコンパクトに活用する,新しい多グラフテンソルネットワーク(MGTN)フレームワークを導入する。 これによりMGTNは、不規則なデータソースのローカル情報を、パラメータの複雑さを大幅に減らし、回帰、分類、強化学習といった幅広い学習パラダイムで活用することができる。 MGTNフレームワークの利点、特にテンソルネットワークの固有の低ランク正規化特性による過度な適合を回避する能力は、個々のテンソル、グラフ、ニューラルネットワークドメインの競合モデルに対して優れた性能で示される。

Modern data sources are typically of large scale and multi-modal natures, and acquired on irregular domains, which poses serious challenges to traditional deep learning models. These issues are partially mitigated by either extending existing deep learning algorithms to irregular domains through graphs, or by employing tensor methods to alleviate the computational bottlenecks imposed by the Curse of Dimensionality. To simultaneously resolve both these issues, we introduce a novel Multi-Graph Tensor Network (MGTN) framework, which leverages on the desirable properties of graphs, tensors and neural networks in a physically meaningful and compact manner. This equips MGTNs with the ability to exploit local information in irregular data sources at a drastically reduced parameter complexity, and over a range of learning paradigms such as regression, classification and reinforcement learning. The benefits of the MGTN framework, especially its ability to avoid overfitting through the inherent low-rank regularization properties of tensor networks, are demonstrated through its superior performance against competing models in the individual tensor, graph, and neural network domains.
翻訳日:2021-03-30 14:48:44 公開日:2021-03-27
# Androidエコシステムにおけるインタラクティブマシン学習アプリケーションのためのツールサポートに向けて

Towards Tool-Support for Interactive-Machine Learning Applications in the Android Ecosystem ( http://arxiv.org/abs/2103.14852v1 )

ライセンス: Link先を確認
Muhammad Mehran Sunny, Moritz Berghofer, Ilhan Aslan(参考訳) 消費者アプリケーションはますます賢くなってきており、そのほとんどがデバイスエコシステム上で動作しなければならない。 潜在的なメリットは、デバイス間のインタラクションやシームレスなユーザエクスペリエンスの実現などだ。 今日の高性能なスマートソリューションには、マシンラーニングモデルが不可欠です。 しかしながら、これらのモデルは特定のデバイスのためにAIエンジニアによって別々に開発され、モデルを実行しなければならないデバイスエコシステムに関連する課題や可能性を考慮しないことが多い。 私たちは、次世代のスマートインタラクティブコンシューマアプリケーションのための機械学習モデルの実装、テスト、デプロイの課題に対処するために、AIエンジニアのためのツールサポートが必要であると信じています。 本稿では,AI技術者へのインタビューや,スマートウォッチとスマートフォンを用いた対話型機械学習ユースケースの実験を含む,一連の質問の予備的結果を示す。 ユースケースに取り組むインタビューやハンズオン経験を通じてテーマを特定し、センサーからのデータ収集や、AIエンジニアのツールサポートとなるターゲットデバイス上で前処理コードを実行する際のリソース消費の簡易なテストといった機能を提案しました。

Consumer applications are becoming increasingly smarter and most of them have to run on device ecosystems. Potential benefits are for example enabling cross-device interaction and seamless user experiences. Essential for today's smart solutions with high performance are machine learning models. However, these models are often developed separately by AI engineers for one specific device and do not consider the challenges and potentials associated with a device ecosystem in which their models have to run. We believe that there is a need for tool-support for AI engineers to address the challenges of implementing, testing, and deploying machine learning models for a next generation of smart interactive consumer applications. This paper presents preliminary results of a series of inquiries, including interviews with AI engineers and experiments for an interactive machine learning use case with a Smartwatch and Smartphone. We identified the themes through interviews and hands-on experience working on our use case and proposed features, such as data collection from sensors and easy testing of the resources consumption of running pre-processing code on the target device, which will serve as tool-support for AI engineers.
翻訳日:2021-03-30 14:46:26 公開日:2021-03-27
# 感性インフォームドニューラルネットワークを用いたAC-OPFの学習

Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks ( http://arxiv.org/abs/2103.14779v1 )

ライセンス: Link先を確認
Manish K. Singh, Vassilis Kekatos, and Georgios B. Giannakis(参考訳) 遅延クリティカルな電力システムアプリケーションにおいて計算負荷をリアルタイムからオフラインにシフトするために、最近の研究は、負荷要求が提示されたときのAC最適電力フロー(AC-OPF)の解を予測するためにディープニューラルネットワーク(DNN)を使用するというアイデアを楽しませている。 ネットワークトポロジが変化するにつれて、サンプル効率のよい方法でDNNを訓練する必要がある。 データ効率を向上させるため、OPFデータは単純なトレーニングラベルではなく、パラメトリック最適化問題の解を構成する。 そこで我々は、OPFオプティマイザだけでなく、OPFパラメータ(負荷)に関する偏微分も一致させるために、感度インフォームドDNN(SI-DNN)のトレーニングを提唱する。 必要なヤコビ行列は穏やかな条件下で存在し、関連する原始/双対解から容易に計算できることが示されている。 提案したSI-DNNは、非凸2次2次プログラム(QCQP)、半定値プログラム(SDP)緩和、MATPOWERを含む幅広いOPFソルバと互換性があり、SI-DNNは他の学習とOPFのスキームにシームレスに統合できる。 3つのベンチマークパワーシステムの数値実験は、SI-DNNによって予測されるOPFソリューションの高度な一般化と制約満足度を従来の訓練されたDNN、特に低データ設定で相関する。

To shift the computational burden from real-time to offline in delay-critical power systems applications, recent works entertain the idea of using a deep neural network (DNN) to predict the solutions of the AC optimal power flow (AC-OPF) once presented load demands. As network topologies may change, training this DNN in a sample-efficient manner becomes a necessity. To improve data efficiency, this work utilizes the fact OPF data are not simple training labels, but constitute the solutions of a parametric optimization problem. We thus advocate training a sensitivity-informed DNN (SI-DNN) to match not only the OPF optimizers, but also their partial derivatives with respect to the OPF parameters (loads). It is shown that the required Jacobian matrices do exist under mild conditions, and can be readily computed from the related primal/dual solutions. The proposed SI-DNN is compatible with a broad range of OPF solvers, including a non-convex quadratically constrained quadratic program (QCQP), its semidefinite program (SDP) relaxation, and MATPOWER; while SI-DNN can be seamlessly integrated in other learning-to-OPF schemes. Numerical tests on three benchmark power systems corroborate the advanced generalization and constraint satisfaction capabilities for the OPF solutions predicted by an SI-DNN over a conventionally trained DNN, especially in low-data setups.
翻訳日:2021-03-30 14:43:38 公開日:2021-03-27
# 多視点ステレオのための高能率光度特徴変換の学習

Learning Efficient Photometric Feature Transform for Multi-view Stereo ( http://arxiv.org/abs/2103.14794v1 )

ライセンス: Link先を確認
Kaizhang Kang, Cihui Xie, Ruisheng Zhu, Xiaohe Ma, Ping Tan, Hongzhi Wu and Kun Zhou(参考訳) そこで本稿では,各視点のパーピクセル光度情報を,既存の多視点ステレオパイプラインに挿入して3次元再構成を行うことのできる空間的特徴量非可変低レベル特徴に変換することを学ぶための新しい枠組みを提案する。 取得中の照明条件とその後の画素単位の特徴変換の両方を、相異なる方法で共同最適化することができる。 本フレームワークは,様々な入力データで利用可能な幾何学情報を自動的に適用し,効率的な利用を行う。 照明多重化装置で取得したデータと点灯を用いて,様々な難解な物体の高品質な3d再構成を実演する。 その結果,最先端技術と比較した。

We present a novel framework to learn to convert the perpixel photometric information at each view into spatially distinctive and view-invariant low-level features, which can be plugged into existing multi-view stereo pipeline for enhanced 3D reconstruction. Both the illumination conditions during acquisition and the subsequent per-pixel feature transform can be jointly optimized in a differentiable fashion. Our framework automatically adapts to and makes efficient use of the geometric information available in different forms of input data. High-quality 3D reconstructions of a variety of challenging objects are demonstrated on the data captured with an illumination multiplexing device, as well as a point light. Our results compare favorably with state-of-the-art techniques.
翻訳日:2021-03-30 14:41:56 公開日:2021-03-27
# ARマッピング:拡張現実のための正確かつ効率的なマッピング

AR Mapping: Accurate and Efficient Mapping for Augmented Reality ( http://arxiv.org/abs/2103.14846v1 )

ライセンス: Link先を確認
Rui Huang, Chuan Fang, Kejie Qiu, Le Cui, Zilong Dong, Siyu Zhu, Ping Tan(参考訳) 拡張現実(ar)は、研究と産業の両方のコミュニティから注目を集めている。 デジタル情報とコンテンツを物理的な世界に重ね合わせることで、arはユーザーがより有益で効率的な方法で世界を体験できる。 ARシステムの主要なビルディングブロックとして、ローカライゼーションは、既知の環境における視覚情報と深度情報からなる事前構築された「マップ」からデバイスのポーズを決定することを目的としている。 ローカライゼーション問題は文献で広く研究されているが、ARシステムにおける「マップ」はめったに議論されていない。 本稿では,1)ポーズ6自由度カラー画像,2)画像毎の濃密深度マップ,3)フルポイントクラウドマップからなる,特定のシーンのarマップについて紹介する。 次に、ARマップの生成と評価のための効率的なエンドツーエンドソリューションを提案する。 まず、効率的なデータキャプチャのために、バックパック走査装置に統一キャリブレーションパイプラインを提示する。 次に,走査装置から入力を受け取り,正確なARマップを生成するARマッピングパイプラインを提案する。 最後に,ハイエンドレーザスキャナによる高精度な再構成結果の助けを借りて,ARマップの精度を評価する手法を提案する。 私たちの知る限りでは、ARアプリケーションの効率的かつ正確なマッピングのためのエンドツーエンドソリューションを提示するのは初めてです。

Augmented reality (AR) has gained increasingly attention from both research and industry communities. By overlaying digital information and content onto the physical world, AR enables users to experience the world in a more informative and efficient manner. As a major building block for AR systems, localization aims at determining the device's pose from a pre-built "map" consisting of visual and depth information in a known environment. While the localization problem has been widely studied in the literature, the "map" for AR systems is rarely discussed. In this paper, we introduce the AR Map for a specific scene to be composed of 1) color images with 6-DOF poses; 2) dense depth maps for each image and 3) a complete point cloud map. We then propose an efficient end-to-end solution to generating and evaluating AR Maps. Firstly, for efficient data capture, a backpack scanning device is presented with a unified calibration pipeline. Secondly, we propose an AR mapping pipeline which takes the input from the scanning device and produces accurate AR Maps. Finally, we present an approach to evaluating the accuracy of AR Maps with the help of the highly accurate reconstruction result from a high-end laser scanner. To the best of our knowledge, it is the first time to present an end-to-end solution to efficient and accurate mapping for AR applications.
翻訳日:2021-03-30 14:41:45 公開日:2021-03-27
# stylegan priorを用いた数発意味画像合成

Few-shot Semantic Image Synthesis Using StyleGAN Prior ( http://arxiv.org/abs/2103.14877v1 )

ライセンス: Link先を確認
Yuki Endo and Yoshihiro Kanamori(参考訳) 本稿では,注釈付きトレーニングペアがほとんど利用できないが画素単位のアノテーションは非常にコストがかかる場合の,セマンティックレイアウトからフォトリアリスティック画像を生成するという課題に対処する。 本稿では,semantic maskの擬似ラベル付けを行うトレーニング戦略を提案する。 私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。 このようなマッピングにより、ランダムノイズから無数の擬似セマンティックマスクを生成し、事前学習されたStyleGANジェネレータを制御するエンコーダを訓練することができる。 擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。 様々なデータセットによる定性的かつ定量的な結果は、レイアウトの忠実度や視覚的品質に関して、1ショットまたは5ショットの設定で以前のアプローチよりも改善されている。

This paper tackles a challenging problem of generating photorealistic images from semantic layouts in few-shot scenarios where annotated training pairs are hardly available but pixel-wise annotation is quite costly. We present a training strategy that performs pseudo labeling of semantic masks using the StyleGAN prior. Our key idea is to construct a simple mapping between the StyleGAN feature and each semantic class from a few examples of semantic masks. With such mappings, we can generate an unlimited number of pseudo semantic masks from random noise to train an encoder for controlling a pre-trained StyleGAN generator. Although the pseudo semantic masks might be too coarse for previous approaches that require pixel-aligned masks, our framework can synthesize high-quality images from not only dense semantic masks but also sparse inputs such as landmarks and scribbles. Qualitative and quantitative results with various datasets demonstrate improvement over previous approaches with respect to layout fidelity and visual quality in as few as one- or five-shot settings.
翻訳日:2021-03-30 14:41:27 公開日:2021-03-27
# リアルタイム深層学習による個人用防護具検出

COVID-19 personal protective equipment detection using real-time deep learning methods ( http://arxiv.org/abs/2103.14878v1 )

ライセンス: Link先を確認
Shayan Khosravipour, Erfan Taghvaei, Nasrollah Moghadam Charkari(参考訳) 215カ国以上でcovid-19が急速に拡大しているため、学校や職場への安全な帰還のためにマスクや手袋を推奨する人たちもいる。 我々は人工知能とディープラーニングアルゴリズムを公共の場での顔マスクや手袋検出に利用した。 インターネットからインポートされた8250画像のデータセット上でトレーニングされた顔マスクと手袋の検出と適切な着用について,yolo (you only look once) とssd mobilenetの2つの一般的なディープラーニングアルゴリズムの有効性を調査し,評価した。 YOLOv3はDarkNetフレームワークを用いて実装され、SSD MobileNetアルゴリズムは正確なオブジェクト検出の開発に応用されている。 提案したモデルは、正確なマルチクラス検出を提供するために開発された(Mask vs. No-Mask vs. Gloves vs. No-Gloves vs. Improper)。 マスクを不適切に着用すると、不適切なクラスとして検出される。 導入されたモデルは、マルチクラス検出のための精度(YOLOは90.6%、SSDは85.5%)を提供する。 システムの結果は、マスクや手袋を着用していない人を人前で発見する効率と妥当性を示している。

The exponential spread of COVID-19 in over 215 countries has led WHO to recommend face masks and gloves for a safe return to school or work. We used artificial intelligence and deep learning algorithms for automatic face masks and gloves detection in public areas. We investigated and assessed the efficacy of two popular deep learning algorithms of YOLO (You Only Look Once) and SSD MobileNet for the detection and proper wearing of face masks and gloves trained over a data set of 8250 images imported from the internet. YOLOv3 is implemented using the DarkNet framework, and the SSD MobileNet algorithm is applied for the development of accurate object detection. The proposed models have been developed to provide accurate multi-class detection (Mask vs. No-Mask vs. Gloves vs. No-Gloves vs. Improper). When people wear their masks improperly, the method detects them as an improper class. The introduced models provide accuracies of (90.6% for YOLO and 85.5% for SSD) for multi-class detection. The systems' results indicate the efficiency and validity of detecting people who do not wear masks and gloves in public.
翻訳日:2021-03-30 14:41:10 公開日:2021-03-27
# 変調認識におけるロバストモデルの利点について

On the benefits of robust models in modulation recognition ( http://arxiv.org/abs/2103.14977v1 )

ライセンス: Link先を確認
Javier Maroto, G\'er\^ome Bovet and Pascal Frossard(参考訳) 通信システムの急速な変化と、人工知能への依存度の高さを考えると、異なる、おそらく悪質な条件下でうまく機能するモデルを持つことはますます重要である。 畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。 しかし、画像分類のような他の領域では、DNNは、データに付加された時にモデルを誤分類に騙す、知覚不可能な工芸的なノイズからなる敵の摂動に弱いことが示されている。 これは、通信タスク、特に変調認識におけるDNNのセキュリティに疑問を呈する。 本稿では, 対向摂動強度が信号強度に依存し, SPR (signal to perturbation ratio) で測定される現在の最先端モデルのロバスト性を検証するための新しい枠組みを提案する。 現状のモデルがこれらの摂動に影響を受けやすいことを示す。 画像分類に関する現在の研究とは対照的に、変調認識により、星座空間を見ることで、DNNが学習した特徴の有用性について、容易に理解することができる。 これらの脆弱なモデルを分析すると、逆摂動は星座空間の最も近いクラスへシンボルをシフトしないことがわかった。 このことは、DNNがベイズ-最適変調認識モデルにとって重要な信号統計に基づくのではなく、トレーニングデータに急激な相関関係があることを示唆している。 我々の特徴分析と提案フレームワークは,コミュニケーションシステムのためのより良いモデルを見つけるのに役立つ。

Given the rapid changes in telecommunication systems and their higher dependence on artificial intelligence, it is increasingly important to have models that can perform well under different, possibly adverse, conditions. Deep Neural Networks (DNNs) using convolutional layers are state-of-the-art in many tasks in communications. However, in other domains, like image classification, DNNs have been shown to be vulnerable to adversarial perturbations, which consist of imperceptible crafted noise that when added to the data fools the model into misclassification. This puts into question the security of DNNs in communication tasks, and in particular in modulation recognition. We propose a novel framework to test the robustness of current state-of-the-art models where the adversarial perturbation strength is dependent on the signal strength and measured with the "signal to perturbation ratio" (SPR). We show that current state-of-the-art models are susceptible to these perturbations. In contrast to current research on the topic of image classification, modulation recognition allows us to have easily accessible insights on the usefulness of the features learned by DNNs by looking at the constellation space. When analyzing these vulnerable models we found that adversarial perturbations do not shift the symbols towards the nearest classes in constellation space. This shows that DNNs do not base their decisions on signal statistics that are important for the Bayes-optimal modulation recognition model, but spurious correlations in the training data. Our feature analysis and proposed framework can help in the task of finding better models for communication systems.
翻訳日:2021-03-30 14:37:11 公開日:2021-03-27
# ハイパーグラフ上の半教師付き学習のための非線形拡散法

A nonlinear diffusion method for semi-supervised learning on hypergraphs ( http://arxiv.org/abs/2103.14867v1 )

ライセンス: Link先を確認
Francesco Tudisco, Konstantin Prokopchik, Austin R. Benson(参考訳) ハイパーグラフはデータにおける多方向関係の共通モデルであり、ハイパーグラフ半教師付き学習は、ほんの数ノードのラベルを与えられたハイパーグラフ内のすべてのノードにラベルを割り当てる問題である。 拡散とラベル拡散はグラフ設定における半教師付き学習の古典的手法であり、ハイパーグラフに拡張する標準的な方法もある。 しかし、これらの手法は線形モデルであり、予測を行うためにノード機能を組み込む明確な方法を提供していない。 本稿では,ハイパーグラフ構造に従って特徴とラベルを拡散するハイパーグラフ上の非線形拡散過程を開発し,ハイパーグラフ平衡ネットワークとして解釈できる。 この過程は非線形であるが、大域収束は、解釈可能で正則化された半教師付き学習損失関数の大域的最適である幅広い非線形のクラスに対する一意な限界点を示す。 限界点は、線形モデルを用いて予測を行うノード埋め込みとして機能する。 このアプローチは、複数のハイパーグラフニューラルネットワークよりもはるかに正確で、トレーニングに要する時間も少なくなります。

Hypergraphs are a common model for multiway relationships in data, and hypergraph semi-supervised learning is the problem of assigning labels to all nodes in a hypergraph, given labels on just a few nodes. Diffusions and label spreading are classical techniques for semi-supervised learning in the graph setting, and there are some standard ways to extend them to hypergraphs. However, these methods are linear models, and do not offer an obvious way of incorporating node features for making predictions. Here, we develop a nonlinear diffusion process on hypergraphs that spreads both features and labels following the hypergraph structure, which can be interpreted as a hypergraph equilibrium network. Even though the process is nonlinear, we show global convergence to a unique limiting point for a broad class of nonlinearities, which is the global optimum of a interpretable, regularized semi-supervised learning loss function. The limiting point serves as a node embedding from which we make predictions with a linear model. Our approach is much more accurate than several hypergraph neural networks, and also takes less time to train.
翻訳日:2021-03-30 14:34:30 公開日:2021-03-27
# 強化学習を用いた自己適応トルクベクトル制御

Self-adaptive Torque Vectoring Controller Using Reinforcement Learning ( http://arxiv.org/abs/2103.14892v1 )

ライセンス: Link先を確認
Shayan Taherian, Sampo Kuutti, Marco Visca and Saber Fallah(参考訳) トルクベクタリングコントローラなどの連続ヨーモーメント制御系は、車両の安定化に欠かせない部分である。 この制御器は、一貫した安定なコーナー応答を提供することにより、車両の安定性を維持するという中心的な目的で広範囲に研究されてきた。 トルクベクトル制御器のパラメータを注意深くチューニングする能力は、車両の性能と安定性を著しく向上させることができる。 しかし、特に極端な運転条件においてパラメータを再調整する必要がない。 摩擦面が低いか 速度が速いか 車両は安定性を維持するのに失敗する 本稿では、トルクベクトル制御のためのパラメータチューニングアルゴリズムとして、DDPG(Deep Deterministic Policy Gradient)に基づく強化学習(RL)の有用性を示す。 強化学習によるパラメータチューニングによるトルクベクトル制御は, パラメータチューニングの適応アルゴリズムとしての強化学習の利点を浮き彫りにした, 様々な駆動環境, 幅広い摩擦条件, 異なる速度で良好に動作することを示す。 さらに,強化学習アルゴリズムの学習環境を超えたシナリオにおいて,ddpgアルゴリズムの頑健性を検証する。 非線形タイヤ特性を有する四輪車モデルを用いてシミュレーションを行った。 本実験では,ddpgに基づくパラメータチューニングを遺伝的アルゴリズムと従来のトルクベクトル制御器の試行錯誤チューニングと比較し,強化学習に基づくパラメータチューニングにより車両の安定性が大幅に向上することを示す。

Continuous direct yaw moment control systems such as torque-vectoring controller are an essential part for vehicle stabilization. This controller has been extensively researched with the central objective of maintaining the vehicle stability by providing consistent stable cornering response. The ability of careful tuning of the parameters in a torque-vectoring controller can significantly enhance vehicle's performance and stability. However, without any re-tuning of the parameters, especially in extreme driving conditions e.g. low friction surface or high velocity, the vehicle fails to maintain the stability. In this paper, the utility of Reinforcement Learning (RL) based on Deep Deterministic Policy Gradient (DDPG) as a parameter tuning algorithm for torque-vectoring controller is presented. It is shown that, torque-vectoring controller with parameter tuning via reinforcement learning performs well on a range of different driving environment e.g., wide range of friction conditions and different velocities, which highlight the advantages of reinforcement learning as an adaptive algorithm for parameter tuning. Moreover, the robustness of DDPG algorithm are validated under scenarios which are beyond the training environment of the reinforcement learning algorithm. The simulation has been carried out using a four wheels vehicle model with nonlinear tire characteristics. We compare our DDPG based parameter tuning against a genetic algorithm and a conventional trial-and-error tunning of the torque vectoring controller, and the results demonstrated that the reinforcement learning based parameter tuning significantly improves the stability of the vehicle.
翻訳日:2021-03-30 14:34:13 公開日:2021-03-27
# GateKeeper-GPU:ショートリードマッピングにおける高速かつ高精度な事前アライメントフィルタ

GateKeeper-GPU: Fast and Accurate Pre-Alignment Filtering in Short Read Mapping ( http://arxiv.org/abs/2103.14978v1 )

ライセンス: Link先を確認
Z\"ulal Bing\"ol, Mohammed Alser, Ozcan Ozturk, Can Alkan(参考訳) ショートリードマッピングの最終段階において、参照ゲノム上の読み取りの候補位置を検証し、シーケンスアライメントアルゴリズムを用いて対応する参照セグメントとの差を計算する。 近似文字列マッチング技術は伝統的に2次時間と空間の複雑さを持つ動的プログラミングアルゴリズムを継承するので、2つのシーケンス間の類似性や相違の計算は依然として計算コストがかかる。 高速かつ高精度な事前調整フィルタであるgatekeeper-gpuを導入することで,コストのかかるシーケンスアライメントを効率的に削減できる。 第一に、gatekeeper(最先端の軽量事前調整フィルタ)のフィルタリング精度の向上、第二に、最新のgpuの多数のgpuスレッドが提供する大規模な並列性を利用して、多数のシーケンスペアを迅速かつ同時的に検査する。 GateKeeper-GPUはシーケンスアライメントを最大2.9倍に高速化し、包括的な読み取りマッパー(mrFAST)のエンドツーエンド実行時間に最大1.4倍のスピードアップを提供する。 GateKeeper-GPUはhttps://github.com/B ilkentCompGen/GateKe eper-GPUで利用可能

At the last step of short read mapping, the candidate locations of the reads on the reference genome are verified to compute their differences from the corresponding reference segments using sequence alignment algorithms. Calculating the similarities and differences between two sequences is still computationally expensive since approximate string matching techniques traditionally inherit dynamic programming algorithms with quadratic time and space complexity. We introduce GateKeeper-GPU, a fast and accurate pre-alignment filter that efficiently reduces the need for expensive sequence alignment. GateKeeper-GPU provides two main contributions: first, improving the filtering accuracy of GateKeeper(state-of- the-art lightweight pre-alignment filter), second, exploiting the massive parallelism provided by the large number of GPU threads of modern GPUs to examine numerous sequence pairs rapidly and concurrently. GateKeeper-GPU accelerates the sequence alignment by up to 2.9x and provides up to 1.4x speedup to the end-to-end execution time of a comprehensive read mapper (mrFAST). GateKeeper-GPU is available at https://github.com/B ilkentCompGen/GateKe eper-GPU
翻訳日:2021-03-30 14:33:51 公開日:2021-03-27
# 非線形回帰水平制御の安定性について:幾何学的視点

On the Stability of Nonlinear Receding Horizon Control: A Geometric Perspective ( http://arxiv.org/abs/2103.15010v1 )

ライセンス: Link先を確認
Tyler Westenbroek, Max Simchowitz, Michael I. Jordan, S. Shankar Sastry(参考訳) 産業における非線形回帰水平制御(RHC)戦略の普及により、これらの手法の安定性を保証するための30年以上の研究が続けられている。 しかし、現在の理論的な保証では、各(一般的には非凸な)計画問題を(概ね)大域的最適性に解くことが必要であり、これはrhcの実用的実装で一般的に用いられる微分型局所最適化法に対する非現実的な要件である。 本稿では,一階定常点に対して内部計画問題を解く際に,非線形rhcの安定性保証を理解するための第一歩を踏み出す。 フィードバック線形化システムには特に注意が払われ、正と負の混合結果が提供される。 強条件下では、rhc に対する一階解が指数関数的に安定化する。 重要なのは、この保証は、計画問題に適用される状態コストが、ある意味ではシステムの大域的形状と「相容れない」ことを必要としており、単純な反例が、この条件の必要性を示している。 これらの結果は、最適化に基づく制御の文脈におけるグローバルジオメトリの役割を再考する必要性を浮き彫りにする。

The widespread adoption of nonlinear Receding Horizon Control (RHC) strategies by industry has led to more than 30 years of intense research efforts to provide stability guarantees for these methods. However, current theoretical guarantees require that each (generally nonconvex) planning problem can be solved to (approximate) global optimality, which is an unrealistic requirement for the derivative-based local optimization methods generally used in practical implementations of RHC. This paper takes the first step towards understanding stability guarantees for nonlinear RHC when the inner planning problem is solved to first-order stationary points, but not necessarily global optima. Special attention is given to feedback linearizable systems, and a mixture of positive and negative results are provided. We establish that, under certain strong conditions, first-order solutions to RHC exponentially stabilize linearizable systems. Crucially, this guarantee requires that state costs applied to the planning problems are in a certain sense `compatible' with the global geometry of the system, and a simple counter-example demonstrates the necessity of this condition. These results highlight the need to rethink the role of global geometry in the context of optimization-based control.
翻訳日:2021-03-30 14:33:30 公開日:2021-03-27
# 低ランク行列およびテンソル-トレイン多様体上のリーマン最適化の自動微分

Automatic differentiation for Riemannian optimization on low-rank matrix and tensor-train manifolds ( http://arxiv.org/abs/2103.14974v1 )

ライセンス: Link先を確認
Alexander Novikov, Maxim Rakhuba, Ivan Oseledets(参考訳) 科学計算や機械学習の応用において、行列やより一般的な多次元配列(テンソル)は低ランク分解の助けを借りて近似することができる。 固定階数の行列とテンソルは滑らかなリーマン多様体を形成するので、低ランク近似を求める一般的な道具の1つはリーマン最適化を使うことである。 それでも、リーマン最適化アルゴリズムで必要とされるリーマン勾配とヘッセンの効率的な実装は、実際には非自明なタスクである。 さらに、いくつかのケースでは、解析公式は利用できない。 本稿では,関数の最小化を前提として,近似リーマン Hessian と与えられたベクトルの間のリーマン勾配と行列・バイ・ベクトル積を効率的に計算する手法を提案する。

In scientific computing and machine learning applications, matrices and more general multidimensional arrays (tensors) can often be approximated with the help of low-rank decompositions. Since matrices and tensors of fixed rank form smooth Riemannian manifolds, one of the popular tools for finding the low-rank approximations is to use the Riemannian optimization. Nevertheless, efficient implementation of Riemannian gradients and Hessians, required in Riemannian optimization algorithms, can be a nontrivial task in practice. Moreover, in some cases, analytic formulas are not even available. In this paper, we build upon automatic differentiation and propose a method that, given an implementation of the function to be minimized, efficiently computes Riemannian gradients and matrix-by-vector products between approximate Riemannian Hessian and a given vector.
翻訳日:2021-03-30 14:31:46 公開日:2021-03-27