このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210716)

# 注意誘導圧縮による低遅延エネルギー効率深部SNNの実現に向けて

Towards Low-Latency Energy-Efficient Deep SNNs via Attention-Guided Compression ( http://arxiv.org/abs/2107.12445v1 )

ライセンス: Link先を確認
Souvik Kundu, Gourav Datta, Massoud Pedram, Peter A. Beerel(参考訳) deep spiking neural networks (snns)は、イベント駆動型ニューロモルフィックハードウェアでの計算効率の向上を約束していることから、従来のディープラーニングフレームワークに代わる潜在的な選択肢として登場した。 しかし、複雑な視覚アプリケーションでうまく機能するために、ほとんどのSNNトレーニングフレームワークは、スパイク活動の増加とエネルギー効率の低下につながる大きな推論遅延をもたらす。 したがって, 深部SNNの精度を保ちながら平均スパイク活動を最小限に抑えることは大きな課題であり, 高い推測精度を維持しつつ, スパイク活性を減少させながら超高圧縮を実現する非定性SNNトレーニング手法を提案する。 特に,本フレームワークでは,まず非圧縮メタモデルのアテンションマップを用いて圧縮ANNを生成する。 このステップは、不規則チャネルプルーニングと構造化チャネルプルーニングの両方をサポートし、幅広いプラットフォーム上で計算上の利点を利用するように調整することができる。 フレームワークは、直接入力を使用してスパースラーニングに基づく教師付きSNNトレーニングを実行する。 トレーニング中、SNN重量、しきい値、リークパラメータを共同で最適化し、圧縮を維持しながら必要な時間ステップの数を劇的に最小化する。 CIFAR-10とCIFAR-100とTiny-ImageNetの両方でVGGとResNetの変種を用いて実験を行い,提案手法により生成したSNNモデルは,ベースライン未切断モデルと比較して,最大33.4倍のSOTA圧縮比を得ることができた。 既存のSNNプルーニング法と比較して,精度が向上し,最大8.3倍の圧縮を実現する。

Deep spiking neural networks (SNNs) have emerged as a potential alternative to traditional deep learning frameworks, due to their promise to provide increased compute efficiency on event-driven neuromorphic hardware. However, to perform well on complex vision applications, most SNN training frameworks yield large inference latency which translates to increased spike activity and reduced energy efficiency. Hence,minimizing average spike activity while preserving accuracy indeep SNNs remains a significant challenge and opportunity.This paper presents a non-iterative SNN training technique thatachieves ultra-high compression with reduced spiking activitywhile maintaining high inference accuracy. In particular, our framework first uses the attention-maps of an un compressed meta-model to yield compressed ANNs. This step can be tuned to support both irregular and structured channel pruning to leverage computational benefits over a broad range of platforms. The framework then performs sparse-learning-base d supervised SNN training using direct inputs. During the training, it jointly optimizes the SNN weight, threshold, and leak parameters to drastically minimize the number of time steps required while retaining compression. To evaluate the merits of our approach, we performed experiments with variants of VGG and ResNet, on both CIFAR-10 and CIFAR-100, and VGG16 on Tiny-ImageNet.The SNN models generated through the proposed technique yield SOTA compression ratios of up to 33.4x with no significant drops in accuracy compared to baseline unpruned counterparts. Compared to existing SNN pruning methods, we achieve up to 8.3x higher compression with improved accuracy.
翻訳日:2021-08-01 11:04:29 公開日:2021-07-16
# 長手分散係数予測のためのデータ駆動型特徴選択と機械学習モデルベンチマーク

A Data-driven feature selection and machine-learning model benchmark for the prediction of longitudinal dispersion coefficient ( http://arxiv.org/abs/2107.12970v1 )

ライセンス: Link先を確認
Yifeng Zhao, Pei Zhang, S.A. Galindo-Torres, Stan Z. Li(参考訳) 縦方向分散(LD)は自然流におけるスカラー輸送の主要な過程である。 LD係数(Dl)の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらす。 新興機械学習(ML)技術は、この問題に対する自己適応ツールを提供する。 しかし、既存の研究の多くは、単純な理論的推論によって得られた証明されていない四元数の特徴集合を利用している。 信頼性と合理性に注目する研究はほとんどない。 さらに、比較の欠如により、異なるシナリオにおけるMLモデルの適切な選択は依然として不明である。 本研究では,多変数データから局所最適特徴集合を直接抽出するために,まず特徴勾配セレクタを採用した。 次に, 蒸留した局所最適特性を代表的mlモデルと数値的に比較し, 最適特徴集合(流路幅, 流速, 流路傾斜, 断面面積)を提案した。 流路傾斜はLCDの予測の鍵となるパラメータである。 さらに,包括的モデル比較が可能な重み付き評価指標を設計した。 ベースラインとして単純な線形モデルを用い,単一およびアンサンブル学習モデルのベンチマークを行った。 関連する手法の利点と欠点についても論じた。 その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上した。 一般化能力の低さから、決定木はこの問題には適さない。 特に、単純モデルは、回帰と一般化のバランスが良くなるため、この低次元問題における複雑なモデルよりも優れている。

Longitudinal Dispersion(LD) is the dominant process of scalar transport in natural streams. An accurate prediction on LD coefficient(Dl) can produce a performance leap in related simulation. The emerging machine learning(ML) techniques provide a self-adaptive tool for this problem. However, most of the existing studies utilize an unproved quaternion feature set, obtained through simple theoretical deduction. Few studies have put attention on its reliability and rationality. Besides, due to the lack of comparative comparison, the proper choice of ML models in different scenarios still remains unknown. In this study, the Feature Gradient selector was first adopted to distill the local optimal feature sets directly from multivariable data. Then, a global optimal feature set (the channel width, the flow velocity, the channel slope and the cross sectional area) was proposed through numerical comparison of the distilled local optimums in performance with representative ML models. The channel slope is identified to be the key parameter for the prediction of LDC. Further, we designed a weighted evaluation metric which enables comprehensive model comparison. With the simple linear model as the baseline, a benchmark of single and ensemble learning models was provided. Advantages and disadvantages of the methods involved were also discussed. Results show that the support vector machine has significantly better performance than other models. Decision tree is not suitable for this problem due to poor generalization ability. Notably, simple models show superiority over complicated model on this low-dimensional problem, for their better balance between regression and generalization.
翻訳日:2021-08-01 11:03:59 公開日:2021-07-16
# ビジネスプロセス予測モデルの検査を可能にする説明可能なAI

Explainable AI Enabled Inspection of Business Process Prediction Models ( http://arxiv.org/abs/2107.09767v1 )

ライセンス: Link先を確認
Chun Ouyang, Renuka Sindhgatta, Catarina Moreira(参考訳) 機械学習技術に根ざした現代のデータ分析は、データ主導意思決定の自動化の鍵となる。 最先端のデータ分析の重要な分野として、ビジネスプロセス予測は、基盤となる「ブラックボックス」予測モデルによる推論と決定に対する説明の欠如に関しても課題に直面している。 解釈可能な機械学習技術の開発により、ブラックボックスモデルに対する説明が生成され、(人間)ユーザーが機械学習の予測の背後にある推論にアクセスできるようになる。 本稿では、機械学習による予測に適用される推論をモデル説明を用いて検証し、基礎となる手法の潜在的な問題を検出し、ビジネスプロセス予測モデルの信頼度を高める手法を提案する。 本手法の新たな貢献は,解釈可能な機械学習機構によって生成された説明と,過去のプロセス実行を記録するイベントログから抽出された文脈的,あるいはドメイン的知識の両方を活用するモデル検査の提案である。 この研究から得られた知見は、ビジネスプロセス予測の文脈でモデル信頼性のメトリクスや評価を開発するための重要なインプットとなることが期待されます。

Modern data analytics underpinned by machine learning techniques has become a key enabler to the automation of data-led decision making. As an important branch of state-of-the-art data analytics, business process predictions are also faced with a challenge in regard to the lack of explanation to the reasoning and decision by the underlying `black-box' prediction models. With the development of interpretable machine learning techniques, explanations can be generated for a black-box model, making it possible for (human) users to access the reasoning behind machine learned predictions. In this paper, we aim to present an approach that allows us to use model explanations to investigate certain reasoning applied by machine learned predictions and detect potential issues with the underlying methods thus enhancing trust in business process prediction models. A novel contribution of our approach is the proposal of model inspection that leverages both the explanations generated by interpretable machine learning mechanisms and the contextual or domain knowledge extracted from event logs that record historical process execution. Findings drawn from this work are expected to serve as a key input to developing model reliability metrics and evaluation in the context of business process predictions.
翻訳日:2021-07-25 12:00:06 公開日:2021-07-16
# 強化学習によるループ不変合成の促進

Enhancing Loop-Invariant Synthesis via Reinforcement Learning ( http://arxiv.org/abs/2107.09766v1 )

ライセンス: Link先を確認
Takeshi Tsukada and Hiroshi Unno and Taro Sekiyama and Kohei Suenaga(参考訳) ループ不変合成は、全てのプログラム検証手順の基礎となる。 一般に決定不能であるため、不変合成のツールは必然的にヒューリスティックスを用いる。 検証器の効果的な性能にはヒューリスティックの設計が不可欠であるという共通の信念にもかかわらず、各不変合成ツールの最適なヒューリスティックを得るための研究はほとんど行われていない。 その代わり、開発者はツールのヒューリスティックを手動で調整した。 本研究は, 不変合成器PCSatの強化学習により, 優れたヒューリスティックを効果的かつ自動的に学習できることを実証する。 実験の結果,PCSatと強化学習によるヒューリスティック学習が組み合わさって,この課題に対する最先端の解法よりも優れていることがわかった。 我々の知る限りでは、これは不変合成ツールのヒューリスティックスを学ぶための最初の研究である。

Loop-invariant synthesis is the basis of every program verification procedure. Due to its undecidability in general, a tool for invariant synthesis necessarily uses heuristics. Despite the common belief that the design of heuristics is vital for the effective performance of a verifier, little work has been performed toward obtaining the optimal heuristics for each invariant-synthesis tool. Instead, developers have hand-tuned the heuristics of tools. This study demonstrates that we can effectively and automatically learn a good heuristic via reinforcement learning for an invariant synthesizer PCSat. Our experiment shows that PCSat combined with the heuristic learned by reinforcement learning outperforms the state-of-the-art solvers for this task. To the best of our knowledge, this is the first work that investigates learning the heuristics of an invariant synthesis tool.
翻訳日:2021-07-25 11:59:33 公開日:2021-07-16
# 物理式辞書におけるスパース信号分解によるディープニューラルネットワークによる逆問題解

Solving inverse problems with deep neural networks driven by sparse signal decomposition in a physics-based dictionary ( http://arxiv.org/abs/2107.10657v1 )

ライセンス: Link先を確認
Gaetan Rensonnet, Louise Adam and Benoit Macq(参考訳) 深層ニューラルネットワーク(dnn)は、非常に複雑なモデルを反転させる素晴らしい能力を持っています。 モデルの出力から生成パラメータを学習します 一度トレーニングすると、dnnのフォワードパスは、逆問題を解くために使用される従来の最適化ベースのメソッドよりもはるかに高速になる。 しかし、これはほとんどの医療応用において基本的な制限である解釈可能性の低下によるものである。 本稿では,DNNの効率と従来の解析手法の解釈可能性を組み合わせた一般逆問題の解法を提案する。 この測定はまずモデルに基づく反応の密度の高い辞書に投影される。 結果として得られるスパース表現は、高速パラメータ学習のための問題の物理によって駆動されるアーキテクチャを持つDNNに供給される。 本手法は,高い解釈性と訓練の容易さを維持しつつ,完全に学習されたdnnとして,精度と計算時間に類似した性能を有する生成的前方モデルを扱うことができる。 具体的な結果は、MRI(MRI)によるモデルベース脳パラメータ推定の例に示されている。

Deep neural networks (DNN) have an impressive ability to invert very complex models, i.e. to learn the generative parameters from a model's output. Once trained, the forward pass of a DNN is often much faster than traditional, optimization-based methods used to solve inverse problems. This is however done at the cost of lower interpretability, a fundamental limitation in most medical applications. We propose an approach for solving general inverse problems which combines the efficiency of DNN and the interpretability of traditional analytical methods. The measurements are first projected onto a dense dictionary of model-based responses. The resulting sparse representation is then fed to a DNN with an architecture driven by the problem's physics for fast parameter learning. Our method can handle generative forward models that are costly to evaluate and exhibits similar performance in accuracy and computation time as a fully-learned DNN, while maintaining high interpretability and being easier to train. Concrete results are shown on an example of model-based brain parameter estimation from magnetic resonance imaging (MRI).
翻訳日:2021-07-25 11:59:21 公開日:2021-07-16
# (参考訳) 変分モデルを用いた視覚障害者模倣学習 [全文訳有]

Visual Adversarial Imitation Learning using Variational Models ( http://arxiv.org/abs/2107.08829v1 )

ライセンス: CC BY 4.0
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn(参考訳) 人的努力と反復を必要とするリワード関数の仕様は、深い強化学習を通じて行動を学ぶ上で大きな障害となる。 対照的に、望ましい行動の視覚的なデモンストレーションを提供することは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。 エージェントがタスクの実行方法を示すビジュアルデモンストレーションの固定データセットを提供し、提供されたデモと教師なしの環境インタラクションを使ってタスクの解決を学ばなければならない設定を考える。 この設定は、視覚的な観察のための表現学習、高次元空間によるサンプル複雑性、固定報酬や学習信号の欠如による学習不安定性など、多くの課題を提示している。 これらの課題に対処するために,変動モデルに基づく逆模倣学習(V-MAIL)アルゴリズムを開発した。 モデルに基づくアプローチは、表現学習のための強力なシグナルを提供し、サンプル効率を実現し、オンポリシー学習を可能にして、敵対的トレーニングの安定性を向上させる。 複数の視覚に基づくロコモーションと操作タスクに関する実験を通じて、v-mailはサンプル効率のよい方法でvisuomotorポリシーを学習し、以前の作業よりも安定性が向上し、非漸近的なパフォーマンスも達成できることがわかった。 さらに、学習したモデルを転送することで、V-MAILは、追加の環境相互作用なしに視覚的なデモンストレーションから新しいタスクを学習できることがわかった。 ビデオを含むすべての結果は、 \url{https://sites.google .com/view/variationa l-mail} で見ることができる。

Reward function specification, which requires considerable human effort and iteration, remains a major impediment for learning behaviors through deep reinforcement learning. In contrast, providing visual demonstrations of desired behaviors often presents an easier and more natural way to teach agents. We consider a setting where an agent is provided a fixed dataset of visual demonstrations illustrating how to perform a task, and must learn to solve the task using the provided demonstrations and unsupervised environment interactions. This setting presents a number of challenges including representation learning for visual observations, sample complexity due to high dimensional spaces, and learning instability due to the lack of a fixed reward or learning signal. Towards addressing these challenges, we develop a variational model-based adversarial imitation learning (V-MAIL) algorithm. The model-based approach provides a strong signal for representation learning, enables sample efficiency, and improves the stability of adversarial training by enabling on-policy learning. Through experiments involving several vision-based locomotion and manipulation tasks, we find that V-MAIL learns successful visuomotor policies in a sample-efficient manner, has better stability compared to prior work, and also achieves higher asymptotic performance. We further find that by transferring the learned models, V-MAIL can learn new tasks from visual demonstrations without any additional environment interactions. All results including videos can be found online at \url{https://sites.google .com/view/variationa l-mail}.
翻訳日:2021-07-21 14:15:44 公開日:2021-07-16
# (参考訳) LeanML: 機械学習プロジェクトでの無駄を避けるデザインパターン [全文訳有]

LeanML: A Design Pattern To Slash Avoidable Wastes in Machine Learning Projects ( http://arxiv.org/abs/2107.08066v1 )

ライセンス: CC BY-SA 4.0
Yves-Laurent Kom Samo(参考訳) 機械学習プロジェクトへのリーン方法論の最初の応用を紹介します。 リーンスタートアップやリーン製造業と同様に、リーン機械学習(LeanML)は、商用機械学習プロジェクトにおける回避可能な無駄を大幅に削減し、機械学習能力への投資におけるビジネスリスクを低減し、さらに機械学習へのアクセスを民主化することができる、と私たちは主張する。 本論文で提案するリーンデザインパターンは2つの実現に基づいている。 まず、様々なパフォーマンス指標に対して与えられた説明変数のセットを$x \in \mathcal{X}$で予測し、予測モデルを訓練することなく、結果を予測する際に得られる最高のパフォーマンスを推定することができる。 第二に、最良の予測モデルを学ぶよりもずっと簡単で、速く、そして安価です。 相互情報 $i\left(y; x\right)$ の関数として$y$ を予測するために$x$ を使用する場合の観測量当たりの最高の$r^2$,mse,分類精度,log-likelihood を表す式を導出し、おそらく $y$ の変動係数(例えば、y$ )の尺度を導出する。 分類精度の場合にはシャノンエントロピー、回帰MSEの場合はばらつき)。 本稿では,LeanML設計パターンが多種多様な回帰・分類問題,合成・実生活に与える影響について述べる。

We introduce the first application of the lean methodology to machine learning projects. Similar to lean startups and lean manufacturing, we argue that lean machine learning (LeanML) can drastically slash avoidable wastes in commercial machine learning projects, reduce the business risk in investing in machine learning capabilities and, in so doing, further democratize access to machine learning. The lean design pattern we propose in this paper is based on two realizations. First, it is possible to estimate the best performance one may achieve when predicting an outcome $y \in \mathcal{Y}$ using a given set of explanatory variables $x \in \mathcal{X}$, for a wide range of performance metrics, and without training any predictive model. Second, doing so is considerably easier, faster, and cheaper than learning the best predictive model. We derive formulae expressing the best $R^2$, MSE, classification accuracy, and log-likelihood per observation achievable when using $x$ to predict $y$ as a function of the mutual information $I\left(y; x\right)$, and possibly a measure of the variability of $y$ (e.g. its Shannon entropy in the case of classification accuracy, and its variance in the case regression MSE). We illustrate the efficacy of the LeanML design pattern on a wide range of regression and classification problems, synthetic and real-life.
翻訳日:2021-07-21 13:57:08 公開日:2021-07-16
# (参考訳) DeformerNet: 三次元変形可能なオブジェクト操作に対するディープラーニングアプローチ [全文訳有]

DeformerNet: A Deep Learning Approach to 3D Deformable Object Manipulation ( http://arxiv.org/abs/2107.08067v1 )

ライセンス: CC BY-SA 4.0
Bao Thach, Alan Kuntz, Tucker Hermans(参考訳) 本稿では,DeformerNetと呼ばれるディープニューラルネットワークを利用した3次元変形可能なオブジェクト操作手法を提案する。 3dオブジェクトの形状を制御するには、オブジェクトの完全な3d形状をキャプチャできる効果的な状態表現が必要である。 現在の手法は、オブジェクト上の特徴点のセットを定義したり、オブジェクトを2次元画像空間でしか変形させることによってこの問題を回避する。 代わりに、3dポイントクラウドを状態表現として明示的に使用し、ポイントクラウドに畳み込みニューラルネットワークを適用して3d機能を学びます。 これらの機能は、完全に接続されたニューラルネットワークを使用して、ロボットのエンドエフェクタの位置にマッピングされる。 DeformerNetは、一度エンドツーエンドでトレーニングを行った後、変形可能なオブジェクトの現在の点雲とターゲット点雲の形状を直接ロボットグリップパー位置の所望の変位にマッピングする。 さらに,物体の初期形状と目標形状を考慮した操作点位置の予測問題についても検討した。

In this paper, we propose a novel approach to 3D deformable object manipulation leveraging a deep neural network called DeformerNet. Controlling the shape of a 3D object requires an effective state representation that can capture the full 3D geometry of the object. Current methods work around this problem by defining a set of feature points on the object or only deforming the object in 2D image space, which does not truly address the 3D shape control problem. Instead, we explicitly use 3D point clouds as the state representation and apply Convolutional Neural Network on point clouds to learn the 3D features. These features are then mapped to the robot end-effector's position using a fully-connected neural network. Once trained in an end-to-end fashion, DeformerNet directly maps the current point cloud of a deformable object, as well as a target point cloud shape, to the desired displacement in robot gripper position. In addition, we investigate the problem of predicting the manipulation point location given the initial and goal shape of the object.
翻訳日:2021-07-21 13:31:01 公開日:2021-07-16
# (参考訳) MDPの政策改善境界 [全文訳有]

Refined Policy Improvement Bounds for MDPs ( http://arxiv.org/abs/2107.08068v1 )

ライセンス: CC BY 4.0
J. G. Dai and Mark Gluzman(参考訳) 割引リターンの差に縛られる政策改善は、信頼区間政策最適化(TRPO)アルゴリズムの理論的正当性において重要な役割を果たす。 既存のバウンダリは、ディスカウント係数が1に近づくと縮退バウンダリとなり、ディスカウント係数が1に近づくと、TRPOと関連するアルゴリズムの適用性が疑問視される。 我々は,その結果を<cite{schulman2015, achiam2017} で精錬し,ディスカウント係数において「連続」な新しい境界を提案する。 特に、我々の限界は、長期平均報酬を持つMDPにも当てはまる。

The policy improvement bound on the difference of the discounted returns plays a crucial role in the theoretical justification of the trust-region policy optimization (TRPO) algorithm. The existing bound leads to a degenerate bound when the discount factor approaches one, making the applicability of TRPO and related algorithms questionable when the discount factor is close to one. We refine the results in \cite{Schulman2015, Achiam2017} and propose a novel bound that is "continuous" in the discount factor. In particular, our bound is applicable for MDPs with the long-run average rewards as well.
翻訳日:2021-07-21 11:49:25 公開日:2021-07-16
# (参考訳) 非パラメトリックマニフォールド学習 [全文訳有]

Non-Parametric Manifold Learning ( http://arxiv.org/abs/2107.08089v1 )

ライセンス: CC BY 4.0
Dena Asta(参考訳) ラプラス・ベルトラミ作用素のグラフラプラシアン推定に基づく多様体距離推定器を提案する。 この推定器は、ユークリッド空間の未知コンパクトリーマン部分多様体上のゼロから有界な滑らかな密度から引き出された点の同分布サンプルに基づいて、文献におけるグラフラプラシアンの適切な選択に一貫性があることを示す。 推定器は類似しており、実際に収束特性はコンヌ距離公式として知られるワッサーシュタイン距離のコントロヴィッチ双対再構成の特別な場合に由来する。

We introduce an estimator for manifold distances based on graph Laplacian estimates of the Laplace-Beltrami operator. We show that the estimator is consistent for suitable choices of graph Laplacians in the literature, based on an equidistributed sample of points drawn from a smooth density bounded away from zero on an unknown compact Riemannian submanifold of Euclidean space. The estimator resembles, and in fact its convergence properties are derived from, a special case of the Kontorovic dual reformulation of Wasserstein distance known as Connes' Distance Formula.
翻訳日:2021-07-21 11:41:37 公開日:2021-07-16
# (参考訳) 現在の行列乗算時間における線形代数の近似最適アルゴリズム [全文訳有]

Near-Optimal Algorithms for Linear Algebra in the Current Matrix Multiplication Time ( http://arxiv.org/abs/2107.08090v1 )

ライセンス: CC BY-SA 4.0
Nadiia Chepurko, Kenneth L. Clarkson, Praneeth Kacham and David P. Woodruff(参考訳) Currently, in the numerical linear algebra community, it is thought that to obtain nearly-optimal bounds for various problems such as rank computation, finding a maximal linearly independent subset of columns, regression, low rank approximation, maximum matching on general graphs and linear matroid union, one would need to resolve the main open question of Nelson and Nguyen (FOCS, 2013) regarding the logarithmic factors in the sketching dimension for existing constant factor approximation oblivious subspace embeddings. 改良されたスケッチ技術を用いてこの問題を回避し、これらの問題に対して最適あるいはほぼ最適な境界を求める方法を示す。 キーとなる手法は不確実性原理と抽出器に基づくIndykの明示的なマッピングであり、まずは未知の部分空間埋め込みを適用した後、ベクトルの質量を急速に広げてサンプリングが効果的になるようにし、行列チェルノフ境界から生じるスケッチ次元において標準となる対数係数を避ける。 ランク計算と列の線形独立部分集合の探索という基本的な問題に対して、我々のアルゴリズムはCheung, Kwok, Lau (JACM, 2013)を改善し、それぞれ定数係数と$\log\log(n)$-factor の範囲で最適である。 さらに、定数因子回帰と低階近似に対しては、現在の行列乗法指数に対して最初の最適アルゴリズムを与える。

Currently, in the numerical linear algebra community, it is thought that to obtain nearly-optimal bounds for various problems such as rank computation, finding a maximal linearly independent subset of columns, regression, low rank approximation, maximum matching on general graphs and linear matroid union, one would need to resolve the main open question of Nelson and Nguyen (FOCS, 2013) regarding the logarithmic factors in the sketching dimension for existing constant factor approximation oblivious subspace embeddings. We show how to bypass this question using a refined sketching technique, and obtain optimal or nearly optimal bounds for these problems. A key technique we use is an explicit mapping of Indyk based on uncertainty principles and extractors, which after first applying known oblivious subspace embeddings, allows us to quickly spread out the mass of the vector so that sampling is now effective, and we avoid a logarithmic factor that is standard in the sketching dimension resulting from matrix Chernoff bounds. For the fundamental problems of rank computation and finding a linearly independent subset of columns, our algorithms improve Cheung, Kwok, and Lau (JACM, 2013) and are optimal to within a constant factor and a $\log\log(n)$-factor , respectively. Further, for constant factor regression and low rank approximation we give the first optimal algorithms, for the current matrix multiplication exponent.
翻訳日:2021-07-21 11:21:05 公開日:2021-07-16
# (参考訳) 新しい公開データセットにおけるOOV単語認識手法の比較 [全文訳有]

A Comparison of Methods for OOV-word Recognition on a New Public Dataset ( http://arxiv.org/abs/2107.08091v1 )

ライセンス: CC BY-SA 4.0
Rudolf A. Braun, Srikanth Madikeri, Petr Motlicek(参考訳) 自動音声認識システムにおける一般的な問題は、訓練中に見なかった単語の認識方法である。 現在、この問題に対処するための様々な手法を評価する方法が確立されていない。 我々はCommonVoiceデータセットを用いて、トレーニングセットに対して高い語彙(OOV)比を持つ複数の言語を対象としたテストセットを作成し、関連するパフォーマンスメトリクスを計算するための新しいツールをリリースする。 次に,ハイブリッドasrシステムにおいて,oov認識におけるサブワードモデルがどの程度優れているか,wfstsを改良することで既存のシステムにoovワード情報を組み込むことによるメリットについて評価する。 さらに,OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。 OOVワード認識の大幅な改善を示し、データとコードの両方を利用可能にします。

A common problem for automatic speech recognition systems is how to recognize words that they did not see during training. Currently there is no established method of evaluating different techniques for tackling this problem. We propose using the CommonVoice dataset to create test sets for multiple languages which have a high out-of-vocabulary (OOV) ratio relative to a training set and release a new tool for calculating relevant performance metrics. We then evaluate, within the context of a hybrid ASR system, how much better subword models are at recognizing OOVs, and how much benefit one can get from incorporating OOV-word information into an existing system by modifying WFSTs. Additionally, we propose a new method for modifying a subword-based language model so as to better recognize OOV-words. We showcase very large improvements in OOV-word recognition and make both the data and code available.
翻訳日:2021-07-21 10:39:25 公開日:2021-07-16
# (参考訳) スケーリング法則によるデータ収集の制限学習: 実践におけるデータ最小化コンプライアンス [全文訳有]

Learning to Limit Data Collection via Scaling Laws: Data Minimization Compliance in Practice ( http://arxiv.org/abs/2107.08096v1 )

ライセンス: CC BY 4.0
Divya Shanmugam, Samira Shabanian, Fernando Diaz, Mich\`ele Finck, Asia Biega(参考訳) データ最小化(英: data minimization)とは、欧州連合(eu)の一般データ保護規則(gdpr)において、処理目的に関する適切な、関連する、限られた量の個人情報を処理する責任として定義される法的義務である。 しかし、公平さや透明性とは異なり、この原理は計算解釈の欠如のために機械学習システムに広く採用されていない。 本稿では,機械学習と法学の文献をもとに,データ収集目的とシステム性能を関連付けた解釈に基づくデータ収集を制限するための最初の学習フレームワークを提案する。 性能曲線微分に基づくデータ最小化基準を定式化し、データ収集全体を通してアルゴリズムの性能の異なる段階をモデル化する効果的かつ解釈可能な分法手法を提供する。 実験的な調査の結果は、特徴獲得アルゴリズムの選択、初期化条件、データ最小化と公正性の緊張を示唆する個人への影響など、データ最小化フレームワークを設計する際の関連する考慮事項に関する深い洞察を提供する。

Data minimization is a legal obligation defined in the European Union's General Data Protection Regulation (GDPR) as the responsibility to process an adequate, relevant, and limited amount of personal data in relation to a processing purpose. However, unlike fairness or transparency, the principle has not seen wide adoption for machine learning systems due to a lack of computational interpretation. In this paper, we build on literature in machine learning and law to propose the first learning framework for limiting data collection based on an interpretation that ties the data collection purpose to system performance. We formalize a data minimization criterion based on performance curve derivatives and provide an effective and interpretable piecewise power law technique that models distinct stages of an algorithm's performance throughout data collection. Results from our empirical investigation offer deeper insights into the relevant considerations when designing a data minimization framework, including the choice of feature acquisition algorithm, initialization conditions, as well as impacts on individuals that hint at tensions between data minimization and fairness.
翻訳日:2021-07-21 10:28:07 公開日:2021-07-16
# (参考訳) 不確実性下におけるタスクオフロードのための分散マルチエージェント強化学習 [全文訳有]

Decentralized Multi-Agent Reinforcement Learning for Task Offloading Under Uncertainty ( http://arxiv.org/abs/2107.08114v1 )

ライセンス: CC0 1.0
Yuanchao Xu, Amal Feriani, and Ekram Hossain(参考訳) MARL(Multi-Agent Reinforcement Learning)は、環境の非定常性と複合行動空間の大きな次元性により、強化学習の挑戦的なサブ領域である。 タスクオフロード問題を解くために、ディープMARLアルゴリズムが適用されている。 しかし、現実世界のアプリケーションでは、エージェント(すなわち、エージェント)が必要とする情報である。 報酬と状態)はノイズと変更の対象となる。 深部MARLの実用的課題に対する安定性と堅牢性は、まだオープンな研究課題である。 本研究では,最先端のmarlアルゴリズムを適用し,報酬の不確実性を伴うタスクオフロードを解決する。 報奨信号の摂動は, 完全報奨学習と比較して, 性能の低下を招き得ることを示す。 本稿では,無線通信システムに深層MARLソリューションをデプロイする実践的課題を研究・解決するためのさらなる研究を期待する。

Multi-Agent Reinforcement Learning (MARL) is a challenging subarea of Reinforcement Learning due to the non-stationarity of the environments and the large dimensionality of the combined action space. Deep MARL algorithms have been applied to solve different task offloading problems. However, in real-world applications, information required by the agents (i.e. rewards and states) are subject to noise and alterations. The stability and the robustness of deep MARL to practical challenges is still an open research problem. In this work, we apply state-of-the art MARL algorithms to solve task offloading with reward uncertainty. We show that perturbations in the reward signal can induce decrease in the performance compared to learning with perfect rewards. We expect this paper to stimulate more research in studying and addressing the practical challenges of deploying deep MARL solutions in wireless communications systems.
翻訳日:2021-07-21 10:15:27 公開日:2021-07-16
# (参考訳) nlpシステムの体系的コーパス分析における意味のアーキテクチャ [全文訳有]

Architectures of Meaning, A Systematic Corpus Analysis of NLP Systems ( http://arxiv.org/abs/2107.08124v1 )

ライセンス: CC BY 4.0
Oskar Wysocki, Malina Florea, Donal Landers and Andre Freitas(参考訳) 本稿では,自然言語処理(NLP)アーキテクチャを大規模に解釈することを目的とした,新しい統計コーパス解析フレームワークを提案する。 提案手法は,Saturation-based lexicon construction,statist ical corpus analysis method, graph collocations を組み合わせて,NLPアーキテクチャパターンのコーパスからの合成表現を誘導する。 このフレームワークはSemevalタスクの完全なコーパスで検証され、データ駆動方式でアーキテクチャ上の問題に答えるために使用できる一貫性のあるアーキテクチャパターンを示し、大きく動的で指数関数的に成長する分野を解釈するための体系的なメカニズムを提供する。

This paper proposes a novel statistical corpus analysis framework targeted towards the interpretation of Natural Language Processing (NLP) architectural patterns at scale. The proposed approach combines saturation-based lexicon construction, statistical corpus analysis methods and graph collocations to induce a synthesis representation of NLP architectural patterns from corpora. The framework is validated in the full corpus of Semeval tasks and demonstrated coherent architectural patterns which can be used to answer architectural questions on a data-driven fashion, providing a systematic mechanism to interpret a largely dynamic and exponentially growing field.
翻訳日:2021-07-21 10:04:44 公開日:2021-07-16
# (参考訳) 最小メッセージ長を用いたマルコフブランケット発見

Markov Blanket Discovery using Minimum Message Length ( http://arxiv.org/abs/2107.08140v1 )

ライセンス: CC BY 4.0
Yang Li, Kevin B Korb, Lloyd Allison(参考訳) 因果発見は、データから因果ベイズネットワークの学習を自動化し、その初期から活発な関心を集めてきた。 インターネットから大規模データセットをアウトソーシングすることで、大規模データセットへのスケールアップへの関心が高まっている。 これに対する1つのアプローチは、マルコフ・ブランケット(MB)発見を用いた探索を第1ステップとして並列化し、続いてグローバル因果モデルでMBを組み合わせるプロセスである。 我々は、mml(minimum message length)を用いたmb発見の3つの新しい手法を開発・検討し、mb発見として開発するか、機能選択として開発するかに関わらず、経験的に最良の既存手法と比較する。 私たちの最高のMMLメソッドは一貫して競争力があり、いくつかの利点があります。

Causal discovery automates the learning of causal Bayesian networks from data and has been of active interest from their beginning. With the sourcing of large data sets off the internet, interest in scaling up to very large data sets has grown. One approach to this is to parallelize search using Markov Blanket (MB) discovery as a first step, followed by a process of combining MBs in a global causal model. We develop and explore three new methods of MB discovery using Minimum Message Length (MML) and compare them empirically to the best existing methods, whether developed specifically as MB discovery or as feature selection. Our best MML method is consistently competitive and has some advantageous features.
翻訳日:2021-07-21 09:45:42 公開日:2021-07-16
# (参考訳) 自律性2.0:なぜ自動運転は常に5年先なのか? [全文訳有]

Autonomy 2.0: Why is self-driving always 5 years away? ( http://arxiv.org/abs/2107.08142v1 )

ライセンス: CC BY 4.0
Ashesh Jain, Luca Del Pero, Hugo Grimmett, Peter Ondruska(参考訳) 過去10年間の機械学習の成功(画像認識、意思決定、NLP、画像合成)にもかかわらず、自動運転技術は未だに同じ傾向を辿っていない。 本稿では,現代の自動運転スタックの歴史,構成,開発ボトルネックについて考察する。 遅すぎる進歩は、ハンドエンジニアリングが多すぎるアプローチ、ロードテストへの過度な依存、高いデプロイメントコストによるものだ、と私たちは主張する。 古典的スタックには、まれな事象の長い尾を捉えるために必要なスケールを妨げるいくつかのボトルネックがある。 これらの問題を解決するため、私たちは、MLファーストの自動運転アプローチであるAutonomy 2.0の原則を、現在採用されている最先端の代替手段として概説した。 このアプローチは、(i)人間のデモからトレーニング可能な完全な差別化可能なavスタック、(ii)クローズドループデータ駆動リアクティブシミュレーション、(iii)スケーラビリティ問題に対する重要なソリューションとして大規模で低コストなデータコレクションに基づいている。 我々は,一般アーキテクチャの概要と,この方向性で有望な成果をまとめた調査を行い,今後コミュニティが取り組むべき重要な課題を提案する。

Despite the numerous successes of machine learning over the past decade (image recognition, decision-making, NLP, image synthesis), self-driving technology has not yet followed the same trend. In this paper, we study the history, composition, and development bottlenecks of the modern self-driving stack. We argue that the slow progress is caused by approaches that require too much hand-engineering, an over-reliance on road testing, and high fleet deployment costs. We observe that the classical stack has several bottlenecks that preclude the necessary scale needed to capture the long tail of rare events. To resolve these problems, we outline the principles of Autonomy 2.0, an ML-first approach to self-driving, as a viable alternative to the currently adopted state-of-the-art. This approach is based on (i) a fully differentiable AV stack trainable from human demonstrations, (ii) closed-loop data-driven reactive simulation, and (iii) large-scale, low-cost data collections as critical solutions towards scalability issues. We outline the general architecture, survey promising works in this direction and propose key challenges to be addressed by the community in the future.
翻訳日:2021-07-21 09:44:47 公開日:2021-07-16
# (参考訳) Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation [全文訳有]

Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation ( http://arxiv.org/abs/2107.08146v1 )

ライセンス: CC BY 4.0
Peter Jansen(参考訳) スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、"We should working together"の代わりに"Darmok and Jalad at Tanagra"のような比喩的な言及の発声を通じて意味を伝える。 本書は、タマリアン・イングリッシュによる最初のエピソードからの発話の辞書といくつかの後続の小説を組み立て、これを用いて456の英語とタマリアンの発話の並列コーパスを構築する。 大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳時に精度が76%であることが示されている。

Tamarian, a fictional language introduced in the Star Trek episode Darmok, communicates meaning through utterances of metaphorical references, such as "Darmok and Jalad at Tanagra" instead of "We should work together." This work assembles a Tamarian-English dictionary of utterances from the original episode and several follow-on novels, and uses this to construct a parallel corpus of 456 English-Tamarian utterances. A machine translation system based on a large language model (T5) is trained using this parallel corpus, and is shown to produce an accuracy of 76% when translating from English to Tamarian on known utterances.
翻訳日:2021-07-21 09:33:26 公開日:2021-07-16
# 多地点沈殿合成のための確率的および深部生成モデルの比較研究

A comparative study of stochastic and deep generative models for multisite precipitation synthesis ( http://arxiv.org/abs/2107.08074v1 )

ライセンス: Link先を確認
Jorge Guevara, Dario Borges, Campbell Watson, Bianca Zadrozny(参考訳) 将来の気候変動シナリオは通常、気象発生器のシミュレーションを用いて仮説を立てる。 しかし、天気予報のための有望なディープラーニングモデルと古典的なアプローチを比較し評価する研究はごくわずかである。 本研究は多地点降水合成作業における予備的な評価結果を示す。 我々は、IBM Weathergen(Weatherge nライブラリの拡張)とRGeneratePrecの2つのオープンソースの気象発生装置と、さまざまなメトリクスでGANとVAEの2つの深い生成モデルを比較した。 予備結果は,多地点沈殿合成タスクのための深層学習アーキテクチャとアルゴリズムの設計改善のためのガイドとして機能する。

Future climate change scenarios are usually hypothesized using simulations from weather generators. However, there only a few works comparing and evaluating promising deep learning models for weather generation against classical approaches. This study shows preliminary results making such evaluations for the multisite precipitation synthesis task. We compared two open-source weather generators: IBMWeathergen (an extension of the Weathergen library) and RGeneratePrec, and two deep generative models: GAN and VAE, on a variety of metrics. Our preliminary results can serve as a guide for improving the design of deep learning architectures and algorithms for the multisite precipitation synthesis task.
翻訳日:2021-07-20 15:17:55 公開日:2021-07-16
# 履歴データを用いた強化学習に基づくオートプルーニングの収束化

Boosting the Convergence of Reinforcement Learning-based Auto-pruning Using Historical Data ( http://arxiv.org/abs/2107.08815v1 )

ライセンス: Link先を確認
Jiandong Mu, Mengdi Wang, Feiwen Zhu, Jun Yang, Wei Lin, Wei Zhang(参考訳) 近年、チャネルプルーニングのようなニューラルネットワーク圧縮方式は、組み込みシステムなどの電力制約のあるシナリオにおけるディープニューラルネットワーク(dnn)のモデルサイズと計算複雑性を低減するために広く使われている。 強化学習(RL)に基づくオートプルーニングは、高価な手作り作業を避けるため、DNNプルーニングプロセスを自動化するためにさらに提案されている。 しかしながら、rlベースのprunerでは、時間を要するトレーニングプロセスが伴い、各サンプルの高コストがこの問題をさらに悪化させる。 これらの障害は、RLベースのオートプルーニングの現実的な応用を著しく制限している。 そこで,本稿では,従来のオートプルーニングプロセスの履歴データを活用することで,この問題を解消する効率的なオートプルーニングフレームワークを提案する。 我々のフレームワークでは、まず転送学習によるrl-prunerの収束性を高める。 そこで,トランスファービリティを向上させることにより,トレーニングプロセスの高速化を図るために,拡張トランスファー学習手法を提案する。 最後に,rlエージェントのサンプル効率を向上させるために,補助学習プロセスを提案する。 実験の結果、我々のフレームワークはResNet20で1.5-2.5倍、ResNet56、ResNet18、MobileNet v1で1.81-2.375倍のオートプルーニングプロセスを高速化できることがわかった。

Recently, neural network compression schemes like channel pruning have been widely used to reduce the model size and computational complexity of deep neural network (DNN) for applications in power-constrained scenarios such as embedded systems. Reinforcement learning (RL)-based auto-pruning has been further proposed to automate the DNN pruning process to avoid expensive hand-crafted work. However, the RL-based pruner involves a time-consuming training process and the high expense of each sample further exacerbates this problem. These impediments have greatly restricted the real-world application of RL-based auto-pruning. Thus, in this paper, we propose an efficient auto-pruning framework which solves this problem by taking advantage of the historical data from the previous auto-pruning process. In our framework, we first boost the convergence of the RL-pruner by transfer learning. Then, an augmented transfer learning scheme is proposed to further speed up the training process by improving the transferability. Finally, an assistant learning process is proposed to improve the sample efficiency of the RL agent. The experiments have shown that our framework can accelerate the auto-pruning process by 1.5-2.5 times for ResNet20, and 1.81-2.375 times for other neural networks like ResNet56, ResNet18, and MobileNet v1.
翻訳日:2021-07-20 15:15:15 公開日:2021-07-16
# メディア非結合学習:直接出力対応のない学習機能

Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences ( http://arxiv.org/abs/2107.08135v1 )

ライセンス: Link先を確認
Ikko Yamane, Junya Honda, Florian Yger, Masashi Sugiyama(参考訳) 通常の教師付き学習は、入力$x$と出力$y$のペアトレーニングデータがあるときに便利です。 しかし、このようなペアデータの収集は実際には困難である。 この論文では、ペアデータがない場合、$x$から$y$を予測するタスクについて検討するが、分離独立データセットは$x$と$y$の2つがあり、それぞれに変数$u$、すなわち$s_x = \{(x_i, u_i)\}$と$s_y = \{(u'_j, y'_j)\} の2つのデータセットがある。 単純なアプローチは、$S_X$で$U$、$S_Y$で$U$を予測し、$U$で$S_Y$で$Y$を予測することである。 さらに、u$ の予測は、例えば $u$ がより高い次元を持つ場合に、実際に $y$ を予測するよりも難しくなる。 この難しさを回避するために、$U$の予測を避けるために、$f(X)$と$S_{X}$のトレーニングによって$Y = f(X)$を直接学習し、$S_{Y}$でトレーニングされた$h(U)$を予測する新しい方法を提案する。 本手法の統計的一貫性と誤差境界を実証し,その実用的有用性を実験的に検証した。

Ordinary supervised learning is useful when we have paired training data of input $X$ and output $Y$. However, such paired data can be difficult to collect in practice. In this paper, we consider the task of predicting $Y$ from $X$ when we have no paired data of them, but we have two separate, independent datasets of $X$ and $Y$ each observed with some mediating variable $U$, that is, we have two datasets $S_X = \{(X_i, U_i)\}$ and $S_Y = \{(U'_j, Y'_j)\}$. A naive approach is to predict $U$ from $X$ using $S_X$ and then $Y$ from $U$ using $S_Y$, but we show that this is not statistically consistent. Moreover, predicting $U$ can be more difficult than predicting $Y$ in practice, e.g., when $U$ has higher dimensionality. To circumvent the difficulty, we propose a new method that avoids predicting $U$ but directly learns $Y = f(X)$ by training $f(X)$ with $S_{X}$ to predict $h(U)$ which is trained with $S_{Y}$ to approximate $Y$. We prove statistical consistency and error bounds of our method and experimentally confirm its practical usefulness.
翻訳日:2021-07-20 15:14:04 公開日:2021-07-16
# 宣言型機械学習システム

Declarative Machine Learning Systems ( http://arxiv.org/abs/2107.08148v1 )

ライセンス: Link先を確認
Piero Molino and Christopher R\'e(参考訳) 過去数年間、機械学習(ML)は、学術的な取り組みから、コンピューティングのほぼすべての側面で採用されている普及した技術へと移行してきた。 MLで動くプロダクトは、今、私たちのデジタル生活に埋め込まれている:何を見るべきかの推薦から検索意図の占い、消費者や企業におけるバーチャルアシスタントのパワーまで。 近年の自然科学におけるMLの適用の成功により、MLは人類が直面する最も困難な現実世界問題に対処するために利用できることが明らかとなった。 こうした理由から、MLはテクノロジー企業の戦略の中心となり、これまで以上に学術的関心を集めてきた。 これらの成功にもかかわらず、私たちがこれまで見てきたのはほんの始まりにすぎない。 現在、MLモデルをトレーニングし使用している人々は、大規模な組織内で作業するエキスパート開発者ですが、次のMLシステムの波は、コーディングスキルなしで、おそらくは同じタスクを実行できる、と私たちは考えています。 これらの新しいmlシステムは、モデルがどのように訓練され、予測を得るために利用されるかについて、ユーザが完全に理解する必要がなくなる。 宣言的インターフェースは、複雑さを隠蔽し、関心の分離を好むことによって、この目標に適しており、生産性の向上につながる可能性がある。 そこで我々は,2つの宣言型MLシステムであるOvertonとLudwigを開発し,ユーザがデータスキーマ(名前と入力の種類)とタスクのみを宣言する代わりに,低レベルのMLコードを書くように要求した。 この記事では、MLシステムが現在どのように構成されているかを説明し、その成功と採用の重要な要因、現在のMLシステムが直面している問題と、私たちが開発したシステムがそれにどう対処したかについて説明する。 最後に、MLシステムの開発から何年にもわたって学んだこと、そして次世代のMLシステムがどのように見えるかについて話します。

In the last years machine learning (ML) has moved from a academic endeavor to a pervasive technology adopted in almost every aspect of computing. ML-powered products are now embedded in our digital lives: from recommendations of what to watch, to divining our search intent, to powering virtual assistants in consumer and enterprise settings. Recent successes in applying ML in natural sciences revealed that ML can be used to tackle some of the hardest real-world problems humanity faces today. For these reasons ML has become central in the strategy of tech companies and has gathered even more attention from academia than ever before. Despite these successes, what we have witnessed so far is just the beginning. Right now the people training and using ML models are expert developers working within large organizations, but we believe the next wave of ML systems will allow a larger amount of people, potentially without coding skills, to perform the same tasks. These new ML systems will not require users to fully understand all the details of how models are trained and utilized for obtaining predictions. Declarative interfaces are well suited for this goal, by hiding complexity and favouring separation of interests, and can lead to increased productivity. We worked on such abstract interfaces by developing two declarative ML systems, Overton and Ludwig, that require users to declare only their data schema (names and types of inputs) and tasks rather then writing low level ML code. In this article we will describe how ML systems are currently structured, highlight important factors for their success and adoption, what are the issues current ML systems are facing and how the systems we developed addressed them. Finally we will talk about learnings from the development of ML systems throughout the years and how we believe the next generation of ML systems will look like.
翻訳日:2021-07-20 15:09:28 公開日:2021-07-16
# icml 2021ワークショップ「theoretic foundation, criticism and application trends of explainable ai」開催報告

Proceedings of ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trend of Explainable AI ( http://arxiv.org/abs/2107.08821v1 )

ライセンス: Link先を確認
Quanshi Zhang, Tian Han, Lixin Fan, Zhanxing Zhu, Hang Su, Ying Nian Wu, Jie Ren, Hao Zhang(参考訳) ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trends of Explainable AIの成果である。 ディープニューラルネットワーク(DNN)は、コンピュータビジョン、計算言語学、AIなど、幅広い分野で大きな成功を収めたことは間違いない。 しかし、DNNの成功と敵の攻撃に対する弾力性の根底にある基本原理は依然としてほとんど失われている。 DNNの内部メカニズムの解釈と理論化は、魅力的だが議論の的となっているトピックである。 このワークショップは、XAIの範囲における理論の基礎、制限、および新しいアプリケーショントレンドに特別な関心を払っている。 これらの問題は今後の開発における新たなボトルネックを反映している。

This is the Proceedings of ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trend of Explainable AI. Deep neural networks (DNNs) have undoubtedly brought great success to a wide range of applications in computer vision, computational linguistics, and AI. However, foundational principles underlying the DNNs' success and their resilience to adversarial attacks are still largely missing. Interpreting and theorizing the internal mechanisms of DNNs becomes a compelling yet controversial topic. This workshop pays a special interest in theoretic foundations, limitations, and new application trends in the scope of XAI. These issues reflect new bottlenecks in the future development of XAI.
翻訳日:2021-07-20 15:08:03 公開日:2021-07-16
# 大規模文書の法則:ビジュアルクイズを用いた法的契約の構造理解

The Law of Large Documents: Understanding the Structure of Legal Contracts Using Visual Cues ( http://arxiv.org/abs/2107.08128v1 )

ライセンス: Link先を確認
Allison Hegel, Marina Shah, Genevieve Peaslee, Brendan Roof, Emad Elwany(参考訳) BERTのような大規模で事前訓練されたトランスフォーマーモデルは、文書理解タスクで最先端の結果を得たが、ほとんどの実装では一度に512トークンしか考慮できない。 多くの現実世界のアプリケーションでは、ドキュメントはずっと長くなり、典型的には長いドキュメントで使われるセグメンテーション戦略は、ドキュメントの構造やコンテキスト情報を見逃し、下流のタスクで結果を損なう。 法的合意に関する本研究では,文書中のテキストのレイアウト,スタイル,配置といった視覚的な手がかりが,長い文書において許容できるレベルの精度を達成する上で不可欠な強力な特徴であることが分かりました。 文書分割,エンティティ抽出,属性分類などの文書理解タスクの精度に及ぼす,コンピュータビジョン法により得られたこのような視覚的手がかりを取り入れた影響を計測する。 構造メタデータに基づく文書分割手法は,契約理解atticusデータセット上で測定した4つの長期文書理解タスクにおいて,既存の手法よりも優れている。

Large, pre-trained transformer models like BERT have achieved state-of-the-art results on document understanding tasks, but most implementations can only consider 512 tokens at a time. For many real-world applications, documents can be much longer, and the segmentation strategies typically used on longer documents miss out on document structure and contextual information, hurting their results on downstream tasks. In our work on legal agreements, we find that visual cues such as layout, style, and placement of text in a document are strong features that are crucial to achieving an acceptable level of accuracy on long documents. We measure the impact of incorporating such visual cues, obtained via computer vision methods, on the accuracy of document understanding tasks including document segmentation, entity extraction, and attribute classification. Our method of segmenting documents based on structural metadata out-performs existing methods on four long-document understanding tasks as measured on the Contract Understanding Atticus Dataset.
翻訳日:2021-07-20 15:04:44 公開日:2021-07-16
# パーソナライズされたニューラルアーキテクチャによるMRI前立腺分画

Federated Whole Prostate Segmentation in MRI with Personalized Neural Architectures ( http://arxiv.org/abs/2107.08111v1 )

ライセンス: Link先を確認
Holger R. Roth, Dong Yang, Wenqi Li, Andriy Myronenko, Wentao Zhu, Ziyue Xu, Xiaosong Wang, Daguang Xu(参考訳) 堅牢なディープラーニングベースのモデルの構築には、さまざまなトレーニングデータが必要である。 しかし、これらのデータセットは患者のプライバシー上の懸念や規制上のハードルのために簡単に組み合わせることができない。 Federated Learning(FL)は、集中型データセットを必要とせずに機械学習モデルをトレーニングする手段である。 各flクライアントは、すべてのクライアントからパラメータを集約するグローバルサーバとモデルパラメータのみを共有しながら、ローカルデータをトレーニングする。 同時に、各クライアントのデータは、患者数、撮像装置、取得プロトコルの局所的な変化により、差異や矛盾を示すことができる。 したがって、連合学習モデルは、クライアントのデータの局所的特異性に適応できるべきである。 本研究では, fl と局所的ニューラルネットワーク探索に基づく automl 技術を組み合わせた「スーパーネット」の学習を行う。 さらに,各FLクライアントのサイトでパーソナライズされたモデルアーキテクチャを実現するための適応方式を提案する。 提案手法は3次元前立腺MRIの4つの異なるデータセットを用いて評価し,AutoMLスーパーネットを通した最適経路を選択することにより,適応後の局所モデルの性能を向上させることを示した。

Building robust deep learning-based models requires diverse training data, ideally from several sources. However, these datasets cannot be combined easily because of patient privacy concerns or regulatory hurdles, especially if medical data is involved. Federated learning (FL) is a way to train machine learning models without the need for centralized datasets. Each FL client trains on their local data while only sharing model parameters with a global server that aggregates the parameters from all clients. At the same time, each client's data can exhibit differences and inconsistencies due to the local variation in the patient population, imaging equipment, and acquisition protocols. Hence, the federated learned models should be able to adapt to the local particularities of a client's data. In this work, we combine FL with an AutoML technique based on local neural architecture search by training a "supernet". Furthermore, we propose an adaptation scheme to allow for personalized model architectures at each FL client's site. The proposed method is evaluated on four different datasets from 3D prostate MRI and shown to improve the local models' performance after adaptation through selecting an optimal path through the AutoML supernet.
翻訳日:2021-07-20 14:47:24 公開日:2021-07-16
# 磁気共鳴フィンガープリンティングにおける組織特性のリアルタイムマッピング

Real-Time Mapping of Tissue Properties for Magnetic Resonance Fingerprinting ( http://arxiv.org/abs/2107.08120v1 )

ライセンス: Link先を確認
Yilin Liu, Yong Chen, Pew-Thian Yap(参考訳) 磁気共鳴フィンガープリンティング(mrf)は、2段階のプロセスを含む比較的新しいマルチパラメトリックな定量的イメージング手法である: (i) 高アンサンプされた非カルテジアンスパイラルk空間データから一連の時間フレームを再構成し、(ii)時間フレームを用いて組織特性(例えばt1およびt2緩和時間)を推定するパターンマッチング。 本稿では,スパイラルk空間mrfデータから組織特性を直接シームレスにマッピングし,非一様高速フーリエ変換(nufft)や辞書ベースの指紋照合などの時間消費処理を回避するための,エンドツーエンドのディープラーニングフレームワークを提案する。 本手法は,非カルト的k-空間データを直接消費し,適応密度補正を行い,複数の組織特性マップを前方通過で予測する。 2Dと3DのMRFデータを用いた実験では、最先端手法に匹敵する量子化精度が0.5秒以内で達成できることが示されている。 提案手法は, 臨床現場におけるmrfの導入を促進することが期待できる。

Magnetic resonance Fingerprinting (MRF) is a relatively new multi-parametric quantitative imaging method that involves a two-step process: (i) reconstructing a series of time frames from highly-undersampled non-Cartesian spiral k-space data and (ii) pattern matching using the time frames to infer tissue properties (e.g., T1 and T2 relaxation times). In this paper, we introduce a novel end-to-end deep learning framework to seamlessly map the tissue properties directly from spiral k-space MRF data, thereby avoiding time-consuming processing such as the nonuniform fast Fourier transform (NUFFT) and the dictionary-based Fingerprint matching. Our method directly consumes the non-Cartesian k- space data, performs adaptive density compensation, and predicts multiple tissue property maps in one forward pass. Experiments on both 2D and 3D MRF data demonstrate that quantification accuracy comparable to state-of-the-art methods can be accomplished within 0.5 second, which is 1100 to 7700 times faster than the original MRF framework. The proposed method is thus promising for facilitating the adoption of MRF in clinical settings.
翻訳日:2021-07-20 14:47:04 公開日:2021-07-16
# 未来の知的自律ロボット 設計による倫理 自動運転車倫理から学ぶ

Future Intelligent Autonomous Robots, Ethical by Design. Learning from Autonomous Cars Ethics ( http://arxiv.org/abs/2107.08122v1 )

ライセンス: Link先を確認
Gordana Dodig-Crnkovic, Tobias Holstein, Patrizio Pelliccione(参考訳) インテリジェント自律ロボット技術の開発は、個人や社会に期待される有益な効果を前提としている。 このような破壊的な創発的技術の場合、構築方法に関する疑問だけでなく、構築方法や結果が重要である理由についても疑問が持たれます。 インテリジェントな自律ロボットの倫理学の分野は、法律システムやその他の社会的・政府的なアクターを含む様々な利害関係者や企業や企業が、倫理と社会的な技術的側面の共通の見解をもたらす、実用的な実用価値を持つ研究の好例である。 この技術は、技術ライフサイクルのさまざまな段階(開発、実装、テスト、使用、廃棄)における人間と機械のインターフェースを考慮して、インテリジェントな自律型ロボットの開発へのアプローチの出発プラットフォームとして使用できる。 自律的な知的ロボカーの倫理に関する研究や、ロボットの倫理に関する既存の文献から、我々の貢献は、特定された課題とそれらに対応するためのアプローチを含む一連の価値と倫理原則から成り立っている。 これは、インテリジェントな自律ロボット分野のステークホルダーが倫理的原則と応用を結びつけるのに役立つかもしれない。 自動運転車の倫理的要件に関する私たちの推奨事項は、他の種類のインテリジェントな自律ロボットに利用することができ、ユーザーとのインタラクションに関するさらなる研究を必要とする社会ロボットには注意が必要である。 既存の倫理的枠組みは,多条件分析による学際的・多機能チームの評価によって,文脈に敏感な方法で適用する必要がある,と我々は強調する。 さらに、我々は、技術の発展と関連する利害関係者に通知された倫理的原則、ガイドライン、規制の継続的な発展の必要性を論じる。

Development of the intelligent autonomous robot technology presupposes its anticipated beneficial effect on the individuals and societies. In the case of such disruptive emergent technology, not only questions of how to build, but also why to build and with what consequences are important. The field of ethics of intelligent autonomous robotic cars is a good example of research with actionable practical value, where a variety of stakeholders, including the legal system and other societal and governmental actors, as well as companies and businesses, collaborate bringing about shared view of ethics and societal aspects of technology. It could be used as a starting platform for the approaches to the development of intelligent autonomous robots in general, considering human-machine interfaces in different phases of the life cycle of technology - the development, implementation, testing, use and disposal. Drawing from our work on ethics of autonomous intelligent robocars, and the existing literature on ethics of robotics, our contribution consists of a set of values and ethical principles with identified challenges and proposed approaches for meeting them. This may help stakeholders in the field of intelligent autonomous robotics to connect ethical principles with their applications. Our recommendations of ethical requirements for autonomous cars can be used for other types of intelligent autonomous robots, with the caveat for social robots that require more research regarding interactions with the users. We emphasize that existing ethical frameworks need to be applied in a context-sensitive way, by assessments in interdisciplinary, multi-competent teams through multi-criteria analysis. Furthermore, we argue for the need of a continuous development of ethical principles, guidelines, and regulations, informed by the progress of technologies and involving relevant stakeholders.
翻訳日:2021-07-20 14:43:51 公開日:2021-07-16
# 取引市場向けロバストリスク感性強化学習エージェント

Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets ( http://arxiv.org/abs/2107.08083v1 )

ライセンス: Link先を確認
Yue Gao and Kry Yik Chau Lui and Pablo Hernandez-Leal(参考訳) トレーディングマーケットは、強化学習エージェントを展開するための現実世界の金融アプリケーションであるが、高い分散やコストのかかる調査のような厳しい根本的な課題を抱えている。 さらに、市場は本質的に多くのアクターが行動し環境を変えるマルチエージェントドメインである。 このようなシナリオに対処するには、リスク認識、摂動に対する堅牢性、学習のばらつきの低さなど、特定の特性を示す必要がある。 これらをビルディングブロックとし、4つのアルゴリズムのファミリーを提案する。 まず,リスク逆目的関数と分散低減手法を用いる2つのアルゴリズムに寄与する。 次に,マルチエージェント学習のためのフレームワークを拡張し,学習プロセスを乗っ取り,摂動できる相手を仮定する。 第3および第4のアルゴリズムは,この設定下で良好に動作し,理論的保証と実用性とのバランスをとる。 さらに,環境のマルチエージェント性について考察し,リスクに敏感なペイオフを考慮したマルチエージェント学習のための経験的ゲーム理論分析を初めて拡張した。

Trading markets represent a real-world financial application to deploy reinforcement learning agents, however, they carry hard fundamental challenges such as high variance and costly exploration. Moreover, markets are inherently a multiagent domain composed of many actors taking actions and changing the environment. To tackle these type of scenarios agents need to exhibit certain characteristics such as risk-awareness, robustness to perturbations and low learning variance. We take those as building blocks and propose a family of four algorithms. First, we contribute with two algorithms that use risk-averse objective functions and variance reduction techniques. Then, we augment the framework to multi-agent learning and assume an adversary which can take over and perturb the learning process. Our third and fourth algorithms perform well under this setting and balance theoretical guarantees with practical use. Additionally, we consider the multi-agent nature of the environment and our work is the first one extending empirical game theory analysis for multi-agent learning by considering risk-sensitive payoffs.
翻訳日:2021-07-20 14:41:32 公開日:2021-07-16
# autofl: ヘテロジェネリティアウェアエネルギ効率のよい連合学習を可能にする

AutoFL: Enabling Heterogeneity-Aware Energy Efficient Federated Learning ( http://arxiv.org/abs/2107.08147v1 )

ライセンス: Link先を確認
Young Geun Kim and Carole-Jean Wu(参考訳) フェデレーション学習(federated learning)は、エッジにある分散モバイルデバイスのクラスタによって、すべての生のトレーニングサンプルをデバイスに保持しながら、共有機械学習モデルを協調的にトレーニングすることが可能になる。 この分散トレーニングアプローチは、プライバシー漏洩のリスクを軽減するための実用的なソリューションとして実証されている。 しかし,非IIDトレーニングデータ分布,広範囲なシステム不均一性,フィールドにおける確率的ランタイム効果などにより,エッジでの効率的なFL展開を実現することは困難である。 本稿では,エッジ実行の確率的性質を考慮して,最先端flユースケースの時間・コンバージェンスとエネルギー効率を共同で最適化する。 本稿では,各FLモデル集約ラウンドに対して,確率的実行時差,システムおよびデータ不均一性の存在下で,どのK参加者デバイスとデバイス毎の実行目標を学習し,決定する強化学習アルゴリズムを設計し,AutoFLを提案する。 flエッジ配置のユニークな特性を公平に考慮し、autoflはモデル収束時間の3.6倍、ローカルクライアントの4.7倍と5.2倍のエネルギー効率を実現している。

Federated learning enables a cluster of decentralized mobile devices at the edge to collaboratively train a shared machine learning model, while keeping all the raw training samples on device. This decentralized training approach is demonstrated as a practical solution to mitigate the risk of privacy leakage. However, enabling efficient FL deployment at the edge is challenging because of non-IID training data distribution, wide system heterogeneity and stochastic-varying runtime effects in the field. This paper jointly optimizes time-to-convergence and energy efficiency of state-of-the-art FL use cases by taking into account the stochastic nature of edge execution. We propose AutoFL by tailor-designing a reinforcement learning algorithm that learns and determines which K participant devices and per-device execution targets for each FL model aggregation round in the presence of stochastic runtime variance, system and data heterogeneity. By considering the unique characteristics of FL edge deployment judiciously, AutoFL achieves 3.6 times faster model convergence time and 4.7 and 5.2 times higher energy efficiency for local clients and globally over the cluster of K participants, respectively.
翻訳日:2021-07-20 14:41:16 公開日:2021-07-16
# スマートグリッドの時系列異常検出に関する調査

Time Series Anomaly Detection for Smart Grids: A Survey ( http://arxiv.org/abs/2107.08835v1 )

ライセンス: Link先を確認
Jiuqi (Elise) Zhang, Di Wu, Benoit Boulet(参考訳) 再生可能エネルギーの統合が急速に増加し、様々な電化製品が広く採用されるようになると、電力網はますます課題に直面している。 1つの顕著な課題は、電力グリッド内の様々な種類の異常な振る舞いに対する効率的な異常検出を実装することである。 これらの異常な振る舞いは、ユーザの異常な消費パターン、障害のあるグリッドインフラストラクチャ、障害、外部のサイバー攻撃、あるいはエネルギー詐欺によって引き起こされる可能性がある。 このような異常を同定することは、現代の電力網の信頼性と効率的な運用において重要である。 電力グリッド時系列データにおける異常検出のための様々な手法が提案されている。 本稿では,電力系統時系列データの異常検出手法の最近の進歩について概説する。 具体的には,まず,電力グリッド異常検出領域における最近の研究課題を概説し,さらに主要な異常検出手法について検討する。 最後に,今後の研究の方向性を明らかにすることで調査を締めくくる。

With the rapid increase in the integration of renewable energy generation and the wide adoption of various electric appliances, power grids are now faced with more and more challenges. One prominent challenge is to implement efficient anomaly detection for different types of anomalous behaviors within power grids. These anomalous behaviors might be induced by unusual consumption patterns of the users, faulty grid infrastructures, outages, external cyberattacks, or energy fraud. Identifying such anomalies is of critical importance for the reliable and efficient operation of modern power grids. Various methods have been proposed for anomaly detection on power grid time-series data. This paper presents a short survey of the recent advances in anomaly detection for power grid time-series data. Specifically, we first outline current research challenges in the power grid anomaly detection domain and further review the major anomaly detection approaches. Finally, we conclude the survey by identifying the potential directions for future research.
翻訳日:2021-07-20 14:37:17 公開日:2021-07-16
# データからの共変リアプノフベクトルの推定

Estimating covariant Lyapunov vectors from data ( http://arxiv.org/abs/2107.08925v1 )

ライセンス: Link先を確認
Christoph Martin, Nahal Sharafi, Sarah Hallerberg(参考訳) 共変リアプノフベクトル(CLV)は力学系の摂動が増加する方向を特徴付ける。 また、臨界遷移や極端な事象の予測因子としても研究されている。 しかし、多くの応用において、モデル方程式が多くの興味深い現象について未知であるため、データからベクトルを推定する必要がある。 本稿では,高次元データにも適し,計算コストのかかるシステムの基本方程式を知らずに,データ記録に基づいてCLVを推定する手法を提案する。 この純粋にデータ駆動型アプローチは、次元128のカオス力学系と複数の低次元系のカオス力学系によって生成されたデータレコードからCLVを正確に推定できることを示す。

Covariant Lyapunov vectors (CLVs) characterize the directions along which perturbations in dynamical systems grow. They have also been studied as potential predictors of critical transitions and extreme events. For many applications, it is, however, necessary to estimate the vectors from data since model equations are unknown for many interesting phenomena. We propose a novel method for estimating CLVs based on data records without knowing the underlying equations of the system which is suitable also for high-dimensional data and computationally inexpensive. We demonstrate that this purely data-driven approach can accurately estimate CLVs from data records generated by chaotic dynamical systems of dimension 128 and multiple lower-dimensional systems and thus provides the foundation for numerous future applications in data-analysis and data-based predictions.
翻訳日:2021-07-20 14:35:57 公開日:2021-07-16
# (参考訳) 荷物脅威認識のための教師なし異常インスタンスセグメンテーション

Unsupervised Anomaly Instance Segmentation for Baggage Threat Recognition ( http://arxiv.org/abs/2107.07333v2 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物の中に隠された潜在的な脅威を特定することは、セキュリティスタッフにとって大きな懸念事項だ。 多くの研究者がX線スキャンから荷物の脅威を検出するフレームワークを開発した。 しかしながら、私たちの知る限りでは、これらのフレームワークはすべて、現実世界で調達が困難である大規模かつ注釈付きデータセットの広範なトレーニングを必要とします。 本稿では,X線スキャンにおける荷物の脅威を,根拠となる真理ラベルを必要としない異常として認識する,教師なしの新規なインスタンス分割フレームワークを提案する。 さらに、そのスタイリング能力により、フレームワークは一度だけ訓練され、推論段階では、スキャナの仕様にかかわらず、反バンドアイテムを検出して抽出する。 我々の一段階的アプローチは、まず、提案したスタイリゼーション損失関数を用いてエンコーダデコーダネットワークを介して通常の荷物コンテンツを再構成することを学ぶ。 モデルはその後、元のスキャンと再構成されたスキャンの相違を分析して異常領域を特定する。 異常領域はクラスタ化され、そのローカライゼーションのために境界ボックスに適合するように後処理される。 さらに、これらの抽出された異常のカテゴリを認識するために、オプションの分類器を提案フレームワークに追加することもできる。 A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.

Identifying potential threats concealed within the baggage is of prime concern for the security staff. Many researchers have developed frameworks that can detect baggage threats from X-ray scans. However, to the best of our knowledge, all of these frameworks require extensive training on large-scale and well-annotated datasets, which are hard to procure in the real world. This paper presents a novel unsupervised anomaly instance segmentation framework that recognizes baggage threats, in X-ray scans, as anomalies without requiring any ground truth labels. Furthermore, thanks to its stylization capacity, the framework is trained only once, and at the inference stage, it detects and extracts contraband items regardless of their scanner specifications. Our one-staged approach initially learns to reconstruct normal baggage content via an encoder-decoder network utilizing a proposed stylization loss function. The model subsequently identifies the abnormal regions by analyzing the disparities within the original and the reconstructed scans. The anomalous regions are then clustered and post-processed to fit a bounding box for their localization. In addition, an optional classifier can also be appended with the proposed framework to recognize the categories of these extracted anomalies. A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.
翻訳日:2021-07-20 09:13:11 公開日:2021-07-16
# (参考訳) ファウズ前のアライメント:モメンタム蒸留による視覚と言語表現学習 [全文訳有]

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation ( http://arxiv.org/abs/2107.07651v1 )

ライセンス: CC BY 4.0
Junnan Li, Ramprasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, Steven Hoi(参考訳) 大規模ビジョンと言語表現学習は、様々な視覚言語タスクにおいて有望な改善を示している。 既存の方法のほとんどはトランスフォーマーベースのマルチモーダルエンコーダを使用して、視覚トークン(地域ベースの画像特徴)と単語トークンを共同でモデル化している。 視覚トークンとワードトークンは一致しないため、マルチモーダルエンコーダが画像とテキストの相互作用を学習することは困難である。 本稿では,画像とテキストの表現をALBEF(Align the Image and Text Expressions BEfore Fusing)に関連付けることで,より基礎的な視覚と言語表現学習を実現する。 既存の手法と異なり,バウンディングボックスアノテーションや高解像度画像は不要である。 ノイズの多いWebデータからの学習を改善するために,モーメントモデルによって生成された擬似ターゲットから学習する自己学習法であるモーメント蒸留を提案する。 情報最大化の観点からALBEFの理論的解析を行い、異なるトレーニングタスクを画像テキストペアのビューを生成する異なる方法として解釈できることを示す。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。 画像テキスト検索では、albefは桁違いに大きなデータセットで事前学習されたメソッドよりも優れている。 VQAとNLVR$^2$では、ALBEFは最先端技術と比較して2.37%と3.84%の絶対的な改善を達成し、推論速度は速い。 コードと事前トレーニングされたモデルはhttps://github.com/s alesforce/albef/で入手できる。

Large-scale vision and language representation learning has shown promising improvements on various vision-language tasks. Most existing methods employ a transformer-based multimodal encoder to jointly model visual tokens (region-based image features) and word tokens. Because the visual tokens and word tokens are unaligned, it is challenging for the multimodal encoder to learn image-text interactions. In this paper, we introduce a contrastive loss to ALign the image and text representations BEfore Fusing (ALBEF) them through cross-modal attention, which enables more grounded vision and language representation learning. Unlike most existing methods, our method does not require bounding box annotations nor high-resolution images. In order to improve learning from noisy web data, we propose momentum distillation, a self-training method which learns from pseudo-targets produced by a momentum model. We provide a theoretical analysis of ALBEF from a mutual information maximization perspective, showing that different training tasks can be interpreted as different ways to generate views for an image-text pair. ALBEF achieves state-of-the-art performance on multiple downstream vision-language tasks. On image-text retrieval, ALBEF outperforms methods that are pre-trained on orders of magnitude larger datasets. On VQA and NLVR$^2$, ALBEF achieves absolute improvements of 2.37% and 3.84% compared to the state-of-the-art, while enjoying faster inference speed. Code and pre-trained models are available at https://github.com/s alesforce/ALBEF/.
翻訳日:2021-07-19 23:54:12 公開日:2021-07-16
# (参考訳) アクティブクエリK-平均のテキスト分類への応用 [全文訳有]

The Application of Active Query K-Means in Text Classification ( http://arxiv.org/abs/2107.07682v1 )

ライセンス: CC BY 4.0
Yukun Jiang(参考訳) アクティブ・ラーニング(Active Learning)は、ラベルのない大量のデータを扱う最先端の機械学習アプローチである。 自然言語処理の分野では、一般的にすべてのデータが注釈付けされるのは費用と時間を要する。 この非効率さは、テキスト分類におけるアクティブラーニングの適用を誘発する。 従来の教師なしk平均クラスタリングは、この研究で最初に半教師付きバージョンに修正される。 次に,Penalized Min-Max-Selectionを用いて,アルゴリズムをさらにアクティブな学習シナリオに拡張し,より安定した初期セントロイドを生成する限定クエリを実現する。 本手法は,ユーザからの対話型クエリ結果と,それに基づく距離表現の両方を利用する。 中国のニュースデータセットでテストした結果、トレーニングのコストを下げながら精度が一貫した向上を示した。

Active learning is a state-of-art machine learning approach to deal with an abundance of unlabeled data. In the field of Natural Language Processing, typically it is costly and time-consuming to have all the data annotated. This inefficiency inspires out our application of active learning in text classification. Traditional unsupervised k-means clustering is first modified into a semi-supervised version in this research. Then, a novel attempt is applied to further extend the algorithm into active learning scenario with Penalized Min-Max-selection, so as to make limited queries that yield more stable initial centroids. This method utilizes both the interactive query results from users and the underlying distance representation. After tested on a Chinese news dataset, it shows a consistent increase in accuracy while lowering the cost in training.
翻訳日:2021-07-19 23:33:20 公開日:2021-07-16
# (参考訳) CutDepth:深度推定におけるエッジ対応データ拡張 [全文訳有]

CutDepth:Edge-aware Data Augmentation in Depth Estimation ( http://arxiv.org/abs/2107.07684v1 )

ライセンス: CC BY 4.0
Yasunori Ishii and Takayoshi Yamashita(参考訳) RGB画像と深度を同時に取得する必要があるため,単眼深度推定において大規模なデータ収集は困難である。 したがって、このタスクではデータ拡張が重要です。 しかし,ピクセル単位での変換を行う単眼深度推定などのタスクでは,データ拡張に関する研究はほとんど行われていない。 本稿では,CutDepthと呼ばれるデータ拡張手法を提案する。 カットディフでは、トレーニング中に奥行きの一部が入力画像にペーストされる。 この方法はエッジの特徴を損なうことなく変動データを拡張する。 実験により,提案手法が従来のデータ拡張法より優れていることを示す。 遠距離でのトレーニングデータが少ない場合でも、CutDepthで推定精度が向上する。

It is difficult to collect data on a large scale in a monocular depth estimation because the task requires the simultaneous acquisition of RGB images and depths. Data augmentation is thus important to this task. However, there has been little research on data augmentation for tasks such as monocular depth estimation, where the transformation is performed pixel by pixel. In this paper, we propose a data augmentation method, called CutDepth. In CutDepth, part of the depth is pasted onto an input image during training. The method extends variations data without destroying edge features. Experiments objectively and subjectively show that the proposed method outperforms conventional methods of data augmentation. The estimation accuracy is improved with CutDepth even though there are few training data at long distances.
翻訳日:2021-07-19 23:25:15 公開日:2021-07-16
# (参考訳) 自己微分可能なアンサンブルカルマンフィルタ

Auto-differentiable Ensemble Kalman Filters ( http://arxiv.org/abs/2107.07687v1 )

ライセンス: CC BY 4.0
Yuming Chen, Daniel Sanz-Alonso, Rebecca Willett(参考訳) データ同化は、時間発展状態の逐次推定に関係している。 このタスクは、幅広い科学的・工学的応用で発生し、状態が高次元で状態空間のダイナミクスが未知である場合、特に困難である。 本稿では,データ同化における動的システム学習のための機械学習フレームワークを提案する。 我々の自動微分可能アンサンブルカルマンフィルタ(AD-EnKF)は、状態回復のためのアンサンブルカルマンフィルタと、ダイナミックスを学ぶための機械学習ツールをブレンドする。 その際、ad-enkfsはアンサンブルカルマンフィルタの高次元状態へのスケールと自動微分のパワーを利用して、ダイナミックスのための高次元サーロゲートモデルを訓練する。 Lorenz-96モデルを用いて計算した結果、AD-EnKFは期待最大化や粒子フィルタを用いてデータ同化と機械学習をマージする既存の手法よりも優れていた。 さらに、AD-EnKFは実装が容易で、最小限のチューニングを必要とする。

Data assimilation is concerned with sequentially estimating a temporally-evolving state. This task, which arises in a wide range of scientific and engineering applications, is particularly challenging when the state is high-dimensional and the state-space dynamics are unknown. This paper introduces a machine learning framework for learning dynamical systems in data assimilation. Our auto-differentiable ensemble Kalman filters (AD-EnKFs) blend ensemble Kalman filters for state recovery with machine learning tools for learning the dynamics. In doing so, AD-EnKFs leverage the ability of ensemble Kalman filters to scale to high-dimensional states and the power of automatic differentiation to train high-dimensional surrogate models for the dynamics. Numerical results using the Lorenz-96 model show that AD-EnKFs outperform existing methods that use expectation-maximiza tion or particle filters to merge data assimilation and machine learning. In addition, AD-EnKFs are easy to implement and require minimal tuning.
翻訳日:2021-07-19 23:20:53 公開日:2021-07-16
# (参考訳) 因果言語モデルにおける交叉バイアス [全文訳有]

Intersectional Bias in Causal Language Models ( http://arxiv.org/abs/2107.07691v1 )

ライセンス: CC BY-SA 4.0
Liam Magee, Lida Ghahremanlou, Karen Soldatic, and Shanthi Robertson(参考訳) 言語生成において交叉バイアスが観測できるかどうかを調べるため,1億1400万から270億のパラメータの範囲で \emph{GPT-2} と \emph{GPT-NEO} モデルを検証した。 我々は、最大3つの社会的カテゴリー(性別、宗教、障害)を無条件またはゼロショットのプロンプトに組み合わせて、感情を解析する文を生成する実験を行う。 以上の結果から, 自己回帰因果モデルを用いて実施した初期のテストが確認できた。 また、偏見が単一のカテゴリ(例)をターゲットにした手法に抵抗する理由も説明します。 性別、宗教、人種)は、しばしば微妙な方法で、結合した社会的カテゴリーによって引き起こされるテキストの中に現れることもある。 これらの困難に対処するために、技術とコミュニティに基づくアプローチは、複雑で交叉型言語モデルのバイアスを認識し、対処するために組み合わせる必要があると提案する。

To examine whether intersectional bias can be observed in language generation, we examine \emph{GPT-2} and \emph{GPT-NEO} models, ranging in size from 124 million to ~2.7 billion parameters. We conduct an experiment combining up to three social categories - gender, religion and disability - into unconditional or zero-shot prompts used to generate sentences that are then analysed for sentiment. Our results confirm earlier tests conducted with auto-regressive causal models, including the \emph{GPT} family of models. We also illustrate why bias may be resistant to techniques that target single categories (e.g. gender, religion and race), as it can also manifest, in often subtle ways, in texts prompted by concatenated social categories. To address these difficulties, we suggest technical and community-based approaches need to combine to acknowledge and address complex and intersectional language model bias.
翻訳日:2021-07-19 23:19:49 公開日:2021-07-16
# (参考訳) 時空間拡張を用いた遠隔心拍推定のための自己監督学習フレームワーク [全文訳有]

Self-Supervised Learning Framework for Remote Heart Rate Estimation Using Spatiotemporal Augmentation ( http://arxiv.org/abs/2107.07695v1 )

ライセンス: CC BY 4.0
Hao Wang, Euijoon Ahn, Jinman Kim(参考訳) 最近の教師付き深層学習法では、顔画像を用いて心拍数をリモートで測定できることが示されている。 しかし、これらの教師付き手法の性能は、大規模ラベル付きデータの可用性に依存しており、3次元時空間情報を十分に活用しない2次元ディープラーニングアーキテクチャに限られている。 この問題を解決するために,顔画像上でのリモートHR推定のための3次元自己教師付き時空間学習フレームワークを提案する。 具体的には,シェーファーの2色反射モデルと,Nyquist-Shannonサンプリング定理を利用して信号モデリング能力を向上させる新しい空間拡張法により,顔を複数の情報部分に分割するランドマークベース空間拡張法を提案する。 提案手法を3つの公開データセットで評価し,他の自己教師あり手法を上回り,最先端教師付き手法と競合する精度を得た。

Recent supervised deep learning methods have shown that heart rate can be measured remotely using facial videos. However, the performance of these supervised method are dependent on the availability of large-scale labelled data and they have been limited to 2D deep learning architectures that do not fully exploit the 3D spatiotemporal information. To solve this problem, we present a novel 3D self-supervised spatiotemporal learning framework for remote HR estimation on facial videos. Concretely, we propose a landmark-based spatial augmentation which splits the face into several informative parts based on the Shafer's dichromatic reflection model and a novel sparsity-based temporal augmentation exploiting Nyquist-Shannon sampling theorem to enhance the signal modelling ability. We evaluated our method on 3 public datasets and outperformed other self-supervised methods and achieved competitive accuracy with the state-of-the-art supervised methods.
翻訳日:2021-07-19 22:59:31 公開日:2021-07-16
# (参考訳) 擬似ラベリング強化メディアバイアス検出 [全文訳有]

Pseudo-labelling Enhanced Media Bias Detection ( http://arxiv.org/abs/2107.07705v1 )

ライセンス: CC BY 4.0
Qin Ruan, Brian Mac Namee, Ruihai Dong(参考訳) より効果的なテキスト分類モデルを開発するためには、弱い、あるいは遠くの監督を通じてラベルのないデータを活用することが魅力的なアプローチである。 本稿では,疑似ラベルの考え方を生かして,ノイズの多い遠隔指導用アノテーションデータセットからサンプルを選択できる,単純かつ効果的なデータ拡張手法を提案する。 その結果,提案手法はバイアス付きニュース検出モデルの精度を向上することがわかった。

Leveraging unlabelled data through weak or distant supervision is a compelling approach to developing more effective text classification models. This paper proposes a simple but effective data augmentation method, which leverages the idea of pseudo-labelling to select samples from noisy distant supervision annotation datasets. The result shows that the proposed method improves the accuracy of biased news detection models.
翻訳日:2021-07-19 22:46:37 公開日:2021-07-16
# (参考訳) 新しい位置認識を伴う確率的出現-不変幾何分布 [全文訳有]

Probabilistic Appearance-Invariant Topometric Localization with New Place Awareness ( http://arxiv.org/abs/2107.07707v1 )

ライセンス: CC BY 4.0
Ming Xu, Tobias Fischer, Niko S\"underhauf, Michael Milford(参考訳) 確率的状態推定アプローチは、不完全な動きと外部受容センサデータのシーケンスを自然に統合するため、ローカライズシステムを設計するための基本となる。 近年, 外観不変視覚位置認識 (vpr) 法を主刺激センサとして用いた確率的位置推定システムが, 外観変化の存在下での最先端性能を実証している。 しかし,既存のシステム(1)では,移動モデル内でのドメトリデータを完全に活用できず,(2)クエリトラバースがマッピングトラバースを正確に繰り返すという仮定のため,経路ずれを処理できない。 これらの欠点に対処するため,動作モデルにフル3dofオドメトリーを組み込んだ新しい確率的トポロジカルローカライゼーションシステムを提案し,さらに,状態推定フレームワーク内に「オフマップ」状態を追加し,参照マップから重要な経路デトラクションを特徴付けるクエリトラバースを正常にローカライズする。 オックスフォード・ロボットカーのデータセットから得られた複数の問合せトラバースについて,先行する経路から有意な外観変化と逸脱の両方を示す広範な評価を行った。 特に,ループクロージャ検出とグローバルローカライゼーションという2つの実用的なローカライゼーションタスクの性能を評価する。 提案手法は,既存システムと改良型システムの両方に対して,大幅な性能向上を実現する。

Probabilistic state-estimation approaches offer a principled foundation for designing localization systems, because they naturally integrate sequences of imperfect motion and exteroceptive sensor data. Recently, probabilistic localization systems utilizing appearance-invariant visual place recognition (VPR) methods as the primary exteroceptive sensor have demonstrated state-of-the-art performance in the presence of substantial appearance change. However, existing systems 1) do not fully utilize odometry data within the motion models, and 2) are unable to handle route deviations, due to the assumption that query traverses exactly repeat the mapping traverse. To address these shortcomings, we present a new probabilistic topometric localization system which incorporates full 3-dof odometry into the motion model and furthermore, adds an "off-map" state within the state-estimation framework, allowing query traverses which feature significant route detours from the reference map to be successfully localized. We perform extensive evaluation on multiple query traverses from the Oxford RobotCar dataset exhibiting both significant appearance change and deviations from routes previously traversed. In particular, we evaluate performance on two practically relevant localization tasks: loop closure detection and global localization. Our approach achieves major performance improvements over both existing and improved state-of-the-art systems.
翻訳日:2021-07-19 22:43:38 公開日:2021-07-16
# (参考訳) 映像予測のための構造化モデルにおける解釈可能な潜在空間に向けて [全文訳有]

Towards an Interpretable Latent Space in Structured Models for Video Prediction ( http://arxiv.org/abs/2107.07713v1 )

ライセンス: CC BY 4.0
Rushil Gupta, Vishal Sharma, Yash Jain, Yitao Liang, Guy Van den Broeck and Parag Singla(参考訳) 基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。 我々はオブジェクト中心のモデル、すなわちオブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。 具体的には、Kipfらによる最近の研究に基づいている。 グラフニューラルネットワークを用いて、潜在空間におけるオブジェクトインタラクションの対照的な学習を通じて、次の状態を予測する。 一般の物理法則の形で、モデルに明示的な帰納バイアスを注入することは、モデルをより解釈可能にするだけでなく、モデル全体の予測を改善するのにも役立ちます。 自然な副産物として,トレーニング時の対象位置を明示的に監視することなく,画像中の実際の対象位置と密接に類似した特徴マップを学習できる。 物理エンジンの形で運動を支配する力学の完全な知識を仮定した初期の著作である \cite{jaques&al20} と比較すると、私たちは、位置と速度を持つ物体からなる世界のような一般の物理法則の知識のみに依存している。 そこで,本研究では,画素空間の損失をカリキュラム的に加味し,潜在空間予測をさらに洗練するための追加デコーダを提案する。 複数の異なる設定での実験では、Kipfなどがそうである。 モデルはオブジェクトのインタラクションを捉えるのに効果的であり、私たちのモデルはオブジェクトのローカライズにはるかに効果的になり、実験する4つのドメインのうち3つでパフォーマンスが向上します。 さらに、我々のモデルは、実際のオブジェクトの位置に似た、非常に予測不可能な特徴マップを学べる。

We focus on the task of future frame prediction in video governed by underlying physical dynamics. We work with models which are object-centric, i.e., explicitly work with object representations, and propagate a loss in the latent space. Specifically, our research builds on recent work by Kipf et al. \cite{kipf&al20}, which predicts the next state via contrastive learning of object interactions in a latent space using a Graph Neural Network. We argue that injecting explicit inductive bias in the model, in form of general physical laws, can help not only make the model more interpretable, but also improve the overall prediction of model. As a natural by-product, our model can learn feature maps which closely resemble actual object positions in the image, without having any explicit supervision about the object positions at the training time. In comparison with earlier works \cite{jaques&al20}, which assume a complete knowledge of the dynamics governing the motion in the form of a physics engine, we rely only on the knowledge of general physical laws, such as, world consists of objects, which have position and velocity. We propose an additional decoder based loss in the pixel space, imposed in a curriculum manner, to further refine the latent space predictions. Experiments in multiple different settings demonstrate that while Kipf et al. model is effective at capturing object interactions, our model can be significantly more effective at localising objects, resulting in improved performance in 3 out of 4 domains that we experiment with. Additionally, our model can learn highly intrepretable feature maps, resembling actual object positions.
翻訳日:2021-07-19 22:26:53 公開日:2021-07-16
# (参考訳) 人工知能を用いたcbm実験用シリコンマイクロストリップセンサの光学検査 [全文訳有]

Optical Inspection of the Silicon Micro-strip Sensors for the CBM Experiment employing Artificial Intelligence ( http://arxiv.org/abs/2107.07714v1 )

ライセンス: CC BY 4.0
E. Lavrik, M. Shiroya, H.R. Schmidt, A. Toia and J.M. Heuser(参考訳) 1191個のシリコンマイクロストリップセンサの光学検査をカスタムメイドの光学検査装置を用いて行い、欠陥解析とその後の品質保証に機械学習に基づくアプローチを用いた。 さらに,センサ表面のメトロジー制御を行った。 本論文では, 各種センサ表面欠陥の解析について述べる。 その中には、インプラントブレーク、pストップブレイク、アルミニウムストリップオープン、アルミニウムストリップショーツ、表面スクラッチ、ダブルメタリゼーション層欠陥、受動層欠陥、バイアス抵抗欠陥、ダスト粒子の同定などがある。 欠陥検出は、畳み込みディープニューラルネットワーク(CDNN)を用いて行われた。 このことから, 欠陥片と欠陥クラスターが同定され, センサ上の幾何学的位置を用いた欠陥の2次元マップが得られた。 センサ表面に存在する欠陥の合計数に基づいて,センサの全体的な品質評価と品質スコアの推定法を提案した。

Optical inspection of 1191 silicon micro-strip sensors was performed using a custom made optical inspection setup, employing a machine-learning based approach for the defect analysis and subsequent quality assurance. Furthermore, metrological control of the sensor's surface was performed. In this manuscript, we present the analysis of various sensor surface defects. Among these are implant breaks, p-stop breaks, aluminium strip opens, aluminium strip shorts, surface scratches, double metallization layer defects, passivation layer defects, bias resistor defects as well as dust particle identification. The defect detection was done using the application of Convolutional Deep Neural Networks (CDNNs). From this, defective strips and defect clusters were identified, as well as a 2D map of the defects using their geometrical positions on the sensor was performed. Based on the total number of defects found on the sensor's surface, a method for the estimation of sensor's overall quality grade and quality score was proposed.
翻訳日:2021-07-19 22:09:51 公開日:2021-07-16
# (参考訳) 弱監督下の多様な音環境における鳥類の認識 [全文訳有]

Recognizing bird species in diverse soundscapes under weak supervision ( http://arxiv.org/abs/2107.07728v1 )

ライセンス: CC BY 4.0
Christof Henkel, Pascal Pfeiffer and Philipp Singer(参考訳) 本研究では,複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案する。 本稿では,新しい拡張法によって補完される効率的なモデリングとトレーニングルーチンを用いて,事前学習された畳み込みニューラルネットワークをフル活用する方法を示す。 これにより、自動記録装置が収集した生産データに対して、弱いラベル付きクラウドソースデータの一般化が向上する。 そこで本研究では,人手によるアノテーションでは不可能な大規模な生物多様性モニタリングを実現するために,鳥の個体群の自動評価を正確に行う方法について述べる。

We present a robust classification approach for avian vocalization in complex and diverse soundscapes, achieving second place in the BirdCLEF2021 challenge. We illustrate how to make full use of pre-trained convolutional neural networks, by using an efficient modeling and training routine supplemented by novel augmentation methods. Thereby, we improve the generalization of weakly labeled crowd-sourced data to productive data collected by autonomous recording units. As such, we illustrate how to progress towards an accurate automated assessment of avian population which would enable global biodiversity monitoring at scale, impossible by manual annotation.
翻訳日:2021-07-19 21:57:06 公開日:2021-07-16
# (参考訳) EGC2: グラフ圧縮によるグラフ分類の強化 [全文訳有]

EGC2: Enhanced Graph Classification with Easy Graph Compression ( http://arxiv.org/abs/2107.07737v1 )

ライセンス: CC BY 4.0
Jinyin Chen, Dunjie Zhang, Zhaoyan Ming, Mingwei Jia, and Yi Liu(参考訳) グラフ分類はネットワーク分析において重要な役割を果たす。 また、敵攻撃のような潜在的なセキュリティ上の脅威に直面している。 いくつかの防御方法は、敵の訓練のような堅牢性のためにアルゴリズムの複雑さを犠牲にし、一方、スムーズな防御のようなクリーンな例のパフォーマンスを犠牲にする。 それらのほとんどは、高い複雑さまたは少ない転送能力に苦しめられている。 この問題に対処するため,簡単なグラフ圧縮を備えた拡張グラフ分類モデルであるEGC$^2$を提案した。 EGC$^2$は、特徴グラフの構築と集約ノードレベルの表現の改善によって、異なるノードの特徴間の関係をキャプチャする。 様々なグラフ分類モデルに適用されたより低い複雑性の防御を実現するため、EGC$^2$は、中央性に基づくエッジ重要度指数を用いてグラフを圧縮し、自明な構造をフィルタリングし、入力グラフの逆摂動さえも除去する。 7つのベンチマークデータセットの実験により,提案した特徴読み出し機構とグラフ圧縮機構により,様々な基本モデルの堅牢性が向上し,異なる敵攻撃の脅威に対する精度と堅牢性の最先端性能が達成された。

Graph classification plays a significant role in network analysis. It also faces potential security threat like adversarial attacks. Some defense methods may sacrifice algorithm complexity for robustness like adversarial training, while others may sacrifice the clean example performance such as smoothing-based defense. Most of them are suffered from high-complexity or less transferability. To address this problem, we proposed EGC$^2$, an enhanced graph classification model with easy graph compression. EGC$^2$ captures the relationship between features of different nodes by constructing feature graphs and improving aggregate node-level representation. To achieve lower complexity defense applied to various graph classification models, EGC$^2$ utilizes a centrality-based edge importance index to compress graphs, filtering out trivial structures and even adversarial perturbations of the input graphs, thus improves its robustness. Experiments on seven benchmark datasets demonstrate that the proposed feature read-out and graph compression mechanisms enhance the robustness of various basic models, thus achieving the state-of-the-art performance of accuracy and robustness in the threat of different adversarial attacks.
翻訳日:2021-07-19 21:47:15 公開日:2021-07-16
# (参考訳) MS-MDA:クロスオブジェクトとクロスセッション脳波の感情認識のためのマルチソース・マージナル分布適応 [全文訳有]

MS-MDA: Multisource Marginal Distribution Adaptation for Cross-subject and Cross-session EEG Emotion Recognition ( http://arxiv.org/abs/2107.07740v1 )

ライセンス: CC BY 4.0
Hao Chen, Ming Jin, Zhunan Li, Cunhang Fan, Jinpeng Li and Huiguang He(参考訳) 精神疾患の診断とリハビリに欠かせない要素として、脳波に基づく感情認識(EEG)は、高い精度と信頼性のために大きな進歩を遂げている。 しかし、実用性への障害の1つは、主題とセッション間のばらつきにある。 この問題を解決するためにいくつかの研究がドメイン適応(DA)アプローチを採用しているが、そのほとんどは異なる主題やセッションからの複数のEEGデータを単一のソースドメインとして扱い、ソースが一定の限界分布を持つというドメイン適応の仮定を満たさないか、適応の困難を増すかのいずれかである。 そこで我々は,脳波感情認識のためのマルチソース境界分布適応法(MS-MDA)を提案する。 まず、異なるEEGデータが同じ低レベルな特徴を共有していると仮定し、複数のEEGデータソースドメインに対して独立したブランチを構築して、1対1のドメイン適応を採用し、ドメイン固有の特徴を抽出する。 最後に、推論は複数のブランチによって行われる。 3つの感情を認識するためのseed-ivとseed-ivの評価を行った。 実験の結果,MS-MDAは,我々の設定におけるクロスセッションおよびクロスオブジェクト転送シナリオにおいて,比較手法と最先端モデルよりも優れていた。 https://github.com/V oiceBeer/MS-MDA

As an essential element for the diagnosis and rehabilitation of psychiatric disorders, the electroencephalogram (EEG) based emotion recognition has achieved significant progress due to its high precision and reliability. However, one obstacle to practicality lies in the variability between subjects and sessions. Although several studies have adopted domain adaptation (DA) approaches to tackle this problem, most of them treat multiple EEG data from different subjects and sessions together as a single source domain for transfer, which either fails to satisfy the assumption of domain adaptation that the source has a certain marginal distribution, or increases the difficulty of adaptation. We therefore propose the multi-source marginal distribution adaptation (MS-MDA) for EEG emotion recognition, which takes both domain-invariant and domain-specific features into consideration. First, we assume that different EEG data share the same low-level features, then we construct independent branches for multiple EEG data source domains to adopt one-to-one domain adaptation and extract domain-specific features. Finally, the inference is made by multiple branches. We evaluate our method on SEED and SEED-IV for recognizing three and four emotions, respectively. Experimental results show that the MS-MDA outperforms the comparison methods and state-of-the-art models in cross-session and cross-subject transfer scenarios in our settings. Codes at https://github.com/V oiceBeer/MS-MDA.
翻訳日:2021-07-19 21:18:27 公開日:2021-07-16
# (参考訳) 生成モデルにおける公平性の測定 [全文訳有]

Measuring Fairness in Generative Models ( http://arxiv.org/abs/2107.07754v1 )

ライセンス: CC BY 4.0
Christopher T.H Teo and Ngai-Man Cheung(参考訳) 深層生成モデルによって、トレーニングの安定性と生成データの質が向上する。 近年,深層データに対する公平性への関心が高まっている。 公平性は多くのアプリケーションにおいて重要である。 法執行機関は 偏見が効果に影響を与える 公正データ生成の中心は、異なる生成モデルの評価と評価のための公正度指標である。 本稿では,先行研究で提案した公平度指標をまずレビューし,潜在的な弱点を明らかにする。 次に、代替メトリクスの評価とともにパフォーマンスベンチマークフレームワークについて議論する。

Deep generative models have made much progress in improving training stability and quality of generated data. Recently there has been increased interest in the fairness of deep-generated data. Fairness is important in many applications, e.g. law enforcement, as biases will affect efficacy. Central to fair data generation are the fairness metrics for the assessment and evaluation of different generative models. In this paper, we first review fairness metrics proposed in previous works and highlight potential weaknesses. We then discuss a performance benchmark framework along with the assessment of alternative metrics.
翻訳日:2021-07-19 20:58:15 公開日:2021-07-16
# (参考訳) 初期化のエントロピー的代替 [全文訳有]

Entropic alternatives to initialization ( http://arxiv.org/abs/2107.07757v1 )

ライセンス: CC BY 4.0
Daniele Musso(参考訳) 局所エントロピー損失関数は、アーキテクチャ認識正規化手順を定義するための汎用フレームワークを提供する。 シナプス空間における異方性の可能性に加えて、損失関数の局所的なエントロピー滑らか化は訓練中に変化し、調整可能なモデル複雑性をもたらす。 トレーニングの初期段階で正規化が強く、その後徐々にフェードアウトするスコーピングプロトコルは、ディープ畳み込みニューラルネットワークの標準的な初期化手順の代替となるが、それでもより広い適用性を有する。 統計物理学と情報理論の言語における異方的局所的エントロピーな平滑化を解析し,その解釈と働きの両方について洞察を与える。 我々は、再正規化の物理と畳み込みネットワークの時空構造に関するいくつかの側面を論じる。

Local entropic loss functions provide a versatile framework to define architecture-aware regularization procedures. Besides the possibility of being anisotropic in the synaptic space, the local entropic smoothening of the loss function can vary during training, thus yielding a tunable model complexity. A scoping protocol where the regularization is strong in the early-stage of the training and then fades progressively away constitutes an alternative to standard initialization procedures for deep convolutional neural networks, nonetheless, it has wider applicability. We analyze anisotropic, local entropic smoothenings in the language of statistical physics and information theory, providing insight into both their interpretation and workings. We comment some aspects related to the physics of renormalization and the spacetime structure of convolutional networks.
翻訳日:2021-07-19 20:44:49 公開日:2021-07-16
# (参考訳) Know Deeper:オープンドメイン対話生成のための知識対話サイクル利用メカニズム [全文訳有]

Know Deeper: Knowledge-Conversati on Cyclic Utilization Mechanism for Open-domain Dialogue Generation ( http://arxiv.org/abs/2107.07771v1 )

ライセンス: CC BY 4.0
Yajing Sun, Yue Hu, Luxi Xing, Yuqiang Xie, Xiangpeng Wei(参考訳) エンドツーエンドのインテリジェントなニューラルダイアログシステムは、一貫性のない繰り返し応答を生成する問題に悩まされる。 既存の対話モデルは、一方的に個人的知識を対話に取り入れることに注意を払い、一方的個性に関連した会話情報を、二者間情報フローがその後の会話の質を高めると捉えた個人的知識に組み込むという事実を無視している。 また,会話レベルでの個人的知識利用の制御も不可欠である。 本稿では,会話の一貫性の向上と2つの折りたたみによる反復の緩和を目的とした,会話適応型多視点人格認識応答生成モデルを提案する。 まず,複数の視点から会話の一貫性を検討する。 ペルソナプロファイルの視点から,パーソナライズされた知識を各会話に反復的に取り入れるだけでなく,会話からパーソナライズされた情報を取り込んで,パーソナライズされた知識意味表現を強化する新たなインタラクションモジュールをデザインする。 発話スタイルの観点からは、スピーキングスタイルベクトルを導入し、スピーキングスタイルの一貫性を保つためにデコーダに供給する。 会話の繰り返しを避けるために,個人の知識利用の活性化を追跡するためのカバレッジメカニズムを考案する。 自動評価と人的評価の両方の実験は、過去のモデルよりもモデルの優位性を検証する。

End-to-End intelligent neural dialogue systems suffer from the problems of generating inconsistent and repetitive responses. Existing dialogue models pay attention to unilaterally incorporating personal knowledge into the dialog while ignoring the fact that incorporating the personality-related conversation information into personal knowledge taken as the bilateral information flow boosts the quality of the subsequent conversation. Besides, it is indispensable to control personal knowledge utilization over the conversation level. In this paper, we propose a conversation-adaptio n multi-view persona aware response generation model that aims at enhancing conversation consistency and alleviating the repetition from two folds. First, we consider conversation consistency from multiple views. From the view of the persona profile, we design a novel interaction module that not only iteratively incorporates personalized knowledge into each turn conversation but also captures the personality-related information from conversation to enhance personalized knowledge semantic representation. From the view of speaking style, we introduce the speaking style vector and feed it into the decoder to keep the speaking style consistency. To avoid conversation repetition, we devise a coverage mechanism to keep track of the activation of personal knowledge utilization. Experiments on both automatic and human evaluation verify the superiority of our model over previous models.
翻訳日:2021-07-19 20:29:58 公開日:2021-07-16
# (参考訳) DoReMi: ユニバーサルなOMRデータセットを初めて見る [全文訳有]

DoReMi: First glance at a universal OMR dataset ( http://arxiv.org/abs/2107.07786v1 )

ライセンス: CC BY 4.0
Elona Shatri and Gy\"orgy Fazekas(参考訳) 光音楽認識(omr)の主な課題は、文章音楽の性質、その複雑さ、適切なデータ表現を見つけることの難しさである。 本稿では,これらの課題に対処するOMRデータセットであるDoReMiと,その有用性を評価するためのベースラインオブジェクト検出モデルについて述べる。 研究者はしばしば、既存のデータがより広範な研究を満足していないため、小さな段階の後にOMRにアプローチする。 メタデータをより多く提示することで、この傾向を変える可能性を検討する。 したがって、DoReMiは2つの既存のデータセット、DeepScoresとMUSCIMA++との調和を可能にする。 DoReMiは音楽表記ソフトウェアを用いて生成され、OMR研究に有用なメタデータを備えた6400枚のプリントされた楽譜を含む。 我々のデータセットはOMRメタデータ、MIDI、MEI、MusicXML、PNGファイルを提供し、それぞれがOMRの異なるステージを支援する。 データの半分を用いた物体検出において平均平均精度(mAP)は64%であった。 さらに作業には、カスタムのOMRモデルを満たすために、作成プロセスを通じて再設定も含まれる。 OMRの主な課題を解決したとは思っていませんが、このデータセットは最終的にその目標に役立つ、新たな議論のコースを開きます。

The main challenges of Optical Music Recognition (OMR) come from the nature of written music, its complexity and the difficulty of finding an appropriate data representation. This paper provides a first look at DoReMi, an OMR dataset that addresses these challenges, and a baseline object detection model to assess its utility. Researchers often approach OMR following a set of small stages, given that existing data often do not satisfy broader research. We examine the possibility of changing this tendency by presenting more metadata. Our approach complements existing research; hence DoReMi allows harmonisation with two existing datasets, DeepScores and MUSCIMA++. DoReMi was generated using a music notation software and includes over 6400 printed sheet music images with accompanying metadata useful in OMR research. Our dataset provides OMR metadata, MIDI, MEI, MusicXML and PNG files, each aiding a different stage of OMR. We obtain 64% mean average precision (mAP) in object detection using half of the data. Further work includes re-iterating through the creation process to satisfy custom OMR models. While we do not assume to have solved the main challenges in OMR, this dataset opens a new course of discussions that would ultimately aid that goal.
翻訳日:2021-07-19 20:19:24 公開日:2021-07-16
# (参考訳) IoTデバイス識別の再検討 [全文訳有]

Revisiting IoT Device Identification ( http://arxiv.org/abs/2107.07818v1 )

ライセンス: CC BY 4.0
Roman Kolcun, Diana Andreea Popescu, Vadim Safronov, Poonam Yadav, Anna Maria Mandalari, Richard Mortier, Hamed Haddadi(参考訳) Internet-of-Things(I oT)デバイスは多くのセキュリティ問題の原因として知られており、自動化された管理の恩恵を受けるだろう。 これは、適切なネットワークセキュリティポリシーを適用するために、ロバストなデバイス識別を必要とする。 他の研究者が提案したアプローチを活用しながら、ネットワークの振る舞いに基づいてIoTデバイスを正確に識別する方法を検討することで、この問題に対処する。 これまで提案してきた4種類の機械学習モデル(ツリーベースとニューラルネットワークベース)の精度をiotデバイス識別のために比較した。 大規模なiotテストベッドから6ヶ月にわたって収集されたパケットトレースデータを使用する。 トレーニングしたモデルと同じデータセットで評価すると,すべてのモデルで高い精度が得られたが,トレーニングセット外のデータに基づいて評価すると,その精度は経時的に低下する。 モデルの平均精度は、数週間後に最大40パーセンテージ(平均12パーセンテージから21パーセンテージ)で低下する。 モデルの精度を高いレベルに保つためには、これらを継続的に更新する必要がある、と我々は主張する。

Internet-of-Things (IoT) devices are known to be the source of many security problems, and as such, they would greatly benefit from automated management. This requires robustly identifying devices so that appropriate network security policies can be applied. We address this challenge by exploring how to accurately identify IoT devices based on their network behavior, while leveraging approaches previously proposed by other researchers. We compare the accuracy of four different previously proposed machine learning models (tree-based and neural network-based) for identifying IoT devices. We use packet trace data collected over a period of six months from a large IoT test-bed. We show that, while all models achieve high accuracy when evaluated on the same dataset as they were trained on, their accuracy degrades over time, when evaluated on data collected outside the training set. We show that on average the models' accuracy degrades after a couple of weeks by up to 40 percentage points (on average between 12 and 21 percentage points). We argue that, in order to keep the models' accuracy at a high level, these need to be continuously updated.
翻訳日:2021-07-19 20:10:18 公開日:2021-07-16
# (参考訳) カルトサットDEMのグラニュロメトリーに基づく粗さ対策の理論解析 [全文訳有]

A Theoretical Analysis of Granulometry-based Roughness Measures on Cartosat DEMs ( http://arxiv.org/abs/2107.07827v1 )

ライセンス: CC BY 4.0
Nagajothi Kannan, Sravan Danda, Aditya Challa, and Daya Sagar B S(参考訳) 河川などの水域の研究は、リモートセンシングコミュニティにおいて重要な問題である。 物理特性を反映した有意義な量的特徴は、河川の形成と進化をよりよく理解するのに役立ちます。 通常、河川のサブベースはカルトサット・デジタル標高モデル (Cartosat Digital Elevation Models, DEMs) を用いて解析される。 河川サブベースで有用な地質学的特徴の1つは、DEMの粗さの測定値である。 しかし、我々の知る限りでは、粗さ測定の理論的分析に関する文献はほとんどない。 本稿では,数理形態学における多スケールグラニュロメトリー(MDGI)を応用したDEMデータの粗さ尺度を再検討する。 この尺度は、グレースケール画像の形状解析に古典的に用いられた。 初期の研究において, MDGIは, 特定の方向に沿って河川サブバスンの特徴的な表面粗さを捉えるために導入された。 また, MDGIsを効率的に計算し, 河川サブバスンの分類に有用であることが知られている。 本稿ではMDGIの理論的解析について述べる。 特に、MDGIが不変であるDEMの構造について、非自明な十分条件を特徴づける。 これらの性質は、いくつかの架空のDEMで示される。 また、DEMの体積の離散微分への接続も提供する。 これらの関係に基づき,MDGIを粗さ尺度とみなす理由を直感的に考察する。 さらに,下流域,ウォーダ川,バーマー川サブベースについて,提案手法がサブベースの特性を捉えていることを示す実験を行った。

The study of water bodies such as rivers is an important problem in the remote sensing community. A meaningful set of quantitative features reflecting the geophysical properties help us better understand the formation and evolution of rivers. Typically, river sub-basins are analysed using Cartosat Digital Elevation Models (DEMs), obtained at regular time epochs. One of the useful geophysical features of a river sub-basin is that of a roughness measure on DEMs. However, to the best of our knowledge, there is not much literature available on theoretical analysis of roughness measures. In this article, we revisit the roughness measure on DEM data adapted from multiscale granulometries in mathematical morphology, namely multiscale directional granulometric index (MDGI). This measure was classically used to obtain shape-size analysis in greyscale images. In earlier works, MDGIs were introduced to capture the characteristic surficial roughness of a river sub-basin along specific directions. Also, MDGIs can be efficiently computed and are known to be useful features for classification of river sub-basins. In this article, we provide a theoretical analysis of a MDGI. In particular, we characterize non-trivial sufficient conditions on the structure of DEMs under which MDGIs are invariant. These properties are illustrated with some fictitious DEMs. We also provide connections to a discrete derivative of volume of a DEM. Based on these connections, we provide intuition as to why a MDGI is considered a roughness measure. Further, we experimentally illustrate on Lower-Indus, Wardha, and Barmer river sub-basins that the proposed features capture the characteristics of the river sub-basin.
翻訳日:2021-07-19 19:53:44 公開日:2021-07-16
# (参考訳) 高次元マルチタスク回帰におけるchi-squareと正規推論

Chi-square and normal inference in high-dimensional multi-task regression ( http://arxiv.org/abs/2107.07828v1 )

ライセンス: CC BY 4.0
Pierre C Bellec, Gabriel Romon(参考訳) 本論文は,マルチタスク(mt)線形モデルにおける未知係数行列 $b^*$ of size $p\times t$,$p$ covariates, $t$ tasks, $n$ observations に対するchi-squareおよび正規推定手法を提案する。 row-sparsity $s$, dimension $p$, and number of tasks $t$は$n$で成長することができる。 高次元のレジーム $p\ggg n$ では、行スパーシティを活用するために MT Lasso を考える。 我々は、刑罰によって引き起こされる偏見を正すため、脱バイアス方式でMTラッソの上に構築する。 このスキームでは、異なるタスクにおけるノイズベクトルと残差の効果的な相関をキャプチャする、相互作用行列と呼ばれる新しいデータ駆動オブジェクトを導入する必要がある。 この行列は psd で、$T\times T$ であり、効率的に計算できる。 相互作用行列は、ガウス設計の下での漸近正規と$\chi^2_T$の結果とフロベニウスノルムの一貫性に対応する$\frac{sT+s\log(p/s)}{n}\to0$を導出する。 これらの漸近分布の結果は、単一のエントリに対して$B^*$と、既知の設計共分散に対して$B^*$の単一行に対して有効な信頼楕円体に対して$Sigma$である。 While previous proposals in grouped-variables regression require row-sparsity $s\lesssim\sqrt n$ up to constants depending on $T$ and logarithmic factors in $n,p$, the de-biasing scheme using the interaction matrix provides confidence intervals and $\chi^2_T$ confidence ellipsoids under the conditions ${\min(T^2,\log^8p)}/{n}\to 0$ and $$ \frac{sT+s\log(p/s)+\|\Sigma^{-1}e_j\|_0\log p}{n}\to0, \quad \frac{\min(s,\|\Sigma^{-1}e_j\|_0)}{\sqrt n} \sqrt{[T+\log(p/s)]\log p}\to 0, $$ allowing row-sparsity $s\ggg\sqrt n$ when $\|\Sigma^{-1}e_j\|_0 \sqrt T\lll \sqrt{n}$ up to logarithmic factors.

The paper proposes chi-square and normal inference methodologies for the unknown coefficient matrix $B^*$ of size $p\times T$ in a Multi-Task (MT) linear model with $p$ covariates, $T$ tasks and $n$ observations under a row-sparse assumption on $B^*$. The row-sparsity $s$, dimension $p$ and number of tasks $T$ are allowed to grow with $n$. In the high-dimensional regime $p\ggg n$, in order to leverage row-sparsity, the MT Lasso is considered. We build upon the MT Lasso with a de-biasing scheme to correct for the bias induced by the penalty. This scheme requires the introduction of a new data-driven object, coined the interaction matrix, that captures effective correlations between noise vector and residuals on different tasks. This matrix is psd, of size $T\times T$ and can be computed efficiently. The interaction matrix lets us derive asymptotic normal and $\chi^2_T$ results under Gaussian design and $\frac{sT+s\log(p/s)}{n}\to0$ which corresponds to consistency in Frobenius norm. These asymptotic distribution results yield valid confidence intervals for single entries of $B^*$ and valid confidence ellipsoids for single rows of $B^*$, for both known and unknown design covariance $\Sigma$. While previous proposals in grouped-variables regression require row-sparsity $s\lesssim\sqrt n$ up to constants depending on $T$ and logarithmic factors in $n,p$, the de-biasing scheme using the interaction matrix provides confidence intervals and $\chi^2_T$ confidence ellipsoids under the conditions ${\min(T^2,\log^8p)}/{n}\to 0$ and $$ \frac{sT+s\log(p/s)+\|\Sigma^{-1}e_j\|_0\log p}{n}\to0, \quad \frac{\min(s,\|\Sigma^{-1}e_j\|_0)}{\sqrt n} \sqrt{[T+\log(p/s)]\log p}\to 0, $$ allowing row-sparsity $s\ggg\sqrt n$ when $\|\Sigma^{-1}e_j\|_0 \sqrt T\lll \sqrt{n}$ up to logarithmic factors.
翻訳日:2021-07-19 19:40:30 公開日:2021-07-16
# (参考訳) 論文推薦システムにおけるユーザ行動のモデル化 [全文訳有]

Modeling User Behaviour in Research Paper Recommendation System ( http://arxiv.org/abs/2107.07831v1 )

ライセンス: CC BY 4.0
Arpita Chaudhuri, Debasis Samanta, Monalisa Sarma(参考訳) 動的に変化するユーザの意図は、レコメンデーションシステムの設計において、ユーザをモデリングする上で重要な要素であると考えられている。 最近の研究は、ユーザーの好み(ユーザーが好きなもの)を超えて、ユーザーの意図(ユーザーが望むもの)を予測することに焦点が当てられている。 そこで本研究では,より深い逐次的話題分析に基づくユーザ意図モデルを提案する。 モデルは、興味のあるトピックの観点から、ユーザの意図を予測する。 The Hybrid Topic Model (HTM) consistnt Dirichlet Allocation (LDA) and Word2Vec is proposed to derived the topic of interest of users and the history of preferences。 htmは、単語間の構文的および意味的相関を含む単語話題分布を推定する論文の真の話題を見つける。 次に,ユーザの意図をモデル化するために,長期記憶(lstm)に基づく逐次ディープラーニングモデルを提案する。 このモデルは、時間的文脈、すなわちユーザーが目にする2つの連続する論文のクリック間の時間差を考慮している。 実世界の論文データセットを用いた広範な実験は、提案されたアプローチが最先端の手法を大きく上回っていることを示している。 さらに,提案手法では,研究論文推薦システムの設計に適したユーザアクティビティをモデル化する新たなロードマップを提案する。

User intention which often changes dynamically is considered to be an important factor for modeling users in the design of recommendation systems. Recent studies are starting to focus on predicting user intention (what users want) beyond user preference (what users like). In this work, a user intention model is proposed based on deep sequential topic analysis. The model predicts a user's intention in terms of the topic of interest. The Hybrid Topic Model (HTM) comprising Latent Dirichlet Allocation (LDA) and Word2Vec is proposed to derive the topic of interest of users and the history of preferences. HTM finds the true topics of papers estimating word-topic distribution which includes syntactic and semantic correlations among words. Next, to model user intention, a Long Short Term Memory (LSTM) based sequential deep learning model is proposed. This model takes into account temporal context, namely the time difference between clicks of two consecutive papers seen by a user. Extensive experiments with the real-world research paper dataset indicate that the proposed approach significantly outperforms the state-of-the-art methods. Further, the proposed approach introduces a new road map to model a user activity suitable for the design of a research paper recommendation system.
翻訳日:2021-07-19 19:38:16 公開日:2021-07-16
# (参考訳) 明示的なアライメント推定を伴わないプログレッシブディープビデオデハジング [全文訳有]

Progressive Deep Video Dehazing without Explicit Alignment Estimation ( http://arxiv.org/abs/2107.07837v1 )

ライセンス: CC BY 4.0
Runde Li(参考訳) ビデオデハージングの問題を解決するために、隣接するフレームを基準フレームに合わせる方法、参照フレームを復元する方法の2つの主要なタスクが達成される。 一部の論文では、マルコフランダム場、光学フロー、変形可能な畳み込み、3D畳み込みといった明示的なアプローチを採用して、特徴空間や画像空間における参照フレームと隣り合うフレームを整列させ、最終的な退化結果を達成するために様々な復元手法を用いる。 本稿では,ビデオデハージングのための進行的アライメントと復元手法を提案する。 このアライメントプロセスは、光フロー推定を使わずに連続する隣接フレームステージを段階的に整列する。 復元プロセスはアライメントプロセス下で実施されるだけでなく、改良ネットワークを使用してネットワーク全体の脱ハージング性能を向上させる。 提案ネットワークは4つの融合ネットワークと1つの改良ネットワークを含む。 ネットワークのパラメータを減らすために、第1の融合段階における3つの融合ネットワークは同じパラメータを共有する。 広汎な実験により,提案手法は最先端の手法に対して優れた性能を発揮することが示された。

To solve the issue of video dehazing, there are two main tasks to attain: how to align adjacent frames to the reference frame; how to restore the reference frame. Some papers adopt explicit approaches (e.g., the Markov random field, optical flow, deformable convolution, 3D convolution) to align neighboring frames with the reference frame in feature space or image space, they then use various restoration methods to achieve the final dehazing results. In this paper, we propose a progressive alignment and restoration method for video dehazing. The alignment process aligns consecutive neighboring frames stage by stage without using the optical flow estimation. The restoration process is not only implemented under the alignment process but also uses a refinement network to improve the dehazing performance of the whole network. The proposed networks include four fusion networks and one refinement network. To decrease the parameters of networks, three fusion networks in the first fusion stage share the same parameters. Extensive experiments demonstrate that the proposed video dehazing method achieves outstanding performance against the-state-of-art methods.
翻訳日:2021-07-19 19:24:35 公開日:2021-07-16
# (参考訳) 知識グラフ埋め込みに関する調査とその応用 [全文訳有]

A Survey of Knowledge Graph Embedding and Their Applications ( http://arxiv.org/abs/2107.07842v1 )

ライセンス: CC BY 4.0
Shivani Choudhary, Tarun Luthra, Ashima Mittal, Rajat Singh(参考訳) 知識グラフ埋め込みは知識を表現するための多用途技術を提供する。 これらの技術は知識グラフの完成など,不足情報予測やレコメンダシステム,質問応答,クエリ拡張など,さまざまなアプリケーションで使用することができる。 構造化されているものの、知識グラフに埋め込まれた情報は、現実世界のアプリケーションでの使用が困難である。 知識グラフの埋め込みにより、現実世界のアプリケーションが情報を消費してパフォーマンスを向上させることができる。 知識グラフ埋め込みは活発な研究分野である。 組込み方式の多くは構造に基づく情報に重点を置いている。 近年の研究では、テキストベースの情報と画像ベースの情報をエンティティ埋め込みに含めるように境界を広げている。 文脈情報による表現を強化する努力がなされている。 本稿では、単純な翻訳モデルからリッチメントモデルへのKG埋め込みの分野の成長を紹介する。 本稿では実世界のアプリケーションにおける知識グラフの有用性について述べる。

Knowledge Graph embedding provides a versatile technique for representing knowledge. These techniques can be used in a variety of applications such as completion of knowledge graph to predict missing information, recommender systems, question answering, query expansion, etc. The information embedded in Knowledge graph though being structured is challenging to consume in a real-world application. Knowledge graph embedding enables the real-world application to consume information to improve performance. Knowledge graph embedding is an active research area. Most of the embedding methods focus on structure-based information. Recent research has extended the boundary to include text-based information and image-based information in entity embedding. Efforts have been made to enhance the representation with context information. This paper introduces growth in the field of KG embedding from simple translation-based models to enrichment-based models. This paper includes the utility of the Knowledge graph in real-world applications.
翻訳日:2021-07-19 19:08:16 公開日:2021-07-16
# (参考訳) 高速学習による可変モジュール型ニューラルロコモーション制御

Versatile modular neural locomotion control with fast learning ( http://arxiv.org/abs/2107.07844v1 )

ライセンス: CC BY 4.0
Mathias Thor, Poramate Manoonpong(参考訳) 脚のあるロボットは、高度に非構造な環境で作動する大きな可能性を秘めている。 しかし、移動制御の設計は依然として難しい。 現在、コントローラーは特定のロボットやタスクのために手動で設計するか、長いトレーニング時間と大きな不透明なコントローラを必要とする機械学習メソッドで自動的に設計されなければならない。 動物の動きからインスピレーションを得て,高速学習によるシンプルかつ多目的なモジュラーニューラルコントロール構造を提案する。 このアプローチの主な利点は、行動特異的な制御モジュールを漸進的に追加して、より複雑な緊急移動動作を得ることができ、既存のモジュールと対面する神経接続を迅速かつ自動的に学習できることです。 一連の実験で、8つのモジュールを迅速に学習し、ベースコントロールモジュールに追加することで、ヘキサポッドロボットが複雑な環境でナビゲートできる創発的適応行動を得る方法を示した。 また、残りのコントローラの機能に影響を与えることなく、操作中にモジュールの追加や削除ができることを示す。 最後に、物理的な六足歩行ロボットで制御手法が実証された。 本研究は,複合ロボットシステムのための多目的神経移動制御の高速自動設計に向けた重要なステップを明らかにする。

Legged robots have significant potential to operate in highly unstructured environments. The design of locomotion control is, however, still challenging. Currently, controllers must be either manually designed for specific robots and tasks, or automatically designed via machine learning methods that require long training times and yield large opaque controllers. Drawing inspiration from animal locomotion, we propose a simple yet versatile modular neural control structure with fast learning. The key advantages of our approach are that behavior-specific control modules can be added incrementally to obtain increasingly complex emergent locomotion behaviors, and that neural connections interfacing with existing modules can be quickly and automatically learned. In a series of experiments, we show how eight modules can be quickly learned and added to a base control module to obtain emergent adaptive behaviors allowing a hexapod robot to navigate in complex environments. We also show that modules can be added and removed during operation without affecting the functionality of the remaining controller. Finally, the control approach was successfully demonstrated on a physical hexapod robot. Taken together, our study reveals a significant step towards fast automatic design of versatile neural locomotion control for complex robotic systems.
翻訳日:2021-07-19 18:56:33 公開日:2021-07-16
# (参考訳) 意味とロバストなアルゴリズムに関する因果的視点 [全文訳有]

A Causal Perspective on Meaningful and Robust Algorithmic Recourse ( http://arxiv.org/abs/2107.07853v1 )

ライセンス: CC BY-SA 4.0
Gunnar K\"onig, Timo Freiesleben, Moritz Grosse-Wentrup(参考訳) アルゴリズムによる説明は、好ましくない予測を逆転する方法を利害関係者に通知する。 しかし、一般的にMLモデルは介入分布においてうまく予測できない。 したがって、望ましい方法で予測を変更するアクションは、基盤となるターゲットの改善に繋がることはないかもしれない。 このようなリコースは、モデル修正にとって有意義でもロバストでもない。 karimiらによる作品の拡張。 (2021) 予測と目標の両方を改善する行動のみを推奨する有意義なアルゴリズム・リコース(MAR)を提案する。 この選択制約を、モデル監査と意味のある行動可能な説明の違いを強調して正当化する。 さらに, ある仮定の下では, 対象の因果に対する介入のみを許すことで, 有意義な言動が得られる, 効果的なアルゴリズム・リコース(EAR)と呼ばれるMARの緩和を導入する。

Algorithmic recourse explanations inform stakeholders on how to act to revert unfavorable predictions. However, in general ML models do not predict well in interventional distributions. Thus, an action that changes the prediction in the desired way may not lead to an improvement of the underlying target. Such recourse is neither meaningful nor robust to model refits. Extending the work of Karimi et al. (2021), we propose meaningful algorithmic recourse (MAR) that only recommends actions that improve both prediction and target. We justify this selection constraint by highlighting the differences between model audit and meaningful, actionable recourse explanations. Additionally, we introduce a relaxation of MAR called effective algorithmic recourse (EAR), which, under certain assumptions, yields meaningful recourse by only allowing interventions on causes of the target.
翻訳日:2021-07-19 18:55:24 公開日:2021-07-16
# (参考訳) Metric Learning を用いた遺伝子組み換えDNAの分類 [全文訳有]

Ranking labs-of-origin for genetically engineered DNA using Metric Learning ( http://arxiv.org/abs/2107.07878v1 )

ライセンス: CC BY 4.0
I. Muniz, F. H. F. Camargo and A. Marques(参考訳) 遺伝子工学の絶え間ない進歩により、共通の関心事は遺伝子組み換えDNAシークエンスを同定できることである。 そのため、AltLabsは遺伝子工学属性チャレンジを開催し、多くのチームを集めてこの問題を解決する新しいツールを提案している。 ここでは、最も可能性の高い実験室をランク付けし、DNA配列と実験室の埋め込みを生成する方法を示す。 これらの埋め込みは、DNA配列とラボの両方をクラスタリングしたり、他の問題を解決するために機械学習モデルの機能として使用するなど、さまざまなタスクを実行することもできる。 本研究は,本手法が他の有用な情報を生成しつつ,従来の学習方法よりも優れていることを示す。

With the constant advancements of genetic engineering, a common concern is to be able to identify the lab-of-origin of genetically engineered DNA sequences. For that reason, AltLabs has hosted the genetic Engineering Attribution Challenge to gather many teams to propose new tools to solve this problem. Here we show our proposed method to rank the most likely labs-of-origin and generate embeddings for DNA sequences and labs. These embeddings can also perform various other tasks, like clustering both DNA sequences and labs and using them as features for Machine Learning models applied to solve other problems. This work demonstrates that our method outperforms the classic training method for this task while generating other helpful information.
翻訳日:2021-07-19 18:45:54 公開日:2021-07-16
# (参考訳) single pass entrywise-transforme d low rank approximation [全文訳有]

Single Pass Entrywise-Transforme d Low Rank Approximation ( http://arxiv.org/abs/2107.07889v1 )

ライセンス: CC BY 4.0
Yifei Jiang, Yi Li, Yiming Sun, Jiaxin Wang, David P. Woodruff(参考訳) 自然言語処理やコンピュータビジョンのようなアプリケーションでは、大きな$n \times d$ matrix $a = (a_{i,j})$ が与えられ、行列分解(例えば、低ランク近似)の関数 $f(a) = (f(a_{i,j}))$ の計算が求められる。 非常に重要な特殊ケースは、可能性関数 $f\left(A \right ) = \log{\left( \left| a_{ij}\right| +1\right)}$ である。 これを行う自然な方法は、単に$a$の各エントリに$f$を適用して、行列の分解を計算することであるが、これは$a$のすべてと複数のエントリへのパスを格納する必要がある。 Liang et al.\ の最近の研究は、$f(A)$ for a $n \times n$ matrix $A$ using only $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory, with overall error $10\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_{1,2}^2$, where $[f(A)]_k$ is the best rank-k$approximation to $f(A)$ and $\|f(A)\|_{1,2}^2$ square of the sum of the row of $f(A)$2$であることを示している。 彼らのアルゴリズムは$a$のエントリを3回パスする。 著者らは、$n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$$A$のエントリを1回だけパスするだけで、アルゴリズムを得るというオープンな疑問を提起する。 本稿では,この問題に対する最初のシングルパスアルゴリズムと,Liangらによって研究された関数のクラス$f$について,このオープンな問題を解く。 さらに、我々の誤差は $\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_F^2$, ここで $\|f(A)\|_F^2$ は$f(A)$の行のユークリッド長の平方の和である。 したがって、この誤差は10$と$\|f(A)\|_F^2 \leq \|f(A)\|_{1,2}^2$の係数を除去するので、かなり小さい。 また、前回の作業でエラーを指摘して回帰のアルゴリズムを与え、その結果を実証的に検証する。

In applications such as natural language processing or computer vision, one is given a large $n \times d$ matrix $A = (a_{i,j})$ and would like to compute a matrix decomposition, e.g., a low rank approximation, of a function $f(A) = (f(a_{i,j}))$ applied entrywise to $A$. A very important special case is the likelihood function $f\left( A \right ) = \log{\left( \left| a_{ij}\right| +1\right)}$. A natural way to do this would be to simply apply $f$ to each entry of $A$, and then compute the matrix decomposition, but this requires storing all of $A$ as well as multiple passes over its entries. Recent work of Liang et al.\ shows how to find a rank-$k$ factorization to $f(A)$ for an $n \times n$ matrix $A$ using only $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory, with overall error $10\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_{1,2}^2$, where $[f(A)]_k$ is the best rank-$k$ approximation to $f(A)$ and $\|f(A)\|_{1,2}^2$ is the square of the sum of Euclidean lengths of rows of $f(A)$. Their algorithm uses three passes over the entries of $A$. The authors pose the open question of obtaining an algorithm with $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory using only a single pass over the entries of $A$. In this paper we resolve this open question, obtaining the first single-pass algorithm for this problem and for the same class of functions $f$ studied by Liang et al. Moreover, our error is $\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_F^2$, where $\|f(A)\|_F^2$ is the sum of squares of Euclidean lengths of rows of $f(A)$. Thus our error is significantly smaller, as it removes the factor of $10$ and also $\|f(A)\|_F^2 \leq \|f(A)\|_{1,2}^2$. We also give an algorithm for regression, pointing out an error in previous work, and empirically validate our results.
翻訳日:2021-07-19 18:39:48 公開日:2021-07-16
# (参考訳) 物体放射界の教師なし発見 [全文訳有]

Unsupervised Discovery of Object Radiance Fields ( http://arxiv.org/abs/2107.07905v1 )

ライセンス: CC BY 4.0
Hong-Xing Yu, Leonidas J. Guibas, Jiajun Wu(参考訳) 本研究では,1つの画像からオブジェクト中心のシーン表現を推定する問題について検討し,画像形成過程を説明する表現を導出し,シーンの3D特性を捉え,監督なしに学習する。 シーン分解における既存の手法の多くは、複雑な3D-to-2D画像生成プロセスをディープネットワークのような強力な推論手法に統合するという根本的な課題のために、これらの特徴を欠いている。 本稿では,物体放射場(uORF)の非教師的発見を提案し,ニューラル3次元シーン表現の最近の進歩と,教師なし3次元シーン分解のための深部推論ネットワークとのレンダリングを統合する。 アノテーションのないマルチビューRGBイメージに基づいて、uORFは複雑なシーンを1つの画像から多様でテクスチャ化された背景で分解することを学ぶ。 我々は,uORFが教師なしの3次元シーンセグメンテーション,新しいビュー合成,3つのデータセットのシーン編集に優れていることを示す。

We study the problem of inferring an object-centric scene representation from a single image, aiming to derive a representation that explains the image formation process, captures the scene's 3D nature, and is learned without supervision. Most existing methods on scene decomposition lack one or more of these characteristics, due to the fundamental challenge in integrating the complex 3D-to-2D image formation process into powerful inference schemes like deep networks. In this paper, we propose unsupervised discovery of Object Radiance Fields (uORF), integrating recent progresses in neural 3D scene representations and rendering with deep inference networks for unsupervised 3D scene decomposition. Trained on multi-view RGB images without annotations, uORF learns to decompose complex scenes with diverse, textured background from a single image. We show that uORF performs well on unsupervised 3D scene segmentation, novel view synthesis, and scene editing on three datasets.
翻訳日:2021-07-19 17:56:12 公開日:2021-07-16
# (参考訳) 畳み込み時間注意ネットワークを用いた衛星画像時系列のパンオプティカルセグメンテーション [全文訳有]

Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks ( http://arxiv.org/abs/2107.07933v1 )

ライセンス: CC BY 4.0
Vivien Sainte Fare Garnot and Loic Landrieu(参考訳) 前代未聞の衛星画像へのアクセスにより、様々な地球観測タスクの新しい視点が開けた。 その中でも、農業用パルセールの画素優先のパンオプティカルセグメンテーションは、経済的および環境的な影響が大きい。 研究者は単一の画像に対してこの問題を探求してきたが、作物表現学の複雑な時間パターンは画像の時間的シーケンスでよりうまく対処できると論じている。 本稿では,衛星画像時系列(SITS)のパノプティカルセグメンテーションのための,エンド・ツー・エンドの単一ステージ方式を提案する。 このモジュールは,時間的自己アテンションに依存する新たな画像シーケンス符号化ネットワークと組み合わせることで,リッチで適応的な複数スケールの時空間特徴を抽出できる。 PASTISは、パン光学アノテーションを用いた最初のオープンアクセスSITSデータセットである。 複数の競合するアーキテクチャに対するセマンティックセグメンテーションのためのエンコーダの優位性を実証し、sitsのpanopticセグメンテーションの最初の最先端を設定する。 私たちの実装とPASTISは公開されています。

Unprecedented access to multi-temporal satellite imagery has opened new perspectives for a variety of Earth observation tasks. Among them, pixel-precise panoptic segmentation of agricultural parcels has major economic and environmental implications. While researchers have explored this problem for single images, we argue that the complex temporal patterns of crop phenology are better addressed with temporal sequences of images. In this paper, we present the first end-to-end, single-stage method for panoptic segmentation of Satellite Image Time Series (SITS). This module can be combined with our novel image sequence encoding network which relies on temporal self-attention to extract rich and adaptive multi-scale spatio-temporal features. We also introduce PASTIS, the first open-access SITS dataset with panoptic annotations. We demonstrate the superiority of our encoder for semantic segmentation against multiple competing architectures, and set up the first state-of-the-art of panoptic segmentation of SITS. Our implementation and PASTIS are publicly available.
翻訳日:2021-07-19 17:40:22 公開日:2021-07-16
# (参考訳) 対人攻撃に対するフェイクニュースの自動検出法はどの程度脆弱か? [全文訳有]

How Vulnerable Are Automatic Fake News Detection Methods to Adversarial Attacks? ( http://arxiv.org/abs/2107.07970v1 )

ライセンス: CC BY 4.0
Camille Koenders, Johannes Filla, Nicolai Schneider, Vinicius Woloszyn(参考訳) 近年、インターネット上での偽情報の拡散が激化しており、偽ニュースの自動検出にますます注目が集まっている。 偽ニュース検出手法はすでにかなり成功している。 それでも、検出アルゴリズムにはまだ多くの脆弱性がある。 その理由は、偽ニュース発行者が、検出アルゴリズムが偽ニュースとしてこのテキストを公開しないように、そのテキストを構造化して定式化できるからだ。 本稿では,偽ニュースを検知するために訓練された最先端モデルを自動的に攻撃することで,これらを脆弱なものにすることができることを示す。 この目的のために、対応するモデルをデータセットに基づいてトレーニングした。 そして、テキスト攻撃を用いて、トレーニングされたモデルを、以前に正しく識別された偽ニュースを真のニュースとして分類するように操作する試みが行われた。 その結果,Fake Newsの検出メカニズムを自動で回避することができ,既存の政策イニシアチブに影響を及ぼす可能性が示唆された。

As the spread of false information on the internet has increased dramatically in recent years, more and more attention is being paid to automated fake news detection. Some fake news detection methods are already quite successful. Nevertheless, there are still many vulnerabilities in the detection algorithms. The reason for this is that fake news publishers can structure and formulate their texts in such a way that a detection algorithm does not expose this text as fake news. This paper shows that it is possible to automatically attack state-of-the-art models that have been trained to detect Fake News, making these vulnerable. For this purpose, corresponding models were first trained based on a dataset. Then, using Text-Attack, an attempt was made to manipulate the trained models in such a way that previously correctly identified fake news was classified as true news. The results show that it is possible to automatically bypass Fake News detection mechanisms, leading to implications concerning existing policy initiatives.
翻訳日:2021-07-19 17:19:41 公開日:2021-07-16
# (参考訳) west frisian の pos tagging, lemmatization および dependency parsing [全文訳有]

POS tagging, lemmatization and dependency parsing of West Frisian ( http://arxiv.org/abs/2107.07974v1 )

ライセンス: CC BY 4.0
Wilbert Heeringa, Gosse Bouma, Martha Hofman, Eduard Drenth, Jan Wijffels, Hans Van de Velde(参考訳) We present a lemmatizer/POS-tagge r/dependency parser for West Frisian using a corpus of 44,714 words in 3,126 sentences that was annotated by the Guidelines of Universal Dependency Version 2。 POSタグはオランダ語のPOSタグを用いて単語に割り当てられ、文字通りの単語単位の翻訳やオランダ語のパラレルテキストの文に適用される。 フリジア語訳プログラム Oersetter を用いて作成したリテラル翻訳を用いて、最良の結果を得た。 形態学的および構文的注釈は、文字通りのオランダ語訳にも基づいて作成された。 デフォルトパラメータを用いたトレーニング時のlemmatizer/tagger/an notatorの性能は、lassysmall ud 2.5コーパスのトレーニングに使用されたパラメータ値を使用して得られたパフォーマンスと比較した。 lemma'に対する大幅な改善が見られた。 Frisian lemmatizer/PoS tagger/dependency parserはWebアプリおよびWebサービスとしてリリースされた。

We present a lemmatizer/POS-tagge r/dependency parser for West Frisian using a corpus of 44,714 words in 3,126 sentences that were annotated according to the guidelines of Universal Dependency version 2. POS tags were assigned to words by using a Dutch POS tagger that was applied to a literal word-by-word translation, or to sentences of a Dutch parallel text. Best results were obtained when using literal translations that were created by using the Frisian translation program Oersetter. Morphologic and syntactic annotations were generated on the basis of a literal Dutch translation as well. The performance of the lemmatizer/tagger/an notator when it was trained using default parameters was compared to the performance that was obtained when using the parameter values that were used for training the LassySmall UD 2.5 corpus. A significant improvement was found for `lemma'. The Frisian lemmatizer/PoS tagger/dependency parser is released as a web app and as a web service.
翻訳日:2021-07-19 17:09:39 公開日:2021-07-16
# (参考訳) 混合ガウス領域適応による半教師あり3次元超解像分割法 [全文訳有]

Joint Semi-supervised 3D Super-Resolution and Segmentation with Mixed Adversarial Gaussian Domain Adaptation ( http://arxiv.org/abs/2107.07975v1 )

ライセンス: CC BY 4.0
Nicolo Savioli, Antonio de Marvao, Wenjia Bai, Shuo Wang, Stuart A. Cook, Calvin W.L. Chin, Daniel Rueckert, Declan P. O'Regan(参考訳) 心臓構造と機能の解析を最適化するには、正確な形状と運動の3D表現が必要である。 しかし、心臓磁気共鳴イメージングなどの技術は、従来、平面解像度の低い連続断面積スライスと、スライス間空間不整合の可能性に限られていた。 医療画像の超解像は、画像の解像度を上げることを目的としているが、従来は低解像度データセットの特徴に基づいて訓練されており、対応するセグメンテーションを超解像しない。 本稿では,高分解能3次元シネマとセグメンテーションの基底的真理を用いて画像とラベルの同時超解像を行う半教師付きマルチタスク生成逆ネットワーク (gemini-gan) を提案し,非教師なし変分逆混合オートエンコーダ (v-ama) を連続ドメイン適応に使用する。 提案手法は,1,331人と205人の2つの多民族間集団において広く評価され,ダイス指数,ピーク信号と雑音比,構造類似度指標を用いて,技術手法の状態を改善した。 このフレームワークはまた、外部検証(左室のdice index 0.81対 0.74)におけるアートジェネレーティブドメイン適応モデルの性能を上回っている。 このことは、クロスドメインの一般化による3次元地下構造データに基づいて訓練された関節の超解像とセグメンテーションが、多様な個体群における堅牢な高精度表現を可能にすることを示す。

Optimising the analysis of cardiac structure and function requires accurate 3D representations of shape and motion. However, techniques such as cardiac magnetic resonance imaging are conventionally limited to acquiring contiguous cross-sectional slices with low through-plane resolution and potential inter-slice spatial misalignment. Super-resolution in medical imaging aims to increase the resolution of images but is conventionally trained on features from low resolution datasets and does not super-resolve corresponding segmentations. Here we propose a semi-supervised multi-task generative adversarial network (Gemini-GAN) that performs joint super-resolution of the images and their labels using a ground truth of high resolution 3D cines and segmentations, while an unsupervised variational adversarial mixture autoencoder (V-AMA) is used for continuous domain adaptation. Our proposed approach is extensively evaluated on two transnational multi-ethnic populations of 1,331 and 205 adults respectively, delivering an improvement on state of the art methods in terms of Dice index, peak signal to noise ratio, and structural similarity index measure. This framework also exceeds the performance of state of the art generative domain adaptation models on external validation (Dice index 0.81 vs 0.74 for the left ventricle). This demonstrates how joint super-resolution and segmentation, trained on 3D ground-truth data with cross-domain generalization, enables robust precision phenotyping in diverse populations.
翻訳日:2021-07-19 16:59:38 公開日:2021-07-16
# (参考訳) S2TA:エネルギー効率の良いモバイルCNN高速化のための構造空間の爆発 [全文訳有]

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration ( http://arxiv.org/abs/2107.07983v1 )

ライセンス: CC BY 4.0
Zhi-Gang Liu, Paul N. Whatmough, Yuhao Zhu, Matthew Mattina(参考訳) sparsityの利用は、モバイルデバイス上で量子化畳み込みニューラルネットワーク(cnn)の推論を加速する上で重要な技術である。 以前のスパースCNNアクセラレーターは、非構造的空間を多く利用し、大幅なスピードアップを実現している。 しかし、非有界で予測不可能な空間パターンのため、非構造化の空間性を利用するには、かなりのエネルギーと面積オーバーヘッドを持つ複雑なハードウェア設計が必要であり、特にエネルギーと面積効率が不可欠であるモバイル/IoT推論シナリオに有害である。 本稿では,より具体的には,重みとアクティベーションの両方に対して密度結合ブロック(dbb)のスパーシティを活用することを提案する。 DBBブロックテンソルはブロック当たりのゼロでない最大数を制限している。 これにより、DBBは静的に予測可能なスパンサーティパターンを公開し、リーンスパンサーティ露光ハードウェアを実現する。 我々は,(静的)重みと(動的)アクティベーションに対してdbbスパーシティを実装するための新しいハードウェアプリミティブを提案する。 プリミティブの上に構築されたS2TAは、従来のシストリックアレイでは利用できない、結合重みとアクティベーションDBB空間と新しいデータ再利用の次元を利用する、シストリックアレイベースのCNNアクセラレータである。 16nmのS2TAは、0値のクロックゲーティングを持つサイストリックアレイの強いベースラインと比較して、2倍以上のスピードアップとエネルギー削減を達成する。 最近の非シストリックスパース加速器であるeyeriss v2 (65nm) とsparten (45nm) と比較して、65nmのs2taは、それぞれ2.2倍と3.1倍のエネルギーを消費している。

Exploiting sparsity is a key technique in accelerating quantized convolutional neural network (CNN) inference on mobile devices. Prior sparse CNN accelerators largely exploit un-structured sparsity and achieve significant speedups. Due to the unbounded, largely unpredictable sparsity patterns, however, exploiting unstructured sparsity requires complicated hardware design with significant energy and area overhead, which is particularly detrimental to mobile/IoT inference scenarios where energy and area efficiency are crucial. We propose to exploit structured sparsity, more specifically, Density Bound Block (DBB) sparsity for both weights and activations. DBB block tensors bound the maximum number of non-zeros per block. DBB thus exposes statically predictable sparsity patterns that enable lean sparsity-exploiting hardware. We propose new hardware primitives to implement DBB sparsity for (static) weights and (dynamic) activations, respectively, with very low overheads. Building on top of the primitives, we describe S2TA, a systolic array-based CNN accelerator that exploits joint weight and activation DBB sparsity and new dimensions of data reuse unavailable on the traditional systolic array. S2TA in 16nm achieves more than 2x speedup and energy reduction compared to a strong baseline of a systolic array with zero-value clock gating, over five popular CNN benchmarks. Compared to two recent non-systolic sparse accelerators, Eyeriss v2 (65nm) and SparTen (45nm), S2TA in 65nm uses about 2.2x and 3.1x less energy per inference, respectively.
翻訳日:2021-07-19 16:32:53 公開日:2021-07-16
# (参考訳) 材料特性の機械学習モデルに対する不確かさ予測 [全文訳有]

Uncertainty Prediction for Machine Learning Models of Material Properties ( http://arxiv.org/abs/2107.07997v1 )

ライセンス: CC BY 4.0
Francesca Tavazza, Brian De Cost, Kamal Choudhary(参考訳) 人工知能(AI)による材料特性の予測の不確実性定量化は、材料科学におけるAIアプリケーションの成功と信頼性において極めて重要である。 機械学習(ML)モデルでは、信頼区間が一般的に報告されるが、予測間隔、すなわち予測の不確実性の評価は、ほとんど利用できない。 本研究では、3つの異なるアプローチを比較して、それらの個々の不確かさを12mlの物理的性質でテストする。 具体的には,量子化損失関数を用いて,予測間隔を直接学習し,ガウス過程を用いて検討した。 私たちはそれぞれのアプローチの長所と短所を特定し、最も適合しやすいため、個々の不確実性のモデリングを少しだけ優先し、多くの場合、予測したエラーの過度かつ過小評価を最小限に抑えます。 トレーニングとテストのすべてのデータは、JARVIS-DFTデータベースから取得され、予測間隔を計算するために開発されたコードは、JARVIS-Toolsを通じて利用可能である。

Uncertainty quantification in Artificial Intelligence (AI)-based predictions of material properties is of immense importance for the success and reliability of AI applications in material science. While confidence intervals are commonly reported for machine learning (ML) models, prediction intervals, i.e., the evaluation of the uncertainty on each prediction, are seldomly available. In this work we compare 3 different approaches to obtain such individual uncertainty, testing them on 12 ML-physical properties. Specifically, we investigated using the Quantile loss function, machine learning the prediction intervals directly and using Gaussian Processes. We identify each approachs advantages and disadvantages and end up slightly favoring the modeling of the individual uncertainties directly, as it is the easiest to fit and, in most cases, minimizes over-and under-estimation of the predicted errors. All data for training and testing were taken from the publicly available JARVIS-DFT database, and the codes developed for computing the prediction intervals are available through JARVIS-Tools.
翻訳日:2021-07-19 16:03:22 公開日:2021-07-16
# (参考訳) SOK:Twitterユーザーの信頼度を評価する [全文訳有]

SOK: Seeing and Believing: Evaluating the Trustworthiness of Twitter Users ( http://arxiv.org/abs/2107.08027v1 )

ライセンス: CC BY 4.0
Tanveer Khan, Antonis Michalas(参考訳) Twitterのようなソーシャルネットワークやマイクロブログサービスは、デジタル情報の共有において重要な役割を果たす。 ソーシャルメディアの人気と有用性にもかかわらず、腐敗したユーザーが、例えばユーザーの信頼性を高めたり下げたりすることで、それを悪用する方法を見つけた例は数多くある。 その結果、ソーシャルメディアは情報へのアクセスを前例のない容易さで促進する一方で、共有情報の信頼性を確認するという新たな課題ももたらした。 現時点では、どのニュースやユーザが信頼できるか、そうでないかを判断する自動化方法がない。 そのため、ソーシャルメディア利用者の信頼度を計測できるシステムを確立することが重要な課題となっている。 信頼度スコアをユーザーに割り当てることによって、研究コミュニティだけでなく、業界側ではFacebook、社会党側では政党など、双方の大手プレイヤーの関心を喚起している。 この研究で我々は、最終的にソーシャルネットワークコミュニティにおける信頼の高まりを促進、支援するモデルを作成しました。 我々のモデルはデータを集め、twitter上の約5万人の政治家の行動を分析した。 評価された各ユーザに対して,いくつかの特徴に基づいて影響スコアを割り当てた。 さらに,政治Twitterユーザを,ランダムな森林,多層パーセプトロン,サポートベクターマシンを用いて信頼あるいは信頼されていないと分類した。 アクティブな学習モデルを用いて,データセットから不明瞭な記録を分類した。 最後に,提案モデルの性能を評価するために,主評価指標として精度,リコール,F1スコア,精度を用いた。

Social networking and micro-blogging services, such as Twitter, play an important role in sharing digital information. Despite the popularity and usefulness of social media, there have been many instances where corrupted users found ways to abuse it, as for instance, through raising or lowering user's credibility. As a result, while social media facilitates an unprecedented ease of access to information, it also introduces a new challenge - that of ascertaining the credibility of shared information. Currently, there is no automated way of determining which news or users are credible and which are not. Hence, establishing a system that can measure the social media user's credibility has become an issue of great importance. Assigning a credibility score to a user has piqued the interest of not only the research community but also most of the big players on both sides - such as Facebook, on the side of industry, and political parties on the societal one. In this work, we created a model which, we hope, will ultimately facilitate and support the increase of trust in the social network communities. Our model collected data and analysed the behaviour of~50,000 politicians on Twitter. Influence score, based on several chosen features, was assigned to each evaluated user. Further, we classified the political Twitter users as either trusted or untrusted using random forest, multilayer perceptron, and support vector machine. An active learning model was used to classify any unlabelled ambiguous records from our dataset. Finally, to measure the performance of the proposed model, we used precision, recall, F1 score, and accuracy as the main evaluation metrics.
翻訳日:2021-07-19 15:50:39 公開日:2021-07-16
# (参考訳) グラフカーネル注意変換器 [全文訳有]

Graph Kernel Attention Transformers ( http://arxiv.org/abs/2107.07999v1 )

ライセンス: CC BY 4.0
Krzysztof Choromanski, Han Lin, Haoxian Chen, Jack Parker-Holder(参考訳) 我々は,グラフカーネル,注目に基づくネットワークと構造的先行概念,さらに最近では,低階分解技術を用いて,小さなメモリフットプリントを暗黙の注意法で適用した効率的なトランスフォーマーアーキテクチャといった,これまで独立に研究されてきたいくつかの概念を組み合わせることで,新しいグラフニューラルネットワーク(GNN)のクラスを導入する。 論文の目標は2倍です。 グラフカーネルアテンショントランスフォーマー(GKAT)は、単一のレイヤ内で長距離依存関係をモデリングできるため、SOTA GNNよりもはるかに表現力がある。 その結果、より浅いアーキテクチャ設計を使うことができる。 さらに、gkatの注意層は入力グラフのノード数を2乗的にではなく線形にスケールし、これらのグラフが密度が高い場合でも、通常のグラフの注意層よりも計算量が少なくなる。 グラフ上のランダムウォークによるランダムな特徴写像分解を許容するグラフカーネルの新しいクラスを適用することで実現している。 提案手法の副産物として,トポロジカルグラフ特性とノードの特徴をコンパクトに符号化するグラクトと呼ばれる,学習可能なグラフスケッチの新たなクラスを得る。 本手法は,モチーフ検出からソーシャルネットワーク分類,バイオインフォマティクスの課題まで,gkatsから得られる一貫した成果を示す9種類のgnnクラスと徹底的に比較した。

We introduce a new class of graph neural networks (GNNs), by combining several concepts that were so far studied independently - graph kernels, attention-based networks with structural priors and more recently, efficient Transformers architectures applying small memory footprint implicit attention methods via low rank decomposition techniques. The goal of the paper is twofold. Proposed by us Graph Kernel Attention Transformers (or GKATs) are much more expressive than SOTA GNNs as capable of modeling longer-range dependencies within a single layer. Consequently, they can use more shallow architecture design. Furthermore, GKAT attention layers scale linearly rather than quadratically in the number of nodes of the input graphs, even when those graphs are dense, requiring less compute than their regular graph attention counterparts. They achieve it by applying new classes of graph kernels admitting random feature map decomposition via random walks on graphs. As a byproduct of the introduced techniques, we obtain a new class of learnable graph sketches, called graphots, compactly encoding topological graph properties as well as nodes' features. We conducted exhaustive empirical comparison of our method with nine different GNN classes on tasks ranging from motif detection through social network classification to bioinformatics challenges, showing consistent gains coming from GKATs.
翻訳日:2021-07-19 15:29:08 公開日:2021-07-16
# 道路型分類のためのグラフ表現学習

Graph Representation Learning for Road Type Classification ( http://arxiv.org/abs/2107.07791v1 )

ライセンス: Link先を確認
Zahra Gharaee and Shreyas Kowshik and Oliver Stromann and Michael Felsberg(参考訳) 本稿では,最先端のグラフ畳み込みニューラルネットワークを用いた道路網のグラフ表現に関する新しい学習手法を提案する。 このアプローチは、オープンストリートマップから17都市の現実の道路網に適用できる。 エッジ機能は道路ネットワークの記述グラフ表現を生成する上で不可欠であるが、グラフ畳み込みネットワークは通常ノード機能のみに依存する。 線グラフ変換を適用することで, 高い代表性を持つエッジ機能をこれらのネットワークに統合できることを示す。 また,局所的近傍と大域的近傍の両方からなる位相的近傍に基づく近傍サンプリング手法を提案する。 本研究では,帰納的および帰納的タスクと教師なし学習において,異なる種類の近傍集約関数を用いた学習表現の性能を比較する。 さらに,新たなアグリゲーション手法であるグラフ注意同型ネットワーク,GAINを提案する。 その結果,gainは道路型分類問題において最先端手法よりも優れていることがわかった。

We present a novel learning-based approach to graph representations of road networks employing state-of-the-art graph convolutional neural networks. Our approach is applied to realistic road networks of 17 cities from Open Street Map. While edge features are crucial to generate descriptive graph representations of road networks, graph convolutional networks usually rely on node features only. We show that the highly representative edge features can still be integrated into such networks by applying a line graph transformation. We also propose a method for neighborhood sampling based on a topological neighborhood composed of both local and global neighbors. We compare the performance of learning representations using different types of neighborhood aggregation functions in transductive and inductive tasks and in supervised and unsupervised learning. Furthermore, we propose a novel aggregation approach, Graph Attention Isomorphism Network, GAIN. Our results show that GAIN outperforms state-of-the-art methods on the road type classification problem.
翻訳日:2021-07-19 14:50:18 公開日:2021-07-16
# tapex:neural sql executorの学習によるテーブル事前トレーニング

TAPEX: Table Pre-training via Learning a Neural SQL Executor ( http://arxiv.org/abs/2107.07653v1 )

ライセンス: Link先を確認
Qian Liu and Bei Chen and Jiaqi Guo and Zeqi Lin and Jian-guang Lou(参考訳) 近年、事前訓練された言語モデルは、自然言語文と(半)構造化テーブルのモデリングに成功している。 しかし、既存のテーブル事前学習技術は、常にデータ品質が低く、事前学習効率が低い。 本稿では,実行可能SQLクエリの自動合成によって得られる合成コーパス上で,ニューラルネットワークのSQLエグゼキュータを学習することにより,テーブル事前学習を実現する方法を示す。 合成コーパスの事前学習により、我々のアプローチであるTAPEXはダウンストリームタスクの性能を劇的に向上させ、既存の言語モデルを少なくとも19.5%向上させる。 一方、TAPEXはトレーニング前の効率が著しく高く、トレーニング前の小さなコーパスを使用すると強い結果が得られる。 実験結果から,TAPEXは従来のテーブル事前学習手法を大きなマージンで上回り,WikiSQLの表記精度を89.6%(+4.9%),WikiTableQuest ionsの表記精度を57.5%(+4.8%),SQAの表記精度を74.5%(+3.5%),TabFactの精度を84.6%(+3.6%)とした。 我々の研究は、合成可能プログラムを事前学習することで構造化データを推論する方法を開放する。

Recent years pre-trained language models hit a success on modeling natural language sentences and (semi-)structured tables. However, existing table pre-training techniques always suffer from low data quality and low pre-training efficiency. In this paper, we show that table pre-training can be realized by learning a neural SQL executor over a synthetic corpus, which is obtained by automatically synthesizing executable SQL queries. By pre-training on the synthetic corpus, our approach TAPEX dramatically improves the performance on downstream tasks, boosting existing language models by at most 19.5%. Meanwhile, TAPEX has remarkably high pre-training efficiency and yields strong results when using a small pre-trained corpus. Experimental results demonstrate that TAPEX outperforms previous table pre-training approaches by a large margin, and our model achieves new state-of-the-art results on four well-known datasets, including improving the WikiSQL denotation accuracy to 89.6% (+4.9%), the WikiTableQuestions denotation accuracy to 57.5% (+4.8%), the SQA denotation accuracy to 74.5% (+3.5%), and the TabFact accuracy to 84.6% (+3.6%). Our work opens the way to reason over structured data by pre-training on synthetic executable programs.
翻訳日:2021-07-19 14:49:37 公開日:2021-07-16
# 時系列のニューラルネットワークによる異常検出

Neural Contextual Anomaly Detection for Time Series ( http://arxiv.org/abs/2107.07702v1 )

ライセンス: Link先を確認
Chris U. Carmona, Fran\c{c}ois-Xavier Aubet, Valentin Flunkert, Jan Gasthaus(参考訳) 我々は,教師なしから教師付き設定までシームレスにスケールする時系列の異常検出フレームワークであるNeural Contextual Anomaly Detection (NCAD)を導入し,一変量および多変量時系列の両方に適用する。 これは、多変量時系列の表現学習における最近の発展と、時系列設定に合わせたコンピュータビジョンのために開発された深部異常検出技術とを効果的に組み合わせることによって達成される。 ウィンドウベースのアプローチは、利用可能なデータに汎用的な合成異常を注入することにより、正規クラスと異常クラスの境界を学習しやすくする。 さらに,本手法は,ドメイン知識として,あるいはセミ教師付き環境でのトレーニングラベルとして,利用可能なすべての情報を効果的に活用することができる。 提案手法は,これらの環境での最先端性能を実証的に示す。

We introduce Neural Contextual Anomaly Detection (NCAD), a framework for anomaly detection on time series that scales seamlessly from the unsupervised to supervised setting, and is applicable to both univariate and multivariate time series. This is achieved by effectively combining recent developments in representation learning for multivariate time series, with techniques for deep anomaly detection originally developed for computer vision that we tailor to the time series setting. Our window-based approach facilitates learning the boundary between normal and anomalous classes by injecting generic synthetic anomalies into the available data. Moreover, our method can effectively take advantage of all the available information, be it as domain knowledge, or as training labels in the semi-supervised setting. We demonstrate empirically on standard benchmark datasets that our approach obtains a state-of-the-art performance in these settings.
翻訳日:2021-07-19 14:48:34 公開日:2021-07-16
# マーク付き時間点過程の半教師付き学習

Semi-supervised Learning for Marked Temporal Point Processes ( http://arxiv.org/abs/2107.07729v1 )

ライセンス: Link先を確認
Shivshankar Reddy, Anand Vir Singh Chauhan, Maneet Singh, and Karamjit Singh(参考訳) 時間的ポイントプロセス(TPP)は、しばしば発生時刻に応じて順序付けられたイベントのシーケンスを表すために使用される。 柔軟な性質のため、TPPは様々なシナリオをモデル化するのに使われ、様々な現実世界のアプリケーションに適用性を示している。 TPPはイベント発生のモデル化に重点を置いているが、MTPP(Marked Temporal Point Process)はイベントのカテゴリやクラス(マーカーとして定義される)のモデリングにも重点を置いている。 MTPPの研究はここ数年で大きな注目を集めており、教師付きアルゴリズムに重点を置いている。 研究の焦点にもかかわらず、アルゴリズムがラベル付きデータとラベルなしデータの混合にアクセスする半教師付き設定でソリューションを開発するという難しい問題に対して、限られた注意が向けられている。 本研究では,マーク付き時間点プロセス(SSL-MTPP)のための半教師付き学習アルゴリズムを提案する。 SSL-MTPPアルゴリズムはラベル付きデータとラベルなしデータを組み合わせてロバストなマーカー予測モデルを学習する。 提案アルゴリズムは、RNNベースのEncoder-Decoderモジュールを用いて、時間列の効率的な表現を学習する。 提案アルゴリズムの有効性はRetweetデータセット上の複数のプロトコルを用いて実証されており、SSL-MTPPでは従来の教師付き学習手法と比較して性能が向上している。

Temporal Point Processes (TPPs) are often used to represent the sequence of events ordered as per the time of occurrence. Owing to their flexible nature, TPPs have been used to model different scenarios and have shown applicability in various real-world applications. While TPPs focus on modeling the event occurrence, Marked Temporal Point Process (MTPP) focuses on modeling the category/class of the event as well (termed as the marker). Research in MTPP has garnered substantial attention over the past few years, with an extensive focus on supervised algorithms. Despite the research focus, limited attention has been given to the challenging problem of developing solutions in semi-supervised settings, where algorithms have access to a mix of labeled and unlabeled data. This research proposes a novel algorithm for Semi-supervised Learning for Marked Temporal Point Processes (SSL-MTPP) applicable in such scenarios. The proposed SSL-MTPP algorithm utilizes a combination of labeled and unlabeled data for learning a robust marker prediction model. The proposed algorithm utilizes an RNN-based Encoder-Decoder module for learning effective representations of the time sequence. The efficacy of the proposed algorithm has been demonstrated via multiple protocols on the Retweet dataset, where the proposed SSL-MTPP demonstrates improved performance in comparison to the traditional supervised learning approach.
翻訳日:2021-07-19 14:48:19 公開日:2021-07-16
# 冷間開始時の不均衡データストリームにおけるオンライントレーニングのためのアクティブラーニング

Active learning for online training in imbalanced data streams under cold start ( http://arxiv.org/abs/2107.07724v1 )

ライセンス: Link先を確認
Ricardo Barata, Miguel Leite, Ricardo Pacheco, Marco O. P. Sampaio, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) ラベル付きデータは、予測モデリングに機械学習(ML)に依存する現代システムにおいて不可欠である。 このようなシステムはコールドスタートの問題に苦しむ可能性がある:教師付きモデルがうまく機能するが、最初はラベルがなく、費用がかかるか遅い。 この問題は、不均衡なデータシナリオにおいてさらに悪化する。 オンラインの金融詐欺検出は、ラベリングが次の例である: i) 高価、またはii) 被害者が苦情を申し立てる場合、長い遅れに苦しむ。 モデルが直ちに実施される必要がある場合、後者は実行できない可能性があるため、コストを制御するアノテーションの数を最小限に抑えながら、アナリストにイベントにラベルを付けるオプションがある。 コールドスタートストリーミングシナリオにおいて,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(al)アノテーションシステムを提案する。 本稿では,計算効率の高い異常値に基づく判別alアプローチ(odal)を提案し,それをウォームアップとして用いる新しい3段階のalラベリングポリシを設計する。 次に,4つの実世界データセットにおいて,クラス不均衡の様々な等級で実証研究を行う。 その結果,本手法は標準alポリシーよりも高速に高性能モデルに到達できることがわかった。 ランダムサンプリングに対する観察された利益は80%に達し、無制限の注釈予算や追加の履歴データ(ラベルの1/10から1/50)を持つポリシーと競合する。

Labeled data is essential in modern systems that rely on Machine Learning (ML) for predictive modelling. Such systems may suffer from the cold-start problem: supervised models work well but, initially, there are no labels, which are costly or slow to obtain. This problem is even worse in imbalanced data scenarios. Online financial fraud detection is an example where labeling is: i) expensive, or ii) it suffers from long delays, if relying on victims filing complaints. The latter may not be viable if a model has to be in place immediately, so an option is to ask analysts to label events while minimizing the number of annotations to control costs. We propose an Active Learning (AL) annotation system for datasets with orders of magnitude of class imbalance, in a cold start streaming scenario. We present a computationally efficient Outlier-based Discriminative AL approach (ODAL) and design a novel 3-stage sequence of AL labeling policies where it is used as warm-up. Then, we perform empirical studies in four real world datasets, with various magnitudes of class imbalance. The results show that our method can more quickly reach a high performance model than standard AL policies. Its observed gains over random sampling can reach 80% and be competitive with policies with an unlimited annotation budget or additional historical data (with 1/10 to 1/50 of the labels).
翻訳日:2021-07-19 14:47:49 公開日:2021-07-16
# 行列値時系列からのオンライングラフトポロジー学習

Online Graph Topology Learning from Matrix-valued Time Series ( http://arxiv.org/abs/2107.08020v1 )

ライセンス: Link先を確認
Yiye Jiang, J\'er\'emie Bigot and Sofian Maabout(参考訳) 本稿では,行列値時系列の統計解析について述べる。 これらは、センサーのネットワーク上で収集されたデータ(通常は空間的位置の集合)、記録、時間経過、複数の測定の観察である。 このようなデータから,センサ間の空間関係の疎さを記述したグラフと,測定関係を特徴付けるグラフをオンライン形式で学習することを提案する。 本研究では,行列値時系列に存在するスパースグランガー因果関係構造を捉える係数行列に符号化されたグラフトポロジーを推定する,新しい多変量自己回帰モデルを提案する。 係数行列にクロネッカー和構造を付与することによりグラフを分解する。 グラフを再帰的に学習するための2つのオンラインアプローチを開発した。 第一にウォルドテストを用いて予測されたOLS推定を行い、推定器の漸近分布を導出する。 第二に,lasso型最適化問題を定式化する。 係数行列を推定するための更新規則を導出するためにホモトピーアルゴリズムに依存する。 さらに,正規化パラメータに対する適応チューニング手順を提案する。 合成データと実データの両方を用いて数値実験を行い,提案手法の有効性を実証した。

This paper is concerned with the statistical analysis of matrix-valued time series. These are data collected over a network of sensors (typically a set of spatial locations), recording, over time, observations of multiple measurements. From such data, we propose to learn, in an online fashion, a graph that captures two aspects of dependency: one describing the sparse spatial relationship between sensors, and the other characterizing the measurement relationship. To this purpose, we introduce a novel multivariate autoregressive model to infer the graph topology encoded in the coefficient matrix which captures the sparse Granger causality dependency structure present in such matrix-valued time series. We decompose the graph by imposing a Kronecker sum structure on the coefficient matrix. We develop two online approaches to learn the graph in a recursive way. The first one uses Wald test for the projected OLS estimation, where we derive the asymptotic distribution for the estimator. For the second one, we formalize a Lasso-type optimization problem. We rely on homotopy algorithms to derive updating rules for estimating the coefficient matrix. Furthermore, we provide an adaptive tuning procedure for the regularization parameter. Numerical experiments using both synthetic and real data, are performed to support the effectiveness of the proposed learning approaches.
翻訳日:2021-07-19 14:47:25 公開日:2021-07-16
# DANCE: 効率的なセグメンテーションモデルトレーニングと推論のためのDAta-Networkの共同最適化

DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference ( http://arxiv.org/abs/2107.07706v1 )

ライセンス: Link先を確認
Chaojian Li, Wuyang Chen, Yuchen Gu, Tianlong Chen, Yonggan Fu, Zhangyang Wang, Yingyan Lin(参考訳) シーン理解のためのセマンティックセグメンテーションが近年広く求められており、アルゴリズムの効率、特にリソース制限されたプラットフォームでの応用に大きな課題が提起されている。 現在のセグメンテーションモデルは、大量の高解像度シーンイメージ(「データレベル」)をトレーニングし、評価し、必要なマルチスケールアグリゲーション(「ネットワークレベル」)から生じる高価な計算に苦しむ。 両方の折り畳みでは、しばしば望まれる大きな入力解像度と分割モデルの重い計算負担のため、トレーニングと推論における計算とエネルギーのコストが顕著である。 そこで本稿では,効率的なセグメンテーションモデルトレーニングと推論のためのDAta-Network共同最適化手法であるDANCEを提案する。 軽量ネットワーク設計のみに焦点を当てた既存の効率的なセグメンテーションアプローチとは違って、danceは入力データ操作とネットワークアーキテクチャスリム化の両方を通じて、自動データネットワーク共同最適化を特徴としている。 具体的には、DANCEは、入力イメージを適応的にサンプリング/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対する対応するコントリビューションを制御する。 このようなダウンサンプリング操作は、入力サイズに関するコストを直接削減するだけでなく、入力オブジェクトとコンテキストスケールのダイナミックレンジを縮小するので、ダウンサンプリングされたデータに適合するようにネットワークを適応的にスリムにすることも動機付けます。 広範囲な実験とアブレーション研究(2つのトレーニング条件の下で3つの人気のあるセグメンテーションデータセットを持つ4つのソータセグメンテーションモデル)は、ダンスが効率的なセグメンテーション(訓練コストの削減、より安価な推論、より平均的交点オーバーユニオン(miou))に向けて「全勝」を達成することを証明している。

Semantic segmentation for scene understanding is nowadays widely demanded, raising significant challenges for the algorithm efficiency, especially its applications on resource-limited platforms. Current segmentation models are trained and evaluated on massive high-resolution scene images ("data level") and suffer from the expensive computation arising from the required multi-scale aggregation("network level"). In both folds, the computational and energy costs in training and inference are notable due to the often desired large input resolutions and heavy computational burden of segmentation models. To this end, we propose DANCE, general automated DAta-Network Co-optimization for Efficient segmentation model training and inference. Distinct from existing efficient segmentation approaches that focus merely on light-weight network design, DANCE distinguishes itself as an automated simultaneous data-network co-optimization via both input data manipulation and network architecture slimming. Specifically, DANCE integrates automated data slimming which adaptively downsamples/drops input images and controls their corresponding contribution to the training loss guided by the images' spatial complexity. Such a downsampling operation, in addition to slimming down the cost associated with the input size directly, also shrinks the dynamic range of input object and context scales, therefore motivating us to also adaptively slim the network to match the downsampled data. Extensive experiments and ablating studies (on four SOTA segmentation models with three popular segmentation datasets under two training settings) demonstrate that DANCE can achieve "all-win" towards efficient segmentation(reduced training cost, less expensive inference, and better mean Intersection-over-Un ion (mIoU)).
翻訳日:2021-07-19 14:47:07 公開日:2021-07-16
# 異常検出のためのコントラスト予測符号化

Contrastive Predictive Coding for Anomaly Detection ( http://arxiv.org/abs/2107.07820v1 )

ライセンス: Link先を確認
Puck de Haan, Sindy L\"owe(参考訳) 機械学習モデルを実際にデプロイする際には、信頼性の高い異常検出が不可欠だが、ラベル付きデータがないため、依然として難しい。 この課題に取り組むために、自己教師付き表現学習設定で達成した印象的な結果を考えると、対照的な学習アプローチがますます人気を高めている。 しかしながら、既存のコントラスト異常検出およびセグメンテーションアプローチのほとんどは画像に適用されているが、コントラスト損失を直接使用して、異常検出とセグメンテーションの両方を行うことはできない。 本稿では,コントラスト予測符号化モデル(arxiv:1807.03748)を用いて,このギャップを解消する。 その結果, パッチ方向のコントラスト損失は, 直接, 異常スコアとして解釈され得ること, 異常分割マスクの作成にどのように寄与するかが明らかになった。 得られたモデルは、挑戦的なMVTec-ADデータセット上の異常検出とセグメント化の両方に対して有望な結果を得る。

Reliable detection of anomalies is crucial when deploying machine learning models in practice, but remains challenging due to the lack of labeled data. To tackle this challenge, contrastive learning approaches are becoming increasingly popular, given the impressive results they have achieved in self-supervised representation learning settings. However, while most existing contrastive anomaly detection and segmentation approaches have been applied to images, none of them can use the contrastive losses directly for both anomaly detection and segmentation. In this paper, we close this gap by making use of the Contrastive Predictive Coding model (arXiv:1807.03748). We show that its patch-wise contrastive loss can directly be interpreted as an anomaly score, and how this allows for the creation of anomaly segmentation masks. The resulting model achieves promising results for both anomaly detection and segmentation on the challenging MVTec-AD dataset.
翻訳日:2021-07-19 14:46:27 公開日:2021-07-16
# 研修専門学生のための表現統合

Representation Consolidation for Training Expert Students ( http://arxiv.org/abs/2107.08039v1 )

ライセンス: Link先を確認
Zhizhong Li, Avinash Ravichandran, Charless Fowlkes, Marzia Polito, Rahul Bhotika, Stefano Soatto(参考訳) 伝統的に、蒸留は教師の入出力機能をエミュレートするために学生モデルを訓練するために用いられてきた。 エミュレーションよりも有用なゴールは、学生が将来のタスクにうまく移行する特徴表現を学ぶことである。 しかし, タスク特化教師の標準蒸留は, 生徒表現の下流タスクへの移動性を *reduces* で表している。 本研究では,非ラベル型プロキシデータセットとジェネラリスト教師を用いたマルチヘッド・マルチタスク蒸留法によって,課題特定教師からの表現の統合と下流性能の向上,教師の優位化,イメージネット事前学習機能の強固なベースライン化が達成できることを示す。 提案手法は,複数の教師が1つないし複数のドメインで訓練した表現的知識を1つのモデルに組み合わせ,その表現をすべての教師のドメインで改善する。

Traditionally, distillation has been used to train a student model to emulate the input/output functionality of a teacher. A more useful goal than emulation, yet under-explored, is for the student to learn feature representations that transfer well to future tasks. However, we observe that standard distillation of task-specific teachers actually *reduces* the transferability of student representations to downstream tasks. We show that a multi-head, multi-task distillation method using an unlabeled proxy dataset and a generalist teacher is sufficient to consolidate representations from task-specific teacher(s) and improve downstream performance, outperforming the teacher(s) and the strong baseline of ImageNet pretrained features. Our method can also combine the representational knowledge of multiple teachers trained on one or multiple domains into a single model, whose representation is improved on all teachers' domain(s).
翻訳日:2021-07-19 14:46:11 公開日:2021-07-16
# 到達可能性解析によるfeedforwardニューラルネットワークトレーニング

Constrained Feedforward Neural Network Training via Reachability Analysis ( http://arxiv.org/abs/2107.07696v1 )

ライセンス: Link先を確認
Long Kiu Chung, Adam Dai, Derek Knowles, Shreyas Kousik, Grace X. Gao(参考訳) 近年、ニューラルネットワークは様々な用途で普及しているが、人間近辺や周囲のロボティクスのような安全上重要な分野に限定的に応用されている。 これは、安全制約に従うためにニューラルネットワークをトレーニングすることは、まだ未解決の課題であるからです。 既存の安全関連手法の多くは、既に訓練済みのネットワークが制約に従うことを確認し、トレーニングと検証を交互に行う必要がある。 そこで本研究では,修正線形単位(ReLU)非線形性を持つフィードフォワードニューラルネットワークを同時にトレーニングし,検証する制約付き手法を提案する。 制約は、ネットワークの出力空間到達可能な集合を計算し、それが安全でない集合と干渉しないことを保証することで実行され、出力空間の到達可能な集合と安全でない部分の間の新しい衝突チェック損失関数を定式化して訓練を行う。 到達可能な集合と安全でない集合は、微分可能な衝突チェックを可能にする凸ポリトープ表現である制約付きゾノトープで表される。 提案手法は,1つの非線形層と約50パラメータを有するネットワーク上で有効である。

Neural networks have recently become popular for a wide variety of uses, but have seen limited application in safety-critical domains such as robotics near and around humans. This is because it remains an open challenge to train a neural network to obey safety constraints. Most existing safety-related methods only seek to verify that already-trained networks obey constraints, requiring alternating training and verification. Instead, this work proposes a constrained method to simultaneously train and verify a feedforward neural network with rectified linear unit (ReLU) nonlinearities. Constraints are enforced by computing the network's output-space reachable set and ensuring that it does not intersect with unsafe sets; training is achieved by formulating a novel collision-check loss function between the reachable set and unsafe portions of the output space. The reachable and unsafe sets are represented by constrained zonotopes, a convex polytope representation that enables differentiable collision checking. The proposed method is demonstrated successfully on a network with one nonlinearity layer and approximately 50 parameters.
翻訳日:2021-07-19 14:45:00 公開日:2021-07-16
# 正規化フローを用いたマルコフ連鎖モンテカルロ法による効率的なベイズサンプリング

Efficient Bayesian Sampling Using Normalizing Flows to Assist Markov Chain Monte Carlo Methods ( http://arxiv.org/abs/2107.08001v1 )

ライセンス: Link先を確認
Marylou Gabri\'e, Grant M. Rotskoff, Eric Vanden-Eijnden(参考訳) 正規化フローは複雑なターゲット分布を生成できるため、ベイズ統計学の多くの応用において、後方サンプリングのためのMCMCの代替または補題として期待できる。 対象の後方分布からのデータセットは事前に入手できないため、フローは通常、基底分布からのサンプルのみを必要とする逆のKullback-Leibler(KL) 分散を用いて訓練される。 この戦略は、後方が複雑で、訓練されていない正規化フローでサンプルが難しい場合、うまくいかない可能性がある。 ここでは,後方からのサンプルを,(i)後方の局所mcmcアルゴリズムを正規化フローで支援して混合速度を加速し,(ii)この方法で生成されたデータを用いて流れを訓練することにより,直接kl発散を損失として,異なる訓練戦略を検討する。 この方法は後部に関する限られた量の \textit{a~priori} 入力しか必要とせず、例に示すようにモデル検証に必要なエビデンスを推定するために使用できる。

Normalizing flows can generate complex target distributions and thus show promise in many applications in Bayesian statistics as an alternative or complement to MCMC for sampling posteriors. Since no data set from the target posterior distribution is available beforehand, the flow is typically trained using the reverse Kullback-Leibler (KL) divergence that only requires samples from a base distribution. This strategy may perform poorly when the posterior is complicated and hard to sample with an untrained normalizing flow. Here we explore a distinct training strategy, using the direct KL divergence as loss, in which samples from the posterior are generated by (i) assisting a local MCMC algorithm on the posterior with a normalizing flow to accelerate its mixing rate and (ii) using the data generated this way to train the flow. The method only requires a limited amount of \textit{a~priori} input about the posterior, and can be used to estimate the evidence required for model validation, as we illustrate on examples.
翻訳日:2021-07-19 14:44:45 公開日:2021-07-16
# NeXtQSM -- ハイブリッドデータでトレーニングされたデータ一貫性の定量的感受性マッピングのための完全なディープラーニングパイプライン

NeXtQSM -- A complete deep learning pipeline for data-consistent quantitative susceptibility mapping trained with hybrid data ( http://arxiv.org/abs/2107.07752v1 )

ライセンス: Link先を確認
Francesco Cognolato, Kieran O'Brien, Jin Jin, Simon Robinson, Frederik B. Laun, Markus Barth, Steffen Bollmann(参考訳) 近年,ディープラーニングに基づく定量的サセプティビリティマッピング(QSM)は,従来の非学習アプローチよりも高速かつ高精度に実現されている。 しかし、現在のディープラーニングアプローチの多くは、データ一貫性がなく、インビボのトレーニングデータを必要とするか、QSM処理パイプラインのすべてのステップを解決していない。 ここでは,これらの制限を克服し,協調してQSM処理ステップを解決するためのフレームワークを開発する。 そこで我々は,QSMモデル項と学習正規化器を組み合わせた変分ネットワークを用いて,バックグラウンドフィールド補正と双極子反転をデータ一貫性で解くためのエンドツーエンドトレーニングを実現するハイブリッドトレーニングデータ生成手法を開発した。 我々は、NeXtQSMが従来のモデルに依存しないディープラーニング手法の限界を克服し、NeXtQSMが、堅牢で高速で正確な定量的感受性マップを計算するための完全なディープラーニングベースのパイプラインを提供することを示した。

Deep learning based Quantitative Susceptibility Mapping (QSM) has shown great potential in recent years, outperforming traditional non-learning approaches in speed and accuracy. However, many of the current deep learning approaches are not data consistent, require in vivo training data or do not solve all steps of the QSM processing pipeline. Here we aim to overcome these limitations and developed a framework to solve the QSM processing steps jointly. We developed a new hybrid training data generation method that enables the end-to-end training for solving background field correction and dipole inversion in a data-consistent fashion using a variational network that combines the QSM model term and a learned regularizer. We demonstrate that NeXtQSM overcomes the limitations of previous model-agnostic deep learning methods and show that NeXtQSM offers a complete deep learning based pipeline for computing robust, fast and accurate quantitative susceptibility maps.
翻訳日:2021-07-19 14:43:56 公開日:2021-07-16
# 多次元投影のクラスタ間信頼性の測定と説明

Measuring and Explaining the Inter-Cluster Reliability of Multidimensional Projections ( http://arxiv.org/abs/2107.07859v1 )

ライセンス: Link先を確認
Hyeon Jeon, Hyung-Kwon Ko, Jaemin Jo, Youngtaek Kim, and Jinwook Seo(参考訳) 本研究では,多次元射影(mdp)のクラスタ間信頼性を測定するための2つの新しい指標である定常性と凝集性,特に,クラスター間構造が元の高次元空間と低次元射影空間の間で保存されているかを示す。 クラスタ間信頼性の測定は、クラスタ間タスク(例えば、プロジェクションされたビューから元の空間におけるクラスタ間関係を識別する)がどの程度適切に実行されるかに直接影響を与えるため、非常に重要であるが、クラスタ間タスクの重要性にもかかわらず、信頼性や継続性といった以前のメトリクスではクラスタ間信頼性の測定に失敗していることがわかった。 我々のメトリクスはクラスタ間信頼性の2つの側面を考察している。定常性は、投影された空間内のクラスタが元の空間内のクラスタを形成する度合いを測り、結合性は逆の度合いを測る。 任意の形状と位置を持つランダムなクラスタを1つの空間で抽出し、クラスタが他の空間でどれだけ伸びるか、分散しているかを評価する。 さらに、我々のメトリクスはポイントワイズ歪みを定量化することができ、プロジェクションにおけるクラスタ間信頼性の可視化を可能にします。 定量的実験により,クラスタ間信頼性を損なう歪みを正確に把握すると同時に,以前の測定値では歪みの捕捉が困難であることを確認した。 ケーススタディでは,我々のメトリクスと信頼性マップが,適切なプロジェクション技術やハイパーパラメータの選択を支援するとともに,クラスタ間タスクの実行中に誤解釈を防止し,クラスタ間構造を適切に識別できるようにする。

We propose Steadiness and Cohesiveness, two novel metrics to measure the inter-cluster reliability of multidimensional projection (MDP), specifically how well the inter-cluster structures are preserved between the original high-dimensional space and the low-dimensional projection space. Measuring inter-cluster reliability is crucial as it directly affects how well inter-cluster tasks (e.g., identifying cluster relationships in the original space from a projected view) can be conducted; however, despite the importance of inter-cluster tasks, we found that previous metrics, such as Trustworthiness and Continuity, fail to measure inter-cluster reliability. Our metrics consider two aspects of the inter-cluster reliability: Steadiness measures the extent to which clusters in the projected space form clusters in the original space, and Cohesiveness measures the opposite. They extract random clusters with arbitrary shapes and positions in one space and evaluate how much the clusters are stretched or dispersed in the other space. Furthermore, our metrics can quantify pointwise distortions, allowing for the visualization of inter-cluster reliability in a projection, which we call a reliability map. Through quantitative experiments, we verify that our metrics precisely capture the distortions that harm inter-cluster reliability while previous metrics have difficulty capturing the distortions. A case study also demonstrates that our metrics and the reliability map 1) support users in selecting the proper projection techniques or hyperparameters and 2) prevent misinterpretation while performing inter-cluster tasks, thus allow an adequate identification of inter-cluster structure.
翻訳日:2021-07-19 14:43:40 公開日:2021-07-16
# 歩行者行動予測に必要なバウンディングボックスに注意は必要か?

Is attention to bounding boxes all you need for pedestrian action prediction? ( http://arxiv.org/abs/2107.08031v1 )

ライセンス: Link先を確認
Lina Achaji, Julien Moreau, Thibault Fouqueray, Francois Aioun, Francois Charpillet(参考訳) 人間のドライバーはもはや、運転シナリオの複雑さに関心を持つ唯一の人間ではありません。 自動運転車(AV)も同様にプロセスに関与している。 現在、都市部におけるavの開発は歩行者などの脆弱な道路利用者(vrus)にとって不可欠な安全上の懸念を浮き彫りにしている。 したがって、道路をより安全にするために、将来の行動の分類と予測が不可欠である。 本稿では,歩行者の過去の軌跡の動的進化を理論的に判断するためのトランスフォーマーモデルの多変種に基づく枠組みを提案し,交差点を横断するか否かの今後の行動を予測する。 モデルへの入力としてバウンディングボックスのみを使用することで,従来の最先端モデルよりも優れており,予測精度が91%,予測精度が0.83であることが分かった。 さらに,行動予測にCARLAを用いた大規模シミュレーションデータセット(CP2A)を導入した。 このモデルも同様に高い精度 (91 %) とF1スコア (0.91) に達した。 興味深いことに、シミュレーションデータセット上でトランスフォーマーモデルを事前トレーニングし、実際のデータセットで微調整することで、アクション予測タスクに非常に効果的であることが分かりました。

The human driver is no longer the only one concerned with the complexity of the driving scenarios. Autonomous vehicles (AV) are similarly becoming involved in the process. Nowadays, the development of AV in urban places underpins essential safety concerns for vulnerable road users (VRUs) such as pedestrians. Therefore, to make the roads safer, it is critical to classify and predict their future behavior. In this paper, we present a framework based on multiple variations of the Transformer models to reason attentively about the dynamic evolution of the pedestrians' past trajectory and predict its future actions of crossing or not crossing the street. We proved that using only bounding boxes as input to our model can outperform the previous state-of-the-art models and reach a prediction accuracy of 91 % and an F1-score of 0.83 on the PIE dataset up to two seconds ahead in the future. In addition, we introduced a large-size simulated dataset (CP2A) using CARLA for action prediction. Our model has similarly reached high accuracy (91 %) and F1-score (0.91) on this dataset. Interestingly, we showed that pre-training our Transformer model on the simulated dataset and then fine-tuning it on the real dataset can be very effective for the action prediction task.
翻訳日:2021-07-19 14:43:11 公開日:2021-07-16
# 音声から顔を生成する制御オートエンコーダ

Controlled AutoEncoders to Generate Faces from Voices ( http://arxiv.org/abs/2107.07988v1 )

ライセンス: Link先を確認
Hao Liang, Lulan Yu, Guikang Xu, Bhiksha Raj, Rita Singh(参考訳) 過去の複数の研究では、人間の声の特徴と顔の特徴の間に強い相関関係があることが示されている。 しかし、既存のアプローチは、これらの相関に寄与する特徴の集合を探索することなく、単に音声から顔を生成する。 これを研究するための計算手法は、「原声の発声者として認識されるためには、対象の顔がどの程度変化する必要があるか?」という問いを言い換えることで考案できる。 本稿では,この観点から,学習した音声と顔の相関によって顔の特徴が暗黙的に導かれるように,与えられた音声に応答して対象の顔を変化させる枠組みを提案する。 我々のフレームワークは、入力された音声記録に基づいて再構成された顔を変更するゲーティングコントローラと呼ばれるユニークなモデル条件コンポーネントによって制御される、ある顔を別の顔に変換するガイド付きオートエンコーダを含む。 我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。 提案モデルの有効性を示す様々な実験を行った。

Multiple studies in the past have shown that there is a strong correlation between human vocal characteristics and facial features. However, existing approaches generate faces simply from voice, without exploring the set of features that contribute to these observed correlations. A computational methodology to explore this can be devised by rephrasing the question to: "how much would a target face have to change in order to be perceived as the originator of a source voice?" With this in perspective, we propose a framework to morph a target face in response to a given voice in a way that facial features are implicitly guided by learned voice-face correlation in this paper. Our framework includes a guided autoencoder that converts one face to another, controlled by a unique model-conditioning component called a gating controller which modifies the reconstructed face based on input voice recordings. We evaluate the framework on VoxCelab and VGGFace datasets through human subjects and face retrieval. Various experiments demonstrate the effectiveness of our proposed model.
翻訳日:2021-07-19 14:42:51 公開日:2021-07-16
# マルチ言語モデルは、適度なアンダーリソース言語にとって最良の選択か? カタルーニャの包括的評価

Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan ( http://arxiv.org/abs/2107.07903v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\' ;e, Casimiro Pio Carrino, Carlos Rodriguez-Penagos, Ona de Gibert Bonet, Carme Armentano-Oller, Aitor Gonzalez-Agirre, Maite Melero and Marta Villegas(参考訳) マルチ言語モデルは、リソース不足の言語に対するデータの必要性を大幅に減らし、重要なブレークスルーとなった。 それでも、大量のデータにアクセス可能な言語では、言語固有のモデルの優位性は既に証明されている。 本研究では,中規模単言語モデルと最先端の大規模多言語モデルとの競争力について検討することを目的として,カタルーニャ語に焦点をあてる。 For this, we: (1) build a clean, high-quality textual Catalan corpus (CaText), the largest to date (but only a fraction of the usual size of the previous work in monolingual language models), (2) train a Transformer-based language model for Catalan (BERTa), and (3) devise a thorough evaluation in a diversity of settings, comprising a complete array of downstream tasks, namely, Part of Speech Tagging, Named Entity Recognition and Classification, Text Classification, Question Answering, and Semantic Textual Similarity, with most of the corresponding datasets being created ex novo. その結果、クリーンテキストコーパス、言語モデル、クリーニングパイプラインとともに、オープンリソースとして公開する新しいベンチマークである、catalan language understanding benchmark(club)が生まれました。 最先端の多言語モデルとwikipediaでのみトレーニングされた単言語モデルを用いて,タスクや設定におけるモデルの優位性を一貫して観察する。

Multilingual language models have been a crucial breakthrough as they considerably reduce the need of data for under-resourced languages. Nevertheless, the superiority of language-specific models has already been proven for languages having access to large amounts of data. In this work, we focus on Catalan with the aim to explore to what extent a medium-sized monolingual language model is competitive with state-of-the-art large multilingual models. For this, we: (1) build a clean, high-quality textual Catalan corpus (CaText), the largest to date (but only a fraction of the usual size of the previous work in monolingual language models), (2) train a Transformer-based language model for Catalan (BERTa), and (3) devise a thorough evaluation in a diversity of settings, comprising a complete array of downstream tasks, namely, Part of Speech Tagging, Named Entity Recognition and Classification, Text Classification, Question Answering, and Semantic Textual Similarity, with most of the corresponding datasets being created ex novo. The result is a new benchmark, the Catalan Language Understanding Benchmark (CLUB), which we publish as an open resource, together with the clean textual corpus, the language model, and the cleaning pipeline. Using state-of-the-art multilingual models and a monolingual model trained only on Wikipedia as baselines, we consistently observe the superiority of our model across tasks and settings.
翻訳日:2021-07-19 14:42:12 公開日:2021-07-16
# 知識ベース質問応答にリッチ構文を活用する

Exploiting Rich Syntax for Better Knowledge Base Question Answering ( http://arxiv.org/abs/2107.07940v1 )

ライセンス: Link先を確認
Pengju Zhang, Yonghui Jia, Muhua Zhu, Wenliang Chen, Min Zhang(参考訳) 知識ベース質問回答(KBQA)に関する最近の研究は、より優れた質問理解を通じて、この課題に大きな進歩を見せている。 質問をエンコーディングする以前の研究は,主に単語列に焦点を当てているが,構文木からの情報をほとんど考慮しない。 まず、キーワード間の最も短い依存性パスを考慮し、パスベースの構文をエンコードする。 そこで本研究では,構文木全体の情報をモデム化し,木ベースの構文を得るための2つの符号化戦略を提案する。 最後に、kbqaのパスベースとツリーベースの構文表現を組み合わせる。 我々は,広く使用されているベンチマークデータセットの広範な実験を行い,構文認識システムを用いて,構文情報を異なる設定でフル活用し,KBQAの最先端性能を達成できることを実験的に示す。

Recent studies on Knowledge Base Question Answering (KBQA) have shown great progress on this task via better question understanding. Previous works for encoding questions mainly focus on the word sequences, but seldom consider the information from syntactic trees.In this paper, we propose an approach to learn syntax-based representations for KBQA. First, we encode path-based syntax by considering the shortest dependency paths between keywords. Then, we propose two encoding strategies to mode the information of whole syntactic trees to obtain tree-based syntax. Finally, we combine both path-based and tree-based syntax representations for KBQA. We conduct extensive experiments on a widely used benchmark dataset and the experimental results show that our syntax-aware systems can make full use of syntax information in different settings and achieve state-of-the-art performance of KBQA.
翻訳日:2021-07-19 14:41:53 公開日:2021-07-16
# Imitate TheWorld: 検索エンジンシミュレーションプラットフォーム

Imitate TheWorld: A Search Engine Simulation Platform ( http://arxiv.org/abs/2107.07693v1 )

ライセンス: Link先を確認
Yongqing Gao, Guangda Huzhang, Weijie Shen, Yawen Liu, Wen-Ji Zhou, Qing Da, Dan Shen, Yang Yu(参考訳) 近年のEコマースアプリケーションは、ディープラーニング技術の成長の恩恵を受けている。 しかし,教師あり学習パラダイムに従うオフラインラベルを密にマッチングすることで,ビジネス目標の最大化を図っている作業は多い。 これにより、auc(area under curve)とndcg(normalized discounted cumulative gain)という観点で高いオフラインパフォーマンスが得られるが、ユーザの購買量などの収益指標を一貫して増やすことはできない。 この問題に対して,我々は,動的データセットとして,よく訓練された識別器からフィードバックを得られるシミュレーション検索エンジンAESimを構築した。 AliExpress Searchの実際のデータに依存する従来のシミュレーションプラットフォームとは違って、仮想ユーザ生成には逆学習を使用し、ユーザの行動パターンをキャプチャするためにGAIL(Generative Adversarial Imitation Learning)を使用します。 また、aesimは従来のランキング指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示し、aesimがaliexpress検索の代理を演じ、オンラインに行かずにモデルを評価できることを示唆した。

Recent E-commerce applications benefit from the growth of deep learning techniques. However, we notice that many works attempt to maximize business objectives by closely matching offline labels which follow the supervised learning paradigm. This results in models obtain high offline performance in terms of Area Under Curve (AUC) and Normalized Discounted Cumulative Gain (NDCG), but cannot consistently increase the revenue metrics such as purchases amount of users. Towards the issues, we build a simulated search engine AESim that can properly give feedback by a well-trained discriminator for generated pages, as a dynamic dataset. Different from previous simulation platforms which lose connection with the real world, ours depends on the real data in AliExpress Search: we use adversarial learning to generate virtual users and use Generative Adversarial Imitation Learning (GAIL) to capture behavior patterns of users. Our experiments also show AESim can better reflect the online performance of ranking models than classic ranking metrics, implying AESim can play a surrogate of AliExpress Search and evaluate models without going online.
翻訳日:2021-07-19 14:41:41 公開日:2021-07-16
# ポーズ辞書学習による半教師付き3次元手指ポーズ推定

Semi-supervised 3D Hand-Object Pose Estimation via Pose Dictionary Learning ( http://arxiv.org/abs/2107.07676v1 )

ライセンス: Link先を確認
Zida Cheng, Siheng Chen, Ya Zhang(参考訳) 3次元手動ポーズ推定は,人間と環境の相互作用を理解する上で重要な課題である。 現在の手動ポーズ推定法は,高価で労働集約的な詳細な3Dラベルを必要とする。 データ収集の課題に対処するために,ポーズ辞書学習とオブジェクト指向座標系という2つの重要な手法を用いて,半教師付き3次元ポーズ推定手法を提案する。 提案するポーズ辞書学習モジュールは、再構成誤差により実現不可能なポーズを識別することができ、ラベルのないデータが監督信号を提供することができる。 提案するオブジェクト指向座標系は3次元推定をカメラの視点と等価にすることができる。 FPHAとHO-3Dデータセットを用いて実験を行った。 提案手法は,FPHA上のラベル付きデータの直接使用と比較して,手・対象物の推定誤差を19.5%/24.9%削減し,いくつかのベースライン法より優れる。 広範な実験により,提案手法のロバスト性が検証された。

3D hand-object pose estimation is an important issue to understand the interaction between human and environment. Current hand-object pose estimation methods require detailed 3D labels, which are expensive and labor-intensive. To tackle the problem of data collection, we propose a semi-supervised 3D hand-object pose estimation method with two key techniques: pose dictionary learning and an object-oriented coordinate system. The proposed pose dictionary learning module can distinguish infeasible poses by reconstruction error, enabling unlabeled data to provide supervision signals. The proposed object-oriented coordinate system can make 3D estimations equivariant to the camera perspective. Experiments are conducted on FPHA and HO-3D datasets. Our method reduces estimation error by 19.5% / 24.9% for hands/objects compared to straightforward use of labeled data on FPHA and outperforms several baseline methods. Extensive experiments also validate the robustness of the proposed method.
翻訳日:2021-07-19 14:40:39 公開日:2021-07-16
# 小型画像データセットの深層学習分類法の比較:収束型ニューラルネットワークから視覚変換器へ

A Comparison of Deep Learning Classification Methods on Small-scale Image Data set: from Converlutional Neural Networks to Visual Transformers ( http://arxiv.org/abs/2107.07699v1 )

ライセンス: Link先を確認
Peng Zhao, Chen Li, Md Mamunur Rahaman, Hechen Yang, Tao Jiang and Marcin Grzegorzek(参考訳) 近年、深層学習は画像分類において素晴らしい成果を上げている。 しかし、小さなデータセットのイメージ分類は良い研究結果が得られていない。 本稿ではまず,畳み込みニューラルネットワークと視覚トランスフォーマーの応用と特性について概説する。 一方,小さなデータセットが分類と解に与える影響について紹介する。 そこで, 各種モデルを用いて小データセット上で一連の実験を行い, 実験におけるいくつかのモデルの問題について議論した。 実験結果の比較により、モデル適用環境に応じて推奨深層学習モデルが与えられる。 最後に、将来の仕事の指示を与えます。

In recent years, deep learning has made brilliant achievements in image classification. However, image classification of small datasets is still not obtained good research results. This article first briefly explains the application and characteristics of convolutional neural networks and visual transformers. Meanwhile, the influence of small data set on classification and the solution are introduced. Then a series of experiments are carried out on the small datasets by using various models, and the problems of some models in the experiments are discussed. Through the comparison of experimental results, the recommended deep learning model is given according to the model application environment. Finally, we give directions for future work.
翻訳日:2021-07-19 14:40:25 公開日:2021-07-16
# 背景のショートカット学習の具体化:Few-Shot画像認識のための共有物体濃度

Rectifying the Shortcut Learning of Background: Shared Object Concentration for Few-Shot Image Recognition ( http://arxiv.org/abs/2107.07746v1 )

ライセンス: Link先を確認
Xu Luo, Longhui Wei, Liangjian Wen, Jinrong Yang, Lingxi Xie, Zenglin Xu, Qi Tian(参考訳) Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。 通常、各タスクには、新しいカテゴリのトレーニング例がほとんどない。 これにより、事前学習モデルは、よく一般化可能な知識にフォーカスするが、ドメイン固有の情報は無視する必要がある。 本稿では、画像背景がドメイン固有の知識の源であり、モデルがソースデータセットで学ぶためのショートカットであるが、新しいクラスに適応する際には有害であることを示す。 モデルがこのショートカット知識を学習するのを防ぐため,新しいFew-Shot LearningフレームワークであるCOSOCを提案し,事前学習と評価段階の両方で前景オブジェクトを自動的に抽出する。 cosocは2段階のアルゴリズムで、同じクラス内の異なる画像からのフォアグラウンドオブジェクトは背景よりも類似したパターンを共有している。 事前学習段階では,各クラスについて,前景のみを含む作物を単一クラスタで識別できるように,ランダムに切り抜かれた画像パッチのコントラストプリトレーニングされた特徴をクラスタ化する。 次に, 予備学習モデルを融合サンプリング戦略により前景オブジェクトに焦点を合わせるように強制し, 評価段階では, 実写課題の各訓練クラス内の画像の中から, 共有コンテンツを探し, 背景をフィルタリングする。 各クラスの認識された前景オブジェクトは、テスト画像の前景にマッチするために使用される。 2つのベンチマークでfslタスクをインダクティブ化するための広範囲な実験を行い,その性能を実証した。

Few-Shot image classification aims to utilize pretrained knowledge learned from a large-scale dataset to tackle a series of downstream classification tasks. Typically, each task involves only few training examples from brand-new categories. This requires the pretraining models to focus on well-generalizable knowledge, but ignore domain-specific information. In this paper, we observe that image background serves as a source of domain-specific knowledge, which is a shortcut for models to learn in the source dataset, but is harmful when adapting to brand-new classes. To prevent the model from learning this shortcut knowledge, we propose COSOC, a novel Few-Shot Learning framework, to automatically figure out foreground objects at both pretraining and evaluation stage. COSOC is a two-stage algorithm motivated by the observation that foreground objects from different images within the same class share more similar patterns than backgrounds. At the pretraining stage, for each class, we cluster contrastive-pretrain ed features of randomly cropped image patches, such that crops containing only foreground objects can be identified by a single cluster. We then force the pretraining model to focus on found foreground objects by a fusion sampling strategy; at the evaluation stage, among images in each training class of any few-shot task, we seek for shared contents and filter out background. The recognized foreground objects of each class are used to match foreground of testing images. Extensive experiments tailored to inductive FSL tasks on two benchmarks demonstrate the state-of-the-art performance of our method.
翻訳日:2021-07-19 14:40:17 公開日:2021-07-16
# マンハッタン世界推定に部分的に適合した屋内マッピングデータセットの正当化

Pose Normalization of Indoor Mapping Datasets Partially Compliant to the Manhattan World Assumption ( http://arxiv.org/abs/2107.07778v1 )

ライセンス: Link先を確認
Patrick H\"ubner, Martin Weinmann, Sven Wursthorn, Stefan Hinz(参考訳) 本稿では, 理想的なマンハッタン世界構造から逸脱した屋内マッピングジオメトリの多くに対して頑健な, 屋内マッピングポイント雲と三角形メッシュに対する新しいポーズ正規化手法を提案する。 複数のマンハッタン・ワールド・システムを含む建物では、最大のジオメトリーによって支えられた支配的なマンハッタン・ワールド・構造が決定され、アライメントに使用される。 第1のステップでは、選択された軸を水平床及び天井面に直交させる垂直配向を行う。 その後、得られた垂直軸まわりの回転が決定され、データセットを座標軸と水平に整列する。 提案手法は,複数の屋内マッピングデータセットに対して定量的に評価される。 提案手法の実装は,評価を再現するためのコードとともに公開を受理し,一般に公開する予定である。

In this paper, we present a novel pose normalization method for indoor mapping point clouds and triangle meshes that is robust against large fractions of the indoor mapping geometries deviating from an ideal Manhattan World structure. In the case of building structures that contain multiple Manhattan World systems, the dominant Manhattan World structure supported by the largest fraction of geometries is determined and used for alignment. In a first step, a vertical alignment orienting a chosen axis to be orthogonal to horizontal floor and ceiling surfaces is conducted. Subsequently, a rotation around the resulting vertical axis is determined that aligns the dataset horizontally with the coordinate axes. The proposed method is evaluated quantitatively against several publicly available indoor mapping datasets. Our implementation of the proposed procedure along with code for reproducing the evaluation will be made available to the public upon acceptance for publication.
翻訳日:2021-07-19 14:39:52 公開日:2021-07-16
# 3次元人物位置推定のための条件付きグラフ畳み込み

Conditional Directed Graph Convolution for 3D Human Pose Estimation ( http://arxiv.org/abs/2107.07797v1 )

ライセンス: Link先を確認
Wenbo Hu, Changgong Zhang, Fangneng Zhan, Lei Zhang, Tien-Tsin Wong(参考訳) グラフ畳み込みネットワークは、人間の骨格を無向グラフとして表現することで、3次元人間のポーズ推定を大幅に改善した。 しかし、この表現は関節の階層的な順序が明示的に示されないため、人間の骨格の明瞭な特徴を反映することができない。 本稿では,人間の骨格をノードとして,骨を親関節から子関節へ向けたエッジとして有向グラフとして表現することを提案する。 これにより、エッジの方向はノード間の階層的関係を明示的に反映することができる。 この表現に基づいて、空間時間有向グラフ畳み込み(ST-DGConv)を用いて、有向グラフの時間列で表される2次元ポーズの特徴を抽出する。 さらに、入力ポーズにグラフトポロジを条件付けることにより、異なるポーズに対する様々な非局所的依存を活用するための時空間有向グラフ畳み込み(ST-CondDGConv)を提案する。 また,ST-DGConv層とST-CondDGConv層を有するU字型ネットワークを構築し,U字型コンディショングラフ畳み込みネットワーク (U-CondDGCN) と名づけた。 U-CondDGCNの有効性を評価するため,Human3.6MとMPI-INF-3DHPの2つの大規模ベンチマーク実験を行った。 定量的および定性的な結果から,本手法が最高性能を達成した。 また,無向グラフよりも有向グラフの方が人間の骨格の階層構造をうまく利用でき,条件付き接続によって異なる種類のポーズに対して適応的なグラフトポロジーが得られることを示す。

Graph convolutional networks have significantly improved 3D human pose estimation by representing the human skeleton as an undirected graph. However, this representation fails to reflect the articulated characteristic of human skeletons as the hierarchical orders among the joints are not explicitly presented. In this paper, we propose to represent the human skeleton as a directed graph with the joints as nodes and bones as edges that are directed from parent joints to child joints. By so doing, the directions of edges can explicitly reflect the hierarchical relationships among the nodes. Based on this representation, we adopt the spatial-temporal directed graph convolution (ST-DGConv) to extract features from 2D poses represented in a temporal sequence of directed graphs. We further propose a spatial-temporal conditional directed graph convolution (ST-CondDGConv) to leverage varying non-local dependence for different poses by conditioning the graph topology on input poses. Altogether, we form a U-shaped network with ST-DGConv and ST-CondDGConv layers, named U-shaped Conditional Directed Graph Convolutional Network (U-CondDGCN), for 3D human pose estimation from monocular videos. To evaluate the effectiveness of our U-CondDGCN, we conducted extensive experiments on two challenging large-scale benchmarks: Human3.6M and MPI-INF-3DHP. Both quantitative and qualitative results show that our method achieves top performance. Also, ablation studies show that directed graphs can better exploit the hierarchy of articulated human skeletons than undirected graphs, and the conditional connections can yield adaptive graph topologies for different kinds of poses.
翻訳日:2021-07-19 14:39:40 公開日:2021-07-16
# 多発性骨髄腫分類のための補助タスク重み付けによる複数インスタンス学習

Multiple Instance Learning with Auxiliary Task Weighting for Multiple Myeloma Classification ( http://arxiv.org/abs/2107.07805v1 )

ライセンス: Link先を確認
Talha Qaiser, Stefan Winzeck, Theodore Barfoot, Tara Barwick, Simon J. Doran, Martin F. Kaiser, Linda Wedlake, Nina Tunariu, Dow-Mu Koh, Christina Messiou, Andrea Rockall, Ben Glocker(参考訳) 多発性骨髄腫(mm)の診断には全身磁気共鳴画像(wb-mri)が推奨される。 WB-MRIは骨格系全体にわたる疾患の部位を検出するのに使用されるが、かなりの専門知識が必要であり、大量の画像のために報告するのに時間がかかる。 放射線学的読影を支援するために,病気部位の局所化機能を備えたMM分類のための補助タスクベースマルチインスタンス学習手法(ATMIL)を提案する。 このアプローチは、アクティブな疾患のある地域を特定するために注意メカニズムを使用する患者レベルのアノテーションのみを必要とするため、魅力的です。 我々は,マルチタスク学習からアイデアを借用し,適応的重み付けによる補助タスクを定義し,データ不足の存在下での学習効率の向上を支援する。 本研究のアプローチは, 総合的, リアルな多施設臨床データに当てはまる。 また,ミルアテンションモジュールは骨領域を局所化する機構を提供し,補助タスクの適応的な重み付けにより性能が大幅に向上することを示す。

Whole body magnetic resonance imaging (WB-MRI) is the recommended modality for diagnosis of multiple myeloma (MM). WB-MRI is used to detect sites of disease across the entire skeletal system, but it requires significant expertise and is time-consuming to report due to the great number of images. To aid radiological reading, we propose an auxiliary task-based multiple instance learning approach (ATMIL) for MM classification with the ability to localize sites of disease. This approach is appealing as it only requires patient-level annotations where an attention mechanism is used to identify local regions with active disease. We borrow ideas from multi-task learning and define an auxiliary task with adaptive reweighting to support and improve learning efficiency in the presence of data scarcity. We validate our approach on both synthetic and real multi-center clinical data. We show that the MIL attention module provides a mechanism to localize bone regions while the adaptive reweighting of the auxiliary task considerably improves the performance.
翻訳日:2021-07-19 14:39:11 公開日:2021-07-16
# 視覚データセットのバイアスに関する調査

A Survey on Bias in Visual Datasets ( http://arxiv.org/abs/2107.07919v1 )

ライセンス: Link先を確認
Simone Fabbrizzi, Symeon Papadopoulos, Eirini Ntoutsi, Ioannis Kompatsiaris(参考訳) コンピュータビジョン(cv)は、いくつかのタスクで人間を上回って素晴らしい成果を上げている。 それにもかかわらず、適切なケアに対処しなければ大きな差別をもたらす可能性がある。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。 したがって、バイアスの理解と発見の問題はどちらも最も重要である。 しかし、これまでビジュアルデータセットのバイアスに関する包括的な調査は行われていない。 本研究の目的は, 視覚的データセットに影響を与えるバイアスを記述すること, 視覚的データセットにおけるバイアス発見と定量化の手法に関する文献をレビューすること, そして, バイアスを意識した視覚的データセットを収集するための既存の試みについて議論することである。 この研究の重要な結論は、ビジュアルデータセットにおけるバイアス発見と定量化の問題は依然としてオープンであり、手法と対処可能なバイアスの範囲の両方について改善の余地があるということです。 そこで本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。

Computer Vision (CV) has achieved remarkable results, outperforming humans in several tasks. Nonetheless, it may result in major discrimination if not dealt with proper care. CV systems highly depend on the data they are fed with and can learn and amplify biases within such data. Thus, both the problems of understanding and discovering biases are of utmost importance. Yet, to date there is no comprehensive survey on bias in visual datasets. To this end, this work aims to: i) describe the biases that can affect visual datasets; ii) review the literature on methods for bias discovery and quantification in visual datasets; iii) discuss existing attempts to collect bias-aware visual datasets. A key conclusion of our study is that the problem of bias discovery and quantification in visual datasets is still open and there is room for improvement in terms of both methods and the range of biases that can be addressed; moreover, there is no such thing as a bias-free dataset, so scientists and practitioners must become aware of the biases in their datasets and make them explicit. To this end, we propose a checklist that can be used to spot different types of bias during visual dataset collection.
翻訳日:2021-07-19 14:38:55 公開日:2021-07-16
# 深部ドメイン適応と細部オブジェクト検出の課題, 技術, データセットに関する調査

A Survey on Deep Domain Adaptation and Tiny Object Detection Challenges, Techniques and Datasets ( http://arxiv.org/abs/2107.07927v1 )

ライセンス: Link先を確認
Muhammed Muzammul and Xi Li(参考訳) 本稿では,コンピュータビジョンに基づく物体検出の課題と解決策を異なる手法で分析した。 主に3つのトレンド戦略,すなわち,1)ドメイン適応型ディープラーニングベースのアプローチ(差分ベース,Adversarialベース,Reコンストラクションベース,ハイブリッド)によるオブジェクト検出を強調した。 一般および小型物体検出関連課題について検討し, 歴史的および比較分析による解決法を示した。 第2部では,小型物体検出技術(多機能学習,データ拡張,トレーニング戦略(ts),コンテキストベース検出,ganベース検出)を中心に検討した。 パート3: 知識に富む発見を得るために, 傾向型を用いたプール操作, 畳み込みと畳み込みニューラルネットワーク (CNN) など, さまざまな物体検出手法について検討した。 さらに, CV, CNN, ODの基礎骨と考えられるR-CNN, Fast R-CNN, Faster R-CNN, YOLO, SSDなどのオブジェクト検出アルゴリズムの助けを借りて解析を行った。 我々は,MS-COCO,PASCAL VOC07,12,ImageNetなどの異なるデータセットの比較分析を行い,結果と結果を比較した。 最後に,既存の課題に対して今後の方向性を示した。 将来、ODメソッドとモデルはリアルタイムオブジェクト検出、追跡戦略のために分析できる。

This survey paper specially analyzed computer vision-based object detection challenges and solutions by different techniques. We mainly highlighted object detection by three different trending strategies, i.e., 1) domain adaptive deep learning-based approaches (discrepancy-based, Adversarial-based, Reconstruction-based , Hybrid). We examined general as well as tiny object detection-related challenges and offered solutions by historical and comparative analysis. In part 2) we mainly focused on tiny object detection techniques (multi-scale feature learning, Data augmentation, Training strategy (TS), Context-based detection, GAN-based detection). In part 3), To obtain knowledge-able findings, we discussed different object detection methods, i.e., convolutions and convolutional neural networks (CNN), pooling operations with trending types. Furthermore, we explained results with the help of some object detection algorithms, i.e., R-CNN, Fast R-CNN, Faster R-CNN, YOLO, and SSD, which are generally considered the base bone of CV, CNN, and OD. We performed comparative analysis on different datasets such as MS-COCO, PASCAL VOC07,12, and ImageNet to analyze results and present findings. At the end, we showed future directions with existing challenges of the field. In the future, OD methods and models can be analyzed for real-time object detection, tracking strategies.
翻訳日:2021-07-19 14:38:33 公開日:2021-07-16
# 継続による3次ハッシュコードの深層学習

Deep Learning to Ternary Hash Codes by Continuation ( http://arxiv.org/abs/2107.07987v1 )

ライセンス: Link先を確認
Mingrui Chen, Weiyu Li, Weizhi Lu(参考訳) 近年, ハードしきい値による深部特徴から生成した {0,1,-1}-三進符号は, 画像検索において {-1,1}-二進符号より優れていることが観察されている。 より優れた3次符号を得るため,ネットワークにスムーズな関数を付加することにより,コードと機能を共同で学習する提案を行った。 訓練中、関数は継続法によって非スムース三元関数へと進化する。 この方法は、離散関数を直接訓練することの難しさを回避し、3次符号の量子化誤差を低減する。 実験の結果,生成した符号は高い精度で検索できることがわかった。

Recently, it has been observed that {0,1,-1}-ternary codes which are simply generated from deep features by hard thresholding, tend to outperform {-1,1}-binary codes in image retrieval. To obtain better ternary codes, we for the first time propose to jointly learn the features with the codes by appending a smoothed function to the networks. During training, the function could evolve into a non-smoothed ternary function by a continuation method. The method circumvents the difficulty of directly training discrete functions and reduces the quantization errors of ternary codes. Experiments show that the generated codes indeed could achieve higher retrieval accuracy.
翻訳日:2021-07-19 14:38:06 公開日:2021-07-16
# 必要なすべての注意:画像検索のためのグローバルローカル、空間チャネルの注意

All the attention you need: Global-local, spatial-channel attention for image retrieval ( http://arxiv.org/abs/2107.08000v1 )

ライセンス: Link先を確認
Chull Hwan Song, Hye Joo Han, Yannis Avrithis(参考訳) 大規模インスタンスレベルの画像検索のための表現学習に対処する。 バックボーン、トレーニングパイプライン、損失関数とは別に、一般的なアプローチは、強力なグローバルイメージ表現の学習の核となる、異なる空間プーリングとアテンションメカニズムに焦点を当てている。 特徴テンソル(局所的および大域的)要素とそれが適用される次元(空間的およびチャネル的)との相互作用により、異なる形式の注意が向けられる。 残念なことに、それぞれの研究は1つか2つの注意を向け、分類、検出、検索といった異なる問題に適用している。 バックボーンネットワークの終端に設けたグローバルローカルアテンションモジュール(GLAM)について,局所的,グローバル的,空間的,チャネル的な4種類のアテンションを組み込んだアテンションモジュールを提案する。 我々は特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。 グローバルディスクリプタに着目し,あらゆる形式の注意の相互作用の実証的証拠を提供し,標準ベンチマークにおける技術の現状を改善する。

We address representation learning for large-scale instance-level image retrieval. Apart from backbone, training pipelines and loss functions, popular approaches have focused on different spatial pooling and attention mechanisms, which are at the core of learning a powerful global image representation. There are different forms of attention according to the interaction of elements of the feature tensor (local and global) and the dimensions where it is applied (spatial and channel). Unfortunately, each study addresses only one or two forms of attention and applies it to different problems like classification, detection or retrieval. We present global-local attention module (GLAM), which is attached at the end of a backbone network and incorporates all four forms of attention: local and global, spatial and channel. We obtain a new feature tensor and, by spatial pooling, we learn a powerful embedding for image retrieval. Focusing on global descriptors, we provide empirical evidence of the interaction of all forms of attention and improve the state of the art on standard benchmarks.
翻訳日:2021-07-19 14:37:55 公開日:2021-07-16
# CCVS:コンテキスト対応制御可能なビデオ合成

CCVS: Context-aware Controllable Video Synthesis ( http://arxiv.org/abs/2107.08037v1 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本発表では,時間的連続性に関する文脈的情報と微妙な制御のための補助的情報の合成過程を条件に,空間的解像度とリアリズムを改善するためのいくつかの重要な要素を含む,古いビデオクリップを合成するための自己教師付き学習手法を紹介する。 予測モデルは、予測のためのオートエンコーダの潜時空間と、学習可能な光フローモジュールを通して時空間一貫性を強制するためにも用いられる文脈情報を更新するための画像空間において、二重自己回帰的である。 オートエンコーダの外観及び時間領域における適応的訓練は、その出力のリアリズムをさらに改善するために使用される。 A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions. 提案手法の実装による実験は、複数のタスクと標準ベンチマークに対して非常に質的で定量的な結果を与える。

This presentation introduces a self-supervised learning approach to the synthesis of new video clips from old ones, with several new key elements for improved spatial resolution and realism: It conditions the synthesis process on contextual information for temporal continuity and ancillary information for fine control. The prediction model is doubly autoregressive, in the latent space of an autoencoder for forecasting, and in image space for updating contextual information, which is also used to enforce spatio-temporal consistency through a learnable optical flow module. Adversarial training of the autoencoder in the appearance and temporal domains is used to further improve the realism of its output. A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions. Experiments with an implementation of the proposed approach give very good qualitative and quantitative results on multiple tasks and standard benchmarks.
翻訳日:2021-07-19 14:37:37 公開日:2021-07-16
# 幾何学的値反復:強化学習のための動的エラー認識KL正規化

Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning ( http://arxiv.org/abs/2107.07659v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara(参考訳) 最近のentropy-regularized literatureのブームは、kullback-leibler(kl) 正規化が、軽度の仮定の下でエラーをキャンセルすることで強化学習(rl)アルゴリズムの利点をもたらすことを示している。 しかし、既存の解析では定数重み係数を持つ固定正則化に焦点をあてており、係数が動的に変化することが許されている場合は考慮されていない。 本稿では,動的係数スキームを考察し,最初の漸近誤差境界について述べる。 動的係数の誤差境界に基づいて,よりロバストな学習を優先して,誤差の大きさに応じて係数をチューニングする効果的な手法を提案する。 そこで本研究では, 動的誤差を考慮したKL係数設計を特徴とする幾何学的値反復法(GVI)を提案する。 実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることを示した。 GVIとディープネットワークの組み合わせは、一定のKL係数を持つアルゴリズムが大きく振動したり、あるいは収束に失敗するターゲットネットワークが存在しない場合でも、安定した学習挙動を示す。

The recent booming of entropy-regularized literature reveals that Kullback-Leibler (KL) regularization brings advantages to Reinforcement Learning (RL) algorithms by canceling out errors under mild assumptions. However, existing analyses focus on fixed regularization with a constant weighting coefficient and have not considered the case where the coefficient is allowed to change dynamically. In this paper, we study the dynamic coefficient scheme and present the first asymptotic error bound. Based on the dynamic coefficient error bound, we propose an effective scheme to tune the coefficient according to the magnitude of error in favor of more robust learning. On top of this development, we propose a novel algorithm: Geometric Value Iteration (GVI) that features a dynamic error-aware KL coefficient design aiming to mitigate the impact of errors on the performance. Our experiments demonstrate that GVI can effectively exploit the trade-off between learning speed and robustness over uniform averaging of constant KL coefficient. The combination of GVI and deep networks shows stable learning behavior even in the absence of a target network where algorithms with a constant KL coefficient would greatly oscillate or even fail to converge.
翻訳日:2021-07-19 14:36:51 公開日:2021-07-16
# 地中汚職を超えて--確率モデルにおける挿入と削除

Beyond In-Place Corruption: Insertion and Deletion In Denoising Probabilistic Models ( http://arxiv.org/abs/2107.07675v1 )

ライセンス: Link先を確認
Daniel D. Johnson, Jacob Austin, Rianne van den Berg, Daniel Tarlow(参考訳) denoising diffusion probabilistic models (ddpms) は、各例を反復的に分解し、崩壊したバージョンを元のものにマッピングする学習によって、シーケンス生成において印象的な結果を示している。 しかし、以前の研究は主に場所の汚職に焦点を当てており、それぞれのピクセルやトークンにノイズを加え、位置を同じに保っている。 本研究では,要素の挿入・削除が可能なシーケンスデータに対して,より広範な汚職プロセスやモデルについて検討する。 これらのモデルは算術シーケンスタスクにおいて標準のインプレースモデルよりも優れており、text8データセットでトレーニングされた場合、微調整なしでスペルエラーを修正することができる。

Denoising diffusion probabilistic models (DDPMs) have shown impressive results on sequence generation by iteratively corrupting each example and then learning to map corrupted versions back to the original. However, previous work has largely focused on in-place corruption, adding noise to each pixel or token individually while keeping their locations the same. In this work, we consider a broader class of corruption processes and denoising models over sequence data that can insert and delete elements, while still being efficient to train and sample from. We demonstrate that these models outperform standard in-place models on an arithmetic sequence task, and that when trained on the text8 dataset they can be used to fix spelling errors without any fine-tuning.
翻訳日:2021-07-19 14:36:31 公開日:2021-07-16
# ECG-Adv-GAN:条件付き生成逆数ネットワークによるECG逆数検出

ECG-Adv-GAN: Detecting ECG Adversarial Examples with Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2107.07677v1 )

ライセンス: Link先を確認
Khondker Fariha Hossain, Sharif Amit Kamran, Alireza Tavakkoli, Lei Pan, Daniel Ma, Sutharshan Rajasegarar, Chandan Karmaker(参考訳) 心電図(ECG)の取得には、特定のリズムの不規則を理解するための自動システムと分析パイプラインが必要である。 ディープニューラルネットワークは、ecg信号を追跡する一般的な技術となり、人間の専門家を上回っている。 それにもかかわらず、畳み込みニューラルネットワークは、ecg信号を誤分類し、モデルの精度を低下させる敵の例に影響を受けやすい。 さらに、アウトオブディストリビューションデータセットではうまく一般化されていない。 GANアーキテクチャは、敵のECG信号を合成し、既存のトレーニングデータを増やすために近年研究されている。 しかし、不整脈を検出するためにcnnベースの分類アーキテクチャを使用している。 現在、敵のサンプルを検出し不整脈を同時に分類できる汎用アーキテクチャは提案されていない。 そこで本研究では,異なるカテゴリの心電図信号を同時に生成し,心臓の異常を検知する条件生成適応ネットワークを提案する。 さらに,本モデルは,実例を合成するために,クラス固有のECG信号に条件付けされている。 その結果,本研究のアーキテクチャを比較検討し,実世界および逆境信号をベンチマークすることにより,正常/異常心電図信号検出における他の分類モデルに勝ることを示す。

Electrocardiogram (ECG) acquisition requires an automated system and analysis pipeline for understanding specific rhythm irregularities. Deep neural networks have become a popular technique for tracing ECG signals, outperforming human experts. Despite this, convolutional neural networks are susceptible to adversarial examples that can misclassify ECG signals and decrease the model's precision. Moreover, they do not generalize well on the out-of-distribution dataset. The GAN architecture has been employed in recent works to synthesize adversarial ECG signals to increase existing training data. However, they use a disjointed CNN-based classification architecture to detect arrhythmia. Till now, no versatile architecture has been proposed that can detect adversarial examples and classify arrhythmia simultaneously. To alleviate this, we propose a novel Conditional Generative Adversarial Network to simultaneously generate ECG signals for different categories and detect cardiac abnormalities. Moreover, the model is conditioned on class-specific ECG signals to synthesize realistic adversarial examples. Consequently, we compare our architecture and show how it outperforms other classification models in normal/abnormal ECG signal detection by benchmarking real world and adversarial signals.
翻訳日:2021-07-19 14:36:16 公開日:2021-07-16
# ScRAE: 1セル遺伝子発現データのクラスタリングのためのフレキシブルプリミティブを持つ決定論的正規化オートエンコーダ

ScRAE: Deterministic Regularized Autoencoders with Flexible Priors for Clustering Single-cell Gene Expression Data ( http://arxiv.org/abs/2107.07709v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Himanshu Asnani, Parag Singla, Prathosh AP(参考訳) シングルセルRNA配列(scRNA-seq)のクラスタリングは、その高次元性とデータスパーシティ("dropout"イベントとしても知られる)のため、統計的および計算上の問題を引き起こす。 近年,RAE(Regularized Auto-Encoder)に基づくディープニューラルネットワークモデルが,ロバストな低次元表現の学習に成功している。 RAEの基本的な考え方は、高次元のデータ空間から低次元の潜伏空間と逆転空間への非線形写像を学習し、同時に潜伏空間に分布を先行させ、正規化効果をもたらすことである。 本稿では,RAEは偏差トレードオフという悪名高い問題に悩まされていることを論じる。 遅延正規化のない単純なAEはデータの過度な適合をもたらすが、非常に強力な事前処理は表現不足やクラスタリングの低下につながる。 以上の課題に対処するため,単一セルRNAシークエンシングデータの効率的なクラスタリングのためのRAEフレームワーク( scRAE と呼ばれる)を提案する。 scRAEは決定論的AEと柔軟に学習可能な先行ジェネレータネットワークから構成されており、AEと共同で訓練されている。 これにより、scRAEは潜在空間におけるバイアスと分散の間のトレードオフを改善することができる。 提案手法の有効性を実世界の複数セルの遺伝子発現データセットを用いて実験的に実証する。

Clustering single-cell RNA sequence (scRNA-seq) data poses statistical and computational challenges due to their high-dimensionality and data-sparsity, also known as `dropout' events. Recently, Regularized Auto-Encoder (RAE) based deep neural network models have achieved remarkable success in learning robust low-dimensional representations. The basic idea in RAEs is to learn a non-linear mapping from the high-dimensional data space to a low-dimensional latent space and vice-versa, simultaneously imposing a distributional prior on the latent space, which brings in a regularization effect. This paper argues that RAEs suffer from the infamous problem of bias-variance trade-off in their naive formulation. While a simple AE without a latent regularization results in data over-fitting, a very strong prior leads to under-representation and thus bad clustering. To address the above issues, we propose a modified RAE framework (called the scRAE) for effective clustering of the single-cell RNA sequencing data. scRAE consists of deterministic AE with a flexibly learnable prior generator network, which is jointly trained with the AE. This facilitates scRAE to trade-off better between the bias and variance in the latent space. We demonstrate the efficacy of the proposed method through extensive experimentation on several real-world single-cell Gene expression datasets.
翻訳日:2021-07-19 14:35:58 公開日:2021-07-16
# 損失ベースの優先順位付けはいつ失敗するのか?

When does loss-based prioritization fail? ( http://arxiv.org/abs/2107.07741v1 )

ライセンス: Link先を確認
Niel Teng Hu, Xinyu Hu, Rosanne Liu, Sara Hooker, Jason Yosinski(参考訳) すべての例が等しく作られるわけではないが、標準のディープニューラルネットワークトレーニングプロトコルは、各トレーニングポイントを均一に扱う。 各例は、サンプルが学習プロトコルにどの程度貢献するかに関わらず、ネットワークを通じて同じ回数で前方および後方に伝播される。 最近の研究は、この均一な治療から逸脱してトレーニングを加速する方法を提案している。 一般的な手法は、損失の少ない例が既にモデルによって学習されているという直観によって損失に寄与するアップウェイトな例を伴っているため、トレーニング手順に対するその限界値が低くすべきである。 この見解は、高損失例でモデルを更新することがモデルにとって有益であると仮定する。 しかし、これは騒々しい実世界のデータには当てはまらないかもしれない。 本稿では,損失に基づく加速度法がノイズや破損したデータを伴うシナリオで劣化することを示す。 我々の研究は、ノイズを他の困難な例から正しく分離する必要がある例の計測方法を提案する。

Not all examples are created equal, but standard deep neural network training protocols treat each training point uniformly. Each example is propagated forward and backward through the network the same amount of times, independent of how much the example contributes to the learning protocol. Recent work has proposed ways to accelerate training by deviating from this uniform treatment. Popular methods entail up-weighting examples that contribute more to the loss with the intuition that examples with low loss have already been learned by the model, so their marginal value to the training procedure should be lower. This view assumes that updating the model with high loss examples will be beneficial to the model. However, this may not hold for noisy, real world data. In this paper, we theorize and then empirically demonstrate that loss-based acceleration methods degrade in scenarios with noisy and corrupted data. Our work suggests measures of example difficulty need to correctly separate out noise from other types of challenging examples.
翻訳日:2021-07-19 14:35:34 公開日:2021-07-16
# 分子特性予測のための特性認識適応関係ネットワーク

Property-aware Adaptive Relation Networks for Molecular Property Prediction ( http://arxiv.org/abs/2107.07994v1 )

ライセンス: Link先を確認
Yaqing Wang, Abulikemu Abuduweili, Dejing Dou(参考訳) 分子特性予測は、標的特性を持つ候補分子を発見するための薬物発見において重要な役割を担っている。 しかし、分子特性予測は基本的に数ショットの問題であり、通常のモデルを得るのが困難である。 本稿では,数発の分子特性予測問題に対する特性認識適応関係ネットワーク(PAR)を提案する。 既存の研究と比較すると, 分子のサブ構造と分子間の関係は, 様々な分子特性を考慮して異なるという事実を生かしている。 私たちのparは既存のグラフベースの分子エンコーダと互換性があり、さらにプロパティアウェアな分子埋め込みとモデル分子関係グラフを適応的に得ることができる。 結果関係グラフは、各タスク内の効果的なラベル伝播も促進する。 ベンチマーク分子特性予測データセットの大規模な実験により,本手法は常に最先端の手法より優れており,分子の埋め込みとモデル分子関係グラフを適切に得ることを示す。

Molecular property prediction plays a fundamental role in drug discovery to discover candidate molecules with target properties. However, molecular property prediction is essentially a few-shot problem which makes it hard to obtain regular models. In this paper, we propose a property-aware adaptive relation networks (PAR) for the few-shot molecular property prediction problem. In comparison to existing works, we leverage the facts that both substructures and relationships among molecules are different considering various molecular properties. Our PAR is compatible with existing graph-based molecular encoders, and are further equipped with the ability to obtain property-aware molecular embedding and model molecular relation graph adaptively. The resultant relation graph also facilitates effective label propagation within each task. Extensive experiments on benchmark molecular property prediction datasets show that our method consistently outperforms state-of-the-art methods and is able to obtain property-aware molecular embedding and model molecular relation graph properly.
翻訳日:2021-07-19 14:35:20 公開日:2021-07-16
# MODRL/D-EL:多目的最適化のための進化学習による多目的深層強化学習

MODRL/D-EL: Multiobjective Deep Reinforcement Learning with Evolutionary Learning for Multiobjective Optimization ( http://arxiv.org/abs/2107.07961v1 )

ライセンス: Link先を確認
Yongxin Zhang, Jiahai Wang, Zizhen Zhang, Yalan Zhou(参考訳) 近年,組合せ最適化問題を解決するための学習に基づくヒューリスティックスが注目を集めている。 既存の作品の多くは単純な制約付き単一目的問題のみを考えるが、実世界の問題の多くは多目的的な視点を持ち、豊富な制約を含む。 本稿では、時間窓付き多目的車両ルーティング問題(MO-VRPTW)と呼ばれる、典型的な複雑な問題に対する進化学習アルゴリズムを用いた多目的深部強化学習を提案する。 提案アルゴリズムでは,分解戦略を適用し,一連の注意モデルに対するサブプロブレムを生成する。 注意モデルをさらに強化するために、包括的コンテキスト情報を導入する。 進化学習はモデルのパラメータを微調整するためにも用いられる。 MO-VRPTWインスタンスの実験結果は、提案アルゴリズムが他の学習ベースおよび反復型アプローチよりも優れていることを示す。

Learning-based heuristics for solving combinatorial optimization problems has recently attracted much academic attention. While most of the existing works only consider the single objective problem with simple constraints, many real-world problems have the multiobjective perspective and contain a rich set of constraints. This paper proposes a multiobjective deep reinforcement learning with evolutionary learning algorithm for a typical complex problem called the multiobjective vehicle routing problem with time windows (MO-VRPTW). In the proposed algorithm, the decomposition strategy is applied to generate subproblems for a set of attention models. The comprehensive context information is introduced to further enhance the attention models. The evolutionary learning is also employed to fine-tune the parameters of the models. The experimental results on MO-VRPTW instances demonstrate the superiority of the proposed algorithm over other learning-based and iterative-based approaches.
翻訳日:2021-07-19 14:34:42 公開日:2021-07-16
# 視線追跡校正のための新しいロバスト多変量モード推定器

A New Robust Multivariate Mode Estimator for Eye-tracking Calibration ( http://arxiv.org/abs/2107.08030v1 )

ライセンス: Link先を確認
Adrien Brilhault, Sergio Neuenschwander, Ricardo Araujo Rios(参考訳) 本研究では,多変量分布のメインモードを推定する新しい手法を提案し,アイトラッキングキャリブレーションに適用する。 乳児やサルなどの非協力的な被験者による視線追跡実験を行う場合、キャリブレーションデータは一般的に高い汚染に悩まされる。 アウトリアーは通常、被験者がキャリブレーションポイントを見ていない時間間隔に対応するクラスタに編成される。 このタイプのマルチモーダル分布では、ほとんどの中心傾向尺度は主固定座標(第1モード)の推定に失敗するため、視線を画面座標にマッピングする際にエラーや不正確さが生じる。 そこで我々は,再帰的な深度に基づくフィルタリングに依存するBRILという,多変量分布の第1モードを同定するアルゴリズムを開発した。 この手法はガウス分布と一様分布の人工混合体で試験され、既存の手法と比較された(従来の深さ中央値、位置と散乱の頑健な推定器、クラスタリングに基づくアプローチ)。 異常値の比率が非常に高い分布であっても,クラスタにグループ化され,ランダムに分布する,優れた性能を得た。 最後に,カプシンサルを用いた眼追跡校正による実験データを用いて実世界のシナリオにおいて,特に他のアルゴリズムが精度に欠ける分布について,本手法の強みを示す。

We propose in this work a new method for estimating the main mode of multivariate distributions, with application to eye-tracking calibrations. When performing eye-tracking experiments with poorly cooperative subjects, such as infants or monkeys, the calibration data generally suffer from high contamination. Outliers are typically organized in clusters, corresponding to the time intervals when subjects were not looking at the calibration points. In this type of multimodal distributions, most central tendency measures fail at estimating the principal fixation coordinates (the first mode), resulting in errors and inaccuracies when mapping the gaze to the screen coordinates. Here, we developed a new algorithm to identify the first mode of multivariate distributions, named BRIL, which rely on recursive depth-based filtering. This novel approach was tested on artificial mixtures of Gaussian and Uniform distributions, and compared to existing methods (conventional depth medians, robust estimators of location and scatter, and clustering-based approaches). We obtained outstanding performances, even for distributions containing very high proportions of outliers, both grouped in clusters and randomly distributed. Finally, we demonstrate the strength of our method in a real-world scenario using experimental data from eye-tracking calibrations with Capuchin monkeys, especially for distributions where other algorithms typically lack accuracy.
翻訳日:2021-07-19 14:34:30 公開日:2021-07-16
# 関節グラフラッソの効率的な近位勾配アルゴリズム

Efficient proximal gradient algorithms for joint graphical lasso ( http://arxiv.org/abs/2107.07799v1 )

ライセンス: Link先を確認
Jie Chen, Ryosuke Shimmura and Joe Suzuki(参考訳) スパースデータから非方向のグラフィカルモデルを学ぶことを検討する。 グラフィカル・ラッソ (GL) に対していくつかの効率的なアルゴリズムが提案されているが、乗算器の交互方向法 (ADMM) がジョイント・グラフィカル・ラッソ (JGL) の主要なアプローチである。 本稿では,JGL のバックトラックオプションを伴わない近位勾配法を提案する。 これらの手順は1次で比較的単純であり、サブプロブレムは閉じた形で効率的に解かれる。 さらに、JGL問題の解法とアルゴリズムの反復に対する有界性を示す。 数値計算の結果,提案アルゴリズムは高精度かつ精度が高く,その効率は最先端のアルゴリズムと競合することがわかった。

We consider learning an undirected graphical model from sparse data. While several efficient algorithms have been proposed for graphical lasso (GL), the alternating direction method of multipliers (ADMM) is the main approach taken concerning for joint graphical lasso (JGL). We propose proximal gradient procedures with and without a backtracking option for the JGL. These procedures are first-order and relatively simple, and the subproblems are solved efficiently in closed form. We further show the boundedness for the solution of the JGL problem and the iterations in the algorithms. The numerical results indicate that the proposed algorithms can achieve high accuracy and precision, and their efficiency is competitive with state-of-the-art algorithms.
翻訳日:2021-07-19 14:33:40 公開日:2021-07-16
# アノテーションの欠如による生物画像評価のための創発的自己教師学習--新型コロナウイルスのケーススタディ

Exploiting generative self-supervised learning for the assessment of biological images with lack of annotations: a COVID-19 case-study ( http://arxiv.org/abs/2107.07761v1 )

ライセンス: Link先を確認
Alessio Mascolini, Dario Cardamone, Francesco Ponzio, Santa Di Cataldo, Elisa Ficarra(参考訳) 生物画像のコンピュータ支援分析は、多くの場合、大規模な注釈付きデータセットの広範な訓練を必要とする。 本稿では,StyleGAN2アーキテクチャに基づく識別器学習者であるGAN-DLについて述べる。 本稿では, 線形サポートベクトルマシンとワッサーシュタイン生成共振器ネットワークが組み合わさって, 原画像に基づく高スループット複合スクリーニングを可能にすることを示す。 VEROおよびHRCE細胞株のSARS-CoV-2感染抑制試験において,活性および不活性化合物の分類を行った。 従来の手法とは対照的に,ディープラーニングに基づくアプローチでは,サンプル作成プロセス中に通常収集されるアノテーション以外のアノテーションは不要である。 我々はRxRx19a Sars-CoV-2画像の収集実験を行った。 このデータセットは、VEROおよびHRCE細胞株のSARS-CoV-2からのin vitro感染を調節するための規制承認または後期臨床試験化合物の能力を評価するために生成された蛍光画像からなる。 本手法は, 分類作業だけでなく, 被験者に対する線量反応曲線を, 自己教師ありで効果的に導出できることを示す。 最後に,RxRx1蛍光画像コレクションの4つの異なるセルタイプを分類し,ゼロショット学習タスクをうまく処理することで,その一般化能力を実証する。

Computer-aided analysis of biological images typically requires extensive training on large-scale annotated datasets, which is not viable in many situations. In this paper we present GAN-DL, a Discriminator Learner based on the StyleGAN2 architecture, which we employ for self-supervised image representation learning in the case of fluorescent biological images. We show that Wasserstein Generative Adversarial Networks combined with linear Support Vector Machines enable high-throughput compound screening based on raw images. We demonstrate this by classifying active and inactive compounds tested for the inhibition of SARS-CoV-2 infection in VERO and HRCE cell lines. In contrast to previous methods, our deep learning based approach does not require any annotation besides the one that is normally collected during the sample preparation process. We test our technique on the RxRx19a Sars-CoV-2 image collection. The dataset consists of fluorescent images that were generated to assess the ability of regulatory-approved or in late-stage clinical trials compound to modulate the in vitro infection from SARS-CoV-2 in both VERO and HRCE cell lines. We show that our technique can be exploited not only for classification tasks, but also to effectively derive a dose response curve for the tested treatments, in a self-supervised manner. Lastly, we demonstrate its generalization capabilities by successfully addressing a zero-shot learning task, consisting in the categorization of four different cell types of the RxRx1 fluorescent images collection.
翻訳日:2021-07-19 14:33:26 公開日:2021-07-16
# HD特徴マップを用いた注意に基づく自動車の自己ローカライゼーション

Attention-based Vehicle Self-Localization with HD Feature Maps ( http://arxiv.org/abs/2107.07787v1 )

ライセンス: Link先を確認
Nico Engel, Vasileios Belagiannis and Klaus Dietmayer(参考訳) 本稿では,ポイントベース深層ニューラルネットワークを用いた車両の自己局所化手法を提案する。 我々のアプローチは測定と点の特徴、すなわち 高解像度のデジタルマップから車両のポーズを推測するランドマーク。 最良関連を学習し,各点集合間の局所情報を組み込むため,測定値と対応するランドマークとを一致させるアテンション機構を提案する。 最後に、この表現をポイントクラウド登録とその後のポーズ回帰タスクに使用します。 さらに,実世界のデータから膨大なデータセットを作成するコストを削減し,デプロイメントプロセスを容易にするための計測値とランドマークを人工的に生成するトレーニングシミュレーションフレームワークを提案する。 我々は,本手法をデータセット上で評価し,Kitti odometry データセットの適応版として,関連するアプローチと比較して優れた性能を実現し,また,支配的な一般化能力を示す。

We present a vehicle self-localization method using point-based deep neural networks. Our approach processes measurements and point features, i.e. landmarks, from a high-definition digital map to infer the vehicle's pose. To learn the best association and incorporate local information between the point sets, we propose an attention mechanism that matches the measurements to the corresponding landmarks. Finally, we use this representation for the point-cloud registration and the subsequent pose regression task. Furthermore, we introduce a training simulation framework that artificially generates measurements and landmarks to facilitate the deployment process and reduce the cost of creating extensive datasets from real-world data. We evaluate our method on our dataset, as well as an adapted version of the Kitti odometry dataset, where we achieve superior performance compared to related approaches; and additionally show dominant generalization capabilities.
翻訳日:2021-07-19 14:33:04 公開日:2021-07-16
# 組込みデバイスにおけるUAVマルチスペクトル画像を用いた効率的なU-Netベースツリークラウンのデライン化

Efficient automated U-Net based tree crown delineation using UAV multi-spectral imagery on embedded devices ( http://arxiv.org/abs/2107.07826v1 )

ライセンス: Link先を確認
Kostas Blekos, Stavros Nousias, Aris S Lalos(参考訳) ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。 文学作品の多くは、大量の計算資源とストレージリソースを必要とする伝統的なセグメンテーション手法を使用している。 ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善しましたが、トレーニングには膨大なデータセットと推論のための重要なリソースが必要です。 さらに重要なのは、上記のアプリケーションでは、リアルタイムで堅牢なパフォーマンスを提供するエネルギー効率の高い組み込みビジョンハードウェアが不可欠である。 本研究では,マルチスペクトル画像を用いて効果的にトレーニングされるU-Netベースのツリーデライン化手法を提案する。 ローカライゼーションを実行するディープアーキテクチャ、すなわち各ピクセルに対応するクラスラベルは、小さなセグメンテーションイメージのトレーニングを可能にするためにうまく使われています。 基底真理データは従来の画像復調法と分割法を用いて生成した。 ディープラーニングアプローチ用に設計された組込みプラットフォームで提案したDNNを効率的に実行できるようにするため,従来のモデル圧縮とアクセラレーション手法を用いる。 マルチスペクトルカメラを備えたUAVから収集したデータを用いた広範囲な評価研究は,デライン精度と実行効率の観点から提案手法の有効性を示す。

Delineation approaches provide significant benefits to various domains, including agriculture, environmental and natural disasters monitoring. Most of the work in the literature utilize traditional segmentation methods that require a large amount of computational and storage resources. Deep learning has transformed computer vision and dramatically improved machine translation, though it requires massive dataset for training and significant resources for inference. More importantly, energy-efficient embedded vision hardware delivering real-time and robust performance is crucial in the aforementioned application. In this work, we propose a U-Net based tree delineation method, which is effectively trained using multi-spectral imagery but can then delineate single-spectrum images. The deep architecture that also performs localization, i.e., a class label corresponds to each pixel, has been successfully used to allow training with a small set of segmented images. The ground truth data were generated using traditional image denoising and segmentation approaches. To be able to execute the proposed DNN efficiently in embedded platforms designed for deep learning approaches, we employ traditional model compression and acceleration methods. Extensive evaluation studies using data collected from UAVs equipped with multi-spectral cameras demonstrate the effectiveness of the proposed methods in terms of delineation accuracy and execution efficiency.
翻訳日:2021-07-19 14:32:51 公開日:2021-07-16
# 生成的逆ネットワークに基づく絵画スタイルアウェアマンガ彩色

Painting Style-Aware Manga Colorization Based on Generative Adversarial Networks ( http://arxiv.org/abs/2107.07943v1 )

ライセンス: Link先を確認
Yugo Shimizu, Ryosuke Furuta, Delong Ouyang, Yukinobu Taniguchi, Ryota Hinami, Shonosuke Ishiwatari(参考訳) 日本の漫画(漫画)は伝統的にモノクロ形式で作られている。 近年では、モノクロ漫画に加えて、より魅力的なメディアであるフルカラー漫画が登場している。 残念なことに、カラーコミックは手作業で着色する必要があるため、高い労働コストがかかる。 近年,自動着色手法が提案されているが,そのほとんどが漫画ではなくイラストとしてデザインされている。 イラストとは異なり、漫画は多くの連続したイメージで構成されているため、絵のスタイルは一貫していなければならない。 そこで本研究では,gan(generative adversarial networks)に基づく半自動カラー化手法を提案する。 提案手法では,画面トーン画像とフラットカラー画像の対を入力として,カラー画像を出力する。 実験の結果,提案手法は既存手法よりも優れた性能が得られることがわかった。

Japanese comics (called manga) are traditionally created in monochrome format. In recent years, in addition to monochrome comics, full color comics, a more attractive medium, have appeared. Unfortunately, color comics require manual colorization, which incurs high labor costs. Although automatic colorization methods have been recently proposed, most of them are designed for illustrations, not for comics. Unlike illustrations, since comics are composed of many consecutive images, the painting style must be consistent. To realize consistent colorization, we propose here a semi-automatic colorization method based on generative adversarial networks (GAN); the method learns the painting style of a specific comic from small amount of training data. The proposed method takes a pair of a screen tone image and a flat colored image as input, and outputs a colorized image. Experiments show that the proposed method achieves better performance than the existing alternatives.
翻訳日:2021-07-19 14:32:34 公開日:2021-07-16
# CT肺腫瘍分節に対するCMEDL (unpaired cross-modality ed distillation) の有用性

Unpaired cross-modality educed distillation (CMEDL) applied to CT lung tumor segmentation ( http://arxiv.org/abs/2107.07985v1 )

ライセンス: Link先を確認
Jue Jiang, Andreas Rimner, Joseph O. Deasy, and Harini Veeraraghavan(参考訳) 放射線治療を正確に計画し,実施し,治療効果を測定するためには,CTによる肺癌の正確な切除が必要である。 これは、軟組織コントラストが低いため、中腸に近い腫瘍では特に困難である。 そこで,教師のMRIネットワークが生徒のCTネットワークを誘導し,前景と背景の違いを示唆する特徴を抽出する,新しい相互モダリティ教育蒸留(CMEDL)手法を開発した。 i)イメージ・トゥ・イメージ(I2I)変換を用いたペア画像セットと,(ii)全ネットワークの同時トレーニングによる大規模なトレーニングセットによる教師ネットワークの事前学習の2つの要件を排除した。 我々のフレームワークは、エンドツーエンドのトレーニングなしのi2i翻訳、教師、学生セグメンテーションネットワークを用いています。 我々のフレームワークは任意のI2Iとセグメンテーションネットワークと組み合わせることができる。 3つのセグメンテーションと2つのI2I法によるフレームワークの実現可能性を示す。 全ネットワークは377個のCTと82個のT2w MRIで訓練された。 MRI情報をCTに取り入れるためのアブレーション試験と異なる方法が実施された。 dice similarity (dsc)、surface dice (sdsc)、hausdorff distance at the 95$^{th}$ percentile (hd95)を用いて精度を測定した。 CMEDL法は,非CMEDL法よりも有意に(p$<001)精度が高かった。 高いセグメンテーション精度(sDSC 0.83$\pm$ 0.16、HD95 5.20$\pm$ 6.86mm)を生み出した。 CMEDL は pMRI や CT と pMRI を併用した場合よりも精度が高かった。

Accurate and robust segmentation of lung cancers from CTs is needed to more accurately plan and deliver radiotherapy and to measure treatment response. This is particularly difficult for tumors located close to mediastium, due to low soft-tissue contrast. Therefore, we developed a new cross-modality educed distillation (CMEDL) approach, using unpaired CT and MRI scans, whereby a teacher MRI network guides a student CT network to extract features that signal the difference between foreground and background. Our contribution eliminates two requirements of distillation methods: (i) paired image sets by using an image to image (I2I) translation and (ii) pre-training of the teacher network with a large training set by using concurrent training of all networks. Our framework uses an end-to-end trained unpaired I2I translation, teacher, and student segmentation networks. Our framework can be combined with any I2I and segmentation network. We demonstrate our framework's feasibility using 3 segmentation and 2 I2I methods. All networks were trained with 377 CT and 82 T2w MRI from different sets of patients. Ablation tests and different strategies for incorporating MRI information into CT were performed. Accuracy was measured using Dice similarity (DSC), surface Dice (sDSC), and Hausdorff distance at the 95$^{th}$ percentile (HD95). The CMEDL approach was significantly (p $<$ 0.001) more accurate than non-CMEDL methods, quantitatively and visually. It produced the highest segmentation accuracy (sDSC of 0.83 $\pm$ 0.16 and HD95 of 5.20 $\pm$ 6.86mm). CMEDL was also more accurate than using either pMRI's or the combination of CT's with pMRI's for segmentation.
翻訳日:2021-07-19 14:32:22 公開日:2021-07-16
# 自動暗号ファイナンスエージェントのアーキテクチャ

Architecture of Automated Crypto-Finance Agent ( http://arxiv.org/abs/2107.07769v1 )

ライセンス: Link先を確認
Ali Raheman, Anton Kolonin, Ben Goertzel, Gergely Hegykozi, Ikram Ansari(参考訳) 本稿では,資産選択,ポートフォリオバランシング,流動性提供,トレーディングなどの活動を含む,分散金融におけるアクティブポートフォリオ管理のための自律エージェントの認知アーキテクチャを提案する。 アーキテクチャの一部の実装が提供され、予備的な結果と結論が提供される。

We present the cognitive architecture of an autonomous agent for active portfolio management in decentralized finance, involving activities such as asset selection, portfolio balancing, liquidity provision, and trading. Partial implementation of the architecture is provided and supplied with preliminary results and conclusions.
翻訳日:2021-07-19 14:31:53 公開日:2021-07-16
# デュアルバンド通信システムにおけるディープラーニングに基づくハイブリッドプリコーディング

Deep Learning Based Hybrid Precoding in Dual-Band Communication Systems ( http://arxiv.org/abs/2107.07843v1 )

ライセンス: Link先を確認
Rafail Ismayilov, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak(参考訳) 本研究では,サブ6GHz帯から抽出した空間的・時間的情報を用いてミリ波帯のビームを予測・追跡する深層学習手法を提案する。 より詳しくは、サブ6GHz帯とmmWave帯の両方で動作するデュアルバンド通信システムについて考察する。 目的は、アナログプリコーダ(RFプリコーダ)を有限コードブックから取り出すハイブリッドアナログ/デジタルアーキテクチャにより、mmWaveバンド内の達成可能な相互情報を最大化することである。 従来の探索手法を用いてRFプリコーダを見つけると、信号のオーバーヘッドが大きくなり、RF鎖の数や位相シフト器の分解能が大きくなる。 提案手法は、サブ-6ghz帯とmm波帯の時空間相関を利用して、サブ6ghzチャンネル測定からmm波帯のrfプリコーダを予測・追跡する。 提案手法は,従来型の検索ヒューリスティックに比べて信号処理のオーバーヘッドを大幅に削減するために,より小さな候補セットを提供する。 シミュレーションにより,提案手法は信号のオーバヘッドを大幅に低減しつつ,合理的な達成率を提供できることが示された。

We propose a deep learning-based method that uses spatial and temporal information extracted from the sub-6GHz band to predict/track beams in the millimeter-wave (mmWave) band. In more detail, we consider a dual-band communication system operating in both the sub-6GHz and mmWave bands. The objective is to maximize the achievable mutual information in the mmWave band with a hybrid analog/digital architecture where analog precoders (RF precoders) are taken from a finite codebook. Finding a RF precoder using conventional search methods incurs large signalling overhead, and the signalling scales with the number of RF chains and the resolution of the phase shifters. To overcome the issue of large signalling overhead in the mmWave band, the proposed method exploits the spatiotemporal correlation between sub-6GHz and mmWave bands, and it predicts/tracks the RF precoders in the mmWave band from sub-6GHz channel measurements. The proposed method provides a smaller candidate set so that performing a search over that set significantly reduces the signalling overhead compared with conventional search heuristics. Simulations show that the proposed method can provide reasonable achievable rates while significantly reducing the signalling overhead.
翻訳日:2021-07-19 14:31:49 公開日:2021-07-16
# ミリ波通信システムにおけるディープラーニングビーム最適化

Deep Learning Beam Optimization in Millimeter-Wave Communication Systems ( http://arxiv.org/abs/2107.07846v1 )

ライセンス: Link先を確認
Rafail Ismayilov, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak(参考訳) 本稿では,固定点アルゴリズムとニューラルネットワークを組み合わせることで,ミリ波通信システムにおける連立離散変数と連続変数を最適化し,ユーザレートを適切に定義した意味で割り当てる手法を提案する。 より詳しくは、離散変数にはユーザアクセスポイント割り当てとビーム構成が含まれ、連続変数はパワー割り当てを参照する。 ニューラルネットワークを用いてユーザ関連情報からビーム構成を予測する。 予測されたビーム構成により、不動点アルゴリズムは電力を割り当て、ユーザが干渉のないレートの最大割合を達成するためにアクセスポイントを割り当てる。 提案手法はビーム構成を"ワンショット"な方法で予測し,ビーム探索手順の複雑さを著しく低減する。 さらに、予測されたビーム配置が最適でない場合でも、不動点アルゴリズムは与えられたビーム配置に対して最適な電力割当とユーザアクセスポイント割当を提供する。

We propose a method that combines fixed point algorithms with a neural network to optimize jointly discrete and continuous variables in millimeter-wave communication systems, so that the users' rates are allocated fairly in a well-defined sense. In more detail, the discrete variables include user-access point assignments and the beam configurations, while the continuous variables refer to the power allocation. The beam configuration is predicted from user-related information using a neural network. Given the predicted beam configuration, a fixed point algorithm allocates power and assigns users to access points so that the users achieve the maximum fraction of their interference-free rates. The proposed method predicts the beam configuration in a "one-shot" manner, which significantly reduces the complexity of the beam search procedure. Moreover, even if the predicted beam configurations are not optimal, the fixed point algorithm still provides the optimal power allocation and user-access point assignments for the given beam configuration.
翻訳日:2021-07-19 14:31:29 公開日:2021-07-16
# ブロックチェーン技術:bitcoin、暗号通貨、アプリケーション

Blockchain Technology: Bitcoins, Cryptocurrency and Applications ( http://arxiv.org/abs/2107.07964v1 )

ライセンス: Link先を確認
Bosubabu Sambana(参考訳) Blockchainは、デジタル通貨をセキュアに交換し、取引と取引を効率的に行うために使用される分散台帳であり、ネットワークの各ユーザは、新しい取引を検証するために暗号化台帳の最小のコピーにアクセスすることができる。 blockchain ledgerは、過去に実行されたすべてのbitcoinトランザクションのコレクションである。 基本的には、個々のトランザクションのバッチを保持するタンパ保護データ構造ブロックを継続的に成長させ続ける分散データベースである。 完了したブロックは線形および時間順に追加される。 各ブロックは、前のブロックを指し示すタイムスタンプと情報リンクを含んでいる。 bitcoinはピアツーピアのパーミッションレスネットワークで、すべてのユーザーがネットワークに接続して新しいトランザクションを送信して、新しいブロックの検証と作成を可能にする。 サトシ・ナカモト(satoshi nakamoto)は、bitcoinのデジタル通貨のデザインについて、彼の研究論文 listserv 2008に投稿した。 中本氏の提案は暗号の長期化問題を解決し、デジタル通貨の基礎を築いた。 本稿では、bitcoinの概念、その特性、ブロックチェーンの必要性、bitcoinの仕組みについて説明する。 それは、銀行、金融サービス、および思考のインターネットと未来のテクノロジーの採用を形作る上でのブロックチェーンの役割を強調しようとしている。

Blockchain is a decentralized ledger used to securely exchange digital currency, perform deals and transactions efficient manner, each user of the network has access to the least copy of the encrypted ledger so that they can validate a new transaction. The blockchain ledger is a collection of all Bitcoin transactions executed in the past. Basically, it's distributed database that maintains continuously growing tamper-proof data structure blocks that holds batches of individual transactions. The completed blocks are added in a linear and chronological order. Each block contains a timestamp and information link which points to a previous block. Bitcoin is a peer-to-peer permissionless network that allows every user to connect to the network and send new transactions to verify and create new blocks. Satoshi Nakamoto described the design of Bitcoin digital currency in his research paper posted to a cryptography listserv 2008. Nakamoto's suggestion has solved the long-pending problem of cryptography and laid the foundation stone for digital currency. This paper explains the concept of bitcoin, its characteristics, the need for Blockchain, and how Bitcoin works. It attempts to highlight the role of Blockchain in shaping the future of banking , financial services, and the adoption of the Internet of Thinks and future Technologies.
翻訳日:2021-07-19 14:31:13 公開日:2021-07-16
# モデル誤特定によるロバストオンライン制御

Robust Online Control with Model Misspecification ( http://arxiv.org/abs/2107.07732v1 )

ライセンス: Link先を確認
Xinyi Chen, Udaya Ghai, Elad Hazan, Alexandre Megretski(参考訳) モデル誤特定を伴う時間不変線形系によって近似される未知の非線形力学系のオンライン制御について検討する。 本研究では,仮定線形近似からの逸脱を許容できるロバスト性に着目し,後見の最適制御と比較して有界な$\ell_2$-gainを維持した。 一部のモデルは、係数の完全な知識を持っても安定化できない: ロバスト性は、仮定されたダイナミクスと不安定なダイナミクスの集合の間の最小距離によって制限される。 そのため、この距離で下限を仮定する必要がある。 この仮定の下で、および$d$次元状態の完全な観察により、次元依存がほぼ最適である$\ell_2$-geinとともに$\Omega(\frac{1}{\sqrt{d}})$ロバスト性を達成する効率的なコントローラを記述する。 また, 有限だが準最適の$\ell_2$-geinで, 次元に依存しない一定のロバスト性を実現する非効率アルゴリズムも提供する。

We study online control of an unknown nonlinear dynamical system that is approximated by a time-invariant linear system with model misspecification. Our study focuses on robustness, which measures how much deviation from the assumed linear approximation can be tolerated while maintaining a bounded $\ell_2$-gain compared to the optimal control in hindsight. Some models cannot be stabilized even with perfect knowledge of their coefficients: the robustness is limited by the minimal distance between the assumed dynamics and the set of unstabilizable dynamics. Therefore it is necessary to assume a lower bound on this distance. Under this assumption, and with full observation of the $d$ dimensional state, we describe an efficient controller that attains $\Omega(\frac{1}{\sqrt{d}})$ robustness together with an $\ell_2$-gain whose dimension dependence is near optimal. We also give an inefficient algorithm that attains constant robustness independent of the dimension, with a finite but sub-optimal $\ell_2$-gain.
翻訳日:2021-07-19 14:30:35 公開日:2021-07-16
# 物理インフォーメーションニューラルネットワークを用いた磁気共鳴速度計測における境界形状推定と速度場の脱ノイズ

Simultaneous boundary shape estimation and velocity field de-noising in Magnetic Resonance Velocimetry using Physics-informed Neural Networks ( http://arxiv.org/abs/2107.07863v1 )

ライセンス: Link先を確認
Ushnish Sengupta, Alexandros Kontogiannis, Matthew P. Juniper(参考訳) 磁気共鳴速度計(MRV)は、流体の速度場を測定するために医学や工学で広く用いられている非侵襲的な実験技術である。 これらの測定は密度が高いが、信号対雑音比(SNR)が低い。 この測定は、質量と運動量の制御方程式にカプセル化された流れの物理的制約を課すことで解くことができる。 これまでの研究では、境界(例えば血管)の形状が先駆体として知られていた。 しかし、これには追加の計測が必要であり、それを得るのに費用がかかる。 本稿では、ノイズの多いMRVデータのみを用いて、最も可能性の高い境界形状と減音速度場を同時に推定する物理インフォームニューラルネットワークを提案する。 我々は、支配するpdeおよび0.0の推論された領域内で値1.0を取る補助ニューラルネットワークをトレーニングすることでこれを達成する。 このネットワークは損失関数におけるpde残項の重み付けに使用され、暗黙的にシステムの形状を学習する。 我々は,Poisson 方程式と Stokes 方程式をうまくモデル化できる流れの合成と実の MRV 測定の両方を同化して,アルゴリズムを検証した。 我々は、非常にノイズの多いMRV信号(SNR = 2.5)を再構成し、3.7~7.5%の低い復元誤差で地上の真実を復元できることを発見した。 物理インフォームドニューラルネットワークアプローチの単純さと柔軟性は、複雑な3Dジオメトリ、時間変化した4Dデータ、または物理モデルの未知のパラメータでMRVデータを同化するために容易にスケールすることができる。

Magnetic resonance velocimetry (MRV) is a non-invasive experimental technique widely used in medicine and engineering to measure the velocity field of a fluid. These measurements are dense but have a low signal-to-noise ratio (SNR). The measurements can be de-noised by imposing physical constraints on the flow, which are encapsulated in governing equations for mass and momentum. Previous studies have required the shape of the boundary (for example, a blood vessel) to be known a priori. This, however, requires a set of additional measurements, which can be expensive to obtain. In this paper, we present a physics-informed neural network that instead uses the noisy MRV data alone to simultaneously infer the most likely boundary shape and de-noised velocity field. We achieve this by training an auxiliary neural network that takes the value 1.0 within the inferred domain of the governing PDE and 0.0 outside. This network is used to weight the PDE residual term in the loss function accordingly and implicitly learns the geometry of the system. We test our algorithm by assimilating both synthetic and real MRV measurements for flows that can be well modeled by the Poisson and Stokes equations. We find that we are able to reconstruct very noisy (SNR = 2.5) MRV signals and recover the ground truth with low reconstruction errors of 3.7 - 7.5%. The simplicity and flexibility of our physics-informed neural network approach can readily scale to assimilating MRV data with complex 3D geometries, time-varying 4D data, or unknown parameters in the physical model.
翻訳日:2021-07-19 14:30:15 公開日:2021-07-16
# ベイズ深層学習によるHalpha Fibrilsの追跡

Tracing Halpha Fibrils through Bayesian Deep Learning ( http://arxiv.org/abs/2107.07886v1 )

ライセンス: Link先を確認
Haodi Jiang, Ju Jing, Jiasheng Wang, Chang Liu, Qin Li, Yan Xu, Jason T. L. Wang, Haimin Wang(参考訳) 本稿では,太陽観測のhalpha画像中の色球フィブリルを追跡するための新しい深層学習法fibrilnetを提案する。 本手法は、しきい値ベースのツールからトレーニングデータを準備するデータ前処理コンポーネントと、不確実な定量化を伴う確率的画像セグメンテーションのためのベイズ畳み込みニューラルネットワークとして実装されたディープラーニングモデルと、フィブリル適合アルゴリズムを含む後処理コンポーネントで構成され、フィブリルの向きを決定する。 このフィブリルネットツールは、ビッグベア太陽天文台(bbso)で高次適応光学を備えた1.6mグッド太陽望遠鏡(gst)が収集した活性領域(ar 12665)からの高分解能halpha画像に適用される。 本研究では,フィブリルネットツールについて,画像分割アルゴリズムとフィブリルフィッティングアルゴリズムを比較し,定量的に評価する。 実験結果と主な知見は以下の通りである。 まず、2つのツールのイメージセグメンテーション結果(すなわち検出されたフィブリル)はよく似ており、FibrilNetの優れた学習能力を示している。 第二に、fibrilnetは閾値ベースのツールよりも正確で滑らかなフィブリル方位角を見つける。 第3に、fibrilnetは閾値ベースのツールよりも高速であり、fibrilnetによって生成された不確かさマップは、検出された各フィブリルの信頼性を測定する定量的な方法を提供するだけでなく、閾値ベースのツールによって検出されないが機械学習によって推測されるフィブリル構造を特定するのに役立つ。 最後に、他の太陽観測所のフルディスクHalpha画像とBBSO/GSTが収集した高解像度Halpha画像にFibrilNetを適用し、多様なデータセットでツールのユーザビリティを実証する。

We present a new deep learning method, dubbed FibrilNet, for tracing chromospheric fibrils in Halpha images of solar observations. Our method consists of a data pre-processing component that prepares training data from a threshold-based tool, a deep learning model implemented as a Bayesian convolutional neural network for probabilistic image segmentation with uncertainty quantification to predict fibrils, and a post-processing component containing a fibril-fitting algorithm to determine fibril orientations. The FibrilNet tool is applied to high-resolution Halpha images from an active region (AR 12665) collected by the 1.6 m Goode Solar Telescope (GST) equipped with high-order adaptive optics at the Big Bear Solar Observatory (BBSO). We quantitatively assess the FibrilNet tool, comparing its image segmentation algorithm and fibril-fitting algorithm with those employed by the threshold-based tool. Our experimental results and major findings are summarized as follows. First, the image segmentation results (i.e., detected fibrils) of the two tools are quite similar, demonstrating the good learning capability of FibrilNet. Second, FibrilNet finds more accurate and smoother fibril orientation angles than the threshold-based tool. Third, FibrilNet is faster than the threshold-based tool and the uncertainty maps produced by FibrilNet not only provide a quantitative way to measure the confidence on each detected fibril, but also help identify fibril structures that are not detected by the threshold-based tool but are inferred through machine learning. Finally, we apply FibrilNet to full-disk Halpha images from other solar observatories and additional high-resolution Halpha images collected by BBSO/GST, demonstrating the tool's usability in diverse datasets.
翻訳日:2021-07-19 14:29:47 公開日:2021-07-16
# 脳-Ageモデリングのための不確実性と共有性,透過性ニューラルネットワークアーキテクチャ

An Uncertainty-Aware, Shareable and Transparent Neural Network Architecture for Brain-Age Modeling ( http://arxiv.org/abs/2107.07977v1 )

ライセンス: Link先を確認
Tim Hahn, Jan Ernsting, Nils R. Winter, Vincent Holstein, Ramona Leenings, Marie Beisemann, Lukas Fisch, Kelvin Sarink, Daniel Emden, Nils Opel, Ronny Redlich, Jonathan Repple, Dominik Grotegerd, Susanne Meinert, Jochen G. Hirsch, Thoralf Niendorf, Beate Endemann, Fabian Bamberg, Thomas Kr\"oncke, Robin B\"ulow, Henry V\"olzke, Oyunbileg von Stackelberg, Ramona Felizitas Sowade, Lale Umutlu, B\"orge Schmidt, Svenja Caspers, German National Cohort Study Center Consortium, Harald Kugel, Tilo Kircher, Benjamin Risse, Christian Gaser, James H. Cole, Udo Dannlowski, Klaus Berger(参考訳) 神経画像データから予測される年代と年齢の偏差は、横断的脳変化の高感度なリスクマーカーとして同定され、生物学的年齢調査の基礎となる。 しかし、この分野の基礎となる機械学習モデルは不確かさを考慮せず、その結果をトレーニングデータ密度と可変性と結びつける。 また、既存のモデルは一般に均質なトレーニングセットに基づいており、しばしば独立して検証されず、データ保護の問題により共有できない。 本稿では,ドイツ国立コホートのn=10,691データセットで学習した,不確実性,共有性,透明なモンテカルロドロップアウト複合量子性回帰(mccqr)ニューラルネットワークを紹介する。 MCCQRモデルは、高次元のニューロイメージングデータにおいて堅牢で分布のない不確実性の定量化を提供し、既存の10のリクルートセンターおよび3つの独立した検証サンプル(N=4,004)と比較して誤差率を低くする。 2つの例では,脳老化の加速を検出するために,刺激的な関連を予防し,能力を高めることが示されている。 トレーニング済みのモデルを公開しています。

The deviation between chronological age and age predicted from neuroimaging data has been identified as a sensitive risk-marker of cross-disorder brain changes, growing into a cornerstone of biological age-research. However, Machine Learning models underlying the field do not consider uncertainty, thereby confounding results with training data density and variability. Also, existing models are commonly based on homogeneous training sets, often not independently validated, and cannot be shared due to data protection issues. Here, we introduce an uncertainty-aware, shareable, and transparent Monte-Carlo Dropout Composite-Quantile-R egression (MCCQR) Neural Network trained on N=10,691 datasets from the German National Cohort. The MCCQR model provides robust, distribution-free uncertainty quantification in high-dimensional neuroimaging data, achieving lower error rates compared to existing models across ten recruitment centers and in three independent validation samples (N=4,004). In two examples, we demonstrate that it prevents spurious associations and increases power to detect accelerated brain-aging. We make the pre-trained model publicly available.
翻訳日:2021-07-19 14:29:14 公開日:2021-07-16
# 適応一階法の再検討:リプシッツ要求のない凸最適化

Adaptive first-order methods revisited: Convex optimization without Lipschitz requirements ( http://arxiv.org/abs/2107.08011v1 )

ライセンス: Link先を確認
Kimon Antonakopoulos and Panayotis Mertikopoulos(参考訳) 標準意味でのリプシッツ連続あるいは滑らかでないような凸最小化問題のクラスに対する適応的一階法の新しいファミリーを提案する。 具体的には、非Lipschitz (NoLips) 最適化における最近の活動の激しさに動機づけられた、参照ブレグマン関数に対して連続的あるいは滑らかな問題を考える。 これらの条件は、フィッシャー・マーケット、ポアソン・トモグラフィー、D-デザインなど、特定の目的を持つ幅広い問題を含んでいる。 この設定では、UnixGradやAcceleGradのような既存の順序最適適応手法の適用は、特にランダム性と不確実性の存在では不可能である。 適応ミラー降下(AdaMir)と呼ばれる手法は,確率的を含む比較的連続的あるいは滑らかな問題において,min-max最適率を同時に達成することにより,このギャップを埋めることを目的としている。

We propose a new family of adaptive first-order methods for a class of convex minimization problems that may fail to be Lipschitz continuous or smooth in the standard sense. Specifically, motivated by a recent flurry of activity on non-Lipschitz (NoLips) optimization, we consider problems that are continuous or smooth relative to a reference Bregman function - as opposed to a global, ambient norm (Euclidean or otherwise). These conditions encompass a wide range of problems with singular objectives, such as Fisher markets, Poisson tomography, D-design, and the like. In this setting, the application of existing order-optimal adaptive methods - like UnixGrad or AcceleGrad - is not possible, especially in the presence of randomness and uncertainty. The proposed method - which we call adaptive mirror descent (AdaMir) - aims to close this gap by concurrently achieving min-max optimal rates in problems that are relatively continuous or smooth, including stochastic ones.
翻訳日:2021-07-19 14:28:50 公開日:2021-07-16
# マージツリーのwasserstein距離、測地線、およびバリセンタ

Wasserstein Distances, Geodesics and Barycenters of Merge Trees ( http://arxiv.org/abs/2107.07789v1 )

ライセンス: Link先を確認
Mathieu Pont, Jules Vidal, Julie Delon and Julien Tierny(参考訳) 本稿では,マージ木の距離,測地線,バリセンタを推定するための統一計算フレームワークを提案する。 本研究では,最近の編集距離 [106] の研究を拡張し,測地線とバリセンタの効率的な計算を可能にするために意図的に設計された,マージ木間のワッサースタイン距離と呼ばれる新しい計量を導入する。 具体的には、我々の新しい距離は極端持続図形の間のL2-ワッサーシュタイン距離と厳密に等しいが、より小さな解空間、すなわち枝分解木の間のルート部分同型空間に制限される。 これにより、永続化ダイアグラムから統合ツリーへのジオデシックとバリセンタのための既存の最適化フレームワーク [112] を簡単に拡張できます。 本稿では,距離,測地,バリセンタ,クラスタ計算に汎用的に適用可能なタスクベースアルゴリズムを提案する。 本手法のタスクベース特性は,共有メモリ並列化によるさらなる高速化を可能にする。 公開アンサンブルやscivisコンテストのベンチマークに関する広範囲な実験によって、我々のアプローチの効率性 -- 最大の例としては、分単位のbarycenter計算 -- と、代表的なbarycenterマージツリーを生成する質的能力が示され、アンサンブルに見られる興味深い特徴を視覚的に要約しています。 我々は,機能追跡,時間的縮小,アンサンブルクラスタリングといった専用可視化アプリケーションによる貢献の有用性を示す。 結果の再現に使用できる軽量なC++実装を提供しています。

This paper presents a unified computational framework for the estimation of distances, geodesics and barycenters of merge trees. We extend recent work on the edit distance [106] and introduce a new metric, called the Wasserstein distance between merge trees, which is purposely designed to enable efficient computations of geodesics and barycenters. Specifically, our new distance is strictly equivalent to the L2-Wasserstein distance between extremum persistence diagrams, but it is restricted to a smaller solution space, namely, the space of rooted partial isomorphisms between branch decomposition trees. This enables a simple extension of existing optimization frameworks [112] for geodesics and barycenters from persistence diagrams to merge trees. We introduce a task-based algorithm which can be generically applied to distance, geodesic, barycenter or cluster computation. The task-based nature of our approach enables further accelerations with shared-memory parallelism. Extensive experiments on public ensembles and SciVis contest benchmarks demonstrate the efficiency of our approach -- with barycenter computations in the orders of minutes for the largest examples -- as well as its qualitative ability to generate representative barycenter merge trees, visually summarizing the features of interest found in the ensemble. We show the utility of our contributions with dedicated visualization applications: feature tracking, temporal reduction and ensemble clustering. We provide a lightweight C++ implementation that can be used to reproduce our results.
翻訳日:2021-07-19 14:28:29 公開日:2021-07-16
# 光度変調による深部逆トーンマッピング

Lightness Modulated Deep Inverse Tone Mapping ( http://arxiv.org/abs/2107.07907v1 )

ライセンス: Link先を確認
Kanglin Liu, Gaofeng Cao, Jiang Duan, Guoping Qiu(参考訳) シングルイメージHDR再構成や逆トーンマッピング(iTM)は難しい課題である。 特に,その地域の詳細がほぼ完全に失われているため,過剰露出領域における情報の復元は極めて困難である。 本稿では、深層畳み込みニューラルネットワーク(CNN)の特徴抽出とマッピング能力を活用し、CNNの変調前の明るさを利用して、過剰露光領域の周囲の観測をよりよく活用し、HDR画像再構成の質を高める深層学習に基づくiTM法を提案する。 具体的には、LDR入力からHDR画像を推測するための階層型合成ネットワーク(HiSN)と、その推論プロセスにおける光度事前知識を組み込むための光度適応変調ネットワーク(LAMN)を導入する。 HiSNはHDR画像の高明度成分と低明度成分を階層的に合成する一方、LAMNは明度適応マスクを用いて、明度のない飽和画素をよく露出した下光画素から分離し、特に難解な明度のない領域において、HiSNが欠落した情報をより正確に推測できるようにする。 本研究は,定量的測定と視覚的比較に基づく新しい手法の有効性を示す実験結果である。 さらに,hisnのアブレーション研究とlamn内部のアクティベーションマップの可視化により,新しいitmアルゴリズムの内部動作の理解を深めるとともに,最先端アルゴリズムよりも性能が向上する理由を説明する。

Single-image HDR reconstruction or inverse tone mapping (iTM) is a challenging task. In particular, recovering information in over-exposed regions is extremely difficult because details in such regions are almost completely lost. In this paper, we present a deep learning based iTM method that takes advantage of the feature extraction and mapping power of deep convolutional neural networks (CNNs) and uses a lightness prior to modulate the CNN to better exploit observations in the surrounding areas of the over-exposed regions to enhance the quality of HDR image reconstruction. Specifically, we introduce a Hierarchical Synthesis Network (HiSN) for inferring a HDR image from a LDR input and a Lightness Adpative Modulation Network (LAMN) to incorporate the the lightness prior knowledge in the inferring process. The HiSN hierarchically synthesizes the high-brightness component and the low-brightness component of the HDR image whilst the LAMN uses a lightness adaptive mask that separates detail-less saturated bright pixels from well-exposed lower light pixels to enable HiSN to better infer the missing information, particularly in the difficult over-exposed detail-less areas. We present experimental results to demonstrate the effectiveness of the new technique based on quantitative measures and visual comparisons. In addition, we present ablation studies of HiSN and visualization of the activation maps inside LAMN to help gain a deeper understanding of the internal working of the new iTM algorithm and explain why it can achieve much improved performance over state-of-the-art algorithms.
翻訳日:2021-07-19 14:28:05 公開日:2021-07-16
# 熱赤外センサを用いた生体内モニタリング

In-Bed Person Monitoring Using Thermal Infrared Sensors ( http://arxiv.org/abs/2107.07986v1 )

ライセンス: Link先を確認
Elias Josse, Amanda Nerborg, Kevin Hernandez-Diaz, Fernando Alonso-Fernandez(参考訳) 世界は高齢化と医療専門家の不足を期待している。 これは高齢者に安全で尊厳ある生活を提供するという問題を引き起こす。 カメラを含む技術ソリューションは、安全、快適、効率的な緊急対応に寄与するが、プライバシーを侵害している。 パナソニックグリッド(Panasonic Grid-EYE)は、低解像度の赤外線サーモパイルアレイセンサーで、よりプライバシーを提供する。 ベッドの上に装着すると、ユーザーがベッドの上にいるかどうかを、人間との対話なしに判断できる。 この目的のために、2つのデータセットをキャプチャし、1つ(480画像)は一定の条件下で、もう1つ(200画像)はダブレットの使用、ペットとの睡眠、室温の増加といった異なるバリエーションでキャプチャした。 我々は、SVM(Support Vector Machines)、k-Nearest Neighbors(k-NN)、Neural Network(NN)の3つの機械学習アルゴリズムをテストする。 10倍のクロスバリデーションで、メインデータセットの最高精度は、SVMとk-NNの両方(99%)である。 変動データを用いた結果,一定の状況下での信頼性が低下し,環境変動の課題を満たすための余分な作業の必要性が強調された。

The world is expecting an aging population and shortage of healthcare professionals. This poses the problem of providing a safe and dignified life for the elderly. Technological solutions involving cameras can contribute to safety, comfort and efficient emergency responses, but they are invasive of privacy. We use 'Griddy', a prototype with a Panasonic Grid-EYE, a low-resolution infrared thermopile array sensor, which offers more privacy. Mounted over a bed, it can determine if the user is on the bed or not without human interaction. For this purpose, two datasets were captured, one (480 images) under constant conditions, and a second one (200 images) under different variations such as use of a duvet, sleeping with a pet, or increased room temperature. We test three machine learning algorithms: Support Vector Machines (SVM), k-Nearest Neighbors (k-NN) and Neural Network (NN). With 10-fold cross validation, the highest accuracy in the main dataset is for both SVM and k-NN (99%). The results with variable data show a lower reliability under certain circumstances, highlighting the need of extra work to meet the challenge of variations in the environment.
翻訳日:2021-07-19 14:27:35 公開日:2021-07-16
# プライバシ保存時空間シナリオ生成による再生可能エネルギー:深層学習アプローチ

Privacy-preserving Spatiotemporal Scenario Generation of Renewable Energies: A Federated Deep Generative Learning Approach ( http://arxiv.org/abs/2107.07738v1 )

ライセンス: Link先を確認
Yang Li, Jiazheng Li and Yi Wang(参考訳) シナリオ生成は、高ペネレーションの再生可能エネルギーを用いた電力システムにおける決定のための基本的で重要なツールである。 ビッグデータに基づいて,フェデレーション学習と最小2乗逆数ネットワーク(LSGAN)を統合して,再生可能シナリオ生成を実現することにより,フェデレーション付き深層学習フレームワークFed-LSGANを提案する。 具体的には、フェデレーション学習は、ネットワークエッジにおける再生可能サイトから中央サーバ内の共有グローバルモデルを学び、すべてのデータではなくモデルパラメータを転送することで、生成品質を犠牲にすることなく、プライバシ保存形式でシナリオを生成することができる。 一方、LSGANsに基づく深層生成モデルでは、再生可能電力の時空間特性を完全に把握することにより、履歴データの分布に適合するシナリオを生成し、最小二乗損失関数を利用してトレーニング安定性と生成品質を向上させる。 シミュレーションの結果,提案手法は高品質な再生可能シナリオを生成し,最先端の集中型手法よりも優れていた。 さらに,本手法の堅牢性を検証するために,異なるフェデレート学習環境を用いた実験を設計・実施した。

Scenario generation is a fundamental and crucial tool for decision-making in power systems with high-penetration renewables. Based on big historical data, a novel federated deep generative learning framework, called Fed-LSGAN, is proposed by integrating federated learning and least square generative adversarial networks (LSGANs) for renewable scenario generation. Specifically, federated learning learns a shared global model in a central server from renewable sites at network edges, which enables the Fed-LSGAN to generate scenarios in a privacy-preserving manner without sacrificing the generation quality by transferring model parameters, rather than all data. Meanwhile, the LSGANs-based deep generative model generates scenarios that conform to the distribution of historical data through fully capturing the spatial-temporal characteristics of renewable powers, which leverages the least squares loss function to improve the training stability and generation quality. The simulation results demonstrate that the proposal manages to generate high-quality renewable scenarios and outperforms the state-of-the-art centralized methods. Besides, an experiment with different federated learning settings is designed and conducted to verify the robustness of our method.
翻訳日:2021-07-19 14:26:58 公開日:2021-07-16
# 線形確率システムの最適定常制御のための強化学習

Reinforcement Learning for Optimal Stationary Control of Linear Stochastic Systems ( http://arxiv.org/abs/2107.07788v1 )

ライセンス: Link先を確認
Bo Pang and Zhong-Ping Jiang(参考訳) 本稿では,強化学習手法を用いて,加法と乗法の両方の雑音を伴う連続時間線形確率システムの最適定常制御について検討する。 方針反復に基づいて, 最適定常制御問題の最適化方針を, 初期許容制御方針からシステム行列を明示的に識別することなく, 入力/状態データから直接発見できる新しいオフ・ポリシー強化学習アルゴリズム, 楽観的最小二乗法に基づく政策反復法を提案する。 楽観的な最小二乗法に基づく政策反復によって与えられる解は、穏やかな条件下で最適解の小さな近傍に収束することが証明される。 三重反転振子例に対する提案アルゴリズムの適用は,その実現可能性と有効性を検証する。

This paper studies the optimal stationary control of continuous-time linear stochastic systems with both additive and multiplicative noises, using reinforcement learning techniques. Based on policy iteration, a novel off-policy reinforcement learning algorithm, named optimistic least-squares-based policy iteration, is proposed which is able to iteratively find near-optimal policies of the optimal stationary control problem directly from input/state data without explicitly identifying any system matrices, starting from an initial admissible control policy. The solutions given by the proposed optimistic least-squares-based policy iteration are proved to converge to a small neighborhood of the optimal solution with probability one, under mild conditions. The application of the proposed algorithm to a triple inverted pendulum example validates its feasibility and effectiveness.
翻訳日:2021-07-19 14:26:35 公開日:2021-07-16
# 5g&beyond無線ネットワークの設計における近接近傍法とその応用

Nearest neighbor Methods and their Applications in Design of 5G & Beyond Wireless Networks ( http://arxiv.org/abs/2107.07869v1 )

ライセンス: Link先を確認
Syed Ali Raza Zaidi(参考訳) 本稿では,教師あり学習を用いた分類問題の解法としてよく用いられるNearest neighbor(NN)手法の概要について述べる。 この記事では、重要なアプリケーションとともに理論的背景、アルゴリズム、実装の側面を簡潔に紹介する。 本稿では、アプリケーションの観点から、NN分類技術を用いて解決できる5Gおよび無線ネットワーク以外の課題について考察する。

In this paper, we present an overview of Nearest neighbor (NN) methods, which are frequently employed for solving classification problems using supervised learning. The article concisely introduces the theoretical background, algorithmic, and implementation aspects along with the key applications. From an application standpoint, this article explores the challenges related to the 5G and beyond wireless networks which can be solved using NN classification techniques.
翻訳日:2021-07-19 14:26:21 公開日:2021-07-16
# Finite Basis Physics-Informed Neural Networks (FBPINNs):微分方程式を解くためのスケーラブルな領域分解アプローチ

Finite Basis Physics-Informed Neural Networks (FBPINNs): a scalable domain decomposition approach for solving differential equations ( http://arxiv.org/abs/2107.07871v1 )

ライセンス: Link先を確認
Ben Moseley, Andrew Markham, Tarje Nissen-Meyer(参考訳) 近年,物理インフォームドニューラルネットワーク (PINN) は微分方程式に関する問題を解くための強力な新しいパラダイムを提供している。 古典的な数値法と比較して、PINNは微分方程式のメッシュフリー解を提供する能力や、同じ最適化問題において前方および逆モデリングを行う能力など、いくつかの利点がある。 有望ではあるが、これまでの重要な制限は、pinnが大規模なドメインやマルチスケールソリューションの問題を正確かつ効率的に解決するのに苦労していることだ。 問題のサイズが大きくなると、基礎となるPINN最適化問題の複雑さが増大し、ニューラルネットワークのスペクトルバイアスが増大するなど、複数の重要な要因がこの問題に寄与する。 本研究では,FBPINN(Finite Basis PINNs)と呼ばれる微分方程式に関する大規模問題を解くための,新しいスケーラブルなアプローチを提案する。 FBPINNは古典的有限要素法に着想を得ており、微分方程式の解はコンパクトな支持を持つ基底関数の有限集合の和として表される。 fbpinnsでは、ニューラルネットワークは、小さな重複するサブドメイン上で定義されるこれらの基底関数を学ぶために使用される。 fbinnは、各サブドメインに対して別々の入力正規化を使用することで、ニューラルネットワークのスペクトルバイアスに対処するように設計されている。 数値実験により,FBPINNは,大規模かつ大規模な課題の解決に有効であり,必要な精度と計算資源の両方において標準PINNよりも優れており,大規模かつ現実的な問題に対するPINNの適用への道が開けている可能性が示唆された。

Recently, physics-informed neural networks (PINNs) have offered a powerful new paradigm for solving problems relating to differential equations. Compared to classical numerical methods PINNs have several advantages, for example their ability to provide mesh-free solutions of differential equations and their ability to carry out forward and inverse modelling within the same optimisation problem. Whilst promising, a key limitation to date is that PINNs have struggled to accurately and efficiently solve problems with large domains and/or multi-scale solutions, which is crucial for their real-world application. Multiple significant and related factors contribute to this issue, including the increasing complexity of the underlying PINN optimisation problem as the problem size grows and the spectral bias of neural networks. In this work we propose a new, scalable approach for solving large problems relating to differential equations called Finite Basis PINNs (FBPINNs). FBPINNs are inspired by classical finite element methods, where the solution of the differential equation is expressed as the sum of a finite set of basis functions with compact support. In FBPINNs neural networks are used to learn these basis functions, which are defined over small, overlapping subdomains. FBINNs are designed to address the spectral bias of neural networks by using separate input normalisation over each subdomain, and reduce the complexity of the underlying optimisation problem by using many smaller neural networks in a parallel divide-and-conquer approach. Our numerical experiments show that FBPINNs are effective in solving both small and larger, multi-scale problems, outperforming standard PINNs in both accuracy and computational resources required, potentially paving the way to the application of PINNs on large, real-world problems.
翻訳日:2021-07-19 14:26:17 公開日:2021-07-16
# 変分オートエンコーダを用いた機械学習金堂物理

Machine-learning Kondo physics using variational autoencoders ( http://arxiv.org/abs/2107.08013v1 )

ライセンス: Link先を確認
Cole Miles, Matthew R. Carbone, Erica J. Sturm, Deyu Lu, Andreas Weichselbaum, Kipton Barros, and Robert M. Konik(参考訳) 1粒子アンダーソン不純物モデルスペクトル関数のデータセットから物理的洞察を抽出するために変分オートエンコーダを用いる。 オートエンコーダは、再構成誤差によって測定されたトレーニングセットの各要素を忠実に特徴付ける低次元の潜在空間表現を見つけるために訓練される。 変分オートエンコーダは標準オートエンコーダの確率的一般化であり、高い解釈可能な特徴を促進するために学習された潜在空間をさらに条件付ける。 本研究では,アンダーソンの不純物モデルにおける創発的挙動を特徴付けるよく知られた,しかし非自明なパラメータと,学習された潜在空間成分が強く相関していることを見いだした。 特に、1つの潜在空間成分は粒子-ホール非対称性と相関し、もう1つは不純物モデルにおいて動的に生成された低エネルギースケールである近藤温度とほぼ1対1の対応にある。 記号回帰により、この成分を素物理的入力パラメータの関数としてモデル化し、近藤温度の非摂動公式を再発見する。 私たちが開発した機械学習パイプラインは、他の物理システムで新しいドメイン知識を見つける機会を開きます。

We employ variational autoencoders to extract physical insight from a dataset of one-particle Anderson impurity model spectral functions. Autoencoders are trained to find a low-dimensional, latent space representation that faithfully characterizes each element of the training set, as measured by a reconstruction error. Variational autoencoders, a probabilistic generalization of standard autoencoders, further condition the learned latent space to promote highly interpretable features. In our study, we find that the learned latent space components strongly correlate with well known, but nontrivial, parameters that characterize emergent behaviors in the Anderson impurity model. In particular, one latent space component correlates with particle-hole asymmetry, while another is in near one-to-one correspondence with the Kondo temperature, a dynamically generated low-energy scale in the impurity model. With symbolic regression, we model this component as a function of bare physical input parameters and "rediscover" the non-perturbative formula for the Kondo temperature. The machine learning pipeline we develop opens opportunities to discover new domain knowledge in other physical systems.
翻訳日:2021-07-19 14:25:47 公開日:2021-07-16
# 明示的時間依存力学系学習のためのポート・ハミルトンニューラルネットワーク

Port-Hamiltonian Neural Networks for Learning Explicit Time-Dependent Dynamical Systems ( http://arxiv.org/abs/2107.08024v1 )

ライセンス: Link先を確認
Shaan Desai, Marios Mattheakis, David Sondak, Pavlos Protopapas and Stephen Roberts(参考訳) 動的システムの時間的挙動を正確に学習するには、十分な学習バイアスを持つモデルが必要である。 近年のイノベーションは、ハミルトニアン形式とラグランジュ形式をニューラルネットワークに組み込んで、物理系の軌道を予測する他のアプローチよりも大幅に改善されている。 これらの方法は一般的に、制御信号が apriori として知られている時間やシステムに依存する自律システムに取り組む。 この成功にもかかわらず、多くの実世界の力学系は非自律的であり、時間に依存した力とエネルギー散逸を経験する。 本研究では,エネルギー散逸と時間依存的な制御力を捉える汎用フレームワークであるニューラルネットワークにポート・ハミルトン形式を組み込むことで,このような非自律システムからの学習の課題に対処する。 提案する \emph{port-hamiltonian neural network} は,実用的な非線形物理系のダイナミクスを効率的に学習し,基礎となる定常ハミルトニアン,時間依存力,散逸係数を正確に回復できることを示す。 我々のネットワークの有望な成果は、ダッフィング方程式のようなカオス的なシステムを学習し、予測する能力である。

Accurately learning the temporal behavior of dynamical systems requires models with well-chosen learning biases. Recent innovations embed the Hamiltonian and Lagrangian formalisms into neural networks and demonstrate a significant improvement over other approaches in predicting trajectories of physical systems. These methods generally tackle autonomous systems that depend implicitly on time or systems for which a control signal is known apriori. Despite this success, many real world dynamical systems are non-autonomous, driven by time-dependent forces and experience energy dissipation. In this study, we address the challenge of learning from such non-autonomous systems by embedding the port-Hamiltonian formalism into neural networks, a versatile framework that can capture energy dissipation and time-dependent control forces. We show that the proposed \emph{port-Hamiltonian neural network} can efficiently learn the dynamics of nonlinear physical systems of practical interest and accurately recover the underlying stationary Hamiltonian, time-dependent force, and dissipative coefficient. A promising outcome of our network is its ability to learn and predict chaotic systems such as the Duffing equation, for which the trajectories are typically hard to learn.
翻訳日:2021-07-19 14:25:30 公開日:2021-07-16
# 留意点のない学習を用いた自動音声キャプションの連続学習

Continual Learning for Automated Audio Captioning Using The Learning Without Forgetting Approach ( http://arxiv.org/abs/2107.08028v1 )

ライセンス: Link先を確認
Jan Berg and Konstantinos Drossos(参考訳) 自動音声キャプション(AAC)は、テキスト記述を自動的に生成するタスクである。 キャプション) 一般音声信号の内容について。 ほとんどのaacメソッドは既存のデータセットを使用して最適化や評価を行っている。 AACデータセットが保持する限られた情報を考えると、AACメソッドは利用したデータセットに含まれる情報のみを学習する可能性が高い。 本稿では,連続学習法を用いて新たな情報にaac法を連続的に適用する最初の手法を提案する。 本シナリオでは,未認識の一般音声信号に対して事前最適化されたaac法が用いられ,新たな参照キャプションが与えられた場合,新たな情報に適応するためにパラメータを更新できる。 本手法は,プリ最適化されたaac法と2つのaacデータセットを用いて評価する。 提案手法を3つのシナリオと比較し,一方のデータセットでトレーニングを2回,他方のデータセットでトレーニングを3分の1,もう一方のデータセットで微調整を行った。 得られた結果から,本手法は新たな知識を蒸留し,過去の知識を忘れないことのバランスが良好であることがわかった。

Automated audio captioning (AAC) is the task of automatically creating textual descriptions (i.e. captions) for the contents of a general audio signal. Most AAC methods are using existing datasets to optimize and/or evaluate upon. Given the limited information held by the AAC datasets, it is very likely that AAC methods learn only the information contained in the utilized datasets. In this paper we present a first approach for continuously adapting an AAC method to new information, using a continual learning method. In our scenario, a pre-optimized AAC method is used for some unseen general audio signals and can update its parameters in order to adapt to the new information, given a new reference caption. We evaluate our method using a freely available, pre-optimized AAC method and two freely available AAC datasets. We compare our proposed method with three scenarios, two of training on one of the datasets and evaluating on the other and a third of training on one dataset and fine-tuning on the other. Obtained results show that our method achieves a good balance between distilling new knowledge and not forgetting the previous one.
翻訳日:2021-07-19 14:25:09 公開日:2021-07-16
# (参考訳) データ対分類器 誰が勝つ? [全文訳有]

Data vs classifiers, who wins? ( http://arxiv.org/abs/2107.07451v2 )

ライセンス: CC BY 4.0
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. Kawasaki Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。 それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。 最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。 このため、openml-cc18のようなゴールド標準ベンチマークが用いられる。 しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。 最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。 本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。 OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットが元のベンチマークよりも効率的かどうかをチェックする。 古典からアンサンブルまでいくつかの分類器もIRTモデルを用いて評価されている。 Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。 すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。 さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。 ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。

The classification experiments covered by machine learning (ML) are composed by two important parts: the data and the algorithm. As they are a fundamental part of the problem, both must be considered when evaluating a model's performance against a benchmark. The best classifiers need robust benchmarks to be properly evaluated. For this, gold standard benchmarks such as OpenML-CC18 are used. However, data complexity is commonly not considered along with the model during a performance evaluation. Recent studies employ Item Response Theory (IRT) as a new approach to evaluating datasets and algorithms, capable of evaluating both simultaneously. This work presents a new evaluation methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed to guide the estimation of IRT in ML. It explores the IRT as a tool to evaluate the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks if there is a subset of datasets more efficient than the original benchmark. Several classifiers, from classics to ensemble, are also evaluated using the IRT models. The Glicko-2 rating system was applied together with IRT to summarize the innate ability and classifiers performance. It was noted that not all OpenML-CC18 datasets are really useful for evaluating algorithms, where only 10% were rated as being really difficult. Furthermore, it was verified the existence of a more efficient subset containing only 50% of the original size. While Randon Forest was singled out as the algorithm with the best innate ability.
翻訳日:2021-07-19 12:14:16 公開日:2021-07-16
# (参考訳) プログラム合成による数学的推論のための強化学習環境 [全文訳有]

A Reinforcement Learning Environment for Mathematical Reasoning via Program Synthesis ( http://arxiv.org/abs/2107.07373v2 )

ライセンス: CC BY 4.0
Joseph Palermo, Johnny Ye, Alok Singh(参考訳) 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。 環境における各アクションは、演算子または入力を離散計算グラフに追加する。 正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。 ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。

We convert the DeepMind Mathematics Dataset into a reinforcement learning environment by interpreting it as a program synthesis problem. Each action taken in the environment adds an operator or an input into a discrete compute graph. Graphs which compute correct answers yield positive reward, enabling the optimization of a policy to construct compute graphs conditioned on problem statements. Baseline models are trained using Double DQN on various subsets of problem types, demonstrating the capability to learn to correctly construct graphs despite the challenges of combinatorial explosion and noisy rewards.
翻訳日:2021-07-19 11:50:51 公開日:2021-07-16