このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200623となっている論文です。

PDF登録状況(公開日: 20200623)

TitleAuthorsAbstract論文公表日・翻訳日
# ghostimage: カメラベースの画像分類システムに対するリモートセンシング攻撃

GhostImage: Remote Perception Attacks against Camera-based Image Classification Systems ( http://arxiv.org/abs/2001.07792v3 )

ライセンス: Link先を確認
Yanmao Man, Ming Li, Ryan Gerdes(参考訳) 視覚に基づく物体分類システムでは、センサーが環境を認識し、機械学習が意思決定のために物体を検出し、分類するために使用される。 本研究では,攻撃者がスプリアスオブジェクトを作成したり,既存のオブジェクトを変更することを可能にするために,知覚領域を遠隔かつ傍受的に活用する方法を実証する。 攻撃の対象となる検出/分類フレームワークに依存する自動システムは,攻撃者による誤認識による破滅的な結果を伴う行動をとることができる。 カメラベースシステムに焦点をあて、光学画像システム(viz.)、レンズフレア/ゴースト効果(ghost effect)、自動露光制御(auto-exposure control)の2つの一般的な効果を活用することにより、カメラシステムに敵対パターンを遠隔で投影することが可能であることを示す。 チャネル効果に対する攻撃のロバスト性を改善するため、学習したエンド・ツー・エンドのチャネルモデルと敵対的機械学習技術を統合することで最適なパターンを生成する。 我々は,低コストプロジェクタ,3つの異なる画像データセット,屋内および屋外環境,および3つの異なるカメラを用いた攻撃を実験的に実証した。 実験の結果,プロジェクタカメラ距離によっては,攻撃成功率は100%,目標条件下では100%に達することがわかった。

In vision-based object classification systems imaging sensors perceive the environment and machine learning is then used to detect and classify objects for decision-making purposes; e.g., to maneuver an automated vehicle around an obstacle or to raise an alarm to indicate the presence of an intruder in surveillance settings. In this work we demonstrate how the perception domain can be remotely and unobtrusively exploited to enable an attacker to create spurious objects or alter an existing object. An automated system relying on a detection/classification framework subject to our attack could be made to undertake actions with catastrophic results due to attacker-induced misperception. We focus on camera-based systems and show that it is possible to remotely project adversarial patterns into camera systems by exploiting two common effects in optical imaging systems, viz., lens flare/ghost effects and auto-exposure control. To improve the robustness of the attack to channel effects, we generate optimal patterns by integrating adversarial machine learning techniques with a trained end-to-end channel model. We experimentally demonstrate our attacks using a low-cost projector, on three different image datasets, in indoor and outdoor environments, and with three different cameras. Experimental results show that, depending on the projector-camera distance, attack success rates can reach as high as 100% and under targeted conditions.
翻訳日:2023-01-07 23:52:02 公開日:2020-06-23
# 連合学習における雑音・無関係データの克服

Overcoming Noisy and Irrelevant Data in Federated Learning ( http://arxiv.org/abs/2001.08300v2 )

ライセンス: Link先を確認
Tiffany Tuor, Shiqiang Wang, Bong Jun Ko, Changchang Liu, Kin K. Leung(参考訳) 多くの画像および視覚アプリケーションは、モデルトレーニングに大量のデータを必要とする。 データプライバシと通信帯域幅の制限のため、すべてのデータを中央の場所で収集することは難しい。 フェデレーション学習は、クライアントデバイスが収集したローカルデータから分散的に機械学習モデルをトレーニングする効果的な方法であり、クライアント間で生データを交換する必要はない。 課題は、各クライアントで収集された多種多様なデータのうち、学習タスクにはサブセットのみが関係しており、残りのデータはモデルトレーニングに負の影響を与える可能性が高いことである。 したがって、学習プロセスを開始する前に、与えられたフェデレーション学習タスクに関連するデータのサブセットを選択することが重要である。 本稿では,タスク固有の小さなベンチマークデータセット上でトレーニングされたベンチマークモデルを用いて,各クライアントにおける個々のデータサンプルの妥当性を評価し,高い妥当性を持つデータを選択する手法を提案する。 次に、各クライアントは、フェデレーション学習プロセスで選択されたデータのサブセットのみを使用する。 提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,実世界の複数の画像データセット上で評価され,全データでのトレーニングと比較して,モデル精度が最大$25\%向上した。

Many image and vision applications require a large amount of data for model training. Collecting all such data at a central location can be challenging due to data privacy and communication bandwidth restrictions. Federated learning is an effective way of training a machine learning model in a distributed manner from local data collected by client devices, which does not require exchanging the raw data among clients. A challenge is that among the large variety of data collected at each client, it is likely that only a subset is relevant for a learning task while the rest of data has a negative impact on model training. Therefore, before starting the learning process, it is important to select the subset of data that is relevant to the given federated learning task. In this paper, we propose a method for distributedly selecting relevant data, where we use a benchmark model trained on a small benchmark dataset that is task-specific, to evaluate the relevance of individual data samples at each client and select the data with sufficiently high relevance. Then, each client only uses the selected subset of its data in the federated learning process. The effectiveness of our proposed approach is evaluated on multiple real-world image datasets in a simulated system with a large number of clients, showing up to $25\%$ improvement in model accuracy compared to training with all data.
翻訳日:2023-01-07 18:22:24 公開日:2020-06-23
# AdvJND: 注目すべき違いのある逆例の生成

AdvJND: Generating Adversarial Examples with Just Noticeable Difference ( http://arxiv.org/abs/2002.00179v2 )

ライセンス: Link先を確認
Zifei Zhang, Kai Qiao, Lingyun Jiang, Linyuan Wang, and Bin Yan(参考訳) 従来の機械学習モデルと比較して、ディープニューラルネットワークは特に画像分類タスクにおいて、パフォーマンスが良い。 しかし、それらは敵対的な例に弱い。 例に小さな摂動を加えると、人間の目のカテゴリの違いを伴わずに、出来のよい例を誤分類し、深いモデルをうまく騙すことができる。 敵の例を生成するには、攻撃成功率と画像忠実度メトリクスの2つの要件がある。 一般的には、敵の例が攻撃の成功率が高いことを保証するために摂動が増加するが、得られた敵の例では隠蔽が不十分である。 攻撃成功率と画像忠実度とのトレードオフを緩和するため, 対向例を生成する際の歪み関数の制約に, 視覚モデル係数, 目立った差分係数を付加するAdvJND法を提案する。 実際、人間の目の視覚的主観的な感覚を、摂動の分布を決定する先行情報として加え、敵の例の画像品質を向上させる。 我々は,FashionMNIST,CIFAR10,MiniImageNetのデータセットを用いて実験を行った。 我々のAdvJNDアルゴリズムが生成した逆例は、元の入力に類似した勾配分布を生成する。 これにより、工芸品のノイズを元の入力に隠すことができ、攻撃の隠蔽を大幅に改善することができる。

Compared with traditional machine learning models, deep neural networks perform better, especially in image classification tasks. However, they are vulnerable to adversarial examples. Adding small perturbations on examples causes a good-performance model to misclassify the crafted examples, without category differences in the human eyes, and fools deep models successfully. There are two requirements for generating adversarial examples: the attack success rate and image fidelity metrics. Generally, perturbations are increased to ensure the adversarial examples' high attack success rate; however, the adversarial examples obtained have poor concealment. To alleviate the tradeoff between the attack success rate and image fidelity, we propose a method named AdvJND, adding visual model coefficients, just noticeable difference coefficients, in the constraint of a distortion function when generating adversarial examples. In fact, the visual subjective feeling of the human eyes is added as a priori information, which decides the distribution of perturbations, to improve the image quality of adversarial examples. We tested our method on the FashionMNIST, CIFAR10, and MiniImageNet datasets. Adversarial examples generated by our AdvJND algorithm yield gradient distributions that are similar to those of the original inputs. Hence, the crafted noise can be hidden in the original inputs, thus improving the attack concealment significantly.
翻訳日:2023-01-05 01:21:05 公開日:2020-06-23
# グラフフィードバックによるバンディットのスモールロス境界について

A Closer Look at Small-loss Bounds for Bandits with Graph Feedback ( http://arxiv.org/abs/2002.00315v2 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Mengxiao Zhang(参考訳) 本研究では, 弾数ではなく, 最善の腕や関連量の損失に依存する適応的後悔境界を用いて, 敵の多腕バンディットに対する小損失境界について検討した。 一般の強可観測グラフに対する最初の小さな空間境界を導出し、Lykouris et al. (2018) の開問題を解く。 具体的には、後悔する$\mathcal{\tilde{O}}(\sqrt{\kappa L_*})$で、$\kappa$はcliqueパーティション数であり、$L_*$はベストアームの損失であり、各アームが自己ループを持つ特殊な自己認識グラフの場合、$\mathcal{\tilde{O}}(\min\{\sqrt{\alpha T}, \sqrt{\kappa L_*}\})$で、後悔する$\mathcal{\tilde{O}}(\min\{\sqrt{\alpha T}, \sqrt{\kappa L_*}\})$で、$\alpha \leq \kappa$は独立数である。 我々の結果はLykouris et al. (2018) によって改善され拡張され、自己認識無向グラフのみを考える。 さらに,弱可観測グラフに対する小損失境界を導出する最初の試みも行った。 この場合、我々はまず、典型的な小損失境界が達成可能でないことを証明し、次に特定のアームのサブセットの損失という観点で、別の小損失境界を持つアルゴリズムを提案する。 驚くべき結果として、$\mathcal{\tilde{o}}(\sqrt{t})$ regretは、最良のアームが自己ループを持つ限り、弱い可観測グラフでも達成可能である。 当社のアルゴリズムはオンラインミラー Descent フレームワークをベースとしていますが,独立した興味を持つ可能性のある,新しいテクニックのスイートが必要です。 さらに、我々のアルゴリズムは環境の知識を使わずにパラメータフリーにすることができる。

We study small-loss bounds for adversarial multi-armed bandits with graph feedback, that is, adaptive regret bounds that depend on the loss of the best arm or related quantities, instead of the total number of rounds. We derive the first small-loss bound for general strongly observable graphs, resolving an open problem of Lykouris et al. (2018). Specifically, we develop an algorithm with regret $\mathcal{\tilde{O}}(\sqrt{\kappa L_*})$ where $\kappa$ is the clique partition number and $L_*$ is the loss of the best arm, and for the special case of self-aware graphs where every arm has a self-loop, we improve the regret to $\mathcal{\tilde{O}}(\min\{\sqrt{\alpha T}, \sqrt{\kappa L_*}\})$ where $\alpha \leq \kappa$ is the independence number. Our results significantly improve and extend those by Lykouris et al. (2018) who only consider self-aware undirected graphs. Furthermore, we also take the first attempt at deriving small-loss bounds for weakly observable graphs. We first prove that no typical small-loss bounds are achievable in this case, and then propose algorithms with alternative small-loss bounds in terms of the loss of some specific subset of arms. A surprising side result is that $\mathcal{\tilde{O}}(\sqrt{T})$ regret is achievable even for weakly observable graphs as long as the best arm has a self-loop. Our algorithms are based on the Online Mirror Descent framework but require a suite of novel techniques that might be of independent interest. Moreover, all our algorithms can be made parameter-free without the knowledge of the environment.
翻訳日:2023-01-04 19:48:08 公開日:2020-06-23
# 重み付き共役特徴双対を用いたロバスト生成制限カーネルマシン

Robust Generative Restricted Kernel Machines using Weighted Conjugate Feature Duality ( http://arxiv.org/abs/2002.01180v3 )

ライセンス: Link先を確認
Arun Pandey, Joachim Schreurs, Johan A. K. Suykens(参考訳) 生成モデルへの関心は過去10年で著しく高まっている。 しかし、それらのトレーニング性能は、モデル表現に外乱がエンコードされる汚染によって悪影響を及ぼす可能性がある。 これによりノイズの多いデータが生成される。 本稿では,Restricted Kernel Machines (RKMs) のフレームワークに重み付き共役特徴双対性を導入する。 RKMの定式化により、古典的なロバスト統計からメソッドを簡単に統合できる。 この定式化は、多変量配置と散乱の高ロバストな推定子である最小共分散決定式に基づく重み付け関数を用いて生成 rkms の潜在空間を微調整するために用いられる。 実験により,重み付きrkmは,トレーニングデータに汚染が存在する場合にクリーンな画像を生成することができることを示した。 さらに,このロバストな手法は,標準データセットの質的および定量的実験を通じて,無相関な特徴学習も保持することを示した。

Interest in generative models has grown tremendously in the past decade. However, their training performance can be adversely affected by contamination, where outliers are encoded in the representation of the model. This results in the generation of noisy data. In this paper, we introduce weighted conjugate feature duality in the framework of Restricted Kernel Machines (RKMs). The RKM formulation allows for an easy integration of methods from classical robust statistics. This formulation is used to fine-tune the latent space of generative RKMs using a weighting function based on the Minimum Covariance Determinant, which is a highly robust estimator of multivariate location and scatter. Experiments show that the weighted RKM is capable of generating clean images when contamination is present in the training data. We further show that the robust method also preserves uncorrelated feature learning through qualitative and quantitative experiments on standard datasets.
翻訳日:2023-01-04 02:23:14 公開日:2020-06-23
# 安定系における非回帰予測

No-Regret Prediction in Marginally Stable Systems ( http://arxiv.org/abs/2002.02064v3 )

ライセンス: Link先を確認
Udaya Ghai, Holden Lee, Karan Singh, Cyril Zhang, Yi Zhang(参考訳) 境界付き逆向あるいは(非等方性)確率的摂動を伴う限界安定線形力学系におけるオンライン予測の問題を考える。 これには2つの課題がある。 第一に、このシステムは一般に不特定であるため、パラメータ回復に関する最近の古典的な結果は適用されない。 第二に、システムを極端に安定させるため、状態は時間とともに多項式的に成長し、オンライン凸最適化における標準的な後悔の限界は空白となる。 これらの課題にもかかわらず、オンラインの最小二乗アルゴリズムは、システムのパラメータに多項式依存を伴い、サブ線形後悔(確率的条件で多対数的に改善できる)を達成することを示す。 これは、たとえ状態が多項式的に成長しても、システムの現在の状態が過去の状態の小さな線形結合であることを示す構造的補題を含む、洗練された後悔の分析を必要とする。 この手法を自己回帰フィルタの学習に適用することにより、ガウス雑音下で部分的に観察された条件下での対数的後悔も達成し、関連するカルマンフィルタのメモリに多項式依存する。

We consider the problem of online prediction in a marginally stable linear dynamical system subject to bounded adversarial or (non-isotropic) stochastic perturbations. This poses two challenges. Firstly, the system is in general unidentifiable, so recent and classical results on parameter recovery do not apply. Secondly, because we allow the system to be marginally stable, the state can grow polynomially with time; this causes standard regret bounds in online convex optimization to be vacuous. In spite of these challenges, we show that the online least-squares algorithm achieves sublinear regret (improvable to polylogarithmic in the stochastic setting), with polynomial dependence on the system's parameters. This requires a refined regret analysis, including a structural lemma showing the current state of the system to be a small linear combination of past states, even if the state grows polynomially. By applying our techniques to learning an autoregressive filter, we also achieve logarithmic regret in the partially observed setting under Gaussian noise, with polynomial dependence on the memory of the associated Kalman filter.
翻訳日:2023-01-03 12:37:38 公開日:2020-06-23
# 神経のオデムを訓練する方法:ジャコビアンとキネティック・レギュライゼーションの世界

How to train your neural ODE: the world of Jacobian and kinetic regularization ( http://arxiv.org/abs/2002.02798v3 )

ライセンス: Link先を確認
Chris Finlay, J\"orn-Henrik Jacobsen, Levon Nurbekyan, Adam M Oberman(参考訳) 大規模データセット上でのニューラルODEのトレーニングは、適応的数値ODEソルバがステップサイズを非常に小さな値に洗練できるようにする必要があるため、難航していない。 実際には、これは数百から数千のレイヤーに相当するダイナミクスにつながります。 本稿では, 最適輸送と安定性の正規化を理論的に基礎的に組み合わせ, 問題をよく解く全てのダイナミクスからより単純なダイナミクスを好む神経odeを推奨することで, この明らかな難しさを克服する。 より単純なダイナミクスは、より早く収束し、解法の離散化を少なくし、性能を損なうことなくウォールクロック時間を著しく減少させる。 提案手法により,ニューラルネットワークによる生成モデルを非正規化ダイナミクスと同じ性能でトレーニングすることが可能となり,トレーニング時間が大幅に短縮される。 これにより、大規模なアプリケーションにおいて、ニューラルネットワークODEは実践的関連性に近づきます。

Training neural ODEs on large datasets has not been tractable due to the necessity of allowing the adaptive numerical ODE solver to refine its step size to very small values. In practice this leads to dynamics equivalent to many hundreds or even thousands of layers. In this paper, we overcome this apparent difficulty by introducing a theoretically-grounded combination of both optimal transport and stability regularizations which encourage neural ODEs to prefer simpler dynamics out of all the dynamics that solve a problem well. Simpler dynamics lead to faster convergence and to fewer discretizations of the solver, considerably decreasing wall-clock time without loss in performance. Our approach allows us to train neural ODE-based generative models to the same performance as the unregularized dynamics, with significant reductions in training time. This brings neural ODEs closer to practical relevance in large-scale applications.
翻訳日:2023-01-03 03:50:41 公開日:2020-06-23
# Reward Tweaking:ショート・ホライズンズの計画中におけるトータル・リワードの最大化

Reward Tweaking: Maximizing the Total Reward While Planning for Short Horizons ( http://arxiv.org/abs/2002.03327v2 )

ライセンス: Link先を確認
Chen Tessler and Shie Mannor(参考訳) 強化学習では、$\gamma$がエージェントの効果的な計画方針を制御する。 伝統的に、このパラメータはMDPの一部と考えられてきたが、効率的な計画の地平線が長くなると、深い強化学習アルゴリズムが不安定になる傾向にあるため、最近の研究では、$\gamma$をハイパーパラメーターと呼び、基礎となるMDPを変更し、エージェントを元のタスクの準最適動作へと導く可能性がある。 本研究では, \emph{reward tweaking} を導入する。 Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する割引設定に対して、代理報酬関数 $\tilde r$ を学ぶ。 理論的には、元のタスクに最適性をもたらす代理報酬が存在することを示し、我々のアプローチの堅牢性について議論する。 さらに、我々は高次元連続制御タスクの実験を行い、報酬調整が短い地平線を計画しながらも、エージェントをより長い水平リターンに導くことを示す。

In reinforcement learning, the discount factor $\gamma$ controls the agent's effective planning horizon. Traditionally, this parameter was considered part of the MDP; however, as deep reinforcement learning algorithms tend to become unstable when the effective planning horizon is long, recent works refer to $\gamma$ as a hyper-parameter -- thus changing the underlying MDP and potentially leading the agent towards sub-optimal behavior on the original task. In this work, we introduce \emph{reward tweaking}. Reward tweaking learns a surrogate reward function $\tilde r$ for the discounted setting that induces optimal behavior on the original finite-horizon total reward task. Theoretically, we show that there exists a surrogate reward that leads to optimality in the original task and discuss the robustness of our approach. Additionally, we perform experiments in high-dimensional continuous control tasks and show that reward tweaking guides the agent towards better long-horizon returns although it plans for short horizons.
翻訳日:2023-01-02 14:16:15 公開日:2020-06-23
# カテゴリアタック:アンカーフリーオブジェクト検出のための転送可能な逆行例

Category-wise Attack: Transferable Adversarial Examples for Anchor Free Object Detection ( http://arxiv.org/abs/2003.04367v4 )

ライセンス: Link先を確認
Quanyu Liao, Xin Wang, Bin Kong, Siwei Lyu, Youbing Yin, Qi Song, Xi Wu(参考訳) 深いニューラルネットワークは敵の攻撃に弱いことが示されており、微妙な摂動は分類結果を完全に変える可能性がある。 その脆弱性は、この方向の研究の急増につながった。 しかしながら、ほとんどの作業はアンカーベースのオブジェクト検出モデルに対する攻撃に費やされている。 本研究では,2つのアプローチに基づいて,アンカーフリーなオブジェクトモデルを攻撃するための逆例を生成する,効率的かつ効率的なアルゴリズムを提案する。 まず,対象検出器に対するインスタンス攻撃ではなく,カテゴリ攻撃を行う。 第二に、高レベルな意味情報を利用して敵の例を生成する。 驚くべきことに、生成された敵の例は、標的となるアンカーフリー物体検出器を効果的に攻撃できるだけでなく、他の物体検出器、例えばFaster R-CNNのようなアンカーベース検出器を攻撃できる。

Deep neural networks have been demonstrated to be vulnerable to adversarial attacks: subtle perturbations can completely change the classification results. Their vulnerability has led to a surge of research in this direction. However, most works dedicated to attacking anchor-based object detection models. In this work, we aim to present an effective and efficient algorithm to generate adversarial examples to attack anchor-free object models based on two approaches. First, we conduct category-wise instead of instance-wise attacks on the object detectors. Second, we leverage the high-level semantic information to generate the adversarial examples. Surprisingly, the generated adversarial examples it not only able to effectively attack the targeted anchor-free object detector but also to be transferred to attack other object detectors, even anchor-based detectors such as Faster R-CNN.
翻訳日:2023-01-02 08:49:41 公開日:2020-06-23
# 相互結合畳み込みニューラルネットワークによるエンドツーエンド顔解析

End-to-End Face Parsing via Interlinked Convolutional Neural Networks ( http://arxiv.org/abs/2002.04831v2 )

ライセンス: Link先を確認
Zi Yin, Valentin Yiu, Xiaolin Hu, Liang Tang(参考訳) 顔分析は、顔の一部(目、鼻、口など)の正確なピクセル分割を必要とする重要なコンピュータビジョンタスクであり、さらなる顔分析、修正、その他の応用のための基盤を提供する。 interlinked convolutional neural networks (icnn) は顔解析に有効な2段階モデルであることが証明された。 しかし、オリジナルのiCNNは2段階に分けて訓練され、性能は制限された。 そこで本研究では,2つの分離ステージ間に空間トランスフォーマーネットワーク(stn)を付加することにより,icnnを拡張した簡易なエンドツーエンド顔解析フレームワークであるstn-aided icnn(stn-icnn)を提案する。 STN-iCNNはSTNを使用して、元の2段階のiCNNパイプラインへのトレーニング可能な接続を提供し、エンドツーエンドのジョイントトレーニングを可能にする。 さらに副産物として、stnは元の作物よりも精密に切り抜いた部品を提供する。 これら2つの利点により,本手法はオリジナルモデルの精度を大幅に向上させる。 我々のモデルは、標準的な顔解析データセットであるHelen Dataset上での競合性能を達成した。 CelebAMask-HQデータセットでも優れたパフォーマンスを実現し、その優れた一般化が証明された。 私たちのコードはhttps://github.com/aod321/STN-iCNNで公開されています。

Face parsing is an important computer vision task that requires accurate pixel segmentation of facial parts (such as eyes, nose, mouth, etc.), providing a basis for further face analysis, modification, and other applications. Interlinked Convolutional Neural Networks (iCNN) was proved to be an effective two-stage model for face parsing. However, the original iCNN was trained separately in two stages, limiting its performance. To solve this problem, we introduce a simple, end-to-end face parsing framework: STN-aided iCNN(STN-iCNN), which extends the iCNN by adding a Spatial Transformer Network (STN) between the two isolated stages. The STN-iCNN uses the STN to provide a trainable connection to the original two-stage iCNN pipeline, making end-to-end joint training possible. Moreover, as a by-product, STN also provides more precise cropped parts than the original cropper. Due to these two advantages, our approach significantly improves the accuracy of the original model. Our model achieved competitive performance on the Helen Dataset, the standard face parsing dataset. It also achieved superior performance on CelebAMask-HQ dataset, proving its good generalization. Our code has been released at https://github.com/aod321/STN-iCNN.
翻訳日:2023-01-01 20:14:30 公開日:2020-06-23
# beyond ucb: レグレッションオラクルによる最適かつ効率的なコンテキストバンディット

Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles ( http://arxiv.org/abs/2002.04926v2 )

ライセンス: Link先を確認
Dylan J. Foster and Alexander Rakhlin(参考訳) 文脈的バンディットにおける基本的な課題は、分類や回帰といった古典的な教師付き学習タスクよりも、計算要件による柔軟で汎用的なアルゴリズムを開発することである。 回帰に基づくアルゴリズムは有望な実証的成功を示しているが、特別な場合を除いて理論的な保証は得られていない。 コンテキストバンディットからオンライン回帰への最初の普遍的かつ最適な還元を提供する。 我々は、任意の値関数クラスでオンライン回帰に対してoracleを変換する方法を示し、実行時やメモリ要件のオーバーヘッドを伴わずに、引き起こされたポリシークラスでコンテキストバンディットのアルゴリズムに変換する。 文脈的バンディットのミニマックスレートを一般的な非パラメトリック関数クラスで特徴付けし、オラクルが回帰の最適レートを得るたびに、アルゴリズムがミニマックス最適であることを示す。 従来の結果と比較して,本アルゴリズムは実現可能性以上の分布仮定は必要とせず,文脈が逆選択された場合でも機能する。

A fundamental challenge in contextual bandits is to develop flexible, general-purpose algorithms with computational requirements no worse than classical supervised learning tasks such as classification and regression. Algorithms based on regression have shown promising empirical success, but theoretical guarantees have remained elusive except in special cases. We provide the first universal and optimal reduction from contextual bandits to online regression. We show how to transform any oracle for online regression with a given value function class into an algorithm for contextual bandits with the induced policy class, with no overhead in runtime or memory requirements. We characterize the minimax rates for contextual bandits with general, potentially nonparametric function classes, and show that our algorithm is minimax optimal whenever the oracle obtains the optimal rate for regression. Compared to previous results, our algorithm requires no distributional assumptions beyond realizability, and works even when contexts are chosen adversarially.
翻訳日:2023-01-01 19:49:18 公開日:2020-06-23
# MCENET:混在交通における均質エージェント軌道予測のためのマルチコンテキストエンコーダネットワーク

MCENET: Multi-Context Encoder Network for Homogeneous Agent Trajectory Prediction in Mixed Traffic ( http://arxiv.org/abs/2002.05966v5 )

ライセンス: Link先を確認
Hao Cheng, Wentong Liao, Michael Ying Yang, Monika Sester, Bodo Rosenhahn(参考訳) 都市混合交通圏(共有空間)における軌道予測は、自動運転車の意図検出など多くのインテリジェント交通システムにとって重要である。 しかし, 歩行者, サイクリスト, 車両などの異種道路エージェントの軌跡を微視的に予測するには多くの課題がある。 例えば、エージェントは様々な環境における他のエージェントとの複雑な相互作用において複数の可塑性パスを選択することができるかもしれない。 そこで本研究では,過去のシーンコンテキストと将来のシーンコンテキストの両方をエンコードし,対話コンテキストと動き情報をエンコードして,確率的潜在変数を用いた将来の軌跡のパターンやバリエーションをキャプチャするマルチコンテキストエンコーダネットワーク(mcenet)という手法を提案する。 推定時間において,対象エージェントの過去の状況と動作情報と潜伏変数のサンプリングを組み合わせ,将来における複数の現実的軌跡の予測を行う。 様々なシーンのデータセットを複数実験した結果,本手法は,近年の交通軌道予測手法を,非常に困難な環境において,大きなマージンとより頑健な混合トラヒック予測手法に匹敵する。 各文脈の影響はアブレーション研究によって正当化される。

Trajectory prediction in urban mixed-traffic zones (a.k.a. shared spaces) is critical for many intelligent transportation systems, such as intent detection for autonomous driving. However, there are many challenges to predict the trajectories of heterogeneous road agents (pedestrians, cyclists and vehicles) at a microscopical level. For example, an agent might be able to choose multiple plausible paths in complex interactions with other agents in varying environments. To this end, we propose an approach named Multi-Context Encoder Network (MCENET) that is trained by encoding both past and future scene context, interaction context and motion information to capture the patterns and variations of the future trajectories using a set of stochastic latent variables. In inference time, we combine the past context and motion information of the target agent with samplings of the latent variables to predict multiple realistic trajectories in the future. Through experiments on several datasets of varying scenes, our method outperforms some of the recent state-of-the-art methods for mixed traffic trajectory prediction by a large margin and more robust in a very challenging environment. The impact of each context is justified via ablation studies.
翻訳日:2023-01-01 05:16:04 公開日:2020-06-23
# 関数近似と相関平衡を用いたゼロサム同時モーブマルコフゲーム学習

Learning Zero-Sum Simultaneous-Move Markov Games Using Function Approximation and Correlated Equilibrium ( http://arxiv.org/abs/2002.07066v3 )

ライセンス: Link先を確認
Qiaomin Xie, Yudong Chen, Zhaoran Wang, Zhuoran Yang(参考訳) 同時動作のゼロサム有限ホライゾンマルコフゲームに対して,効率的な強化学習アルゴリズムを開発した。 関数近似を組み込むために、報酬関数と遷移カーネルが線形構造を持つマルコフゲーム群を考える。 問題のオフライン設定とオンライン設定の両方が考慮されている。 オフライン環境では,両プレイヤーを制御し,双対性ギャップを最小化することでナッシュ均衡を求める。 オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。 どちらの設定でも最小二乗最小値反復アルゴリズムの楽観的変種を提案する。 このアルゴリズムは計算効率が良く、双対性ギャップと後悔において$\tilde o(\sqrt{d^3 h^3 t} )$上限を達成できることを示し、ここで$d$は線形次元、$h$ the horizon、$t$は時間ステップの総数である。 我々の結果はサンプリングモデルに追加の仮定を必要としない。 私たちの設定では、マルコフ決定プロセスやターンベースのマルコフゲームに欠けているいくつかの新しい課題を克服する必要があります。 特に、同時移動による楽観性を達成するために、値関数の上下の信頼境界を構築し、これらの境界をペイオフ行列として一般サム行列ゲームを解くことで楽観的ポリシーを計算する。 一般ゲームにおけるナッシュ平衡の探索は計算が難しいため、我々のアルゴリズムは、効率よく得られる粗相関平衡 (CCE) を解く。 我々の知る限りでは、そのようなCCEに基づく楽観主義のスキームは文献に現れておらず、それ自体が関心を持つかもしれない。

We develop provably efficient reinforcement learning algorithms for two-player zero-sum finite-horizon Markov games with simultaneous moves. To incorporate function approximation, we consider a family of Markov games where the reward function and transition kernel possess a linear structure. Both the offline and online settings of the problems are considered. In the offline setting, we control both players and aim to find the Nash Equilibrium by minimizing the duality gap. In the online setting, we control a single player playing against an arbitrary opponent and aim to minimize the regret. For both settings, we propose an optimistic variant of the least-squares minimax value iteration algorithm. We show that our algorithm is computationally efficient and provably achieves an $\tilde O(\sqrt{d^3 H^3 T} )$ upper bound on the duality gap and regret, where $d$ is the linear dimension, $H$ the horizon and $T$ the total number of timesteps. Our results do not require additional assumptions on the sampling model. Our setting requires overcoming several new challenges that are absent in Markov decision processes or turn-based Markov games. In particular, to achieve optimism with simultaneous moves, we construct both upper and lower confidence bounds of the value function, and then compute the optimistic policy by solving a general-sum matrix game with these bounds as the payoff matrices. As finding the Nash Equilibrium of a general-sum game is computationally hard, our algorithm instead solves for a Coarse Correlated Equilibrium (CCE), which can be obtained efficiently. To our best knowledge, such a CCE-based scheme for optimism has not appeared in the literature and might be of interest in its own right.
翻訳日:2022-12-31 12:43:29 公開日:2020-06-23
# 数値シミュレーションのための学習類似度メトリクス

Learning Similarity Metrics for Numerical Simulations ( http://arxiv.org/abs/2002.07863v2 )

ライセンス: Link先を確認
Georg Kohl, Kiwon Um, Nils Thuerey(参考訳) 本稿では,様々な数値シミュレーションソースから得られるデータを比較するため,安定かつ一般化された指標(LSiM)をニューラルネットワークで計算する手法を提案する。 我々は,運動と移動に基づく偏微分方程式(pdes)から生じるスカラー時間依存2次元データに着目した。 提案手法は,計量の数学的性質を動機としたシームズネットワークアーキテクチャを用いている。 我々は,pdeソルバを用いた制御可能なデータ生成セットアップを利用して,制御環境における参照シミュレーションからますます異なる出力を生成する。 学習メトリクスの中心的な構成要素は、トレーニングプロセスに単一のデータサンプル間の相関に関する知識を導入する特殊な損失関数である。 提案手法は,ベクトル空間や他の学習された画像ベースメトリクスの既存の指標よりも優れていることを示すため,幅広いテストデータ上で異なる手法を評価する。 さらに,調整可能なトレーニングデータ難易度の一般化効果を分析し,実世界の3つのデータセットの評価を通してlsimのロバスト性を示す。

We propose a neural network-based approach that computes a stable and generalizing metric (LSiM) to compare data from a variety of numerical simulation sources. We focus on scalar time-dependent 2D data that commonly arises from motion and transport-based partial differential equations (PDEs). Our method employs a Siamese network architecture that is motivated by the mathematical properties of a metric. We leverage a controllable data generation setup with PDE solvers to create increasingly different outputs from a reference simulation in a controlled environment. A central component of our learned metric is a specialized loss function that introduces knowledge about the correlation between single data samples into the training process. To demonstrate that the proposed approach outperforms existing metrics for vector spaces and other learned, image-based metrics, we evaluate the different methods on a large range of test data. Additionally, we analyze generalization benefits of an adjustable training data difficulty and demonstrate the robustness of LSiM via an evaluation on three real-world data sets.
翻訳日:2022-12-30 19:50:54 公開日:2020-06-23
# Fawkes: 未承認のディープラーニングモデルに対するプライバシ保護

Fawkes: Protecting Privacy against Unauthorized Deep Learning Models ( http://arxiv.org/abs/2002.08327v2 )

ライセンス: Link先を確認
Shawn Shan, Emily Wenger, Jiayun Zhang, Huiying Li, Haitao Zheng, Ben Y. Zhao(参考訳) 今日の強力な顔認識システムの普及は、個人のプライバシーを脅かしている。 clearview.aiが示したように、誰でもインターネットをキャンバスしてデータを集め、その知識なしに高精度な顔認識モデルを訓練できる。 不正な顔認識システムの誤用から身を守るためのツールが必要です。 残念ながら、実用的あるいは効果的な解決策は存在しない。 本稿では,未承認の顔認識モデルに対して画像の接種を支援するシステムであるFawkesを提案する。 Fawkesは、ユーザーが認識不能なピクセルレベルの変更(私たちはそれを「クローズ」と呼んでいる)を自分の写真に追加するのを助けることでこれを実現している。 顔認識モデルのトレーニングに使用すると、これらの「クローク」画像は、ユーザーの通常の画像を常に誤認させる機能モデルを生成する。 トラッカーのトレーニング方法に関わらず,Fawkesがユーザ認識に対して95%以上の保護を提供することを示す。 きれいでクローズドなイメージがトラッカーに"リード"されてトレーニングに使用されたとしても、Fawkesは80%以上の保護成功率を維持することができる。 我々は、現在の最先端の顔認識サービスに対する実験で100%成功した。 最後に,fawkesは画像クロークの検出や破壊を試みる様々な対策に対して頑健であることを示す。

Today's proliferation of powerful facial recognition systems poses a real threat to personal privacy. As Clearview.ai demonstrated, anyone can canvas the Internet for data and train highly accurate facial recognition models of individuals without their knowledge. We need tools to protect ourselves from potential misuses of unauthorized facial recognition systems. Unfortunately, no practical or effective solutions exist. In this paper, we propose Fawkes, a system that helps individuals inoculate their images against unauthorized facial recognition models. Fawkes achieves this by helping users add imperceptible pixel-level changes (we call them "cloaks") to their own photos before releasing them. When used to train facial recognition models, these "cloaked" images produce functional models that consistently cause normal images of the user to be misidentified. We experimentally demonstrate that Fawkes provides 95+% protection against user recognition regardless of how trackers train their models. Even when clean, uncloaked images are "leaked" to the tracker and used for training, Fawkes can still maintain an 80+% protection success rate. We achieve 100% success in experiments against today's state-of-the-art facial recognition services. Finally, we show that Fawkes is robust against a variety of countermeasures that try to detect or disrupt image cloaks.
翻訳日:2022-12-30 12:50:10 公開日:2020-06-23
# fairrec:双方向プラットフォームにおけるパーソナライズドレコメンデーションのための2面公平性

FairRec: Two-Sided Fairness for Personalized Recommendations in Two-Sided Platforms ( http://arxiv.org/abs/2002.10764v2 )

ライセンス: Link先を確認
Gourab K Patro, Arpita Biswas, Niloy Ganguly, Krishna P. Gummadi, Abhijnan Chakraborty(参考訳) 我々は,一方の顧客と他方のプロデューサからなる双方向オンラインプラットフォームの文脈において,公正な推薦の問題を考察する。 従来のレコメンデーションサービスは、個々の顧客の好みに応じて結果を調整することで、顧客満足度を最大化することに注力してきた。 しかし,調査の結果,このような顧客中心のデザインが生産者間での不公平な露光を招きかねないことが判明した。 一方、プロデューサ中心のデザインは顧客に不公平になるかもしれません。 したがって、顧客と生産者の両方にまたがる公平性の問題を考える。 提案手法では,公平なレコメンデーション問題に対する新しいマッピングを,かなり分別不能な商品を割り当てる問題の制約付きバージョンへ適用する。 提案するfairrecアルゴリズムは,生産者の大部分に対して少なくとも最大露出率 (mms) を保証し,顧客毎に最大1項目 (ef1) の公平性を保証する。 複数の実世界のデータセットに対する大規模な評価は、FairRecが2面の公平性を確保しつつ、全体的なレコメンデーション品質に限界損失をもたらしていることを示す。

We investigate the problem of fair recommendation in the context of two-sided online platforms, comprising customers on one side and producers on the other. Traditionally, recommendation services in these platforms have focused on maximizing customer satisfaction by tailoring the results according to the personalized preferences of individual customers. However, our investigation reveals that such customer-centric design may lead to unfair distribution of exposure among the producers, which may adversely impact their well-being. On the other hand, a producer-centric design might become unfair to the customers. Thus, we consider fairness issues that span both customers and producers. Our approach involves a novel mapping of the fair recommendation problem to a constrained version of the problem of fairly allocating indivisible goods. Our proposed FairRec algorithm guarantees at least Maximin Share (MMS) of exposure for most of the producers and Envy-Free up to One item (EF1) fairness for every customer. Extensive evaluations over multiple real-world datasets show the effectiveness of FairRec in ensuring two-sided fairness while incurring a marginal loss in the overall recommendation quality.
翻訳日:2022-12-28 21:54:42 公開日:2020-06-23
# 電車の大型化と圧縮:変圧器の効率的な訓練と推論のためのモデルサイズ再考

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers ( http://arxiv.org/abs/2002.11794v2 )

ライセンス: Link先を確認
Zhuohan Li, Eric Wallace, Sheng Shen, Kevin Lin, Kurt Keutzer, Dan Klein, Joseph E. Gonzalez(参考訳) ハードウェアリソースは限られているため、ディープラーニングモデルをトレーニングする目的は通常、トレーニングと推論の時間とメモリの制約による精度を最大化することである。 本研究では,計算によって制限されるNLPタスクのトランスフォーマーモデル(自己教師型事前学習と高リソース機械翻訳)に着目し,モデルサイズの影響について検討する。 まず、小さなトランスフォーマーモデルの方がイテレーション毎に高速に実行されるが、より広く、より深いモデルは、はるかに少ないステップで収束することを示す。 さらに、収束の加速は、通常、より大きなモデルを使用する際の計算オーバーヘッドを上回る。 したがって、最も計算効率の高いトレーニング戦略は、直感的に非常に大きなモデルをトレーニングするが、少数のイテレーションの後に停止することです。 これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。 しかし,大規模モデルは小型モデルよりも量子化やプルーニングといった圧縮技術に頑健であることを示す。 重く圧縮された大きなモデルは、軽く圧縮された小さなモデルよりも高い精度を実現します。

Since hardware resources are limited, the objective of training deep learning models is typically to maximize accuracy subject to the time and memory constraints of training and inference. We study the impact of model size in this setting, focusing on Transformer models for NLP tasks that are limited by compute: self-supervised pretraining and high-resource machine translation. We first show that even though smaller Transformer models execute faster per iteration, wider and deeper models converge in significantly fewer steps. Moreover, this acceleration in convergence typically outpaces the additional computational overhead of using larger models. Therefore, the most compute-efficient training strategy is to counterintuitively train extremely large models but stop after a small number of iterations. This leads to an apparent trade-off between the training efficiency of large Transformer models and the inference efficiency of small Transformer models. However, we show that large models are more robust to compression techniques such as quantization and pruning than small models. Consequently, one can get the best of both worlds: heavily compressed, large models achieve higher accuracy than lightly compressed, small models.
翻訳日:2022-12-28 14:08:21 公開日:2020-06-23
# 対数レグレットによる対数オンライン制御

Logarithmic Regret for Adversarial Online Control ( http://arxiv.org/abs/2003.00189v3 )

ライセンス: Link先を確認
Dylan J. Foster and Max Simchowitz(参考訳) 本稿では,オンライン線形四元数制御のための新しいアルゴリズムを提案する。 この設定スケールの既存の後悔境界を$\sqrt{T}$とすると、外乱過程に強い確率的仮定が課される。 状態と制御コストが既知の二次関数によって与えられる場合,任意の逆乱列に対して対数的後悔を伴う最初のアルゴリズムを与える。 我々のアルゴリズムと分析では、オンライン制御問題を近似的優位関数で(遅延)オンライン学習に還元するために、最適オフライン制御法の特徴を用いる。 従来の手法と比較して,本手法は反復の移動コストを制御する必要はなく,対数的後悔につながる。

We introduce a new algorithm for online linear-quadratic control in a known system subject to adversarial disturbances. Existing regret bounds for this setting scale as $\sqrt{T}$ unless strong stochastic assumptions are imposed on the disturbance process. We give the first algorithm with logarithmic regret for arbitrary adversarial disturbance sequences, provided the state and control costs are given by known quadratic functions. Our algorithm and analysis use a characterization for the optimal offline control law to reduce the online control problem to (delayed) online learning with approximate advantage functions. Compared to previous techniques, our approach does not need to control movement costs for the iterates, leading to logarithmic regret.
翻訳日:2022-12-27 20:24:41 公開日:2020-06-23
# 深層強化学習によるプライバシーを考慮した時系列データ共有

Privacy-Aware Time-Series Data Sharing with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.02685v2 )

ライセンス: Link先を確認
Ecenaz Erdemir, Pier Luigi Dragotti and Deniz Gunduz(参考訳) モノのインターネット(IoT)デバイスは、多くの新しいサービスやアプリケーションによって、ますます人気が高まっている。 しかし、多くのメリットに加えて、詳細な時系列ユーザーデータを信頼できない第三者と共有しているため、プライバシー上の懸念も高まる。 本研究では、時系列データ共有におけるプライバシーユーティリティトレードオフ(PUT)について検討する。 既存のアプローチでは、主に単一のデータポイントに焦点を当てているが、時系列データの時間的相関は新しい課題をもたらす。 現時点のプライバシを保護する方法は、敵がトレースの時間的相関を活用できるため、トレースレベルでかなりの量の情報をリークする可能性がある。 信頼できない第三者とユーザの真のデータシーケンスの歪んだバージョンを共有することを検討する。 ユーザの真のデータシーケンスと共有バージョン間の相互情報によるプライバシー漏洩を測定する。 我々は,2つの列間の瞬時および平均歪みを,所定の歪み尺度の下で有効損失指標として検討する。 歴史に依存した相互情報の最小化に取り組むため、マルコフ決定過程(MDP)として問題を再構成し、非同期アクター批判深層強化学習(RL)を用いて解決する。 合成GPSとGeoLifeGPSの両方のトラジェクトリデータセットにおける位置追跡プライバシーにおける提案手法の性能を評価する。 後者では, 敵ネットワークに対して, 解放された位置軌跡のプライバシをテストすることで, 解決策の有効性を示す。

Internet of things (IoT) devices are becoming increasingly popular thanks to many new services and applications they offer. However, in addition to their many benefits, they raise privacy concerns since they share fine-grained time-series user data with untrusted third parties. In this work, we study the privacy-utility trade-off (PUT) in time-series data sharing. Existing approaches to PUT mainly focus on a single data point; however, temporal correlations in time-series data introduce new challenges. Methods that preserve the privacy for the current time may leak significant amount of information at the trace level as the adversary can exploit temporal correlations in a trace. We consider sharing the distorted version of a user's true data sequence with an untrusted third party. We measure the privacy leakage by the mutual information between the user's true data sequence and shared version. We consider both the instantaneous and average distortion between the two sequences, under a given distortion measure, as the utility loss metric. To tackle the history-dependent mutual information minimization, we reformulate the problem as a Markov decision process (MDP), and solve it using asynchronous actor-critic deep reinforcement learning (RL). We evaluate the performance of the proposed solution in location trace privacy on both synthetic and GeoLife GPS trajectory datasets. For the latter, we show the validity of our solution by testing the privacy of the released location trajectory against an adversary network.
翻訳日:2022-12-26 13:44:47 公開日:2020-06-23
# 希釈,適応,希釈:ニューラルマシン翻訳のための小さな,ドメイン内モデルを訓練する

Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation ( http://arxiv.org/abs/2003.02877v3 )

ライセンス: Link先を確認
Mitchell A. Gordon, Kevin Duh(参考訳) ドメイン適応設定におけるシーケンスレベルの知識蒸留を用いた,小型でメモリ効率のよい機械翻訳モデルを訓練するためのベストプラクティスを探る。 ドメイン適応と知識蒸留の両方が広く使われているが、それらの相互作用はほとんど理解されていない。 機械翻訳による大規模な実験結果(それぞれ3つのドメインを持つ3つの言語ペアで)では、最高のパフォーマンスのために2回蒸留することを提案しています。

We explore best practices for training small, memory efficient machine translation models with sequence-level knowledge distillation in the domain adaptation setting. While both domain adaptation and knowledge distillation are widely-used, their interaction remains little understood. Our large-scale empirical results in machine translation (on three language pairs with three domains each) suggest distilling twice for best performance: once using general-domain data and again using in-domain data with an adapted teacher.
翻訳日:2022-12-26 07:09:50 公開日:2020-06-23
# Chasing GradientsによるFrank-Wolfeのブースティング

Boosting Frank-Wolfe by Chasing Gradients ( http://arxiv.org/abs/2003.06369v2 )

ライセンス: Link先を確認
Cyrille W. Combettes and Sebastian Pokutta(参考訳) Frank-Wolfeアルゴリズムは、単純かつプロジェクションフリーな一階最適化アルゴリズムとして人気があり、様々な実世界の問題に適用されている。 しかし、その主な欠点は収束速度であり、ナイーブ降下方向のため過度に遅い可能性がある。 本稿では,降下方向をサブルーチンによる負勾配に整合させることにより,Frank-Wolfeアルゴリズムの高速化を提案する。 このサブルーチンは、投影のない特性を維持しながら、一致する追従スタイルの負の勾配方向を追いかける。 アプローチは当然自然だが、非常に重要な結果をもたらす。 我々は,本手法の収束率$\mathcal{o}(1/t)$から$\mathcal{o}(e^{-\omega t})$を導出し,一連の計算実験において,反復とcpu時間の両方において,その競争上の優位性を示す。

The Frank-Wolfe algorithm has become a popular first-order optimization algorithm for it is simple and projection-free, and it has been successfully applied to a variety of real-world problems. Its main drawback however lies in its convergence rate, which can be excessively slow due to naive descent directions. We propose to speed up the Frank-Wolfe algorithm by better aligning the descent direction with that of the negative gradient via a subroutine. This subroutine chases the negative gradient direction in a matching pursuit-style while still preserving the projection-free property. Although the approach is reasonably natural, it produces very significant results. We derive convergence rates $\mathcal{O}(1/t)$ to $\mathcal{O}(e^{-\omega t})$ of our method and we demonstrate its competitive advantage both per iteration and in CPU time over the state-of-the-art in a series of computational experiments.
翻訳日:2022-12-24 02:16:06 公開日:2020-06-23
# タスク指向対話システムの現状と課題

Recent Advances and Challenges in Task-oriented Dialog System ( http://arxiv.org/abs/2003.07490v3 )

ライセンス: Link先を確認
Zheng Zhang, Ryuichi Takanobu, Qi Zhu, Minlie Huang, Xiaoyan Zhu(参考訳) ヒューマン・コンピュータ・インタラクションと自然言語処理の意義と価値から,課題指向対話システムは,学術・産業両分野においてますます注目を集めている。 本稿では,タスク指向対話システムにおける最近の進歩と課題について述べる。 また、タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。1)低リソース設定でのダイアログモデリングを容易にするためのデータ効率の向上、2)タスク補完性能を達成するためにダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、3)ダイアログモデルへのドメインオントロジー知識の統合。 また,ダイアログ評価の最近の進歩と,広く利用されているコーパスについても概説する。 我々は,この調査が不完全ではあるが,タスク指向対話システムにおける今後の研究に光を当てることができると考えている。

Due to the significance and value in human-computer interaction and natural language processing, task-oriented dialog systems are attracting more and more attention in both academic and industrial communities. In this paper, we survey recent advances and challenges in task-oriented dialog systems. We also discuss three critical topics for task-oriented dialog systems: (1) improving data efficiency to facilitate dialog modeling in low-resource settings, (2) modeling multi-turn dynamics for dialog policy learning to achieve better task-completion performance, and (3) integrating domain ontology knowledge into the dialog model. Besides, we review the recent progresses in dialog evaluation and some widely-used corpora. We believe that this survey, though incomplete, can shed a light on future research in task-oriented dialog systems.
翻訳日:2022-12-22 21:12:49 公開日:2020-06-23
# Few-Shotグラフ分類のための適応ステップグラフメタラーナ

Adaptive-Step Graph Meta-Learner for Few-Shot Graph Classification ( http://arxiv.org/abs/2003.08246v2 )

ライセンス: Link先を確認
Ning Ma, Jiajun Bu, Jieyu Yang, Zhen Zhang, Chengwei Yao, Zhi Yu, Sheng Zhou and Xifeng Yan(参考訳) グラフ分類は、グラフ構造化データから正確な情報を抽出して分類することを目的としており、グラフ学習コミュニティにおいてますます重要になっている。 グラフニューラルネットワーク(GNN)はグラフ分類タスクにうまく適用されているが、多くのアプリケーションでラベル付きグラフデータの不足を見落としている。 例えば、バイオインフォマティクスでは、タンパク質グラフラベルを取得するには、通常、精巧な実験が必要である。 最近、テストクラスのラベル付きグラフサンプルが与えられただけでこの問題を緩和するために、わずかなショット学習が研究されている。 トレーニングクラスとテストクラス間の共有サブ構造は、少数ショットグラフ分類において必須である。 終了メソッドは、テストクラスがトレーニングクラスからクラスタ化された同じスーパークラスのセットに属すると仮定する。 しかし、我々の観察によると、トレーニングクラスとテストクラスのラベル空間は通常、現実のシナリオでは重複しない。 その結果、既存のメソッドは、見当たらないテストクラスのローカル構造をうまく捉えられません。 この制限を克服するため,本論文では,いくつかの適応ステップにおいて,初期化メタラーナを用いてサブ構造をキャプチャする手法を提案する。 More specifically, (1) we propose a novel framework consisting of a graph meta-learner, which uses GNNs based modules for fast adaptation on graph data, and a step controller for the robustness and generalization of meta-learner; (2) we provide quantitative analysis for the framework and give a graph-dependent upper bound of the generalization error based on our framework; (3) the extensive experiments on real-world datasets demonstrate that our framework gets state-of-the-art results on several few-shot graph classification tasks compared to baselines.

Graph classification aims to extract accurate information from graph-structured data for classification and is becoming more and more important in graph learning community. Although Graph Neural Networks (GNNs) have been successfully applied to graph classification tasks, most of them overlook the scarcity of labeled graph data in many applications. For example, in bioinformatics, obtaining protein graph labels usually needs laborious experiments. Recently, few-shot learning has been explored to alleviate this problem with only given a few labeled graph samples of test classes. The shared sub-structures between training classes and test classes are essential in few-shot graph classification. Exiting methods assume that the test classes belong to the same set of super-classes clustered from training classes. However, according to our observations, the label spaces of training classes and test classes usually do not overlap in real-world scenario. As a result, the existing methods don't well capture the local structures of unseen test classes. To overcome the limitation, in this paper, we propose a direct method to capture the sub-structures with well initialized meta-learner within a few adaptation steps. More specifically, (1) we propose a novel framework consisting of a graph meta-learner, which uses GNNs based modules for fast adaptation on graph data, and a step controller for the robustness and generalization of meta-learner; (2) we provide quantitative analysis for the framework and give a graph-dependent upper bound of the generalization error based on our framework; (3) the extensive experiments on real-world datasets demonstrate that our framework gets state-of-the-art results on several few-shot graph classification tasks compared to baselines.
翻訳日:2022-12-22 09:31:02 公開日:2020-06-23
# 重要度とチャネル認識を考慮したセルラーフェデレーションエッジ学習のスケジューリング

Scheduling for Cellular Federated Edge Learning with Importance and Channel Awareness ( http://arxiv.org/abs/2004.00490v2 )

ライセンス: Link先を確認
Jinke Ren, Yinghui He, Dingzhu Wen, Guanding Yu, Kaibin Huang, and Dongning Guo(参考訳) セルフェデレーションエッジ学習(feel)では、ローカルデータを保持した複数のエッジデバイスが、データサンプルを交換することなく、学習更新をアクセスポイントと通信することでニューラルネットワークを訓練する。 通信リソースが非常に限られており、最も有益なローカルラーニングアップデートをスケジュールすることが有益である。 本稿では,マルチユーザチャネルの多様性と,エッジデバイスの学習更新における「重要度」の多様性を両立させる新しいスケジューリングポリシーを提案する。 まず、新しい確率的スケジューリングフレームワークを開発し、FEELの非バイアス更新アグリゲーションを実現する。 局所学習更新の重要性は、勾配の発散によって測定される。 1つのエッジデバイスが各通信ラウンドでスケジュールされている場合、スケジューリングポリシーはクローズド形式で導出され、チャネル品質と更新重要性の最適なトレードオフを実現する。 次に確率的スケジューリングフレームワークを拡張して,通信ラウンド毎に複数のエッジデバイスをスケジューリングする。 一般的なモデルと学習データセットを用いて得られた数値結果から,提案したスケジューリングポリシは,単一種類の多様性のみを利用する従来のスケジューリングポリシよりも高速なモデル収束と学習精度が得られることが示された。

In cellular federated edge learning (FEEL), multiple edge devices holding local data jointly train a neural network by communicating learning updates with an access point without exchanging their data samples. With very limited communication resources, it is beneficial to schedule the most informative local learning updates. In this paper, a novel scheduling policy is proposed to exploit both diversity in multiuser channels and diversity in the "importance" of the edge devices' learning updates. First, a new probabilistic scheduling framework is developed to yield unbiased update aggregation in FEEL. The importance of a local learning update is measured by its gradient divergence. If one edge device is scheduled in each communication round, the scheduling policy is derived in closed form to achieve the optimal trade-off between channel quality and update importance. The probabilistic scheduling framework is then extended to allow scheduling multiple edge devices in each communication round. Numerical results obtained using popular models and learning datasets demonstrate that the proposed scheduling policy can achieve faster model convergence and higher learning accuracy than conventional scheduling policies that only exploit a single type of diversity.
翻訳日:2022-12-17 19:37:20 公開日:2020-06-23
# 畳み込みニューラルネットの顔認識は非人間的な方法で機能する

Convolutional neural net face recognition works in non-human-like ways ( http://arxiv.org/abs/2004.04069v2 )

ライセンス: Link先を確認
P. J. B. Hancock, R. S. Somai and V. R. Mileva(参考訳) 畳み込みニューラルネットワーク(CNN)は、多くのパターン認識問題において、アートパフォーマンスの状態を付与するが、注意深く作られたノイズパターンによって騙される。 cnnの顔認識システムも驚くべき「エラー」を起こしていると報告した。 我々は6つの商用顔認識CNNを試験し、標準的な顔マッチングタスクにおいて、典型的な人間の参加者よりも優れた結果を得た。 しかし、彼らはまた、人間はしないと宣言し、そこではペアのイメージが別の性別や人種に見えるように変化した。 最高のCNNは、人間の顔のマッチングタスクでほぼ完全に動作しますが、異なる見かけの人種や性別の顔に対して最もマッチしていると宣言します。 セックスと人種のサリエンスが異なるが、人間とコンピューターのシステムは全く異なる方法で機能していない。 彼らは同じ画像のペアを見つけるのが難しく、基礎となる類似性空間についていくつかの合意を示唆する。

Convolutional neural networks (CNNs) give state of the art performance in many pattern recognition problems but can be fooled by carefully crafted patterns of noise. We report that CNN face recognition systems also make surprising "errors". We tested six commercial face recognition CNNs and found that they outperform typical human participants on standard face matching tasks. However, they also declare matches that humans would not, where one image from the pair has been transformed to look a different sex or race. This is not due to poor performance; the best CNNs perform almost perfectly on the human face matching tasks, but also declare the most matches for faces of a different apparent race or sex. Although differing on the salience of sex and race, humans and computer systems are not working in completely different ways. They tend to find the same pairs of images difficult, suggesting some agreement about the underlying similarity space.
翻訳日:2022-12-15 09:12:12 公開日:2020-06-23
# モーダル間および空間関連ゼルニケ係数のサンプリングによる異方性乱流のシミュレーション

Simulating Anisoplanatic Turbulence by Sampling Inter-modal and Spatially Correlated Zernike Coefficients ( http://arxiv.org/abs/2004.11210v2 )

ライセンス: Link先を確認
Nicholas Chimitt and Stanley H. Chan(参考訳) 大気乱流のシミュレーションは,乱流緩和アルゴリズムの評価や学習手法の訓練に欠かせない課題である。 大気乱流の高度数値シミュレーションは可能であるが、計算コストの高い波動伝播の評価が必要となる。 本稿では,乱流中を伝播しないイメージングシミュレーション手法を提案する。 私たちの研究の背後にある重要なアイデアは、モーダル係数と空間相関係数を描画する新しい方法です。 Basu, McCrae, Fiorino (2015) と Chanan (1992) によるマルチアパーチャ相関の等価性を確立することにより、Zernike 係数は相関を定義する共分散行列に従って描画可能であることを示す。 これらのサンプルを描くために,高速でスケーラブルなサンプリング戦略を提案する。 新しい方法では、波の伝播問題をサンプリング問題に圧縮できるため、新しいシミュレータは既存のシミュレータよりもはるかに高速になる。 実験の結果,シミュレータは理論と実乱流データとよく一致していることがわかった。

Simulating atmospheric turbulence is an essential task for evaluating turbulence mitigation algorithms and training learning-based methods. Advanced numerical simulators for atmospheric turbulence are available, but they require evaluating wave propagation which is computationally expensive. In this paper, we present a propagation-free method for simulating imaging through turbulence. The key idea behind our work is a new method to draw inter-modal and spatially correlated Zernike coefficients. By establishing the equivalence between the angle-of-arrival correlation by Basu, McCrae and Fiorino (2015) and the multi-aperture correlation by Chanan (1992), we show that the Zernike coefficients can be drawn according to a covariance matrix defining the correlations. We propose fast and scalable sampling strategies to draw these samples. The new method allows us to compress the wave propagation problem into a sampling problem, hence making the new simulator significantly faster than existing ones. Experimental results show that the simulator has an excellent match with the theory and real turbulence data.
翻訳日:2022-12-10 12:37:59 公開日:2020-06-23
# なぜニューラルネットワークに早期出口を追加するのか?

Why should we add early exits to neural networks? ( http://arxiv.org/abs/2004.12814v2 )

ライセンス: Link先を確認
Simone Scardapane, Michele Scarpiniti, Enzo Baccarelli, Aurelio Uncini(参考訳) ディープニューラルネットワークは一般に、全スタックを実行した後のみ予測が得られる、微分可能なレイヤのスタックとして設計されている。 近年,ネットワークに早期出口を付与する手法が提案されており,スタックの中間点での予測が可能である。 これらのマルチアウトプットネットワークには,次のようなメリットがある。 (i)推論時間の大幅な短縮。 (二)過度に適合・消滅する傾向の低下、及び (iii)多層計算プラットフォーム上で分散する能力。 さらに、生物学的可視性と層状認知推論のより広いテーマに結びついている。 本稿では、これらのアーキテクチャを設計、訓練、実際に時間に制約されたシナリオで展開する方法を統一的に記述することにより、ニューラルネットワークのファミリーを包括的に紹介する。 また、5G や Fog の計算環境におけるアプリケーションシナリオの詳細な説明も行います。

Deep neural networks are generally designed as a stack of differentiable layers, in which a prediction is obtained only after running the full stack. Recently, some contributions have proposed techniques to endow the networks with early exits, allowing to obtain predictions at intermediate points of the stack. These multi-output networks have a number of advantages, including: (i) significant reductions of the inference time, (ii) reduced tendency to overfitting and vanishing gradients, and (iii) capability of being distributed over multi-tier computation platforms. In addition, they connect to the wider themes of biological plausibility and layered cognitive reasoning. In this paper, we provide a comprehensive introduction to this family of neural networks, by describing in a unified fashion the way these architectures can be designed, trained, and actually deployed in time-constrained scenarios. We also describe in-depth their application scenarios in 5G and Fog computing environments, as long as some of the open research questions connected to them.
翻訳日:2022-12-09 04:10:23 公開日:2020-06-23
# SEEK: 知識グラフの分割埋め込み

SEEK: Segmented Embedding of Knowledge Graphs ( http://arxiv.org/abs/2005.00856v3 )

ライセンス: Link先を確認
Wentao Xu, Shun Zheng, Liang He, Bin Shao, Jian Yin, Tie-Yan Liu(参考訳) 近年、知識グラフ埋め込みは人工知能の非常にホットな研究テーマとなり、レコメンデーションや質問応答など、下流のさまざまなアプリケーションにおいてますます重要な役割を担っている。 しかし、既存の知識グラフ埋め込みの手法では、モデルの複雑さとモデル表現力との適切なトレードオフが得られず、満足のいくものではない。 この問題を軽減するために,モデル複雑性を増大させることなく高い競争力を持つ関係表現を実現する軽量なモデリングフレームワークを提案する。 我々のフレームワークはスコアリング機能の設計に焦点を当て、2つの重要な特徴を強調する。 1) 十分な機能的相互作用の促進 2) 関係の対称性と反対称性の両特性を保持する。 スコアリング関数の汎用的かつエレガントな設計により、我々のフレームワークは、多くの有名な既存のメソッドを特別なケースとして組み込むことができる。 さらに、公開ベンチマークに関する広範な実験により、我々のフレームワークの効率性と有効性を示す。 ソースコードとデータは \url{https://github.com/Wentao-Xu/SEEK} にある。

In recent years, knowledge graph embedding becomes a pretty hot research topic of artificial intelligence and plays increasingly vital roles in various downstream applications, such as recommendation and question answering. However, existing methods for knowledge graph embedding can not make a proper trade-off between the model complexity and the model expressiveness, which makes them still far from satisfactory. To mitigate this problem, we propose a lightweight modeling framework that can achieve highly competitive relational expressiveness without increasing the model complexity. Our framework focuses on the design of scoring functions and highlights two critical characteristics: 1) facilitating sufficient feature interactions; 2) preserving both symmetry and antisymmetry properties of relations. It is noteworthy that owing to the general and elegant design of scoring functions, our framework can incorporate many famous existing methods as special cases. Moreover, extensive experiments on public benchmarks demonstrate the efficiency and effectiveness of our framework. Source codes and data can be found at \url{https://github.com/Wentao-Xu/SEEK}.
翻訳日:2022-12-07 11:42:22 公開日:2020-06-23
# TOMA: 強化学習のためのトポロジカルマップ抽象化

TOMA: Topological Map Abstraction for Reinforcement Learning ( http://arxiv.org/abs/2005.06061v2 )

ライセンス: Link先を確認
Zhao-Heng Yin, Wu-Jun Li(参考訳) 動物は、航行に使用される周囲の環境のトポロジカルマップ(グラフ)を見つけることができる。 この生物学的現象に触発されて、研究者らは最近、マルコフ決定過程(MDP)のグラフ表現を作成し、強化学習(RL)の計画にそのようなグラフを使用することを提案した。 しかし,既存のグラフ生成手法には多くの欠点がある。 1つの欠点は、既存のメソッドがグラフの抽象化を学習していないことである。 この欠点はグラフ生成の非ロバスト化にもつながり、計画性能が低下する。 もう一つの欠点は、RLで重要な探索を容易にするために既存の手法は使用できないことである。 本稿では,グラフ生成のためのトポロジカルマップ抽象化(TOMA)と呼ばれる新しい手法を提案する。 tomaはmdp用の抽象グラフ表現を生成することができ、既存のメソッドよりもはるかに少ないメモリと計算コストがかかる。 さらに、TOMAは探索を容易にするために使用できる。 特に,未探索状態に向けてエージェントを誘導することにより,TOMAを探索の高速化に活用する探索計画を提案する。 バーテックスメモリと呼ばれる新しい体験再生モジュールも探索性能を向上させるために提案されている。 実験の結果,tomaは既存の手法を上回って最先端のパフォーマンスを達成できることがわかった。

Animals are able to discover the topological map (graph) of surrounding environment, which will be used for navigation. Inspired by this biological phenomenon, researchers have recently proposed to generate graph representation for Markov decision process (MDP) and use such graphs for planning in reinforcement learning (RL). However, existing graph generation methods suffer from many drawbacks. One drawback is that existing methods do not learn an abstraction for graphs, which results in high memory and computation cost. This drawback also makes generated graph non-robust, which degrades the planning performance. Another drawback is that existing methods cannot be used for facilitating exploration which is important in RL. In this paper, we propose a new method, called topological map abstraction (TOMA), for graph generation. TOMA can generate an abstract graph representation for MDP, which costs much less memory and computation cost than existing methods. Furthermore, TOMA can be used for facilitating exploration. In particular, we propose planning to explore, in which TOMA is used to accelerate exploration by guiding the agent towards unexplored states. A novel experience replay module called vertex memory is also proposed to improve exploration performance. Experimental results show that TOMA can outperform existing methods to achieve the state-of-the-art performance.
翻訳日:2022-12-04 19:16:34 公開日:2020-06-23
# 変圧器に基づく音声認識のための教師なし事前学習の検討

A Further Study of Unsupervised Pre-training for Transformer Based Speech Recognition ( http://arxiv.org/abs/2005.09862v2 )

ライセンス: Link先を確認
Dongwei Jiang, Wubo Li, Ruixiong Zhang, Miao Cao, Ne Luo, Yang Han, Wei Zou, Xiangang Li(参考訳) 優れた音声認識システムを構築するには、通常大量の書き起こしデータを必要とする。 この問題に対処するために,教師なし事前学習法が多数提案されている。 これらの手法のうち、マスキング予測符号化はbert様のマスキング再構成損失とトランスフォーマーバックボーンを持つ様々な音声認識データセットにおいて著しく改善された。 しかし、mpcの多くの側面は十分に調査されていない。 本稿では,mpcに関するさらなる研究を行い,データスピーキングスタイルがストリーミングモデルに与える影響,学習知識を事前学習段階から下流タスクに伝達する方法,という3つの重要な側面に注目した。 実験では、会話スタイルに合わせた事前学習データが下流認識タスクでより有用であることを示した。 APCとMPCの統合トレーニング目標により、HKUSTでトレーニングされたストリーミングモデルに対して、相対誤差が8.46%削減された。 また、ターゲットデータ適応と層単位での識別訓練を組み合わせることで、MPCの知識伝達に寄与し、AISHELLを強力なベースラインで3.99%の相対誤差削減を達成した。

Building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, many unsupervised pre-training methods have been proposed. Among these methods, Masked Predictive Coding achieved significant improvements on various speech recognition datasets with BERT-like Masked Reconstruction loss and Transformer backbone. However, many aspects of MPC have not been fully investigated. In this paper, we conduct a further study on MPC and focus on three important aspects: the effect of pre-training data speaking style, its extension on streaming model, and how to better transfer learned knowledge from pre-training stage to downstream tasks. Experiments reveled that pre-training data with matching speaking style is more useful on downstream recognition tasks. A unified training objective with APC and MPC provided 8.46% relative error reduction on streaming model trained on HKUST. Also, the combination of target data adaption and layer-wise discriminative training helped the knowledge transfer of MPC, which achieved 3.99% relative error reduction on AISHELL over a strong baseline.
翻訳日:2022-12-01 05:58:43 公開日:2020-06-23
# 対話型機械読解のための粗結合推論を用いた明示的メモリトラッカー

Explicit Memory Tracker with Coarse-to-Fine Reasoning for Conversational Machine Reading ( http://arxiv.org/abs/2005.12484v2 )

ライセンス: Link先を確認
Yifan Gao, Chien-Sheng Wu, Shafiq Joty, Caiming Xiong, Richard Socher, Irwin King, Michael R. Lyu, and Steven C.H. Hoi(参考訳) 会話型機械読解の目的は、知識ベーステキストを与えられたユーザの質問に答えることである。 既存のアプローチは、質問に関するルールの抽出と推論に苦労しているため、意思決定に制限がある。 本稿では,ルールテキストに記載された条件がすでに決定に満足しているかどうかを追跡する新しい明示的メモリトラッカ(emt)を含む対話型機械読取の新しい枠組みを提案する。 さらに, 文レベルの係り受けスコアを用いてトークンレベルの分布を重み付けすることにより, 細かな推論戦略を採用することにより, 明確化問題を生成する。 ShARCベンチマーク(blind, hold-out)テストセットでは、EMTは74.6%のマイクロ平均決定精度と49.5 BLEU4の新たな最先端結果を達成した。 また,会話の流れにともなうエンテーメント指向推論過程を可視化することにより,EMTはより解釈可能であることを示す。 コードとモデルはhttps://github.com/Yifan-Gao/explicit_Memory_trackerで公開されている。

The goal of conversational machine reading is to answer user questions given a knowledge base text which may require asking clarification questions. Existing approaches are limited in their decision making due to struggles in extracting question-related rules and reasoning about them. In this paper, we present a new framework of conversational machine reading that comprises a novel Explicit Memory Tracker (EMT) to track whether conditions listed in the rule text have already been satisfied to make a decision. Moreover, our framework generates clarification questions by adopting a coarse-to-fine reasoning strategy, utilizing sentence-level entailment scores to weight token-level distributions. On the ShARC benchmark (blind, held-out) testset, EMT achieves new state-of-the-art results of 74.6% micro-averaged decision accuracy and 49.5 BLEU4. We also show that EMT is more interpretable by visualizing the entailment-oriented reasoning process as the conversation flows. Code and models are released at https://github.com/Yifan-Gao/explicit_memory_tracker.
翻訳日:2022-11-29 00:07:13 公開日:2020-06-23
# 6自由度メッシュ塩分検出に向けて

Towards Mesh Saliency Detection in 6 Degrees of Freedom ( http://arxiv.org/abs/2005.13127v2 )

ライセンス: Link先を確認
Xiaoying Ding and Zhenzhong Chen(参考訳) 従来の3次元メッシュ塩分検出アルゴリズムとそれに対応するデータベースは,対象者の移動を考慮せず,視聴方向の制限など,いくつかの制約の下で提案されている。 本研究では、被験者の6DoFデータと眼球運動データの両方を提供する新しい6DoFメッシュサリエンシデータベースを開発した。 従来のデータベースとは異なり、実験対象は自由に動き、仮想現実環境で3Dメッシュを観察することができる。 データベースを用いて,まず観察者の目視に対する視角方向の変動と観察方向の影響を解析し,観察中の被験者の視的注意バイアスについてさらに検討する。 さらに,一意性尺度とバイアス嗜好に基づく6DoFメッシュ・サリエンシ検出アルゴリズムを提案する。 提案手法を評価するため,提案手法は6DoF情報を考慮した評価基準を設計し,最先端の3D塩分検出手法を拡張して比較を行う。 実験の結果,提案した6DoFメッシュサリエンシデータベースのベンチマークに加えて,我々の6DoFメッシュサリエンシ検出手法の優れた性能を示した。 データベースと対応するアルゴリズムは研究目的で公開される予定だ。

Traditional 3D mesh saliency detection algorithms and corresponding databases were proposed under several constraints such as providing limited viewing directions and not taking the subject's movement into consideration. In this work, a novel 6DoF mesh saliency database is developed which provides both the subject's 6DoF data and eye-movement data. Different from traditional databases, subjects in the experiment are allowed to move freely to observe 3D meshes in a virtual reality environment. Based on the database, we first analyze the inter-observer variation and the influence of viewing direction towards subject's visual attention, then we provide further investigations about the subject's visual attention bias during observation. Furthermore, we propose a 6DoF mesh saliency detection algorithm based on the uniqueness measure and the bias preference. To evaluate the proposed approach, we also design an evaluation metric accordingly which takes the 6DoF information into consideration, and extend some state-of-the-art 3D saliency detection methods to make comparisons. The experimental results demonstrate the superior performance of our approach for 6DoF mesh saliency detection, in addition to providing benchmarks for the presented 6DoF mesh saliency database. The database and the corresponding algorithms will be made publicly available for research purposes.
翻訳日:2022-11-28 09:33:42 公開日:2020-06-23
# アンタングル表現によるロバスト顔認証

Robust Face Verification via Disentangled Representations ( http://arxiv.org/abs/2006.03638v2 )

ライセンス: Link先を確認
Marius Arvinte, Ahmed H. Tewfik and Sriram Vishwanath(参考訳) 顔認証のためのロバストなアルゴリズム、すなわち2つの画像が同一人物であるか否かを判断する。 我々のアプローチは、深層生成ネットワークを敵対的ロバスト性に利用するという新しい考え方である。 我々は,学習中に生成モデルを,対向雑音を除去するテスト時間浄化装置の代わりに,オンライン増強法として利用する。 我々のアーキテクチャは、負のペアをサンプリングするために、対照的な損失項と不整合生成モデルを用いる。 2つの実画像をランダムにペアリングする代わりに、画像をその内容(目的、頭部の傾き、髪など)をそのまま保ちながら、クラス修正された画像とペアリングする。 これにより、対照的な損失に対して、硬い負のペアを効率的にサンプルすることができる。 逆行訓練と組み合わせることで,提案手法は弱内部解法と収束し,ホワイトボックス物理攻撃に対する評価において,最先端の工法よりもクリーンで堅牢な精度を有することを示す。

We introduce a robust algorithm for face verification, i.e., deciding whether twoimages are of the same person or not. Our approach is a novel take on the idea ofusing deep generative networks for adversarial robustness. We use the generativemodel during training as an online augmentation method instead of a test-timepurifier that removes adversarial noise. Our architecture uses a contrastive loss termand a disentangled generative model to sample negative pairs. Instead of randomlypairing two real images, we pair an image with its class-modified counterpart whilekeeping its content (pose, head tilt, hair, etc.) intact. This enables us to efficientlysample hard negative pairs for the contrastive loss. We experimentally show that, when coupled with adversarial training, the proposed scheme converges with aweak inner solver and has a higher clean and robust accuracy than state-of-the-art-methods when evaluated against white-box physical attacks.
翻訳日:2022-11-25 03:18:43 公開日:2020-06-23
# モデルベースオフライン最適化によるデプロイ効率の良い強化学習

Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization ( http://arxiv.org/abs/2006.03647v2 )

ライセンス: Link先を確認
Tatsuya Matsushima, Hiroki Furuta, Yutaka Matsuo, Ofir Nachum, Shixiang Gu(参考訳) ほとんどの強化学習(rl)アルゴリズムは、オンライン環境へのアクセスを前提としており、そのポリシーを使って、経験を収集したポリシーに簡単に更新をインターリーブすることができる。 しかし、健康、教育、対話エージェント、ロボット工学といった現実世界の多くのアプリケーションでは、新しいデータ収集ポリシーを展開するコストや潜在的なリスクが高いため、学習中にデータ収集ポリシーを数回更新することが禁止される可能性がある。 そこで,本稿では,ポリシー学習中に使用されるデータ収集ポリシーの数を計測し,展開効率の新しい概念を提案する。 既存のモデルレスオフラインRLアルゴリズムを再帰的に適用しても,実用的な展開効率とサンプル効率のアルゴリズムは得られない。 本研究では,従来よりも10~20倍少ないデータを用いてオフラインでポリシーを効果的に最適化できるモデルベースアルゴリズムBREMENを提案する。 さらに、bremenの再帰的適用は、同じまたはより良いサンプル効率を維持しながら、印象的なデプロイメント効率を達成でき、標準的なrlベースラインの典型的な値と比べて、5~10回のデプロイでシミュレーションされたロボット環境上で、成功したポリシーをスクラッチから学習することができる。 コードと事前トレーニングされたモデルはhttps://github.com/matsuolab/BREMEN で公開されている。

Most reinforcement learning (RL) algorithms assume online access to the environment, in which one may readily interleave updates to the policy with experience collection using that policy. However, in many real-world applications such as health, education, dialogue agents, and robotics, the cost or potential risk of deploying a new data-collection policy is high, to the point that it can become prohibitive to update the data-collection policy more than a few times during learning. With this view, we propose a novel concept of deployment efficiency, measuring the number of distinct data-collection policies that are used during policy learning. We observe that na\"{i}vely applying existing model-free offline RL algorithms recursively does not lead to a practical deployment-efficient and sample-efficient algorithm. We propose a novel model-based algorithm, Behavior-Regularized Model-ENsemble (BREMEN) that can effectively optimize a policy offline using 10-20 times fewer data than prior works. Furthermore, the recursive application of BREMEN is able to achieve impressive deployment efficiency while maintaining the same or better sample efficiency, learning successful policies from scratch on simulated robotic environments with only 5-10 deployments, compared to typical values of hundreds to millions in standard RL baselines. Codes and pre-trained models are available at https://github.com/matsuolab/BREMEN .
翻訳日:2022-11-25 02:32:57 公開日:2020-06-23
# Wasserstein Barycentersによる公正回帰

Fair Regression with Wasserstein Barycenters ( http://arxiv.org/abs/2006.07286v2 )

ライセンス: Link先を確認
Evgenii Chzhen, Christophe Denis, Mohamed Hebiri, Luca Oneto, Massimiliano Pontil(参考訳) 人口統計学的パリティ制約を満たす実数値関数を学習する問題について検討する。 予測された出力の分布は、センシティブな属性から独立することを要求する。 センシティブな属性が予測に利用できる場合を考える。 フェア回帰と最適輸送理論の関連性を確立し、最適なフェア予測器に対するクローズドフォーム表現を導出する。 具体的には、この最適分布が感度群に対する標準回帰関数によって引き起こされる分布のwasserstein barycenterであることを示す。 この結果は最適フェア予測を直感的に解釈し、フェアネスを達成するための単純な後処理アルゴリズムを提案する。 我々はこの手順に対してリスクと分布自由公正性を保証する。 数値実験により,本手法はフェアネスの相対利得よりも低い誤差率の相対的な増加とともに,フェアモデルの学習に非常に有効であることが示された。

We study the problem of learning a real-valued function that satisfies the Demographic Parity constraint. It demands the distribution of the predicted output to be independent of the sensitive attribute. We consider the case that the sensitive attribute is available for prediction. We establish a connection between fair regression and optimal transport theory, based on which we derive a close form expression for the optimal fair predictor. Specifically, we show that the distribution of this optimum is the Wasserstein barycenter of the distributions induced by the standard regression function on the sensitive groups. This result offers an intuitive interpretation of the optimal fair prediction and suggests a simple post-processing algorithm to achieve fairness. We establish risk and distribution-free fairness guarantees for this procedure. Numerical experiments indicate that our method is very effective in learning fair models, with a relative increase in error rate that is inferior to the relative gain in fairness.
翻訳日:2022-11-22 03:53:37 公開日:2020-06-23
# HMIC: 階層的医用画像分類, ディープラーニングアプローチ

HMIC: Hierarchical Medical Image Classification, A Deep Learning Approach ( http://arxiv.org/abs/2006.07187v2 )

ライセンス: Link先を確認
Kamran Kowsari, Rasoul Sali, Lubaina Ehsan, William Adorno, Asad Ali, Sean Moore, Beatrice Amadi, Paul Kelly, Sana Syed, Donald Brown(参考訳) 画像分類は医療におけるビッグデータ革命の中心である。 デジタル医用画像の診断・分類のための情報処理手法の改善が,ディープラーニングアプローチによって成功した。 この分野を探求するため、従来の教師付き分類器の性能には制限がある。 本稿では,この課題をマルチクラス分類として捉えた現在の医用画像分類課題とは異なるアプローチについて概説する。 階層的医用画像分類(HMIC)を用いた階層的分類を行った。 HMICは、臨床画像階層のレベルごとに特定の理解を与えるために、ディープラーニングモデルのスタックを使用する。 成績の検査には,親レベルの3つのカテゴリ(線虫病,環境性腸疾患,組織学的に正常なコントロール)を含む小腸画像の生検を行う。 小児レベルでは、Celiac Disease Severityは4つのクラス(I, IIIa, IIIb, IIIC)に分類される。

Image classification is central to the big data revolution in medicine. Improved information processing methods for diagnosis and classification of digital medical images have shown to be successful via deep learning approaches. As this field is explored, there are limitations to the performance of traditional supervised classifiers. This paper outlines an approach that is different from the current medical image classification tasks that view the issue as multi-class classification. We performed a hierarchical classification using our Hierarchical Medical Image classification (HMIC) approach. HMIC uses stacks of deep learning models to give particular comprehension at each level of the clinical picture hierarchy. For testing our performance, we use biopsy of the small bowel images that contain three categories in the parent level (Celiac Disease, Environmental Enteropathy, and histologically normal controls). For the child level, Celiac Disease Severity is classified into 4 classes (I, IIIa, IIIb, and IIIC).
翻訳日:2022-11-22 01:56:05 公開日:2020-06-23
# learn to cycle: 行動認識のための時間一貫性のある特徴発見

Learn to cycle: Time-consistent feature discovery for action recognition ( http://arxiv.org/abs/2006.08247v2 )

ライセンス: Link先を確認
Alexandros Stergiou and Ronald Poppe(参考訳) 時間変化を一般化することは、ビデオにおける効果的な行動認識の前提条件である。 ディープニューラルネットワークの大幅な進歩にもかかわらず、アクションの全体的なパフォーマンスに関連して、短期的な識別動作に重点を置くことは依然として課題である。 我々は、関連する時空間的特徴の発見に柔軟性を持たせることで、この課題に対処します。 Squeeze and Recursion Temporal Gates (SRTG) を導入し, 時間的変動の可能性のある同様のアクティベーションを持つ入力を優先する手法を提案する。 我々は、LSTMを用いて特徴ダイナミクスをカプセル化する新しいCNNブロックと、発見されたダイナミクスとモデル化された特徴の一貫性を評価するための時間ゲートとを併用して、このアイデアを実装した。 SRTGブロックを使用する場合,GFLOPの数は最小限に抑えられ,一貫した改善が見られた。 Kinetics-700では、現在の最先端モデルと同等に動作し、HACS、Moments in Time、UCF-101、HMDB-51で性能を上回ります。

Generalizing over temporal variations is a prerequisite for effective action recognition in videos. Despite significant advances in deep neural networks, it remains a challenge to focus on short-term discriminative motions in relation to the overall performance of an action. We address this challenge by allowing some flexibility in discovering relevant spatio-temporal features. We introduce Squeeze and Recursion Temporal Gates (SRTG), an approach that favors inputs with similar activations with potential temporal variations. We implement this idea with a novel CNN block that uses an LSTM to encapsulate feature dynamics, in conjunction with a temporal gate that is responsible for evaluating the consistency of the discovered dynamics and the modeled features. We show consistent improvement when using SRTG blocks, with only a minimal increase in the number of GFLOPs. On Kinetics-700, we perform on par with current state-of-the-art models, and outperform these on HACS, Moments in Time, UCF-101 and HMDB-51.
翻訳日:2022-11-21 04:25:34 公開日:2020-06-23
# 限定ラベルデータを用いたeコマースカタログにおけるテキスト属性値の自動検証

Automatic Validation of Textual Attribute Values in E-commerce Catalog by Learning with Limited Labeled Data ( http://arxiv.org/abs/2006.08779v3 )

ライセンス: Link先を確認
Yaqing Wang, Yifan Ethan Xu, Xian Li, Xin Luna Dong and Jing Gao(参考訳) 製品カタログはeコマースウェブサイトにとって貴重なリソースである。 カタログでは、製品は製品名、ブランド、機能、フレーバーなど、短いテキストの値を持つ複数の属性に関連付けられている。 通常、個々の小売業者は、これらの重要な値を自己報告するので、カタログ情報は、不可避に騒がしい事実を含んでいる。 既存のディープニューラルネットワークモデルは、2つのテキスト間でクロスチェックを行うことに成功したが、その成功は大量の品質ラベル付きデータに依存する必要があり、この検証タスクでは入手が困難である。 上記の課題に対処するため,MetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案し,ラベル付きデータに制限のあるカテゴリのサブセットから伝達可能な知識を学習し,ラベル付きデータに見つからないカテゴリの不確実性を捉える。 より具体的には、次のような貢献をします。 1)多種多様なカテゴリから得られた製品のテキスト属性値を自然言語推論タスクとして検証する問題を、マイナショット学習環境において定式化し、製品プロファイルとテキスト属性値から得られた信号を共同で処理するメタラーニング潜在変数モデルを提案する。 2)様々なカテゴリの不確かさを効果的に捉えるために,統一モデルにおけるメタ学習と潜在変数の統合を提案する。 3) ラベル付きデータとラベル付きデータとの分布一貫性を確保し, 学習した分布からのサンプリングによる過剰フィッティングを防止するために, 潜在変数モデルに基づく新しい目的関数を提案する。 数百のカテゴリの実際のeコマースデータセットに関する大規模な実験は、MetaBridgeのテキスト属性バリデーションの有効性と、最先端のアプローチと比較して優れたパフォーマンスを示している。

Product catalogs are valuable resources for eCommerce website. In the catalog, a product is associated with multiple attributes whose values are short texts, such as product name, brand, functionality and flavor. Usually individual retailers self-report these key values, and thus the catalog information unavoidably contains noisy facts. Although existing deep neural network models have shown success in conducting cross-checking between two pieces of texts, their success has to be dependent upon a large set of quality labeled data, which are hard to obtain in this validation task: products span a variety of categories. To address the aforementioned challenges, we propose a novel meta-learning latent variable approach, called MetaBridge, which can learn transferable knowledge from a subset of categories with limited labeled data and capture the uncertainty of never-seen categories with unlabeled data. More specifically, we make the following contributions. (1) We formalize the problem of validating the textual attribute values of products from a variety of categories as a natural language inference task in the few-shot learning setting, and propose a meta-learning latent variable model to jointly process the signals obtained from product profiles and textual attribute values. (2) We propose to integrate meta learning and latent variable in a unified model to effectively capture the uncertainty of various categories. (3) We propose a novel objective function based on latent variable model in the few-shot learning setting, which ensures distribution consistency between unlabeled and labeled data and prevents overfitting by sampling from the learned distribution. Extensive experiments on real eCommerce datasets from hundreds of categories demonstrate the effectiveness of MetaBridge on textual attribute validation and its outstanding performance compared with state-of-the-art approaches.
翻訳日:2022-11-21 02:40:05 公開日:2020-06-23
# ゼロチャネルプルーニングによる高解像度画像のリアルタイムユニバーサルスタイル転送

Real-time Universal Style Transfer on High-resolution Images via Zero-channel Pruning ( http://arxiv.org/abs/2006.09029v2 )

ライセンス: Link先を確認
Jie An, Tao Li, Haozhi Huang, Li Shen, Xuan Wang, Yongyi Tang, Jinwen Ma, Wei Liu, and Jiebo Luo(参考訳) コンテンツやスタイル情報を表現するために効果的な深い特徴を抽出することは、ユニバーサルスタイル転送の鍵である。 既存のアルゴリズムの多くは、VGG19を特徴抽出器として使用しており、高い計算コストを発生させ、高解像度画像におけるリアルタイムなスタイル転送を妨げる。 本稿では,GoogLeNetをベースとした軽量な代替アーキテクチャであるArtNetを提案する。 また,深い特徴を伝達するための理論的に健全なサンドイッチスワップ変換(s2)モジュールを提案する。 ArtNetとS2を使用することで、我々の手法は最先端の手法よりも2.3~107.4倍高速である。 総合的な実験により、ArtNetは512倍の512倍の512倍で68.03 FPSの高解像度画像を同時に、普遍的でリアルタイムで高品質なスタイルで転送できることを示した。

Extracting effective deep features to represent content and style information is the key to universal style transfer. Most existing algorithms use VGG19 as the feature extractor, which incurs a high computational cost and impedes real-time style transfer on high-resolution images. In this work, we propose a lightweight alternative architecture - ArtNet, which is based on GoogLeNet, and later pruned by a novel channel pruning method named Zero-channel Pruning specially designed for style transfer approaches. Besides, we propose a theoretically sound sandwich swap transform (S2) module to transfer deep features, which can create a pleasing holistic appearance and good local textures with an improved content preservation ability. By using ArtNet and S2, our method is 2.3 to 107.4 times faster than state-of-the-art approaches. The comprehensive experiments demonstrate that ArtNet can achieve universal, real-time, and high-quality style transfer on high-resolution images simultaneously, (68.03 FPS on 512 times 512 images).
翻訳日:2022-11-20 21:23:18 公開日:2020-06-23
# 説明可能な人工知能(XAI)の可能性と課題

Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey ( http://arxiv.org/abs/2006.11371v2 )

ライセンス: Link先を確認
Arun Das and Paul Rad(参考訳) 現在、深層ニューラルネットワークは医療、自動運転車、軍隊といった人間の生活に直接影響を与えるミッションクリティカルなシステムで広く使われている。 しかし、ディープニューラルネットワークのブラックボックスの性質は、ミッションクリティカルなアプリケーションでの使用に挑戦し、信頼の欠如を引き起こす倫理的および司法的懸念を提起する。 説明可能な人工知能(XAI)は人工知能(AI)の分野であり、AI決定の高品質な解釈可能、直感的、人間に理解可能な説明を生成するためのツール、技術、アルゴリズムのセットを促進する。 深層学習における現在のXAIランドスケープの全体像を提供するのに加えて,本論文は基礎研究の数学的要約を提供する。 まず、分類法を提案し、その説明のスコープ、アルゴリズムの背後にある方法論、そして、信頼できる、解釈可能な、自己説明可能なディープラーニングモデルを構築するのに役立つ説明レベルまたは使用法に基づいてxai技術を分類する。 その後、2007年から2020年までのXAI研究における主要な原則について述べ、XAIにおけるランドマーク研究の歴史的タイムラインを示す。 アルゴリズムとアプローチの各カテゴリを詳細に説明した後,画像データ上で8つのxaiアルゴリズムが生成する説明マップを評価し,このアプローチの限界を議論し,xai評価を改善するための今後の方向性を示す。

Nowadays, deep neural networks are widely used in mission critical systems such as healthcare, self-driving vehicles, and military which have direct impact on human lives. However, the black-box nature of deep neural networks challenges its use in mission critical applications, raising ethical and judicial concerns inducing lack of trust. Explainable Artificial Intelligence (XAI) is a field of Artificial Intelligence (AI) that promotes a set of tools, techniques, and algorithms that can generate high-quality interpretable, intuitive, human-understandable explanations of AI decisions. In addition to providing a holistic view of the current XAI landscape in deep learning, this paper provides mathematical summaries of seminal work. We start by proposing a taxonomy and categorizing the XAI techniques based on their scope of explanations, methodology behind the algorithms, and explanation level or usage which helps build trustworthy, interpretable, and self-explanatory deep learning models. We then describe the main principles used in XAI research and present the historical timeline for landmark studies in XAI from 2007 to 2020. After explaining each category of algorithms and approaches in detail, we then evaluate the explanation maps generated by eight XAI algorithms on image data, discuss the limitations of this approach, and provide potential future directions to improve XAI evaluation.
翻訳日:2022-11-20 18:42:32 公開日:2020-06-23
# Visor: クラウドサービスとしてのプライバシー保護ビデオ分析

Visor: Privacy-Preserving Video Analytics as a Cloud Service ( http://arxiv.org/abs/2006.09628v2 )

ライセンス: Link先を確認
Rishabh Poddar and Ganesh Ananthanarayanan and Srinath Setty and Stavros Volos and Raluca Ada Popa(参考訳) ビデオ分析・アズ・ア・サービスもクラウドプロバイダにとって重要なサービスになりつつある。 このようなサービスにおける重要な懸念は、分析されるビデオのプライバシーである。 信頼できる実行環境(TEE)は、プライベートビデオコンテンツの直接リークを防ぐための有望なオプションであるが、サイドチャネル攻撃には弱いままである。 本稿では,ユーザのビデオストリームとmlモデルの機密性を提供するシステムであるvisorについて,クラウドプラットフォームと信頼できないコテナントの存在下で紹介する。 Visorは、CPUとGPUの両方にまたがるハイブリッドTEEでビデオパイプラインを実行する。 ビデオモジュールのデータ依存アクセスパターンによって引き起こされるサイドチャネル攻撃に対してパイプラインを保護し、CPU-GPU通信チャネルのリークに対処する。 Visorは、na\\\times$よりも最大1000\times$で、非公開ベースラインに対するオーバーヘッドは、$2\times$--$6\times$に制限されている。

Video-analytics-as-a-service is becoming an important offering for cloud providers. A key concern in such services is privacy of the videos being analyzed. While trusted execution environments (TEEs) are promising options for preventing the direct leakage of private video content, they remain vulnerable to side-channel attacks. We present Visor, a system that provides confidentiality for the user's video stream as well as the ML models in the presence of a compromised cloud platform and untrusted co-tenants. Visor executes video pipelines in a hybrid TEE that spans both the CPU and GPU. It protects the pipeline against side-channel attacks induced by data-dependent access patterns of video modules, and also addresses leakage in the CPU-GPU communication channel. Visor is up to $1000\times$ faster than na\"ive oblivious solutions, and its overheads relative to a non-oblivious baseline are limited to $2\times$--$6\times$.
翻訳日:2022-11-19 21:21:57 公開日:2020-06-23
# BEV-Seg:幾何学と意味点雲を用いた鳥の目視セマンティックセグメンテーション

BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and Semantic Point Cloud ( http://arxiv.org/abs/2006.11436v2 )

ライセンス: Link先を確認
Mong H. Ng, Kaahan Radia, Jianfei Chen, Dequan Wang, Ionel Gog, and Joseph E. Gonzalez(参考訳) バードアイビュー(英: Bird's-eye-view、BEV)は、周囲の物体とその空間的位置を捉え、シーン全体のコンテキストを捉える、強力で広く採用されている道路シーンの表現である。 本研究では,bevの画素別意味セグメンテーションをrgb画像から予測するタスクであるbird's eye semantic segmentationに着目した。 このタスクはCarlaのようなシミュレータによって実現され、安価なデータ収集、任意のカメラ配置、現実世界では不可能な方法での監視を可能にする。 このタスクには、サイドビューからバードアイビューへのビュー変換と、目に見えないドメインへの学習の転送という、2つの大きな課題がある。 既存の作業はビューを完全に接続されたレイヤに変換し、転送はganで学習する。 これはドメイン間の深い推論とパフォーマンス劣化の欠如に悩まされる。 新たな2段階認識パイプラインは,BEV内の物体の空間的位置を推定するための深度情報を活用するために,画素の深度を明示的に予測し,それらを効率よく画素のセマンティクスと組み合わせる。 さらに,高レベルな幾何学的特徴を抽象化し,異なる領域にまたがる中間表現を予測することで,学習を伝達する。 BEVSEG-Carlaと呼ばれる新しいデータセットを公開し、我々のアプローチが最先端の24%のmIoUを向上し、新しいドメインに転送するとうまく動作することを示す。

Bird's-eye-view (BEV) is a powerful and widely adopted representation for road scenes that captures surrounding objects and their spatial locations, along with overall context in the scene. In this work, we focus on bird's eye semantic segmentation, a task that predicts pixel-wise semantic segmentation in BEV from side RGB images. This task is made possible by simulators such as Carla, which allow for cheap data collection, arbitrary camera placements, and supervision in ways otherwise not possible in the real world. There are two main challenges to this task: the view transformation from side view to bird's eye view, as well as transfer learning to unseen domains. Existing work transforms between views through fully connected layers and transfer learns via GANs. This suffers from a lack of depth reasoning and performance degradation across domains. Our novel 2-staged perception pipeline explicitly predicts pixel depths and combines them with pixel semantics in an efficient manner, allowing the model to leverage depth information to infer objects' spatial locations in the BEV. In addition, we transfer learning by abstracting high-level geometric features and predicting an intermediate representation that is common across different domains. We publish a new dataset called BEVSEG-Carla and show that our approach improves state-of-the-art by 24% mIoU and performs well when transferred to a new domain.
翻訳日:2022-11-19 04:59:38 公開日:2020-06-23
# 1つの項目までうらやましい自由: リソースの追加や削除は可能か?

Envy-freeness up to one item: Shall we add or remove resources? ( http://arxiv.org/abs/2006.11312v2 )

ライセンス: Link先を確認
Martin Aleksandrov(参考訳) エージェントが不可分なアイテムの束に対して一般的な評価値を持つ公平な分割モデルを考える。 本モデルでは, EF1+- と EFX+- の2つの新しい公理特性を提案する。 これらは既存のEF1とEFXと比較します。 EF1 と EF1+- のアロケーションはしばしば存在するが、EFX+- と PO のアロケーションは EFX と PO のアロケーションが存在しないすべてのケースに存在していると、我々の結果は雄弁に主張する。 さらに,新たな不合理性および不合理性の結果がいくつか示された。

We consider a fair division model in which agents have general valuations for bundles of indivisible items. We propose two new axiomatic properties for allocations in this model: EF1+- and EFX+-. We compare these with the existing EF1 and EFX. Although EF1 and EF1+- allocations often exist, our results assert eloquently that EFX+- and PO allocations exist in each case where EFX and PO allocations do not exist. Additionally, we prove several new impossibility and incompatibility results.
翻訳日:2022-11-19 04:57:52 公開日:2020-06-23
# ODEへのオード

An Ode to an ODE ( http://arxiv.org/abs/2006.11421v2 )

ライセンス: Link先を確認
Krzysztof Choromanski, Jared Quincy Davis, Valerii Likhosherstov, Xingyou Song, Jean-Jacques Slotine, Jacob Varley, Honglak Lee, Adrian Weller, Vikas Sindhwani(参考訳) 直交群 O(d) 上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。 この2つのフローの入れ子系は、パラメータフローがコンパクト多様体上に存在するように制限され、トレーニングの安定性と有効性を提供し、神経odeのようなディープニューラルネットワークアーキテクチャのトレーニングに本質的に関連する勾配消滅爆発問題を確実に解決する。 その結果,従来のsataベースラインとの比較により,強化学習方針と進化戦略,教師付き学習設定のトレーニング例を示すように,下流モデルが向上する。 我々は,ネットワークの奥行きから独立して提案する機構に対して強い収束結果を与え,実験的な研究を支援する。 その結果、深層ニューラルネットワークの理論とコンパクト多様体上の行列流の場との間に興味深い関係が示されている。

We present a new paradigm for Neural ODE algorithms, called ODEtoODE, where time-dependent parameters of the main flow evolve according to a matrix flow on the orthogonal group O(d). This nested system of two flows, where the parameter-flow is constrained to lie on the compact manifold, provides stability and effectiveness of training and provably solves the gradient vanishing-explosion problem which is intrinsically related to training deep neural network architectures such as Neural ODEs. Consequently, it leads to better downstream models, as we show on the example of training reinforcement learning policies with evolution strategies, and in the supervised learning setting, by comparing with previous SOTA baselines. We provide strong convergence results for our proposed mechanism that are independent of the depth of the network, supporting our empirical studies. Our results show an intriguing connection between the theory of deep neural networks and the field of matrix flows on compact manifolds.
翻訳日:2022-11-19 04:41:18 公開日:2020-06-23
# 自動質問応答における言語モデルの質的評価

A Qualitative Evaluation of Language Models on Automatic Question-Answering for COVID-19 ( http://arxiv.org/abs/2006.10964v2 )

ライセンス: Link先を確認
David Oniani, Yanshan Wang(参考訳) 2020年6月12日現在、新型コロナウイルスは740万人以上の感染者と41万8000人以上の死者を出した。 新型コロナウイルス(COVID-19)の非常にダイナミックで急速に進化している状況は、病気に関する正確なオンデマンド情報へのアクセスを困難にしている。 オンラインコミュニティ、フォーラム、ソーシャルメディアは、関連する質問や回答を探したり、質問を投稿したり、他のメンバーから回答を求めたりできる場所を提供する。 しかし、そのようなサイトの性質上、検索に対する質問や回答は限られており、投稿された質問はすぐに答えられることは稀である。 自然言語処理分野の進歩、特に言語モデルの領域において、消費者の質問に答えるチャットボットを設計することが可能になった。 しかし、そのようなモデルは、正確かつ最新の医療データで情報ニーズを満たすために、医療領域で適用され、評価されることはまれである。 本稿では,covid-19に関連する質問に自動的に答える言語モデルを適用し,生成された応答を質的に評価する。 我々は、GPT-2言語モデルとトランスファーラーニングを適用して、COVID-19 Open Research Dataset (CORD-19)コーパスで再訓練した。 生成した応答の質を向上させるために, tf-idf, BERT, BioBERT, USEの4つの異なるアプローチを適用し, 応答中の関連文のフィルタリングと保存を行った。 パフォーマンス評価のステップでは、2人の医療専門家に反応の評価を依頼した。 その結果,BERT と BioBERT は tf-idf と USE のどちらよりも有意な文フィルタリング作業に優れていた。 さらに、チャットボットをベースとして、ユーザフレンドリなインタラクティブなWebアプリケーションをオンラインでホストしました。

COVID-19 has resulted in an ongoing pandemic and as of 12 June 2020, has caused more than 7.4 million cases and over 418,000 deaths. The highly dynamic and rapidly evolving situation with COVID-19 has made it difficult to access accurate, on-demand information regarding the disease. Online communities, forums, and social media provide potential venues to search for relevant questions and answers, or post questions and seek answers from other members. However, due to the nature of such sites, there are always a limited number of relevant questions and responses to search from, and posted questions are rarely answered immediately. With the advancements in the field of natural language processing, particularly in the domain of language models, it has become possible to design chatbots that can automatically answer consumer questions. However, such models are rarely applied and evaluated in the healthcare domain, to meet the information needs with accurate and up-to-date healthcare data. In this paper, we propose to apply a language model for automatically answering questions related to COVID-19 and qualitatively evaluate the generated responses. We utilized the GPT-2 language model and applied transfer learning to retrain it on the COVID-19 Open Research Dataset (CORD-19) corpus. In order to improve the quality of the generated responses, we applied 4 different approaches, namely tf-idf, BERT, BioBERT, and USE to filter and retain relevant sentences in the responses. In the performance evaluation step, we asked two medical experts to rate the responses. We found that BERT and BioBERT, on average, outperform both tf-idf and USE in relevance-based sentence filtering tasks. Additionally, based on the chatbot, we created a user-friendly interactive web application to be hosted online.
翻訳日:2022-11-19 03:40:10 公開日:2020-06-23
# 逆問題の画像化のための高速確率的プラグアンドプレイADMM

A Fast Stochastic Plug-and-Play ADMM for Imaging Inverse Problems ( http://arxiv.org/abs/2006.11630v2 )

ライセンス: Link先を確認
Junqi Tang, Mike Davies(参考訳) 本研究では,逆問題の画像化のための効率的な確率的プラグアンドプレイ(PnP)アルゴリズムを提案する。 PnPの確率勾配勾配降下法が最近提案され、標準的な決定論的PnP法よりも優れた性能を示した。 しかし、現在の確率的pnp法は、計算コストが高い画像デノイザを頻繁に計算する必要がある。 この制限を克服するために,不正確なADMMフレームワーク内に確率勾配勾配内ループを導入することに基づく,確率的PnP-ADMM法を提案する。 標準仮定の下でのアルゴリズムの固定点収束に関する理論的保証を提供する。 数値実験の結果, 最先端pnp法と比較して, 提案手法の有効性が示された。

In this work we propose an efficient stochastic plug-and-play (PnP) algorithm for imaging inverse problems. The PnP stochastic gradient descent methods have been recently proposed and shown improved performance in some imaging applications over standard deterministic PnP methods. However, current stochastic PnP methods need to frequently compute the image denoisers which can be computationally expensive. To overcome this limitation, we propose a new stochastic PnP-ADMM method which is based on introducing stochastic gradient descent inner-loops within an inexact ADMM framework. We provide the theoretical guarantee on the fixed-point convergence for our algorithm under standard assumptions. Our numerical results demonstrate the effectiveness of our approach compared with state-of-the-art PnP methods.
翻訳日:2022-11-18 23:04:34 公開日:2020-06-23
# Pinterestにおけるクエリ安全性の改善

Improving Query Safety at Pinterest ( http://arxiv.org/abs/2006.11511v2 )

ライセンス: Link先を確認
Abhijit Mahabal, Yinrui Li, Rajat Raina, Daniel Sun, Revati Mahajan, Jure Leskovec(参考訳) 検索エンジンにおけるクエリのレコメンデーションは両刃の剣であり、否定できない利点があるが害の可能性がある。 不適切なクエリ提案からユーザを保護するためには,unsafeクエリの特定が不可欠だ。 しかし、これらを識別することは、大きな語彙、社会集団固有のスラングとタイプポスによって生じる言語多様性と、用語の不適切な性が文脈に依存するため、非自明である。 ここで、問題をクエリセットの拡張として定式化し、小さく、潜在的に偏ったシードセットを与えられ、意味論的に関連するさまざまなクエリ集合を特定することを目的としています。 クエリセット拡張システムであるPinSetsは、ユーザセッションの検索にシンプルだが強力なメカニズムを適用し、小さなシードセットを、ほぼ完璧な精度で数千の関連するクエリに拡張し、解釈が容易な説明とともに、テールに深く入り込む。 pinsetsは、テキストとビヘイビアのハイブリッド技術(つまり、クエリをコンポジションとブラックボックスの両方として扱う)を使用することで、高品質な拡張を実現している。 実験によると、薬物関連クエリの領域において、pinsetsは20のシードクエリを99\%以上の精度で15,670のポジティブトレーニング例に拡張する。 生成された拡張は多様な語彙を持ち、曖昧な安全性で単語を正しく扱う。 PinSetsはPinterestの安全でないクエリ提案を90%削減した。

Query recommendations in search engines is a double edged sword, with undeniable benefits but potential of harm. Identifying unsafe queries is necessary to protect users from inappropriate query suggestions. However, identifying these is non-trivial because of the linguistic diversity resulting from large vocabularies, social-group-specific slang and typos, and because the inappropriateness of a term depends on the context. Here we formulate the problem as query-set expansion, where we are given a small and potentially biased seed set and the aim is to identify a diverse set of semantically related queries. We present PinSets, a system for query-set expansion, which applies a simple yet powerful mechanism to search user sessions, expanding a tiny seed set into thousands of related queries at nearly perfect precision, deep into the tail, along with explanations that are easy to interpret. PinSets owes its high quality expansion to using a hybrid of textual and behavioral techniques (i.e., treating queries both as compositional and as black boxes). Experiments show that, for the domain of drugs-related queries, PinSets expands 20 seed queries into 15,670 positive training examples at over 99\% precision. The generated expansions have diverse vocabulary and correctly handles words with ambiguous safety. PinSets decreased unsafe query suggestions at Pinterest by 90\%.
翻訳日:2022-11-18 22:55:00 公開日:2020-06-23
# プライバシー保護の深層学習を再考する: プライバシー攻撃を評価・阻止する方法

Rethinking Privacy Preserving Deep Learning: How to Evaluate and Thwart Privacy Attacks ( http://arxiv.org/abs/2006.11601v2 )

ライセンス: Link先を確認
Lixin Fan, Kam Woh Ng, Ce Ju, Tianyu Zhang, Chang Liu, Chee Seng Chan, Qiang Yang(参考訳) 本稿では,プライバシ保護型ディープラーニング(PPDL)機構の各種プライバシ攻撃に対する機能について検討する。 まず,レコンストラクションやトレース,メンバシップ攻撃によるモデル精度とプライバシ損失のトレードオフを定量的に測定することを提案する。 第2に, 線形方程式のノイズ解消として再構成攻撃を定式化し, 条件(2) が満たされていない場合, 攻撃が破られることが保証されることを示す。 第3に, 理論解析に基づき, 既存のppdl法に重大な課題をもたらすプライバシ攻撃を回避するために, 新たな秘密分極ネットワーク (spn) を提案する。 広範な実験により、データプライバシが十分に保護されているシステムでは、モデルアキュラティがベースラインメカニズムと比較して平均で5~20%向上することが示されている。

This paper investigates capabilities of Privacy-Preserving Deep Learning (PPDL) mechanisms against various forms of privacy attacks. First, we propose to quantitatively measure the trade-off between model accuracy and privacy losses incurred by reconstruction, tracing and membership attacks. Second, we formulate reconstruction attacks as solving a noisy system of linear equations, and prove that attacks are guaranteed to be defeated if condition (2) is unfulfilled. Third, based on theoretical analysis, a novel Secret Polarization Network (SPN) is proposed to thwart privacy attacks, which pose serious challenges to existing PPDL methods. Extensive experiments showed that model accuracies are improved on average by 5-20% compared with baseline mechanisms, in regimes where data privacy are satisfactorily protected.
翻訳日:2022-11-18 22:27:29 公開日:2020-06-23
# 予測から決定へ:Lookahead正規化の利用

From Predictions to Decisions: Using Lookahead Regularization ( http://arxiv.org/abs/2006.11638v2 )

ライセンス: Link先を確認
Nir Rosenfeld, Sophie Hilgard, Sai Srivatsa Ravindranath, David C. Parkes(参考訳) 機械学習は、クレジットスコアから心臓発作リスクまで、人間関係の結果を予測する強力なツールである。 しかし、デプロイされると、学習されたモデルがユーザーの行動に影響を与え、予測された結果や実際の結果を改善する。 学習の標準的なアプローチは、誘導されたユーザアクションに依存せず、アクションの効果に関する保証を提供しない。 我々は、正確かつ良好な行動を促進する予測器を学習するためのフレームワークを提供する。 そこで本研究では,ユーザの行動を予測することによって,予測モデルによる行動の誘発を促すルックアヘッド正則化を提案する。 この正規化は、モデル誘発行動の分布にこの改善の信頼性を管理する不確実性推定を慎重に調整する。 本手法の有効性を示す実データおよび合成データに関する実験結果について報告する。

Machine learning is a powerful tool for predicting human-related outcomes, from credit scores to heart attack risks. But when deployed, learned models also affect how users act in order to improve outcomes, whether predicted or real. The standard approach to learning is agnostic to induced user actions and provides no guarantees as to the effect of actions. We provide a framework for learning predictors that are both accurate and promote good actions. For this, we introduce look-ahead regularization which, by anticipating user actions, encourages predictive models to also induce actions that improve outcomes. This regularization carefully tailors the uncertainty estimates governing confidence in this improvement to the distribution of model-induced actions. We report the results of experiments on real and synthetic data that show the effectiveness of this approach.
翻訳日:2022-11-18 22:22:02 公開日:2020-06-23
# 音楽を感じる: 入力曲のダンスを自動的に生成する

Feel The Music: Automatically Generating A Dance For An Input Song ( http://arxiv.org/abs/2006.11905v2 )

ライセンス: Link先を確認
Purva Tendulkar, Abhishek Das, Aniruddha Kembhavi, Devi Parikh(参考訳) 本稿では,機械が任意の入力音楽に対してダンスを生成するための一般的な計算手法を提案する。 我々は、直感的で柔軟なヒューリスティックスを「良い」ダンスとは何か、つまり、ダンスの構造は音楽の構造に合致するべきであることをエンコードする。 この柔軟性により、エージェントは創造的なダンスを発見できる。 人間の研究によると、参加者はダンスが意味のあるベースラインよりも創造的で刺激的だと考えている。 また,踊りの異なる表現に基づいて,創造性の知覚がどう変化するかを評価する。 私たちのコードはhttps://github.com/purvaten/feel-the-musicで入手できます。

We present a general computational approach that enables a machine to generate a dance for any input music. We encode intuitive, flexible heuristics for what a 'good' dance is: the structure of the dance should align with the structure of the music. This flexibility allows the agent to discover creative dances. Human studies show that participants find our dances to be more creative and inspiring compared to meaningful baselines. We also evaluate how perception of creativity changes based on different presentations of the dance. Our code is available at https://github.com/purvaten/feel-the-music.
翻訳日:2022-11-18 12:33:38 公開日:2020-06-23
# サンプルファクトリ: 非同期強化学習による10000FPSの画素中心3D制御

Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning ( http://arxiv.org/abs/2006.11751v2 )

ライセンス: Link先を確認
Aleksei Petrenko, Zhehui Huang, Tushar Kumar, Gaurav Sukhatme, Vladlen Koltun(参考訳) 強化学習実験の規模が大きくなると、研究者たちはビデオゲームの高度なエージェントの訓練や、ロボット工学のシミュレートから現実への移行において、前例のない成果を得られるようになった。 通常、このような実験は大規模な分散システムに依存し、高価なハードウェアのセットアップを必要とし、このエキサイティングな研究領域への幅広いアクセスを制限する。 本研究では,分散計算に頼らずに強化学習アルゴリズムの効率と資源利用を最適化することで,この問題を解決することを目的とする。 我々は,シングルマシン設定に最適化された高スループットトレーニングシステム「サンプルファクトリー」を提案する。 我々のアーキテクチャは、高効率で非同期なGPUベースのサンプリングとオフポリシー補正技術を組み合わせることで、サンプル効率を犠牲にすることなく、3Dの非自明な制御問題に対して10^5$環境フレーム/秒以上のスループットを実現することができる。 サンプルファクトリーを拡張して,自己プレイと人口ベースのトレーニングをサポートし,マルチプレイヤー・ファーストパーソン・シューティングゲームの高能力エージェントを訓練する。 ソースコードはhttps://github.com/alex-petrenko/sample-factoryで入手できる。

Increasing the scale of reinforcement learning experiments has allowed researchers to achieve unprecedented results in both training sophisticated agents for video games, and in sim-to-real transfer for robotics. Typically such experiments rely on large distributed systems and require expensive hardware setups, limiting wider access to this exciting area of research. In this work we aim to solve this problem by optimizing the efficiency and resource utilization of reinforcement learning algorithms instead of relying on distributed computation. We present the "Sample Factory", a high-throughput training system optimized for a single-machine setting. Our architecture combines a highly efficient, asynchronous, GPU-based sampler with off-policy correction techniques, allowing us to achieve throughput higher than $10^5$ environment frames/second on non-trivial control problems in 3D without sacrificing sample efficiency. We extend Sample Factory to support self-play and population-based training and apply these techniques to train highly capable agents for a multiplayer first-person shooter game. The source code is available at https://github.com/alex-petrenko/sample-factory
翻訳日:2022-11-18 11:30:50 公開日:2020-06-23
# よいソリューションから始めるとき、ランタイム分析に向かう最初のステップ

First Steps Towards a Runtime Analysis When Starting With a Good Solution ( http://arxiv.org/abs/2006.12161v2 )

ライセンス: Link先を確認
Denis Antipov, Maxim Buzdalov, Benjamin Doerr(参考訳) 進化的アルゴリズムの数学的ランタイム解析は、伝統的にアルゴリズムがランダムな集団で初期化する際に特定の品質の解を見つける必要がある時間を扱う。 現実的な応用では、ランダムな解よりも優れた解を推測することができる。 このような状況に対する数学的ランタイム解析を始める。 我々は、異なるアルゴリズムがより良い初期化から全く異なる程度に利益をもたらすことを観察する。 また,アルゴリズムの最適パラメータ化は初期解の品質に強く依存することを示した。 この困難を克服するために、自己調整およびランダム化された重み付きパラメータ選択は利益を得ることができる。 最後に、最高の進化的アルゴリズムの性能と対応するブラックボックスの複雑さとの間の大きなギャップを観察する。 このことは、進化的アルゴリズムが優れた初期解をうまく活用できることを示唆している。 これらの最初の発見は、onemaxベンチマークで$(1+1)$進化アルゴリズムと静的で自己調整、そして重み付き$(1 + (\lambda,\lambda))$ gaのパフォーマンスを分析することに起因している。

The mathematical runtime analysis of evolutionary algorithms traditionally regards the time an algorithm needs to find a solution of a certain quality when initialized with a random population. In practical applications it may be possible to guess solutions that are better than random ones. We start a mathematical runtime analysis for such situations. We observe that different algorithms profit to a very different degree from a better initialization. We also show that the optimal parameterization of the algorithm can depend strongly on the quality of the initial solutions. To overcome this difficulty, self-adjusting and randomized heavy-tailed parameter choices can be profitable. Finally, we observe a larger gap between the performance of the best evolutionary algorithm we found and the corresponding black-box complexity. This could suggest that evolutionary algorithms better exploiting good initial solutions are still to be found. These first findings stem from analyzing the performance of the $(1+1)$ evolutionary algorithm and the static, self-adjusting, and heavy-tailed $(1 + (\lambda,\lambda))$ GA on the OneMax benchmark, but we are optimistic that the question how to profit from good initial solutions is interesting beyond these first examples.
翻訳日:2022-11-18 05:31:16 公開日:2020-06-23
# スパイク駆動クロック生成とクロックとパワーゲーティングに基づく超低消費電力デバイスのための常時オン、サブ300nw、イベント駆動スパイクニューラルネットワーク

Always-On, Sub-300-nW, Event-Driven Spiking Neural Network based on Spike-Driven Clock-Generation and Clock- and Power-Gating for an Ultra-Low-Power Intelligent Device ( http://arxiv.org/abs/2006.12314v2 )

ライセンス: Link先を確認
Dewei Wang, Pavan Kumar Chundi, Sung Justin Kim, Minhao Yang, Joao Pedro Cerqueira, Joonsung Kang, Seungchul Jung, Sangjoon Kim, Mingoo Seok(参考訳) キーワードスポッティング(KWS)や視覚覚醒といったAI関数が、超低消費電力デバイスにおける総消費電力を支配する傾向にある。 キーとなる観察は、常時オンの関数に対する信号は、スパイクするニューラルネットワーク(SNN)分類器が、スパイクレートによってSNNのスイッチング活性と電力消費がスケールする傾向があるため、電力節約に有効である、というものである。 そこで本論文では,KWSや他の常時オン型分類処理の競合推定精度において,300nW未満の電力消費を示す,常時オン型関数のための新しいSNN分類器アーキテクチャを提案する。

Always-on artificial intelligent (AI) functions such as keyword spotting (KWS) and visual wake-up tend to dominate total power consumption in ultra-low power devices. A key observation is that the signals to an always-on function are sparse in time, which a spiking neural network (SNN) classifier can leverage for power savings, because the switching activity and power consumption of SNNs tend to scale with spike rate. Toward this goal, we present a novel SNN classifier architecture for always-on functions, demonstrating sub-300nW power consumption at the competitive inference accuracy for a KWS and other always-on classification workloads.
翻訳日:2022-11-18 04:36:50 公開日:2020-06-23
# Algorithm-Performance Personas を用いたシームズメタラーニングとアルゴリズムの選択 [Proposal]

Siamese Meta-Learning and Algorithm Selection with 'Algorithm-Performance Personas' [Proposal] ( http://arxiv.org/abs/2006.12328v2 )

ライセンス: Link先を確認
Joeran Beel, Bryan Tyrell, Edward Bergman, Andrew Collins, Shahad Nagoor(参考訳) インスタンス毎の自動アルゴリズム選択は、しばしば単一の学習者を上回る。 メタラーニングによるアルゴリズム選択の鍵は、しばしばメタラーナーを効果的に訓練するのに十分な情報を提供していない(メタ)機能である。 本稿では,メタ機能よりも「パフォーマンス」に重点を置く自動アルゴリズム選択のためのSiamese Neural Networkアーキテクチャを提案する。 我々の研究には、新しいパフォーマンス指標とトレーニングサンプルを選択する方法が含まれています。 さらに、単一アルゴリズムが類似するインスタンスを記述した「Algorithm Performance Personas」の概念についても紹介する。 トレーニングサンプルを選択するための基礎的真実としての'alike performing algorithms'という概念は、私たちが信じているように、非常に大きな可能性を秘めている。 本提案では,我々のアイデアを詳細に概説し,絶対誤差などの標準性能指標をトレーニングする上で,提案手法がより適していることを示す最初の証拠を提供する。

Automated per-instance algorithm selection often outperforms single learners. Key to algorithm selection via meta-learning is often the (meta) features, which sometimes though do not provide enough information to train a meta-learner effectively. We propose a Siamese Neural Network architecture for automated algorithm selection that focuses more on 'alike performing' instances than meta-features. Our work includes a novel performance metric and method for selecting training samples. We introduce further the concept of 'Algorithm Performance Personas' that describe instances for which the single algorithms perform alike. The concept of 'alike performing algorithms' as ground truth for selecting training samples is novel and provides a huge potential as we believe. In this proposal, we outline our ideas in detail and provide the first evidence that our proposed metric is better suitable for training sample selection that standard performance metrics such as absolute errors.
翻訳日:2022-11-18 04:28:23 公開日:2020-06-23
# 学習とFly: スケーラブルな都市空気移動のための学習に基づく衝突回避

Learning-to-Fly: Learning-based Collision Avoidance for Scalable Urban Air Mobility ( http://arxiv.org/abs/2006.13267v1 )

ライセンス: Link先を確認
Al\"ena Rodionova, Yash Vardhan Pant, Kuk Jang, Houssam Abbas and Rahul Mangharam(参考訳) 都市人口の増加に伴い、数百の無人無人航空機システム(UAS)が都市上空の空域で任務を行うUAM(Urban Air Mobility)への世界的関心が高まっている。 従来の航空交通管理とは異なり、UAMは航空機の密度を桁違いに高め、都市環境に適用できる分散型の自律的アプローチを必要としている。 本稿では,複数のuasに対して,信号時相論理を用いて表現された空間的,時間的,リアクティブな目的を持ったミッションを独立的に計画し,安全に実行可能にする,分散型オンデマンド空中衝突回避フレームワークであるlearning-to-fly(l2f)を提案する。 混合整数線形計画(MILP)として、ミッション目標に違反することなく、2つのUAS間の衝突を予測的に回避する問題を定式化する。 しかし、これはオンラインでは解決できない。 代わりに、以下の2段階衝突回避法であるL2Fを開発する。 1)学習に基づく意思決定方式と 2) 分散線形プログラミングに基づくUAS制御アルゴリズム。 広範囲なシミュレーションを通して,我々の手法のリアルタイム適用性を示す。 6000\times$ 6000\times$ は milp のアプローチよりも高速で、操作する余地が十分ある場合に100ドル=%の衝突を解決できる。 また,L2Fと他の2つの手法を比較し,クワッドロータロボットの実装を示す。

With increasing urban population, there is global interest in Urban Air Mobility (UAM), where hundreds of autonomous Unmanned Aircraft Systems (UAS) execute missions in the airspace above cities. Unlike traditional human-in-the-loop air traffic management, UAM requires decentralized autonomous approaches that scale for an order of magnitude higher aircraft densities and are applicable to urban settings. We present Learning-to-Fly (L2F), a decentralized on-demand airborne collision avoidance framework for multiple UAS that allows them to independently plan and safely execute missions with spatial, temporal and reactive objectives expressed using Signal Temporal Logic. We formulate the problem of predictively avoiding collisions between two UAS without violating mission objectives as a Mixed Integer Linear Program (MILP).This however is intractable to solve online. Instead, we develop L2F, a two-stage collision avoidance method that consists of: 1) a learning-based decision-making scheme and 2) a distributed, linear programming-based UAS control algorithm. Through extensive simulations, we show the real-time applicability of our method which is $\approx\!6000\times$ faster than the MILP approach and can resolve $100\%$ of collisions when there is ample room to maneuver, and shows graceful degradation in performance otherwise. We also compare L2F to two other methods and demonstrate an implementation on quad-rotor robots.
翻訳日:2022-11-18 00:00:51 公開日:2020-06-23
# メタサブモジュラー関数のパラメータ化ファミリー

A Parameterized Family of Meta-Submodular Functions ( http://arxiv.org/abs/2006.13754v1 )

ライセンス: Link先を確認
Mehrdad Ghadiri, Richard Santiago, Bruce Shepherd(参考訳) サブモジュール関数の最大化は、過去数年間で機械学習モデルに多くの新しい応用を見出した。 関連する超モジュラー最大化モデル(部分モジュラー最小化)も多くの応用を提供するが、単純な濃度制約の下でも非常に難解であるように見える。 したがって、マトロイド制約を受ける部分モジュラ函数を最大化するツールが十分に開発されているが、対応する超モジュラー最大化問題に対する作業ははるかに少ない。 部分モジュラ函数と多様性関数を含む超モジュラ函数のクラスを含む広いパラメータ化された単調関数群を与える。 このパラメータ化された族内の関数は \emph{$\gamma$-meta-submodular} と呼ばれる。 パラメータ$\gamma$ のみに依存する近似係数を持つ局所探索アルゴリズムを開発した。 我々は、$\gamma$-meta-submodular familyは、メタ劣モジュラ関数($\gamma=0$)、計量多様性関数($\gamma=1$)、負の型距離に基づく多様性関数($\gamma=2$)、および$\sigma$-semiメトリック多様性関数($\gamma = \sigma$)などのよく知られた関数のクラスを含むことを示した。

Submodular function maximization has found a wealth of new applications in machine learning models during the past years. The related supermodular maximization models (submodular minimization) also offer an abundance of applications, but they appeared to be highly intractable even under simple cardinality constraints. Hence, while there are well-developed tools for maximizing a submodular function subject to a matroid constraint, there is much less work on the corresponding supermodular maximization problems. We give a broad parameterized family of monotone functions which includes submodular functions and a class of supermodular functions containing diversity functions. Functions in this parameterized family are called \emph{$\gamma$-meta-submodular}. We develop local search algorithms with approximation factors that depend only on the parameter $\gamma$. We show that the $\gamma$-meta-submodular families include well-known classes of functions such as meta-submodular functions ($\gamma=0$), metric diversity functions and proportionally submodular functions (both with $\gamma=1$), diversity functions based on negative-type distances or Jensen-Shannon divergence (both with $\gamma=2$), and $\sigma$-semi metric diversity functions ($\gamma = \sigma$).
翻訳日:2022-11-17 23:59:55 公開日:2020-06-23
# グローバル最適化による回帰に対する構成的・型論的アプローチ

A Constructive, Type-Theoretic Approach to Regression via Global Optimisation ( http://arxiv.org/abs/2006.12868v1 )

ライセンス: Link先を確認
Dan R. Ghica and Todd Waugh Ambridge(参考訳) 本稿では,連続関数の決定論的,完全,大域的な最適化と,「探索可能性」という概念を通じて構成型理論の観点からの回帰の一般概念との関係を考察する。 グローバル最適化の収束特性が検索可能性の直接的な結果であることを示す。 この抽象的な設定により、探索可能性と連続性を高次関数に一般化し、大域最適化の収束から導かれる回帰の新しい収束基準を定式化することができる。 すべての理論とモチベーションの例が証明アシスタントagdaで完全に定式化されている。

We examine the connections between deterministic, complete, and general global optimisation of continuous functions and a general concept of regression from the perspective of constructive type theory via the concept of 'searchability'. We see how the property of convergence of global optimisation is a straightforward consequence of searchability. The abstract setting allows us to generalise searchability and continuity to higher-order functions, so that we can formulate novel convergence criteria for regression, derived from the convergence of global optimisation. All the theory and the motivating examples are fully formalised in the proof assistant Agda.
翻訳日:2022-11-17 23:56:48 公開日:2020-06-23
# ディープラーニングを用いた交通渋滞異常検出と予測

Traffic congestion anomaly detection and prediction using deep learning ( http://arxiv.org/abs/2006.13215v1 )

ライセンス: Link先を確認
Adriana-Simona Mihaita, Haowen Li, Marian-Andrei Rizoiu(参考訳) 混雑予測は、タイムリーなインシデント対応を確保するため、世界中の交通管理センターにとって重要な優先事項である。 生成したトラフィックデータの増加は、機械学習によるトラフィック予測のトレーニングに使用されているが、時間と空間の両方におけるトラフィックフローの相互依存性のため、これは難しい課題である。 近年、ディープラーニング技術は従来のモデルよりも大幅に改善されているが、適用性、精度、パラメータチューニングに関するオープンな疑問が残っている。 本論文は以下の2つの貢献を述べる。 1)入力・履歴データストリームに基づく異常調整手法を異常検出に適用し、 2) 豪シドニーの高度に循環した自動車道沿いの多数の監視所において, 交通流, 速度, 占有率を同時に予測する高度深層学習フレームワークを提案する。 36.34万のデータポイントから抽出された空間的特徴と時間的特徴は、その空間構造(畳み込み神経ネットワーク)、時間的ダイナミクス(反復神経ネットワーク)、あるいはハイブリッド時空間モデリング(CNN-LSTM)を通じて様々なディープラーニングアーキテクチャで使用される。 我々のディープラーニングモデルは従来の手法より一貫して優れており、将来、異なる時点におけるトラフィックフローを予測するのに必要な履歴データの最適時間地平線の比較分析を行う。 最後に, 時間・空間の深層学習において, 異常調整法が重要な改善をもたらすことを示す。

Congestion prediction represents a major priority for traffic management centres around the world to ensure timely incident response handling. The increasing amounts of generated traffic data have been used to train machine learning predictors for traffic, however, this is a challenging task due to inter-dependencies of traffic flow both in time and space. Recently, deep learning techniques have shown significant prediction improvements over traditional models, however, open questions remain around their applicability, accuracy and parameter tuning. This paper brings two contributions in terms of: 1) applying an outlier detection an anomaly adjustment method based on incoming and historical data streams, and 2) proposing an advanced deep learning framework for simultaneously predicting the traffic flow, speed and occupancy on a large number of monitoring stations along a highly circulated motorway in Sydney, Australia, including exit and entry loop count stations, and over varying training and prediction time horizons. The spatial and temporal features extracted from the 36.34 million data points are used in various deep learning architectures that exploit their spatial structure (convolutional neuronal networks), their temporal dynamics (recurrent neuronal networks), or both through a hybrid spatio-temporal modelling (CNN-LSTM). We show that our deep learning models consistently outperform traditional methods, and we conduct a comparative analysis of the optimal time horizon of historical data required to predict traffic flow at different time points in the future. Lastly, we prove that the anomaly adjustment method brings significant improvements to using deep learning in both time and space.
翻訳日:2022-11-17 23:55:46 公開日:2020-06-23
# 津波: 相関データと歪んだ作業量の多次元学習指標

Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads ( http://arxiv.org/abs/2006.13282v1 )

ライセンス: Link先を確認
Jialin Ding and Vikram Nathan and Mohammad Alizadeh and Tim Kraska(参考訳) 述語に基づくデータのフィルタリングは、現代のデータウェアハウスでもっとも基本的な操作の1つです。 フィルタ式の実行を高速化するための技術としては、クラスタ化インデックス、特殊ソート順序(例えばz-order)、多次元インデックス、高選択性クエリ、セカンダリインデックスなどがある。 しかし、これらのスキームはチューニングが難しく、性能に一貫性がない。 学習した多次元インデックスに関する最近の研究は、特定のデータセットとワークロードのインデックスを自動的に最適化するというアイデアを導入している。 しかし、その作業のパフォーマンスは相関データとスキュークエリワークロードの存在に悩まされ、どちらも実際のアプリケーションでは一般的である。 本稿では,これらの制限に対処して,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍小型のインデックスサイズを実現し,また,最大11倍高速なクエリ性能と170倍小型のインデックスサイズを実現した。

Filtering data based on predicates is one of the most fundamental operations for any modern data warehouse. Techniques to accelerate the execution of filter expressions include clustered indexes, specialized sort orders (e.g., Z-order), multi-dimensional indexes, and, for high selectivity queries, secondary indexes. However, these schemes are hard to tune and their performance is inconsistent. Recent work on learned multi-dimensional indexes has introduced the idea of automatically optimizing an index for a particular dataset and workload. However, the performance of that work suffers in the presence of correlated data and skewed query workloads, both of which are common in real applications. In this paper, we introduce Tsunami, which addresses these limitations to achieve up to 6X faster query performance and up to 8X smaller index size than existing learned multi-dimensional indexes, in addition to up to 11X faster query performance and 170X smaller index size than optimally-tuned traditional indexes.
翻訳日:2022-11-17 23:55:16 公開日:2020-06-23
# 部分点クラウド表現を持つ未知物体に対するメカニカルグリップの一般化

Generalized Grasping for Mechanical Grippers for Unknown Objects with Partial Point Cloud Representations ( http://arxiv.org/abs/2006.12676v1 )

ライセンス: Link先を確認
Michael Hegedus, Kamal Gupta, Mehran Mehrandezh(参考訳) 本稿では,ポイントクラウド(点群とそれぞれの表面正規値)を用いて,機械式把持器によって実行された複数の把持型の把持ポーズ解をほぼリアルタイムに検出する一般化把持アルゴリズムを提案する。 アルゴリズムは2つのアイデアを紹介します 1)指接触正常者のヒストグラムは、物体表面正常者のヒストグラムにおけるグリップ方向探索を案内するグリップ「形状」を表すために使用され、 2)グリッパーとオブジェクト(s)のボクセルグリッド表現は、指の接点、すなわち「サイズ」をつかみ、把持姿勢を検出するために相互に関連している。 隣り合う物体との衝突のような制約は、交叉相関計算に任意に組み込まれる。 シミュレーションと実験を通して示す。 1)3種類の握りポーズをほぼリアルタイムで見つけることができる。 2)部分的および完全的点雲スキャンにおけるボクセル分解能変化に関して,把持姿勢の解が一致し,また,その解が成立する。 3)メカニカルグリッパーで計画的な把持を行う。

We present a generalized grasping algorithm that uses point clouds (i.e. a group of points and their respective surface normals) to discover grasp pose solutions for multiple grasp types, executed by a mechanical gripper, in near real-time. The algorithm introduces two ideas: 1) a histogram of finger contact normals is used to represent a grasp 'shape' to guide a gripper orientation search in a histogram of object(s) surface normals, and 2) voxel grid representations of gripper and object(s) are cross-correlated to match finger contact points, i.e. grasp 'size', to discover a grasp pose. Constraints, such as collisions with neighbouring objects, are optionally incorporated in the cross-correlation computation. We show via simulations and experiments that 1) grasp poses for three grasp types can be found in near real-time, 2) grasp pose solutions are consistent with respect to voxel resolution changes for both partial and complete point cloud scans, and 3) a planned grasp is executed with a mechanical gripper.
翻訳日:2022-11-17 23:54:35 公開日:2020-06-23
# リカレントニューラルネットワークを用いた心臓MRI運動アーチファクトの低減

Cine Cardiac MRI Motion Artifact Reduction Using a Recurrent Neural Network ( http://arxiv.org/abs/2006.12700v1 )

ライセンス: Link先を確認
Qing Lyu, Hongming Shan, Yibin Xie, Debiao Li, Ge Wang(参考訳) 心臓疾患の診断には、心臓血管の特徴を優れたコントラストで提示する能力により、心臓MRIが広く用いられている。 しかしCT (Computerd tomography) と比較すると、MRIは長時間のスキャンが必要であり、必然的に運動アーチファクトを誘発し、患者の不快感を引き起こす。 したがって、スキャン時間とモーションアーティファクトの両方を減らす技術を開発するという、強い臨床動機がある。 MRIスーパーレゾリューションやCT金属アーティファクトリダクションリダクションといった他の医療画像タスクへの応用が成功していることから、ディープラーニングは心臓MRIのモーションアーティファクトリダクションリダクションリダクションに有望なアプローチである。 本稿では,画像品質を向上させるために,アンダーサンプル,モーションブルーのシネック画像から空間的特徴と時間的特徴を同時に抽出するリカレントニューラルネットワークを提案する。 実験の結果,2つの臨床検査データセットの画質が有意に向上した。 また,時間分解能が向上したデータ駆動フレーム補間も可能とした。 従来の手法と比較して,本手法は構造類似度(SSIM)とピーク信号-雑音比(PSNR)において優れた性能を示す。

Cine cardiac magnetic resonance imaging (MRI) is widely used for diagnosis of cardiac diseases thanks to its ability to present cardiovascular features in excellent contrast. As compared to computed tomography (CT), MRI, however, requires a long scan time, which inevitably induces motion artifacts and causes patients' discomfort. Thus, there has been a strong clinical motivation to develop techniques to reduce both the scan time and motion artifacts. Given its successful applications in other medical imaging tasks such as MRI super-resolution and CT metal artifact reduction, deep learning is a promising approach for cardiac MRI motion artifact reduction. In this paper, we propose a recurrent neural network to simultaneously extract both spatial and temporal features from under-sampled, motion-blurred cine cardiac images for improved image quality. The experimental results demonstrate substantially improved image quality on two clinical test datasets. Also, our method enables data-driven frame interpolation at an enhanced temporal resolution. Compared with existing methods, our deep learning approach gives a superior performance in terms of structural similarity (SSIM) and peak signal-to-noise ratio (PSNR).
翻訳日:2022-11-17 23:54:18 公開日:2020-06-23
# コンテクスト認識を伴うMRI画像再構成のための深部減衰ワッサースタイン生成系

Deep Attentive Wasserstein Generative Adversarial Networks for MRI Reconstruction with Recurrent Context-Awareness ( http://arxiv.org/abs/2006.12915v1 )

ライセンス: Link先を確認
Yifeng Guo, Chengjia Wang, Heye Zhang and Guang Yang(参考訳) 従来の圧縮型イメージベースMRI (CS-MRI) の再生性能は, その遅い反復法とノイズによるアーチファクトの影響を受けている。 多くの深層学習に基づくCS-MRI法が従来の手法の問題を緩和するために提案されているが、より高い加速係数でより堅牢な結果が得られていない。 深層学習に基づくCS-MRI法の多くは、まだk空間から情報を完全にマイニングすることができず、MRI再建に不満足な結果をもたらす。 本研究では,WGAN(Wasserstein Generative Adversarial Networks)とリカレントニューラルネットワーク(Recurrent Neural Networks)を結合することにより,逐次MRIスライス間の関係をフル活用する,深層学習に基づくCS-MRI再構成手法を提案する。 注意ユニットのさらなる開発により、MRIデータのより正確な解剖学的構造を再構築することができる。 異なるmriデータセットを用いた実験により,本手法は最先端に比べて良好な結果が得られるだけでなく,復元過程で発生する残留ノイズを効果的に低減できることを示した。

The performance of traditional compressive sensing-based MRI (CS-MRI) reconstruction is affected by its slow iterative procedure and noise-induced artefacts. Although many deep learning-based CS-MRI methods have been proposed to mitigate the problems of traditional methods, they have not been able to achieve more robust results at higher acceleration factors. Most of the deep learning-based CS-MRI methods still can not fully mine the information from the k-space, which leads to unsatisfactory results in the MRI reconstruction. In this study, we propose a new deep learning-based CS-MRI reconstruction method to fully utilise the relationship among sequential MRI slices by coupling Wasserstein Generative Adversarial Networks (WGAN) with Recurrent Neural Networks. Further development of an attentive unit enables our model to reconstruct more accurate anatomical structures for the MRI data. By experimenting on different MRI datasets, we have demonstrated that our method can not only achieve better results compared to the state-of-the-arts but can also effectively reduce residual noise generated during the reconstruction process.
翻訳日:2022-11-17 23:47:34 公開日:2020-06-23
# 空間エンコーディングと形状注意を用いたDNNによる左房左房分画とスカー定量化

Joint Left Atrial Segmentation and Scar Quantification Based on a DNN with Spatial Encoding and Shape Attention ( http://arxiv.org/abs/2006.13011v1 )

ライセンス: Link先を確認
Lei Li, Xin Weng, Julia A. Schnabel, Xiahai Zhuang(参考訳) 本稿では,左心房(LA)空洞を同時に分割し,LAの傷跡を定量化するエンド・ツー・エンドディープニューラルネットワーク(DNN)を提案する。 このフレームワークは、距離変換マップに基づいて、空間符号化(SE)ロスを導入することにより、目標の連続的な空間情報を組み込む。 従来の2値ラベルに基づく損失と比較すると,提案手法は,深層学習に基づく手法でよく見られるセグメンテーションのノイズパッチを低減できる。 LAとLAの傷点間の空間的関係をフル活用するために, 表面投影による形状注意機構を提案し, エンド・ツー・エンド・トレーニング可能なモデルを構築した。 具体的には、SAスキームを2タスクネットワークに埋め込み、ジョイントLAセグメンテーションとスカー量子化を行う。 さらに,本手法は,傷跡などの小型で離散的なターゲットを検出する場合,重度なクラス不均衡問題を軽減できる。 提案手法をMICCAI2018 LAチャレンジから60LGE MRIデータを用いて評価した。 LAセグメンテーションでは,2進クロスエントロピー損失を用いた3次元基本U-Netと比較して平均ハウスドルフ距離を36.4mmから20.0mmに削減した。 キャラクタ定量化では,本手法を文献で報告した結果やアルゴリズムと比較し,優れた性能を示した。

We propose an end-to-end deep neural network (DNN) which can simultaneously segment the left atrial (LA) cavity and quantify LA scars. The framework incorporates the continuous spatial information of the target by introducing a spatially encoded (SE) loss based on the distance transform map. Compared to conventional binary label based loss, the proposed SE loss can reduce noisy patches in the resulting segmentation, which is commonly seen for deep learning-based methods. To fully utilize the inherent spatial relationship between LA and LA scars, we further propose a shape attention (SA) mechanism through an explicit surface projection to build an end-to-end-trainable model. Specifically, the SA scheme is embedded into a two-task network to perform the joint LA segmentation and scar quantification. Moreover, the proposed method can alleviate the severe class-imbalance problem when detecting small and discrete targets like scars. We evaluated the proposed framework on 60 LGE MRI data from the MICCAI2018 LA challenge. For LA segmentation, the proposed method reduced the mean Hausdorff distance from 36.4 mm to 20.0 mm compared to the 3D basic U-Net using the binary cross-entropy loss. For scar quantification, the method was compared with the results or algorithms reported in the literature and demonstrated better performance.
翻訳日:2022-11-17 23:47:13 公開日:2020-06-23
# Lumos: Webスケールアプリケーションでメトリクス回帰を診断するためのライブラリ

Lumos: A Library for Diagnosing Metric Regressions in Web-Scale Applications ( http://arxiv.org/abs/2006.12793v1 )

ライセンス: Link先を確認
Jamie Pool, Ebrahim Beyrami, Vishak Gopal, Ashkan Aazami, Jayant Gupchup, Jeff Rowland, Binlong Li, Pritesh Kanani, Ross Cutler, and Johannes Gehrke(参考訳) webスケールアプリケーションは、毎日から毎週のケイデンスでコードを出荷できる。 これらのアプリケーションは、新しいリリースの健全性を監視するために、オンラインメトリクスに依存している。 メトリクス値の回帰は、ユーザーやプロダクトオーナーの混乱を減らすために、できるだけ早く検出し、診断する必要がある。 真の製品回帰、ユーザ人口の変化、テレメトリ損失(あるいは処理)によるバイアスなど、さまざまな理由からメトリクスの回帰が表面化します。 これらのメトリックレグレッションの原因の診断は、可能な限り早く問題の根本原因を見つけるために時間を投資する必要があるため、エンジニアリングチームにとってはコストがかかる。 ABテストの原理を用いて構築されたPythonライブラリであるLumosを紹介し,その分析を自動化するために,メトリクス回帰を体系的に診断する。 LumosはMicrosoftのリアルタイムコミュニケーションアプリケーションSkypeとMicrosoft Teamsのコンポーネントチーム間でデプロイされている。 エンジニアチームは、メトリクスの実際の変化を100回検出し、異常検出者によって検出された1000回の誤報を拒否することができる。 lumosの適用により、メートル法に基づく調査に割り当てられた時間の95%が解放された。 本研究はLumosをオープンソースとして公開し,RTCグループ内の2つの異なるコンポーネントに数百万のセッションで適用した結果を提示する。 この汎用ライブラリは、任意のプロダクションシステムと結合して、アラートのボリュームを効率的に管理することができる。

Web-scale applications can ship code on a daily to weekly cadence. These applications rely on online metrics to monitor the health of new releases. Regressions in metric values need to be detected and diagnosed as early as possible to reduce the disruption to users and product owners. Regressions in metrics can surface due to a variety of reasons: genuine product regressions, changes in user population, and bias due to telemetry loss (or processing) are among the common causes. Diagnosing the cause of these metric regressions is costly for engineering teams as they need to invest time in finding the root cause of the issue as soon as possible. We present Lumos, a Python library built using the principles of AB testing to systematically diagnose metric regressions to automate such analysis. Lumos has been deployed across the component teams in Microsoft's Real-Time Communication applications Skype and Microsoft Teams. It has enabled engineering teams to detect 100s of real changes in metrics and reject 1000s of false alarms detected by anomaly detectors. The application of Lumos has resulted in freeing up as much as 95% of the time allocated to metric-based investigations. In this work, we open source Lumos and present our results from applying it to two different components within the RTC group over millions of sessions. This general library can be coupled with any production system to manage the volume of alerting efficiently.
翻訳日:2022-11-17 23:45:21 公開日:2020-06-23
# 再現可能な文書のプログラム生成について

On the Programmatic Generation of Reproducible Documents ( http://arxiv.org/abs/2007.12631v1 )

ライセンス: Link先を確認
Michael J. Kane and Simon Urbanek(参考訳) R Markdownのような再現可能なドキュメント標準は、コンテンツ自体がプログラムで生成されたドキュメントのプログラムによる作成を促進する。 これらの文書は一般に、文脈や物語などを提供するために著者が生成した散文の内容を含まないという意味では完成していないが、プログラム生成は文書の構造化と構築に実質的な効率をもたらすことができる。 本稿では,人間が生成した散文から計算手段で作成できるものよりも部品を識別し,これらの文書生成のためのガイドラインを提供し,臨床試験報告での使用事例を特定することで,再現性のプログラム的生成について検討する。 これらの概念とユースケースは、現在Comprehensive R Archive Network (CRAN)で利用可能であるRプログラミング環境のリストダウンパッケージを通じて説明されている。

Reproducible document standards, like R Markdown, facilitate the programmatic creation of documents whose content is itself programmatically generated. While these documents are generally not complete in the sense that they will not include prose content, generated by an author to provide context, a narrative, etc., programmatic generation can provide substantial efficiencies for structuring and constructing documents. This paper explores the programmatic generation of reproducible by distinguishing components than can be created by computational means from those requiring human-generated prose, providing guidelines for the generation of these documents, and identifying a use case in clinical trial reporting. These concepts and use case are illustrated through the listdown package for the R programming environment, which is is currently available on the Comprehensive R Archive Network (CRAN).
翻訳日:2022-11-17 23:44:58 公開日:2020-06-23
# 生物と機械における適応原理ii:ベイズ脳の熱力学

The principles of adaptation in organisms and machines II: Thermodynamics of the Bayesian brain ( http://arxiv.org/abs/2006.13158v1 )

ライセンス: Link先を確認
Hideaki Shimazaki(参考訳) 本稿では, ベイズ推論の観点から, ニューラルネットのダイナミクスを通して, 生物がどのように世界を学習し認識するかを考察し, それらのダイナミクスが, ベイズ脳の熱力学と呼ばれるパラダイムである神経活動のエントロピーの法則によってどのように記述されているかを説明する。 ベイズ脳仮説は、ニューロンの刺激によって誘発される活動は、生物が持つ外界の生成モデルに基づいてベイズ後層分布を構築する行為であると考えている。 初期の感覚皮質における刺激誘発活動は、フィードフォワード接続が最初に刺激応答を媒介し、後に繰り返し接続からの入力によって変調されることを示した。 重要なことに、最初の反応ではなく、遅延変調は動物の意識や刺激に対する注意といった認知状態を表す。 スパイキング神経集団からなる単純な生成モデルを用いて、刺激の証拠と事前の知識を時間遅延と統合するベイズ推論の過程として、遅延フィードバック変調を伴う刺激誘発ダイナミクスを再現する。 次に、神経活動のエントロピーの法則に基づいて、この過程に関する熱力学的見解を紹介する。 この見解は、ベイズ推論の過程が、最近提案された情報理論エンジン(ニューラルエンジン、熱力学における熱エンジンのアナログ)として機能し、エントロピーの観点から遅延変調で表される知覚能力の定量化を可能にする。

This article reviews how organisms learn and recognize the world through the dynamics of neural networks from the perspective of Bayesian inference, and introduces a view on how such dynamics is described by the laws for the entropy of neural activity, a paradigm that we call thermodynamics of the Bayesian brain. The Bayesian brain hypothesis sees the stimulus-evoked activity of neurons as an act of constructing the Bayesian posterior distribution based on the generative model of the external world that an organism possesses. A closer look at the stimulus-evoked activity at early sensory cortices reveals that feedforward connections initially mediate the stimulus-response, which is later modulated by input from recurrent connections. Importantly, not the initial response, but the delayed modulation expresses animals' cognitive states such as awareness and attention regarding the stimulus. Using a simple generative model made of a spiking neural population, we reproduce the stimulus-evoked dynamics with the delayed feedback modulation as the process of the Bayesian inference that integrates the stimulus evidence and a prior knowledge with time-delay. We then introduce a thermodynamic view on this process based on the laws for the entropy of neural activity. This view elucidates that the process of the Bayesian inference works as the recently-proposed information-theoretic engine (neural engine, an analogue of a heat engine in thermodynamics), which allows us to quantify the perceptual capacity expressed in the delayed modulation in terms of entropy.
翻訳日:2022-11-17 23:38:28 公開日:2020-06-23
# ROI一貫性を用いた胎児脳MRI品質評価のための半教師付き学習

Semi-Supervised Learning for Fetal Brain MRI Quality Assessment with ROI consistency ( http://arxiv.org/abs/2006.12704v1 )

ライセンス: Link先を確認
Junshen Xu, Sayeri Lala, Borjan Gagoski, Esra Abaci Turk, P. Ellen Grant, Polina Golland, Elfar Adalsteinsson(参考訳) 胎児脳MRIは脳の異常の診断に有用であるが、胎児の運動に障害がある。 t2強調型胎児脳mriの現在のプロトコルは動作にロバストではないため、画像ボリュームはスライス間およびスライス内の動きアーチファクトによって劣化する。 さらに、胎児のMR画像品質評価のための手動アノテーションは通常、時間を要する。 そこで本研究では,脳の容積スキャン中に人工物でスライスを検出する半教師付き深層学習法を提案する。 提案手法は,平均教師モデルに基づいて,生徒と教師のモデル間の一貫性をイメージ全体に強制するだけでなく,ネットワークを脳領域に集中させるためのroi一貫性損失を導入する。 11,223個のラベル付き画像と20万以上のラベル付き画像を含む胎児脳mrデータセットを用いて,提案法を評価した。 その結果,教師付き学習と比較して,提案手法はモデルの精度を約6\%向上させ,他の教師付き半教師付き学習法よりも優れることがわかった。 また, 胎児のMRスキャンにおいて, オンライン画像品質評価と画像再取得の可能性を示すMRスキャナの実装と評価を行った。

Fetal brain MRI is useful for diagnosing brain abnormalities but is challenged by fetal motion. The current protocol for T2-weighted fetal brain MRI is not robust to motion so image volumes are degraded by inter- and intra- slice motion artifacts. Besides, manual annotation for fetal MR image quality assessment are usually time-consuming. Therefore, in this work, a semi-supervised deep learning method that detects slices with artifacts during the brain volume scan is proposed. Our method is based on the mean teacher model, where we not only enforce consistency between student and teacher models on the whole image, but also adopt an ROI consistency loss to guide the network to focus on the brain region. The proposed method is evaluated on a fetal brain MR dataset with 11,223 labeled images and more than 200,000 unlabeled images. Results show that compared with supervised learning, the proposed method can improve model accuracy by about 6\% and outperform other state-of-the-art semi-supervised learning methods. The proposed method is also implemented and evaluated on an MR scanner, which demonstrates the feasibility of online image quality assessment and image reacquisition during fetal MR scans.
翻訳日:2022-11-17 23:37:34 公開日:2020-06-23
# CIE XYZ Net:低レベルコンピュータビジョンタスクのための非処理イメージ

CIE XYZ Net: Unprocessing Images for Low-Level Computer Vision Tasks ( http://arxiv.org/abs/2006.12709v1 )

ライセンス: Link先を確認
Mahmoud Afifi, Abdelrahman Abdelhamed, Abdullah Abuolaim, Abhijith Punnappurath, and Michael S. Brown(参考訳) 現在、カメラは2つの画像状態にアクセスすることができる。 (i)最小処理線形生rgb画像状態(すなわち、生センサデータ)又は (ii)高度に処理された非線形画像状態(sRGBなど)。 画像デブラリングや画像デハジングなど、線形画像状態が最もうまく機能するコンピュータビジョンタスクは数多く存在する。 残念なことに、ほとんどの画像は非線形画像状態に保存される。 このため、非線形画像を生のRGB状態に"アンプロセス"する方法がいくつか提案されている。 しかし、RGB画像はセンサ固有のため、既存のアンプロセッシング手法には欠点がある。 その結果、どのカメラがsRGB出力を生成したのかを把握し、そのセンサに適した方法やネットワークを用いて適切にアン処理する必要がある。 本稿では、出力として使用できない別のカメライメージ状態を利用して、この制限に対処するが、カメラパイプライン内で利用可能である。 特に、カメラは、非線形フォトフィニッシュを施す前に、CIE XYZ色空間に基づいて、原RGB画像をデバイス非依存空間に変換するためのカラー変換ステップを適用する。 この標準画像状態を活用することで,CIE XYZ 画像への非線形像の復号化が可能な深層学習フレームワーク CIE XYZ Net を提案する。 この画像は低レベルのコンピュータビジョン演算子によって処理され、非線形画像に再レンダリングされる。 我々は,CIE XYZ Netの低レベル視覚タスクにおける有用性を実証し,この処理フレームワークで得られる顕著な利得を示す。 コードとデータセットはhttps://github.com/mahmoudnafifi/cie_xyz_netで公開されている。

Cameras currently allow access to two image states: (i) a minimally processed linear raw-RGB image state (i.e., raw sensor data) or (ii) a highly-processed nonlinear image state (e.g., sRGB). There are many computer vision tasks that work best with a linear image state, such as image deblurring and image dehazing. Unfortunately, the vast majority of images are saved in the nonlinear image state. Because of this, a number of methods have been proposed to "unprocess" nonlinear images back to a raw-RGB state. However, existing unprocessing methods have a drawback because raw-RGB images are sensor-specific. As a result, it is necessary to know which camera produced the sRGB output and use a method or network tailored for that sensor to properly unprocess it. This paper addresses this limitation by exploiting another camera image state that is not available as an output, but it is available inside the camera pipeline. In particular, cameras apply a colorimetric conversion step to convert the raw-RGB image to a device-independent space based on the CIE XYZ color space before they apply the nonlinear photo-finishing. Leveraging this canonical image state, we propose a deep learning framework, CIE XYZ Net, that can unprocess a nonlinear image back to the canonical CIE XYZ image. This image can then be processed by any low-level computer vision operator and re-rendered back to the nonlinear image. We demonstrate the usefulness of the CIE XYZ Net on several low-level vision tasks and show significant gains that can be obtained by this processing framework. Code and dataset are publicly available at https://github.com/mahmoudnafifi/CIE_XYZ_NET.
翻訳日:2022-11-17 23:37:12 公開日:2020-06-23
# PoseGAN: カメラローカライゼーションのためのPose-to-Image翻訳フレームワーク

PoseGAN: A Pose-to-Image Translation Framework for Camera Localization ( http://arxiv.org/abs/2006.12712v1 )

ライセンス: Link先を確認
Kanglin Liu and Qing Li and Guoping Qiu(参考訳) カメラのローカライゼーションはロボットとコンピュータビジョンの基本的な要件である。 本稿では,カメラのローカライゼーション問題に対処するためのポーズ・ツー・イメージ翻訳フレームワークを提案する。 本稿では,pse-to-image翻訳の実装のための条件付き生成対向ネットワーク(cGAN)ベースのフレームワークであるPoseGANを提案する。 PoseGANは、カメラのローカライゼーションを行う距離メートル法に基づく条件判別器や、カメラのローカライゼーション性能を改善するための強い制約として生成されたカメラ画像のポーズ推定技術など、多くの革新を特徴としている。 PoseNetのような学習ベースの回帰手法と比較して、PoseGANsは70%小さいモデルサイズでより良いパフォーマンスを達成することができる。 また、2d画像とシーンの対応を確立するためにビュー合成技術も導入されており、ポーズが与えられると、対応するカメラ画像を合成することができる。 さらに,ポセガンは,カメラの局所化や学習に基づく回帰とは原理的に異なることを示し,ポセガンが幾何学的構造を利用してカメラの局所化タスクを遂行していることを示し,それゆえ,局所的なテクスチャ特徴に依存する学習ベースの回帰よりもより安定であることを示した。 カメラのローカライゼーションやビュー合成に加えて,PoseGANsは動画シーケンスにおける移動物体の除去やフレーム補間など,他の興味深い応用にも有効であることを示す。

Camera localization is a fundamental requirement in robotics and computer vision. This paper introduces a pose-to-image translation framework to tackle the camera localization problem. We present PoseGANs, a conditional generative adversarial networks (cGANs) based framework for the implementation of pose-to-image translation. PoseGANs feature a number of innovations including a distance metric based conditional discriminator to conduct camera localization and a pose estimation technique for generated camera images as a stronger constraint to improve camera localization performance. Compared with learning-based regression methods such as PoseNet, PoseGANs can achieve better performance with model sizes that are 70% smaller. In addition, PoseGANs introduce the view synthesis technique to establish the correspondence between the 2D images and the scene, \textit{i.e.}, given a pose, PoseGANs are able to synthesize its corresponding camera images. Furthermore, we demonstrate that PoseGANs differ in principle from structure-based localization and learning-based regressions for camera localization, and show that PoseGANs exploit the geometric structures to accomplish the camera localization task, and is therefore more stable than and superior to learning-based regressions which rely on local texture features instead. In addition to camera localization and view synthesis, we also demonstrate that PoseGANs can be successfully used for other interesting applications such as moving object elimination and frame interpolation in video sequences.
翻訳日:2022-11-17 23:36:49 公開日:2020-06-23
# Image Biomarkers Standardization Initiative を用いた各種放射線ツールキット/ツールボックスのベンチマーク機能

Benchmarking features from different radiomics toolkits / toolboxes using Image Biomarkers Standardization Initiative ( http://arxiv.org/abs/2006.12761v1 )

ライセンス: Link先を確認
Mingxi Lei, Bino Varghese, Darryl Hwang, Steven Cen, Xiaomeng Lei, Afshin Azadikhah, Bhushan Desai, Assad Oberai, Vinay Duddalwar(参考訳) 放射能の特徴の用語、基礎となる数学、それらの実装に関する合意はない。 これにより、異なるツールボックスを使用して抽出された機能が同じモデルの構築や検証に使用できず、放射能結果の非一般化につながるシナリオが生成される。 本研究では, 画像バイオマーカー標準化イニシアチブ (IBSI) がファントムを確立し, ベンチマーク値を用いて, 6つの公開ソフトウェアプログラムと1つの社内無線パイプラインを用いて, 放射能特性の変化を比較した。 ibsiで標準化された全ての機能(11クラス、173クラス)が抽出された。 異なるソフトウェアから抽出した特徴値とIBSIベンチマーク値との相対的な差を計算し,ソフトウェア間合意度を測定した。 バリエーションをよりよく理解するために、機能はさらに3つのカテゴリに分類される。 1)形態学 2) 統計/ヒストグラム, 3) テクスチャの特徴。 様々なプログラムにまたがる放射線学的特徴の大多数については良好な合意が得られたが、形態学的特徴については比較的不十分な合意が得られた。 グレーレベル離散化アプローチの異なるプログラムでも大きな違いが見られた。 これらのプログラムは全てのIBSI特徴を含まないため、各カテゴリの定量的評価レベルをVennとUpSet図を用いて分析し、2つのアドホック指標を用いて定量化した。 形態学的特徴は両方の指標で最低スコアを獲得し、形態的特徴がソフトウェアプログラム間で一貫して評価されていないことを示している。 異なるソフトウェアプログラムを用いて計算した放射能特性は同一で信頼性が低い可能性がある。 放射線的特徴抽出のワークフローを標準化するためには、さらなる研究が必要である。

There is no consensus regarding the radiomic feature terminology, the underlying mathematics, or their implementation. This creates a scenario where features extracted using different toolboxes could not be used to build or validate the same model leading to a non-generalization of radiomic results. In this study, the image biomarker standardization initiative (IBSI) established phantom and benchmark values were used to compare the variation of the radiomic features while using 6 publicly available software programs and 1 in-house radiomics pipeline. All IBSI-standardized features (11 classes, 173 in total) were extracted. The relative differences between the extracted feature values from the different software and the IBSI benchmark values were calculated to measure the inter-software agreement. To better understand the variations, features are further grouped into 3 categories according to their properties: 1) morphology, 2) statistic/histogram and 3)texture features. While a good agreement was observed for a majority of radiomics features across the various programs, relatively poor agreement was observed for morphology features. Significant differences were also found in programs that use different gray level discretization approaches. Since these programs do not include all IBSI features, the level of quantitative assessment for each category was analyzed using Venn and the UpSet diagrams and also quantified using two ad hoc metrics. Morphology features earns lowest scores for both metrics, indicating that morphological features are not consistently evaluated among software programs. We conclude that radiomic features calculated using different software programs may not be identical and reliable. Further studies are needed to standardize the workflow of radiomic feature extraction.
翻訳日:2022-11-17 23:36:24 公開日:2020-06-23
# 2次元投影画像からの3次元確率分割と体積

3D Probabilistic Segmentation and Volumetry from 2D projection images ( http://arxiv.org/abs/2006.12809v1 )

ライセンス: Link先を確認
Athanasios Vlontzos, Samuel Budd, Benjamin Hou, Daniel Rueckert, Bernhard Kainz(参考訳) X線イメージングは迅速で安価で、フロントラインケアアセスメントや術中リアルタイムイメージング(例えばC-Arm Fluoroscopy)に有用である。 しかし、プロジェクティブな情報損失に悩まされており、多くの診断バイオマーカーがベースとなっている重要な量情報がない。 本稿では,2次元画像から3次元ボリュームイメージを再構成する確率的手法について検討し,モデルの性能と信頼性を測定した。 我々は,大規模連結構造におけるモデルの性能を示し,微細構造と画像領域感度に関する限界を検証した。 2d-3d畳み込みネットワークの高速エンド・ツー・エンドトレーニングを用いて,デジタル再構成ラジオグラフ (drr) からの3d構造を0.91 \pm 0.0013$で分割する117ctスキャン法を評価した。 ソースコードはカンファレンスの日までに公開される予定だ。

X-Ray imaging is quick, cheap and useful for front-line care assessment and intra-operative real-time imaging (e.g., C-Arm Fluoroscopy). However, it suffers from projective information loss and lacks vital volumetric information on which many essential diagnostic biomarkers are based on. In this paper we explore probabilistic methods to reconstruct 3D volumetric images from 2D imaging modalities and measure the models' performance and confidence. We show our models' performance on large connected structures and we test for limitations regarding fine structures and image domain sensitivity. We utilize fast end-to-end training of a 2D-3D convolutional networks, evaluate our method on 117 CT scans segmenting 3D structures from digitally reconstructed radiographs (DRRs) with a Dice score of $0.91 \pm 0.0013$. Source code will be made available by the time of the conference.
翻訳日:2022-11-17 23:35:55 公開日:2020-06-23
# 拡張現実におけるインスタント3次元物体追跡

Instant 3D Object Tracking with Applications in Augmented Reality ( http://arxiv.org/abs/2006.13194v1 )

ライセンス: Link先を確認
Adel Ahmadyan, Tingbo Hou, Jianing Wei, Liangkai Zhang, Artsiom Ablavatski, Matthias Grundmann(参考訳) 3dでのオブジェクトポーズ追跡は、拡張現実アプリケーションにとって重要なビルディングブロックである。 本研究では,物体の空間におけるポーズ(3Dバウンディングボックスで表される)をモバイルデバイス上でリアルタイムに追跡するインスタントモーショントラッキングシステムを提案する。 本システムは,事前の感覚キャリブレーションや初期化を必要としない。 我々は、深層ニューラルネットワークを用いて物体を検出し、最初の3dポーズを推定する。 そして、ロバストな平面追跡装置を用いて推定ポーズを追跡する。 我々のトラッカーは、モバイルデバイス上で比較的大規模な9-DoF追跡を行うことができる。 CPUとGPUを効率よく組み合わせることで、モバイルデバイス上で26-FPS以上のパフォーマンスを実現する。

Tracking object poses in 3D is a crucial building block for Augmented Reality applications. We propose an instant motion tracking system that tracks an object's pose in space (represented by its 3D bounding box) in real-time on mobile devices. Our system does not require any prior sensory calibration or initialization to function. We employ a deep neural network to detect objects and estimate their initial 3D pose. Then the estimated pose is tracked using a robust planar tracker. Our tracker is capable of performing relative-scale 9-DoF tracking in real-time on mobile devices. By combining use of CPU and GPU efficiently, we achieve 26-FPS+ performance on mobile devices.
翻訳日:2022-11-17 23:28:23 公開日:2020-06-23
# 感情認識のためのメタトランスファー学習

Meta Transfer Learning for Emotion Recognition ( http://arxiv.org/abs/2006.13211v1 )

ライセンス: Link先を確認
Dung Nguyen, Sridha Sridharan, Duc Thanh Nguyen, Simon Denman, David Dean, Clinton Fookes(参考訳) ディープラーニングは自動感情認識に広く採用されており、この分野でかなりの進歩をもたらしている。 しかし、注釈付き感情データセットが不十分なため、事前学習されたモデルは一般化能力に制限があり、新しいテストセットの性能が低下する。 この課題を軽減するために、事前訓練されたモデルの微調整を行うトランスファーラーニングを適用した。 しかし、微調整された知識は、事前訓練されたモデルから学んだ重要な知識を上書きまたは破棄することができる。 本稿では,視覚/聴覚感情領域から学習した感情知識を他の視覚/聴覚感情領域に伝達し,複数の音声感情領域から学習した感情知識を相互に伝達し,感情認識の精度を向上させるパスネットに基づく伝達学習手法を提案する。 提案するシステムのロバスト性を示すために,save,emodb,enterfaceの3つの感情データセット上で,表情認識と音声感情認識タスクに関する各種実験を行った。 実験の結果,本システムは感情認識の性能を向上でき,最近提案する微調整/事前学習モデルに基づくトランスファー学習法に比べて,その性能が大幅に向上することが示唆された。

Deep learning has been widely adopted in automatic emotion recognition and has lead to significant progress in the field. However, due to insufficient annotated emotion datasets, pre-trained models are limited in their generalization capability and thus lead to poor performance on novel test sets. To mitigate this challenge, transfer learning performing fine-tuning on pre-trained models has been applied. However, the fine-tuned knowledge may overwrite and/or discard important knowledge learned from pre-trained models. In this paper, we address this issue by proposing a PathNet-based transfer learning method that is able to transfer emotional knowledge learned from one visual/audio emotion domain to another visual/audio emotion domain, and transfer the emotional knowledge learned from multiple audio emotion domains into one another to improve overall emotion recognition accuracy. To show the robustness of our proposed system, various sets of experiments for facial expression recognition and speech emotion recognition task on three emotion datasets: SAVEE, EMODB, and eNTERFACE have been carried out. The experimental results indicate that our proposed system is capable of improving the performance of emotion recognition, making its performance substantially superior to the recent proposed fine-tuning/pre-trained models based transfer learning methods.
翻訳日:2022-11-17 23:28:16 公開日:2020-06-23
# 点雲の剛性登録のためのリー群アプローチの適用

Applying Lie Groups Approaches for Rigid Registration of Point Clouds ( http://arxiv.org/abs/2006.13341v1 )

ライセンス: Link先を確認
Liliane Rodrigues de Almeida, Gilson A. Giraldi, Marcelo Bernardes Vieira(参考訳) 過去数十年の間に、リー群理論を用いてコンピュータビジョンの問題を解決する文献が現れた。 一方、変換のリー代数表現は、変換群を線型空間に写像することで群構造の裏にある困難を克服するために導入された。 本稿では、点雲で表される2つの曲面を最もよく表す厳密な変換を求めるために、リー群とリー代数の適用に焦点を当てる。 いわゆる双対剛性登録は、局所幾何学を符号化する固有二階配向テンソルを比較することで定式化することができる。 これらのテンソルは(局所的に)対称な非負定値行列で表される。 本稿では,得られたテンソル場を多変量正規モデルとして解釈する。 したがって、ガウス空間は上三角行列の部分群に同型なリー群構造を持つことができるという事実から始める。 したがって、関連するリー代数構造はガウス作用素を扱い、従って向き付けテンソルとユークリッド演算を比較することができる。 この手法を、ペア登録のための既知のテクニックであるICP(Iterative Closest Point)の変種に適用する。 得られた結果と、向きテンソルの固有値に基づく類似性の概念である比較テンソル形状因子(CTSF)を適用した元の実装との比較を行う。 我々は、リーのアプローチから直接導かれるテンソル空間における類似度測度が回転の下で不変ではないことに気付く。 これにもかかわらず、計算実験はリー代数に配向テンソル場を埋め込む際に有望な結果を示す。

In the last decades, some literature appeared using the Lie groups theory to solve problems in computer vision. On the other hand, Lie algebraic representations of the transformations therein were introduced to overcome the difficulties behind group structure by mapping the transformation groups to linear spaces. In this paper we focus on application of Lie groups and Lie algebras to find the rigid transformation that best register two surfaces represented by point clouds. The so called pairwise rigid registration can be formulated by comparing intrinsic second-order orientation tensors that encode local geometry. These tensors can be (locally) represented by symmetric non-negative definite matrices. In this paper we interpret the obtained tensor field as a multivariate normal model. So, we start with the fact that the space of Gaussians can be equipped with a Lie group structure, that is isomorphic to a subgroup of the upper triangular matrices. Consequently, the associated Lie algebra structure enables us to handle Gaussians, and consequently, to compare orientation tensors, with Euclidean operations. We apply this methodology to variants of the Iterative Closest Point (ICP), a known technique for pairwise registration. We compare the obtained results with the original implementations that apply the comparative tensor shape factor (CTSF), which is a similarity notion based on the eigenvalues of the orientation tensors. We notice that the similarity measure in tensor spaces directly derived from Lie's approach is not invariant under rotations, which is a problem in terms of rigid registration. Despite of this, the performed computational experiments show promising results when embedding orientation tensor fields in Lie algebras.
翻訳日:2022-11-17 23:27:26 公開日:2020-06-23
# 表面損傷を考慮した道路表面の検出と識別

Road surface detection and differentiation considering surface damages ( http://arxiv.org/abs/2006.13377v1 )

ライセンス: Link先を確認
Thiago Rateke and Aldo von Wangenheim(参考訳) 車両とロボットナビゲーションの視覚的認識の分野において、大きな損傷を受けた未舗装道路における課題は、信頼できる経路と障害物検出の課題である。 研究の大部分は、先進国からのシナリオ道路として良好な状態にある。 これらの作業は、路面の変動の少ない状況と、表面損傷を示す状況にさえ対処している。 本稿では, 路面の変動を考慮した道路検出手法を提案し, 舗装面と未舗装面を同定し, 運転安全に関係のある他の路面上の損傷その他の情報を検出する。 また,画像分割を用いた新たな基礎的真理を提示することで,結果の評価を可能にした。 この結果から,低コストカメラで撮影した画像を用いても,受動的視覚をこれらの目的に活用できることが示唆された。

A challenge still to be overcome in the field of visual perception for vehicle and robotic navigation on heavily damaged and unpaved roads is the task of reliable path and obstacle detection. The vast majority of the researches have as scenario roads in good condition, from developed countries. These works cope with few situations of variation on the road surface and even fewer situations presenting surface damages. In this paper we present an approach for road detection considering variation in surface types, identifying paved and unpaved surfaces and also detecting damage and other information on other road surface that may be relevant to driving safety. We also present a new Ground Truth with image segmentation, used in our approach and that allowed us to evaluate our results. Our results show that it is possible to use passive vision for these purposes, even using images captured with low cost cameras.
翻訳日:2022-11-17 23:27:01 公開日:2020-06-23
# 自律型水中車両の軌道間隔適応によるカバレッジパス計画

Coverage Path Planning with Track Spacing Adaptation for Autonomous Underwater Vehicles ( http://arxiv.org/abs/2006.12896v1 )

ライセンス: Link先を確認
Veronika Yordanova, Bart Gips(参考訳) 本稿では, 横型ソナーを用いて海底を探査する自律型水中車両(AUV)の地雷対策(MCM)探索問題に対処する。 より優れたデータ収集を目的としたAUVトラック間隔に適応するカバレッジパス計画法を提案する。 我々は、最低データ品質が期待されるセンサ範囲の尾部でのカバレッジオーバーラップをシフトすることで、これを実現する。 このアルゴリズムを評価するために,3つの海中実験のデータを収集した。 適応調査により、AUVはセンサー範囲が過大評価された状況から回復し、エリアカバレッジのギャップを減らした。 別の実験では、アダプティブサーベイにより、データ品質が4.2%向上し、"Worst"データの30%近くが改善された。

In this paper we address the mine countermeasures (MCM) search problem for an autonomous underwater vehicle (AUV) surveying the seabed using a side-looking sonar. We propose a coverage path planning method that adapts the AUV track spacing with the objective of collecting better data. We achieve this by shifting the coverage overlap at the tail of the sensor range where the lowest data quality is expected. To assess the algorithm, we collected data from three at-sea experiments. The adaptive survey allowed the AUV to recover from a situation where the sensor range was overestimated and resulted in reducing area coverage gaps. In another experiment,the adaptive survey showed a 4.2% improvement in data quality for nearly 30% of the 'worst' data.
翻訳日:2022-11-17 23:26:30 公開日:2020-06-23
# ポーズと形状推定による物体認識

Object recognition through pose and shape estimation ( http://arxiv.org/abs/2006.12864v1 )

ライセンス: Link先を確認
Anitta D, Annis Fathima A(参考訳) コンピュータービジョンは、機械やコンピューターが人間のように見えるのを助ける。 コンピュータは画像から情報を取得し、画像から有用な情報を理解する。 ジェスチャー認識と動き認識は、現在のコンピュータビジョンの研究分野である。 ジェスチャーと運動認識の両方において、物体のポーズを見つけることは非常に重要である。 本研究の目的は,その特徴と精度,複雑性,性能の比較に基づいて,外見に基づく形状に基づく物体のポーズの発見に既に利用可能な多くの美術品をレビューすることである。

Computer vision helps machines or computer to see like humans. Computer Takes information from the images and then understands of useful information from images. Gesture recognition and movement recognition are the current area of research in computer vision. For both gesture and movement recognition finding pose of an object is of great importance. The purpose of this paper is to review many state of art which is already available for finding the pose of object based on shape, based on appearance, based on feature and comparison for its accuracy, complexity and performance
翻訳日:2022-11-17 23:20:19 公開日:2020-06-23
# SLV: 弱い監視対象検出のための空間的投票

SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection ( http://arxiv.org/abs/2006.12884v1 )

ライセンス: Link先を確認
Ze Chen, Zhihang Fu, Rongxin Jiang, Yaowu Chen, Xian-sheng Hua(参考訳) マルチ・インスタンス・ラーニング (MIL) の枠組みに基づいて, 弱い教師付きオブジェクト検出 (WSOD) の進歩が促進された。 しかし、ほとんどのMILベースの方法は、コンテンツ全体ではなく、インスタンスを識別する部分にローカライズする傾向がある。 本稿では,提案の局所化プロセスをバウンディングボックスアノテーションを使わずに収束させる空間的確率投票(slv)モジュールを提案する。 具体的には、ある画像内のすべての領域の提案は、訓練中のイテレーション毎に有権者の役割を担い、空間的次元における各カテゴリの可能性を投票する。 大きな可能性値の領域にアライメントを拡大した後、投票結果は境界ボックスとして正規化され、最終分類とローカライゼーションに使用される。 SLVに基づいて,マルチタスク学習のためのエンドツーエンドトレーニングフレームワークを提案する。 分類および局所化タスクは相互に促進され、検出性能がさらに向上する。 PASCAL VOC 2007と2012のデータセットに対する大規模な実験は、SLVの優れた性能を示している。

Based on the framework of multiple instance learning (MIL), tremendous works have promoted the advances of weakly supervised object detection (WSOD). However, most MIL-based methods tend to localize instances to their discriminative parts instead of the whole content. In this paper, we propose a spatial likelihood voting (SLV) module to converge the proposal localizing process without any bounding box annotations. Specifically, all region proposals in a given image play the role of voters every iteration during training, voting for the likelihood of each category in spatial dimensions. After dilating alignment on the area with large likelihood values, the voting results are regularized as bounding boxes, being used for the final classification and localization. Based on SLV, we further propose an end-to-end training framework for multi-task learning. The classification and localization tasks promote each other, which further improves the detection performance. Extensive experiments on the PASCAL VOC 2007 and 2012 datasets demonstrate the superior performance of SLV.
翻訳日:2022-11-17 23:20:05 公開日:2020-06-23
# タスク適応正則化による蒸留物体検出器

Distilling Object Detectors with Task Adaptive Regularization ( http://arxiv.org/abs/2006.13108v1 )

ライセンス: Link先を確認
Ruoyu Sun, Fuhui Tang, Xiaopeng Zhang, Hongkai Xiong, Qi Tian(参考訳) 現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが難しい。 より大きな教師モデルから知識を移し、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。 本稿では,一般的な検出器の各モジュールを深く調査し,タスク固有の優先順位に応じて教師から生徒へ知識を適応的に伝達する汎用蒸留フレームワークを提案する。 教師から生徒へ全ての情報を蒸留するだけでは不可能であり、学生がうまく機能しない教師モデルから先行情報を借用するべきだという直感である。 そこで本研究では,教師と生徒モデル間の地域対応を相互に伝達する地域提案共有機構を提案する。 これに基づいて,モデルがより合理的に機能する3つのレベル,すなわち,機能バックボーン,分類ヘッド,バウンディングボックス回帰ヘッドの知識を適応的に伝達する。 さらに, 蒸留損失と検出損失を同時に最小化する際の最適化ジレンマを導入することを考えると, 蒸留ペナルティを徐々に減らし, モデル一般化を改善するための蒸留崩壊戦略を提案する。 広く用いられている検出ベンチマーク実験により,本手法の有効性が示された。 特に、FPNをインスタンスとしてFaster R-CNNを使用することで、COCOデータセット上でResnet-50で39.0\%の精度を達成し、ベースラインの36.3\%を2.7\%のポイントで上回り、38.5\%のmAPを持つ教師モデルよりもさらに優れている。

Current state-of-the-art object detectors are at the expense of high computational costs and are hard to deploy to low-end devices. Knowledge distillation, which aims at training a smaller student network by transferring knowledge from a larger teacher model, is one of the promising solutions for model miniaturization. In this paper, we investigate each module of a typical detector in depth, and propose a general distillation framework that adaptively transfers knowledge from teacher to student according to the task specific priors. The intuition is that simply distilling all information from teacher to student is not advisable, instead we should only borrow priors from the teacher model where the student cannot perform well. Towards this goal, we propose a region proposal sharing mechanism to interflow region responses between the teacher and student models. Based on this, we adaptively transfer knowledge at three levels, \emph{i.e.}, feature backbone, classification head, and bounding box regression head, according to which model performs more reasonably. Furthermore, considering that it would introduce optimization dilemma when minimizing distillation loss and detection loss simultaneously, we propose a distillation decay strategy to help improve model generalization via gradually reducing the distillation penalty. Experiments on widely used detection benchmarks demonstrate the effectiveness of our method. In particular, using Faster R-CNN with FPN as an instantiation, we achieve an accuracy of $39.0\%$ with Resnet-50 on COCO dataset, which surpasses the baseline $36.3\%$ by $2.7\%$ points, and even better than the teacher model with $38.5\%$ mAP.
翻訳日:2022-11-17 23:18:42 公開日:2020-06-23
# 深層ニューラルネットワークを用いた衛星画像からの境界正規化建物の足跡抽出

Boundary Regularized Building Footprint Extraction From Satellite Images Using Deep Neural Network ( http://arxiv.org/abs/2006.13176v1 )

ライセンス: Link先を確認
Kang Zhao, Muhammad Kamran, Gunho Sohn(参考訳) 近年、ますます多くのリモート衛星が地球を周回しており、膨大な量の視覚データを流し、幅広い民間、公共、および軍事用途をサポートするようになっている。 衛星画像から得られた重要な情報の1つは、高解像度データによる広い範囲の空間地図の作成と更新である。 しかし,衛星画像からの空間地図の再構成は,プリミティブのような高次表現を伴うシーンやオブジェクトの再構成を必要とするため,簡単なビジョンタスクではない。 過去10年間、視覚データを用いたオブジェクト検出と表現の大幅な進歩が達成されてきたが、原始的なオブジェクト表現は依然として難しい視覚課題として残っている。 したがって、高品質な空間地図は主に複雑な労働集約過程を通じて作成される。 本稿では,1つの衛星画像から構築事例を共同で検出し,ノイズの多い建物の境界形状を規則化する,新しいディープニューラルネットワークを提案する。 提案手法は,関心領域(RoI)特徴を生成する2段階物体検出ネットワークと,多角形形状の幾何学的情報を得るためのグラフモデルを用いた建物境界抽出ネットワークから構成される。 大規模実験により, 物体の局所化, 認識, セマンティックラベリング, 幾何学的形状抽出のマルチタスクを同時に達成できることがわかった。 建物抽出精度,計算効率,境界正規化性能の面では,最先端のベースラインモデルに勝っている。

In recent years, an ever-increasing number of remote satellites are orbiting the Earth which streams vast amount of visual data to support a wide range of civil, public and military applications. One of the key information obtained from satellite imagery is to produce and update spatial maps of built environment due to its wide coverage with high resolution data. However, reconstructing spatial maps from satellite imagery is not a trivial vision task as it requires reconstructing a scene or object with high-level representation such as primitives. For the last decade, significant advancement in object detection and representation using visual data has been achieved, but the primitive-based object representation still remains as a challenging vision task. Thus, a high-quality spatial map is mainly produced through complex labour-intensive processes. In this paper, we propose a novel deep neural network, which enables to jointly detect building instance and regularize noisy building boundary shapes from a single satellite imagery. The proposed deep learning method consists of a two-stage object detection network to produce region of interest (RoI) features and a building boundary extraction network using graph models to learn geometric information of the polygon shapes. Extensive experiments show that our model can accomplish multi-tasks of object localization, recognition, semantic labelling and geometric shape extraction simultaneously. In terms of building extraction accuracy, computation efficiency and boundary regularization performance, our model outperforms the state-of-the-art baseline models.
翻訳日:2022-11-17 23:17:44 公開日:2020-06-23
# Audeo:サイレントなパフォーマンスビデオのためのオーディオ生成

Audeo: Audio Generation for a Silent Performance Video ( http://arxiv.org/abs/2006.14348v1 )

ライセンス: Link先を確認
Kun Su, Xiulong Liu, Eli Shlizerman(参考訳) 本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。 視覚的な手がかりからの音楽の生成は難しい問題であり、それが達成可能な目標かどうかは不明だ。 この研究の主な目的は、このような変換の可能性を探求し、視覚イベントと音の関連付けが可能な手がかりとコンポーネントを特定することです。 変換を実現するために、3つのコンポーネントを含む `\textit{audeo}' という完全なパイプラインを構築しました。 まず、鍵盤と演奏者の手の動きの映像フレームを、各時間ステップで押下されたキーを表す各映像フレームの機械式記号表現ピアノロール(roll)に変換する。 次に、時間的相関を含めることで、ロールをオーディオ合成に適応させる。 このステップは、意味のあるオーディオ生成にとって重要なものだ。 最後のステップとして,midiシンセサイザを実装し,現実的な音楽を生成する。 \textit{Audeo} は、わずかな設定制約だけで、動画をスムーズかつ明確にオーディオに変換する。 In the wild' piano performance video 上で \textit{Audeo} を評価し,その生成した楽曲が妥当な音質であり,ポピュラーな楽曲識別ソフトウェアによって高い精度で認識できることを示す。

We present a novel system that gets as an input video frames of a musician playing the piano and generates the music for that video. Generation of music from visual cues is a challenging problem and it is not clear whether it is an attainable goal at all. Our main aim in this work is to explore the plausibility of such a transformation and to identify cues and components able to carry the association of sounds with visual events. To achieve the transformation we built a full pipeline named `\textit{Audeo}' containing three components. We first translate the video frames of the keyboard and the musician hand movements into raw mechanical musical symbolic representation Piano-Roll (Roll) for each video frame which represents the keys pressed at each time step. We then adapt the Roll to be amenable for audio synthesis by including temporal correlations. This step turns out to be critical for meaningful audio generation. As a last step, we implement Midi synthesizers to generate realistic music. \textit{Audeo} converts video to audio smoothly and clearly with only a few setup constraints. We evaluate \textit{Audeo} on `in the wild' piano performance videos and obtain that their generated music is of reasonable audio quality and can be successfully recognized with high precision by popular music identification software.
翻訳日:2022-11-17 23:11:31 公開日:2020-06-23
# 産業・商業ビルにおけるエネルギー分散のための粒子群最適化

Particle Swarm Optimization for Energy Disaggregation in Industrial and Commercial Buildings ( http://arxiv.org/abs/2006.12940v1 )

ライセンス: Link先を確認
Karoline Brucke, Stefan Arens, Jan-Simon Telle, Sunke~Schl\"uters, Benedikt Hanke, Karsten von Maydell, Carsten Agert(参考訳) 本稿では,粒子群最適化のためのエネルギー分散問題の形式化を行い,マルチテナント商業ビルにおける粒子群最適化の適用性を示す。 状態変化行列を用いた分散問題の発達した数学的記述は、エネルギー分散のための非事象に基づく方法群に属する。 この研究は、パワー領域における目的関数の開発と、高次元状態空間における各粒子の位置と速度の記述を含む。 粒子群最適化では, 分散結果の改善, 局所光学に関する最適化器のロバスト性の向上, 計算時間を短縮するために4つの適応が適用されている。 適応は様々な運動定数、粒子の揺動、フレーミング、早期停止基準である。 この作業では、1sの粒度を持つ2つのラベルなしのパワーデータセットを使用します。 したがって、ルート平均二乗誤差やパーセンテージエネルギー誤差などの多重誤差対策に関する良い結果を示すことができるパワー領域において、結果が検証される。

This paper provides a formalization of the energy disaggregation problem for particle swarm optimization and shows the successful application of particle swarm optimization for disaggregation in a multi-tenant commercial building. The developed mathmatical description of the disaggregation problem using a state changes matrix belongs to the group of non-event based methods for energy disaggregation. This work includes the development of an objective function in the power domain and the description of position and velocity of each particle in a high dimensional state space. For the particle swarm optimization, four adaptions have been applied to improve the results of disaggregation, increase the robustness of the optimizer regarding local optima and reduce the computational time. The adaptions are varying movement constants, shaking of particles, framing and an early stopping criterion. In this work we use two unlabelled power datasets with a granularity of 1 s. Therefore, the results are validated in the power domain in which good results regarding multiple error measures like root mean squared error or the percentage energy error can be shown.
翻訳日:2022-11-17 23:11:10 公開日:2020-06-23
# 深層強化学習における多段階手法が過大評価に及ぼす影響

The Effect of Multi-step Methods on Overestimation in Deep Reinforcement Learning ( http://arxiv.org/abs/2006.12692v1 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 強化学習(RL)における多段階(n-step)法は、値関数の表象表現を利用するタスクにおいて、理論的にも経験的にも報酬信号の高速な伝播により、1段階法よりも効率的であることが示されている。 近年、Deep Reinforcement Learning (DRL) の研究により、価値関数とポリシーが深層ニューラルネットワークで表現されるアプリケーションにおいて、学習速度と最終性能を改善する多段階手法が示されている。 しかし、実際にパフォーマンスの向上に寄与しているものについての理解の欠如がある。 本研究では,リプレイバッファからマルチステップ体験をサンプリングするDRLにおける過大評価問題を緩和するためのマルチステップ手法の効果を解析する。 具体的には,Deep Deterministic Policy Gradient (DDPG) 上に構築した多段階DDPG (MDDPG) と,Q値関数の更新ターゲットとして,異なるステップサイズを手動で設定するMixed Multi-step DDPG (MMDDPG) を提案する。 実験の結果,MDDPGとMMDDPGは1ステップバックアップのDDPGよりも過大評価問題の影響を受けにくく,最終性能と学習速度が向上した。 また、近似誤差を低減するために多段階展開を行う方法の長所と短所を議論し、オフラインの多段階メソッドの下位にある過大評価と過大評価のトレードオフを明らかにする。 最後に,アクター-批判的手法の過大評価に対処するために提案される最先端アルゴリズムであるtd3の計算資源ニーズと,最終性能と学習速度が同等であることから,提案手法を比較した。

Multi-step (also called n-step) methods in reinforcement learning (RL) have been shown to be more efficient than the 1-step method due to faster propagation of the reward signal, both theoretically and empirically, in tasks exploiting tabular representation of the value-function. Recently, research in Deep Reinforcement Learning (DRL) also shows that multi-step methods improve learning speed and final performance in applications where the value-function and policy are represented with deep neural networks. However, there is a lack of understanding about what is actually contributing to the boost of performance. In this work, we analyze the effect of multi-step methods on alleviating the overestimation problem in DRL, where multi-step experiences are sampled from a replay buffer. Specifically building on top of Deep Deterministic Policy Gradient (DDPG), we propose Multi-step DDPG (MDDPG), where different step sizes are manually set, and its variant called Mixed Multi-step DDPG (MMDDPG) where an average over different multi-step backups is used as update target of Q-value function. Empirically, we show that both MDDPG and MMDDPG are significantly less affected by the overestimation problem than DDPG with 1-step backup, which consequently results in better final performance and learning speed. We also discuss the advantages and disadvantages of different ways to do multi-step expansion in order to reduce approximation error, and expose the tradeoff between overestimation and underestimation that underlies offline multi-step methods. Finally, we compare the computational resource needs of Twin Delayed Deep Deterministic Policy Gradient (TD3), a state-of-art algorithm proposed to address overestimation in actor-critic methods, and our proposed methods, since they show comparable final performance and learning speed.
翻訳日:2022-11-17 23:10:53 公開日:2020-06-23
# 自動画像分割のための統一領域・エッジ・輪郭モデルの深層学習

Deep Learning of Unified Region, Edge, and Contour Models for Automated Image Segmentation ( http://arxiv.org/abs/2006.12706v1 )

ライセンス: Link先を確認
Ali Hatamizadeh(参考訳) 画像セグメンテーションはコンピュータビジョンにおける基本的な課題であり、医療画像、リモートセンシング、自動運転車など、複数の領域にまたがる応用がある。 近年,畳み込みニューラルネットワーク(cnns)が自動セグメント化パイプラインの設計で注目を集めている。 CNNベースのモデルは、生の画像データから抽象的な特徴を学ぶには十分だが、それらのパフォーマンスは適切なトレーニングデータセットの可用性とサイズに依存する。 さらに、これらのモデルは、しばしばオブジェクト境界の詳細を捉えることができず、見当たらないクラスに一般化できない。 本稿では,これらの問題に対処する新しい手法を考案し,医用画像と主流コンピュータビジョンの完全自動セマンティックセマンティックセグメンテーションのための堅牢な表現学習フレームワークを構築した。 In particular, our contributions include (1) state-of-the-art 2D and 3D image segmentation networks for computer vision and medical image analysis, (2) an end-to-end trainable image segmentation framework that unifies CNNs and active contour models with learnable parameters for fast and robust object delineation, (3) a novel approach for disentangling edge and texture processing in segmentation networks, and (4) a novel few-shot learning model in both supervised settings and semi-supervised settings where synergies between latent and image spaces are leveraged to learn to segment images given limited training data.

Image segmentation is a fundamental and challenging problem in computer vision with applications spanning multiple areas, such as medical imaging, remote sensing, and autonomous vehicles. Recently, convolutional neural networks (CNNs) have gained traction in the design of automated segmentation pipelines. Although CNN-based models are adept at learning abstract features from raw image data, their performance is dependent on the availability and size of suitable training datasets. Additionally, these models are often unable to capture the details of object boundaries and generalize poorly to unseen classes. In this thesis, we devise novel methodologies that address these issues and establish robust representation learning frameworks for fully-automatic semantic segmentation in medical imaging and mainstream computer vision. In particular, our contributions include (1) state-of-the-art 2D and 3D image segmentation networks for computer vision and medical image analysis, (2) an end-to-end trainable image segmentation framework that unifies CNNs and active contour models with learnable parameters for fast and robust object delineation, (3) a novel approach for disentangling edge and texture processing in segmentation networks, and (4) a novel few-shot learning model in both supervised settings and semi-supervised settings where synergies between latent and image spaces are leveraged to learn to segment images given limited training data.
翻訳日:2022-11-17 23:10:05 公開日:2020-06-23
# iffDetector:オブジェクト検出のための推論対応機能フィルタ

iffDetector: Inference-aware Feature Filtering for Object Detection ( http://arxiv.org/abs/2006.12708v1 )

ライセンス: Link先を確認
Mingyuan Mao, Yuxin Tian, Baochang Zhang, Qixiang Ye, Wanquan Liu, Guodong Guo, David Doermann(参考訳) 現代のCNNベースのオブジェクト検出器は、トレーニング中に機能設定に焦点を当てるが、推論時に機能最適化を無視することが多い。 本稿では,訓練段階と推論段階の両方において特徴量を高め,背景雑音を抑制する新しい特徴最適化手法を提案する。 我々は,現代の検出器と容易に組み合わせることができる汎用的推論・認識機能フィルタリング(iff)モジュールを導入する。 フィードバックのない従来のオープンループ機能計算手法とは異なり、IFFモジュールは高レベルのセマンティクスを活用してクローズドループ最適化を行い、畳み込み機能を強化する。 フーリエ変換解析を適用することで、IFFモジュールは理論的に特徴学習の安定性を保証する負のフィードバックとして機能することを示す。 IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。 PASCAL VOCとMS COCOデータセットの実験は、私たちのiffDetectorが、最先端のメソッドをかなりのマージンで一貫して上回っていることを示している。

Modern CNN-based object detectors focus on feature configuration during training but often ignore feature optimization during inference. In this paper, we propose a new feature optimization approach to enhance features and suppress background noise in both the training and inference stages. We introduce a generic Inference-aware Feature Filtering (IFF) module that can easily be combined with modern detectors, resulting in our iffDetector. Unlike conventional open-loop feature calculation approaches without feedback, the IFF module performs closed-loop optimization by leveraging high-level semantics to enhance the convolutional features. By applying Fourier transform analysis, we demonstrate that the IFF module acts as a negative feedback that theoretically guarantees the stability of feature learning. IFF can be fused with CNN-based object detectors in a plug-and-play manner with negligible computational cost overhead. Experiments on the PASCAL VOC and MS COCO datasets demonstrate that our iffDetector consistently outperforms state-of-the-art methods by significant margins\footnote{The test code and model are anonymously available in https://github.com/anonymous2020new/iffDetector }.
翻訳日:2022-11-17 23:09:45 公開日:2020-06-23
# 広帯域無監督単眼深度推定

Increased-Range Unsupervised Monocular Depth Estimation ( http://arxiv.org/abs/2006.12791v1 )

ライセンス: Link先を確認
Saad Imran, Muhammad Umar Karim Khan, Sikander Bin Mukarram, Chong-Min Kyung(参考訳) 教師なしのディープラーニング手法は、単一画像深度推定に有望な性能を示した。 これらの手法のほとんどは双眼鏡ステレオペアを自己スーパービジョンに使用するため、深度範囲は一般に限られている。 小ベースラインステレオペアは奥行き範囲は小さいが、オクルージョンをうまく扱っている。 一方,広ベースリグで取得したステレオ画像は近距離では咬合関連誤差を生じさせるが,遠距離では深度を推定する。 本研究では,小規模ベースラインと広域ベースラインの利点を統合することを提案する。 3つの水平方向のビューを用いてネットワークをトレーニングすることにより、近距離と遠距離の両方で正確な深度予測が得られる。 我々の戦略は、単一の画像から複数のベースライン深さを推定できる。 これは、2つ以上のカメラを使用する従来のマルチベースラインシステムとは異なる。 定性的および定量的な結果は、従来のステレオベース単分子法よりもマルチベースライン法の方が優れた性能を示す。 深さ0.1mから80mの範囲では,monodepth2と比較して深さの絶対相対誤差が24%減少する。 このアプローチは1つのNvidia1080 GPU上で毎秒21フレームを提供し、実用的なアプリケーションに役立ちます。

Unsupervised deep learning methods have shown promising performance for single-image depth estimation. Since most of these methods use binocular stereo pairs for self-supervision, the depth range is generally limited. Small-baseline stereo pairs provide small depth range but handle occlusions well. On the other hand, stereo images acquired with a wide-baseline rig cause occlusions-related errors in the near range but estimate depth well in the far range. In this work, we propose to integrate the advantages of the small and wide baselines. By training the network using three horizontally aligned views, we obtain accurate depth predictions for both close and far ranges. Our strategy allows to infer multi-baseline depth from a single image. This is unlike previous multi-baseline systems which employ more than two cameras. The qualitative and quantitative results show the superior performance of multi-baseline approach over previous stereo-based monocular methods. For 0.1 to 80 meters depth range, our approach decreases the absolute relative error of depth by 24% compared to Monodepth2. Our approach provides 21 frames per second on a single Nvidia1080 GPU, making it useful for practical applications.
翻訳日:2022-11-17 23:08:34 公開日:2020-06-23
# 非凸構造相検索

Non-Convex Structured Phase Retrieval ( http://arxiv.org/abs/2006.13298v1 )

ライセンス: Link先を確認
Namrata Vaswani (Iowa State University)(参考訳) 位相サーチ(英: phase retrieval、pr)は、光学、x線結晶構造解析、フーリエptychography、サブディフュージョンイメージング、天文学など、多くの信号・画像取得領域で発生する問題である。 これらの領域のそれぞれにおいて、取得システムの物理は、信号や画像の特定の線形射影の大きさ(強度)だけを測定することができると規定する。 未知の信号に対する仮定がなければ、正確なリカバリは必ずしも完全な測定セットを必要とする。 測定/サンプルの複雑さを減らす唯一の方法は、未知の信号/イメージに余分な仮定を置くことである。 多くの自然信号や信号列に本質的に存在する構造を利用して、単純で実用的な仮定の集合を得る。 一般的に用いられる2つの構造仮定 (i)所定の信号/画像のスパーシティ (ii)信号/画像の時系列などの集合によって形成された行列上の低階モデル。 どちらもサンプル効率のよい方法でPR問題を解くために研究されている。 この記事では、単純な仮定の下でのサンプル複雑性保証を伴う非凸アプローチに注目して、この作業について説明する。 また,近年の文献で用いられている構造的仮定についても簡潔に述べる。

Phase retrieval (PR), also sometimes referred to as quadratic sensing, is a problem that occurs in numerous signal and image acquisition domains ranging from optics, X-ray crystallography, Fourier ptychography, sub-diffraction imaging, and astronomy. In each of these domains, the physics of the acquisition system dictates that only the magnitude (intensity) of certain linear projections of the signal or image can be measured. Without any assumptions on the unknown signal, accurate recovery necessarily requires an over-complete set of measurements. The only way to reduce the measurements/sample complexity is to place extra assumptions on the unknown signal/image. A simple and practically valid set of assumptions is obtained by exploiting the structure inherently present in many natural signals or sequences of signals. Two commonly used structural assumptions are (i) sparsity of a given signal/image or (ii) a low rank model on the matrix formed by a set, e.g., a time sequence, of signals/images. Both have been explored for solving the PR problem in a sample-efficient fashion. This article describes this work, with a focus on non-convex approaches that come with sample complexity guarantees under simple assumptions. We also briefly describe other different types of structural assumptions that have been used in recent literature.
翻訳日:2022-11-17 23:02:41 公開日:2020-06-23
# 近似行列乗算時間におけるロバストガウス共分散推定

Robust Gaussian Covariance Estimation in Nearly-Matrix Multiplication Time ( http://arxiv.org/abs/2006.13312v1 )

ライセンス: Link先を確認
Jerry Li, Guanghao Ye(参考訳) ロバスト共分散推定は、高次元統計学におけるよく研究された問題である:$d$-dimensional Gaussian $\mathcal{N}(\boldsymbol{0}, \Sigma)$から$N$のサンプルが与えられるが、サンプルの$\varepsilon$-fractionが任意に破損している場合、出力$\widehat{\Sigma}$$$$\mathcal{N}(\boldsymbol{0}, \Sigma)$と$\mathcal{N}(\boldsymbol{0}, \widehat{\Sigma})$$の合計変動距離を最小化する。 これは \emph{Mahalanobis norm} として知られるフロベニウスノルムの自然なアフィン不変変種で $\Sigma$ を学ぶことに対応する。 Chengらによる以前の研究は、$N = \Omega (d^2 / \varepsilon^2)$のサンプルが与えられたとき、$O(\varepsilon \log 1 / \varepsilon)$のほぼ最適誤差を達成し、さらに、それらのアルゴリズムは時間$\widetilde{O}(T(N, d) \log \kappa / \mathrm{poly} (\varepsilon)$で実行され、$T(N, d)$はその変換によって$d \times N$行列を乗算するのにかかる時間である。 もし$\varepsilon$が比較的小さい場合、実行時の$/\varepsilon$に対する多項式依存は、非常に大きい。 本稿では,同じ統計的保証を達成するが,時間$\widetilde{o} (t(n, d) \log \kappa)$ で実行される新しいアルゴリズムを示す。 特に、ランタイムは$\varepsilon$に依存していません。 しかし、$\sigma$ が合理的に条件付けされた場合、我々のランタイムは、外れ値のない共分散推定の最も高速なアルゴリズムのそれと一致し、多対数因子によって、本質的に「自由」な堅牢性が得られることを示している。

Robust covariance estimation is the following, well-studied problem in high dimensional statistics: given $N$ samples from a $d$-dimensional Gaussian $\mathcal{N}(\boldsymbol{0}, \Sigma)$, but where an $\varepsilon$-fraction of the samples have been arbitrarily corrupted, output $\widehat{\Sigma}$ minimizing the total variation distance between $\mathcal{N}(\boldsymbol{0}, \Sigma)$ and $\mathcal{N}(\boldsymbol{0}, \widehat{\Sigma})$. This corresponds to learning $\Sigma$ in a natural affine-invariant variant of the Frobenius norm known as the \emph{Mahalanobis norm}. Previous work of Cheng et al demonstrated an algorithm that, given $N = \Omega (d^2 / \varepsilon^2)$ samples, achieved a near-optimal error of $O(\varepsilon \log 1 / \varepsilon)$, and moreover, their algorithm ran in time $\widetilde{O}(T(N, d) \log \kappa / \mathrm{poly} (\varepsilon))$, where $T(N, d)$ is the time it takes to multiply a $d \times N$ matrix by its transpose, and $\kappa$ is the condition number of $\Sigma$. When $\varepsilon$ is relatively small, their polynomial dependence on $1/\varepsilon$ in the runtime is prohibitively large. In this paper, we demonstrate a novel algorithm that achieves the same statistical guarantees, but which runs in time $\widetilde{O} (T(N, d) \log \kappa)$. In particular, our runtime has no dependence on $\varepsilon$. When $\Sigma$ is reasonably conditioned, our runtime matches that of the fastest algorithm for covariance estimation without outliers, up to poly-logarithmic factors, showing that we can get robustness essentially "for free."
翻訳日:2022-11-17 23:02:24 公開日:2020-06-23
# ビデオ誘導機械翻訳チャレンジ2020におけるキーフレーム分割と位置符号化

Keyframe Segmentation and Positional Encoding for Video-guided Machine Translation Challenge 2020 ( http://arxiv.org/abs/2006.12799v1 )

ライセンス: Link先を確認
Tosho Hirasawa and Zhishen Yang and Mamoru Komachi and Naoaki Okazaki(参考訳) 映像とテキストを接接して高品質なテキスト翻訳を実現することを目的としたマルチモーダルニューラルマシン翻訳タスクの1つとしてビデオ誘導機械翻訳 本稿では,ビデオ誘導機械翻訳チャレンジ2020に近づいた映像誘導機械翻訳システムについて紹介する。 本システムは、キーフレームに基づく映像特徴抽出と、映像特徴位置符号化を用いる。 評価段階では,36.60コーパスレベルbleu-4を記録し,ビデオガイド機械翻訳チャレンジ2020で1位となった。

Video-guided machine translation as one of multimodal neural machine translation tasks targeting on generating high-quality text translation by tangibly engaging both video and text. In this work, we presented our video-guided machine translation system in approaching the Video-guided Machine Translation Challenge 2020. This system employs keyframe-based video feature extractions along with the video feature positional encoding. In the evaluation phase, our system scored 36.60 corpus-level BLEU-4 and achieved the 1st place on the Video-guided Machine Translation Challenge 2020.
翻訳日:2022-11-17 23:00:57 公開日:2020-06-23
# クラスタリングによるFew-Shot分類のための帰納的非教師付きドメイン適応

Inductive Unsupervised Domain Adaptation for Few-Shot Classification via Clustering ( http://arxiv.org/abs/2006.12816v1 )

ライセンス: Link先を確認
Xin Cong, Bowen Yu, Tingwen Liu, Shiyao Cui, Hengzhu Tang, Bin Wang(参考訳) ショットの分類は、多様なドメインに適応する必要がある場合に苦労する傾向がある。 領域間の重複しないラベル空間のため、従来のドメイン適応の性能は限られている。 以前の作業は、多くの現実世界のアプリケーションでは制限がかかりすぎるテストデータの完全なセットへのアクセスを仮定することで、トランスダクティブな方法でこの問題に取り組む。 本稿では、クラスタリングによるFew-shot分類のためのドメイン適応性能を改善するために、誘導型フレームワークDaFeCを導入することでこの問題に対処する。 まず,対象領域からラベルなしデータの特徴を導出するための表現抽出器を構築し(テストデータを必要としない),それをクラスタマイナにグループ化する。 生成された擬似ラベル付きデータとラベル付きソースドメインデータは、少数ショット分類器のパラメータを更新するための監督として使用される。 高品質な擬似ラベルを導出するために, 類似性エントロピー最小化と, コサインアニーリング戦略を組み合わせた逆分布アライメントにより, ターゲット領域のより良い特徴を学習するためのクラスタリング促進機構を提案する。 FewRel 2.0データセットで実験が行われる。 本手法は,4つの撮影条件下で,絶対利得(分類精度)が4.95%,9.55%,3.99%,11.62%であった。

Few-shot classification tends to struggle when it needs to adapt to diverse domains. Due to the non-overlapping label space between domains, the performance of conventional domain adaptation is limited. Previous work tackles the problem in a transductive manner, by assuming access to the full set of test data, which is too restrictive for many real-world applications. In this paper, we set out to tackle this issue by introducing a inductive framework, DaFeC, to improve Domain adaptation performance for Few-shot classification via Clustering. We first build a representation extractor to derive features for unlabeled data from the target domain (no test data is necessary) and then group them with a cluster miner. The generated pseudo-labeled data and the labeled source-domain data are used as supervision to update the parameters of the few-shot classifier. In order to derive high-quality pseudo labels, we propose a Clustering Promotion Mechanism, to learn better features for the target domain via Similarity Entropy Minimization and Adversarial Distribution Alignment, which are combined with a Cosine Annealing Strategy. Experiments are performed on the FewRel 2.0 dataset. Our approach outperforms previous work with absolute gains (in classification accuracy) of 4.95%, 9.55%, 3.99% and 11.62%, respectively, under four few-shot settings.
翻訳日:2022-11-17 23:00:49 公開日:2020-06-23
# 意味解析のためのドメイン適応

Domain Adaptation for Semantic Parsing ( http://arxiv.org/abs/2006.13071v1 )

ライセンス: Link先を確認
Zechang Li, Yuxuan Lai, Yansong Feng, Dongyan Zhao(参考訳) 近年、セマンティックパーシングがコミュニティで注目を集めている。 多くのニューラルモデリングの取り組みは性能を大幅に改善したが、それでもデータ不足の問題に苦しんでいる。 本稿では,対象領域内のアノテートデータがソース領域に比べてはるかに少ない領域適応のための新しい意味的パーサを提案する。 我々のセマンティックパーザは、2段階の粗大なフレームワークから恩恵を受けており、ドメイン不変量とドメイン固有情報に焦点をあてる2段階の異なる正確な処理を提供できる。 粗い段階では、新しいドメイン識別成分とドメイン関連性の注意がモデルに転移可能なドメイン一般構造を学ぶよう促す。 ファインステージでは、モデルはドメイン関連の詳細に集中するように導かれます。 ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。 さらに,本モデルでは,対象ドメインのトレーニングインスタンスがはるかに少ない場合でも,対象ドメインと対象ドメインの差を捉えるために,限られたターゲットデータを利用することができることを示す。

Recently, semantic parsing has attracted much attention in the community. Although many neural modeling efforts have greatly improved the performance, it still suffers from the data scarcity issue. In this paper, we propose a novel semantic parser for domain adaptation, where we have much fewer annotated data in the target domain compared to the source domain. Our semantic parser benefits from a two-stage coarse-to-fine framework, thus can provide different and accurate treatments for the two stages, i.e., focusing on domain invariant and domain specific information, respectively. In the coarse stage, our novel domain discrimination component and domain relevance attention encourage the model to learn transferable domain general structures. In the fine stage, the model is guided to concentrate on domain related details. Experiments on a benchmark dataset show that our method consistently outperforms several popular domain adaptation strategies. Additionally, we show that our model can well exploit limited target data to capture the difference between the source and target domain, even when the target domain has far fewer training instances.
翻訳日:2022-11-17 23:00:24 公開日:2020-06-23
# 単語インダクションのためのニューラルネットワークモデルの組み合わせ

Combining Neural Language Models for WordSense Induction ( http://arxiv.org/abs/2006.13200v1 )

ライセンス: Link先を確認
Nikolay Arefyev, Boris Sheludko, and Tatiana Aleksashina(参考訳) 単語感覚誘導(WSI)は、この単語の表現された感覚に応じて曖昧な単語の発生をグループ化する問題である。 最近、ニューラルネットワークモデルを用いて、特定の文脈における曖昧な単語の代用品を生成できる新しいアプローチが提案され、これらの代用品から構築された単語の空白ベクトルをクラスタ化する。 本研究では、このアプローチをロシア語に適用し、2つの方法で改善する。 まず、左右のコンテキストを結合し、より良い置換を生成する方法を提案する。 第2に,不明瞭な単語のクラスタ数を固定する代わりに,各単語に対して個々のクラスタ数を選択する手法を提案する。 我々のアプローチは新たな最先端レベルを確立し、ロシアの2つのRASE 2018データセットにおけるWSIの現在の最良の結果を大きく改善しました。

Word sense induction (WSI) is the problem of grouping occurrences of an ambiguous word according to the expressed sense of this word. Recently a new approach to this task was proposed, which generates possible substitutes for the ambiguous word in a particular context using neural language models, and then clusters sparse bag-of-words vectors built from these substitutes. In this work, we apply this approach to the Russian language and improve it in two ways. First, we propose methods of combining left and right contexts, resulting in better substitutes generated. Second, instead of fixed number of clusters for all ambiguous words we propose a technique for selecting individual number of clusters for each word. Our approach established new state-of-the-art level, improving current best results of WSI for the Russian language on two RUSSE 2018 datasets by a large margin.
翻訳日:2022-11-17 23:00:08 公開日:2020-06-23
# Gaze を用いた参照と非参照の分類

Classifying Referential and Non-referential It Using Gaze ( http://arxiv.org/abs/2006.13327v1 )

ライセンス: Link先を確認
Victoria Yaneva, Le An Ha, Richard Evans, and Ruslan Mitkov(参考訳) テキストを処理する場合、人間と機械は代名詞の異なる用途の間で曖昧さを和らげなければならない。 本稿では、視線追跡データを用いて、人間のあいまいさを学習する。 私たちはこの知識を自動分類の改善に利用します。 我々は,視線データとPOSタガーを用いて共通のベースラインを大幅に上回り,その3つのカテゴリを言語学的アプローチに匹敵する精度で分類できることを示す。 さらに、特定の視線特徴の識別力は、人間が代名詞を処理する方法を知らせるものであり、それは私たちの知る限り、自然読取課題のデータを用いて探索されていない。

When processing a text, humans and machines must disambiguate between different uses of the pronoun it, including non-referential, nominal anaphoric or clause anaphoric ones. In this paper, we use eye-tracking data to learn how humans perform this disambiguation. We use this knowledge to improve the automatic classification of it. We show that by using gaze data and a POS-tagger we are able to significantly outperform a common baseline and classify between three categories of it with an accuracy comparable to that of linguisticbased approaches. In addition, the discriminatory power of specific gaze features informs the way humans process the pronoun, which, to the best of our knowledge, has not been explored using data from a natural reading task.
翻訳日:2022-11-17 22:59:52 公開日:2020-06-23
# 変圧器アンサンブルを用いた多言語Grapheme-to-Phoneme変換の一モデル

One Model to Pronounce Them All: Multilingual Grapheme-to-Phoneme Conversion With a Transformer Ensemble ( http://arxiv.org/abs/2006.13343v1 )

ライセンス: Link先を確認
Kaili Vesik (1), Muhammad Abdul-Mageed (1), Miikka Silfverberg (1) ((1) The University of British Columbia)(参考訳) G2P変換の課題は音声認識と合成の両方において重要である。 他の音声や言語処理タスクと同様に、小規模のトレーニングデータしか利用できないシナリオでは、g2pモデルの学習が難しい。 モデルアンサンブルを多言語トランスフォーマーと自己学習に応用し、15言語のための高効率なG2Pソリューションを開発するための簡単なアプローチについて述べる。 我々のモデルは、G2Pに焦点を当てたSIGMORPHON 2020 Shared Task 1への参加の一環として開発されました。 最良モデルでは14.99ワード誤り率(WER)と3.30音素誤り率(PER)が達成され,共有タスク競合ベースラインよりも大幅に改善された。

The task of grapheme-to-phoneme (G2P) conversion is important for both speech recognition and synthesis. Similar to other speech and language processing tasks, in a scenario where only small-sized training data are available, learning G2P models is challenging. We describe a simple approach of exploiting model ensembles, based on multilingual Transformers and self-training, to develop a highly effective G2P solution for 15 languages. Our models are developed as part of our participation in the SIGMORPHON 2020 Shared Task 1 focused at G2P. Our best models achieve 14.99 word error rate (WER) and 3.30 phoneme error rate (PER), a sizeable improvement over the shared task competitive baselines.
翻訳日:2022-11-17 22:59:39 公開日:2020-06-23
# 実世界データを用いたシーン解析のための非パラメトリック空間制約付き局所前処理

Non-parametric spatially constrained local prior for scene parsing on real-world data ( http://arxiv.org/abs/2006.12874v1 )

ライセンス: Link先を確認
Ligang Zhang(参考訳) シーン解析はシーン画像中の各ピクセルのオブジェクトカテゴリを認識することを目的としており、画像コンテンツ理解やコンピュータビジョンアプリケーションにおいて中心的な役割を果たす。 しかし、制約のない現実世界のデータからの正確なシーン解析は依然として難しい課題である。 本稿では,実データを用いたシーン解析のための非パラメトリック空間制約付き局所前処理(sclp)を提案する。 与えられたクエリ画像に対して、非パラメトリックSCLPは、まず、最も類似したトレーニング画像のサブセットをクエリ画像に取得し、次いで、空間画像ブロックと、取得したサブセットから隣接スーパーピクセル間のオブジェクト共起統計に関する事前情報を収集することにより学習される。 SCLPは,問合せ画像におけるオブジェクト間の相関関係の長期的および短距離的コンテキストを捉え,従来の視覚的特徴と効果的に統合することにより,分類結果を洗練することができる。 SIFT Flow と PASCAL-Context ベンチマークデータセットを用いた実験により,超画素レベルの視覚特徴と組み合わせた非パラメトリックSCLPが,最先端のアプローチと比較して最高の性能の1つを達成できることが示された。

Scene parsing aims to recognize the object category of every pixel in scene images, and it plays a central role in image content understanding and computer vision applications. However, accurate scene parsing from unconstrained real-world data is still a challenging task. In this paper, we present the non-parametric Spatially Constrained Local Prior (SCLP) for scene parsing on realistic data. For a given query image, the non-parametric SCLP is learnt by first retrieving a subset of most similar training images to the query image and then collecting prior information about object co-occurrence statistics between spatial image blocks and between adjacent superpixels from the retrieved subset. The SCLP is powerful in capturing both long- and short-range context about inter-object correlations in the query image and can be effectively integrated with traditional visual features to refine the classification results. Our experiments on the SIFT Flow and PASCAL-Context benchmark datasets show that the non-parametric SCLP used in conjunction with superpixel-level visual features achieves one of the top performance compared with state-of-the-art approaches.
翻訳日:2022-11-17 22:54:07 公開日:2020-06-23
# 幾何学制約キーポイントによる単眼RGB画像からの車両のリアルタイム検出

Single-Shot 3D Detection of Vehicles from Monocular RGB Images via Geometry Constrained Keypoints in Real-Time ( http://arxiv.org/abs/2006.13084v1 )

ライセンス: Link先を確認
Nils G\"ahlert and Jun-Jun Wan and Nicolas Jourdan and Jan Finkbeiner and Uwe Franke and Joachim Denzler(参考訳) 本稿では,単眼RGB画像における車両検出のための3次元単発物体検出手法を提案する。 提案手法は,回帰パラメータと分類パラメータの追加を予測し,ランタイムを純粋な2次元オブジェクト検出に近づけることで,2次元検出を3次元空間に持ち上げる。 追加パラメータは、幾何学的制約の下でネットワーク内の3次元境界ボックスキーポイントに変換される。 提案手法は,画像平面内の特定のキーポイントに着目し,物体の向きに関するラベル付き基底真理データによる監督なしに3次元の回転角を全て含む完全な3次元記述を特徴とする。 提案手法は, 計算オーバーヘッドの少ない最新のオブジェクト検出フレームワークと組み合わせることができるが, 3次元境界ボックスの予測のためにSSDの拡張を実証する。 我々は、自律運転のための異なるデータセットを用いてアプローチを検証し、挑戦的なKITTI 3Dオブジェクト検出と新しいnuScenesオブジェクト検出ベンチマークを用いて評価する。 両方のベンチマークで競争力のある結果を得る一方で、テストされたデータセットと画像解像度で20fps以上の速度で現在の最先端のメソッドを上回っています。

In this paper we propose a novel 3D single-shot object detection method for detecting vehicles in monocular RGB images. Our approach lifts 2D detections to 3D space by predicting additional regression and classification parameters and hence keeping the runtime close to pure 2D object detection. The additional parameters are transformed to 3D bounding box keypoints within the network under geometric constraints. Our proposed method features a full 3D description including all three angles of rotation without supervision by any labeled ground truth data for the object's orientation, as it focuses on certain keypoints within the image plane. While our approach can be combined with any modern object detection framework with only little computational overhead, we exemplify the extension of SSD for the prediction of 3D bounding boxes. We test our approach on different datasets for autonomous driving and evaluate it using the challenging KITTI 3D Object Detection as well as the novel nuScenes Object Detection benchmarks. While we achieve competitive results on both benchmarks we outperform current state-of-the-art methods in terms of speed with more than 20 FPS for all tested datasets and image resolutions.
翻訳日:2022-11-17 22:53:47 公開日:2020-06-23
# 畳み込みニューラルネットワークを用いたCTスキャンからのCOVID-19自動検出

Automated Detection of COVID-19 from CT Scans Using Convolutional Neural Networks ( http://arxiv.org/abs/2006.13212v1 )

ライセンス: Link先を確認
Rohit Lokwani, Ashrika Gaikwad, Viraj Kulkarni, Aniruddha Pant, Amit Kharat(参考訳) COVID-19はSARS-CoV(2003年)と同様の呼吸器障害を引き起こす感染症である。 現在、swabサンプルは診断に使用されている。 最も一般的な検査法はRT-PCR法であり、特異性が高いが可変感度を有する。 AIベースの検出は、この欠点を克服する能力を持っている。 そこで本研究では,胸部ctスキャンを用いて肺炎の診断を行う方法を提案する。 私たちは、個々のCTスライスとして利用可能なオープンソースイメージと、プライベートなインド病院からのフルCTスキャンを使って、モデルをトレーニングしています。 U-Netアーキテクチャを用いて2次元セグメンテーションモデルを構築し,感染領域をマークアウトして出力する。 感度は96.428% (95% CI: 88%-100%)、特異度は88.39% (95% CI: 82%-94%)である。 さらに、スライスレベルの予測をスキャンレベルに変換するロジックを導出し、偽陽性を減らすのに役立ちます。

COVID-19 is an infectious disease that causes respiratory problems similar to those caused by SARS-CoV (2003). Currently, swab samples are being used for its diagnosis. The most common testing method used is the RT-PCR method, which has high specificity but variable sensitivity. AI-based detection has the capability to overcome this drawback. In this paper, we propose a prospective method wherein we use chest CT scans to diagnose the patients for COVID-19 pneumonia. We use a set of open-source images, available as individual CT slices, and full CT scans from a private Indian Hospital to train our model. We build a 2D segmentation model using the U-Net architecture, which gives the output by marking out the region of infection. Our model achieves a sensitivity of 96.428% (95% CI: 88%-100%) and a specificity of 88.39% (95% CI: 82%-94%). Additionally, we derive a logic for converting our slice-level predictions to scan-level, which helps us reduce the false positives.
翻訳日:2022-11-17 22:53:08 公開日:2020-06-23
# 2012年にCOVID-19はあったか? 類似の指標を用いた診断におけるAIの課題

Was there COVID-19 back in 2012? Challenge for AI in Diagnosis with Similar Indications ( http://arxiv.org/abs/2006.13262v1 )

ライセンス: Link先を確認
Imon Banerjee, Priyanshu Sinha, Saptarshi Purkayastha, Nazanin Mashhaditafreshi, Amara Tariq, Jiwoong Jeong, Hari Trivedi, Judy W. Gichoya(参考訳) 目的:近年の新型コロナウイルス感染拡大以降,胸部X線写真に深層学習に基づく画像処理を適用する研究が盛んに行われている。 CXR COVID-19診断のための2つのトップモデルの性能を外部データセットで検証し、モデルの一般化性を評価する。 方法:本稿では,既存の深層学習モデルの新型コロナウイルス診断における効率と適用性について論じる。 我々は、2020年1月から5月までにEMORY病院から収集された3つの公開データセットで評価されたCOVID-NetとCoroNetの2つの一般的なモデルの結果を提供する。 結果: ChexPert (55.3%) と MIMIC-CXR (23.4%) のデータセットには、COVID-Net に対する大きな偽陽性率 (FPR) が存在する。 EMORYデータセットでは、COVID-Netの感度は61.4%、スコア0.54F1、精度0.49である。 CoroNetモデルのFPRは、COVID-NetEMORY(9.1%)、ChexPert(1.3%)、ChestX-ray14(0.02%)、MIMIC-CXR(0.06%)と比較して、すべてのデータセットで大幅に低い。 結論: モデルは内部データセットの優れたパフォーマンスを報告したが, 外部データでは性能が劇的に悪化することを確認した。 これは、適切な管理患者や基底的真理ラベルの欠如による過剰フィットモデルなど、いくつかの原因による可能性が高い。 第4の施設データセットはRT-PCRでラベル付けされ,X線所見がなければ陽性であった。 したがって、臨床および放射線画像データの融合モデルは、より良い性能と一般化をもたらす可能性がある。

Purpose: Since the recent COVID-19 outbreak, there has been an avalanche of research papers applying deep learning based image processing to chest radiographs for detection of the disease. To test the performance of the two top models for CXR COVID-19 diagnosis on external datasets to assess model generalizability. Methods: In this paper, we present our argument regarding the efficiency and applicability of existing deep learning models for COVID-19 diagnosis. We provide results from two popular models - COVID-Net and CoroNet evaluated on three publicly available datasets and an additional institutional dataset collected from EMORY Hospital between January and May 2020, containing patients tested for COVID-19 infection using RT-PCR. Results: There is a large false positive rate (FPR) for COVID-Net on both ChexPert (55.3%) and MIMIC-CXR (23.4%) dataset. On the EMORY Dataset, COVID-Net has 61.4% sensitivity, 0.54 F1-score and 0.49 precision value. The FPR of the CoroNet model is significantly lower across all the datasets as compared to COVID-Net - EMORY(9.1%), ChexPert (1.3%), ChestX-ray14 (0.02%), MIMIC-CXR (0.06%). Conclusion: The models reported good to excellent performance on their internal datasets, however we observed from our testing that their performance dramatically worsened on external data. This is likely from several causes including overfitting models due to lack of appropriate control patients and ground truth labels. The fourth institutional dataset was labeled using RT-PCR, which could be positive without radiographic findings and vice versa. Therefore, a fusion model of both clinical and radiographic data may have better performance and generalization.
翻訳日:2022-11-17 22:52:30 公開日:2020-06-23
# Sparse Attribute Transferによる多くのドメインによる画像間マッピング

Image-to-image Mapping with Many Domains by Sparse Attribute Transfer ( http://arxiv.org/abs/2006.13291v1 )

ライセンス: Link先を確認
Matthew Amodio, Rim Assouel, Victor Schmidt, Tristan Sylvain, Smita Krishnaswamy, Yoshua Bengio(参考訳) 教師なし画像-画像変換は、2つの領域間の2つのマッピングを、ポイント間の既知のペアワイズ対応なしで学習する。 現在の慣例では、このタスクにサイクル一貫性のあるganでアプローチする: ジェネレータを使用して、ジェネレータがターゲットドメインにマッチするようにイメージを変更するように促し、ジェネレータを別のマッピングで反転させるようにトレーニングする。 ペアの逆関数で終わることは良い結果であるが、トレーニング中にこの制限を常に強制することは、効果的なモデリングを妨げる可能性がある。 本稿では,認知神経科学の最近の研究から,意識に対応する表現に先行するアーキテクチャを提案することによる動機づけとして,ジェネレータが潜在層で単純なスパース変換を行うように直接制限する手法を提案する。 生物学的に動機付けられたアプローチは、潜在空間でハイレベルな抽象概念を分離することで、トランスフォーメーションにもっと適した表現へとつながります。 我々は、多くの異なるドメインを持つ画像から画像へのドメイン変換が、アーキテクチャ的に制約されたシンプルな変換によってより効果的に学習できることを実証する。

Unsupervised image-to-image translation consists of learning a pair of mappings between two domains without known pairwise correspondences between points. The current convention is to approach this task with cycle-consistent GANs: using a discriminator to encourage the generator to change the image to match the target domain, while training the generator to be inverted with another mapping. While ending up with paired inverse functions may be a good end result, enforcing this restriction at all times during training can be a hindrance to effective modeling. We propose an alternate approach that directly restricts the generator to performing a simple sparse transformation in a latent layer, motivated by recent work from cognitive neuroscience suggesting an architectural prior on representations corresponding to consciousness. Our biologically motivated approach leads to representations more amenable to transformation by disentangling high-level abstract concepts in the latent space. We demonstrate that image-to-image domain translation with many different domains can be learned more effectively with our architecturally constrained, simple transformation than with previous unconstrained architectures that rely on a cycle-consistency loss.
翻訳日:2022-11-17 22:52:00 公開日:2020-06-23
# MR画像分割のための現実的逆データ拡張

Realistic Adversarial Data Augmentation for MR Image Segmentation ( http://arxiv.org/abs/2006.13322v1 )

ライセンス: Link先を確認
Chen Chen, Chen Qin, Huaqi Qiu, Cheng Ouyang, Shuo Wang, Liang Chen, Giacomo Tarroni, Wenjia Bai, Daniel Rueckert(参考訳) ニューラルネットワークに基づくアプローチは、様々な医用画像分割タスクにおいて高い精度を達成することができる。 しかし、一般的には教師付き学習のために大きなラベル付きデータセットを必要とする。 大規模な医療データセットの取得と手作業によるラベル付けは費用がかかり、データ共有やプライバシの問題のために実用的でない場合もある。 本研究では,医療画像分割のためのニューラルネットワークを訓練するための逆データ拡張手法を提案する。 MR画像の一般的な種類のアーチファクトが原因で生じる強度不均一性をモデル化する、可視かつ現実的な信号破壊を生成する。 提案手法は生成ネットワークに依存しず,教師付き学習と半教師付き学習の両方において汎用セグメンテーションネットワークのプラグインモジュールとして使用できる。 心臓MRIを用いて、そのようなアプローチはモデルの一般化能力と堅牢性を向上し、低データシナリオにおいて大きな改善をもたらすことを示す。

Neural network-based approaches can achieve high accuracy in various medical image segmentation tasks. However, they generally require large labelled datasets for supervised learning. Acquiring and manually labelling a large medical dataset is expensive and sometimes impractical due to data sharing and privacy issues. In this work, we propose an adversarial data augmentation method for training neural networks for medical image segmentation. Instead of generating pixel-wise adversarial attacks, our model generates plausible and realistic signal corruptions, which models the intensity inhomogeneities caused by a common type of artefacts in MR imaging: bias field. The proposed method does not rely on generative networks, and can be used as a plug-in module for general segmentation networks in both supervised and semi-supervised learning. Using cardiac MR imaging we show that such an approach can improve the generalization ability and robustness of models as well as provide significant improvements in low-data scenarios.
翻訳日:2022-11-17 22:51:38 公開日:2020-06-23
# 心mriセグメンテーションのための深部生成モデルに基づく品質制御

Deep Generative Model-based Quality Control for Cardiac MRI Segmentation ( http://arxiv.org/abs/2006.13379v1 )

ライセンス: Link先を確認
Shuo Wang, Giacomo Tarroni, Chen Qin, Yuanhan Mo, Chengliang Dai, Chen Chen, Ben Glocker, Yike Guo, Daniel Rueckert and Wenjia Bai(参考訳) 近年、畳み込みニューラルネットワークは様々な医療画像セグメンテーションタスクにおいて有望な性能を示した。 しかし、訓練されたセグメンテーションモデルが実際の臨床の世界に展開されると、モデルは最適に動作しない。 大きな課題は、画質低下やドメインシフトの問題によって生じる、品質の低いセグメンテーションである。 臨床医に悪いセグメンテーションやフィードバックを検知する自動品質管理手法を開発するのは、適時必要である。 本稿では,心臓MRI領域の品質管理のための新しいモデルベースフレームワークを提案する。 まず、生成モデルを用いて高品質な画像セグメンテーションペアの多様体を学習する。 与えられたテストセグメンテーションの品質は、その射影から良質多様体への差を評価することによって評価される。 特に、射影は潜在空間における反復探索によって洗練される。 提案手法は,2つの公用心MRIデータセットに対して高い予測精度を実現する。 さらに,従来の回帰型手法よりも高い一般化能力を示す。 本手法は,臨床画像解析のワークフローに組み込む可能性を秘めた,心臓MRI領域のリアルタイムおよびモデルに依存しない品質制御を実現する。

In recent years, convolutional neural networks have demonstrated promising performance in a variety of medical image segmentation tasks. However, when a trained segmentation model is deployed into the real clinical world, the model may not perform optimally. A major challenge is the potential poor-quality segmentations generated due to degraded image quality or domain shift issues. There is a timely need to develop an automated quality control method that can detect poor segmentations and feedback to clinicians. Here we propose a novel deep generative model-based framework for quality control of cardiac MRI segmentation. It first learns a manifold of good-quality image-segmentation pairs using a generative model. The quality of a given test segmentation is then assessed by evaluating the difference from its projection onto the good-quality manifold. In particular, the projection is refined through iterative search in the latent space. The proposed method achieves high prediction accuracy on two publicly available cardiac MRI datasets. Moreover, it shows better generalisation ability than traditional regression-based methods. Our approach provides a real-time and model-agnostic quality control for cardiac MRI segmentation, which has the potential to be integrated into clinical image analysis workflows.
翻訳日:2022-11-17 22:51:23 公開日:2020-06-23
# データスパース領域における高速応答クロップマップ

Rapid Response Crop Maps in Data Sparse Regions ( http://arxiv.org/abs/2006.16866v1 )

ライセンス: Link先を確認
Hannah Kerner, Gabriel Tseng, Inbal Becker-Reshef, Catherine Nakalembe, Brian Barker, Blake Munshell, Madhava Paliyam, and Mehdi Hosseini(参考訳) 作物の分布に関する空間情報は、作物や作物の地図と呼ばれ、幅広い農業や食料安全保障の分析と決定にとって重要な入力である。 しかし、高解像度の農地地図は、特に小作農が支配する地域(サハラ以南アフリカなど)では、ほとんどの国で容易には利用できない。 これらの地図は、意思決定者が人道支援の提供、目標とする援助の分散、農家の生産性向上など、農業関連の政策や緩和戦略を迅速に設計し、実行する必要がある危機の時代に特に重要なものである。 作物地図を開発する上での大きな課題は、多くの地域が予測モデルの訓練と検証に必要な作物の真理データを容易に入手できないことであり、フィールドキャンペーンは迅速な応答のためにラベルを収集することは不可能である。 本稿では,地上データが少ない地域において,農地の迅速なマッピングを行う方法を提案する。 Togoでは10日以内に高解像度(10m)の農地マップを公開し、トゴレス政府による新型コロナウイルスのパンデミックに対する迅速な対応を図った。 これは、実際の人道的危機において、機械学習アプリケーションの研究から運用上の迅速な応答への移行が成功したことを実証した。 すべての地図、データ、コードは、データスパース領域における将来の研究および運用システムを可能にするために公開されている。

Spatial information on cropland distribution, often called cropland or crop maps, are critical inputs for a wide range of agriculture and food security analyses and decisions. However, high-resolution cropland maps are not readily available for most countries, especially in regions dominated by smallholder farming (e.g., sub-Saharan Africa). These maps are especially critical in times of crisis when decision makers need to rapidly design and enact agriculture-related policies and mitigation strategies, including providing humanitarian assistance, dispersing targeted aid, or boosting productivity for farmers. A major challenge for developing crop maps is that many regions do not have readily accessible ground truth data on croplands necessary for training and validating predictive models, and field campaigns are not feasible for collecting labels for rapid response. We present a method for rapid mapping of croplands in regions where little to no ground data is available. We present results for this method in Togo, where we delivered a high-resolution (10 m) cropland map in under 10 days to facilitate rapid response to the COVID-19 pandemic by the Togolese government. This demonstrated a successful transition of machine learning applications research to operational rapid response in a real humanitarian crisis. All maps, data, and code are publicly available to enable future research and operational systems in data-sparse regions.
翻訳日:2022-11-17 22:51:07 公開日:2020-06-23
# 予測多重性の下での反事実的説明について

On Counterfactual Explanations under Predictive Multiplicity ( http://arxiv.org/abs/2006.13132v1 )

ライセンス: Link先を確認
Martin Pawelczyk, Klaus Broelemann, Gjergji Kasneci(参考訳) 対実的な説明は通常、入力に対する最小の変更を識別して、固定されたモデル(以下、スパース法と呼ばれる)による予測を変更することによって得られる。 しかし、最近の研究は古い洞察を復活させた: 一般的に使用される関心の測度(例えば、エラー率)に関して予測問題に対する優れた解は存在しないことが多い。 実際、しばしば複数の異なる分類器がほぼ同じ解を与える。 この現象は予測多重性(Breiman, 2001; Marx et al., 2019)として知られている。 本研究では,予測多重性の下での対実的説明のコストに対する一般上限を導出する。 最も注目すべきは、2つの分類器間の不一致の概念であり、負の予測された個人に対する扱いがいかに異なるかを記述する。 次に、実世界のデータで実証的にスパースとデータサポートのアプローチを比較する。 その結果,データサポート手法は異なるモデルの多重性に対してより堅牢であることがわかった。 同時に、これらの手法は、1つの固定モデルの下で反実的説明を生成するコストが著しく高いことを示す。 要約すると、我々の理論的および実証的な結果は、反事実的推奨は一般的には不十分であるべきだという一般的な見解に挑戦する。

Counterfactual explanations are usually obtained by identifying the smallest change made to an input to change a prediction made by a fixed model (hereafter called sparse methods). Recent work, however, has revitalized an old insight: there often does not exist one superior solution to a prediction problem with respect to commonly used measures of interest (e.g. error rate). In fact, often multiple different classifiers give almost equal solutions. This phenomenon is known as predictive multiplicity (Breiman, 2001; Marx et al., 2019). In this work, we derive a general upper bound for the costs of counterfactual explanations under predictive multiplicity. Most notably, it depends on a discrepancy notion between two classifiers, which describes how differently they treat negatively predicted individuals. We then compare sparse and data support approaches empirically on real-world data. The results show that data support methods are more robust to multiplicity of different models. At the same time, we show that those methods have provably higher cost of generating counterfactual explanations under one fixed model. In summary, our theoretical and empiricaln results challenge the commonly held view that counterfactual recommendations should be sparse in general.
翻訳日:2022-11-17 22:45:10 公開日:2020-06-23
# 不均一視点におけるMOOCにおける知識概念推薦のための注意グラフ畳み込みネットワーク

Attentional Graph Convolutional Networks for Knowledge Concept Recommendation in MOOCs in a Heterogeneous View ( http://arxiv.org/abs/2006.13257v1 )

ライセンス: Link先を確認
Shen Wang, Jibing Gong, Jinlong Wang, Wenzheng Feng, Hao Peng, Jie Tang, Philip S. Yu(参考訳) 大規模なオープンオンラインコースは、学生が知識を把握できる大規模かつオープンな学習機会を提供する、教育のモダニカルな方法になりつつある。 学生の興味を引くために、moocsプロバイダが学生にコースを推薦するために推奨システムを適用する。 しかしながら、コースは通常、いくつかのビデオ講義で構成され、それぞれが特定の知識概念をカバーし、特定の知識概念に対する学生の関心を直接的に見渡すことを推奨する。 本稿では,このギャップを埋めるために,知識概念推薦の問題について検討する。 本稿では,moocsにおける知識概念推薦のためのエンドツーエンドグラフニューラルネットワークベースアプローチであるattentionalheterogeneous graph convolutional deep knowledge recommender(ackrec)を提案する。 他の推奨問題と同様に、スパーシティの問題に苦しむ。 この問題に対処するために、コンテンツ情報とコンテキスト情報の両方を活用して、グラフ畳み込みネットワークを介してエンティティの表現を学習する。 学生や知識概念に加えて,他の種類のエンティティ(コース,ビデオ,教師など)を検討し,異種情報ネットワークを構築し,異なる種類のエンティティ間の対応する実りある意味関係を捉え,それらを表現学習プロセスに組み込む。 具体的には,HIN上のメタパスを用いて,学生の好みの伝播を誘導する。 これらのメタパスの助けを借りて、候補知識概念に対する学生の選好分布を捉えることができる。 さらに,異なる学生の興味を捉えるために,異なるメタパスからコンテキスト情報を適応的に融合させるアテンション機構を提案する。 提案したACKRecisは,MOOCにおけるオンライン学習を追求する学生に対して,効果的に知識概念を推薦できることを示す。

Massive open online courses are becoming a modish way for education, which provides a large-scale and open-access learning opportunity for students to grasp the knowledge. To attract students' interest, the recommendation system is applied by MOOCs providers to recommend courses to students. However, as a course usually consists of a number of video lectures, with each one covering some specific knowledge concepts, directly recommending courses overlook students'interest to some specific knowledge concepts. To fill this gap, in this paper, we study the problem of knowledge concept recommendation. We propose an end-to-end graph neural network-based approach calledAttentionalHeterogeneous Graph Convolutional Deep Knowledge Recommender(ACKRec) for knowledge concept recommendation in MOOCs. Like other recommendation problems, it suffers from sparsity issues. To address this issue, we leverage both content information and context information to learn the representation of entities via graph convolution network. In addition to students and knowledge concepts, we consider other types of entities (e.g., courses, videos, teachers) and construct a heterogeneous information network to capture the corresponding fruitful semantic relationships among different types of entities and incorporate them into the representation learning process. Specifically, we use meta-path on the HIN to guide the propagation of students' preferences. With the help of these meta-paths, the students' preference distribution with respect to a candidate knowledge concept can be captured. Furthermore, we propose an attention mechanism to adaptively fuse the context information from different meta-paths, in order to capture the different interests of different students. The promising experiment results show that the proposedACKRecis able to effectively recommend knowledge concepts to students pursuing online learning in MOOCs.
翻訳日:2022-11-17 22:44:23 公開日:2020-06-23
# 機械学習に基づく臨床予測モデル --臨床医のための実践的ガイド

Machine learning-based clinical prediction modeling -- A practical guide for clinicians ( http://arxiv.org/abs/2006.15069v1 )

ライセンス: Link先を確認
Julius M. Kernbach, Victor E. Staartjes(参考訳) ビッグデータの出現期には、より多くの利用可能な臨床データセットと計算の進歩が、機械学習ベースのアプローチに大きな関心を呼んだ。 機械学習や人工知能に関連する原稿の数は、ここ数年で指数関数的に増えている。 分析的機械学習ツールが臨床医にとって容易に利用できるようになるにつれて、重要な概念の理解と分析的落とし穴の認識が、臨床分野の専門家としても機械学習方法論の評価に不十分な臨床医、研究者、レビュアー、編集者にますます求められている。 第1節では、機械学習の一般的な原則と、このシリーズの焦点である機械学習ベースの予測モデルの成功に必要な分析ステップについて説明する。 さらに, 再サンプリング, オーバーフィット, モデル一般化性, 特徴量の削減と選択(第2部), モデル評価, 共通注意点の報告と議論(第3部)の重要性を概観するとともに, 完全符号化パイプラインによる分類(第4部)と回帰モデリング(第5部)の実践的ガイドを提供する。 方法論的厳密さと明快さ、および機械学習アプローチの内部動作の根底にある理由の理解が必要であり、そうでなければ、強力な分析ツールであるにもかかわらず予測的応用が臨床ルーチンにあまり受け入れられない。 機械学習と人工知能は、神経外科の分野を含む分野にわたって現代医学に影響を及ぼす。

In the emerging era of big data, larger available clinical datasets and computational advances have sparked a massive interest in machine learning-based approaches. The number of manuscripts related to machine learning or artificial intelligence has exponentially increased over the past years. As analytical machine learning tools become readily available for clinicians to use, the understanding of key concepts and the awareness of analytical pitfalls are increasingly required for clinicians, investigators, reviewers and editors, who even as experts in their clinical field, sometimes find themselves insufficiently equipped to evaluate machine learning methodologies. In the first section, we provide explanations on the general principles of machine learning, as well as analytical steps required for successful machine learning-based predictive modelling - which is the focus of this series. In further sections, we review the importance of resampling, overfitting and model generalizability as well as feature reduction and selection (Part II), strategies for model evaluation, reporting and discussion of common caveats and other points of significance (Part III), as well as offer a practical guide to classification (Part IV) and regression modelling (Part V), with a complete coding pipeline. Methodological rigor and clarity as well as understanding of the underlying reasoning of the internal workings of a machine learning approach are required, otherwise predictive applications despite being strong analytical tools are not well accepted into the clinical routine. Going forward, machine learning and artificial intelligence shape and influence modern medicine across disciplines including the field of neurosurgery.
翻訳日:2022-11-17 22:43:09 公開日:2020-06-23
# グラフニューラルネットワークトレーニング改善のための自己教師付きエッジ機能

Self-supervised edge features for improved Graph Neural Network training ( http://arxiv.org/abs/2007.04777v1 )

ライセンス: Link先を確認
Arijit Sehanobish, Neal G. Ravindra, David van Dijk(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから意味のある表現を抽出し、ノード分類やリンク予測などの予測タスクを実行するために広く利用されている。 近年、予測タスクのためのノード機能とともに、エッジ機能を取り込む作業が数多く行われている。 エッジ機能を使用する際の大きな問題の1つは、しばしば手作りで、取得が困難で、特定のドメインに特有であり、冗長な情報を含む可能性があることである。 本稿では,自己教師付き学習と教師なし学習の組み合わせによって,任意のドメインに適用可能な新たなエッジ機能を作成するためのフレームワークを提案する。 これに加えて、forman-ricci 曲率をグラフの局所幾何学をカプセル化する追加のエッジ特徴として用いる。 次に、Set Transformerを介してエッジ機能をエンコードし、それを人気のあるGNNアーキテクチャから抽出したノード特徴と組み合わせて、エンドツーエンドのトレーニングスキームでノード分類を行う。 神経疾患の単細胞RNAシークエンシングデータ, \textit{in vitro} SARS-CoV-2感染症, ヒトCOVID-19患者の3つの生物学的データセットについて検討した。 本手法は,ベースライングラフアテンションネットワーク (gat) およびグラフ畳み込みネットワーク (gcn) モデルよりもノード分類タスクの性能が向上することを示す。 さらに、エッジとノードの特徴に注意を向けるメカニズムを考えると、covid-19の経過と重症度を決定する細胞タイプと遺伝子を解釈することができ、潜在的な疾患バイオマーカーと治療目標の一覧に寄与する。

Graph Neural Networks (GNN) have been extensively used to extract meaningful representations from graph structured data and to perform predictive tasks such as node classification and link prediction. In recent years, there has been a lot of work incorporating edge features along with node features for prediction tasks. One of the main difficulties in using edge features is that they are often handcrafted, hard to get, specific to a particular domain, and may contain redundant information. In this work, we present a framework for creating new edge features, applicable to any domain, via a combination of self-supervised and unsupervised learning. In addition to this, we use Forman-Ricci curvature as an additional edge feature to encapsulate the local geometry of the graph. We then encode our edge features via a Set Transformer and combine them with node features extracted from popular GNN architectures for node classification in an end-to-end training scheme. We validate our work on three biological datasets comprising of single-cell RNA sequencing data of neurological disease, \textit{in vitro} SARS-CoV-2 infection, and human COVID-19 patients. We demonstrate that our method achieves better performance on node classification tasks over baseline Graph Attention Network (GAT) and Graph Convolutional Network (GCN) models. Furthermore, given the attention mechanism on edge and node features, we are able to interpret the cell types and genes that determine the course and severity of COVID-19, contributing to a growing list of potential disease biomarkers and therapeutic targets.
翻訳日:2022-11-17 22:42:40 公開日:2020-06-23
# 脳MRIにおける教師なし異常分割のためのスケールスペースオートエンコーダ

Scale-Space Autoencoders for Unsupervised Anomaly Segmentation in Brain MRI ( http://arxiv.org/abs/2006.12852v1 )

ライセンス: Link先を確認
Christoph Baur, Benedikt Wiestler, Shadi Albarqouni, Nassir Navab(参考訳) 脳の病理は、わずかなピクセル(すなわちms病変)から大きな空間を占有する腫瘍まで、大きさと形状が大きく異なる。 近年提案されている脳mriにおける非教師なし異常分割のオートエンコーダに基づく手法は有望な性能を示すが,特に小病変の正確な境界決定に不可欠である高忠実度分布のモデリングに困難が伴う。 ここでは, 従来の研究と同様, 正常脳MRIの分布をモデル化し, 誤った再建から病理組織を局在させる。 しかし,高分解能で再現率を向上させるために,ラプラシアンピラミッドを用いて健常脳MRIの周波数帯域を圧縮・再構成することを学ぶ。 ms病変と腫瘍を伴う3つの異なる脳mrデータセットにおける、異なる最先端のアプローチと比較する実験で、異常分割性能の向上と、より鮮明な入力データのネイティブ解像度での再構成能力を示した。 ラプラシアピラミッドのモデル化により、複数のスケールでの病変のデライン化と凝集が可能となり、単一のモデルを用いて、異なる病態や病変の大きさに効果的に対応できる。

Brain pathologies can vary greatly in size and shape, ranging from few pixels (i.e. MS lesions) to large, space-occupying tumors. Recently proposed Autoencoder-based methods for unsupervised anomaly segmentation in brain MRI have shown promising performance, but face difficulties in modeling distributions with high fidelity, which is crucial for accurate delineation of particularly small lesions. Here, similar to these previous works, we model the distribution of healthy brain MRI to localize pathologies from erroneous reconstructions. However, to achieve improved reconstruction fidelity at higher resolutions, we learn to compress and reconstruct different frequency bands of healthy brain MRI using the laplacian pyramid. In a range of experiments comparing our method to different State-of-the-Art approaches on three different brain MR datasets with MS lesions and tumors, we show improved anomaly segmentation performance and the general capability to obtain much more crisp reconstructions of input data at native resolution. The modeling of the laplacian pyramid further enables the delineation and aggregation of lesions at multiple scales, which allows to effectively cope with different pathologies and lesion sizes using a single model.
翻訳日:2022-11-17 22:42:16 公開日:2020-06-23
# デューリングバンドの組合せ純粋探索

Combinatorial Pure Exploration of Dueling Bandit ( http://arxiv.org/abs/2006.12772v1 )

ライセンス: Link先を確認
Wei Chen, Yihan Du, Longbo Huang, Haoyu Zhao(参考訳) 本稿では,2部グラフでモデル化された複数の位置の候補を複数有し,各ラウンドにおいて1つの位置において2人の候補の決闘をサンプリングし,決闘の勝者を観察し,複数のラウンドの後に高い確率で一致した最良候補位置を求めることを目的とする。 CPE-DBは、マルチアームバンディット(CPE-MAB)問題に対する元の組合せ純粋探索の適応である。 Bordaの勝者とCondorcetの勝者の双方について検討する。 ボルダの受賞者については、元のcpe-mab設定と設計pacと、cpe-mab設定(問題のサブクラスにほぼ最適である)と1ラウンドあたりの多項式実行時間とのようなサンプルの複雑さを両立する厳密なアルゴリズムに問題を還元する。 コンドルセットの勝者にとって、まず、勝利確率が既知のコンドルセットの勝者を見つけるというオフライン問題に対する完全多項式時間近似スキーム(FPTAS)を設計し、次にFPTASを用いて新しい純粋探索アルゴリズムである${\sf CAR}$-${\sf Cond}$をサンプル複雑性解析で設計する。 ${\sf CAR}$-${\sf Cond}$は、CPE-DBにおけるCondorcetの勝者を特定するために、1ラウンドあたりの多項式実行時間を持つ最初のアルゴリズムである。

In this paper, we study combinatorial pure exploration for dueling bandits (CPE-DB): we have multiple candidates for multiple positions as modeled by a bipartite graph, and in each round we sample a duel of two candidates on one position and observe who wins in the duel, with the goal of finding the best candidate-position matching with high probability after multiple rounds of samples. CPE-DB is an adaptation of the original combinatorial pure exploration for multi-armed bandit (CPE-MAB) problem to the dueling bandit setting. We consider both the Borda winner and the Condorcet winner cases. For Borda winner, we establish a reduction of the problem to the original CPE-MAB setting and design PAC and exact algorithms that achieve both the sample complexity similar to that in the CPE-MAB setting (which is nearly optimal for a subclass of problems) and polynomial running time per round. For Condorcet winner, we first design a fully polynomial time approximation scheme (FPTAS) for the offline problem of finding the Condorcet winner with known winning probabilities, and then use the FPTAS as an oracle to design a novel pure exploration algorithm ${\sf CAR}$-${\sf Cond}$ with sample complexity analysis. ${\sf CAR}$-${\sf Cond}$ is the first algorithm with polynomial running time per round for identifying the Condorcet winner in CPE-DB.
翻訳日:2022-11-17 22:34:54 公開日:2020-06-23
# 概念ドリフトの反事実的説明

Counterfactual Explanations of Concept Drift ( http://arxiv.org/abs/2006.12822v1 )

ライセンス: Link先を確認
Fabian Hinder, Barbara Hammer(参考訳) 概念ドリフト(concept drift)の概念は、観測データの基礎となる分布が時間とともに変化する現象を指す。 概念ドリフトを検知したり、観測されたドリフトの存在下でモデルを調整する方法は存在するが、ドリフトを説明するという問題は今のところほとんど考えられていない。 この問題は、ドリフトそのものが現れる最も顕著な特徴を検査することを可能にするため、変化の必要性を人間が理解し、生涯学習モデルの受け入れを増加させることで重要である。 本稿では,反事実的説明に基づいて,典型的な例で表される空間的特徴の特徴的変化に着目し,概念ドリフトを特徴付ける新しい技術を提案する。 この問題の形式的定義を確立し, 対実的説明に基づく効率的なアルゴリズム解を導出し, その有用性をいくつかの例で示す。

The notion of concept drift refers to the phenomenon that the distribution, which is underlying the observed data, changes over time; as a consequence machine learning models may become inaccurate and need adjustment. While there do exist methods to detect concept drift or to adjust models in the presence of observed drift, the question of explaining drift has hardly been considered so far. This problem is of importance, since it enables an inspection of the most prominent features where drift manifests itself; hence it enables human understanding of the necessity of change and it increases acceptance of life-long learning models. In this paper we present a novel technology, which characterizes concept drift in terms of the characteristic change of spatial features represented by typical examples based on counterfactual explanations. We establish a formal definition of this problem, derive an efficient algorithmic solution based on counterfactual explanations, and demonstrate its usefulness in several examples.
翻訳日:2022-11-17 22:34:26 公開日:2020-06-23
# BETULA:BIRCHクラスタリングのための数値安定CFトレー

BETULA: Numerically Stable CF-Trees for BIRCH Clustering ( http://arxiv.org/abs/2006.12881v1 )

ライセンス: Link先を確認
Andreas Lang and Erich Schubert(参考訳) BIRCHクラスタリングはクラスタリングのアプローチとして広く知られており、その後の研究や商業製品に影響を与えている。 BIRCHの重要なコントリビューションは、入力データの圧縮表現であるClustering Feature Tree (CF-Tree)である。 新しいデータが到着すると、最終的に木は圧縮を増やすために再構築される。 その後、木の葉をクラスタリングに使用する。 データ圧縮のため、この手法は非常にスケーラブルである。 k-means、データストリーム、密度ベースのクラスタリングといったアイデアが採用されている。 BIRCHで使用されるクラスタリング機能は単純な要約統計であり、点数、線形和、平方値の和といった新しいデータで簡単に更新できる。 残念なことに、BIRCHにおける正方形の合計は破滅的なキャンセルの傾向にある。 我々は、この数値問題を持たない代替クラスタ機能を導入し、メンテナンスにそれほど費用がかからず、多くの計算を単純化し、より効率的にする。 これらのクラスタ機能は、ストリーミングデータのアルゴリズムなど、BIRCHから派生した他の作業でも簡単に使用することができる。 実験では,数値問題を実演し,元のアルゴリズムの性能を改良されたクラスタ特性と比較した。

BIRCH clustering is a widely known approach for clustering, that has influenced much subsequent research and commercial products. The key contribution of BIRCH is the Clustering Feature tree (CF-Tree), which is a compressed representation of the input data. As new data arrives, the tree is eventually rebuilt to increase the compression. Afterward, the leaves of the tree are used for clustering. Because of the data compression, this method is very scalable. The idea has been adopted for example for k-means, data stream, and density-based clustering. Clustering features used by BIRCH are simple summary statistics that can easily be updated with new data: the number of points, the linear sums, and the sum of squared values. Unfortunately, how the sum of squares is then used in BIRCH is prone to catastrophic cancellation. We introduce a replacement cluster feature that does not have this numeric problem, that is not much more expensive to maintain, and which makes many computations simpler and hence more efficient. These cluster features can also easily be used in other work derived from BIRCH, such as algorithms for streaming data. In the experiments, we demonstrate the numerical problem and compare the performance of the original algorithm compared to the improved cluster features.
翻訳日:2022-11-17 22:33:49 公開日:2020-06-23
# ディープニューラルネットワークに微分可能空間を埋め込む

Embedding Differentiable Sparsity into Deep Neural Network ( http://arxiv.org/abs/2006.13716v1 )

ライセンス: Link先を確認
Yongjin Lee(参考訳) 本稿では,モデルパラメータが確率的勾配降下を伴うトレーニング中に正確にゼロとなる深層ニューラルネットワークの構造にスパーシティを組み込むことを提案する。 これにより,ネットワークの分散構造と重みを同時に学習することができる。 提案手法は構造的だけでなく非構造的スパーシティも学ぶことができる。

In this paper, we propose embedding sparsity into the structure of deep neural networks, where model parameters can be exactly zero during training with the stochastic gradient descent. Thus, it can learn the sparsified structure and the weights of networks simultaneously. The proposed approach can learn structured as well as unstructured sparsity.
翻訳日:2022-11-17 22:26:55 公開日:2020-06-23
# 電子健康記録を用いた患者診断予測のための深層学習パイプライン

A Deep Learning Pipeline for Patient Diagnosis Prediction Using Electronic Health Records ( http://arxiv.org/abs/2006.16926v1 )

ライセンス: Link先を確認
Leopold Franz, Yash Raj Shrestha, Bibek Paudel(参考訳) 機械学習アルゴリズムによる医療における病気の診断と意思決定の強化は、近年ますます重要になっている。 特に、新型コロナウイルス(COVID-19)のパンデミックによる現在の疫学的状況では、機械学習アルゴリズムによる疾患診断の迅速かつ正確な予測は、多病原性疾患などの脆弱な集団の識別と治療を容易にする可能性がある。 有用な疾患診断予測システムを構築するためには、データ表現と機械学習アーキテクチャの開発の両方の進歩が不可欠である。 まず,データ収集と表現に関して,電子健康記録(EHRs)において多種類のフォーマットと一貫性の欠如により,深刻な問題に直面している。 これにより、EHRに含まれる貴重な情報の抽出が妨げられる。 現在、グローバルデータ標準は確立されていない。 有効なソリューションとして、公開健康データセットをユニバーサルフォーマットに簡単に変換するPythonパッケージを開発し、公開する。 このデータを国際的な健康データ形式に変換することで、研究者はehlデータセットと多様な形式の臨床データセットを簡単に組み合わせることができる。 第2に、複数の疾患診断カテゴリを同時に予測する機械学習アルゴリズムは未開発のままである。 本稿では,2つの新しいモデルアーキテクチャを提案する。 第1にdeepobserverは、構造化された数値データを使用して診断カテゴリーを予測し、第2にcriinalbert_multiは、自然言語処理によって臨床ノートで利用可能な豊富な情報を取り込み、医療従事者に解釈可能な可視化を提供する。 両モデルとも高い精度で複数の診断を同時に予測できることを示す。

Augmentation of disease diagnosis and decision-making in healthcare with machine learning algorithms is gaining much impetus in recent years. In particular, in the current epidemiological situation caused by COVID-19 pandemic, swift and accurate prediction of disease diagnosis with machine learning algorithms could facilitate identification and care of vulnerable clusters of population, such as those having multi-morbidity conditions. In order to build a useful disease diagnosis prediction system, advancement in both data representation and development of machine learning architectures are imperative. First, with respect to data collection and representation, we face severe problems due to multitude of formats and lack of coherency prevalent in Electronic Health Records (EHRs). This causes hindrance in extraction of valuable information contained in EHRs. Currently, no universal global data standard has been established. As a useful solution, we develop and publish a Python package to transform public health dataset into an easy to access universal format. This data transformation to an international health data format facilitates researchers to easily combine EHR datasets with clinical datasets of diverse formats. Second, machine learning algorithms that predict multiple disease diagnosis categories simultaneously remain underdeveloped. We propose two novel model architectures in this regard. First, DeepObserver, which uses structured numerical data to predict the diagnosis categories and second, ClinicalBERT_Multi, that incorporates rich information available in clinical notes via natural language processing methods and also provides interpretable visualizations to medical practitioners. We show that both models can predict multiple diagnoses simultaneously with high accuracy.
翻訳日:2022-11-17 22:25:43 公開日:2020-06-23
# 論理ニューラルネットワーク

Logical Neural Networks ( http://arxiv.org/abs/2006.13155v1 )

ライセンス: Link先を確認
Ryan Riegel, Alexander Gray, Francois Luus, Naweed Khan, Ndivhuwo Makondo, Ismail Yunus Akhalwaya, Haifeng Qian, Ronald Fagin, Francisco Barahona, Udit Sharma, Shajith Ikbal, Hima Karanam, Sumit Neelam, Ankita Likhyani, Santosh Srivastava(参考訳) ニューラルネットワーク(学習)と記号論理(知識と推論)の両方の重要な特性をシームレスに提供する新しいフレームワークを提案する。 すべてのニューロンは、重み付き実数値論理の式の構成として意味を持ち、非常に解釈不能な非絡み合い表現をもたらす。 推論は事前定義された対象変数ではなく一方向であり、古典的な一階述語論理定理を含む論理的推論に対応する。 モデルはエンドツーエンドで微分可能であり、学習は論理的矛盾を捉えた新しい損失関数を最小化し、一貫性のない知識にレジリエンスをもたらす。 また、確率論的意味を持つ真理値の境界を維持し、不完全知識に弾力性を与えることによって、オープンワールドの仮定を可能にする。

We propose a novel framework seamlessly providing key properties of both neural nets (learning) and symbolic logic (knowledge and reasoning). Every neuron has a meaning as a component of a formula in a weighted real-valued logic, yielding a highly intepretable disentangled representation. Inference is omnidirectional rather than focused on predefined target variables, and corresponds to logical reasoning, including classical first-order logic theorem proving as a special case. The model is end-to-end differentiable, and learning minimizes a novel loss function capturing logical contradiction, yielding resilience to inconsistent knowledge. It also enables the open-world assumption by maintaining bounds on truth values which can have probabilistic semantics, yielding resilience to incomplete knowledge.
翻訳日:2022-11-17 22:24:26 公開日:2020-06-23
# 状態抽象化を用いた強化学習における環境形成

Environment Shaping in Reinforcement Learning using State Abstraction ( http://arxiv.org/abs/2006.13160v1 )

ライセンス: Link先を確認
Parameswaran Kamalaruban, Rati Devidze, Volkan Cevher, Adish Singla(参考訳) 強化学習(rl)エージェントが直面する中心的な課題の1つは、大きな状態空間が狭くノイズの多いフィードバック信号を持つ環境で(ほぼ)最適ポリシーを効果的に学習することである。 現実世界のアプリケーションでは、追加のドメイン知識を持つ専門家は、環境をより学習しやすいものにするために、環境を形作ることを通して学習プロセスをスピードアップするのに役立ちます。 文学における一般的なパラダイムは「emph{potential-based reward shaping」であり、環境の報酬関数はポテンシャル関数を用いて追加の局所報酬関数で拡張される。 しかし、潜在的な報酬形成の適用性は、設定において制限される。 (i)状態空間は非常に大きく、適切なポテンシャル関数を計算することは困難である。 (二)フィードバック信号はうるさいもので、形状の報酬があっても局所的な最適性に閉じ込められうること。 (iii)報酬の変更だけでは不十分であり、効果的なシェーピングにはダイナミクスを変える必要がある。 本稿では,このようなポテンシャルベース形状の制限に対処し,状態抽象化を用いた環境形状の新たな枠組みを提案する。 我々のキーとなる考え方は、環境の大きな状態空間をノイズの多い信号で抽象された空間に圧縮し、この抽象化を用いてエージェントのよりスムーズで効果的なフィードバック信号を作成することである。 本研究は, 抽象的環境形成の理論的基盤を考察し, エージェントの方針が原環境における準最適挙動を保っていることを示す。

One of the central challenges faced by a reinforcement learning (RL) agent is to effectively learn a (near-)optimal policy in environments with large state spaces having sparse and noisy feedback signals. In real-world applications, an expert with additional domain knowledge can help in speeding up the learning process via \emph{shaping the environment}, i.e., making the environment more learner-friendly. A popular paradigm in literature is \emph{potential-based reward shaping}, where the environment's reward function is augmented with additional local rewards using a potential function. However, the applicability of potential-based reward shaping is limited in settings where (i) the state space is very large, and it is challenging to compute an appropriate potential function, (ii) the feedback signals are noisy, and even with shaped rewards the agent could be trapped in local optima, and (iii) changing the rewards alone is not sufficient, and effective shaping requires changing the dynamics. We address these limitations of potential-based shaping methods and propose a novel framework of \emph{environment shaping using state abstraction}. Our key idea is to compress the environment's large state space with noisy signals to an abstracted space, and to use this abstraction in creating smoother and more effective feedback signals for the agent. We study the theoretical underpinnings of our abstraction-based environment shaping, and show that the agent's policy learnt in the shaped environment preserves near-optimal behavior in the original environment.
翻訳日:2022-11-17 22:18:05 公開日:2020-06-23
# 変分直交的特徴

Variational Orthogonal Features ( http://arxiv.org/abs/2006.13170v1 )

ライセンス: Link先を確認
David R. Burt, Carl Edward Rasmussen, Mark van der Wilk(参考訳) スパース確率変動推論により、ガウス過程モデルを大きなデータセットに適用することができる。 この方法での1イテレーションあたりの計算コストは$\mathcal{o}(\tilde{n}m^2+m^3)であり、ここで$\tilde{n}$はミニバッチ内の点数、$m$は変分群の表現性を決定する「誘導的特徴数」である。 いくつかの最近の研究は、ある先行して、エビデンスローバウンド(ELBO)のミニバッチ推定を$\mathcal{O}(M^3)$コストで計算する機能を定義できることを示した。 これは$M\gg \tilde{N}$のときの計算の大幅な節約を意味する。 我々は,不偏推定器をELBOに計算するために,$T$ Monte Carloサンプルを$\mathcal{O}(\tilde{N}T+M^2T)$,$\mathcal{O}(\tilde{N}T+MT)$と$\mathcal{O}(\tilde{N}T+MT)$に付加近似を加えて構成する。 この追加近似が推論品質に与える影響を分析した。

Sparse stochastic variational inference allows Gaussian process models to be applied to large datasets. The per iteration computational cost of inference with this method is $\mathcal{O}(\tilde{N}M^2+M^3),$ where $\tilde{N}$ is the number of points in a minibatch and $M$ is the number of `inducing features', which determine the expressiveness of the variational family. Several recent works have shown that for certain priors, features can be defined that remove the $\mathcal{O}(M^3)$ cost of computing a minibatch estimate of an evidence lower bound (ELBO). This represents a significant computational savings when $M\gg \tilde{N}$. We present a construction of features for any stationary prior kernel that allow for computation of an unbiased estimator to the ELBO using $T$ Monte Carlo samples in $\mathcal{O}(\tilde{N}T+M^2T)$ and in $\mathcal{O}(\tilde{N}T+MT)$ with an additional approximation. We analyze the impact of this additional approximation on inference quality.
翻訳日:2022-11-17 22:17:23 公開日:2020-06-23
# モデル非依存型メタラーニングのグローバル最適性について

On the Global Optimality of Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2006.13182v1 )

ライセンス: Link先を確認
Lingxiao Wang, Qi Cai, Zhuoran Yang, Zhaoran Wang(参考訳) モデル非依存メタラーニング(maml)は、メタラーニングを二段階最適化問題として定式化し、内部レベルは共有前処理に基づいて各サブタスクを解き、外側レベルはすべてのサブタスクで集約されたパフォーマンスを最適化することで最適な共有前処理を探索する。 経験的成功にもかかわらず、MAMLは理論上、特にメタ対象の非凸性(外部目標)のため、その大域的最適性の観点からは理解されていない。 このような理論と実践のギャップを埋めるために,MAMLが達成した強化学習と教師あり学習の両面での定常点の最適性ギャップを特徴付ける。 特に、我々の特徴付けは、そのような定常点の最適性ギャップと接続する。 (i)内層目標の機能幾何学、及び (ii)線形モデルやニューラルネットワークを含む近似関数の表現力。 我々の知識を最大限に活用するために、我々はMAMLの非凸メタオブジェクトによるグローバルな最適性を初めて確立した。

Model-agnostic meta-learning (MAML) formulates meta-learning as a bilevel optimization problem, where the inner level solves each subtask based on a shared prior, while the outer level searches for the optimal shared prior by optimizing its aggregated performance over all the subtasks. Despite its empirical success, MAML remains less understood in theory, especially in terms of its global optimality, due to the nonconvexity of the meta-objective (the outer-level objective). To bridge such a gap between theory and practice, we characterize the optimality gap of the stationary points attained by MAML for both reinforcement learning and supervised learning, where the inner-level and outer-level problems are solved via first-order optimization methods. In particular, our characterization connects the optimality gap of such stationary points with (i) the functional geometry of inner-level objectives and (ii) the representation power of function approximators, including linear models and neural networks. To the best of our knowledge, our analysis establishes the global optimality of MAML with nonconvex meta-objectives for the first time.
翻訳日:2022-11-17 22:16:48 公開日:2020-06-23
# グラフニューラルネットワークの超平滑化に関する一考察

A Note on Over-Smoothing for Graph Neural Networks ( http://arxiv.org/abs/2006.13318v1 )

ライセンス: Link先を確認
Chen Cai, Yusu Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データにおいて大きな成功を収めている。 しかし, グラフニューラルネットワークの性能は, 層数の増加に伴って向上しないことがわかった。 この効果はオーバー・スムーシング (over-smoothing) と呼ばれ、主に線形の場合で分析されている。 本稿では,従来の結果であるcite{oono2019graph}に基づいて,一般グラフニューラルネットワークアーキテクチャにおけるオーバースムーシング効果を解析する。 重み行列が拡張正規化ラプラシアンのスペクトルによって決定される条件を満たすとき、埋め込みのディリクレエネルギーは 0 に収束し、判別力を失う。 ディリクレエネルギーを使って埋め込みの「表現性」を測定することは、概念的にはクリーンであり、より非線型性を扱うことができる。

Graph Neural Networks (GNNs) have achieved a lot of success on graph-structured data. However, it is observed that the performance of graph neural networks does not improve as the number of layers increases. This effect, known as over-smoothing, has been analyzed mostly in linear cases. In this paper, we build upon previous results \cite{oono2019graph} to further analyze the over-smoothing effect in the general graph neural network architecture. We show when the weight matrix satisfies the conditions determined by the spectrum of augmented normalized Laplacian, the Dirichlet energy of embeddings will converge to zero, resulting in the loss of discriminative power. Using Dirichlet energy to measure "expressiveness" of embedding is conceptually clean; it leads to simpler proofs than \cite{oono2019graph} and can handle more non-linearities.
翻訳日:2022-11-17 22:16:12 公開日:2020-06-23
# クラスラベルにおけるリコールと選択性に基づく不均衡データの分類性能指標

Classification Performance Metric for Imbalance Data Based on Recall and Selectivity Normalized in Class Labels ( http://arxiv.org/abs/2006.13319v1 )

ライセンス: Link先を確認
Robert Burduk(参考訳) クラス不均衡データセットの分類では、モデル選択と競合する手法との比較に使用される性能指標が大きな問題である。 この問題を克服するために、いくつかのパフォーマンス対策が定義され、特に不均衡比に関していくつかの視点で分析される。 どの計量が普遍的であり、任意の歪んだデータ問題に使用できるのかは、まだ明らかでない。 本稿では,クラスラベルで正規化されたリコールと選択率の調和平均に基づく新しい性能尺度を提案する。 本稿では,提案手法が不均衡データセットに対して適切な特性を持つことを示す。 特に、多数派例と不均衡比によって定義される空間では、多数派クラスの変化に対する感度が低く、少数派クラスの変化に対する感度が他の既存の単一値のパフォーマンス指標と比較して小さい。 さらに、他の性能指標の同一性が分析的に証明されている。

In the classification of a class imbalance dataset, the performance measure used for the model selection and comparison to competing methods is a major issue. In order to overcome this problem several performance measures are defined and analyzed in several perspectives regarding in particular the imbalance ratio. There is still no clear indication which metric is universal and can be used for any skewed data problem. In this paper we introduced a new performance measure based on the harmonic mean of Recall and Selectivity normalized in class labels. This paper shows that the proposed performance measure has the right properties for the imbalanced dataset. In particular, in the space defined by the majority class examples and imbalance ratio it is less sensitive to changes in the majority class and more sensitive to changes in the minority class compared with other existing single-value performance measures. Additionally, the identity of the other performance measures has been proven analytically.
翻訳日:2022-11-17 22:15:59 公開日:2020-06-23
# ベイズグラフニューラルネットワークのための非パラメトリックグラフ学習

Non-Parametric Graph Learning for Bayesian Graph Neural Networks ( http://arxiv.org/abs/2006.13335v1 )

ライセンス: Link先を確認
Soumyasundar Pal, Saber Malekmohammadi, Florence Regol, Yingxue Zhang, Yishi Xu, Mark Coates(参考訳) グラフは関係構造のモデリングにおいてユビキタスである。 グラフ構造化データの機械学習への最近の取り組みは、多くのアーキテクチャと学習アルゴリズムを生み出した。 しかし、これらのアルゴリズムで使われるグラフは、不正確なモデリング仮定やノイズデータに基づいて構築されることが多い。 その結果、ノード間の真の関係を表現できない。 グラフの後方推定をランダム量として考えることで対象とするベイズフレームワークは有益である。 本稿では,グラフ隣接行列の後方分布を構築するための新しい非パラメトリックグラフモデルを提案する。 提案モデルは、特定のタスクをターゲットにしたグラフベースの学習アルゴリズムの出力を効果的に考慮できるという意味で柔軟である。 さらに、モデル推論は大きなグラフに対してうまくスケールする。 このモデルの利点を,ノード分類,リンク予測,レコメンデーションという3つの異なる問題設定で実証する。

Graphs are ubiquitous in modelling relational structures. Recent endeavours in machine learning for graph-structured data have led to many architectures and learning algorithms. However, the graph used by these algorithms is often constructed based on inaccurate modelling assumptions and/or noisy data. As a result, it fails to represent the true relationships between nodes. A Bayesian framework which targets posterior inference of the graph by considering it as a random quantity can be beneficial. In this paper, we propose a novel non-parametric graph model for constructing the posterior distribution of graph adjacency matrices. The proposed model is flexible in the sense that it can effectively take into account the output of graph-based learning algorithms that target specific tasks. In addition, model inference scales well to large graphs. We demonstrate the advantages of this model in three different problem settings: node classification, link prediction and recommendation.
翻訳日:2022-11-17 22:15:44 公開日:2020-06-23
# 学習勾配強化マルチラベル分類規則

Learning Gradient Boosted Multi-label Classification Rules ( http://arxiv.org/abs/2006.13346v1 )

ライセンス: Link先を確認
Michael Rapp, Eneldo Loza Menc\'ia, Johannes F\"urnkranz, Vu-Linh Nguyen, Eyke H\"ullermeier(参考訳) 予測の評価が単段分類よりも単純ではないマルチラベル分類では、様々な意味を持つが異なる損失関数が提案されている。 理想的には、学習アルゴリズムはパフォーマンス指標の特定の選択に向けてカスタマイズ可能であるべきである。 現代のブースティングの実装は、最も顕著に勾配を増す決定木であり、この観点からは魅力的である。 しかし、それらはほとんどシングルラベルの分類に制限されており、ラベルごとに分解できない限りマルチラベルの損失には耐えられない。 本研究では,マルチアウトプット問題に対する勾配ブースティングフレームワークの一般化と,非可逆損失関数と同様に可逆性を最小化できるマルチラベル分類規則の学習アルゴリズムを提案する。 一般に知られているハミング損失とサブセット0/1損失を代表として,合成データに対するアプローチの能力と限界を分析し,マルチラベルベンチマークにおける予測性能を評価する。

In multi-label classification, where the evaluation of predictions is less straightforward than in single-label classification, various meaningful, though different, loss functions have been proposed. Ideally, the learning algorithm should be customizable towards a specific choice of the performance measure. Modern implementations of boosting, most prominently gradient boosted decision trees, appear to be appealing from this point of view. However, they are mostly limited to single-label classification, and hence not amenable to multi-label losses unless these are label-wise decomposable. In this work, we develop a generalization of the gradient boosting framework to multi-output problems and propose an algorithm for learning multi-label classification rules that is able to minimize decomposable as well as non-decomposable loss functions. Using the well-known Hamming loss and subset 0/1 loss as representatives, we analyze the abilities and limitations of our approach on synthetic data and evaluate its predictive performance on multi-label benchmarks.
翻訳日:2022-11-17 22:15:34 公開日:2020-06-23
# パーキンソン病音声データにおける特徴選択のための距離相関型独立スクリーニング

Distance Correlation Sure Independence Screening for Accelerated Feature Selection in Parkinson's Disease Vocal Data ( http://arxiv.org/abs/2006.12919v1 )

ライセンス: Link先を確認
Dan Schellhas, Bishal Neupane, Deepak Thammineni, Bhargav Kanumuri, Robert C. Green II(参考訳) 機械学習の方法が豊富にあり、それらすべてをアンサンブル方式で使う誘惑があるため、モデルに依存しない特徴選択の方法を持つことは、信じられないほど魅力的です。 主成分分析は1901年に開発され、それ以来この役割に強く反対してきたが、結局は教師なしの手法である。 選択された機能は、予測されていることを知らないため、優れた予測力を持つという保証はない。 この目的のために、Pengらは2005年に最小冗長-最大関係法(mRMR)を開発した。 予測者間の情報だけでなく、その計算における応答との相互情報も利用する。 相互情報とエントロピーの推定は高価で問題の多い作業になりがちであり、残余のジャッキニフ状態で約750から750のデータセットでも過剰な処理時間が発生する。 そこで本研究では,2012年の距離相関確実独立性スクリーニング (dc-sis) という手法を用いて,sz\'ekelyらの距離相関尺度を用いて,応答に最も依存する特徴を選択する。 本手法はパーキンソン病の音声診断データにおけるmrmr選択法と統計的に区別できない結果を90倍高速に生成する。

With the abundance of machine learning methods available and the temptation of using them all in an ensemble method, having a model-agnostic method of feature selection is incredibly alluring. Principal component analysis was developed in 1901 and has been a strong contender in this role since, but in the end is an unsupervised method. It offers no guarantee that the features that are selected have good predictive power because it does not know what is being predicted. To this end, Peng et al. developed the minimum redundancy-maximum relevance (mRMR) method in 2005. It uses the mutual information not only between predictors but also includes the mutual information with the response in its calculation. Estimating mutual information and entropy tend to be expensive and problematic endeavors, which leads to excessive processing times even for dataset that is approximately 750 by 750 in a Leave-One-Subject-Out jackknife situation. To remedy this, we use a method from 2012 called Distance Correlation Sure Independence Screening (DC-SIS) which uses the distance correlation measure of Sz\'ekely et al. to select features that have the greatest dependence with the response. We show that this method produces statistically indistinguishable results to the mRMR selection method on Parkinson's Disease vocal diagnosis data 90 times faster.
翻訳日:2022-11-17 22:08:49 公開日:2020-06-23
# 次元にまたがる正規化流れ

Normalizing Flows Across Dimensions ( http://arxiv.org/abs/2006.13070v1 )

ライセンス: Link先を確認
Edmond Cunningham, Renos Zabounidis, Abhinav Agrawal, Madalina Fiterau, Daniel Sheldon(参考訳) 顔の写真のような構造を持つ実世界データは、低次元多様体上に存在すると仮定される。 この多様体仮説は、低次元データ表現を学習する最先端の生成アルゴリズムを動機付けている。 残念ながら、フローの正規化という一般的な生成モデルは、これを活用できない。 正規化フローは、設計上、低次元表現を学習できない連続的な変数変換に基づいている。 本稿では,次元を横切ることができる正規化フローの一般化であるノイズ注入流(NIF)を紹介する。 NIF は射影変換を用いて高次元データ空間内の学習可能な多様体にラテント空間を明示的にマッピングする。 さらに,多様体からの偏差を考慮した付加雑音モデルを採用し,生成過程の確率的逆数を同定する。 実験により,本手法を既存のフローアーキテクチャに適用することにより,サンプルの品質を著しく向上し,分離可能なデータ埋め込みが得られることを示す。

Real-world data with underlying structure, such as pictures of faces, are hypothesized to lie on a low-dimensional manifold. This manifold hypothesis has motivated state-of-the-art generative algorithms that learn low-dimensional data representations. Unfortunately, a popular generative model, normalizing flows, cannot take advantage of this. Normalizing flows are based on successive variable transformations that are, by design, incapable of learning lower-dimensional representations. In this paper we introduce noisy injective flows (NIF), a generalization of normalizing flows that can go across dimensions. NIF explicitly map the latent space to a learnable manifold in a high-dimensional data space using injective transformations. We further employ an additive noise model to account for deviations from the manifold and identify a stochastic inverse of the generative process. Empirically, we demonstrate that a simple application of our method to existing flow architectures can significantly improve sample quality and yield separable data embeddings.
翻訳日:2022-11-17 22:07:52 公開日:2020-06-23
# グラフ畳み込みネットワークにおけるデータ拡張ビューとモンテカルログラフ学習の提案

Data Augmentation View on Graph Convolutional Network and the Proposal of Monte Carlo Graph Learning ( http://arxiv.org/abs/2006.13090v1 )

ライセンス: Link先を確認
Hande Dong, Zhaolin Ding, Xiangnan He, Fuli Feng and Shuxian Bi(参考訳) 今日、グラフ畳み込みネットワークには、スペクトル領域と空間領域の2つの主要な理解がある。 しかし、どちらも透明性がない。 本研究では,従来の理解よりも透明性が高いデータ拡張という新たな理解を導入する。その着想を得て,新しいグラフ学習パラダイムであるモンテカルログラフ学習(MCGL)を提案する。 MCGLの中核となる考え方は,(1)データ拡張:グラフ構造を通してトレーニングセットのラベルを伝播し,トレーニングセットを拡張する;(2)モデルトレーニング:拡張トレーニングセットを使用して従来の分類器を訓練する。 合成データセットを用いて,クリーングラフ上のMCGLとグラフ畳み込み操作の強度を比較する。 さらに,MCGLの耐雑音性は,雑音性グラフ(実世界の4つのデータセット)のGCNよりも弱いことを示す。 さらに、mcgl に触発されて、gcn のパフォーマンスが過度に悪化する理由を再分析した: 過剰なスムーシングの主流の見解ではなく、主な理由はグラフ構造ノイズであり、私たちの見解を実験的に検証している。 コードはhttps://github.com/donghande/mcglで入手できる。

Today, there are two major understandings for graph convolutional networks, i.e., in the spectral and spatial domain. But both lack transparency. In this work, we introduce a new understanding for it -- data augmentation, which is more transparent than the previous understandings. Inspired by it, we propose a new graph learning paradigm -- Monte Carlo Graph Learning (MCGL). The core idea of MCGL contains: (1) Data augmentation: propagate the labels of the training set through the graph structure and expand the training set; (2) Model training: use the expanded training set to train traditional classifiers. We use synthetic datasets to compare the strengths of MCGL and graph convolutional operation on clean graphs. In addition, we show that MCGL's tolerance to graph structure noise is weaker than GCN on noisy graphs (four real-world datasets). Moreover, inspired by MCGL, we re-analyze the reasons why the performance of GCN becomes worse when deepened too much: rather than the mainstream view of over-smoothing, we argue that the main reason is the graph structure noise, and experimentally verify our view. The code is available at https://github.com/DongHande/MCGL.
翻訳日:2022-11-17 22:07:39 公開日:2020-06-23
# パンプライバシのための離散ショット学習

Discrete Few-Shot Learning for Pan Privacy ( http://arxiv.org/abs/2006.13120v1 )

ライセンス: Link先を確認
Roei Gelbhart, Benjamin I. P. Rubinstein(参考訳) 本稿では,画像認識のための離散埋め込みベクトルのマイナショット学習のタスクにおいて,最初のベースライン結果を示す。 少ないショット学習は高度に研究されたタスクであり、一般的にクラス毎に少数の画像で訓練するリソースに制約された認識システムによって活用される。 通常、システムは各クラスの連続的な埋め込みベクトルを格納し、システム侵害やインサイダーの脅威が懸念されるプライバシーにリスクを及ぼす。 個別の埋め込みベクターを用いて、ユーザの埋め込みベクターを直接格納しない認識システムを構築するために、一方通行ハッシュ関数を使用する単純な暗号プロトコルを考案し、実用的な広帯域環境で計算パンのプライバシを保証する。

In this paper we present the first baseline results for the task of few-shot learning of discrete embedding vectors for image recognition. Few-shot learning is a highly researched task, commonly leveraged by recognition systems that are resource constrained to train on a small number of images per class. Few-shot systems typically store a continuous embedding vector of each class, posing a risk to privacy where system breaches or insider threats are a concern. Using discrete embedding vectors, we devise a simple cryptographic protocol, which uses one-way hash functions in order to build recognition systems that do not store their users' embedding vectors directly, thus providing the guarantee of computational pan privacy in a practical and wide-spread setting.
翻訳日:2022-11-17 22:06:27 公開日:2020-06-23
# ニューラルネットワークの圧縮原理とベイズ最適化について

On Compression Principle and Bayesian Optimization for Neural Networks ( http://arxiv.org/abs/2006.12714v1 )

ライセンス: Link先を確認
Michael Tetelman(参考訳) 一般化可能な予測方法を見つけることは、機械学習の根本的な問題である。 未知データの予測問題と損失のない圧縮の類似性を調べることで、解を与えるアプローチを発見した。 本稿では,全てのデータとモデル定義の合計圧縮メッセージ長を最小化しつつ,デオードビリティを保証しながら,最適な予測モデルを表現できる圧縮原理を提案する。 圧縮原理に従い、ベイズ的手法を用いてデータとネットワーク定義の確率モデルを構築する。 変分近似の列を用いてベイズ積分を近似する方法は、超パラメータの最適化器として実装されている:ベイズ確率勾配降下 (bsgd)。 BSGDを使用したトレーニングは、エポックの数、データセットのサイズ、ミニバッチのサイズという3つのパラメータだけを設定することで完全に定義されている。 圧縮原理によって要求される最適ネットワーク次元を求めることができる連続的な次元削減にドロップアウトが利用できることを示す。

Finding methods for making generalizable predictions is a fundamental problem of machine learning. By looking into similarities between the prediction problem for unknown data and the lossless compression we have found an approach that gives a solution. In this paper we propose a compression principle that states that an optimal predictive model is the one that minimizes a total compressed message length of all data and model definition while guarantees decodability. Following the compression principle we use Bayesian approach to build probabilistic models of data and network definitions. A method to approximate Bayesian integrals using a sequence of variational approximations is implemented as an optimizer for hyper-parameters: Bayesian Stochastic Gradient Descent (BSGD). Training with BSGD is completely defined by setting only three parameters: number of epochs, the size of the dataset and the size of the minibatch, which define a learning rate and a number of iterations. We show that dropout can be used for a continuous dimensionality reduction that allows to find optimal network dimensions as required by the compression principle.
翻訳日:2022-11-17 22:00:44 公開日:2020-06-23
# ハイブリッド時空間グラフ畳み込みネットワーク:ナビゲーションデータによる交通予測の改善

Hybrid Spatio-Temporal Graph Convolutional Network: Improving Traffic Prediction with Navigation Data ( http://arxiv.org/abs/2006.12715v1 )

ライセンス: Link先を確認
Rui Dai, Shenkun Xu, Qian Gu, Chenguang Ji, Kaikui Liu(参考訳) 最近、オンラインナビゲーションサービスやライドシェアリング、スマートシティプロジェクトの人気により、交通予報が関心を集めている。 道路交通の非定常性により、予測精度は文脈情報の欠如によって基本的に制限される。 この問題に対処するため,我々は,交通量のデータを活用し,将来の移動時間を推定できるh-stgcn(hybrid spatio-temporal graph convolutional network)を提案する。 具体的には,オンラインナビゲーションエンジンから来るべき交通量を取得するアルゴリズムを提案する。 分割線形フロー密度関係を利用して、新しい変圧器構造は、今後の体積を移動時間における等価な体積に変換する。 この信号と一般利用の旅行時間信号を組み合わせて、グラフ畳み込みを適用して空間依存性を捉える。 特に,生来の交通の近接を反映する複合隣接行列を構築する。 実世界のデータセットに関する広範な実験を行う。 以上の結果から,H-STGCNは様々な指標,特に非再帰性渋滞の予測において,最先端の手法よりも優れていた。

Traffic forecasting has recently attracted increasing interest due to the popularity of online navigation services, ridesharing and smart city projects. Owing to the non-stationary nature of road traffic, forecasting accuracy is fundamentally limited by the lack of contextual information. To address this issue, we propose the Hybrid Spatio-Temporal Graph Convolutional Network (H-STGCN), which is able to "deduce" future travel time by exploiting the data of upcoming traffic volume. Specifically, we propose an algorithm to acquire the upcoming traffic volume from an online navigation engine. Taking advantage of the piecewise-linear flow-density relationship, a novel transformer structure converts the upcoming volume into its equivalent in travel time. We combine this signal with the commonly-utilized travel-time signal, and then apply graph convolution to capture the spatial dependency. Particularly, we construct a compound adjacency matrix which reflects the innate traffic proximity. We conduct extensive experiments on real-world datasets. The results show that H-STGCN remarkably outperforms state-of-the-art methods in various metrics, especially for the prediction of non-recurring congestion.
翻訳日:2022-11-17 22:00:27 公開日:2020-06-23
# ABID:角度に基づく固有次元

ABID: Angle Based Intrinsic Dimensionality ( http://arxiv.org/abs/2006.12880v1 )

ライセンス: Link先を確認
Erik Thordsen and Erich Schubert(参考訳) 内在的な次元性は、データ表現の次元性とは対照的に、データの「真」次元性を指す。 例えば、属性が高度に相関している場合、本質的な次元性は変数の数よりもはるかに低い。 局所内在的次元性は、この性質がデータセットの異なる部分に対して異なることを示し、内在的次元性はデータセットの局所的困難のプロキシとして機能する。 局所的な内在次元を推定するための最も一般的な方法は距離と最寄りの近傍との距離が増加する速度、すなわち「膨張次元」と呼ばれる概念に基づいている。 本稿では,近接点間の角度分布を用いて,距離を一切使用しない直交概念を提案する。 角度の理論的分布を導出し、これを用いて固有次元の推定器を構築する。 実験により,本尺度が既存の本質的次元尺度と相補的に同じように振る舞うことを検証した。 我々は,本質的次元の新たな考え方を研究コミュニティに導入することにより,本質的次元の理解を深め,新たな研究の推進を期待する。

The intrinsic dimensionality refers to the ``true'' dimensionality of the data, as opposed to the dimensionality of the data representation. For example, when attributes are highly correlated, the intrinsic dimensionality can be much lower than the number of variables. Local intrinsic dimensionality refers to the observation that this property can vary for different parts of the data set; and intrinsic dimensionality can serve as a proxy for the local difficulty of the data set. Most popular methods for estimating the local intrinsic dimensionality are based on distances, and the rate at which the distances to the nearest neighbors increase, a concept known as ``expansion dimension''. In this paper we introduce an orthogonal concept, which does not use any distances: we use the distribution of angles between neighbor points. We derive the theoretical distribution of angles and use this to construct an estimator for intrinsic dimensionality. Experimentally, we verify that this measure behaves similarly, but complementarily, to existing measures of intrinsic dimensionality. By introducing a new idea of intrinsic dimensionality to the research community, we hope to contribute to a better understanding of intrinsic dimensionality and to spur new research in this direction.
翻訳日:2022-11-17 21:57:43 公開日:2020-06-23
# NLGシステムのテキスト自然度自動評価

Automating Text Naturalness Evaluation of NLG Systems ( http://arxiv.org/abs/2006.13268v1 )

ライセンス: Link先を確認
Erion \c{C}ano and Ond\v{r}ej Bojar(参考訳) 自動生成テキストの様々な品質基準を評価する自動メソッドとメトリクスは、繰り返し結果を生成し、迅速な開発サイクルを可能にするため、nlgシステムを開発する上で重要である。 本稿では,自然言語生成手法の重要な特徴であるテキスト自然性の評価を自動化する試みについて述べる。 テキストサンプルのスコアリングやラベル付けに人間の参加者に頼る代わりに、定義した人間の類似度メトリックと、その確率分布を持つ大規模事前学習言語モデルに基づく識別手順を用いて、プロセスを自動化することを提案する。 テキストの確率分数を分析し,生成モデルと識別モデルのサイズにどのように影響するかを観察する。 以上の結果から,テキスト自然性の評価には,より大きな生成器とより大きな事前学習された判別器がより適していることがわかった。 この自動評価方式が人間の判断とどの程度の相関があるかを確認するために、人間との包括的な検証手順が必要である。

Automatic methods and metrics that assess various quality criteria of automatically generated texts are important for developing NLG systems because they produce repeatable results and allow for a fast development cycle. We present here an attempt to automate the evaluation of text naturalness which is a very important characteristic of natural language generation methods. Instead of relying on human participants for scoring or labeling the text samples, we propose to automate the process by using a human likeliness metric we define and a discrimination procedure based on large pretrained language models with their probability distributions. We analyze the text probability fractions and observe how they are influenced by the size of the generative and discriminative models involved in the process. Based on our results, bigger generators and larger pretrained discriminators are more appropriate for a better evaluation of text naturalness. A comprehensive validation procedure with human participants is required as follow up to check how well this automatic evaluation scheme correlates with human judgments.
翻訳日:2022-11-17 21:51:02 公開日:2020-06-23
# 単語埋め込みの監督的理解

Supervised Understanding of Word Embeddings ( http://arxiv.org/abs/2006.13299v1 )

ライセンス: Link先を確認
Halid Ziya Yerebakan, Parmeet Bhatia, Yoshihisa Shinagawa(参考訳) 事前学習された単語埋め込みは、自然言語処理における伝達学習に広く用いられている。 埋め込みは、コンパクトユークリッド空間においてそれらの類似性を保った単語の連続かつ分散表現である。 しかし、これらの空間の次元は明確な解釈を与えない。 本研究では,単語埋め込みにおける線形キーワードレベル分類器の形で教師付き投影を行う。 我々は,本手法が元の埋め込み次元の解釈可能な投影を生成することを示した。 訓練された分類器ノードのアクティベーションは、語彙内の単語のサブセットに対応する。 したがって、連続的な値出力の利点を持ちながら、辞書の特徴と同様に振る舞う。 さらに、これらの辞書は、キーワードの最初のコレクションに、トップスコーリングワードに専門家ラベルを追加することで、複数のラウンドで反復的に成長することができる。 また、他の言語の単語埋め込みに同じ分類器を適用して対応する辞書を得ることもできる。 実験により,これらの分類器重み付き高次ネットワークの初期化により,下流NLPタスクのより正確なモデルが得られた。 さらに、学習した分類器を異なる部分空間に埋め込むことにより、興味のあるキーワードの多文性を明らかにするための教師付き次元の有用性を示す。

Pre-trained word embeddings are widely used for transfer learning in natural language processing. The embeddings are continuous and distributed representations of the words that preserve their similarities in compact Euclidean spaces. However, the dimensions of these spaces do not provide any clear interpretation. In this study, we have obtained supervised projections in the form of the linear keyword-level classifiers on word embeddings. We have shown that the method creates interpretable projections of original embedding dimensions. Activations of the trained classifier nodes correspond to a subset of the words in the vocabulary. Thus, they behave similarly to the dictionary features while having the merit of continuous value output. Additionally, such dictionaries can be grown iteratively with multiple rounds by adding expert labels on top-scoring words to an initial collection of the keywords. Also, the same classifiers can be applied to aligned word embeddings in other languages to obtain corresponding dictionaries. In our experiments, we have shown that initializing higher-order networks with these classifier weights gives more accurate models for downstream NLP tasks. We further demonstrate the usefulness of supervised dimensions in revealing the polysemous nature of a keyword of interest by projecting it's embedding using learned classifiers in different sub-spaces.
翻訳日:2022-11-17 21:50:47 公開日:2020-06-23
# 神経関係抽出:調査

Neural relation extraction: a survey ( http://arxiv.org/abs/2007.04247v1 )

ライセンス: Link先を確認
Mehmet Aydar and Ozge Bozal and Furkan Ozbay(参考訳) ニューラルな関係抽出は、深層学習法を用いて非構造化テキストから実体間の意味関係を発見する。 本研究では,ニューラルネットワークを用いた関係抽出手法について概説する。 既存の研究の有利で非能率な側面について議論し、この分野におけるさらなる研究の方向性と改善の考え方について検討する。

Neural relation extraction discovers semantic relations between entities from unstructured text using deep learning methods. In this study, we present a comprehensive review of methods on neural network based relation extraction. We discuss advantageous and incompetent sides of existing studies and investigate additional research directions and improvement ideas in this field.
翻訳日:2022-11-17 21:50:31 公開日:2020-06-23
# 対話型対話対話の教師なし評価

Unsupervised Evaluation of Interactive Dialog with DialoGPT ( http://arxiv.org/abs/2006.12719v1 )

ライセンス: Link先を確認
Shikib Mehri and Maxine Eskenazi(参考訳) オープンドメインダイアログ研究における意味的かつ解釈可能な自動評価指標を定義することが重要である。 標準言語生成メトリクスは、ダイアログに効果がないことが示されている。 本稿では,DialoGPTを用いた自動評価尺度であるFEDメトリックス(微粒なダイアログ評価)について,微調整や監督を行わずに紹介する。 また、FEDデータセットを導入し、人間のシステムと人間の会話のセットに18のきめ細かいダイアログ品質で注釈を付ける。 FEDメトリック(1)は、基調応答に依存しず、(2)訓練データを必要としない、(3)ターンレベルと全ダイアログレベルの両方で詳細なダイアログ品質を測定する。 FEDは、双方のレベルでヒトの判断と中程度から強い相関を持つ。

It is important to define meaningful and interpretable automatic evaluation metrics for open-domain dialog research. Standard language generation metrics have been shown to be ineffective for dialog. This paper introduces the FED metric (fine-grained evaluation of dialog), an automatic evaluation metric which uses DialoGPT, without any fine-tuning or supervision. It also introduces the FED dataset which is constructed by annotating a set of human-system and human-human conversations with eighteen fine-grained dialog qualities. The FED metric (1) does not rely on a ground-truth response, (2) does not require training data and (3) measures fine-grained dialog qualities at both the turn and whole dialog levels. FED attains moderate to strong correlation with human judgement at both levels.
翻訳日:2022-11-17 21:50:25 公開日:2020-06-23
# ELSIM:本質的なモチベーションによる再利用可能なスキルのエンドツーエンド学習

ELSIM: End-to-end learning of reusable skills through intrinsic motivation ( http://arxiv.org/abs/2006.12903v1 )

ライセンス: Link先を確認
Arthur Aubret, Laetitia Matignon and Salima Hassas(参考訳) 発達学習からインスピレーションを得て、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。 このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。 このボトムアップアプローチは、タスク間で1-が転送可能なスキルを学習することを可能にする。 そこで我々は,事前定義された相互情報目標と新しいカリキュラム学習アルゴリズムを組み合わせることで,無制限で探索可能なスキルのツリーを作成する。 エージェントがスキルとどのように区別するかを理解し視覚化するために、単純なgridworld環境上でエージェントをテストします。 そして、私たちのアプローチがより難しいmujoco環境にスケールできることを示します。エージェントは、報酬が不足している場合の転校学習と探索のベースラインよりも優れたスキルの表現を構築できます。

Taking inspiration from developmental learning, we present a novel reinforcement learning architecture which hierarchically learns and represents self-generated skills in an end-to-end way. With this architecture, an agent focuses only on task-rewarded skills while keeping the learning process of skills bottom-up. This bottom-up approach allows to learn skills that 1- are transferable across tasks, 2- improves exploration when rewards are sparse. To do so, we combine a previously defined mutual information objective with a novel curriculum learning algorithm, creating an unlimited and explorable tree of skills. We test our agent on simple gridworld environments to understand and visualize how the agent distinguishes between its skills. Then we show that our approach can scale on more difficult MuJoCo environments in which our agent is able to build a representation of skills which improve over a baseline both transfer learning and exploration when rewards are sparse.
翻訳日:2022-11-17 21:49:53 公開日:2020-06-23
# Likelihood-free Importance Weightsを用いた経験的リプレイ

Experience Replay with Likelihood-free Importance Weights ( http://arxiv.org/abs/2006.13169v1 )

ライセンス: Link先を確認
Samarth Sinha and Jiaming Song and Animesh Garg and Stefano Ermon(参考訳) 過去の経験を用いて、価値関数の時間的差異(td)学習や経験リプレイを加速することは、深層強化学習の重要な要素である。 本稿では,TD学習アルゴリズムの性能向上に寄与する重要な経験の優先順位付けや重み付けを行い,現状の政策の定常分布下での信頼性に基づく重み付け経験を提案する。 重み付けされたTD目標を用いて、頻繁に遭遇する状態に対する値関数上の小さな近似誤差を暗黙的に促進する。 優先度付けの重みを割り当てるために,リプレイバッファ上の確率自由密度比推定器を用いる。 提案手法は,openai gymタスクのスイートに対して,soft actor critic (sac) と twin delayed deep deterministic policy gradient (td3) の2つの競合手法に実証的に適用し,他のベースラインアプローチと比較して優れたサンプル複雑性を達成する。

The use of past experiences to accelerate temporal difference (TD) learning of value functions, or experience replay, is a key component in deep reinforcement learning. Prioritization or reweighting of important experiences has shown to improve performance of TD learning algorithms.In this work, we propose to reweight experiences based on their likelihood under the stationary distribution of the current policy. Using the corresponding reweighted TD objective, we implicitly encourage small approximation errors on the value function over frequently encountered states. We use a likelihood-free density ratio estimator over the replay buffer to assign the prioritization weights. We apply the proposed approach empirically on two competitive methods, Soft Actor Critic (SAC) and Twin Delayed Deep Deterministic policy gradient (TD3) -- over a suite of OpenAI gym tasks and achieve superior sample complexity compared to other baseline approaches.
翻訳日:2022-11-17 21:49:37 公開日:2020-06-23
# 開集合領域適応のための理論的境界と深部アルゴリズムのブリッジング

Bridging the Theoretical Bound and Deep Algorithms for Open Set Domain Adaptation ( http://arxiv.org/abs/2006.13022v1 )

ライセンス: Link先を確認
Li Zhong, Zhen Fang, Feng Liu, Bo Yuan, Guangquan Zhang, Jie Lu(参考訳) 教師なしオープンセットドメイン適応(UOSDA)では、ターゲットドメインはソースドメインで観測されていない未知のクラスを含む。 この領域の研究者は、分類器を正確に訓練することを目指している。 1)未知のターゲットデータ(未知のクラスを含むデータ)を認識し、 2)他のターゲットデータを分類する。 この目的を達成するために, 前回の研究では, 対象領域のリスクの上限が証明されており, 上限における重要な用語である開集合差は, 未知のターゲットデータに対するリスクを測定するために用いられる。 上限を最小化することで、浅い分類器を訓練して目標を達成することができる。 しかし、分類器が非常に柔軟であれば(例えばディープニューラルネットワーク(DNN))、開集合差は上限を最小化する際に負の値に収束し、ほとんどのターゲットデータが未知のデータとして認識される問題を引き起こす。 そこで,本稿では,uosdaの新たなターゲットドメインリスク上限を提案する。ソースドメインリスク,$\epsilon$-open set difference (\delta_\epsilon$),ドメイン間の分散的不一致,定数の4つの用語を含む。 開集合の違いと比較して、$\Delta_\epsilon$ は最小化されるときにこの問題に対してより堅牢であり、非常に柔軟な分類器(DNN)を使うことができる。 そこで本研究では,新しい上限を最小化することでdnnを訓練する新しい原理誘導深層uosda法を提案する。 具体的には、ソースドメインリスクと$\Delta_\epsilon$は勾配降下によって最小化され、分散の相違は、新しいオープンセット条件付き対角訓練戦略によって最小化される。 最後に,従来の浅層および深部UOSDA法と比較して,数値認識(MNIST,SVHN,USPS),オブジェクト認識(Office-31,Office-Home),顔認識(PIE)など,いくつかのベンチマークデータセット上での最先端性能を示す。

In the unsupervised open set domain adaptation (UOSDA), the target domain contains unknown classes that are not observed in the source domain. Researchers in this area aim to train a classifier to accurately: 1) recognize unknown target data (data with unknown classes) and, 2) classify other target data. To achieve this aim, a previous study has proven an upper bound of the target-domain risk, and the open set difference, as an important term in the upper bound, is used to measure the risk on unknown target data. By minimizing the upper bound, a shallow classifier can be trained to achieve the aim. However, if the classifier is very flexible (e.g., deep neural networks (DNNs)), the open set difference will converge to a negative value when minimizing the upper bound, which causes an issue where most target data are recognized as unknown data. To address this issue, we propose a new upper bound of target-domain risk for UOSDA, which includes four terms: source-domain risk, $\epsilon$-open set difference ($\Delta_\epsilon$), a distributional discrepancy between domains, and a constant. Compared to the open set difference, $\Delta_\epsilon$ is more robust against the issue when it is being minimized, and thus we are able to use very flexible classifiers (i.e., DNNs). Then, we propose a new principle-guided deep UOSDA method that trains DNNs via minimizing the new upper bound. Specifically, source-domain risk and $\Delta_\epsilon$ are minimized by gradient descent, and the distributional discrepancy is minimized via a novel open-set conditional adversarial training strategy. Finally, compared to existing shallow and deep UOSDA methods, our method shows the state-of-the-art performance on several benchmark datasets, including digit recognition (MNIST, SVHN, USPS), object recognition (Office-31, Office-Home), and face recognition (PIE).
翻訳日:2022-11-17 21:42:33 公開日:2020-06-23
# 可変長遺伝的アルゴリズムを用いたディープラーニングにおける高パラメータ最適化

Efficient Hyperparameter Optimization in Deep Learning Using a Variable Length Genetic Algorithm ( http://arxiv.org/abs/2006.12703v1 )

ライセンス: Link先を確認
Xueli Xiao, Ming Yan, Sunitha Basodi, Chunyan Ji, Yi Pan(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの人工知能タスクで大きな成功を収めている。 しかし、CNNに適したハイパーパラメータセットを見つけることは、依然として難しい課題である。 通常、深い知識と試行錯誤を専門とする。 遺伝的アルゴリズムはハイパーパラメータ最適化に使われている。 しかしながら、固定長染色体を持つ従来の遺伝的アルゴリズムは、深層学習モデルがモデル深度に依存して可変数のハイパーパラメータを持つため、ディープラーニングハイパーパラメータを最適化するのに適していないかもしれない。 深さが大きくなるにつれて、ハイパーパラメータの数は指数関数的に増加し、探索は指数関数的に難しくなる。 適切な時間で良いモデルを見つけることができる効率的なアルゴリズムを持つことが重要です。 本稿では、可変長遺伝的アルゴリズム(GA)を用いて、CNNのハイパーパラメータを体系的に自動調整し、その性能を改善することを提案する。 実験の結果,良好なcnnハイパーパラメータを効率的に検出できることがわかった。 我々の実験から、ハイパーパラメータの最適化により多くの時間を費やすと、より良い結果が得られます。 理論的には、無制限の時間とCPUパワーがあれば、最適化されたハイパーパラメータを見つけ、将来最高の結果が得られるでしょう。

Convolutional Neural Networks (CNN) have gained great success in many artificial intelligence tasks. However, finding a good set of hyperparameters for a CNN remains a challenging task. It usually takes an expert with deep knowledge, and trials and errors. Genetic algorithms have been used in hyperparameter optimizations. However, traditional genetic algorithms with fixed-length chromosomes may not be a good fit for optimizing deep learning hyperparameters, because deep learning models have variable number of hyperparameters depending on the model depth. As the depth increases, the number of hyperparameters grows exponentially, and searching becomes exponentially harder. It is important to have an efficient algorithm that can find a good model in reasonable time. In this article, we propose to use a variable length genetic algorithm (GA) to systematically and automatically tune the hyperparameters of a CNN to improve its performance. Experimental results show that our algorithm can find good CNN hyperparameters efficiently. It is clear from our experiments that if more time is spent on optimizing the hyperparameters, better results could be achieved. Theoretically, if we had unlimited time and CPU power, we could find the optimized hyperparameters and achieve the best results in the future.
翻訳日:2022-11-17 21:40:29 公開日:2020-06-23
# 多層パーセプトロンによる車線変更操作の長期予測

Long-Term Prediction of Lane Change Maneuver Through a Multilayer Perceptron ( http://arxiv.org/abs/2006.12769v1 )

ライセンス: Link先を確認
Zhenyu Shou and Ziran Wang and Kyungtae Han and Yongkang Liu and Prashant Tiwari and Xuan Di(参考訳) 行動予測は、周囲の環境における差し迫った危険に対する車両の認識を高めるため、自律運転システムと先進運転支援システム(ADAS)の両方において重要な役割を果たす。 既存の車線変更予測モデルは、入力側方または角度情報として、短期的(<5秒)操作予測を行う。 本研究では,側方情報や角度情報のない長期予測モデル(5~10秒)を提案する。 ロジスティック回帰モデル、多層パーセプトロン(mlp)モデル、リカレントニューラルネットワーク(rnn)モデルを含む3つの予測モデルを導入し、実世界のngsimデータセットを用いてそれらの性能を比較する。 軌道データに適切なラベルを付けるために,正のサンプルと負のサンプルの時間ギャップを付加した新しいタイムワインドウラベル方式を提案する。 不安定な予測問題にも対処する2つのアプローチが提案され、攻撃的アプローチは各正の予測を一定秒間伝播する一方、保守的手法はロールウインドウ平均を採用して予測を円滑にする。 評価結果から, 開発した予測モデルでは, 実車線変更操作の75%を平均8.05秒で捉えることができることがわかった。

Behavior prediction plays an essential role in both autonomous driving systems and Advanced Driver Assistance Systems (ADAS), since it enhances vehicle's awareness of the imminent hazards in the surrounding environment. Many existing lane change prediction models take as input lateral or angle information and make short-term (< 5 seconds) maneuver predictions. In this study, we propose a longer-term (5~10 seconds) prediction model without any lateral or angle information. Three prediction models are introduced, including a logistic regression model, a multilayer perceptron (MLP) model, and a recurrent neural network (RNN) model, and their performances are compared by using the real-world NGSIM dataset. To properly label the trajectory data, this study proposes a new time-window labeling scheme by adding a time gap between positive and negative samples. Two approaches are also proposed to address the unstable prediction issue, where the aggressive approach propagates each positive prediction for certain seconds, while the conservative approach adopts a roll-window average to smooth the prediction. Evaluation results show that the developed prediction model is able to capture 75% of real lane change maneuvers with an average advanced prediction time of 8.05 seconds.
翻訳日:2022-11-17 21:35:10 公開日:2020-06-23
# 不確かな目的と制約の下での安全な学習

Safe Learning under Uncertain Objectives and Constraints ( http://arxiv.org/abs/2006.13326v1 )

ライセンス: Link先を確認
Mohammad Fereydounian, Zebang Shen, Aryan Mokhtari, Amin Karbasi, Hamed Hassani(参考訳) 本稿では,textit{unknown}の下での非凸最適化問題について考察する。 このような問題は、ロボット工学、製造、医療などの様々な領域で自然に発生し、すべての制約を知ることも特定することも不可能である。 したがって、パラメータ空間は、安全な初期化点から始めると、最適化プロセス中にどの制約も違反しないように、保守的な方法で探索すべきである。 そこで我々は,Reliable Frank-Wolfe (Reliable-FW) と呼ばれるアルゴリズムを開発した。 一般凸関数と未知のポリトープ制約が与えられた場合、Reliable-FWは目的関数のランドスケープと安全ポリトープの境界を同時に学習する。 より正確には、Reliable-FW が目的関数の(確率的な)勾配オラクルと安全ポリトープのノイズの多い実現可能性オラクルにアクセスできると仮定することで、最適な ${\mathcal{O}}({1}/{\epsilon^2})$勾配オラクル複雑性(resp)を持つ$\epsilon$-approximate 1次定常点が見つかる。 確率勾配設定では、$\tilde{\mathcal{o}}({1}/{\epsilon^3})$(最適)であり、全ての反復の安全性を保証する。 意外なことに、Reliable-FWは$\tilde{\mathcal{O}}(({d^2}/{\epsilon^2})\log 1/\delta)$クエリをノイズの多い折りたたみオラクル(resp)にのみ生成します。 $\tilde{\mathcal{O}}(({d^2}/{\epsilon^4})\log 1/\delta)$ in the stochastic gradient setting) ここで$d$は次元、$\delta$は信頼性パラメータであり、凸関数の安全な最小化さえも既存の境界を締め付ける。 さらに,目的関数が凸である場合に,結果をさらに専門化する。 我々の分析の重要な要素は、安全な最適化の文脈で幾何収縮と呼ばれる手法を導入し適用することである。

In this paper, we consider non-convex optimization problems under \textit{unknown} yet safety-critical constraints. Such problems naturally arise in a variety of domains including robotics, manufacturing, and medical procedures, where it is infeasible to know or identify all the constraints. Therefore, the parameter space should be explored in a conservative way to ensure that none of the constraints are violated during the optimization process once we start from a safe initialization point. To this end, we develop an algorithm called Reliable Frank-Wolfe (Reliable-FW). Given a general non-convex function and an unknown polytope constraint, Reliable-FW simultaneously learns the landscape of the objective function and the boundary of the safety polytope. More precisely, by assuming that Reliable-FW has access to a (stochastic) gradient oracle of the objective function and a noisy feasibility oracle of the safety polytope, it finds an $\epsilon$-approximate first-order stationary point with the optimal ${\mathcal{O}}({1}/{\epsilon^2})$ gradient oracle complexity (resp. $\tilde{\mathcal{O}}({1}/{\epsilon^3})$ (also optimal) in the stochastic gradient setting), while ensuring the safety of all the iterates. Rather surprisingly, Reliable-FW only makes $\tilde{\mathcal{O}}(({d^2}/{\epsilon^2})\log 1/\delta)$ queries to the noisy feasibility oracle (resp. $\tilde{\mathcal{O}}(({d^2}/{\epsilon^4})\log 1/\delta)$ in the stochastic gradient setting) where $d$ is the dimension and $\delta$ is the reliability parameter, tightening the existing bounds even for safe minimization of convex functions. We further specialize our results to the case that the objective function is convex. A crucial component of our analysis is to introduce and apply a technique called geometric shrinkage in the context of safe optimization.
翻訳日:2022-11-17 21:33:19 公開日:2020-06-23
# 生物工学的深層学習のための畳み込みニューラルネットワークへの直接フィードバックアライメントの拡張

Extension of Direct Feedback Alignment to Convolutional and Recurrent Neural Network for Bio-plausible Deep Learning ( http://arxiv.org/abs/2006.12830v1 )

ライセンス: Link先を確認
Donghyeon Han and Gwangtae Park and Junha Ryu and Hoi-jun Yoo(参考訳) 本稿では,直接フィードバックアライメント(direct feedback alignment, dfa)アルゴリズムの改良と,畳み込みニューラルネットワーク(cnns, rnns)へのdfaの利用について述べる。 DFAアルゴリズムは生物学的に検証可能であり、高速トレーニングの可能性を秘めているが、CNNおよびRNNトレーニングの精度が低いため、バックプロパゲーション(BP)の代替とは考えられていない。 本研究では,BPレベルの高精度CNNとRNNトレーニングのための新しいDFAアルゴリズムを提案する。 まず,ネットワークを複数のモジュールに分割し,モジュール内にDFAアルゴリズムを適用する。 次に、粗い後方重量のDFAを適用する。 CNNの場合では拡張畳み込みの形で、RNNの場合ではスパース行列の乗算の形で提供される。 さらに、グループ畳み込みにより、CNNの誤り伝搬法がより簡単になる。 最後に、ハイブリッドDFAは、DFAアルゴリズムの並列性とハードウェア効率を活用しながら、CNNおよびRNNトレーニングの精度をBPレベルに引き上げる。

Throughout this paper, we focus on the improvement of the direct feedback alignment (DFA) algorithm and extend the usage of the DFA to convolutional and recurrent neural networks (CNNs and RNNs). Even though the DFA algorithm is biologically plausible and has a potential of high-speed training, it has not been considered as the substitute for back-propagation (BP) due to the low accuracy in the CNN and RNN training. In this work, we propose a new DFA algorithm for BP-level accurate CNN and RNN training. Firstly, we divide the network into several modules and apply the DFA algorithm within the module. Second, the DFA with the sparse backward weight is applied. It comes with a form of dilated convolution in the CNN case, and in a form of sparse matrix multiplication in the RNN case. Additionally, the error propagation method of CNN becomes simpler through the group convolution. Finally, hybrid DFA increases the accuracy of the CNN and RNN training to the BP-level while taking advantage of the parallelism and hardware efficiency of the DFA algorithm.
翻訳日:2022-11-17 21:24:45 公開日:2020-06-23
# 複雑な配列のよりロバストな階層制御のための視床皮質運動回路インサイト

Thalamocortical motor circuit insights for more robust hierarchical control of complex sequences ( http://arxiv.org/abs/2006.13332v1 )

ライセンス: Link先を確認
Laureline Logiaco, G. Sean Escola(参考訳) 再利用可能な「モチフス」の結合からなる時間系列を生成するリカレントニューラルネットワークの学習について検討した。 神経科学やロボティクスの文脈では、これらのモチーフは複雑な行動を生み出すモータープリミティブである。 既知のモチーフセットが与えられると、既知のセットのパフォーマンスに影響を与えずに新しいモチーフを学習でき、その後、まずすべての移行を明示的に学習せずに新しいシーケンスで使用できますか? この2つの要件があります (i)新しいモチーフを学習しながらのパラメータ更新は、予め取得したモチーフのパラメータに干渉しない。 (ii)トレーニング中にその状態が存在しない場合でも、ネットワーク状態から他のモチーフの末尾に到達すると、新たなモチーフを頑健に生成することができる。 第1の要件は,特定のアーキテクチャを用いたニューラルネットワーク(anns)の探索と,ランダム初期状態からモチーフを生成するようにトレーニングすることで,第2の要件を満たそうとするものである。 単一モチーフの学習は成功するが、シーケンス生成は堅牢ではなく、トランジッションの失敗が観察される。 次に, モチーフ遷移を実装するための具体的モジュールを具体化し, 構造と解析的引き込み可能なダイナミクスをモータタラモ皮質回路にインスパイアしたモデルと比較する。 このモデルのシナプス重みは、シミュレーションネットワーク出力の確率的勾配降下 (sgd) を必要とせずに調整することができ、遷移が失敗しないことを漸近的に保証する。 実際,シミュレーションでは,先行研究したannと同等の単一motif精度を達成し,遷移故障を伴わずにシークエンシングロバスト性を改善した。 最後に,本モデルにおける遷移サブネットワークの研究から得られた知見は,従来研究されていたANNにおける遷移の堅牢性の向上にも寄与することを示す。

We study learning of recurrent neural networks that produce temporal sequences consisting of the concatenation of re-usable "motifs". In the context of neuroscience or robotics, these motifs would be the motor primitives from which complex behavior is generated. Given a known set of motifs, can a new motif be learned without affecting the performance of the known set and then used in new sequences without first explicitly learning every possible transition? Two requirements enable this: (i) parameter updates while learning a new motif do not interfere with the parameters used for the previously acquired ones; and (ii) a new motif can be robustly generated when starting from the network state reached at the end of any of the other motifs, even if that state was not present during training. We meet the first requirement by investigating artificial neural networks (ANNs) with specific architectures, and attempt to meet the second by training them to generate motifs from random initial states. We find that learning of single motifs succeeds but that sequence generation is not robust: transition failures are observed. We then compare these results with a model whose architecture and analytically-tractable dynamics are inspired by the motor thalamocortical circuit, and that includes a specific module used to implement motif transitions. The synaptic weights of this model can be adjusted without requiring stochastic gradient descent (SGD) on the simulated network outputs, and we have asymptotic guarantees that transitions will not fail. Indeed, in simulations, we achieve single-motif accuracy on par with the previously studied ANNs and have improved sequencing robustness with no transition failures. Finally, we show that insights obtained by studying the transition subnetwork of this model can also improve the robustness of transitioning in the traditional ANNs previously studied.
翻訳日:2022-11-17 21:24:11 公開日:2020-06-23
# 主成分ネットワーク: 訓練初期におけるパラメータ削減

Principal Component Networks: Parameter Reduction Early in Training ( http://arxiv.org/abs/2006.13347v1 )

ライセンス: Link先を確認
Roger Waleffe and Theodoros Rekatsinas(参考訳) 近年の研究では、過パラメータネットワークには、分離して訓練された場合のフルモデルに匹敵する精度を示す小さなサブネットワークが含まれていることが示されている。 これらの結果は、一般化性能を犠牲にすることなく、ディープニューラルネットワークのトレーニングコストを削減する可能性を強調している。 しかし、これらの小さなネットワークを見つけるための既存のアプローチは、高価なマルチラウンド列車とpruneの手順に依存しており、大規模なデータセットやモデルでは実践的ではない。 本稿では,ほんの数回の訓練期間の後に,過度にパラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。 過パラメータ化ネットワークにおける隠蔽層活性化は、主に実際のモデル幅よりも小さい部分空間に存在する。 この観測に基づいて,PCAを用いて層入力の高分散の基盤を見つけ,これらの方向を用いて層重みを表現する。 我々は、PCAベースに関係のない全ての重みを排除し、これらのネットワークアーキテクチャを主成分ネットワークと呼ぶ。 CIFAR-10 と ImageNet では,PCN は過パラメータモデルよりも高速でエネルギーを消費し,精度を損なわないことを示した。 私たちのトランスフォーメーションは、パラメータが最大で23.8倍、エンドツーエンドモデルの精度が同等あるいは高いネットワークに結びつくことが分かりました。 また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。

Recent works show that overparameterized networks contain small subnetworks that exhibit comparable accuracy to the full model when trained in isolation. These results highlight the potential to reduce training costs of deep neural networks without sacrificing generalization performance. However, existing approaches for finding these small networks rely on expensive multi-round train-and-prune procedures and are non-practical for large data sets and models. In this paper, we show how to find small networks that exhibit the same performance as their overparameterized counterparts after only a few training epochs. We find that hidden layer activations in overparameterized networks exist primarily in subspaces smaller than the actual model width. Building on this observation, we use PCA to find a basis of high variance for layer inputs and represent layer weights using these directions. We eliminate all weights not relevant to the found PCA basis and term these network architectures Principal Component Networks. On CIFAR-10 and ImageNet, we show that PCNs train faster and use less energy than overparameterized models, without accuracy loss. We find that our transformation leads to networks with up to 23.8x fewer parameters, with equal or higher end-model accuracy---in some cases we observe improvements up to 3%. We also show that ResNet-20 PCNs outperform deep ResNet-110 networks while training faster.
翻訳日:2022-11-17 21:23:39 公開日:2020-06-23
# neuralscale: リソース制約付きディープニューラルネットワークのためのニューロンの効率的なスケーリング

NeuralScale: Efficient Scaling of Neurons for Resource-Constrained Deep Neural Networks ( http://arxiv.org/abs/2006.12813v1 )

ライセンス: Link先を確認
Eugene Lee and Chen-Yi Lee(参考訳) パフォーマンスを最大化するためにディープニューラルネットワークの設計中にニューロン量を決定することは直感的ではない。 本研究では、精度を最大化する固定されたネットワークアーキテクチャのニューロン(フィルタ)構成を探索する。 反復的プルーニング法をプロキシとして,パラメータの変化に関して各レイヤのニューロン(フィルタ)数の変化をパラメータ化することにより,任意のサイズのアーキテクチャを効率的にスケールすることができる。 また,モデルスケーリングに使用されるパラメータ化関数を反復的に洗練するアーキテクチャ降下についても紹介する。 提案手法の組み合わせはNeuralScaleと呼ばれる。 パラメータの観点からニューラルスケールの効率性を証明するため,ベンチマークデータセットとしてcifar10,cifar100,tinyimagenetを用いたvgg11,mobilenetv2,resnet18の実証シミュレーションを行った。 CIFAR10, CIFAR100, TinyImageNetにおけるVGG11, MobileNetV2, ResNet18の3.41%の精度が, デフォルト設定のパラメータ制約設定(出力ニューロン, フィルタ)では0.25。

Deciding the amount of neurons during the design of a deep neural network to maximize performance is not intuitive. In this work, we attempt to search for the neuron (filter) configuration of a fixed network architecture that maximizes accuracy. Using iterative pruning methods as a proxy, we parameterize the change of the neuron (filter) number of each layer with respect to the change in parameters, allowing us to efficiently scale an architecture across arbitrary sizes. We also introduce architecture descent which iteratively refines the parameterized function used for model scaling. The combination of both proposed methods is coined as NeuralScale. To prove the efficiency of NeuralScale in terms of parameters, we show empirical simulations on VGG11, MobileNetV2 and ResNet18 using CIFAR10, CIFAR100 and TinyImageNet as benchmark datasets. Our results show an increase in accuracy of 3.04%, 8.56% and 3.41% for VGG11, MobileNetV2 and ResNet18 on CIFAR10, CIFAR100 and TinyImageNet respectively under a parameter-constrained setting (output neurons (filters) of default configuration with scaling factor of 0.25).
翻訳日:2022-11-17 21:23:16 公開日:2020-06-23
# 文脈自然言語クエリを用いたロボットオブジェクト検索

Robot Object Retrieval with Contextual Natural Language Queries ( http://arxiv.org/abs/2006.13253v1 )

ライセンス: Link先を確認
Thao Nguyen, Nakul Gopalan, Roma Patel, Matt Corsaro, Ellie Pavlick, Stefanie Tellex(参考訳) 自然言語オブジェクトの検索は、人間中心環境におけるロボットにとって非常に有用だが困難なタスクである。 これまでの作業は、主に"scissors"や"red"のような視覚的属性など、望ましいオブジェクトの型を指定するコマンドに焦点を当てており、ロボットは既知のオブジェクトクラスのみに制限されている。 我々は,オブジェクトの使用方法の説明に基づいてオブジェクトを取得するモデルを開発した。 モデルは動詞を含む言語コマンド、例えば"hand me something to cut"と候補オブジェクトのrgbイメージを取り込んで、動詞によって指定されたタスクを最も満足するオブジェクトを選択する。 我々のモデルは、動詞句で指定されたオブジェクトの使用からオブジェクトの外観を直接予測する。 オブジェクトのクラスラベルを明示的に指定する必要はありません。 私たちのアプローチでは、言語クエリに基づいてオブジェクトのユーティリティのような高レベルな概念を予測できます。 言語コマンドに存在する文脈情報に基づいて、我々のモデルはコマンドの未確認オブジェクトクラスと未知の名詞に一般化することができる。 我々のモデルは、自然言語コマンドを満たす5つの候補からオブジェクトを正しく選択し、未確認のImageNetオブジェクトクラスと未知の名詞で保持されたテストセット上で平均62.3%の精度を達成する。 また、画像ネットオブジェクトとは異なる画像分布を持つ未確認YCBオブジェクトクラスでは、平均54.7%の精度が得られる。 我々は,KUKA LBR Iiwaロボットアームを用いて,その使用法を自然言語で記述したオブジェクトの検索を行う。 また,50の動詞と216のオブジェクトクラスを対象とする655の動詞オブジェクトペアのデータセットも提示した。

Natural language object retrieval is a highly useful yet challenging task for robots in human-centric environments. Previous work has primarily focused on commands specifying the desired object's type such as "scissors" and/or visual attributes such as "red," thus limiting the robot to only known object classes. We develop a model to retrieve objects based on descriptions of their usage. The model takes in a language command containing a verb, for example "Hand me something to cut," and RGB images of candidate objects and selects the object that best satisfies the task specified by the verb. Our model directly predicts an object's appearance from the object's use specified by a verb phrase. We do not need to explicitly specify an object's class label. Our approach allows us to predict high level concepts like an object's utility based on the language query. Based on contextual information present in the language commands, our model can generalize to unseen object classes and unknown nouns in the commands. Our model correctly selects objects out of sets of five candidates to fulfill natural language commands, and achieves an average accuracy of 62.3% on a held-out test set of unseen ImageNet object classes and 53.0% on unseen object classes and unknown nouns. Our model also achieves an average accuracy of 54.7% on unseen YCB object classes, which have a different image distribution from ImageNet objects. We demonstrate our model on a KUKA LBR iiwa robot arm, enabling the robot to retrieve objects based on natural language descriptions of their usage. We also present a new dataset of 655 verb-object pairs denoting object usage over 50 verbs and 216 object classes.
翻訳日:2022-11-17 21:22:23 公開日:2020-06-23
# 転校学習の限界

Limits of Transfer Learning ( http://arxiv.org/abs/2006.12694v1 )

ライセンス: Link先を確認
Jake Williams, Abel Tadesse, Tyler Sam, Huey Sun, George D. Montanez(参考訳) 伝達学習は、ある問題領域から情報と洞察を取得し、それを新しい問題領域に適用する。 実際には広く使われているが、転校学習の理論は未発達のままである。 そこで本研究では,移動学習に関連するいくつかの新たな成果を証明し,転送する情報の集合を慎重に選択する必要性と,転送する情報と対象問題との依存関係の必要性を示す。 さらに,トランスファー学習を用いたアルゴリズムにおける確率的変化の程度が,改善可能性の上限となることを実証する。 これらの結果は、機械学習のためのアルゴリズム検索フレームワークの上に構築され、転送を用いた幅広い学習問題に適用できる。

Transfer learning involves taking information and insight from one problem domain and applying it to a new problem domain. Although widely used in practice, theory for transfer learning remains less well-developed. To address this, we prove several novel results related to transfer learning, showing the need to carefully select which sets of information to transfer and the need for dependence between transferred information and target problems. Furthermore, we prove how the degree of probabilistic change in an algorithm using transfer learning places an upper bound on the amount of improvement possible. These results build on the algorithmic search framework for machine learning, allowing the results to apply to a wide range of learning problems using transfer.
翻訳日:2022-11-17 21:21:56 公開日:2020-06-23
# マーケットプレースにおけるフェアネスの枠組み

A Framework for Fairness in Two-Sided Marketplaces ( http://arxiv.org/abs/2006.12756v1 )

ライセンス: Link先を確認
Kinjal Basu, Cyrus DiCiccio, Heloise Logan, Noureddine El Karoui(参考訳) インターネット業界における多くの興味深い問題は、両面の市場問題とみなすことができる。 例えば、検索アプリケーションや、人、仕事、映画、製品、レストランなどを表示するレコメンデーションシステムなどがある。 このようなシステムを構築する際に公正さを取り入れることは非常に重要であり、社会的・経済的影響が深い(求職推薦、候補者の募集など)。 本稿では,このような機械学習システムを大規模に構築しながら,公平性を実現するための定義とエンドツーエンドフレームワークの開発を行う。 マーケットプレースのソース側とデスティネーション側の両方からの公正性制約に対処し、問題の動的な側面に対処できる最適化フレームワークを開発するために、事前作業を拡張する。 このフレームワークは公平性の異なる定義に適応するのに十分な柔軟性があり、非常に大規模な設定で実装できる。 我々のアプローチの有効性を示すためにシミュレーションを行う。

Many interesting problems in the Internet industry can be framed as a two-sided marketplace problem. Examples include search applications and recommender systems showing people, jobs, movies, products, restaurants, etc. Incorporating fairness while building such systems is crucial and can have a deep social and economic impact (applications include job recommendations, recruiters searching for candidates, etc.). In this paper, we propose a definition and develop an end-to-end framework for achieving fairness while building such machine learning systems at scale. We extend prior work to develop an optimization framework that can tackle fairness constraints from both the source and destination sides of the marketplace, as well as dynamic aspects of the problem. The framework is flexible enough to adapt to different definitions of fairness and can be implemented in very large-scale settings. We perform simulations to show the efficacy of our approach.
翻訳日:2022-11-17 21:21:46 公開日:2020-06-23