このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200226となっている論文です。

PDF登録状況(公開日: 20200226)

TitleAuthorsAbstract論文公表日・翻訳日
# Smoother-than-Lipschitzバンドのトンプソンサンプリングについて

On Thompson Sampling for Smoother-than-Lipschitz Bandits ( http://arxiv.org/abs/2001.02323v2 )

ライセンス: Link先を確認
James A. Grant and David S. Leslie(参考訳) トンプソンサンプリングは、盗賊と強化学習問題に対する確立されたアプローチである。 しかし、連続武装バンディット問題における使用は、比較的ほとんど注目されていない。 実関数と準指数観測ノイズを含む関数クラス上で、弱い条件下での連続的な武装包帯に対するトンプソンサンプリングの後悔に関する最初の境界を与える。 我々の境界は、最近提案された関数クラスの複雑性の尺度であるeluder次元の解析によって実現され、サブガウシアン観測ノイズ下での単純なバンディット問題に対するトンプソンサンプリングのベイズ的後悔の境界として有用であることが証明されている。 我々は、リプシッツ微分を持つ函数のクラスに対するエルダー次元の新しい境界を導出し、複数の点で以前の解析を一般化する。

Thompson Sampling is a well established approach to bandit and reinforcement learning problems. However its use in continuum armed bandit problems has received relatively little attention. We provide the first bounds on the regret of Thompson Sampling for continuum armed bandits under weak conditions on the function class containing the true function and sub-exponential observation noise. Our bounds are realised by analysis of the eluder dimension, a recently proposed measure of the complexity of a function class, which has been demonstrated to be useful in bounding the Bayesian regret of Thompson Sampling for simpler bandit problems under sub-Gaussian observation noise. We derive a new bound on the eluder dimension for classes of functions with Lipschitz derivatives, and generalise previous analyses in multiple regards.
翻訳日:2023-01-13 09:41:37 公開日:2020-02-26
# 深層ニューラルネットワークのためのフィルタグラフト

Filter Grafting for Deep Neural Networks ( http://arxiv.org/abs/2001.05868v3 )

ライセンス: Link先を確認
Fanxu Meng, Hao Cheng, Ke Li, Zhixin Xu, Rongrong Ji, Xing Sun, Gaungming Lu(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の表現能力の向上を目的とした,フィルタグラフトと呼ばれる新しい学習パラダイムを提案する。 動機は、DNNが重要でないフィルタ(例えば、l1ノルムが0に近い)を持っていることである。 これらのフィルタは、ネットワークへの影響が少ないと認識されるため、dnnのポテンシャルを制限する。 フィルタプルーニングは効率を考慮してこれらの無効フィルタを除去するが、フィルタグラフトは精度向上の観点から再活性化する。 アクティベーションは外部情報(重み)を無効なフィルタに移植することで処理される。 グラフト処理をよりよく行うために,フィルタの情報を測定するエントロピーベースの基準と,グラフトされた情報をネットワーク間でバランスをとるための適応重み付け戦略を開発する。 グラフト操作後、ネットワークは非タッチ状態と比較して無効なフィルタがほとんどなく、より表現能力の高いモデルに力を与える。 また,提案手法の優越性を示すために,分類と認識タスクに関する広範囲な実験を行った。 例えば、グラフトされたMobileNetV2は、CIFAR-100データセットで非グラフトされたMobileNetV2を約7%上回っている。 コードはhttps://github.com/fxmeng/filter-grafting.gitで入手できる。

This paper proposes a new learning paradigm called filter grafting, which aims to improve the representation capability of Deep Neural Networks (DNNs). The motivation is that DNNs have unimportant (invalid) filters (e.g., l1 norm close to 0). These filters limit the potential of DNNs since they are identified as having little effect on the network. While filter pruning removes these invalid filters for efficiency consideration, filter grafting re-activates them from an accuracy boosting perspective. The activation is processed by grafting external information (weights) into invalid filters. To better perform the grafting process, we develop an entropy-based criterion to measure the information of filters and an adaptive weighting strategy for balancing the grafted information among networks. After the grafting operation, the network has very few invalid filters compared with its untouched state, enpowering the model with more representation capacity. We also perform extensive experiments on the classification and recognition tasks to show the superiority of our method. For example, the grafted MobileNetV2 outperforms the non-grafted MobileNetV2 by about 7 percent on CIFAR-100 dataset. Code is available at https://github.com/fxmeng/filter-grafting.git.
翻訳日:2023-01-11 06:06:43 公開日:2020-02-26
# adversarial tcav --ニューラルネットワークにおける中間層のロバストかつ効果的な解釈

Adversarial TCAV -- Robust and Effective Interpretation of Intermediate Layers in Neural Networks ( http://arxiv.org/abs/2002.03549v2 )

ライセンス: Link先を確認
Rahul Soni, Naresh Shah, Chua Tat Seng, Jimmy D. Moore(参考訳) ニューラルネットワークの決定と中間層で得られる情報解釈は、不透明な内部状態と共有非線形相互作用のため、依然として課題である。 kim et al, 2017)は、ユーザ定義の概念(ランダムな例から)を識別する能力を定量化することで中間層を解釈することを提案したが、ロバスト性(ランダムな例の選択に対する変動)と有効性(概念画像の再評価率)の疑問は残る。 この2つの特性について検討し,概念活性化を実用的に信頼性を高めるための改善を提案する。 有効性: 中間層がユーザ定義の概念を効果的に学習した場合、テストステップで --- 提案する概念を含むイメージの大部分を思い出せるべきです。 例えば、imagenet データセットからユーザ定義の概念として "fins" を用いたタイガーシャークとグレートホワイトシャークのリコール率は、vgg16の18.35%に過ぎなかった。 概念学習の有効性を高めるため,A-CAV (Adversarial Concept Activation Vector) を提案する。 このアプローチにより、VGG16のリコールは76.83%向上した。 ロバスト性については、中間層が異なるランダム種子のリコール率(有効性)に一貫性を持つ能力として定義する。 TCAVは、異なるランダムシードのコンセプトをリコールする際、大きなばらつきがあることを観察した。 例えば、猫画像のリコール(尾部の概念を学習する層から)は18%から86%に変化し、VGG16の標準偏差は20.85%である。 本稿では,Gram-Schmidtプロセスを用いて,概念からランダムノイズをサンプリングし,平均的な"概念分類器"を学習する,シンプルでスケーラブルな修正を提案する。 このアプローチは、aforesaid標準偏差を20.85%から6.4%に改善する。

Interpreting neural network decisions and the information learned in intermediate layers is still a challenge due to the opaque internal state and shared non-linear interactions. Although (Kim et al, 2017) proposed to interpret intermediate layers by quantifying its ability to distinguish a user-defined concept (from random examples), the questions of robustness (variation against the choice of random examples) and effectiveness (retrieval rate of concept images) remain. We investigate these two properties and propose improvements to make concept activations reliable for practical use. Effectiveness: If the intermediate layer has effectively learned a user-defined concept, it should be able to recall --- at the testing step --- most of the images containing the proposed concept. For instance, we observed that the recall rate of Tiger shark and Great white shark from the ImageNet dataset with "Fins" as a user-defined concept was only 18.35% for VGG16. To increase the effectiveness of concept learning, we propose A-CAV --- the Adversarial Concept Activation Vector --- this results in larger margins between user concepts and (negative) random examples. This approach improves the aforesaid recall to 76.83% for VGG16. For robustness, we define it as the ability of an intermediate layer to be consistent in its recall rate (the effectiveness) for different random seeds. We observed that TCAV has a large variance in recalling a concept across different random seeds. For example, the recall of cat images (from a layer learning the concept of tail) varies from 18% to 86% with 20.85% standard deviation on VGG16. We propose a simple and scalable modification that employs a Gram-Schmidt process to sample random noise from concepts and learn an average "concept classifier". This approach improves the aforesaid standard deviation from 20.85% to 6.4%.
翻訳日:2023-01-02 07:21:37 公開日:2020-02-26
# Goldilocksのニューラルネットワーク

Goldilocks Neural Networks ( http://arxiv.org/abs/2002.05059v2 )

ライセンス: Link先を確認
Jan Rosenzweig, Zoran Cvetkovic and Ivana Rosenzweig(参考訳) 入力信号が適切な範囲内にある場合にのみ局所的に入力信号を非線型に変形させる新しい「goldilocks」タイプのアクティベーション関数を導入する。 信号の小さな局所的な変形は、信号が層を通してどのように変換されるかと理由をよりよく理解する。 CIFAR-10 と CIFAR-100 データセットの数値結果から,Goldilocks ネットワークは SELU や RELU よりも優れた性能を示し,層間データ変形のトラクタビリティを導入している。

We introduce the new "Goldilocks" class of activation functions, which non-linearly deform the input signal only locally when the input signal is in the appropriate range. The small local deformation of the signal enables better understanding of how and why the signal is transformed through the layers. Numerical results on CIFAR-10 and CIFAR-100 data sets show that Goldilocks networks perform better than, or comparably to SELU and RELU, while introducing tractability of data deformation through the layers.
翻訳日:2023-01-02 01:47:40 公開日:2020-02-26
# 逆Dot-Product Attention Routingを用いたカプセル

Capsules with Inverted Dot-Product Attention Routing ( http://arxiv.org/abs/2002.04764v2 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Nitish Srivastava, Hanlin Goh, Ruslan Salakhutdinov(参考訳) 本研究では,親の状態と子票の一致のみに基づいて,子カプセルを親カプセルにルーティングする,カプセルネットワークのための新たなルーティングアルゴリズムを提案する。 新しいメカニズムは 1) 逆ドット製品注意による経路設計 2) 正常化として層正規化を課す。 3) 逐次反復ルーティングを並列反復ルーティングに置き換える。 CIFAR-10 や CIFAR-100 などのベンチマークデータセットでは,従来提案したルーティングアルゴリズムと比較して性能が向上し,パラメータが 4 倍少ない強力な CNN (ResNet-18) と同等に動作する。 重ね合わせのデジット画像からデジットを識別する別のタスクにおいて,提案するカプセルモデルは,同一の層数と層当たりのニューロンを与えられたcnnに対して好適に機能する。 私たちの研究は、複雑な現実世界のタスクにカプセルネットワークを適用する可能性を高めると信じています。 https://github.com/apple/ml-capsules-inverted-attention-routing https://github.com/yaohungt/Capsules-inverted-Attention-Routing/blob/master/README.md

We introduce a new routing algorithm for capsule networks, in which a child capsule is routed to a parent based only on agreement between the parent's state and the child's vote. The new mechanism 1) designs routing via inverted dot-product attention; 2) imposes Layer Normalization as normalization; and 3) replaces sequential iterative routing with concurrent iterative routing. When compared to previously proposed routing algorithms, our method improves performance on benchmark datasets such as CIFAR-10 and CIFAR-100, and it performs at-par with a powerful CNN (ResNet-18) with 4x fewer parameters. On a different task of recognizing digits from overlayed digit images, the proposed capsule model performs favorably against CNNs given the same number of layers and neurons per layer. We believe that our work raises the possibility of applying capsule networks to complex real-world tasks. Our code is publicly available at: https://github.com/apple/ml-capsules-inverted-attention-routing An alternative implementation is available at: https://github.com/yaohungt/Capsules-Inverted-Attention-Routing/blob/master/README.md
翻訳日:2023-01-01 19:11:15 公開日:2020-02-26
# 二元モデルにおけるシャープ漸近性と推論の最適性能

Sharp Asymptotics and Optimal Performance for Inference in Binary Models ( http://arxiv.org/abs/2002.07284v2 )

ライセンス: Link先を確認
Hossein Taheri, Ramtin Pedarsani, and Christos Thrampoulidis(参考訳) 二元モデルにおける高次元推論のための凸実験リスク最小化について検討する。 第1結果は,等方性ガウス的特徴の下での線形漸近的条件下での統計的性能を鋭く予測する。 重要なことに、予測は幅広い凸損失関数を保ち、その中で最も達成可能な性能の限界を証明するために利用します。 特に,提案する境界は,一般的なバイナリモデル(符号付き,ロジスティック,プロビットなど)に対して,それを達成する適切な損失関数を構築することで厳密であることを示す。 より興味深いことに、ロジスティックモデルとプロビットモデルの下でのバイナリ線形分類では、最小二乗法の性能は0.997と0.98倍である。 数値シミュレーションにより, 比較的小さな問題次元においても正確性が示唆された。

We study convex empirical risk minimization for high-dimensional inference in binary models. Our first result sharply predicts the statistical performance of such estimators in the linear asymptotic regime under isotropic Gaussian features. Importantly, the predictions hold for a wide class of convex loss functions, which we exploit in order to prove a bound on the best achievable performance among them. Notably, we show that the proposed bound is tight for popular binary models (such as Signed, Logistic or Probit), by constructing appropriate loss functions that achieve it. More interestingly, for binary linear classification under the Logistic and Probit models, we prove that the performance of least-squares is no worse than 0.997 and 0.98 times the optimal one. Numerical simulations corroborate our theoretical findings and suggest they are accurate even for relatively small problem dimensions.
翻訳日:2022-12-31 13:16:00 公開日:2020-02-26
# 会話エージェントの評価における認知バイアスの影響の研究

Studying the Effects of Cognitive Biases in Evaluation of Conversational Agents ( http://arxiv.org/abs/2002.07927v2 )

ライセンス: Link先を確認
Sashank Santhanam, Alireza Karduni, Samira Shaikh(参考訳) 人間は会話エージェントと対話することが多い。 ニューラルネットワークによる生成言語モデリングの急速な進歩は、インテリジェントな会話エージェントの作成に寄与した。 研究者は通常、クラウドソースによる判断を通じてモデルのアウトプットを評価するが、そのような研究を行うための確立したベストプラクティスはない。 また、意思決定における認知バイアスが、これらの課題を遂行する際のクラウドソース労働者の判断に影響を与えているかどうかも不明である。 本研究では,77名のクラウドソーシング作業員を対象に,対話エージェントの出力評価を依頼された際に,認知バイアス,特にバイアスアンカーの役割を理解するためのイントラサブジェクト調査を行った。 本研究は,対話型エージェントの評価に最善の知見を与える。 2つの実験条件におけるレーティングの一貫性の増加は、アンカーバイアスの結果である可能性がある。 また、同様のタスクにおける時間や経験のような外部要因が、時間間の一貫性に影響を及ぼすと判断する。

Humans quite frequently interact with conversational agents. The rapid advancement in generative language modeling through neural networks has helped advance the creation of intelligent conversational agents. Researchers typically evaluate the output of their models through crowdsourced judgments, but there are no established best practices for conducting such studies. Moreover, it is unclear if cognitive biases in decision-making are affecting crowdsourced workers' judgments when they undertake these tasks. To investigate, we conducted a between-subjects study with 77 crowdsourced workers to understand the role of cognitive biases, specifically anchoring bias, when humans are asked to evaluate the output of conversational agents. Our results provide insight into how best to evaluate conversational agents. We find increased consistency in ratings across two experimental conditions may be a result of anchoring bias. We also determine that external factors such as time and prior experience in similar tasks have effects on inter-rater consistency.
翻訳日:2022-12-30 20:28:19 公開日:2020-02-26
# MAST: メモリ拡張型セルフトラッカー

MAST: A Memory-Augmented Self-supervised Tracker ( http://arxiv.org/abs/2002.07793v2 )

ライセンス: Link先を確認
Zihang Lai, Erika Lu, Weidi Xie(参考訳) 近年、自己監督型密集追跡への関心は急速に進展しているが、その性能は教師付き手法からは程遠いままである。 本稿では,既存のベンチマークにおける従来の自己監督手法を15%以上上回るアノテーションを伴わずにビデオ上で訓練された密集追跡モデルを提案し,教師付き手法に匹敵する性能を実現する。 本稿では,まず,自己指導型学習と再建の損失に対する従来の選択を総合的な実験によって再評価し,最終的に最適な選択を解明する。 第2に、重要なメモリコンポーネントでアーキテクチャを増強することで、既存のメソッドをさらに改善します。 第3に,大規模半教師付き映像オブジェクトセグメンテーション(いわゆる高密度追跡)のベンチマークを行い,新しい指標である一般化可能性を提案する。 最初の2つのコントリビュートによって,集中追跡の標準評価指標における教師付き手法と初めて競合する自己教師付きネットワークが生まれました。 一般化可能性を測定する際には,自己監督的アプローチが指導的手法の大多数よりも優れていることを示す。 この新しい一般化可能性尺度は、密集した追跡のための現実世界のユースケースをよりよく捉え、この研究の方向性に新たな関心を惹きつけるだろうと考えている。

Recent interest in self-supervised dense tracking has yielded rapid progress, but performance still remains far from supervised methods. We propose a dense tracking model trained on videos without any annotations that surpasses previous self-supervised methods on existing benchmarks by a significant margin (+15%), and achieves performance comparable to supervised methods. In this paper, we first reassess the traditional choices used for self-supervised training and reconstruction loss by conducting thorough experiments that finally elucidate the optimal choices. Second, we further improve on existing methods by augmenting our architecture with a crucial memory component. Third, we benchmark on large-scale semi-supervised video object segmentation(aka. dense tracking), and propose a new metric: generalizability. Our first two contributions yield a self-supervised network that for the first time is competitive with supervised methods on standard evaluation metrics of dense tracking. When measuring generalizability, we show self-supervised approaches are actually superior to the majority of supervised methods. We believe this new generalizability metric can better capture the real-world use-cases for dense tracking, and will spur new interest in this research direction.
翻訳日:2022-12-30 19:32:38 公開日:2020-02-26
# 低コストで安定なブロックチェーンネットワークを目指して

Toward Low-Cost and Stable Blockchain Networks ( http://arxiv.org/abs/2002.08027v2 )

ライセンス: Link先を確認
Minghong Fang, Jia Liu(参考訳) セキュアな分散システムの未来を前提として、ブロックチェーンネットワークは近年、業界と学術の両方から注目を集めている。 しかし、ブロックチェーンマイニングプロセスは高いハードウェアコストを必要とし、膨大なエネルギーを消費している(研究によると、ビットコインマイニングで消費されるエネルギー量はアイルランドで使用される電力とほぼ同じである)。 本稿では,ブロックチェーンネットワークのマイニングコスト問題に対処するため,pow(proof-of-work-based)ブロックチェーンネットワークにおけるマイニングコストを削減するブロックチェーンマイニングリソース割り当てアルゴリズムを提案する。 まず,一般ブロックチェーンネットワークのための解析待ち行列モデルを提案する。 我々のキューモデルでは、トランザクションはランダムにキューに届き、未知のサービスレート確率分布でバッチ形式で提供され、任意の優先度メカニズムに依存しない。 次に, Lyapunov 最適化手法を利用して動的マイニング資源割当アルゴリズム (DMRA) を提案し, チューニングパラメータ $K>0$ でパラメータ化を行う。 提案アルゴリズムは,[O(1/K), O(K)]$コスト最適化-gap-vs-遅延トレードオフを実現する。 また, マイニングコスト低減のためのDMRAの有効性をシミュレーションにより検証した。

Envisioned to be the future of secured distributed systems, blockchain networks have received increasing attention from both the industry and academia in recent years. However, blockchain mining processes demand high hardware costs and consume a vast amount of energy (studies have shown that the amount of energy consumed in Bitcoin mining is almost the same as the electricity used in Ireland). To address the high mining cost problem of blockchain networks, in this paper, we propose a blockchain mining resources allocation algorithm to reduce the mining cost in PoW-based (proof-of-work-based) blockchain networks. We first propose an analytical queueing model for general blockchain networks. In our queueing model, transactions arrive randomly to the queue and are served in a batch manner with unknown service rate probability distribution and agnostic to any priority mechanism. Then, we leverage the Lyapunov optimization techniques to propose a dynamic mining resources allocation algorithm (DMRA), which is parameterized by a tuning parameter $K>0$. We show that our algorithm achieves an $[O(1/K), O(K)]$ cost-optimality-gap-vs-delay tradeoff. Our simulation results also demonstrate the effectiveness of DMRA in reducing mining costs.
翻訳日:2022-12-30 14:38:38 公開日:2020-02-26
# ImageNetネットワークの中間層を用いたトライポフォビアトリガ応答のモデル化

Modelling response to trypophobia trigger using intermediate layers of ImageNet networks ( http://arxiv.org/abs/2002.08490v2 )

ライセンス: Link先を確認
Piotr Wo\'znicki, Micha{\l} Ku\'zba, Piotr Migda{\l}(参考訳) 本稿では,畳み込みニューラルネットワークを用いてトリポフォビアトリガーを検出する問題にアプローチする。 VGGやResNetのような標準アーキテクチャはトライポフォビアパターンを認識することができることを示す。 この現象の性質を分析する実験も行っています。 そのために、ネットワークが層数やパラメータ数を減らしているのを識別する。 その結果,ネットワークの精度は91%以上低下し,視覚的な説明に反映されたトリポポビアパターンに注目していることがわかった。

In this paper, we approach the problem of detecting trypophobia triggers using Convolutional neural networks. We show that standard architectures such as VGG or ResNet are capable of recognizing trypophobia patterns. We also conduct experiments to analyze the nature of this phenomenon. To do that, we dissect the network decreasing the number of its layers and parameters. We prove, that even significantly reduced networks have accuracy above 91% and focus their attention on the trypophobia patterns as presented on the visual explanations.
翻訳日:2022-12-30 14:10:29 公開日:2020-02-26
# 対話行為予測のためのシーケンス・ツー・シーケンスモデルにおける注意喚起

Guiding attention in Sequence-to-sequence models for Dialogue Act prediction ( http://arxiv.org/abs/2002.08801v2 )

ライセンス: Link先を確認
Pierre Colombo, Emile Chapuis, Matteo Manica, Emmanuel Vignon, Giovanna Varni, Chloe Clavel(参考訳) 対話対話に基づく対話行動(DA)を予測するタスクは,対話エージェントの開発において重要な要素である。 DAを正確に予測するには、会話とグローバルタグの依存関係の両方を正確にモデリングする必要がある。 我々は、ニューラルネットワーク翻訳(nmt)に広く採用されているseq2seqアプローチを活用して、タグシーケンシャル性のモデリングを改善する。 Seq2seqモデルは複雑なグローバル依存を学習することが知られているが、現在、線形条件付きランダムフィールド(CRF)を用いたアプローチが提案されている。 本稿では,da分類に適したseq2seqモデルを提案する。階層エンコーダ,新しい誘導注意機構,ビーム探索をトレーニングと推論の両方に適用する。 最先端技術と比較して、我々のモデルは手作りの特徴を必要とせず、エンドツーエンドで訓練されている。 さらに,提案手法では,swdaでは85%,mrdaでは91.6%の精度スコアを達成している。

The task of predicting dialog acts (DA) based on conversational dialog is a key component in the development of conversational agents. Accurately predicting DAs requires a precise modeling of both the conversation and the global tag dependencies. We leverage seq2seq approaches widely adopted in Neural Machine Translation (NMT) to improve the modelling of tag sequentiality. Seq2seq models are known to learn complex global dependencies while currently proposed approaches using linear conditional random fields (CRF) only model local tag dependencies. In this work, we introduce a seq2seq model tailored for DA classification using: a hierarchical encoder, a novel guided attention mechanism and beam search applied to both training and inference. Compared to the state of the art our model does not require handcrafted features and is trained end-to-end. Furthermore, the proposed approach achieves an unmatched accuracy score of 85% on SwDA, and state-of-the-art accuracy score of 91.6% on MRDA.
翻訳日:2022-12-30 06:30:45 公開日:2020-02-26
# 飛行探索勧告のための多目的合意クラスタリングフレームワーク

Multi-objective Consensus Clustering Framework for Flight Search Recommendation ( http://arxiv.org/abs/2002.10241v2 )

ライセンス: Link先を確認
Sujoy Chatterjee, Nicolas Pasquier, Simon Nanty, Maria A. Zuluaga(参考訳) 旅行業界では、オンライン顧客は旅行の費用や期間、アメニティの質など、いくつかの特徴に従って旅行日程を予約する。 旅行検索のためのパーソナライズドレコメンデーションを提供するには、適切な顧客のセグメンテーションが必要である。 クラスタリングアンサンブルアプローチは、古典的なクラスタリングアプローチのよく知られた問題を克服するために開発された。 クラスタリングアンサンブルアプローチでは、異なるアルゴリズム構成の複数のクラスタリング結果を組み合わせて、初期クラスタ間の合意に対応するより堅牢なコンセンサスクラスタを生成する。 本稿では,アマデウス顧客検索データを解析し,パーソナライズドレコメンデーションを改善するために開発されたクラスタリングアンサンブル多目的最適化ベースフレームワークを提案する。 このフレームワークはクラスタリングアンサンブル検索空間の多様性を最適化し、ユーザの入力を必要としない適切な数のクラスタを自動的に決定する。 このアプローチの効率性は,内部(調整ランド指数)と外部(アマデウス・ビジネス・メトリック)の検証の観点から,アマデウス・カスタマ・サーチ・データに関する他の既存手法と比較した。

In the travel industry, online customers book their travel itinerary according to several features, like cost and duration of the travel or the quality of amenities. To provide personalized recommendations for travel searches, an appropriate segmentation of customers is required. Clustering ensemble approaches were developed to overcome well-known problems of classical clustering approaches, that each rely on a different theoretical model and can thus identify in the data space only clusters corresponding to this model. Clustering ensemble approaches combine multiple clustering results, each from a different algorithmic configuration, for generating more robust consensus clusters corresponding to agreements between initial clusters. We present a new clustering ensemble multi-objective optimization-based framework developed for analyzing Amadeus customer search data and improve personalized recommendations. This framework optimizes diversity in the clustering ensemble search space and automatically determines an appropriate number of clusters without requiring user's input. Experimental results compare the efficiency of this approach with other existing approaches on Amadeus customer search data in terms of internal (Adjusted Rand Index) and external (Amadeus business metric) validations.
翻訳日:2022-12-30 06:24:19 公開日:2020-02-26
# 最小二乗問題に対する最適ランダム化一階法

Optimal Randomized First-Order Methods for Least-Squares Problems ( http://arxiv.org/abs/2002.09488v2 )

ライセンス: Link先を確認
Jonathan Lacotte, Mert Pilanci(参考訳) 過決定最小二乗問題を解くためのランダム化アルゴリズムのクラスを正確に解析する。 本稿では,データ行列の部分空間埋め込みに基づいて,勾配をヘッセン近似で事前条件付けする一階法について考察する。 このアルゴリズムのクラスは、最小二乗問題に対する最速解法のうち、いくつかのランダム解法を含んでいる。 ガウス射影とランダム化アダマール変換(SRHT)の2つの古典的埋め込みに焦点を当てる。 我々の重要な技術的革新は、SRHT埋め込みのスペクトル密度の制限の導出である。 この新たな結果を利用して、srht密度の正規化直交多項式の族を導出し、その収束率とともに最適な事前条件付き一階法を求める。 ガウス埋め込みの解析も同様に進み、古典的ランダム行列理論の結果を利用する。 特に、与えられたスケッチサイズに対して、SRHT埋め込みはガウス埋め込みよりも高速な収束率を示すことを示す。 次に,スケッチ次元の選択よりも計算複雑性を最適化する新しいアルゴリズムを提案する。 我々の知る限り、我々のアルゴリズムは条件数に依存しない最小二乗問題を解くのに最もよく知られた複雑さをもたらす。

We provide an exact analysis of a class of randomized algorithms for solving overdetermined least-squares problems. We consider first-order methods, where the gradients are pre-conditioned by an approximation of the Hessian, based on a subspace embedding of the data matrix. This class of algorithms encompasses several randomized methods among the fastest solvers for least-squares problems. We focus on two classical embeddings, namely, Gaussian projections and subsampled randomized Hadamard transforms (SRHT). Our key technical innovation is the derivation of the limiting spectral density of SRHT embeddings. Leveraging this novel result, we derive the family of normalized orthogonal polynomials of the SRHT density and we find the optimal pre-conditioned first-order method along with its rate of convergence. Our analysis of Gaussian embeddings proceeds similarly, and leverages classical random matrix theory results. In particular, we show that for a given sketch size, SRHT embeddings exhibits a faster rate of convergence than Gaussian embeddings. Then, we propose a new algorithm by optimizing the computational complexity over the choice of the sketching dimension. To our knowledge, our resulting algorithm yields the best known complexity for solving least-squares problems with no condition number dependence.
翻訳日:2022-12-30 01:57:04 公開日:2020-02-26
# 対話における行動予測のシーケンスをモデルとしたガイド

Guider l'attention dans les modeles de sequence a sequence pour la prediction des actes de dialogue ( http://arxiv.org/abs/2002.09419v2 )

ライセンス: Link先を確認
Pierre Colombo, Emile Chapuis, Matteo Manica, Emmanuel Vignon, Giovanna Varni, Chloe Clavel(参考訳) 対話対話に基づく対話行動(DA)を予測するタスクは,対話エージェントの開発において重要な要素である。 DAを正確に予測するには、会話とグローバルタグの依存関係の両方を正確にモデリングする必要がある。 我々は、ニューラルネットワーク翻訳(nmt)に広く採用されているseq2seqアプローチを活用して、タグシーケンシャル性のモデリングを改善する。 Seq2seqモデルは複雑なグローバル依存を学習することが知られているが、現在、線形条件付きランダムフィールド(CRF)を用いたアプローチが提案されている。 本稿では,da分類に適したseq2seqモデルを提案する。階層エンコーダ,新しい誘導注意機構,ビーム探索をトレーニングと推論の両方に適用する。 最先端技術と比較して、我々のモデルは手作りの特徴を必要とせず、エンドツーエンドで訓練されている。 さらに,提案手法では,swdaでは85%,mrdaでは91.6%の精度スコアを達成している。

The task of predicting dialog acts (DA) based on conversational dialog is a key component in the development of conversational agents. Accurately predicting DAs requires a precise modeling of both the conversation and the global tag dependencies. We leverage seq2seq approaches widely adopted in Neural Machine Translation (NMT) to improve the modelling of tag sequentiality. Seq2seq models are known to learn complex global dependencies while currently proposed approaches using linear conditional random fields (CRF) only model local tag dependencies. In this work, we introduce a seq2seq model tailored for DA classification using: a hierarchical encoder, a novel guided attention mechanism and beam search applied to both training and inference. Compared to the state of the art our model does not require handcrafted features and is trained end-to-end. Furthermore, the proposed approach achieves an unmatched accuracy score of 85% on SwDA, and state-of-the-art accuracy score of 91.6% on MRDA.
翻訳日:2022-12-30 01:29:46 公開日:2020-02-26
# 線形二次レギュレータ領域を用いた深部強化学習

Deep Reinforcement Learning with Linear Quadratic Regulator Regions ( http://arxiv.org/abs/2002.09820v2 )

ライセンス: Link先を確認
Gabriel I. Fernandez, Colin Togashi, Dennis W. Hong, Lin F. Yang(参考訳) シミュレーションで訓練された強化学習ポリシーが現実世界に堅牢に移行できるように、実践者はしばしば計算集約的なドメインランダム化に頼る。 しかし、実際のシステムにおける非モデル化された非線形性のため、そのようなシミュレートされたポリシーでさえ、実際の環境での経験を得るのに十分安定に実行できない。 本稿では,高度非線形システムにおいても,シミュレーションで訓練されたポリシーの出力に対して,アトラクションの安定領域を保証する新しい手法を提案する。 私たちのコア技術は、コントローラの構築とシミュレータ内のネットワークのトレーニングに"バイアスシフト"ニューラルネットワークを使用することです。 修正されたニューラルネットワークは、システムの非線形性をキャプチャするだけでなく、状態空間の特定の領域における線形性を確実に保持するので、実システムに対して安定であることが知られている線形二次レギュレータに似ているように調整することができる。 実システムに振り上げ反転振子のシミュレーションポリシを転送し,本手法の有効性を実証し,本手法の有効性を検証した。

Practitioners often rely on compute-intensive domain randomization to ensure reinforcement learning policies trained in simulation can robustly transfer to the real world. Due to unmodeled nonlinearities in the real system, however, even such simulated policies can still fail to perform stably enough to acquire experience in real environments. In this paper we propose a novel method that guarantees a stable region of attraction for the output of a policy trained in simulation, even for highly nonlinear systems. Our core technique is to use "bias-shifted" neural networks for constructing the controller and training the network in the simulator. The modified neural networks not only capture the nonlinearities of the system but also provably preserve linearity in a certain region of the state space and thus can be tuned to resemble a linear quadratic regulator that is known to be stable for the real system. We have tested our new method by transferring simulated policies for a swing-up inverted pendulum to real systems and demonstrated its efficacy.
翻訳日:2022-12-29 09:36:16 公開日:2020-02-26
# 適応バッチとResparsificationを用いたニア線形時間ガウスプロセス最適化

Near-linear Time Gaussian Process Optimization with Adaptive Batching and Resparsification ( http://arxiv.org/abs/2002.09954v2 )

ライセンス: Link先を確認
Daniele Calandriello, Luigi Carratino, Alessandro Lazaric, Michal Valko, Lorenzo Rosasco(参考訳) ガウス過程(GP)は不確実性をモデル化する最も成功したフレームワークの一つである。 しかし、GP最適化(GP-UCBなど)はスケーラビリティの問題に悩まされている。 試験時間は、候補がバッチ(GP-BUCBなど)で選択され、並列に評価されない限り、評価の数とともに線形に増加する。 さらに、gp-bucbのようなアルゴリズムは、各バッチを選択するのに少なくとも次元数と反復数で2倍の時間を必要とするため、計算コストはしばしば禁止される。 本稿では,非レグレットgp最適化アルゴリズムであるbbkb(batch budgeted kernel bandits)について紹介する。 これは、BBKBがより大きなバッチを選択し、GP-BUCBよりも改善する、後方分散の追跡を新たに保証することで得られる。 さらに,BBKB が使用するスパースGP近似の更新コストを適応的に遅延させることにより,ステップ毎の補正コストがほぼ一定であることを示す。 これらの結果はいくつかの実験で確認され、BBKBは最先端の手法よりもはるかに高速である。

Gaussian processes (GP) are one of the most successful frameworks to model uncertainty. However, GP optimization (e.g., GP-UCB) suffers from major scalability issues. Experimental time grows linearly with the number of evaluations, unless candidates are selected in batches (e.g., using GP-BUCB) and evaluated in parallel. Furthermore, computational cost is often prohibitive since algorithms such as GP-BUCB require a time at least quadratic in the number of dimensions and iterations to select each batch. In this paper, we introduce BBKB (Batch Budgeted Kernel Bandits), the first no-regret GP optimization algorithm that provably runs in near-linear time and selects candidates in batches. This is obtained with a new guarantee for the tracking of the posterior variances that allows BBKB to choose increasingly larger batches, improving over GP-BUCB. Moreover, we show that the same bound can be used to adaptively delay costly updates to the sparse GP approximation used by BBKB, achieving a near-constant per-step amortized cost. These findings are then confirmed in several experiments, where BBKB is much faster than state-of-the-art methods.
翻訳日:2022-12-29 09:19:10 公開日:2020-02-26
# エビデンスとバイリンガルシーンの視覚的質問応答の一般的な価値について

On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering ( http://arxiv.org/abs/2002.10215v2 )

ライセンス: Link先を確認
Xinyu Wang, Yuliang Liu, Chunhua Shen, Chun Chet Ng, Canjie Luo, Lianwen Jin, Chee Seng Chan, Anton van den Hengel, Liangwei Wang(参考訳) VQA(Visual Question Answering)手法は驚くほど進歩しているが、一般化に失敗している。 これは、画像の内容と言語で表現された考えとの深い関係よりも、データの偶然の相関を学習することに脆弱であるという事実で見ることができる。 本稿では,2つの言語で表現された質問と,その手法の推論能力を反映したイメージベースメトリクスを共同運用する評価プロセスを含む,この問題に対処するための一歩を踏み出したデータセットを提案する。 推論の測定は、偶然に正しい答えをペナルティ化することで、直接一般化を促進する。 データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。 データセットの価値を示す実験と分析が提供されている。

Visual Question Answering (VQA) methods have made incredible progress, but suffer from a failure to generalize. This is visible in the fact that they are vulnerable to learning coincidental correlations in the data rather than deeper relations between image content and ideas expressed in language. We present a dataset that takes a step towards addressing this problem in that it contains questions expressed in two languages, and an evaluation process that co-opts a well understood image-based metric to reflect the method's ability to reason. Measuring reasoning directly encourages generalization by penalizing answers that are coincidentally correct. The dataset reflects the scene-text version of the VQA problem, and the reasoning evaluation can be seen as a text-based version of a referring expression challenge. Experiments and analysis are provided that show the value of the dataset.
翻訳日:2022-12-29 04:04:32 公開日:2020-02-26
# MPM:細胞追跡のための動きと位置マップの同時表現

MPM: Joint Representation of Motion and Position Map for Cell Tracking ( http://arxiv.org/abs/2002.10749v2 )

ライセンス: Link先を確認
Junya Hayashida and Kazuya Nishimura and Ryoma Bise(参考訳) 従来の細胞追跡法では、各フレーム内の複数の細胞(検出)を検出し、連続した時間枠(連想)で検出結果を関連付ける。 ほとんどのセル追跡方法は、検出タスクから独立してアソシエーションタスクを実行する。 しかし、これらのタスク間の一貫性を維持する保証はなく、一貫性の欠如が追跡性能に悪影響を及ぼす可能性がある。 本稿では,移動だけでなく細胞分裂においても検出と関連性の両方を共同で表現する動きと位置のマップ(MPM)を提案する。 セルが検出されると、対応する動きの流れが常に得られるようにコヒーレンスを保証する。 密集環境における多目的追跡のための単純だが強力な手法である。 提案手法を生体画像における各種条件下での電流追跡法と比較し, 最新技術(第2位と比較して+5.2\%改善)を上回っていた。

Conventional cell tracking methods detect multiple cells in each frame (detection) and then associate the detection results in successive time-frames (association). Most cell tracking methods perform the association task independently from the detection task. However, there is no guarantee of preserving coherence between these tasks, and lack of coherence may adversely affect tracking performance. In this paper, we propose the Motion and Position Map (MPM) that jointly represents both detection and association for not only migration but also cell division. It guarantees coherence such that if a cell is detected, the corresponding motion flow can always be obtained. It is a simple but powerful method for multi-object tracking in dense environments. We compared the proposed method with current tracking methods under various conditions in real biological images and found that it outperformed the state-of-the-art (+5.2\% improvement compared to the second-best).
翻訳日:2022-12-28 22:04:11 公開日:2020-02-26
# エネルギー効率の高い自然エラー検出のための関連機能に基づく補助セル

Relevant-features based Auxiliary Cells for Energy Efficient Detection of Natural Errors ( http://arxiv.org/abs/2002.11052v2 )

ライセンス: Link先を確認
Sai Aparna Aketi and Priyadarshini Panda and Kaushik Roy(参考訳) ディープニューラルネットワークは多くの分類タスクで最先端のパフォーマンスを示している。 しかし、予測が間違っていることを認識できる固有の能力はない。 近年、自然の誤りを検知する試みがいくつかあるが、提案されたメカニズムはさらなるエネルギー要求をもたらす。 この問題に対処するために,隠れ層における分類器のアンサンブルを提案し,自然エラーをエネルギー効率よく検出する。 特に、関連する特徴に基づいて訓練されたクラス固有の線形分類器である関連機能ベースの補助細胞(RAC)を付加する。 RACのコンセンサスは、自然エラーを検出するために使用される。 racの複合信頼に基づいて、分類を早期に終了し、エネルギー効率のよい検出を可能にする。 CIFAR-10, CIFAR-100, Tiny-ImageNet などの画像分類データセットに対して, 本手法の有効性を示す。

Deep neural networks have demonstrated state-of-the-art performance on many classification tasks. However, they have no inherent capability to recognize when their predictions are wrong. There have been several efforts in the recent past to detect natural errors but the suggested mechanisms pose additional energy requirements. To address this issue, we propose an ensemble of classifiers at hidden layers to enable energy efficient detection of natural errors. In particular, we append Relevant-features based Auxiliary Cells (RACs) which are class specific binary linear classifiers trained on relevant features. The consensus of RACs is used to detect natural errors. Based on combined confidence of RACs, classification can be terminated early, thereby resulting in energy efficient detection. We demonstrate the effectiveness of our technique on various image classification datasets such as CIFAR-10, CIFAR-100 and Tiny-ImageNet.
翻訳日:2022-12-28 20:36:46 公開日:2020-02-26
# 対物公正:正則化による直接効果の除去

Counterfactual fairness: removing direct effects through regularization ( http://arxiv.org/abs/2002.10774v2 )

ライセンス: Link先を確認
Pietro G. Di Stefano, James M. Hickey, Vlasios Vasileiou(参考訳) 特権のないグループに対して公平な機械学習モデルを構築することは、トピックの問題である。 現代のフェアネス認識アルゴリズムは因果効果を無視し、機械学習モデルのサブセットにのみ適用可能な修正を通じてフェアネスを強制することが多い。 本研究では,制御直接効果(CDE)を通じて因果関係を包含するフェアネスの新たな定義を提案する。 我々は,古典的フェアネス測度に取り組むための正規化を開発し,cdeで測定したモデル結果に対する非特権群変数の影響を取り除き,新たなフェアネス定義を満たす因果的正規化を提案する。 これらの正規化は、微分による損失を反復的に最小化することで訓練されたモデルに適用できる。 我々は,合成データセット,uciアダルト(census)データセット,実世界の信用リスクデータセットという,勾配ブースティングとロジスティック回帰の両方を用いたアプローチを実証する。 その結果,モデル性能の低下による予測の不公平さを軽減することができた。

Building machine learning models that are fair with respect to an unprivileged group is a topical problem. Modern fairness-aware algorithms often ignore causal effects and enforce fairness through modifications applicable to only a subset of machine learning models. In this work, we propose a new definition of fairness that incorporates causality through the Controlled Direct Effect (CDE). We develop regularizations to tackle classical fairness measures and present a causal regularization that satisfies our new fairness definition by removing the impact of unprivileged group variables on the model outcomes as measured by the CDE. These regularizations are applicable to any model trained using by iteratively minimizing a loss through differentiation. We demonstrate our approaches using both gradient boosting and logistic regression on: a synthetic dataset, the UCI Adult (Census) Dataset, and a real-world credit-risk dataset. Our results were found to mitigate unfairness from the predictions with small reductions in model performance.
翻訳日:2022-12-28 20:34:36 公開日:2020-02-26
# single pass lookahead searchとneighbor martingaleによる制約付き複数運動アメリカのオプションの価格の高速低値および高値推定

Fast Lower and Upper Estimates for the Price of Constrained Multiple Exercise American Options by Single Pass Lookahead Search and Nearest-Neighbor Martingale ( http://arxiv.org/abs/2002.11258v1 )

ライセンス: Link先を確認
Nicolas Essis-Breton and Patrice Gaillardetz(参考訳) この記事では、大きなオプションのクラスである制約付き多重エクササイズアメリカンオプションのクラスについて、高速な下限と上限の見積もりを示す。 このクラスの典型的なオプションは、ボリュームとタイミングの制約のあるswingオプションと、複数のルックバック権利を持つpassportオプションである。 下方推定アルゴリズムは、ルックアヘッド探索の人工知能法を用いる。 上推定アルゴリズムは、マルチンゲール空間の近距離-近距離基底のオプション価格設定にデュアルアプローチを用いる。 確率収束保証が提供される。 数値的な例としては、4つの制約付きswingオプションと16の制約付きpassportオプションがある。

This article presents fast lower and upper estimates for a large class of options: the class of constrained multiple exercise American options. Typical options in this class are swing options with volume and timing constraints, and passport options with multiple lookback rights. The lower estimate algorithm uses the artificial intelligence method of lookahead search. The upper estimate algorithm uses the dual approach to option pricing on a nearest-neighbor basis for the martingale space. Probabilistic convergence guarantees are provided. Several numerical examples illustrate the approaches including a swing option with four constraints, and a passport option with 16 constraints.
翻訳日:2022-12-28 16:02:40 公開日:2020-02-26
# Flashポイント予測のためのグラフベースディープラーニングモデルの評価

Assessing Graph-based Deep Learning Models for Predicting Flash Point ( http://arxiv.org/abs/2002.11315v1 )

ライセンス: Link先を確認
Xiaoyu Sun, Nathaniel J. Krakauer, Alexander Politowicz, Wei-Ting Chen, Qiying Li, Zuoyi Li, Xianjia Shao, Alfred Sunaryo, Mingren Shen, James Wang, Dane Morgan(参考訳) 有機分子のフラッシュポイントは可燃性の危険を防ぎ、測定値の大規模なデータベースが存在するが、何百万もの化合物は測定されていない。 既存のデータを新しい化合物に迅速に拡張するために、多くの研究者がQSPR分析を用いてフラッシュポイントを効果的に予測している。 近年,従来のQSPRの代替手段として,グラフベースのディープラーニング(GBDL)が登場している。 本稿では,GBDLモデルを初めてフラッシュポイントを予測するために実装した。 我々は,2つのGBDLモデル,MPNN(Message-passing Neural Network)とGCNN(Graph Convolutional Neural Network)の性能を比較検討した。 以上の結果から,MPNNはGCNNよりも優れており,従来のQSPR研究と比較すると若干劣っている。 MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。 GBDLモデルをさらに探索するため,これまでで最大10575個のユニークな分子を含むフラッシュポイントデータセットを収集した。 最適化されたMPNNは、完全なデータセットに対して0.803の試験データR2と17.8KのMAEを与える。 また, 分子型(酸, 有機金属, オルガノゲルマニウム, オルガノシリコン, オルガノチン)に基づく統合データセットから5つのデータセットを抽出し, これらのクラスにおけるモデルの品質について検討した。

Flash points of organic molecules play an important role in preventing flammability hazards and large databases of measured values exist, although millions of compounds remain unmeasured. To rapidly extend existing data to new compounds many researchers have used quantitative structure-property relationship (QSPR) analysis to effectively predict flash points. In recent years graph-based deep learning (GBDL) has emerged as a powerful alternative method to traditional QSPR. In this paper, GBDL models were implemented in predicting flash point for the first time. We assessed the performance of two GBDL models, message-passing neural network (MPNN) and graph convolutional neural network (GCNN), by comparing methods. Our result shows that MPNN both outperforms GCNN and yields slightly worse but comparable performance with previous QSPR studies. The average R2 and Mean Absolute Error (MAE) scores of MPNN are, respectively, 2.3% lower and 2.0 K higher than previous comparable studies. To further explore GBDL models, we collected the largest flash point dataset to date, which contains 10575 unique molecules. The optimized MPNN gives a test data R2 of 0.803 and MAE of 17.8 K on the complete dataset. We also extracted 5 datasets from our integrated dataset based on molecular types (acids, organometallics, organogermaniums, organosilicons, and organotins) and explore the quality of the model in these classes.against 12 previous QSPR studies using more traditional
翻訳日:2022-12-28 16:02:06 公開日:2020-02-26
# オブジェクトの集合をランク付けする:グラフベースの最小二乗アプローチ

Ranking a set of objects: a graph based least-square approach ( http://arxiv.org/abs/2002.11590v1 )

ライセンス: Link先を確認
Evgenia Christoforou, Alessandro Nordio, Alberto Tarable, Emilio Leonardi(参考訳) 同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。 対象物には本質的な性質が与えられており、対象物が他者に好まれる確率は、2つの競合物の質の違いにのみ依存していると仮定する。 品質推定のための最小二乗最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。 このようなアルゴリズムは漸近的に最適であることが示される(つまり、$O(\frac{N}{\epsilon^2}\log \frac{N}{\delta})$比較は$(\epsilon, \delta)$-PAC)。 数値計算の結果,提案手法は最大化アルゴリズムに類似した性能を示す多くの非漸近的シナリオにおいても非常に効率的であることがわかった。 さらに,それらを適応スキームに拡張し,実世界のデータセット上でテストする方法を示す。

We consider the problem of ranking $N$ objects starting from a set of noisy pairwise comparisons provided by a crowd of equal workers. We assume that objects are endowed with intrinsic qualities and that the probability with which an object is preferred to another depends only on the difference between the qualities of the two competitors. We propose a class of non-adaptive ranking algorithms that rely on a least-squares optimization criterion for the estimation of qualities. Such algorithms are shown to be asymptotically optimal (i.e., they require $O(\frac{N}{\epsilon^2}\log \frac{N}{\delta})$ comparisons to be $(\epsilon, \delta)$-PAC). Numerical results show that our schemes are very efficient also in many non-asymptotic scenarios exhibiting a performance similar to the maximum-likelihood algorithm. Moreover, we show how they can be extended to adaptive schemes and test them on real-world datasets.
翻訳日:2022-12-28 15:55:24 公開日:2020-02-26
# サイバーセキュリティ指向機械学習ワークフローをサポートするシンプルでアジャイルなクラウドインフラストラクチャ

A Simple and Agile Cloud Infrastructure to Support Cybersecurity Oriented Machine Learning Workflows ( http://arxiv.org/abs/2002.11828v1 )

ライセンス: Link先を確認
Konstantin Berlin and Ajay Lakshminarayanarao(参考訳) 機械学習(ML)のセキュリティモデルのためのよくラベル付けされたデータセットを生成することは、大規模なデータボリューム、ラベル付けの複雑さ、一定のコンセプトドリフトによって、効果的なトレーニングデータセットの生成が困難になるため、ユニークなエンジニアリング上の課題である。 ここでは、mlトレーニングとテストデータセットを生成するための、シンプルでレジリエントなクラウドインフラストラクチャについて説明します。

Generating up to date, well labeled datasets for machine learning (ML) security models is a unique engineering challenge, as large data volumes, complexity of labeling, and constant concept drift makes it difficult to generate effective training datasets. Here we describe a simple, resilient cloud infrastructure for generating ML training and testing datasets, that has enhanced the speed at which our team is able to research and keep in production a multitude of security ML models.
翻訳日:2022-12-28 15:54:49 公開日:2020-02-26
# 生体画像再構成のための深層学習:調査

Deep Learning for Biomedical Image Reconstruction: A Survey ( http://arxiv.org/abs/2002.12351v1 )

ライセンス: Link先を確認
Hanene Ben Yedder and Ben Cardoen and Ghassan Hamarneh(参考訳) 医用画像は人体の内部を覗き見することができ、疾患の理解、モデリング、診断、治療に欠かせない情報を科学者や医師に提供するため、医学において貴重な資源である。 レコンストラクションアルゴリズムは、取得ハードウェアによって収集された信号を解釈可能な画像に変換する。 再構成は、問題の不備と実例における正確な解析的逆変換の欠如を考えると、難しい課題である。 過去数十年間、新たなモダリティの進歩、時間的・空間的解像度の向上、コスト削減、適用性の向上が見られたが、患者の放射線曝露や不快感の軽減、クリニックのスループットの向上、再建精度の向上など、いくつかの改善が期待できる。 さらに、小型のハンドヘルドデバイスにおけるバイオメディカルイメージングの展開には、精度とレイテンシの微妙なバランスが必要である。

Medical imaging is an invaluable resource in medicine as it enables to peer inside the human body and provides scientists and physicians with a wealth of information indispensable for understanding, modelling, diagnosis, and treatment of diseases. Reconstruction algorithms entail transforming signals collected by acquisition hardware into interpretable images. Reconstruction is a challenging task given the ill-posed of the problem and the absence of exact analytic inverse transforms in practical cases. While the last decades witnessed impressive advancements in terms of new modalities, improved temporal and spatial resolution, reduced cost, and wider applicability, several improvements can still be envisioned such as reducing acquisition and reconstruction time to reduce patient's exposure to radiation and discomfort while increasing clinics throughput and reconstruction accuracy. Furthermore, the deployment of biomedical imaging in handheld devices with small power requires a fine balance between accuracy and latency.
翻訳日:2022-12-28 15:54:16 公開日:2020-02-26
# 資源対応ネットワークトポロジ管理フレームワーク

Resource-Aware Network Topology Management Framework ( http://arxiv.org/abs/2003.00860v1 )

ライセンス: Link先を確認
Aaqif Afzaal Abbasi, Shahab Shamshirband, Mohammed A. A. Al-qaness, Almas Abbasi, Nashat T. AL-Jallad, Amir Mosavi(参考訳) クラウドインフラストラクチャは、コンピューティングリソースをオンデマンドで調整できるコンピューティングサービスを提供する。 しかしながら、クラウドインフラストラクチャの採用は、サービスプロバイダネットワークへの依存、信頼性、サービスレベルアグリーメントのコンプライアンスといった懸念をもたらします。 software-defined networking (sdn) は、コントロールプレーンからネットワークデータプレーンを分離することを示唆するネットワーク概念である。 この概念はネットワークの振る舞いを改善する。 本稿では,SDN対応のリソース対応トポロジフレームワークを提案する。 提案するフレームワークはSLA準拠のパス計算要素(PCE)を採用し、より優れたトポロジ機能を実現するために公平なロードを共有する。 また,フレームワークの可能性を示す評価を提示する。

Cloud infrastructure provides computing services where computing resources can be adjusted on-demand. However, the adoption of cloud infrastructures brings concerns like reliance on the service provider network, reliability, compliance for service level agreements. Software-defined networking (SDN) is a networking concept that suggests the segregation of a network data plane from the control plane. This concept improves networking behavior. In this paper, we present an SDN-enabled resource-aware topology framework. The proposed framework employs SLA compliance, Path Computation Element (PCE) and shares fair loading to achieve better topology features. We also present an evaluation, showcasing the potential of our framework.
翻訳日:2022-12-28 15:53:32 公開日:2020-02-26
# 高速で正確な1段階の宇宙時間ビデオ超解像

Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution ( http://arxiv.org/abs/2002.11616v1 )

ライセンス: Link先を確認
Xiaoyu Xiang, Yapeng Tian, Yulun Zhang, Yun Fu, Jan P. Allebach, Chenliang Xu(参考訳) 本稿では、低フレームレート(LFR)、低解像度(LR)ビデオから高解像度(HR)スローモーションビデオを生成することを目的とした、時空ビデオ超解像タスクについて検討する。 単純な解決策は、ビデオフレーム補間(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。 しかし、時間的補間と空間的超解像はこの課題に関係している。 二段階法では自然の利点を十分に活用できない。 さらに、最先端のVFIまたはVSRネットワークは、高品質なビデオフレームを予測するための大きなフレーム合成または再構成モジュールを必要とするため、2段階の手法はモデルサイズが大きく、時間を要する。 この問題を解決するために,LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。 提案する特徴時間補間ネットワークによって局所的な時間的文脈をキャプチャするLRビデオフレームにおいて、VFIネットワークのように、欠落したLRビデオフレームを合成するのではなく、まず、時間的にLRフレームの特徴を補間する。 そこで本稿では,時間的情報の整合と集約を併用した変形可能なconvlstmを提案する。 最後に、HRスローモーション映像フレームを予測するために、ディープリコンストラクションネットワークを採用する。 ベンチマークデータセットの大規模な実験により、提案手法はより定量的かつ定性的な性能を達成するだけでなく、DAIN+EDVRやDAIN+RBPNといった最近の2段階の最先端手法よりも3倍以上高速であることが示された。

In this paper, we explore the space-time video super-resolution task, which aims to generate a high-resolution (HR) slow-motion video from a low frame rate (LFR), low-resolution (LR) video. A simple solution is to split it into two sub-tasks: video frame interpolation (VFI) and video super-resolution (VSR). However, temporal interpolation and spatial super-resolution are intra-related in this task. Two-stage methods cannot fully take advantage of the natural property. In addition, state-of-the-art VFI or VSR networks require a large frame-synthesis or reconstruction module for predicting high-quality video frames, which makes the two-stage methods have large model sizes and thus be time-consuming. To overcome the problems, we propose a one-stage space-time video super-resolution framework, which directly synthesizes an HR slow-motion video from an LFR, LR video. Rather than synthesizing missing LR video frames as VFI networks do, we firstly temporally interpolate LR frame features in missing LR video frames capturing local temporal contexts by the proposed feature temporal interpolation network. Then, we propose a deformable ConvLSTM to align and aggregate temporal information simultaneously for better leveraging global temporal contexts. Finally, a deep reconstruction network is adopted to predict HR slow-motion video frames. Extensive experiments on benchmark datasets demonstrate that the proposed method not only achieves better quantitative and qualitative performance but also is more than three times faster than recent two-stage state-of-the-art methods, e.g., DAIN+EDVR and DAIN+RBPN.
翻訳日:2022-12-28 15:53:22 公開日:2020-02-26
# マルチスケールロバストニューラルネットワークを用いた手書き数式をラテックス系列として認識する

Recognizing Handwritten Mathematical Expressions as LaTex Sequences Using a Multiscale Robust Neural Network ( http://arxiv.org/abs/2003.00817v1 )

ライセンス: Link先を確認
Hongyu Wang, Guangcun Shan(参考訳) 本稿では,手書きの数学的表現と出力LaTeX配列を認識するために,頑健なマルチスケールニューラルネットワークを提案する。これは,出力の各ステップがどこにあるべきかを効果的かつ正確に焦点を合わせ,手書きの数学的表現の2次元構造を分析し,長い表現で異なる数学的記号を識別する上で,肯定的な効果を持つ。 可視化の追加により、モデルの認識プロセスが詳細に示されている。 さらに、我々のモデルは公開CROHME 2014とCROHME 2016データセット上で49.459%と46.062%のExpRateを達成した。 本モデルの結果から,最先端モデルの方がロバスト性が高く,誤差が少なく,精度も高いことが示唆された。

In this paper, a robust multiscale neural network is proposed to recognize handwritten mathematical expressions and output LaTeX sequences, which can effectively and correctly focus on where each step of output should be concerned and has a positive effect on analyzing the two-dimensional structure of handwritten mathematical expressions and identifying different mathematical symbols in a long expression. With the addition of visualization, the model's recognition process is shown in detail. In addition, our model achieved 49.459% and 46.062% ExpRate on the public CROHME 2014 and CROHME 2016 datasets. The present model results suggest that the state-of-the-art model has better robustness, fewer errors, and higher accuracy.
翻訳日:2022-12-28 15:46:51 公開日:2020-02-26
# 連続分布に対するkl発散のミニマックス最適推定

Minimax Optimal Estimation of KL Divergence for Continuous Distributions ( http://arxiv.org/abs/2002.11599v1 )

ライセンス: Link先を確認
Puning Zhao, Lifeng Lai(参考訳) Kullback-Leiblerの同一および独立に分布するサンプルからの分岐を推定することは、様々な領域において重要な問題である。 単純で効果的な推定器は、これらのサンプル間のk近傍距離に基づいている。 本稿では,この推定器のバイアスと分散の収束率について解析する。 さらに,極小平均二乗誤差の下位境界を導出し,kNN法が漸近的に最適であることを示す。

Estimating Kullback-Leibler divergence from identical and independently distributed samples is an important problem in various domains. One simple and effective estimator is based on the k nearest neighbor distances between these samples. In this paper, we analyze the convergence rates of the bias and variance of this estimator. Furthermore, we derive a lower bound of the minimax mean square error and show that kNN method is asymptotically rate optimal.
翻訳日:2022-12-28 15:46:37 公開日:2020-02-26
# 完全コンテキスト多要素帯域に基づくスポンサー付き検索オークションの設計

Designing Truthful Contextual Multi-Armed Bandits based Sponsored Search Auctions ( http://arxiv.org/abs/2002.11349v1 )

ライセンス: Link先を確認
Kumar Abhishek, Shweta Jain and Sujit Gujar(参考訳) スポンサー付き検索オークションでは,戦略エージェントの存在下でのマルチアームバンディット問題を考える。 この設定では、各ラウンドにおいて、広告プラットフォーム(センター)が、ユーザが投稿したクエリに関連する最適な広告を選択するためのオークションを実行する。 センターの一番の関心事は、期待値の高い広告を選択することだ(つまり、クリック$\times$値を得る確率は、それが広告のクリックに由来する)。 クリック(CTR)の確率は中央で不明であり、クエリをポストするユーザのプロファイル(コンテキスト)に依存する。 さらに、クリックのために導出された値は広告主へのプライベート情報であり、真に引き出す必要がある。 この設定における既存の解は、非常に高い後悔(o(t^{\frac{2}{3}})$)に苦しむため実用的ではない。

For sponsored search auctions, we consider contextual multi-armed bandit problem in the presence of strategic agents. In this setting, at each round, an advertising platform (center) runs an auction to select the best-suited ads relevant to the query posted by the user. It is in the best interest of the center to select an ad that has a high expected value (i.e., probability of getting a click $\times$ value it derives from a click of the ad). The probability of getting a click (CTR) is unknown to the center and depends on the user's profile (context) posting the query. Further, the value derived for a click is the private information to the advertiser and thus needs to be elicited truthfully. The existing solution in this setting is not practical as it suffers from very high regret ($O(T^{\frac{2}{3}})$).
翻訳日:2022-12-28 15:45:03 公開日:2020-02-26
# クエリ効率の良い相関クラスタリング

Query-Efficient Correlation Clustering ( http://arxiv.org/abs/2002.11557v1 )

ライセンス: Link先を確認
David Garc\'ia-Soriano, Konstantin Kutzkov, Francesco Bonchi, Charalampos Tsourakakis(参考訳) 相関クラスタリングは、おそらく最も自然なクラスタリングの定式化である。 n個のオブジェクトとペアの類似度の測定値が与えられた場合、目的はオブジェクトをクラスタ化し、可能な限り、類似したオブジェクトを同じクラスタに配置し、異なるオブジェクトを異なるクラスタに配置することである。 相関クラスタリングの主な欠点は、入力として$\theta(n^2)$ の類似性が必要であることである。 これはしばしば計算や保存だけでは不可能である。 本稿では相関クラスタリングのためのemph{query- efficient}アルゴリズムについて検討する。 具体的には,$Q$クエリの予算が与えられた場合,最大で$3\cdot OPT + O(\frac{n^3}{Q})$で,$OPT$がインスタンスの最適コストとなるような相関クラスタリングアルゴリズムを考案する。 実行時間は$o(q)$であり、同じ保証で、容易に非適応にすることができる(つまり、開始時にすべてのクエリを指定でき、並列にすることができる)。 このアルゴリズムは, 適応アルゴリズムにおいても, クエリ数$Q$と, 最悪のエラー発生率との間に, 確実に最適なトレードオフをもたらす。 最後に,提案手法である合成データと実データの両方について実験を行い,アルゴリズムのスケーラビリティと精度を示す。

Correlation clustering is arguably the most natural formulation of clustering. Given n objects and a pairwise similarity measure, the goal is to cluster the objects so that, to the best possible extent, similar objects are put in the same cluster and dissimilar objects are put in different clusters. A main drawback of correlation clustering is that it requires as input the $\Theta(n^2)$ pairwise similarities. This is often infeasible to compute or even just to store. In this paper we study \emph{query-efficient} algorithms for correlation clustering. Specifically, we devise a correlation clustering algorithm that, given a budget of $Q$ queries, attains a solution whose expected number of disagreements is at most $3\cdot OPT + O(\frac{n^3}{Q})$, where $OPT$ is the optimal cost for the instance. Its running time is $O(Q)$, and can be easily made non-adaptive (meaning it can specify all its queries at the outset and make them in parallel) with the same guarantees. Up to constant factors, our algorithm yields a provably optimal trade-off between the number of queries $Q$ and the worst-case error attained, even for adaptive algorithms. Finally, we perform an experimental study of our proposed method on both synthetic and real data, showing the scalability and the accuracy of our algorithm.
翻訳日:2022-12-28 15:44:09 公開日:2020-02-26
# 多言語アロフォンシステムを用いたユニバーサル音声認識

Universal Phone Recognition with a Multilingual Allophone System ( http://arxiv.org/abs/2002.11800v1 )

ライセンス: Link先を確認
Xinjian Li, Siddharth Dalmia, Juncheng Li, Matthew Lee, Patrick Littell, Jiali Yao, Antonios Anastasopoulos, David R. Mortensen, Graham Neubig, Alan W Black, Florian Metze(参考訳) マルチ言語モデルは、言語間でパラメータを共有することで、特に低リソースの状況において、言語処理を改善することができる。 しかし、多言語音響モデルは一般に、音素(特定の言語で語彙のコントラストをサポートする音)と対応する電話機(実際に話される音、言語に依存しない)の違いを無視している。 これは、様々な訓練言語を組み合わせる際に性能劣化を引き起こす可能性があるが、同じ注釈付き音素は、実際にいくつかの基礎となる音素的実現に対応することができる。 本研究では,言語に依存しない音素分布と言語に依存しない音素分布の結合モデルを提案する。 11言語にわたる多言語ASR実験において、このモデルは低リソース条件下で2%の音素誤り率でテスト性能を向上させる。 さらに、言語に依存しない電話機を明示的にモデル化しているため、PHOIBLEの大規模かつ手作業による携帯電話在庫のデータベースと組み合わせることで、2000言語依存の認識器にカスタマイズすることができる。 inuktitut と tusom の2つの低言語による実験では、認識器は電話の精度を17%以上向上させ、世界中の全ての言語で音声認識に一歩近づいた。

Multilingual models can improve language processing, particularly for low resource situations, by sharing parameters across languages. Multilingual acoustic models, however, generally ignore the difference between phonemes (sounds that can support lexical contrasts in a particular language) and their corresponding phones (the sounds that are actually spoken, which are language independent). This can lead to performance degradation when combining a variety of training languages, as identically annotated phonemes can actually correspond to several different underlying phonetic realizations. In this work, we propose a joint model of both language-independent phone and language-dependent phoneme distributions. In multilingual ASR experiments over 11 languages, we find that this model improves testing performance by 2% phoneme error rate absolute in low-resource conditions. Additionally, because we are explicitly modeling language-independent phones, we can build a (nearly-)universal phone recognizer that, when combined with the PHOIBLE large, manually curated database of phone inventories, can be customized into 2,000 language dependent recognizers. Experiments on two low-resourced indigenous languages, Inuktitut and Tusom, show that our recognizer achieves phone accuracy improvements of more than 17%, moving a step closer to speech recognition for all languages in the world.
翻訳日:2022-12-28 15:37:40 公開日:2020-02-26
# リアルトレーニングデータを用いた超解像商用衛星画像

Super-Resolving Commercial Satellite Imagery Using Realistic Training Data ( http://arxiv.org/abs/2002.11248v1 )

ライセンス: Link先を確認
Xiang Zhu, Hossein Talebi, Xinwei Shi, Feng Yang, Peyman Milanfar(参考訳) 機械学習に基づく単一画像超解像では、劣化モデルはトレーニングデータ生成に埋め込まれる。 しかし、既存のほとんどの衛星画像超解像法は、固定されたカーネルを持つ単純なダウンサンプリングモデルを用いて訓練画像を作成する。 これらの手法は合成データではうまく機能するが、実際の衛星画像ではうまく機能しない。 本稿では,衛星の撮影プロセスだけでなく,地上のポストプロセスも含む,商用衛星画像製品のためのリアルなトレーニングデータ生成モデルを提案する。 また,衛星画像に最適化された畳み込みニューラルネットワークを提案する。 実験により、提案したトレーニングデータ生成モデルは、実際の衛星画像の超解像性能を向上させることができることが示された。

In machine learning based single image super-resolution, the degradation model is embedded in training data generation. However, most existing satellite image super-resolution methods use a simple down-sampling model with a fixed kernel to create training images. These methods work fine on synthetic data, but do not perform well on real satellite images. We propose a realistic training data generation model for commercial satellite imagery products, which includes not only the imaging process on satellites but also the post-process on the ground. We also propose a convolutional neural network optimized for satellite images. Experiments show that the proposed training data generation model is able to improve super-resolution performance on real satellite images.
翻訳日:2022-12-28 15:36:54 公開日:2020-02-26
# 自己監督型画像強調ネットワーク:低照度画像のみによるトレーニング

Self-supervised Image Enhancement Network: Training with Low Light Images Only ( http://arxiv.org/abs/2002.11300v1 )

ライセンス: Link先を確認
Yu Zhang, Xiaoguang Di, Bin Zhang, Chunhui Wang(参考訳) 本稿では,ディープラーニングに基づく自己教師付き低光度画像強調手法を提案する。 情報エントロピー理論とRetinexモデルに着想を得て,最大エントロピーに基づくRetinexモデルを提案した。 このモデルでは、非常に単純なネットワークが照明と反射を分離することができ、低光画像でのみネットワークを訓練することができる。 我々は,反射率の最大チャネルが低照度画像の最大チャネルに一致するという制約を導入し,そのエントロピーは自己教師付き学習を実現するために,我々のモデルで最大となるべきである。 私たちのモデルは極めて単純で、よく設計されたデータセットに依存していません(低光度画像でもトレーニングを完了できます)。 ネットワークは、画像エンハンスメントを達成するのに、分単位のトレーニングしか必要としない。 提案手法が処理速度と効果の点で最先端に到達したことは実験によって証明できる。

This paper proposes a self-supervised low light image enhancement method based on deep learning. Inspired by information entropy theory and Retinex model, we proposed a maximum entropy based Retinex model. With this model, a very simple network can separate the illumination and reflectance, and the network can be trained with low light images only. We introduce a constraint that the maximum channel of the reflectance conforms to the maximum channel of the low light image and its entropy should be largest in our model to achieve self-supervised learning. Our model is very simple and does not rely on any well-designed data set (even one low light image can complete the training). The network only needs minute-level training to achieve image enhancement. It can be proved through experiments that the proposed method has reached the state-of-the-art in terms of processing speed and effect.
翻訳日:2022-12-28 15:36:44 公開日:2020-02-26
# 擬似スーパービジョンを用いた未ペア画像超解像

Unpaired Image Super-Resolution using Pseudo-Supervision ( http://arxiv.org/abs/2002.11397v1 )

ライセンス: Link先を確認
Shunta Maeda(参考訳) 学習に基づく画像超解像(SR)のほとんどの研究において、ペア化されたトレーニングデータセットは、所定の操作(例えばバイキュビック)で高解像度(HR)画像をダウンスケールすることで作成される。 しかし、これらの手法は、分解過程がより複雑で未知である実世界の低解像度(LR)画像を超解けない。 本稿では,ペア/アライントレーニングデータセットを必要としない生成型逆ネットワークを用いた非ペア型sr手法を提案する。 本ネットワークは,非ペア化カーネル/ノイズ補正ネットワークと擬似ペア化srネットワークからなる。 補正ネットワークは、ノイズを除去し、入力されたLR画像のカーネルを調整し、修正されたクリーンLR画像はSRネットワークによってアップスケールされる。 トレーニングフェーズでは、入力されたHR画像から疑似クリーンLR画像も生成し、入力されたHR画像への擬似クリーンLR画像からのマッピングをSRネットワークによりペア方式で学習する。 我々のSRネットワークは補正ネットワークとは無関係であるため、既存のネットワークアーキテクチャや画素単位の損失関数を提案フレームワークに統合することができる。 多様なデータセットに関する実験は、提案手法が既存のsr問題の解よりも優れていることを示している。

In most studies on learning-based image super-resolution (SR), the paired training dataset is created by downscaling high-resolution (HR) images with a predetermined operation (e.g., bicubic). However, these methods fail to super-resolve real-world low-resolution (LR) images, for which the degradation process is much more complicated and unknown. In this paper, we propose an unpaired SR method using a generative adversarial network that does not require a paired/aligned training dataset. Our network consists of an unpaired kernel/noise correction network and a pseudo-paired SR network. The correction network removes noise and adjusts the kernel of the inputted LR image; then, the corrected clean LR image is upscaled by the SR network. In the training phase, the correction network also produces a pseudo-clean LR image from the inputted HR image, and then a mapping from the pseudo-clean LR image to the inputted HR image is learned by the SR network in a paired manner. Because our SR network is independent of the correction network, well-studied existing network architectures and pixel-wise loss functions can be integrated with the proposed framework. Experiments on diverse datasets show that the proposed method is superior to existing solutions to the unpaired SR problem.
翻訳日:2022-12-28 15:36:13 公開日:2020-02-26
# Force-Ultrasound Fusion:Spine Robotic-USを次の「レベル」に持ち込む

Force-Ultrasound Fusion: Bringing Spine Robotic-US to the Next "Level" ( http://arxiv.org/abs/2002.11404v1 )

ライセンス: Link先を確認
Maria Tirindelli, Maria Victorova, Javier Esteban, Seong Tae Kim, David Navarro-Alarcon, Yong Ping Zheng and Nassir Navab(参考訳) 脊椎注射は、いくつかの臨床手順で一般的に行われる。 目標の椎骨レベル(つまり脊椎内の椎骨の位置)の局在は通常、後方の触診またはx線指導によって行われ、手順の失敗や電離放射線への曝露の可能性が高くなる。 文献で予備研究が行われており、超音波イメージングは脊椎レベルの検出にX線の代わりに正確かつ安全な方法である可能性が示唆されている。 しかし、超音波データはノイズが多く、解釈が難しい。 本研究では,自動脊椎レベル検出のためのロボット超音波法を提案する。 この方法は超音波と力データの融合に依存しており、その過程で「触覚」と「視覚フィードバック」の両方を提供し、データ破損の有無で高いパフォーマンスをもたらす。 ロボットアームは、脊椎のレベルを特定するためにフォース超音波データを用いて、ボランティアの背中を自動的にスキャンする。 脊椎レベルの発生は、患者の背中にロボットが与える力を適切に制御することで、力の痕跡をピークとして見ることができる。 超音波データを深層学習法で処理し、脊椎の各部位に椎骨を有する確率をモデル化する1d信号を抽出する。 処理された力と超音波データを1D畳み込みネットワークを用いて融合し、脊椎レベルの位置を計算する。 本手法は, 脊椎レベル計数のための純画像および純力に基づく方法と比較し, 性能改善を示した。 特に、融合法は、テストセット内の脊椎レベルの100%を正しく分類することができ、純粋な画像と純粋な力に基づく方法は、それぞれ80%と90%の脊椎のみを分類できる。 提案法の可能性は,模範的な臨床応用として評価されている。

Spine injections are commonly performed in several clinical procedures. The localization of the target vertebral level (i.e. the position of a vertebra in a spine) is typically done by back palpation or under X-ray guidance, yielding either higher chances of procedure failure or exposure to ionizing radiation. Preliminary studies have been conducted in the literature, suggesting that ultrasound imaging may be a precise and safe alternative to X-ray for spine level detection. However, ultrasound data are noisy and complicated to interpret. In this study, a robotic-ultrasound approach for automatic vertebral level detection is introduced. The method relies on the fusion of ultrasound and force data, thus providing both "tactile" and visual feedback during the procedure, which results in higher performances in presence of data corruption. A robotic arm automatically scans the volunteer's back along the spine by using force-ultrasound data to locate vertebral levels. The occurrences of vertebral levels are visible on the force trace as peaks, which are enhanced by properly controlling the force applied by the robot on the patient back. Ultrasound data are processed with a Deep Learning method to extract a 1D signal modelling the probabilities of having a vertebra at each location along the spine. Processed force and ultrasound data are fused using a 1D Convolutional Network to compute the location of the vertebral levels. The method is compared to pure image and pure force-based methods for vertebral level counting, showing improved performance. In particular, the fusion method is able to correctly classify 100% of the vertebral levels in the test set, while pure image and pure force-based method could only classify 80% and 90% vertebrae, respectively. The potential of the proposed method is evaluated in an exemplary simulated clinical application.
翻訳日:2022-12-28 15:35:51 公開日:2020-02-26
# 手書き文字画像生成のための深部生成モデルの性能評価

Performance Evaluation of Deep Generative Models for Generating Hand-Written Character Images ( http://arxiv.org/abs/2002.11424v1 )

ライセンス: Link先を確認
Tanmoy Mondal, LE Thi Thuy Trang, Micka\"el Coustaty and Jean-Marc Ogier(参考訳) 手書き文字(MNISTデータセット)、シーンイメージ(CIFAR-10データセット)、さまざまなオブジェクトイメージ(ImageNetデータセット)、道路標識画像(SVHNデータセット)など、さまざまな種類の画像の生成に関する文献が多数存在する。 残念ながら、ドキュメント画像処理の領域では、非常に限られた作業しか行われていません。 自動画像生成は、限られた量のラベルデータの助けを借りて、ラベル付きデータセットの大幅な増加につながる可能性がある。 様々な種類の深層生成モデルは、主に2つのカテゴリに分けられる。 1つ目は自動エンコーダ(AE)、2つ目はGAN(Generative Adversarial Networks)である。 本稿では,様々な種類のaeとganを評価し,その性能をインドネシア・バリ語の手書き文字データセット(mnist)と歴史的手書き文字データセットで比較した。 また、これらの生成文字の原文字画像に対する統計的性能を計算するための文字認識ツールを用いて、これらの生成文字を認識する。

There have been many work in the literature on generation of various kinds of images such as Hand-Written characters (MNIST dataset), scene images (CIFAR-10 dataset), various objects images (ImageNet dataset), road signboard images (SVHN dataset) etc. Unfortunately, there have been very limited amount of work done in the domain of document image processing. Automatic image generation can lead to the enormous increase of labeled datasets with the help of only limited amount of labeled data. Various kinds of Deep generative models can be primarily divided into two categories. First category is auto-encoder (AE) and the second one is Generative Adversarial Networks (GANs). In this paper, we have evaluated various kinds of AE as well as GANs and have compared their performances on hand-written digits dataset (MNIST) and also on historical hand-written character dataset of Indonesian BALI language. Moreover, these generated characters are recognized by using character recognition tool for calculating the statistical performance of these generated characters with respect to original character images.
翻訳日:2022-12-28 15:35:23 公開日:2020-02-26
# 磁気共鳴画像における脳腫瘍の関心領域の同定

Region of Interest Identification for Brain Tumors in Magnetic Resonance Images ( http://arxiv.org/abs/2002.11509v1 )

ライセンス: Link先を確認
Fateme Mostafaie, Reihaneh Teimouri, Zahra Nabizadeh, Nader Karimi, Shadrokh Samavi(参考訳) グリオーマは脳腫瘍の一般的なタイプであり、その正確な検出は診断および治療プロセスにおいて重要な役割を果たす。 医用画像解析の進歩にもかかわらず、脳磁気共鳴(MR)画像における正確な腫瘍セグメンテーションは、腫瘍のテクスチャ、位置、形状の変化のために依然として課題である。 本稿では,腫瘍領域周辺で最小のバウンディングボックスを見つけるための,軽量計算複雑性を持つ高速で自動的な手法を提案する。 この領域は、サブリージョン腫瘍セグメンテーションのトレーニングネットワークにおける前処理ステップとして使用できる。 このアルゴリズムの出力を採用することで冗長な情報が取り除かれるため、ネットワークはサブリージョンのクラスに関連する注目すべき特徴を学習することに集中することができる。 提案手法は,脳の分節が最も重要なステップである6つの主要段階を有する。 期待最大化(EM)とK平均アルゴリズムは脳のセグメンテーションに使用される。 提案手法は BraTS 2015 データセット上で評価され,得られた平均 DICE スコアは 0.73 である。

Glioma is a common type of brain tumor, and accurate detection of it plays a vital role in the diagnosis and treatment process. Despite advances in medical image analyzing, accurate tumor segmentation in brain magnetic resonance (MR) images remains a challenge due to variations in tumor texture, position, and shape. In this paper, we propose a fast, automated method, with light computational complexity, to find the smallest bounding box around the tumor region. This region-of-interest can be used as a preprocessing step in training networks for subregion tumor segmentation. By adopting the outputs of this algorithm, redundant information is removed; hence the network can focus on learning notable features related to subregions' classes. The proposed method has six main stages, in which the brain segmentation is the most vital step. Expectation-maximization (EM) and K-means algorithms are used for brain segmentation. The proposed method is evaluated on the BraTS 2015 dataset, and the average gained DICE score is 0.73, which is an acceptable result for this application.
翻訳日:2022-12-28 15:35:08 公開日:2020-02-26
# U-Net画像トランスレータアーキテクチャの自動検索

Automatically Searching for U-Net Image Translator Architecture ( http://arxiv.org/abs/2002.11581v1 )

ライセンス: Link先を確認
Han Shu and Yunhe Wang(参考訳) 画像トランスレータは多くの重要な低レベル画像処理タスクにうまく適用されている。 しかし、U-Netのようなイメージトランスレータの古典的なネットワークアーキテクチャは、バイオメディカルイメージセグメンテーションのような他のビジョンタスクから借用されている。 この直接的な適応は最適ではなく、ネットワーク構造に冗長性を引き起こす可能性がある。 本稿では,画像翻訳のための自動アーキテクチャ探索手法を提案する。 進化的アルゴリズムを用いることで,計算リソースを削減し,従来のネットワークアーキテクチャよりも優れた性能を実現する,より効率的なネットワークアーキテクチャを探索する。 提案手法の有効性を実証するために, 大規模定性的および定量的実験を行った。 さらに、検索されたネットワークアーキテクチャを、アーキテクチャ検索手順にかかわらない他のデータセットに移植する。 これらのデータセットに対する探索アーキテクチャの効率性はさらに、この手法の一般化を実証している。

Image translators have been successfully applied to many important low level image processing tasks. However, classical network architecture of image translator like U-Net, is borrowed from other vision tasks like biomedical image segmentation. This straightforward adaptation may not be optimal and could cause redundancy in the network structure. In this paper, we propose an automatic architecture searching method for image translator. By utilizing evolutionary algorithm, we investigate a more efficient network architecture which costs less computation resources and achieves better performance than the original one. Extensive qualitative and quantitative experiments are conducted to demonstrate the effectiveness of the proposed method. Moreover, we transplant the searched network architecture to other datasets which are not involved in the architecture searching procedure. Efficiency of the searched architecture on these datasets further demonstrates the generalization of the method.
翻訳日:2022-12-28 15:34:50 公開日:2020-02-26
# ダムバースト : 領域マージに基づく画像分割法

Dam Burst: A region-merging-based image segmentation method ( http://arxiv.org/abs/2003.04797v1 )

ライセンス: Link先を確認
Rui Tang, Wenlong Song, Xiaoping Guan, Huibin Ge, and Deke Kong(参考訳) これまで、CNNベースのものを除く全てのシングルレベルセグメンテーションアルゴリズムは、オーバセグメンテーションにつながる。 CNNベースのセグメンテーションアルゴリズムには独自の問題がある。 オーバーセグメンテーションを避けるために、複数の基準しきい値がエリアマージプロセスで採用され、階層的なセグメンテーション結果を生成する。 しかし、階層の低レベルには依然として極端に過大なセグメンテーションがあり、卓越した小さなオブジェクトは階層の高レベルにおいて大きな隣接にマージされる。 本稿では,ダムバーストと呼ぶ領域マージに基づく画像分割手法を提案する。 単一レベルのセグメンテーションアルゴリズムとして、この方法はセグメンテーションを回避し、詳細を同時に保持する。 水プール間のダム破壊による洪水をシミュレートしたことから命名された。 ダムに設置した場合, エッジ検出結果をダムの補強構造として扱う。 地下からの洪水をシミュレートするために、地域内の平均グラディエントの順に昇順して地域をマージする。

Until now, all single level segmentation algorithms except CNN-based ones lead to over segmentation. And CNN-based segmentation algorithms have their own problems. To avoid over segmentation, multiple thresholds of criteria are adopted in region merging process to produce hierarchical segmentation results. However, there still has extreme over segmentation in the low level of the hierarchy, and outstanding tiny objects are merged to their large adjacencies in the high level of the hierarchy. This paper proposes a region-merging-based image segmentation method that we call it Dam Burst. As a single level segmentation algorithm, this method avoids over segmentation and retains details by the same time. It is named because of that it simulates a flooding from underground destroys dams between water-pools. We treat edge detection results as strengthening structure of a dam if it is on the dam. To simulate a flooding from underground, regions are merged by ascending order of the average gra-dient inside the region.
翻訳日:2022-12-28 15:28:28 公開日:2020-02-26
# 説明可能なAI計画と意思決定の新たな景観

The Emerging Landscape of Explainable AI Planning and Decision Making ( http://arxiv.org/abs/2002.11697v1 )

ライセンス: Link先を確認
Tathagata Chakraborti, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 本稿では,近年注目されている,説明可能なAI計画(XAIP)におけるさまざまな作業のスレッドの概要を紹介する。 我々は、この調査が、人道計画の効果的な設計における説明の役割に対する、自動化計画における新しい研究者へのガイダンスを提供し、確立された研究者に説明可能な計画のエキサイティングな世界の進化に関するいくつかの視点を提供することを期待している。

In this paper, we provide a comprehensive outline of the different threads of work in Explainable AI Planning (XAIP) that has emerged as a focus area in the last couple of years and contrast that with earlier efforts in the field in terms of techniques, target users, and delivery mechanisms. We hope that the survey will provide guidance to new researchers in automated planning towards the role of explanations in the effective design of human-in-the-loop systems, as well as provide the established researcher with some perspective on the evolution of the exciting world of explainable planning.
翻訳日:2022-12-28 15:27:47 公開日:2020-02-26
# 大規模形式文脈における知識コア

Knowledge Cores in Large Formal Contexts ( http://arxiv.org/abs/2002.11776v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) 知識計算タスクは、多くの場合、大規模なデータセットでは実行できない。 これは特に形式的概念分析(fca)における知識ベースを導出する場合に当てはまる。 したがって、この問題に対処する技術を考えることが不可欠である。 多くの成功した方法は、調査されたデータセットのサイズを減らすためにランダムなプロセスに基づいている。 しかし、これは発見されている知識に関してほとんど解釈できない。 他のアプローチでは、高度にサポートされたサブセットに制限され、稀で興味深いパターンを省略する。 本質的に異なるアプローチは、$k$-coresと呼ばれるネットワーク科学で使われている。 これらは、データセットによく接続されている場合、まれなパターンを反映することができる。 本研究では,二成分グラフへの自然対応を利用して,fca領域におけるk$-coreの研究を行う。 この構造的動機付けのアプローチは、大きな形式的文脈データセットから知識コアを理解することにつながる。

Knowledge computation tasks are often infeasible for large data sets. This is in particular true when deriving knowledge bases in formal concept analysis (FCA). Hence, it is essential to come up with techniques to cope with this problem. Many successful methods are based on random processes to reduce the size of the investigated data set. This, however, makes them hardly interpretable with respect to the discovered knowledge. Other approaches restrict themselves to highly supported subsets and omit rare and interesting patterns. An essentially different approach is used in network science, called $k$-cores. These are able to reflect rare patterns if they are well connected in the data set. In this work, we study $k$-cores in the realm of FCA by exploiting the natural correspondence to bi-partite graphs. This structurally motivated approach leads to a comprehensible extraction of knowledge cores from large formal contexts data sets.
翻訳日:2022-12-28 15:27:36 公開日:2020-02-26
# CAAI - サイバー物理生産システムに人工知能を導入する認知アーキテクチャ

CAAI -- A Cognitive Architecture to Introduce Artificial Intelligence in Cyber-Physical Production Systems ( http://arxiv.org/abs/2003.00925v1 )

ライセンス: Link先を確認
Andreas Fischbach, Jan Strohschein, Andreas Bunte, J\"org Stork, Heide Faeskorn-Woyke, Natalia Moriz, Thomas Bartz-Beielstein(参考訳) 本稿では,サイバー物理生産システムにおける人工知能の新しい認知アーキテクチャであるCAAIを紹介する。 アーキテクチャの目標は、人工知能アルゴリズムの使用に対する実装の労力を減らすことである。 CAAIの中核は、ユーザの宣言的目標を処理し、適切なモデルとアルゴリズムを選択し、ビッグデータプラットフォーム上で処理パイプラインを実行するための構成を作成する認知モジュールである。 性能基準に対する絶え間ない観察と評価は、パイプラインのパフォーマンスを多くの様々なユースケースで評価する。 これらの評価に基づいて、パイプラインは必要に応じて自動的に適応される。 インターフェースを適切に定義したモジュール設計は、パイプラインコンポーネントの再利用性と拡張性を実現する。 ビッグデータプラットフォームは、個々のコンポーネントとその通信の仮想化とオーケストレーションのために、Docker、Kubernetes、Kafkaといったテクノロジによってサポートされているこのモジュラー設計を実装している。 アーキテクチャの実装は実世界のユースケースを用いて評価される。

This paper introduces CAAI, a novel cognitive architecture for artificial intelligence in cyber-physical production systems. The goal of the architecture is to reduce the implementation effort for the usage of artificial intelligence algorithms. The core of the CAAI is a cognitive module that processes declarative goals of the user, selects suitable models and algorithms, and creates a configuration for the execution of a processing pipeline on a big data platform. Constant observation and evaluation against performance criteria assess the performance of pipelines for many and varying use cases. Based on these evaluations, the pipelines are automatically adapted if necessary. The modular design with well-defined interfaces enables the reusability and extensibility of pipeline components. A big data platform implements this modular design supported by technologies such as Docker, Kubernetes, and Kafka for virtualization and orchestration of the individual components and their communication. The implementation of the architecture is evaluated using a real-world use case.
翻訳日:2022-12-28 15:27:25 公開日:2020-02-26
# 多変量形状制約凸回帰問題の効率的なアルゴリズム

Efficient algorithms for multivariate shape-constrained convex regression problems ( http://arxiv.org/abs/2002.11410v1 )

ライセンス: Link先を確認
Meixia Lin, Defeng Sun, Kim-Chuan Toh(参考訳) 形状制約凸回帰問題は、成分的な単調性や一様リプシッツ連続性のような追加の制約が課される観測データに凸関数を適合させることを扱う。 本稿では,多変量形状制約付き凸回帰関数の最小二乗推定器を$\mathbb{r}^d$ で計算するための包括的メカニズムを提案する。 最小二乗推定子は、制約付き凸二次計画(QP)問題を$(n+1)d$変数と少なくとも$n(n-1)$線形不等式制約で解くことで計算可能であることを証明している。 一般の大規模凸QPの解法として,対称ガウス-シーデル法に基づく乗算器の交互方向法({\tt sGS-ADMM})と半滑らかニュートン法({\tt SSN})で解ける部分確率の近似拡張ラグランジアン法({\tt pALM})の2つの効率的なアルゴリズムを設計する。 バスケットオプションの価格設定や経済学における生産関数の推定を含む包括的数値実験により,提案手法はともに最先端アルゴリズムよりも優れていることが示された。 pALM {\displaystyle pALM} は {\tt sGS-ADMM} よりも効率的であるが、後者は実装が簡単であるという利点がある。

Shape-constrained convex regression problem deals with fitting a convex function to the observed data, where additional constraints are imposed, such as component-wise monotonicity and uniform Lipschitz continuity. This paper provides a comprehensive mechanism for computing the least squares estimator of a multivariate shape-constrained convex regression function in $\mathbb{R}^d$. We prove that the least squares estimator is computable via solving a constrained convex quadratic programming (QP) problem with $(n+1)d$ variables and at least $n(n-1)$ linear inequality constraints, where $n$ is the number of data points. For solving the generally very large-scale convex QP, we design two efficient algorithms, one is the symmetric Gauss-Seidel based alternating direction method of multipliers ({\tt sGS-ADMM}), and the other is the proximal augmented Lagrangian method ({\tt pALM}) with the subproblems solved by the semismooth Newton method ({\tt SSN}). Comprehensive numerical experiments, including those in the pricing of basket options and estimation of production functions in economics, demonstrate that both of our proposed algorithms outperform the state-of-the-art algorithm. The {\tt pALM} is more efficient than the {\tt sGS-ADMM} but the latter has the advantage of being simpler to implement.
翻訳日:2022-12-28 15:27:15 公開日:2020-02-26
# 音声自動転写のためのゼロショット学習に向けて

Towards Zero-shot Learning for Automatic Phonemic Transcription ( http://arxiv.org/abs/2002.11781v1 )

ライセンス: Link先を確認
Xinjian Li, Siddharth Dalmia, David R. Mortensen, Juncheng Li, Alan W Black, Florian Metze(参考訳) 自動音素転写ツールは低リソース言語文書に有用である。 しかし、トレーニングセットが不足しているため、音素書き起こしツールを持っている言語はごくわずかである。 幸いなことに、多言語音響モデリングは、限られたオーディオトレーニングデータに対する解決策を提供する。 より難しい問題は、トレーニングデータなしの言語のための音素転写器を構築することである。 このタスクの難易度は、音素の在庫が訓練言語と対象言語の間でしばしば異なるため、見当たらない音素を認識することは不可能である。 本研究では,ゼロショット学習の概念を採用することでこの問題に対処する。 我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。 本モデルでは、音素を母音や子音といった対応する調音属性に分解する。 音素を直接予測する代わりに、まず音素属性の分布を予測し、音素分布をカスタマイズされた音響モデルで計算する。 モデルを13言語で学習し、7言語でテストすることで評価した。 その結果,標準多言語モデルよりも平均7.7%の音素誤り率が得られることがわかった。

Automatic phonemic transcription tools are useful for low-resource language documentation. However, due to the lack of training sets, only a tiny fraction of languages have phonemic transcription tools. Fortunately, multilingual acoustic modeling provides a solution given limited audio training data. A more challenging problem is to build phonemic transcribers for languages with zero training data. The difficulty of this task is that phoneme inventories often differ between the training languages and the target language, making it infeasible to recognize unseen phonemes. In this work, we address this problem by adopting the idea of zero-shot learning. Our model is able to recognize unseen phonemes in the target language without any training data. In our model, we decompose phonemes into corresponding articulatory attributes such as vowel and consonant. Instead of predicting phonemes directly, we first predict distributions over articulatory attributes, and then compute phoneme distributions with a customized acoustic model. We evaluate our model by training it using 13 languages and testing it using 7 unseen languages. We find that it achieves 7.7% better phoneme error rate on average over a standard multilingual model.
翻訳日:2022-12-28 15:26:13 公開日:2020-02-26
# puzzlenet:セグメントコンテキストグラフ学習によるシーンテキストの検出

PuzzleNet: Scene Text Detection by Segment Context Graph Learning ( http://arxiv.org/abs/2002.11371v1 )

ライセンス: Link先を確認
Hao Liu, Antai Guo, Deqiang Jiang, Yiqing Hu, Bo Ren(参考訳) 近年,難易度の高いテキスト領域を分割してボトムアップ方式でリンクすることで,分解ベースのシーンテキスト検出手法が目覚ましい進歩を遂げている。 しかし、それらの多くは、文脈情報が過小評価されている間、独立したテキストのリンクのみに焦点を当てている。 パズルゲームでは、解答者が正しい解に到達するために、各ピースの文脈情報に従って、しばしば論理的な方法でピースを組み立てる。 そこで本研究では,本研究における難解なシーンテキスト検出課題に対処するために,新しい分解ベース手法であるpuzzlenetを提案する。 PuzzleNetは、テキスト領域の任意の形状に適合する候補テキストセグメントを予測するSegment Proposal Network (SPN)と、各セグメントの外観と幾何学的相関をモデル化した2ブランチのMultiple-Similarity Graph Convolutional Network (MSGCN)で構成されている。 セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。 予測された組み合わせに応じてセグメントをマージすることで、ポリゴン形状の最終的な検出を行う。 ICDAR15, MSRA-TD500, SCUT-CTW1500の3つのベンチマークデータから, セグメントコンテキストグラフの活用により, 現在の最先端技術よりも優れた性能が得られることを示した。

Recently, a series of decomposition-based scene text detection methods has achieved impressive progress by decomposing challenging text regions into pieces and linking them in a bottom-up manner. However, most of them merely focus on linking independent text pieces while the context information is underestimated. In the puzzle game, the solver often put pieces together in a logical way according to the contextual information of each piece, in order to arrive at the correct solution. Inspired by it, we propose a novel decomposition-based method, termed Puzzle Networks (PuzzleNet), to address the challenging scene text detection task in this work. PuzzleNet consists of the Segment Proposal Network (SPN) that predicts the candidate text segments fitting arbitrary shape of text region, and the two-branch Multiple-Similarity Graph Convolutional Network (MSGCN) that models both appearance and geometry correlations between each segment to its contextual ones. By building segments as context graphs, MSGCN effectively employs segment context to predict combinations of segments. Final detections of polygon shape are produced by merging segments according to the predicted combinations. Evaluations on three benchmark datasets, ICDAR15, MSRA-TD500 and SCUT-CTW1500, have demonstrated that our method can achieve better or comparable performance than current state-of-the-arts, which is beneficial from the exploitation of segment context graph.
翻訳日:2022-12-28 15:20:26 公開日:2020-02-26
# 画像検索のための深部製品量子化ネットワークの逆攻撃

Adversarial Attack on Deep Product Quantization Network for Image Retrieval ( http://arxiv.org/abs/2002.11374v1 )

ライセンス: Link先を確認
Yan Feng, Bin Chen, Tao Dai, Shutao Xia(参考訳) 近年,特に大規模データセットを扱う場合の高次元視覚特徴の符号化の効率化により,高速画像検索タスクにおいてDPQN (Deep Product Quantization Network) が注目されている。 近年の研究では、ディープニューラルネットワーク(DNN)は、小さく、悪意のある設計の摂動(敵の例)によって入力に弱いことが示されている。 この現象は、テスト/デプロイの段階でもDPQNのセキュリティ上の問題を引き起こす。 しかし,対局例がdpqnに与える影響についてはほとんど調査されていない。 そこで本研究では, 製品量子化に基づく検索システムにおいて, 逆の例を簡易かつ効果的に生成するPQ-AGを提案する。 PQ-AGは、ターゲットとする製品Quantizaitonモデルから最も近い隣人が、元のクエリと意味的に関係しない、逆クエリを形成するために、クエリイメージに対する知覚できない逆摂動を生成することを目的としている。 大規模な実験により,我々のPQ-AQは,対象とする製品量子化検索モデルを誤導する逆例をうまく生成できた。 さらに,PQ-AGは,ホワイトボックスとブラックボックスの両方で検索性能を著しく低下させることがわかった。

Deep product quantization network (DPQN) has recently received much attention in fast image retrieval tasks due to its efficiency of encoding high-dimensional visual features especially when dealing with large-scale datasets. Recent studies show that deep neural networks (DNNs) are vulnerable to input with small and maliciously designed perturbations (a.k.a., adversarial examples). This phenomenon raises the concern of security issues for DPQN in the testing/deploying stage as well. However, little effort has been devoted to investigating how adversarial examples affect DPQN. To this end, we propose product quantization adversarial generation (PQ-AG), a simple yet effective method to generate adversarial examples for product quantization based retrieval systems. PQ-AG aims to generate imperceptible adversarial perturbations for query images to form adversarial queries, whose nearest neighbors from a targeted product quantizaiton model are not semantically related to those from the original queries. Extensive experiments show that our PQ-AQ successfully creates adversarial examples to mislead targeted product quantization retrieval models. Besides, we found that our PQ-AG significantly degrades retrieval performance in both white-box and black-box settings.
翻訳日:2022-12-28 15:20:01 公開日:2020-02-26
# 制御可能な顔合成

Controllable Descendant Face Synthesis ( http://arxiv.org/abs/2002.11376v1 )

ライセンス: Link先を確認
Yong Zhang, Le Li, Zhilei Liu, Baoyuan Wu, Yanbo Fan, Zhifeng Li(参考訳) キンシップ・フェイス・シンセサイザー(Kinship face synthesis)は、"将来の子供たちはどんなものになるのか? この話題に対する出版アプローチは限られている。 既存の手法のほとんどは、合成された顔と親顔との類似性を明示的に制御することなく、オートエンコーダを直接使用することにより、1つの親顔と1つの子顔のみを考慮した1対1の親関係のモデルを訓練する。 本稿では,2つの親顔と1つの子顔の関係をモデル化した,制御可能な子孫顔合成法を提案する。 このモデルは継承モジュールと属性拡張モジュールで構成されており、前者は合成顔と親顔の類似性を正確に制御するために設計され、後者は年齢と性別を制御できるように設計されている。 親子間関係をアノテーションした大規模データベースは存在せず,真理後縁を用いずにモデルを訓練するための効果的な戦略を提案する。 トレーニング顔の年齢ラベルと性別ラベル以外は、注意深くデザインされた画像ペアは必要ない。 3つの公開ベンチマークデータベース上で総合的な実験評価を行い,その効果を実証した。

Kinship face synthesis is an interesting topic raised to answer questions like "what will your future children look like?". Published approaches to this topic are limited. Most of the existing methods train models for one-versus-one kin relation, which only consider one parent face and one child face by directly using an auto-encoder without any explicit control over the resemblance of the synthesized face to the parent face. In this paper, we propose a novel method for controllable descendant face synthesis, which models two-versus-one kin relation between two parent faces and one child face. Our model consists of an inheritance module and an attribute enhancement module, where the former is designed for accurate control over the resemblance between the synthesized face and parent faces, and the latter is designed for control over age and gender. As there is no large scale database with father-mother-child kinship annotation, we propose an effective strategy to train the model without using the ground truth descendant faces. No carefully designed image pairs are required for learning except only age and gender labels of training faces. We conduct comprehensive experimental evaluations on three public benchmark databases, which demonstrates encouraging results.
翻訳日:2022-12-28 15:19:38 公開日:2020-02-26
# Deform-GAN: 変形可能な登録のための教師なし学習モデル

Deform-GAN:An Unsupervised Learning Model for Deformable Registration ( http://arxiv.org/abs/2002.11430v1 )

ライセンス: Link先を確認
Xiaoyue Zhang, Weijian Jian, Yu Chen, Shihting Yang(参考訳) 変形可能な登録は、特に異なるシーケンスとモダリティの整合性において、医療画像解析の分野で最も難しい課題の1つである。 本稿では,教師なし学習を利用した3次元医用画像の非剛性登録手法を提案する。 我々の知る限りでは、これはディープラーニングベースの登録に勾配損失を導入する最初の試みである。 提案した勾配損失は、大きな変形のためのシーケンスやモーダルにわたって頑健である。 さらに, 対数学習手法を用いて, 多モード類似性をモノモーダル類似性に移行し, 精度を向上させる。 トレーニング中は、接地や手動のラベリングは不要である。 我々は3次元脳登録タスクを網羅的に評価した。 実験により,提案手法が非機能的な強度関係,雑音,ぼけを持つデータに対処できることを実証した。 我々の手法は特に精度と速度で他の手法より優れている。

Deformable registration is one of the most challenging task in the field of medical image analysis, especially for the alignment between different sequences and modalities. In this paper, a non-rigid registration method is proposed for 3D medical images leveraging unsupervised learning. To the best of our knowledge, this is the first attempt to introduce gradient loss into deep-learning-based registration. The proposed gradient loss is robust across sequences and modals for large deformation. Besides, adversarial learning approach is used to transfer multi-modal similarity to mono-modal similarity and improve the precision. Neither ground-truth nor manual labeling is required during training. We evaluated our network on a 3D brain registration task comprehensively. The experiments demonstrate that the proposed method can cope with the data which has non-functional intensity relations, noise and blur. Our approach outperforms other methods especially in accuracy and speed.
翻訳日:2022-12-28 15:19:00 公開日:2020-02-26
# 2レベル最適化による光流れの非教師なし学習とエゴモーション

Joint Unsupervised Learning of Optical Flow and Egomotion with Bi-Level Optimization ( http://arxiv.org/abs/2002.11826v1 )

ライセンス: Link先を確認
Shihao Jiang, Dylan Campbell, Miaomiao Liu, Stephen Gould, Richard Hartley(参考訳) 本稿では,教師なし深層学習の枠組みに幾何学的制約を組み込むことにより,剛体シーンにおける光学的流れとカメラモーション推定の問題に対処する。 光流推定のために明るさ定数と局所滑らかさに依存する既存のアプローチとは異なり、エピポーラ幾何を用いた光流とカメラの動きのグローバル関係を活用している。 特に, 予測されたカメラ動作に適合する流れを推定する上層問題と, 予測された光流れに与えられたカメラ動作を推定する下層問題とからなる2次最適化問題として, 光フローとカメラ動作の予測を定式化する。 ネットワークのエンド・ツー・エンドのトレーニングを可能にするため,低レベルの幾何最適化層を介し,暗黙の微分を用いてバックプロパゲーションを可能にする。 グローバルに強化された幾何学的制約により、計算された光学的フローの品質を挑戦シナリオで向上し、他の教師なし学習手法と比較してカメラの動きの推定精度を向上させることができる。

We address the problem of joint optical flow and camera motion estimation in rigid scenes by incorporating geometric constraints into an unsupervised deep learning framework. Unlike existing approaches which rely on brightness constancy and local smoothness for optical flow estimation, we exploit the global relationship between optical flow and camera motion using epipolar geometry. In particular, we formulate the prediction of optical flow and camera motion as a bi-level optimization problem, consisting of an upper-level problem to estimate the flow that conforms to the predicted camera motion, and a lower-level problem to estimate the camera motion given the predicted optical flow. We use implicit differentiation to enable back-propagation through the lower-level geometric optimization layer independent of its implementation, allowing end-to-end training of the network. With globally-enforced geometric constraints, we are able to improve the quality of the estimated optical flow in challenging scenarios and obtain better camera motion estimates compared to other unsupervised learning methods.
翻訳日:2022-12-28 15:17:26 公開日:2020-02-26
# 深層顔認識のためのユニバーサル表現学習に向けて

Towards Universal Representation Learning for Deep Face Recognition ( http://arxiv.org/abs/2002.11841v1 )

ライセンス: Link先を確認
Yichun Shi, Xiang Yu, Kihyuk Sohn, Manmohan Chandraker, and Anil K. Jain(参考訳) 様々なバリエーションで現れるため、野生の顔を認識することは極めて難しい。 従来の方法では、ターゲットドメインから特定の注釈付き変動データをトレーニングするか、トレーニングデータから適応するためにラベルなしのターゲット変動データを導入する。 そこで本研究では,対象領域の知識を生かせずに,与えられたトレーニングデータに見当たらない大きな変動に対処できる汎用表現学習フレームワークを提案する。 まず,低解像度,オクルージョン,頭部ポーズなどの意味論的意味のあるバリエーションとともに,トレーニングデータを合成する。 しかし、トレーニングのために拡張データを直接送り出すことは、新しく導入されたサンプルがほとんどが難しい例であるため、うまく収束しない。 本稿では,複数のサブエンベディングに組み込む特徴を分割し,各サブエンベディングに対して異なる信頼値を関連付け,トレーニング手順の円滑化を図ることを提案する。 サブエンベディングは、ばらつき分類損失と、それらの異なるパーティション上のばらつき逆損失とを規則化することにより、さらに相関する。 実験の結果,LFW や MegaFace などの一般的な顔認識データセットでは,TinyFace や IJB-S などの極端なベンチマークでは高い性能を示した。

Recognizing wild faces is extremely hard as they appear with all kinds of variations. Traditional methods either train with specifically annotated variation data from target domains, or by introducing unlabeled target variation data to adapt from the training data. Instead, we propose a universal representation learning framework that can deal with larger variation unseen in the given training data without leveraging target domain knowledge. We firstly synthesize training data alongside some semantically meaningful variations, such as low resolution, occlusion and head pose. However, directly feeding the augmented data for training will not converge well as the newly introduced samples are mostly hard examples. We propose to split the feature embedding into multiple sub-embeddings, and associate different confidence values for each sub-embedding to smooth the training procedure. The sub-embeddings are further decorrelated by regularizing variation classification loss and variation adversarial loss on different partitions of them. Experiments show that our method achieves top performance on general face recognition datasets such as LFW and MegaFace, while significantly better on extreme benchmarks such as TinyFace and IJB-S.
翻訳日:2022-12-28 15:17:08 公開日:2020-02-26
# Marathi、ほぼ完璧なコーパスとトランスフォーマーで英語のニューラルマシン翻訳へ

Marathi To English Neural Machine Translation With Near Perfect Corpus And Transformers ( http://arxiv.org/abs/2002.11643v1 )

ライセンス: Link先を確認
Swapnil Ashok Jadhav(参考訳) インド言語におけるニューラルネットワーク翻訳タスクの最先端アルゴリズムのパフォーマンスをベンチマークする試みはほとんどない。 Google、Bing、Facebook、Yandexなどは、インド諸言語に翻訳システムを提供している数少ない企業だ。 その中でも、googleの翻訳結果は一般的な検査に基づいてより良くなるはずだ。 bing-translatorは、約95万人の話者で、世界第1位と第2位の話者の合計で15位であるmarathi言語もサポートしていない。 このエクササイズでは、さまざまなNeural Machine MarathiとBERT-tokenizerでトレーニングされたイングリッシュトランスレータのトレーニングと比較を行い、FacebookのFairseqプラットフォームを使って、さまざまなTransformerベースのアーキテクチャをハグし、ほぼ正しい並列コーパスを使用して、GoogleのTatoebaやWikimediaのオープンデータセットよりも優れたBLEUスコアを達成しました。

There have been very few attempts to benchmark performances of state-of-the-art algorithms for Neural Machine Translation task on Indian Languages. Google, Bing, Facebook and Yandex are some of the very few companies which have built translation systems for few of the Indian Languages. Among them, translation results from Google are supposed to be better, based on general inspection. Bing-Translator do not even support Marathi language which has around 95 million speakers and ranks 15th in the world in terms of combined primary and secondary speakers. In this exercise, we trained and compared variety of Neural Machine Marathi to English Translators trained with BERT-tokenizer by huggingface and various Transformer based architectures using Facebook's Fairseq platform with limited but almost correct parallel corpus to achieve better BLEU scores than Google on Tatoeba and Wikimedia open datasets.
翻訳日:2022-12-28 15:10:58 公開日:2020-02-26
# Type-2 ファジィ集合に基づく言語決定のためのヘジィファジィ言語集合

Type-2 Fuzzy Set based Hesitant Fuzzy Linguistic Term Sets for Linguistic Decision Making ( http://arxiv.org/abs/2002.11714v1 )

ライセンス: Link先を確認
Taniya Seth and Pranab K. Muhuri(参考訳) 単語による計算に基づくアプローチは、意思決定システムにおいて適切な適用性を見出す。 主にタイプ1ファジィ集合の基底を見つけるため、単語による計算では、タイプ1ファジィ集合を言語用語の意味論として用いる。 しかし、2型ファジィ集合は実践システムにおいて言語情報を表現するのに科学的に適切であることが証明されている。 彼らは、言語情報が専門家のグループから来る場合に、不確かさと不確実性の両方を考慮する。 そこで,本論文では,ヒューシスタントなファジィ言語用語集合の枠組みにおいて,セマンティクスがインターバルタイプ2ファジィ集合で表される言語用語を導入することを提案する。 また,多区間の2型ファジィ集合から多区間の2型ファジィエンベロープを演算する新たな手法を提案する。 さらに、サプライヤーの性能評価シナリオにおいて、間隔型2ファジィセットを持つフレームワークを適用した。 人間は主にサプライチェーンの全プロセスに関与しているため、そのフィードバックは多くの要因を決定しながら重要である。 論文の終わりに向けて、提示したモデルと既存のモデルを比較し、前者の利点を実証する。

Approaches based on computing with words find good applicability in decision making systems. Predominantly finding their basis in type-1 fuzzy sets, computing with words approaches employ type-1 fuzzy sets as semantics of the linguistic terms. However, type-2 fuzzy sets have been proven to be scientifically more appropriate to represent linguistic information in practical systems. They take into account both the intra-uncertainty as well as the inter-uncertainty in cases where the linguistic information comes from a group of experts. Hence in this paper, we propose to introduce linguistic terms whose semantics are denoted by interval type-2 fuzzy sets within the hesitant fuzzy linguistic term set framework, resulting in type-2 fuzzy sets based hesitant fuzzy linguistic term sets. We also introduce a novel method of computing type-2 fuzzy envelopes out of multiple interval type-2 fuzzy sets with trapezoidal membership functions. Furthermore, the proposed framework with interval type-2 fuzzy sets is applied on a supplier performance evaluation scenario. Since humans are predominantly involved in the entire process of supply chain, their feedback is crucial while deciding many factors. Towards the end of the paper, we compare our presented model with various existing models and demonstrate the advantages of the former.
翻訳日:2022-12-28 15:10:39 公開日:2020-02-26
# クラウドソーシングのモデル化と不正確性 : MONITOR

Modelisation de l'incertitude et de l'imprecision de donnees de crowdsourcing : MONITOR ( http://arxiv.org/abs/2002.11717v1 )

ライセンス: Link先を確認
Constance Thierry (1), Jean-Christophe Dubois (1), Yolande Le Gall (1), Arnaud Martin ((1) Universit\'e de Rennes 1, France)(参考訳) クラウドソーシングは、多くのコントリビュータへのタスクのアウトソーシングとして定義される。 群衆はこれらのプラットフォーム上で非常に多様であり、タスクの報酬に惹かれる悪意のあるコントリビュータを含む。 これらの貢献者を特定することは、彼らの反応を考えるのを避けるために不可欠である。 すべてのコントリビュータがタスクに同じ適性を持っているわけではないので、その資格に応じて回答に重みを付けるのが適しているように思える。 ictai 2019カンファレンスで発表された論文では,貢献者のプロファイルを推定し,信念関数理論を用いて応答を集約する手法である monitor を提案する。

Crowdsourcing is defined as the outsourcing of tasks to a crowd of contributors. The crowd is very diverse on these platforms and includes malicious contributors attracted by the remuneration of tasks and not conscientiously performing them. It is essential to identify these contributors in order to avoid considering their responses. As not all contributors have the same aptitude for a task, it seems appropriate to give weight to their answers according to their qualifications. This paper, published at the ICTAI 2019 conference, proposes a method, MONITOR, for estimating the profile of the contributor and aggregating the responses using belief function theory.
翻訳日:2022-12-28 15:10:18 公開日:2020-02-26
# アルゴリズム取引問題における強化学習の利用

Using Reinforcement Learning in the Algorithmic Trading Problem ( http://arxiv.org/abs/2002.11523v1 )

ライセンス: Link先を確認
Evgeny Ponomarev, Ivan Oseledets, Andrzej Cichocki(参考訳) 強化学習手法の開発はアルゴリズム取引を含む多くの分野に応用された。 本稿では、証券取引所における取引を、状態、行動、報酬からなるマルコフ特性を持つゲームとして解釈する。 複数のニューラルネットワークアーキテクチャを用いた非同期アドバンテージアクタ-クリティック手法に基づいて,金融機器の固定ボリュームを取引するシステムを提案し,実験的に検証した。 本手法における繰り返し層の適用について検討した。 実験は実際の匿名データを用いて行われた。 最良のアーキテクチャは、rts指数先物(moex:rtsi)の取引戦略を実証し、1アンナム当たりの利益率は66%であった。 プロジェクトのソースコードは以下のリンクから入手できる。

The development of reinforced learning methods has extended application to many areas including algorithmic trading. In this paper trading on the stock exchange is interpreted into a game with a Markov property consisting of states, actions, and rewards. A system for trading the fixed volume of a financial instrument is proposed and experimentally tested; this is based on the asynchronous advantage actor-critic method with the use of several neural network architectures. The application of recurrent layers in this approach is investigated. The experiments were performed on real anonymized data. The best architecture demonstrated a trading strategy for the RTS Index futures (MOEX:RTSI) with a profitability of 66% per annum accounting for commission. The project source code is available via the following link: http://github.com/evgps/a3c_trading.
翻訳日:2022-12-28 15:10:07 公開日:2020-02-26
# 多属性ガイドペイント生成

Multi-Attribute Guided Painting Generation ( http://arxiv.org/abs/2002.11261v1 )

ライセンス: Link先を確認
Minxuan Lin, Yingying Deng, Fan Tang, Weiming Dong, Changsheng Xu(参考訳) 制御可能な絵画生成は、画像スタイリングにおいて重要な役割を果たす。 現在、スタイル転送の制御方法は、模範的な参照やランダムなワンホットベクトル誘導の対象となっている。 絵画の本質的な性質を、例えば芸術家、ジャンル、時代などの制御条件として分離することに焦点を当てる作品はほとんどない。 この状況下では,絵画から複数の属性を取り入れ,スタイリゼーション結果を制御する新しい枠組みを提案する。 非対称サイクル構造は、色とテクスチャをドメイン間で一意に区別し続けるために、スタイル保存および属性回帰損失と関連づけて忠実性を保つために備えられている。 いくつかの定性的および定量的な結果は、複数の属性の組み合わせの効果を示し、良好な性能を達成する。

Controllable painting generation plays a pivotal role in image stylization. Currently, the control way of style transfer is subject to exemplar-based reference or a random one-hot vector guidance. Few works focus on decoupling the intrinsic properties of painting as control conditions, e.g., artist, genre and period. Under this circumstance, we propose a novel framework adopting multiple attributes from the painting to control the stylized results. An asymmetrical cycle structure is equipped to preserve the fidelity, associating with style preserving and attribute regression loss to keep the unique distinction of colors and textures between domains. Several qualitative and quantitative results demonstrate the effect of the combinations of multiple attributes and achieve satisfactory performance.
翻訳日:2022-12-28 15:09:31 公開日:2020-02-26
# 幾何認識ネットワークによる光場角超解法学習

Learning Light Field Angular Super-Resolution via a Geometry-Aware Network ( http://arxiv.org/abs/2002.11263v1 )

ライセンス: Link先を確認
Jing Jin and Junhui Hou and Hui Yuan and Sam Kwong(参考訳) 高い角分解能のライトフィールド画像の取得はコストがかかる。 狭帯域光界の角分解能を改善するために多くの方法が提案されているが、常に小型の光界カメラで捉えた小さなベースラインを持つ光界に焦点を合わせている。 本稿では,光フィールドの固有値であるtextit{geometry}情報をフル活用することにより,広いベースラインを持つ狭帯域光フィールドを斜めに超解するエンド・ツー・エンドの学習ベースアプローチを提案する。 我々のモデルは2つの学習可能なモジュールと物理ベースのモジュールから構成される。 具体的には、シーン幾何学を明示的にモデル化する深度推定モジュール、新規なビュー合成のための物理ベースのワーピング、光フィールド再構成用に特別に設計された光フィールドブレンディングモジュールを含む。 さらに,光電場パララックス構造の保存を促進するために,新たな損失関数を導入する。 大規模光フィールド画像を含む様々な光フィールドデータセットに対する実験結果から,提案手法を最先端の手法と比較した場合,すなわち,平均2dBまでのPSNRを改善するとともに,実行時間を48$\times$に短縮する。 さらに,光電界パララックス構造をよりよく保存する手法を提案する。

The acquisition of light field images with high angular resolution is costly. Although many methods have been proposed to improve the angular resolution of a sparsely-sampled light field, they always focus on the light field with a small baseline, which is captured by a consumer light field camera. By making full use of the intrinsic \textit{geometry} information of light fields, in this paper we propose an end-to-end learning-based approach aiming at angularly super-resolving a sparsely-sampled light field with a large baseline. Our model consists of two learnable modules and a physically-based module. Specifically, it includes a depth estimation module for explicitly modeling the scene geometry, a physically-based warping for novel views synthesis, and a light field blending module specifically designed for light field reconstruction. Moreover, we introduce a novel loss function to promote the preservation of the light field parallax structure. Experimental results over various light field datasets including large baseline light field images demonstrate the significant superiority of our method when compared with state-of-the-art ones, i.e., our method improves the PSNR of the second best method up to 2 dB in average, while saves the execution time 48$\times$. In addition, our method preserves the light field parallax structure better.
翻訳日:2022-12-28 15:09:19 公開日:2020-02-26
# 残存手術期間予測のための補助タスクとしての教師なし時間映像分割

Unsupervised Temporal Video Segmentation as an Auxiliary Task for Predicting the Remaining Surgery Duration ( http://arxiv.org/abs/2002.11367v1 )

ライセンス: Link先を確認
Dominik Rivoir, Sebastian Bodenstedt, Felix von Bechtolsheim, Marius Distler, J\"urgen Weitz, Stefanie Speidel(参考訳) 外科手術中の残存手術期間(RSD)を推定することは、OR計画および麻酔線量推定に有用である。 近年のコンピュータビジョンにおける深層学習に基づく手法の成功により、内視鏡カメラからの視覚データのみに基づく完全自動rsd予測のためのニューラルネットワークアプローチが提案されている。 補助学習タスクとして教師なし時空間映像セグメンテーションを用いてrsd予測を改善することができるか検討した。 手術相認識を補助タスクとして提示した先行研究とは対照的に,ビデオシーケンスを時間的コヒーレントセグメントに集約する類似しているが教師なしの学習目標を提案することにより,手動アノテーションの必要性を回避した。 複数の実験セットアップにおいて、補助タスクを学習した結果が特徴抽出、事前学習、正規化により深層rsdモデルに組み込まれる。 さらに, RSD基底真理の好ましくない特徴に対処しようとする, RSDトレーニングのための新しい損失関数を提案する。 rsdトレーニングの補助タスクとして,無教師法を用いて,他の自己教師法よりも優れており,教師あり状態と同等である。 新たなRDD損失と組み合わせて,教師付きアプローチを若干上回った。

Estimating the remaining surgery duration (RSD) during surgical procedures can be useful for OR planning and anesthesia dose estimation. With the recent success of deep learning-based methods in computer vision, several neural network approaches have been proposed for fully automatic RSD prediction based solely on visual data from the endoscopic camera. We investigate whether RSD prediction can be improved using unsupervised temporal video segmentation as an auxiliary learning task. As opposed to previous work, which presented supervised surgical phase recognition as auxiliary task, we avoid the need for manual annotations by proposing a similar but unsupervised learning objective which clusters video sequences into temporally coherent segments. In multiple experimental setups, results obtained by learning the auxiliary task are incorporated into a deep RSD model through feature extraction, pretraining or regularization. Further, we propose a novel loss function for RSD training which attempts to counteract unfavorable characteristics of the RSD ground truth. Using our unsupervised method as an auxiliary task for RSD training, we outperform other self-supervised methods and are comparable to the supervised state-of-the-art. Combined with the novel RSD loss, we slightly outperform the supervised approach.
翻訳日:2022-12-28 15:08:25 公開日:2020-02-26
# PointTrackNet:3Dオブジェクトの検出と追跡のためのエンドツーエンドネットワーク

PointTrackNet: An End-to-End Network For 3-D Object Detection and Tracking From Point Clouds ( http://arxiv.org/abs/2002.11559v1 )

ライセンス: Link先を確認
Sukai Wang, Yuxiang Sun, Chengju Liu, Ming Liu(参考訳) 最近の機械学習ベースのマルチオブジェクトトラッキング(MOT)フレームワークは、3Dポイントクラウドで人気を集めている。 従来の追跡手法のほとんどはフィルタ(例えばカルマンフィルタや粒子フィルタ)を使用して時系列内の物体の位置を予測しているが、突然のブレーキや旋回といった極端な動き条件に弱い。 本稿では,各検出対象に対して前景マスク,3次元バウンディングボックス,ポイントワイズトラッキング関連変位を発生させる,エンドツーエンドの3次元物体検出追跡ネットワークであるpointtracknetを提案する。 ネットワークは、隣接する2つのポイントクラウドフレームとしてのみ入力される。 KITTI追跡データセットの実験結果は、特に不規則かつ急速に変化するシナリオにおいて、最先端技術に対する競争結果を示している。

Recent machine learning-based multi-object tracking (MOT) frameworks are becoming popular for 3-D point clouds. Most traditional tracking approaches use filters (e.g., Kalman filter or particle filter) to predict object locations in a time sequence, however, they are vulnerable to extreme motion conditions, such as sudden braking and turning. In this letter, we propose PointTrackNet, an end-to-end 3-D object detection and tracking network, to generate foreground masks, 3-D bounding boxes, and point-wise tracking association displacements for each detected object. The network merely takes as input two adjacent point-cloud frames. Experimental results on the KITTI tracking dataset show competitive results over the state-of-the-arts, especially in the irregularly and rapidly changing scenarios.
翻訳日:2022-12-28 15:01:57 公開日:2020-02-26
# 精度バッチを用いた量子ニューラルネットワーク推論

Quantized Neural Network Inference with Precision Batching ( http://arxiv.org/abs/2003.00822v1 )

ライセンス: Link先を確認
Maximilian Lam, Zachary Yedidia, Colby Banbury, Vijay Janapa Reddi(参考訳) 従来のハードウェアプラットフォーム上での低ビット幅でのニューラルネットワーク実行を、リトレーニングやリカレーションを必要とせずに高速化する量子推論アルゴリズムであるPrecisionBatchingを提案する。 precisionbatchingはニューラルネットワークを個々のビット層に分解し、完全な精度でアクティベーションを維持しながら、高速な1ビット操作で蓄積する。 精度バッチは低ビット幅(8ビット)での量子化推論を促進するだけでなく、再トレーニング/再校正も不要である 1) 従来のハードウェアプラットフォームは、量子化の細かい粒度(1-16ビットの実行など)で推論のスピードアップを実現することができる。 2) 調整可能なパラメータとして蓄積するビット層の数を明らかにすることで、実行時の精度と速度のトレードオフを可能にする。 さまざまなアプリケーション(MNIST、言語モデリング、自然言語推論)とニューラルネットワークアーキテクチャ(十分に接続されたRNN、LSTM)において、PrecisionBatchingは同じエラー耐性で従来の8ビット量子化推論を1.5x-2x以上上回る、完全な精度ベースラインの1%のエラーマージン内において、GPU上の8倍以上のエンドツーエンドのスピードアップが得られる。

We present PrecisionBatching, a quantized inference algorithm for speeding up neural network execution on traditional hardware platforms at low bitwidths without the need for retraining or recalibration. PrecisionBatching decomposes a neural network into individual bitlayers and accumulates them using fast 1-bit operations while maintaining activations in full precision. PrecisionBatching not only facilitates quantized inference at low bitwidths (< 8 bits) without the need for retraining/recalibration, but also 1) enables traditional hardware platforms the ability to realize inference speedups at a finer granularity of quantization (e.g: 1-16 bit execution) and 2) allows accuracy and speedup tradeoffs at runtime by exposing the number of bitlayers to accumulate as a tunable parameter. Across a variety of applications (MNIST, language modeling, natural language inference) and neural network architectures (fully connected, RNN, LSTM), PrecisionBatching yields end-to-end speedups of over 8x on a GPU within a < 1% error margin of the full precision baseline, outperforming traditional 8-bit quantized inference by over 1.5x-2x at the same error tolerance.
翻訳日:2022-12-28 15:01:03 公開日:2020-02-26
# 高次元雑音ガウス混合の分類における正規化の役割

The role of regularization in classification of high-dimensional noisy Gaussian mixture ( http://arxiv.org/abs/2002.11544v1 )

ライセンス: Link先を確認
Francesca Mignacco, Florent Krzakala, Yue M. Lu and Lenka Zdeborov\'a(参考訳) 雑音状態における2つのガウスの高次元混合を考えると、クラスターの中心を知るオラクルでさえ、点の小さいが有限な部分の分類を誤る。 我々は、リッジ、ヒンジ、ロジスティック回帰を含む正規化凸分類器の一般化誤差の厳密な解析を行い、それらの比率が$\alpha=n/d$に固定されながら、サンプル数n$とその次元$d$が無限に移動する高次元の極限について述べる。 我々は,ベイズ最適性能に到達できるような規則化の驚くべき効果について論じる。 また,低正規化時の補間ピークを明らかにし,2つのクラスタのそれぞれのサイズの役割を分析する。

We consider a high-dimensional mixture of two Gaussians in the noisy regime where even an oracle knowing the centers of the clusters misclassifies a small but finite fraction of the points. We provide a rigorous analysis of the generalization error of regularized convex classifiers, including ridge, hinge and logistic regression, in the high-dimensional limit where the number $n$ of samples and their dimension $d$ go to infinity while their ratio is fixed to $\alpha= n/d$. We discuss surprising effects of the regularization that in some cases allows to reach the Bayes-optimal performances. We also illustrate the interpolation peak at low regularization, and analyze the role of the respective sizes of the two clusters.
翻訳日:2022-12-28 15:00:26 公開日:2020-02-26
# プロファイルエントロピー:離散分布の学習性と圧縮性に関する基礎的尺度

Profile Entropy: A Fundamental Measure for the Learnability and Compressibility of Discrete Distributions ( http://arxiv.org/abs/2002.11665v1 )

ライセンス: Link先を確認
Yi Hao, Alon Orlitsky(参考訳) サンプルのプロファイルは、そのシンボル周波数の多重集合である。 離散分布のサンプルに対して、プロファイルエントロピーは推定、推論、圧縮の概念を統一する基本的な尺度であることを示す。 特にプロファイルエントロピーは a) 最適な自然推定量に対する分布を推定する速度を決定すること。 b) ラベル不変分布コレクションに対する最良推定子と比較して、すべての対称特性を推測する割合を特徴付ける。 c) プロファイル圧縮の限界として機能し、最適ニア線形時間ブロックとシーケンシャルアルゴリズムを導出する。 プロファイルエントロピーの理解を深めるために,その属性を調査し,その値を近似するアルゴリズムを提供し,多数の構造分布系に対してその大きさを決定する。

The profile of a sample is the multiset of its symbol frequencies. We show that for samples of discrete distributions, profile entropy is a fundamental measure unifying the concepts of estimation, inference, and compression. Specifically, profile entropy a) determines the speed of estimating the distribution relative to the best natural estimator; b) characterizes the rate of inferring all symmetric properties compared with the best estimator over any label-invariant distribution collection; c) serves as the limit of profile compression, for which we derive optimal near-linear-time block and sequential algorithms. To further our understanding of profile entropy, we investigate its attributes, provide algorithms for approximating its value, and determine its magnitude for numerous structural distribution families.
翻訳日:2022-12-28 14:59:45 公開日:2020-02-26
# FedCoin:フェデレーションラーニングのためのピアツーピア支払いシステム

FedCoin: A Peer-to-Peer Payment System for Federated Learning ( http://arxiv.org/abs/2002.11711v1 )

ライセンス: Link先を確認
Yuan Liu, Shuai Sun, Zhengpeng Ai, Shuangfeng Zhang, Zelei Liu, Han Yu(参考訳) Federated Learning(FL)は、プライバシに関する分散データセット上でモデルをトレーニングする、新たなコラボレーティブ機械学習手法である。 データ所有者の貢献を適切にインセンティブづけるために、シャプレー値(sv)を適度に評価するために採用することが多い。 しかし、SVの計算には時間と費用がかかる。 本稿では,FLのためのブロックチェーンベースのピアツーピア決済システムであるFedCoinを提案する。 FedCoinでは、ブロックチェーンコンセンサスエンティティがSVを計算し、Shapley(PoSap)プロトコルの証明に基づいて新しいブロックを生成する。 一般的なbitcoinネットワークとは対照的に、コンセンサスエンティティが意味のないパズルを解いて新しいブロックを“ブロック”する。 計算されたSVに基づいて,非監査およびタンパー抵抗特性を持つFLクライアント間でインセンティブペイオフを分割する手法を提案する。 実世界のデータに基づく実験結果から、FedCoinはコンセンサスに到達するのに必要な計算リソースを上限とするSVを正確に計算することで、FLクライアントから高品質なデータをプロモートできることがわかった。 非データ所有者がFLで役割を演じる機会を開く。

Federated learning (FL) is an emerging collaborative machine learning method to train models on distributed datasets with privacy concerns. To properly incentivize data owners to contribute their efforts, Shapley Value (SV) is often adopted to fairly assess their contribution. However, the calculation of SV is time-consuming and computationally costly. In this paper, we propose FedCoin, a blockchain-based peer-to-peer payment system for FL to enable a feasible SV based profit distribution. In FedCoin, blockchain consensus entities calculate SVs and a new block is created based on the proof of Shapley (PoSap) protocol. It is in contrast to the popular BitCoin network where consensus entities "mine" new blocks by solving meaningless puzzles. Based on the computed SVs, a scheme for dividing the incentive payoffs among FL clients with nonrepudiation and tamper-resistance properties is proposed. Experimental results based on real-world data show that FedCoin can promote high-quality data from FL clients through accurately computing SVs with an upper bound on the computational resources required for reaching consensus. It opens opportunities for non-data owners to play a role in FL.
翻訳日:2022-12-28 14:52:52 公開日:2020-02-26
# PrIU: 漸進的更新回帰モデルに対する前向きなアプローチ

PrIU: A Provenance-Based Approach for Incrementally Updating Regression Models ( http://arxiv.org/abs/2002.11791v1 )

ライセンス: Link先を確認
Yinjun Wu, Val Tannen, Susan B. Davidson(参考訳) 機械学習アルゴリズムのユビキタス利用は、インクリメンタルビュー更新のような従来のデータベース問題に新たな課題をもたらす。 機械学習モデルの理解とデバッグ、データセットのトレーニングにおけるエラーの識別と修正に多くの労力が費やされている。 我々の焦点は、トレーニングデータの異なるサブセットをクリーニングや選択することで、問題のあるトレーニングサンプルを取り除き、機械学習モデルを再トレーニングする際の、これらのアクティビティを支援することにある。 本稿では,予測精度を犠牲にすることなくモデルパラメータを漸進的に更新する,効率的な証明に基づくアプローチPrIUとその最適化版PrIU-optを提案する。 漸進的に更新されたモデルパラメータの正確性と収束性を証明し,実験的に検証する。 実験結果から, PrIU-optはスクラッチからモデルを再トレーニングするのに対して, 非常に類似したモデルを得るよりも, 最大2桁のスピードアップを達成できることがわかった。

The ubiquitous use of machine learning algorithms brings new challenges to traditional database problems such as incremental view update. Much effort is being put in better understanding and debugging machine learning models, as well as in identifying and repairing errors in training datasets. Our focus is on how to assist these activities when they have to retrain the machine learning model after removing problematic training samples in cleaning or selecting different subsets of training data for interpretability. This paper presents an efficient provenance-based approach, PrIU, and its optimized version, PrIU-opt, for incrementally updating model parameters without sacrificing prediction accuracy. We prove the correctness and convergence of the incrementally updated model parameters, and validate it experimentally. Experimental results show that up to two orders of magnitude speed-ups can be achieved by PrIU-opt compared to simply retraining the model from scratch, yet obtaining highly similar models.
翻訳日:2022-12-28 14:52:21 公開日:2020-02-26
# Kalman、オンラインに再帰

Kalman Recursions Aggregated Online ( http://arxiv.org/abs/2002.12173v1 )

ライセンス: Link先を確認
Eric Adjakossa (LPSM), Yannig Goude (EDF R&D), Olivier Wintenberger (LPSM UMR)(参考訳) 本稿では,専門家の予測を提供するモデルの基盤となる特性を用いて,専門家集団の予測を改善することを目的とする。 専門家の予測がカルマン再帰から来る場合に限られ、状態空間モデルに適合する。 指数重みを用いることで、より適応性の低い方法で専門家の最高の専門家や最高の凸の組み合わせと競合する、カルマン再帰を集約したオンライン(kao)の異なるアルゴリズムを構築する。 専門家がカルマン再帰である場合、カルマン再帰の2次性質を利用して、専門家集約文献の既存の結果を改善する。 我々は,このアプローチをカルマン再帰に適用し,専門家の誤りをモデル化した状態空間による一般敵エキスパート設定に拡張する。 これらのアルゴリズムを実際の電力消費データセットに適用し、他の指数重み付け平均手順と比較して予測性能をいかに改善できるかを示す。

In this article, we aim at improving the prediction of expert aggregation by using the underlying properties of the models that provide expert predictions. We restrict ourselves to the case where expert predictions come from Kalman recursions, fitting state-space models. By using exponential weights, we construct different algorithms of Kalman recursions Aggregated Online (KAO) that compete with the best expert or the best convex combination of experts in a more or less adaptive way. We improve the existing results on expert aggregation literature when the experts are Kalman recursions by taking advantage of the second-order properties of the Kalman recursions. We apply our approach to Kalman recursions and extend it to the general adversarial expert setting by state-space modeling the errors of the experts. We apply these new algorithms to a real dataset of electricity consumption and show how it can improve forecast performances comparing to other exponentially weighted average procedures.
翻訳日:2022-12-28 14:51:52 公開日:2020-02-26
# パラメータ空間における運動プリミティブの次元化

Dimensionality Reduction of Movement Primitives in Parameter Space ( http://arxiv.org/abs/2003.02634v1 )

ライセンス: Link先を確認
Samuele Tosatto, Jonas Stadtmueller, Jan Peters(参考訳) ムーブメントプリミティブは、現実世界のロボットにとって重要な政策クラスである。 しかし、パラメトリゼーションの高次元は、サンプルと計算の両面でポリシー最適化を高価にする。 移動プリミティブの効率的な表現の導入は、ロボット工学における強化のような機械学習技術の適用を促進する。 特に高冗長な運動構造では、運動は構成空間において高い相関を示す。 これらの理由から、先行研究は主に構成空間における次元性低減技術の適用に焦点が当てられている。 本稿では,パラメータ空間における次元減少の応用について検討し,主運動を同定する。 結果として得られるアプローチは、パラメータの確率的処理に富み、確率的運動原始体のすべての特性を継承する。 提案手法を実際のロボットタスクと複雑な人間の動きのデータベースの両方でテストした。 実験解析により,パラメータ空間の次元性低減は,パラメータの大幅な低減による動きの表現を可能にするため,構成空間よりも有効であることが示された。

Movement primitives are an important policy class for real-world robotics. However, the high dimensionality of their parametrization makes the policy optimization expensive both in terms of samples and computation. Enabling an efficient representation of movement primitives facilitates the application of machine learning techniques such as reinforcement on robotics. Motions, especially in highly redundant kinematic structures, exhibit high correlation in the configuration space. For these reasons, prior work has mainly focused on the application of dimensionality reduction techniques in the configuration space. In this paper, we investigate the application of dimensionality reduction in the parameter space, identifying principal movements. The resulting approach is enriched with a probabilistic treatment of the parameters, inheriting all the properties of the Probabilistic Movement Primitives. We test the proposed technique both on a real robotic task and on a database of complex human movements. The empirical analysis shows that the dimensionality reduction in parameter space is more effective than in configuration space, as it enables the representation of the movements with a significant reduction of parameters.
翻訳日:2022-12-28 14:51:35 公開日:2020-02-26
# 勾配重み付けクラスアクティベーションマッピングによる意味セグメンテーションの解釈に向けて

Towards Interpretable Semantic Segmentation via Gradient-weighted Class Activation Mapping ( http://arxiv.org/abs/2002.11434v1 )

ライセンス: Link先を確認
Kira Vinogradova, Alexandr Dibrov, Gene Myers(参考訳) 畳み込みニューラルネットワークは、幅広い画像認識タスクにおいて最先端の技術となっている。 しかし、それらの予測の解釈は研究の活発な領域である。 画像分類には様々な解釈方法が提案されているが、画像分割の解釈はいまだにほとんど解明されていない。 そこで本研究では,セマンティックセグメンテーションの解法であるSEG-GRAD-CAMを提案する。 本手法は,各画素のセグメンテーションに対する関連性を示すヒートマップを作成するために局所的に適用された広く使われているGrad-CAM法の拡張である。

Convolutional neural networks have become state-of-the-art in a wide range of image recognition tasks. The interpretation of their predictions, however, is an active area of research. Whereas various interpretation methods have been suggested for image classification, the interpretation of image segmentation still remains largely unexplored. To that end, we propose SEG-GRAD-CAM, a gradient-based method for interpreting semantic segmentation. Our method is an extension of the widely-used Grad-CAM method, applied locally to produce heatmaps showing the relevance of individual pixels for semantic segmentation.
翻訳日:2022-12-28 14:50:35 公開日:2020-02-26
# LASG: コミュニケーション効率の良い分散学習のための遅延集約確率勾配

LASG: Lazily Aggregated Stochastic Gradients for Communication-Efficient Distributed Learning ( http://arxiv.org/abs/2002.11360v1 )

ライセンス: Link先を確認
Tianyi Chen, Yuejiao Sun, Wotao Yin(参考訳) 本稿では,フェデレート学習などの分散機械学習問題をコミュニケーション効率よく解くことを目的とする。 A class of new stochastic gradient descent (SGD) approaches have been developed, which can be viewed as the stochastic generalization to the recently developed lazily aggregated gradient (LAG) method --- justifying the name LASG. LAG adaptively predicts the contribution of each round of communication and chooses only the significant ones to perform. It saves communication while also maintains the rate of convergence. However, LAG only works with deterministic gradients, and applying it to stochastic gradients yields poor performance. The key components of LASG are a set of new rules tailored for stochastic gradients that can be implemented either to save download, upload, or both. The new algorithms adaptively choose between fresh and stale stochastic gradients and have convergence rates comparable to the original SGD. LASG achieves impressive empirical performance --- it typically saves total communication by an order of magnitude.

This paper targets solving distributed machine learning problems such as federated learning in a communication-efficient fashion. A class of new stochastic gradient descent (SGD) approaches have been developed, which can be viewed as the stochastic generalization to the recently developed lazily aggregated gradient (LAG) method --- justifying the name LASG. LAG adaptively predicts the contribution of each round of communication and chooses only the significant ones to perform. It saves communication while also maintains the rate of convergence. However, LAG only works with deterministic gradients, and applying it to stochastic gradients yields poor performance. The key components of LASG are a set of new rules tailored for stochastic gradients that can be implemented either to save download, upload, or both. The new algorithms adaptively choose between fresh and stale stochastic gradients and have convergence rates comparable to the original SGD. LASG achieves impressive empirical performance --- it typically saves total communication by an order of magnitude.
翻訳日:2022-12-28 14:44:12 公開日:2020-02-26
# ニューラルネットワークを用いたpm2.5解析式に基づく予測手法

Analytical Equations based Prediction Approach for PM2.5 using Artificial Neural Network ( http://arxiv.org/abs/2002.11416v1 )

ライセンス: Link先を確認
Jalpa Shah and Biswajit Mishra(参考訳) 粒子状物質汚染は、地球環境と人間の健康に大きな影響を与えるため、世界中で最も致命的な大気汚染の1つである。 粒子状物質 (PM2.5) は大気質指数 (AQI) を測定する重要な粒子状汚染物質の一つである。 pm2.5を監視するために空気質監視局が使用する従来の機器はコストが高く、かさばり、時間消費、電力消費である。 さらに、データ可用性の制限とスケーラビリティのため、これらのステーションはリアルタイムに高い空間分解能と時間分解能を提供することができない。 本論文は,既存の手法の欠点を克服するために,ニューラルネットワーク(ann)を用いたpm2.5解析式に基づく予測手法を提案する。 無線センサノード(wsn)または低コスト処理ツールを用いて予測のための導出解析式を計算できるので,提案手法の有用性を示す。 さらに,PM2.5および他の汚染物質間の相関に関する研究を行い,適切な予測因子を選択する。 インド中央公害管理委員会(cpcb)オンラインステーションの大規模認証データセットが提案手法として使用されている。 8つの予測器を用いた予測手法で得られたRMSEと決定係数(R2)はそれぞれ1.7973 ug/m3と0.9986である。 提案手法により, RMSE は 7.5372 ug/m3 であり, R2 は 0.9708 である。 そこで, 提案手法は, 給電ガスセンサやバルク分析器を使わずにPM2.5をモニタリングするための有望な手法の1つであることを示した。

Particulate matter pollution is one of the deadliest types of air pollution worldwide due to its significant impacts on the global environment and human health. Particulate Matter (PM2.5) is one of the important particulate pollutants to measure the Air Quality Index (AQI). The conventional instruments used by the air quality monitoring stations to monitor PM2.5 are costly, bulkier, time-consuming, and power-hungry. Furthermore, due to limited data availability and non-scalability, these stations cannot provide high spatial and temporal resolution in real-time. To overcome the disadvantages of existing methodology this article presents analytical equations based prediction approach for PM2.5 using an Artificial Neural Network (ANN). Since the derived analytical equations for the prediction can be computed using a Wireless Sensor Node (WSN) or low-cost processing tool, it demonstrates the usefulness of the proposed approach. Moreover, the study related to correlation among the PM2.5 and other pollutants is performed to select the appropriate predictors. The large authenticate data set of Central Pollution Control Board (CPCB) online station, India is used for the proposed approach. The RMSE and coefficient of determination (R2) obtained for the proposed prediction approach using eight predictors are 1.7973 ug/m3 and 0.9986 respectively. While the proposed approach results show RMSE of 7.5372 ug/m3 and R2 of 0.9708 using three predictors. Therefore, the results demonstrate that the proposed approach is one of the promising approaches for monitoring PM2.5 without power-hungry gas sensors and bulkier analyzers.
翻訳日:2022-12-28 14:44:00 公開日:2020-02-26
# 有限設定におけるpac学習のサンプル複雑性の決定可能性

Decidability of Sample Complexity of PAC Learning in finite setting ( http://arxiv.org/abs/2002.11519v1 )

ライセンス: Link先を確認
Alberto Gandolfi(参考訳) この短い注記では、モデルとして見なされる確率測度のサポートがa-priori境界を満たすときに、最大値(emx)を含む様々な概念のpac機械学習のサンプル複雑性を正確に決定できることを観察する。 この結果は、有限支持確率に対するZFC内でのEMXの非決定性(事前境界を持たない)とは対照的である。 残念なことに、決定手続きは現在、少なくとも支持サイズに一様束縛された点数の2倍の指数関数である。

In this short note we observe that the sample complexity of PAC machine learning of various concepts, including learning the maximum (EMX), can be exactly determined when the support of the probability measures considered as models satisfies an a-priori bound. This result contrasts with the recently discovered undecidability of EMX within ZFC for finitely supported probabilities (with no a priori bound). Unfortunately, the decision procedure is at present, at least doubly exponential in the number of points times the uniform bound on the support size.
翻訳日:2022-12-28 14:42:55 公開日:2020-02-26
# 部分観測可能な環境におけるデモからナビゲーションコストを学習する

Learning Navigation Costs from Demonstration in Partially Observable Environments ( http://arxiv.org/abs/2002.11637v1 )

ライセンス: Link先を確認
Tianyu Wang, Vikas Dhiman, Nikolay Atanasov(参考訳) 本稿では,未知の部分観測環境において安全かつ効率的な自律ナビゲーションを実現するための逆強化学習(irl)に着目した。 目的は、専門家が使用する観測と状態制御の軌跡にのみ依存しながら、専門家が実証したナビゲーション動作を説明するコスト関数を推論することである。 本研究では,観測シーケンスに繰り返し依存する確率的占有エンコーダと占有特性に基づいて定義されるコストエンコーダの2つの部分からなるコスト関数表現を開発する。 表現パラメータは、実証された制御とコストエンコーダから計算された制御ポリシーの誤差を微分することで最適化される。 このような微分は通常、状態空間全体の値関数を通して動的プログラミングによって計算される。 ほとんどの状態が探索されていないため、これは大きな部分観測可能な環境では非効率である。 代わりに、A* や RRT のような効率的なモーションプランニングアルゴリズムを通じて、有望な状態のサブセットでのみ得られるコスト・ツー・ゴーの閉形式次数に依存する。 本実験は,ロボットナビゲーションタスクにおけるベースラインIRLアルゴリズムの精度を上回り,トレーニングとテストタイム推論の効率を大幅に向上することを示した。

This paper focuses on inverse reinforcement learning (IRL) to enable safe and efficient autonomous navigation in unknown partially observable environments. The objective is to infer a cost function that explains expert-demonstrated navigation behavior while relying only on the observations and state-control trajectory used by the expert. We develop a cost function representation composed of two parts: a probabilistic occupancy encoder, with recurrent dependence on the observation sequence, and a cost encoder, defined over the occupancy features. The representation parameters are optimized by differentiating the error between demonstrated controls and a control policy computed from the cost encoder. Such differentiation is typically computed by dynamic programming through the value function over the whole state space. We observe that this is inefficient in large partially observable environments because most states are unexplored. Instead, we rely on a closed-form subgradient of the cost-to-go obtained only over a subset of promising states via an efficient motion-planning algorithm such as A* or RRT. Our experiments show that our model exceeds the accuracy of baseline IRL algorithms in robot navigation tasks, while substantially improving the efficiency of training and test-time inference.
翻訳日:2022-12-28 14:42:18 公開日:2020-02-26
# 偏見自由表現を用いた公正学習

Fairness-Aware Learning with Prejudice Free Representations ( http://arxiv.org/abs/2002.12143v1 )

ライセンス: Link先を確認
Ramanujam Madhavan, Mohit Wadhwa(参考訳) 機械学習モデルは、人間の生活に大きな影響を与える決定を下すために広く使われている。 これらのモデルは、人種、性別、宗教などの繊細な属性に関する情報を含む過去のデータに基づいて訓練される。 このような繊細な属性の存在は、特定の集団に不公平に影響を及ぼす可能性がある。 データからセンシティブな特徴を取り除くのは簡単だが、トレーニングデータに存在する可能性のある潜在性のある属性から偏見を拾うことができる。 これにより、採用モデルの公正性に対する理解が高まりました。 本稿では,潜在識別特徴を効果的に識別し,治療できる新しいアルゴリズムを提案する。 このアプローチは学習アルゴリズムに非依存であり、分類や回帰処理にも適している。 また、必要があれば、モデルが規制遵守に対する差別がないことを証明するための重要な助けとしても使用できる。 このアプローチは、モデルの公平性を確保しつつ、モデルパフォーマンスを改善する識別フリーな特徴の収集に役立つ。 公開されている実世界のデータセットに対する評価実験の結果,他の手法と比較してほぼ理想的フェアネスの測定結果が得られた。

Machine learning models are extensively being used to make decisions that have a significant impact on human life. These models are trained over historical data that may contain information about sensitive attributes such as race, sex, religion, etc. The presence of such sensitive attributes can impact certain population subgroups unfairly. It is straightforward to remove sensitive features from the data; however, a model could pick up prejudice from latent sensitive attributes that may exist in the training data. This has led to the growing apprehension about the fairness of the employed models. In this paper, we propose a novel algorithm that can effectively identify and treat latent discriminating features. The approach is agnostic of the learning algorithm and generalizes well for classification as well as regression tasks. It can also be used as a key aid in proving that the model is free of discrimination towards regulatory compliance if the need arises. The approach helps to collect discrimination-free features that would improve the model performance while ensuring the fairness of the model. The experimental results from our evaluations on publicly available real-world datasets show a near-ideal fairness measurement in comparison to other methods.
翻訳日:2022-12-28 14:35:31 公開日:2020-02-26
# イメージによる味覚・料理嗜好のパーソナライズ

Personalized Taste and Cuisine Preference Modeling via Images ( http://arxiv.org/abs/2003.08769v1 )

ライセンス: Link先を確認
Nitish Nag, Bindu Rajanna, Ramesh Jain(参考訳) 生活に関するライブアップデートを共有するソーシャルメディアの利用が急増する中で、写真撮影は避けられない現象となっている。 個人は、これらの画像でユニークな知識ベースを作る。 特に、食品画像には大量の情報が含まれているため、興味がある。 画像メタデータからコンピュータビジョンツールを使用して、各ユーザがパーソナライズした洞察を抽出し、個人プロファイルを構築することができる。 本研究は,食生活と食生活の関連性から,食生活のイメージにのみ基づく個人のためのプロフィールを構築しようとするものである。 本研究は,個々の料理に対する個人の傾向に関する洞察を与える。 これらの洞察を解釈すれば、より正確なレコメンデーションシステムの開発につながる可能性がある。 このようなシステムは、パーソナライズされたレコメンデーションシステムを支持する一般的なアプローチを避けるだろう。

With the exponential growth in the usage of social media to share live updates about life, taking pictures has become an unavoidable phenomenon. Individuals unknowingly create a unique knowledge base with these images. The food images, in particular, are of interest as they contain a plethora of information. From the image metadata and using computer vision tools, we can extract distinct insights for each user to build a personal profile. Using the underlying connection between cuisines and their inherent tastes, we attempt to develop such a profile for an individual based solely on the images of his food. Our study provides insights about an individual's inclination towards particular cuisines. Interpreting these insights can lead to the development of a more precise recommendation system. Such a system would avoid the generic approach in favor of a personalized recommendation system.
翻訳日:2022-12-28 14:35:17 公開日:2020-02-26
# 教師なしビデオ表現学習における損失の展開

Evolving Losses for Unsupervised Video Representation Learning ( http://arxiv.org/abs/2002.12177v1 )

ライセンス: Link先を確認
AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo(参考訳) 大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。 理想的には、この表現は汎用的で転送可能であり、アクション認識やゼロショット学習などの新しいタスクで直接使用できる。 教師なし表現学習をマルチモーダル・マルチタスク学習問題として定式化し,その表現は蒸留によって異なるモダリティ間で共有される。 さらに,多くの(自己教師あり)タスクやモダリティを捕捉する損失関数の最適組み合わせを,進化的探索アルゴリズムを用いて自動的に見つけることで,損失関数進化の概念を導入する。 第3に,Zipfの法則に基づく大規模ラベル付きデータセットに対する分布マッチングを用いた教師なし表現評価指標を提案する。 この教師なし制約は、いかなるラベリングにも導かれず、弱い教師付きタスク固有の制約と同様の結果をもたらす。 提案する教師なし表現学習は,単一のrgbネットワークで実現され,従来の手法を上回っている。 特に、大きなラベル付きビデオデータセットを除いて、いくつかのラベルベースの方法(例えばimagenet)よりも効果的である。

We present a new method to learn video representations from large-scale unlabeled video data. Ideally, this representation will be generic and transferable, directly usable for new tasks such as action recognition and zero or few-shot learning. We formulate unsupervised representation learning as a multi-modal, multi-task learning problem, where the representations are shared across different modalities via distillation. Further, we introduce the concept of loss function evolution by using an evolutionary search algorithm to automatically find optimal combination of loss functions capturing many (self-supervised) tasks and modalities. Thirdly, we propose an unsupervised representation evaluation metric using distribution matching to a large unlabeled dataset as a prior constraint, based on Zipf's law. This unsupervised constraint, which is not guided by any labeling, produces similar results to weakly-supervised, task-specific ones. The proposed unsupervised representation learning results in a single RGB network and outperforms previous methods. Notably, it is also more effective than several label-based methods (e.g., ImageNet), with the exception of large, fully labeled video datasets.
翻訳日:2022-12-28 14:34:40 公開日:2020-02-26
# マルチステート膜シンプティックネットワークにおけるメタ塑性

Metaplasticity in Multistate Memristor Synaptic Networks ( http://arxiv.org/abs/2003.11638v1 )

ライセンス: Link先を確認
Fatima Tuz Zohora, Abdullah M. Zyarah, Nicholas Soures and Dhireesha Kudithipudi(参考訳) 近年の研究では、メタプラスチックシナプスは単純なバイナリシナプスよりも長い情報を保持し、継続的な学習に有効であることが示されている。 本稿では,高保留と情報受信の文脈において多状態メタ可塑性シナプス特性について検討する。 多状態シナプスを模擬したメムリスタの遺伝挙動を用いて, メタ塑性挙動を捉える。 学習および記憶保持のための統合ニューラルネットワーク研究は、回路レベルの5\times3$クロスバーとアーキテクチャレベルで128\times128$ネットワークとにシナプスを統合することによって行われる。 オンデバイストレーニング回路は、ネットワーク内の動的学習を保証する。 128\times 128$ネットワークでは、マルチステートシナプスが分類できる入力パターンの数は、単純なバイナリシナプスモデルの$\simeq$ 2.1xであり、平均で$\geq$ 75%である。

Recent studies have shown that metaplastic synapses can retain information longer than simple binary synapses and are beneficial for continual learning. In this paper, we explore the multistate metaplastic synapse characteristics in the context of high retention and reception of information. Inherent behavior of a memristor emulating the multistate synapse is employed to capture the metaplastic behavior. An integrated neural network study for learning and memory retention is performed by integrating the synapse in a $5\times3$ crossbar at the circuit level and $128\times128$ network at the architectural level. An on-device training circuitry ensures the dynamic learning in the network. In the $128\times128$ network, it is observed that the number of input patterns the multistate synapse can classify is $\simeq$ 2.1x that of a simple binary synapse model, at a mean accuracy of $\geq$ 75% .
翻訳日:2022-12-28 14:33:55 公開日:2020-02-26
# 構造付き線形コンテキスト帯域:シャープと幾何学的スムース解析

Structured Linear Contextual Bandits: A Sharp and Geometric Smoothed Analysis ( http://arxiv.org/abs/2002.11332v1 )

ライセンス: Link先を確認
Vidyashankar Sivakumar, Zhiwei Steven Wu, Arindam Banerjee(参考訳) バンディット学習アルゴリズムは通常、探索と搾取のバランスを伴う。 しかし、多くの実践的応用において、系統的な探索を必要とする最悪のシナリオはほとんど遭遇しない。 本研究では,逆文脈がガウス雑音によって摂動し,未知パラメータ$\theta^*$ が構造,例えばスパーシティ,グループスパーシティ,低ランクなどを持つ構造線形文脈バンディットに対する平滑化設定を考える。 単一パラメータと複数パラメータ(文脈ごとに異なるパラメータ)の設定に対して単純なグリージーアルゴリズムを提案し、仮定された構造を持つ$\theta^*$に対する統一的後悔解析を提供する。 後悔の境界は、{\theta^*$ の構造に付随するガウス幅のような幾何学的量で表現される。 また,未構造化の$\theta^*$ 設定に対する従来の作業と比較して,より鋭い後悔の限界を得ることができた。 単純な欲望アルゴリズムが動作する滑らかな設定には暗黙の探索があることを示す。

Bandit learning algorithms typically involve the balance of exploration and exploitation. However, in many practical applications, worst-case scenarios needing systematic exploration are seldom encountered. In this work, we consider a smoothed setting for structured linear contextual bandits where the adversarial contexts are perturbed by Gaussian noise and the unknown parameter $\theta^*$ has structure, e.g., sparsity, group sparsity, low rank, etc. We propose simple greedy algorithms for both the single- and multi-parameter (i.e., different parameter for each context) settings and provide a unified regret analysis for $\theta^*$ with any assumed structure. The regret bounds are expressed in terms of geometric quantities such as Gaussian widths associated with the structure of $\theta^*$. We also obtain sharper regret bounds compared to earlier work for the unstructured $\theta^*$ setting as a consequence of our improved analysis. We show there is implicit exploration in the smoothed setting where a simple greedy algorithm works.
翻訳日:2022-12-28 14:32:57 公開日:2020-02-26
# NestedVAE: 弱視による共通要因の分離

NestedVAE: Isolating Common Factors via Weak Supervision ( http://arxiv.org/abs/2002.11576v1 )

ライセンス: Link先を確認
Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden(参考訳) 公平で偏りのない機械学習は、データから学習するモデルによって決定プロセスが駆動されるようになり、重要かつアクティブな研究分野である。 残念ながら、データに存在するバイアスはモデルによって学習され、したがってバイアスを意思決定プロセスに不適切に転送する。 バイアス低減の課題とドメイン間で共通する因子の分離の関係を,ドメイン固有の不変性を奨励しながら同定する。 共通の要因を分離するため、深潜変数モデルの理論と情報ボトルネック理論を組み合わせることにより、データは自然にドメイン間でペアリングされ、追加の監督は不要となる。 結果はNested Variational AutoEncoder (NestedVAE)である。 共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。 その際、ネストされたvaeは共通の潜伏因子/原因を分離し、ペア画像間で共有されていない望ましくない要因に不変となる。 また,調整されたパリティメトリックと呼ばれる領域間の一貫性と分類性能を評価するためのバランスのとれた手法を提案する。 NestedVAEの評価は、ドメインおよび属性の不変性、変化の検出、および生物学的性予測のための共通要因の学習において、NestedVAEが代替手法を著しく上回っていることを示している。

Fair and unbiased machine learning is an important and active field of research, as decision processes are increasingly driven by models that learn from data. Unfortunately, any biases present in the data may be learned by the model, thereby inappropriately transferring that bias into the decision making process. We identify the connection between the task of bias reduction and that of isolating factors common between domains whilst encouraging domain specific invariance. To isolate the common factors we combine the theory of deep latent variable models with information bottleneck theory for scenarios whereby data may be naturally paired across domains and no additional supervision is required. The result is the Nested Variational AutoEncoder (NestedVAE). Two outer VAEs with shared weights attempt to reconstruct the input and infer a latent space, whilst a nested VAE attempts to reconstruct the latent representation of one image, from the latent representation of its paired image. In so doing, the nested VAE isolates the common latent factors/causes and becomes invariant to unwanted factors that are not shared between paired images. We also propose a new metric to provide a balanced method of evaluating consistency and classifier performance across domains which we refer to as the Adjusted Parity metric. An evaluation of NestedVAE on both domain and attribute invariance, change detection, and learning common factors for the prediction of biological sex demonstrates that NestedVAE significantly outperforms alternative methods.
翻訳日:2022-12-28 14:26:06 公開日:2020-02-26
# 適応勾配法を学習率から分離する

Disentangling Adaptive Gradient Methods from Learning Rates ( http://arxiv.org/abs/2002.11803v1 )

ライセンス: Link先を確認
Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang(参考訳) 本研究では,深層学習のための最適化アルゴリズムの評価におけるいくつかの要因について検討する。 主に、ニューラルネットワークトレーニングの収束と一般化に劇的な影響を及ぼす、学習速度スケジュールと適応勾配法がどのように相互作用するかについて、より深く検討する。 我々は,その方向から更新の大きさを分離する"グラフト"実験を行い,ステップサイズの暗黙的なスケジュールの分離が不十分なことから,文献上の既存の多くの信念が生じた可能性があることを発見した。 この貢献と並行して,適応勾配法(adaptive gradient method)の一般化に関する経験的および理論的ふりかえりを紹介する。

We investigate several confounding factors in the evaluation of optimization algorithms for deep learning. Primarily, we take a deeper look at how adaptive gradient methods interact with the learning rate schedule, a notoriously difficult-to-tune hyperparameter which has dramatic effects on the convergence and generalization of neural network training. We introduce a "grafting" experiment which decouples an update's magnitude from its direction, finding that many existing beliefs in the literature may have arisen from insufficient isolation of the implicit schedule of step sizes. Alongside this contribution, we present some empirical and theoretical retrospectives on the generalization of adaptive gradient methods, aimed at bringing more clarity to this space.
翻訳日:2022-12-28 14:24:34 公開日:2020-02-26
# データストリーム分類を進化させるストリーミングアクティブディープフォレスト

Streaming Active Deep Forest for Evolving Data Stream Classification ( http://arxiv.org/abs/2002.11816v1 )

ライセンス: Link先を確認
Anh Vu Luong, Tien Thanh Nguyen and Alan Wee-Chung Liew(参考訳) 近年、Deep Neural Networks (DNN) は機械学習の多くの分野で進歩的な勢いを増している。 dnnの層別プロセスは、深層アンサンブルを含む多くの深層モデルの開発に影響を与えた。 最も注目すべき深層アンサンブルベースのモデルはディープフォレスト(英語版)であり、dnnに比べてハイパーパラメーターをはるかに少なくしながら高い競合性能を達成できる。 バッチ学習で大きな成功を収めたにも関わらず、deep forestを進化するデータストリームのコンテキストに適用する努力は行われていない。 本研究では,ストリーム分類に特化して適応した高性能深層アンサンブル法であるStreaming Deep Forest (SDF)アルゴリズムを提案する。 また,拡張可変不確実性(avu)アクティブラーニング戦略を導入し,ストリーミングコンテキストのラベリングコストを削減する。 提案手法と最先端のストリーミングアルゴリズムを幅広いデータセットで比較する。 その結果、AVUのアクティブラーニング戦略に従えば、ラベル付け予算の70%しか持たないSDFは、全てのインスタンスで訓練された他の手法よりも大幅に優れていた。

In recent years, Deep Neural Networks (DNNs) have gained progressive momentum in many areas of machine learning. The layer-by-layer process of DNNs has inspired the development of many deep models, including deep ensembles. The most notable deep ensemble-based model is Deep Forest, which can achieve highly competitive performance while having much fewer hyper-parameters comparing to DNNs. In spite of its huge success in the batch learning setting, no effort has been made to adapt Deep Forest to the context of evolving data streams. In this work, we introduce the Streaming Deep Forest (SDF) algorithm, a high-performance deep ensemble method specially adapted to stream classification. We also present the Augmented Variable Uncertainty (AVU) active learning strategy to reduce the labeling cost in the streaming context. We compare the proposed methods to state-of-the-art streaming algorithms in a wide range of datasets. The results show that by following the AVU active learning strategy, SDF with only 70\% of labeling budget significantly outperforms other methods trained with all instances.
翻訳日:2022-12-28 14:24:14 公開日:2020-02-26
# 潜在正準化による表現学習

Representation Learning Through Latent Canonicalizations ( http://arxiv.org/abs/2002.11829v1 )

ライセンス: Link先を確認
Or Litany, Ari Morcos, Srinath Sridhar, Leonidas Guibas, Judy Hoffman(参考訳) 我々は,限られた新しい監督手法を用いて,対象領域に一般化する大規模な注釈付きデータソースの表現を学習する。 この問題に対する多くの先行的なアプローチは、新しいドメインで個々の要因が変わるため、表現の一部だけを更新する必要があるように、"行き詰まった"表現を学ぶことに焦点を合わせてきた。 本研究では,不等角表現の一般化力を求める一方で,明示的潜在性不等角化の要件を緩和し,学習線形変換によって操作可能となるよう要求することで,変動の個々の因子の線形性を促進する。 これらの変換を潜伏カノニカライザにダビングし、あらかじめ決められた(しかし任意の)カノニカル値(例えば、前景を黒に塗り替える)にファクタの値を変更することを目的としています。 画像内の変化の要因を特定するメタラベルにアクセスできるソースドメインを仮定すると,本手法は,多数の教師付きベースラインと比較して,類似のターゲットドメインに一般化するために必要な観測回数を減らすのに有効であることを示す。

We seek to learn a representation on a large annotated data source that generalizes to a target domain using limited new supervision. Many prior approaches to this problem have focused on learning "disentangled" representations so that as individual factors vary in a new domain, only a portion of the representation need be updated. In this work, we seek the generalization power of disentangled representations, but relax the requirement of explicit latent disentanglement and instead encourage linearity of individual factors of variation by requiring them to be manipulable by learned linear transformations. We dub these transformations latent canonicalizers, as they aim to modify the value of a factor to a pre-determined (but arbitrary) canonical value (e.g., recoloring the image foreground to black). Assuming a source domain with access to meta-labels specifying the factors of variation within an image, we demonstrate experimentally that our method helps reduce the number of observations needed to generalize to a similar target domain when compared to a number of supervised baselines.
翻訳日:2022-12-28 14:23:54 公開日:2020-02-26
# 深層学習におけるテンソル分解

Tensor Decompositions in Deep Learning ( http://arxiv.org/abs/2002.11835v1 )

ライセンス: Link先を確認
Davide Bacciu and Danilo P. Mandic(参考訳) 本稿では、現代の機械学習アプリケーションにおけるテンソル分解の話題について調査する。 コミュニティにとって重要な意味を持つ3つの活発な研究トピックに焦点を当てている。 マルチウェイデータ解析における統合的な研究の簡単なレビューの後、深層学習モデルのパラメータ空間の圧縮におけるテンソル分解の利用を検討する。 最後に,テンソル法を用いて,構造化情報を含む複雑なデータのよりリッチな適応表現を実現する方法について論じる。 論文は、興味深いオープンリサーチ課題に関する議論から締めくくっている。

The paper surveys the topic of tensor decompositions in modern machine learning applications. It focuses on three active research topics of significant relevance for the community. After a brief review of consolidated works on multi-way data analysis, we consider the use of tensor decompositions in compressing the parameter space of deep learning models. Lastly, we discuss how tensor methods can be leveraged to yield richer adaptive representations of complex data, including structured information. The paper concludes with a discussion on interesting open research challenges.
翻訳日:2022-12-28 14:23:32 公開日:2020-02-26
# カーネル化svmに基づくランキング問題に対する非線形分類器

Nonlinear classifiers for ranking problems based on kernelized SVM ( http://arxiv.org/abs/2002.11436v1 )

ライセンス: Link先を確認
V\'aclav M\'acha, Luk\'a\v{s} Adam, V\'aclav \v{S}m\'idl(参考訳) 多くの分類問題は、全てのサンプルではなく、最も関連性の高いサンプルのみの性能を最大化することに焦点を当てている。 例えば、ランキングの問題、上位の精度、あるいは上位のクエリだけが問題となる検索エンジンについて言及することができる。 前回の研究で、これらの線形分類問題のいくつかのクラスを含む一般的な枠組みを導出した。 本稿では,フレームワークを非線形分類器に拡張する。 svm との類似性を利用して問題を双対化し,カーネルを追加し,コンポーネント単位の双対上昇法を提案する。 これにより、FashionMNISTのような比較的大きなデータセット上で、1回のイテレーションを20ミリ秒未満で実行できます。

Many classification problems focus on maximizing the performance only on the samples with the highest relevance instead of all samples. As an example, we can mention ranking problems, accuracy at the top or search engines where only the top few queries matter. In our previous work, we derived a general framework including several classes of these linear classification problems. In this paper, we extend the framework to nonlinear classifiers. Utilizing a similarity to SVM, we dualize the problems, add kernels and propose a componentwise dual ascent method. This allows us to perform one iteration in less than 20 milliseconds on relatively large datasets such as FashionMNIST.
翻訳日:2022-12-28 14:16:07 公開日:2020-02-26
# 非共役ガウス過程モデルに対する自動拡張共役推論

Automated Augmented Conjugate Inference for Non-conjugate Gaussian Process Models ( http://arxiv.org/abs/2002.11451v1 )

ライセンス: Link先を確認
Th\'eo Galy-Fajou, Florian Wenzel, Manfred Opper(参考訳) 非共役ガウス過程(GP)モデルに対する新しい推論手法である自動共役推論を提案する。 本手法は,GPモデルを条件付き共役する補助変数拡張を自動生成する。 拡張モデルの共役構造に基づいて, 2つの推論法を開発した。 まず, 高速でスケーラブルな確率的変分推定法で, クローズドフォームで計算した効率的なブロック座標昇降更新を用いる。 第二に、漸近的に正しいGibbsサンプルラで、小さなデータセットに役立ちます。 実験の結果,既存の最先端のブラックボックス法よりも2桁高速で頑健であることがわかった。

We propose automated augmented conjugate inference, a new inference method for non-conjugate Gaussian processes (GP) models. Our method automatically constructs an auxiliary variable augmentation that renders the GP model conditionally conjugate. Building on the conjugate structure of the augmented model, we develop two inference methods. First, a fast and scalable stochastic variational inference method that uses efficient block coordinate ascent updates, which are computed in closed form. Second, an asymptotically correct Gibbs sampler that is useful for small datasets. Our experiments show that our method are up two orders of magnitude faster and more robust than existing state-of-the-art black-box methods.
翻訳日:2022-12-28 14:15:30 公開日:2020-02-26
# マルチタスク学習による複数選択読解のためのマルチタスク学習

Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension ( http://arxiv.org/abs/2003.04992v1 )

ライセンス: Link先を確認
Hui Wan(参考訳) 複数選択機械読解理解(Multi-choice Machine Reading Comprehension、MRC)は、自然言語理解(NLU)タスクであり、機械はテキストの文節やダイアログの文脈に置かれた質問から質問に対する答えを選択する必要がある。 ここ数年、NLUフィールドはTransformerアーキテクチャに基づくモデルの出現によって革新され、大量の教師なしデータに基づいて事前訓練され、さまざまな教師付き学習NLUタスクのために微調整される。 mrcの領域では、現在のドリームデータセットの最先端モデル([sunet al., 2019]参照)が、大きな事前学習されたトランスフォーマーベースのモデルであるalbertを微調整し、それとコンテキストと質問者間の多層的注意の層を付加的に組み合わせています(zhuet al., 2020)。 本研究の目的は,夢タスクにおける新たな最先端の成果を文書化することであり,それに加えて,2つのmrcマルチチョイス読解タスク(レースとドリーム)でマルチタスク学習を行うことである。

Multiple-choice Machine Reading Comprehension (MRC) is an important and challenging Natural Language Understanding (NLU) task, in which a machine must choose the answer to a question from a set of choices, with the question placed in context of text passages or dialog. In the last a couple of years the NLU field has been revolutionized with the advent of models based on the Transformer architecture, which are pretrained on massive amounts of unsupervised data and then fine-tuned for various supervised learning NLU tasks. Transformer models have come to dominate a wide variety of leader-boards in the NLU field; in the area of MRC, the current state-of-the-art model on the DREAM dataset (see[Sunet al., 2019]) fine tunes Albert, a large pretrained Transformer-based model, and addition-ally combines it with an extra layer of multi-head attention between context and question-answer[Zhuet al., 2020].The purpose of this note is to document a new state-of-the-art result in the DREAM task, which is accomplished by, additionally, performing multi-task learning on two MRC multi-choice reading comprehension tasks (RACE and DREAM).
翻訳日:2022-12-28 14:08:01 公開日:2020-02-26
# DLSpec: ディープラーニングタスク交換仕様

DLSpec: A Deep Learning Task Exchange Specification ( http://arxiv.org/abs/2002.11262v1 )

ライセンス: Link先を確認
Abdul Dakkak, Cheng Li, Jinjun Xiong, Wen-Mei Hwu(参考訳) ディープラーニング(dl)のイノベーションは急速に導入されている。 しかし、現在のDLタスクの標準仕様の欠如は、これらのイノベーションの共有、実行、再生、比較を困難にしている。 この問題を解決するために,dlタスクのさまざまな側面をキャプチャするモデル,データセット,ソフトウェア,ハードウェアに依存しないdl仕様であるdlspecを提案する。 DLSpecは、数百のDLタスクを指定および実行することでテストされている。

Deep Learning (DL) innovations are being introduced at a rapid pace. However, the current lack of standard specification of DL tasks makes sharing, running, reproducing, and comparing these innovations difficult. To address this problem, we propose DLSpec, a model-, dataset-, software-, and hardware-agnostic DL specification that captures the different aspects of DL tasks. DLSpec has been tested by specifying and running hundreds of DL tasks.
翻訳日:2022-12-28 14:07:37 公開日:2020-02-26
# Schatten p-Normsを用いたカテゴリー学習の指導

Supervised Categorical Metric Learning with Schatten p-Norms ( http://arxiv.org/abs/2002.11246v1 )

ライセンス: Link先を確認
Xuhui Fan, Eric Gaussier(参考訳) メトリック学習は、数値データセットに適応した新しいメトリクスの学習に成功している。 しかし、その分類データの開発にはさらなる調査が必要である。 本稿では,計算時間の短縮と予測精度の向上を図り,分類データにおける計量学習の問題に対処する手法として,CPML for \emph{categorical projected metric learning}を提案する。 我々は、データを表すためにValue Distance Metricを使用し、この表現に基づいて新しい距離を提案する。 そして、新しいメトリクスを効率的に学習する方法を示します。 また、Schatten $p$-norm を通じていくつかの以前の正規化子を一般化し、計量学習の標準一般化を補完する一般化を与える。 実験の結果, この手法は

Metric learning has been successful in learning new metrics adapted to numerical datasets. However, its development on categorical data still needs further exploration. In this paper, we propose a method, called CPML for \emph{categorical projected metric learning}, that tries to efficiently~(i.e. less computational time and better prediction accuracy) address the problem of metric learning in categorical data. We make use of the Value Distance Metric to represent our data and propose new distances based on this representation. We then show how to efficiently learn new metrics. We also generalize several previous regularizers through the Schatten $p$-norm and provides a generalization bound for it that complements the standard generalization bound for metric learning. Experimental results show that our method provides
翻訳日:2022-12-28 14:06:51 公開日:2020-02-26
# 後方サンプリングによる実験設計への専門知識の導入

Incorporating Expert Prior Knowledge into Experimental Design via Posterior Sampling ( http://arxiv.org/abs/2002.11256v1 )

ライセンス: Link先を確認
Cheng Li, Sunil Gupta, Santu Rana, Vu Nguyen, Antonio Robles-Kelly, Svetha Venkatesh(参考訳) 科学実験は通常、複雑な実験準備と処理のために高価である。 したがって、実験設計は、可能な限り少ない実験を用いて、望ましい出力をもたらす最適な実験入力を見つけるタスクに関係している。 実験者は、グローバルな最適な場所に関する知識を得ることができる。 しかし、彼らはこの知識を実験設計の加速に活用する方法を知らない。 本稿では,ベイズ最適化は高価なブラックボックス関数を最適化するための効率的なツールとして確立されているため,ベイズ最適化の手法を実験設計に適用する。 再び、グローバル最適化に関する専門家の事前知識をベイズ最適化プロセスに組み込む方法は不明である。 この問題に対処するために、我々は、事前分布を配置することで、グローバル最適に関する専門家知識を表現し、その後続分布を導出する。 世界的最適の後方分布の後方サンプリングにより,効率的なベイズ最適化手法が提案されている。 本稿では,提案アルゴリズムの収束を理論的に解析し,事前に専門家を組み込むことの堅牢性について論じる。 本研究では, 合成関数を最適化し, 分類器のハイパーパラメータをチューニングし, 短繊維合成の実世界実験を行い, アルゴリズムの効率を評価する。 その結果,提案手法の利点が明らかとなった。

Scientific experiments are usually expensive due to complex experimental preparation and processing. Experimental design is therefore involved with the task of finding the optimal experimental input that results in the desirable output by using as few experiments as possible. Experimenters can often acquire the knowledge about the location of the global optimum. However, they do not know how to exploit this knowledge to accelerate experimental design. In this paper, we adopt the technique of Bayesian optimization for experimental design since Bayesian optimization has established itself as an efficient tool for optimizing expensive black-box functions. Again, it is unknown how to incorporate the expert prior knowledge about the global optimum into Bayesian optimization process. To address it, we represent the expert knowledge about the global optimum via placing a prior distribution on it and we then derive its posterior distribution. An efficient Bayesian optimization approach has been proposed via posterior sampling on the posterior distribution of the global optimum. We theoretically analyze the convergence of the proposed algorithm and discuss the robustness of incorporating expert prior. We evaluate the efficiency of our algorithm by optimizing synthetic functions and tuning hyperparameters of classifiers along with a real-world experiment on the synthesis of short polymer fiber. The results clearly demonstrate the advantages of our proposed method.
翻訳日:2022-12-28 14:06:39 公開日:2020-02-26
# 段階的ドメイン適応のための自己学習の理解

Understanding Self-Training for Gradual Domain Adaptation ( http://arxiv.org/abs/2002.11361v1 )

ライセンス: Link先を確認
Ananya Kumar, Tengyu Ma, Percy Liang(参考訳) 機械学習システムは、センサーネットワークや自動運転車認識モジュールからブレイン・マシン・インタフェースまで、時間とともに進化するデータ分布に適応する必要がある。 段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。 目標領域への直接適応が非有界誤差をもたらすような設定の下で、段階的なシフトを伴う自己学習の誤差に対する最初の非空上界を証明した。 この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。 段階的なシフト構造を活用することで、回転するMNISTデータセットと現実的なPortraitsデータセットの精度が向上する。

Machine learning systems must adapt to data distributions that evolve over time, in applications ranging from sensor networks and self-driving car perception modules to brain-machine interfaces. We consider gradual domain adaptation, where the goal is to adapt an initial classifier trained on a source domain given only unlabeled data that shifts gradually in distribution towards a target domain. We prove the first non-vacuous upper bound on the error of self-training with gradual shifts, under settings where directly adapting to the target domain can result in unbounded error. The theoretical analysis leads to algorithmic insights, highlighting that regularization and label sharpening are essential even when we have infinite data, and suggesting that self-training works particularly well for shifts with small Wasserstein-infinity distance. Leveraging the gradual shift structure leads to higher accuracies on a rotating MNIST dataset and a realistic Portraits dataset.
翻訳日:2022-12-28 14:05:28 公開日:2020-02-26
# ディープラーニング時代のマルチソースドメイン適応:体系的調査

Multi-source Domain Adaptation in the Deep Learning Era: A Systematic Survey ( http://arxiv.org/abs/2002.12169v1 )

ライセンス: Link先を確認
Sicheng Zhao, Bo Li, Colorado Reed, Pengfei Xu, Kurt Keutzer(参考訳) 多くの実用的な応用において、ディープニューラルネットワークをフル機能に訓練するための十分な大規模ラベル付きデータを得ることは、しばしば困難かつ高価である。 したがって、学習した知識を別個のラベル付きソースドメインから未ラベルまたは疎ラベルのターゲットドメインに転送することが魅力的な選択肢となる。 しかし、直接移動はドメインシフトによる大きな性能低下をもたらすことが多い。 ドメイン適応(DA)は、ソースとターゲットドメイン間のドメインシフトの影響を最小限にすることでこの問題に対処する。 マルチソースドメイン適応(MDA)は、ラベル付きデータを異なる分布を持つ複数のソースから収集できる強力な拡張である。 DA手法の成功とマルチソースデータの普及により,MDAは学術・産業ともに注目を集めている。 本研究では,様々なmda戦略を定義し,利用可能なデータセットを要約して評価する。 また、潜時空間変換や中間領域生成を含む、ディープラーニング時代の最新のMDA手法を比較した。 最後に,MDA研究の今後の方向性について論じる。

In many practical applications, it is often difficult and expensive to obtain enough large-scale labeled data to train deep neural networks to their full capability. Therefore, transferring the learned knowledge from a separate, labeled source domain to an unlabeled or sparsely labeled target domain becomes an appealing alternative. However, direct transfer often results in significant performance decay due to domain shift. Domain adaptation (DA) addresses this problem by minimizing the impact of domain shift between the source and target domains. Multi-source domain adaptation (MDA) is a powerful extension in which the labeled data may be collected from multiple sources with different distributions. Due to the success of DA methods and the prevalence of multi-source data, MDA has attracted increasing attention in both academia and industry. In this survey, we define various MDA strategies and summarize available datasets for evaluation. We also compare modern MDA methods in the deep learning era, including latent space transformation and intermediate domain generation. Finally, we discuss future research directions for MDA.
翻訳日:2022-12-28 13:59:00 公開日:2020-02-26
# 時間臨界歩行者行動予測のための深層学習と統計的モデル

Deep Learning and Statistical Models for Time-Critical Pedestrian Behaviour Prediction ( http://arxiv.org/abs/2002.11226v1 )

ライセンス: Link先を確認
Joel Janek Dabrowski and Johan Pieter de Villiers and Ashfaqur Rahman and Conrad Beyers(参考訳) 分類器が正確な予測を行うのに要する時間は、多くの行動認識問題において重要である。 例えば、自動運転車は適切な対策を講じられるほど早く危険な歩行者の行動を検出する必要がある。 この文脈では,移動路からの歩行者行動推定に応用した,スイッチング線形力学系(SLDS)と3層双方向長短期記憶(LSTM)ニューラルネットワークを比較した。 ニューラルネットワークモデルは80%の精度を達成するが、これを達成するには長いシーケンスを必要とする(100以上のサンプル)。 sldは精度が74%低いが、短いシーケンス(10サンプル)でこの結果を達成している。 これまでの文献では,このような配列長の比較は検討されていない。 結果は、時間的臨界問題におけるモデルの適合性に関する重要な直感を与える。

The time it takes for a classifier to make an accurate prediction can be crucial in many behaviour recognition problems. For example, an autonomous vehicle should detect hazardous pedestrian behaviour early enough for it to take appropriate measures. In this context, we compare the switching linear dynamical system (SLDS) and a three-layered bi-directional long short-term memory (LSTM) neural network, which are applied to infer pedestrian behaviour from motion tracks. We show that, though the neural network model achieves an accuracy of 80%, it requires long sequences to achieve this (100 samples or more). The SLDS, has a lower accuracy of 74%, but it achieves this result with short sequences (10 samples). To our knowledge, such a comparison on sequence length has not been considered in the literature before. The results provide a key intuition of the suitability of the models in time-critical problems.
翻訳日:2022-12-28 13:58:45 公開日:2020-02-26
# ANDアルゴリズムに基づく教師なし埋め込み学習への包括的アプローチ

A Comprehensive Approach to Unsupervised Embedding Learning based on AND Algorithm ( http://arxiv.org/abs/2002.12158v1 )

ライセンス: Link先を確認
Sungwon Han, Yizhan Xu, Sungwon Park, Meeyoung Cha, Cheng-Te Li(参考訳) 教師なし組込み学習(unsupervised embedded learning)は、手動ラベルを必要とせずに、データから優れた表現を抽出することを目的としている。 本稿では,現在の最先端モデルを拡張したSuper-ANDと呼ばれる非教師なし埋め込み手法を提案する。 Super-ANDは、データ拡張に対して不変性を保ちながら、低密度空間の近くで同様のサンプルを収集できるユニークな損失セットを持っている。 Super-ANDは既存の全てのアプローチを上回り、CIFAR-10の画像分類タスクで89.2%の精度を達成する。 本手法が半教師付きタスクを支援する上での実践的意義について論じる。

Unsupervised embedding learning aims to extract good representation from data without the need for any manual labels, which has been a critical challenge in many supervised learning tasks. This paper proposes a new unsupervised embedding approach, called Super-AND, which extends the current state-of-the-art model. Super-AND has its unique set of losses that can gather similar samples nearby within a low-density space while keeping invariant features intact against data augmentation. Super-AND outperforms all existing approaches and achieves an accuracy of 89.2% on the image classification task for CIFAR-10. We discuss the practical implications of this method in assisting semi-supervised tasks.
翻訳日:2022-12-28 13:58:32 公開日:2020-02-26
# Infinitely Wide Graph Convolutional Networks: ガウス過程による半教師付き学習

Infinitely Wide Graph Convolutional Networks: Semi-supervised Learning via Gaussian Processes ( http://arxiv.org/abs/2002.12168v1 )

ライセンス: Link先を確認
Jilin Hu, Jianbing Shen, Bin Yang, Ling Shao(参考訳) グラフ畳み込みニューラルネットワーク~(GCN)はグラフに基づく半教師付き分類の有望な結果を最近示したが、その理論的性質を探求する研究はほとんど行われていない。 近年では、無限に隠れた単位を持つ完全連結・畳み込みニューラルネットワークなどの深層ニューラルネットワークがガウス過程~(GP)と等価であることが証明されている。 GCNの強力な表現能力とGPの大きな表現力の両方を活用するために、無限に広いGCNの類似特性について検討する。 具体的には,グラフに基づく半教師付き学習のためのGCNs~GPGCを用いたGP回帰モデルを提案する。 この過程において、gpgcの核行列計算を反復解析形式で定式化する。 最後に、グラフ構造に基づく観測されていないノードのラベル、観測されたノードのラベル、および全てのノードの特徴行列の条件分布を導出する。 GPGCの半教師付き分類性能を評価するための広範囲な実験を行い、他の最先端手法よりも効率的かつ明確なマージンで優れていることを示した。

Graph convolutional neural networks~(GCNs) have recently demonstrated promising results on graph-based semi-supervised classification, but little work has been done to explore their theoretical properties. Recently, several deep neural networks, e.g., fully connected and convolutional neural networks, with infinite hidden units have been proved to be equivalent to Gaussian processes~(GPs). To exploit both the powerful representational capacity of GCNs and the great expressive power of GPs, we investigate similar properties of infinitely wide GCNs. More specifically, we propose a GP regression model via GCNs~(GPGC) for graph-based semi-supervised learning. In the process, we formulate the kernel matrix computation of GPGC in an iterative analytical form. Finally, we derive a conditional distribution for the labels of unobserved nodes based on the graph structure, labels for the observed nodes, and the feature matrix of all the nodes. We conduct extensive experiments to evaluate the semi-supervised classification performance of GPGC and demonstrate that it outperforms other state-of-the-art methods by a clear margin on all the datasets while being efficient.
翻訳日:2022-12-28 13:58:13 公開日:2020-02-26
# 知覚と推論のニューラルネットワークモデル

A neural network model of perception and reasoning ( http://arxiv.org/abs/2002.11319v1 )

ライセンス: Link先を確認
Paul J. Blazek, Milo M. Lin(参考訳) 神経ネットワーク活動からの知覚と推論は理解されていない。 これは、勾配に基づく最適化によって訓練されたディープニューラルネットワークに代表されるコネクショニスト人工知能の基本的な制限に反映されている。 多くのタスクで成功したにもかかわらず、そのようなネットワークは象徴的推論や概念一般化ができない説明不能なブラックボックスのままである。 ここでは、生物学的に一貫した組織原理の単純なセットが、神経ネットワークにこれらの能力を与えることを示す。 そこで我々は,これらの原理を,最適化ではなく概念構築に基づく新しい機械学習アルゴリズムに実装し,説明可能なニューロン活動で推論されるディープニューラルネットワークを設計する。 npハード問題を含む様々なタスクにおいて、それらの推論能力は、自己分析による熟考、敵の攻撃の緩和、単純な例から転送可能なルールの学習など、追加の認知機能を与える。 ネットワークには、現在のディープニューラルネットワークに固有の生物学的神経系の特性も自然に表示され、スパーシティ、モジュラリティ、分散および局所的な発火パターンなどが含まれる。 標準的な学習タスクのパフォーマンス、コンパクト性、トレーニング時間を犠牲にしないため、これらのネットワークは人工知能に対する新たなブラックボックスのないアプローチを提供する。 同様に、神経ネットワークからの認知の出現を理解するための定量的な枠組みとして機能する。

How perception and reasoning arise from neuronal network activity is poorly understood. This is reflected in the fundamental limitations of connectionist artificial intelligence, typified by deep neural networks trained via gradient-based optimization. Despite success on many tasks, such networks remain unexplainable black boxes incapable of symbolic reasoning and concept generalization. Here we show that a simple set of biologically consistent organizing principles confer these capabilities to neuronal networks. To demonstrate, we implement these principles in a novel machine learning algorithm, based on concept construction instead of optimization, to design deep neural networks that reason with explainable neuron activity. On a range of tasks including NP-hard problems, their reasoning capabilities grant additional cognitive functions, like deliberating through self-analysis, tolerating adversarial attacks, and learning transferable rules from simple examples to solve problems of unencountered complexity. The networks also naturally display properties of biological nervous systems inherently absent in current deep neural networks, including sparsity, modularity, and both distributed and localized firing patterns. Because they do not sacrifice performance, compactness, or training time on standard learning tasks, these networks provide a new black-box-free approach to artificial intelligence. They likewise serve as a quantitative framework to understand the emergence of cognition from neuronal networks.
翻訳日:2022-12-28 13:57:43 公開日:2020-02-26
# ニューロモルフィックカメラを用いた物体分類のためのインセプティブ・イベント・タイムサーフェス

Inceptive Event Time-Surfaces for Object Classification Using Neuromorphic Cameras ( http://arxiv.org/abs/2002.11656v1 )

ライセンス: Link先を確認
R Wes Baldwin, Mohammed Almatrafi, Jason R Kaufman, Vijayan Asari, Keigo Hirakawa(参考訳) Inceptive Event Time-Surfaces (IETS) と呼ばれるニューロモルフィックカメラデータにおいて,次元減少のための低レベルアプローチと高レベルオブジェクトへの効果的なアプローチの融合を提案する。 IETSは、ノイズに対するロバスト性を高め、空間的一貫性を促進し、(移動)エッジの時間的局在を改善することで、従来の時間面のいくつかの制限を克服する。 IETSと転送学習を組み合わせることで、イベントカメラデータを利用したオブジェクト分類の課題に対して、最先端のパフォーマンスが向上する。

This paper presents a novel fusion of low-level approaches for dimensionality reduction into an effective approach for high-level objects in neuromorphic camera data called Inceptive Event Time-Surfaces (IETS). IETSs overcome several limitations of conventional time-surfaces by increasing robustness to noise, promoting spatial consistency, and improving the temporal localization of (moving) edges. Combining IETS with transfer learning improves state-of-the-art performance on the challenging problem of object classification utilizing event camera data.
翻訳日:2022-12-28 13:57:21 公開日:2020-02-26
# ビデオキャプションのための教師推薦学習を用いたオブジェクト関係グラフ

Object Relational Graph with Teacher-Recommended Learning for Video Captioning ( http://arxiv.org/abs/2002.11566v1 )

ライセンス: Link先を確認
Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu, Zhengjun Zha(参考訳) 視覚と言語の両方から情報を最大限に活用することは、ビデオキャプションタスクにとって重要である。 既存のモデルでは、オブジェクト間の相互作用の欠如と、長い尾の問題によるコンテンツ関連単語の十分な訓練により、十分な視覚表現が欠如している。 本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。 具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。 一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。 ELMはより意味論的に類似した単語提案を生成し、長い尾の問題に対処するために訓練に使用される接尾辞を拡張する。 MSVD, MSR-VTT, VATEX の3つの評価結果から,提案したORG-TRL システムは最先端の性能を実現することを示す。 大規模なアブレーション研究と可視化は,我々のシステムの有効性を示している。

Taking full advantage of the information from both vision and language is critical for the video captioning task. Existing models lack adequate visual representation due to the neglect of interaction between object, and sufficient training for content-related words due to long-tailed problems. In this paper, we propose a complete video captioning system including both a novel model and an effective training strategy. Specifically, we propose an object relational graph (ORG) based encoder, which captures more detailed interaction features to enrich visual representation. Meanwhile, we design a teacher-recommended learning (TRL) method to make full use of the successful external language model (ELM) to integrate the abundant linguistic knowledge into the caption model. The ELM generates more semantically similar word proposals which extend the ground-truth words used for training to deal with the long-tailed problem. Experimental evaluations on three benchmarks: MSVD, MSR-VTT and VATEX show the proposed ORG-TRL system achieves state-of-the-art performance. Extensive ablation studies and visualizations illustrate the effectiveness of our system.
翻訳日:2022-12-28 13:57:00 公開日:2020-02-26
# まばらなシンクホーンの注意

Sparse Sinkhorn Attention ( http://arxiv.org/abs/2002.11296v1 )

ライセンス: Link先を確認
Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, and Da-Cheng Juan(参考訳) そこで本研究では,新しい学習方法であるsparse sinkhorn attentionを提案する。 本手法は内部表現の微分可能なソートに基づいている。 具体的には,シーケンス上の潜在置換生成を学習するメタソートネットワークを提案する。 ソートされたシーケンスが与えられたら、ローカルウィンドウだけで準グローバルアテンションを計算でき、アテンションモジュールのメモリ効率が向上します。 そこで本研究では,Sinkhorn Balancing や SortCut などのアルゴリズムを改良し,Sinkhorn Attention を符号化や復号のために調整する動的シーケンストランケーション手法を提案する。 アルゴリズムによるseq2seqソート、言語モデリング、画素単位の画像生成、文書分類、自然言語推論に関する広範な実験を通じて、我々のメモリ効率の良いシンクホーンアテンション手法がバニラアテンションと競合し、最近提案されたスパーストランスフォーマーのような効率的なトランスフォーマーモデルに一貫して勝っていることを実証する。

We propose Sparse Sinkhorn Attention, a new efficient and sparse method for learning to attend. Our method is based on differentiable sorting of internal representations. Concretely, we introduce a meta sorting network that learns to generate latent permutations over sequences. Given sorted sequences, we are then able to compute quasi-global attention with only local windows, improving the memory efficiency of the attention module. To this end, we propose new algorithmic innovations such as Causal Sinkhorn Balancing and SortCut, a dynamic sequence truncation method for tailoring Sinkhorn Attention for encoding and/or decoding purposes. Via extensive experiments on algorithmic seq2seq sorting, language modeling, pixel-wise image generation, document classification and natural language inference, we demonstrate that our memory efficient Sinkhorn Attention method is competitive with vanilla attention and consistently outperforms recently proposed efficient Transformer models such as Sparse Transformers.
翻訳日:2022-12-28 13:56:41 公開日:2020-02-26
# 強化学習のための一般化後遺症

Generalized Hindsight for Reinforcement Learning ( http://arxiv.org/abs/2002.11708v1 )

ライセンス: Link先を確認
Alexander C. Li, Lerrel Pinto, Pieter Abbeel(参考訳) 強化学習(RL)における高いサンプル複雑さの要因の1つは、あるタスクから別のタスクに知識を伝達できないことである。 標準的なマルチタスクRL設定では、1つのタスクを解決しようとするときに収集される低遅延データは、そのタスクを解くための信号はほとんど、あるいは全く提供しないため、効果的に無駄になる。 しかし、このデータは1つのタスクでは非形式的であり、おそらく他のタスクでは豊富な情報源である。 この知見を有効活用し、データを効率的に再利用するために、適切なタスクで振る舞いを再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。 直感的には、あるタスクの下で生成された振舞いに対して、Generalized Hindsightは振舞いがより適している別のタスクを返す。 その後、振る舞いはオフポリシーrlオプティマイザで使われる前に、この新しいタスクとリラベルされる。 Generalized Hindsightは、標準のラベリング技術と比較して、より効率的なサンプルの再利用を提供し、マルチタスクナビゲーションと操作タスクのスイートで実証的に実証する。 https://sites.google.com/view/generalized-hindsight.com ビデオとコードをここでアクセスできる。

One of the key reasons for the high sample complexity in reinforcement learning (RL) is the inability to transfer knowledge from one task to another. In standard multi-task RL settings, low-reward data collected while trying to solve one task provides little to no signal for solving that particular task and is hence effectively wasted. However, we argue that this data, which is uninformative for one task, is likely a rich source of information for other tasks. To leverage this insight and efficiently reuse data, we present Generalized Hindsight: an approximate inverse reinforcement learning technique for relabeling behaviors with the right tasks. Intuitively, given a behavior generated under one task, Generalized Hindsight returns a different task that the behavior is better suited for. Then, the behavior is relabeled with this new task before being used by an off-policy RL optimizer. Compared to standard relabeling techniques, Generalized Hindsight provides a substantially more efficient reuse of samples, which we empirically demonstrate on a suite of multi-task navigation and manipulation tasks. Videos and code can be accessed here: https://sites.google.com/view/generalized-hindsight.
翻訳日:2022-12-28 13:50:25 公開日:2020-02-26
# 政策評価ネットワーク

Policy Evaluation Networks ( http://arxiv.org/abs/2002.11833v1 )

ライセンス: Link先を確認
Jean Harb, Tom Schaul, Doina Precup and Pierre-Luc Bacon(参考訳) 多くの強化学習アルゴリズムは、より良いポリシーを探すために値関数を使用する。 これらの方法は、多くの状態にわたって一般化しながら単一のポリシーの価値を推定する。 本稿の中核となる考え方は、この規約を覆し、単一の状態に対して多くのポリシーの価値を見積もることである。 このアプローチは、新しいデータを見ることなく、ポリシー空間で直接勾配上昇を行う可能性を開く。 このアプローチの主な課題は、学習と一般化を促進する複雑なポリシーを表現する方法を見つけることである。 そこで本稿では,本質的なポリシー情報を保持するスケーラブルで差別化可能なフィンガープリント機構を提案する。 その結果、これらの3つの要素(学習ポリシー評価ネットワーク、ポリシー指紋、勾配上昇)を組み合わせることで、トレーニングデータを生成する要素をゼロショットで上回るポリシーを生成できることが実証された。

Many reinforcement learning algorithms use value functions to guide the search for better policies. These methods estimate the value of a single policy while generalizing across many states. The core idea of this paper is to flip this convention and estimate the value of many policies, for a single set of states. This approach opens up the possibility of performing direct gradient ascent in policy space without seeing any new data. The main challenge for this approach is finding a way to represent complex policies that facilitates learning and generalization. To address this problem, we introduce a scalable, differentiable fingerprinting mechanism that retains essential policy information in a concise embedding. Our empirical results demonstrate that combining these three elements (learned Policy Evaluation Network, policy fingerprints, gradient ascent) can produce policies that outperform those that generated the training data, in zero-shot manner.
翻訳日:2022-12-28 13:49:20 公開日:2020-02-26
# 悲観的初期化をもった最適探索

Optimistic Exploration even with a Pessimistic Initialisation ( http://arxiv.org/abs/2002.12174v1 )

ライセンス: Link先を確認
Tabish Rashid, Bei Peng, Wendelin B\"ohmer, Shimon Whiteson(参考訳) 楽観的初期化は強化学習(rl)の効率的な探索に有効な戦略である。 表のケースでは、すべての有効なモデルフリーアルゴリズムがそれに依存している。 しかし、モデルのないディープRLアルゴリズムは、これらの証明可能な効率的な表形式アルゴリズムから着想を得ても楽観的な初期化を使わない。 特に、正の報酬しか持たないシナリオでは、一般に使用されるネットワーク初期化スキーム(悲観的初期化)により、Q値が可能な限り低い値で初期化される。 ネットワークの初期化によって楽観的なQ値が出力されるだけでは十分ではない。 本稿では,最適化の源をニューラルネットワークから分離する悲観的初期化q値に対する単純なカウントベース拡張を提案する。 本稿では,このスキームが表裏設定において有効であることを示し,それを深いrl設定に拡張する。 我々のアルゴリズムであるOptimistic Pessimistically Initialized Q-Learning (OPIQ) は、DQNベースのエージェントのQ値推定をカウント派生ボーナスで増加させ、アクション選択とブートストラップの両方における最適化を保証する。 OPIQは, 探索作業における擬似対数に基づく本質的な動機を生かした非最適DQN変種よりも優れており, 新規な状態-作用対に対する楽観的な推定を予測できることを示す。

Optimistic initialisation is an effective strategy for efficient exploration in reinforcement learning (RL). In the tabular case, all provably efficient model-free algorithms rely on it. However, model-free deep RL algorithms do not use optimistic initialisation despite taking inspiration from these provably efficient tabular algorithms. In particular, in scenarios with only positive rewards, Q-values are initialised at their lowest possible values due to commonly used network initialisation schemes, a pessimistic initialisation. Merely initialising the network to output optimistic Q-values is not enough, since we cannot ensure that they remain optimistic for novel state-action pairs, which is crucial for exploration. We propose a simple count-based augmentation to pessimistically initialised Q-values that separates the source of optimism from the neural network. We show that this scheme is provably efficient in the tabular setting and extend it to the deep RL setting. Our algorithm, Optimistic Pessimistically Initialised Q-Learning (OPIQ), augments the Q-value estimates of a DQN-based agent with count-derived bonuses to ensure optimism during both action selection and bootstrapping. We show that OPIQ outperforms non-optimistic DQN variants that utilise a pseudocount-based intrinsic motivation in hard exploration tasks, and that it predicts optimistic estimates for novel state-action pairs.
翻訳日:2022-12-28 13:49:06 公開日:2020-02-26
# 逆境におけるアンサンブルの再検討:自然精度の向上

Revisiting Ensembles in an Adversarial Context: Improving Natural Accuracy ( http://arxiv.org/abs/2002.11572v1 )

ライセンス: Link先を確認
Aditya Saligrama and Guillaume Leclerc(参考訳) 現実世界のアプリケーションにおけるディープラーニングモデルのデプロイに必要な特徴は、非現実的入力の精度を維持しながら、小さな敵対的摂動に対する抵抗である。 頑健なトレーニングは、標準モデルよりもより良い敵の精度を示すモデルを提供するが、私たちが橋渡ししようとしているロバストモデルと非ロバストモデルの間には、自然な精度において大きなギャップがある。 この性能差を軽減するために,多くのアンサンブル手法を検討する。 私たちの重要な洞察は、小さな攻撃に耐えられるよう訓練されたモデルは、アンサンブルされた場合、しばしば大きな攻撃に耐えることができ、この概念は自然の精度を最適化するために活用できるということです。 ランダムに初期化された複数のロバストモデルからの予測と、ロバストモデルと標準モデルから特徴を融合する2つのスキームを考える。

A necessary characteristic for the deployment of deep learning models in real world applications is resistance to small adversarial perturbations while maintaining accuracy on non-malicious inputs. While robust training provides models that exhibit better adversarial accuracy than standard models, there is still a significant gap in natural accuracy between robust and non-robust models which we aim to bridge. We consider a number of ensemble methods designed to mitigate this performance difference. Our key insight is that model trained to withstand small attacks, when ensembled, can often withstand significantly larger attacks, and this concept can in turn be leveraged to optimize natural accuracy. We consider two schemes, one that combines predictions from several randomly initialized robust models, and the other that fuses features from robust and standard models.
翻訳日:2022-12-28 13:48:44 公開日:2020-02-26
# 深層学習による画像再構成のロバスト性向上

Improving Robustness of Deep-Learning-Based Image Reconstruction ( http://arxiv.org/abs/2002.11821v1 )

ライセンス: Link先を確認
Ankit Raj, Yoram Bresler, Bo Li(参考訳) 異なるアプリケーションに対するディープラーニングベースの手法は、逆の例に対して脆弱であることが示されている。 これらの例は、そのようなモデルを安全クリティカルなタスクにデプロイすることを疑問視する。 逆問題解法としてのディープニューラルネットワークの利用は、CTやMRIを含む医療画像に多くの興奮をもたらしたが、近年では同様の脆弱性も示されている。 このような逆問題を解くためには,先行研究のように信号空間ではなく,測定空間における敵の影響を分析し,検討する必要がある。 本稿では,エンド・ツー・エンドのディープラーニングに基づく逆解法の学習戦略を改良し,頑健性を向上させることを提案する。 画像再構成ネットワークを構築するために,min-maxの定式化に使用される逆例を生成する補助ネットワークを提案する。 理論的には、線形再構成スキームにおいて、min-max の定式化は特異値フィルタ正規化解となり、測定行列の条件が悪くなったために発生する逆例の影響を抑える。 提案したmin-max学習方式を用いた線形ネットワークは,実際に同じ解に収束する。 また,深層ネットワークを用いた非線形圧縮センシング(cs)再構成では,提案手法によるロバスト性が他の手法よりも大幅に向上することを示す。 2つの異なるデータセットにおけるCS実験による理論を補完し、トレーニングネットワークにおける摂動増加の効果を評価する。 条件が不揃いかつ良好な測定行列の挙動は質的に異なることが判明した。

Deep-learning-based methods for different applications have been shown vulnerable to adversarial examples. These examples make deployment of such models in safety-critical tasks questionable. Use of deep neural networks as inverse problem solvers has generated much excitement for medical imaging including CT and MRI, but recently a similar vulnerability has also been demonstrated for these tasks. We show that for such inverse problem solvers, one should analyze and study the effect of adversaries in the measurement-space, instead of the signal-space as in previous work. In this paper, we propose to modify the training strategy of end-to-end deep-learning-based inverse problem solvers to improve robustness. We introduce an auxiliary network to generate adversarial examples, which is used in a min-max formulation to build robust image reconstruction networks. Theoretically, we show for a linear reconstruction scheme the min-max formulation results in a singular-value(s) filter regularized solution, which suppresses the effect of adversarial examples occurring because of ill-conditioning in the measurement matrix. We find that a linear network using the proposed min-max learning scheme indeed converges to the same solution. In addition, for non-linear Compressed Sensing (CS) reconstruction using deep networks, we show significant improvement in robustness using the proposed approach over other methods. We complement the theory by experiments for CS on two different datasets and evaluate the effect of increasing perturbations on trained networks. We find the behavior for ill-conditioned and well-conditioned measurement matrices to be qualitatively different.
翻訳日:2022-12-28 13:48:04 公開日:2020-02-26
# max-affine spline によるディープジェネレーションネットワークへの洞察

Max-Affine Spline Insights into Deep Generative Networks ( http://arxiv.org/abs/2002.11912v1 )

ライセンス: Link先を確認
Randall Balestriero, Sebastien Paris, Richard Baraniuk(参考訳) 我々は,多種多様な生成深層ネットワーク(GDN)をスプライン演算子と接続し,それらの特性,制限,新たな機会を導出する。 生成した多様体の潜在空間分割、次元、角度を特徴付けることにより、多様体次元と近似誤差とサンプルサイズを関連付ける。 多様体-領域アフィン部分空間は局所座標基底(英語版)(local coordinate basis)を定義する。 また、潜在空間密度の観点から生成多様体に写像された出力確率密度を導出し、シャノンエントロピーのような重要な統計量の計算を可能にする。 この発見はまた、GDN確率の計算を可能にし、モデル比較のための新しいメカニズムを提供し、学習された分布の下でサンプル(生成)の品質指標を提供する。 低エントロピーおよび/またはマルチモーダル分布がDGNによって自然にモデル化されず、トレーニング不安定の原因であることを示す。

We connect a large class of Generative Deep Networks (GDNs) with spline operators in order to derive their properties, limitations, and new opportunities. By characterizing the latent space partition, dimension and angularity of the generated manifold, we relate the manifold dimension and approximation error to the sample size. The manifold-per-region affine subspace defines a local coordinate basis; we provide necessary and sufficient conditions relating those basis vectors with disentanglement. We also derive the output probability density mapped onto the generated manifold in terms of the latent space density, which enables the computation of key statistics such as its Shannon entropy. This finding also enables the computation of the GDN likelihood, which provides a new mechanism for model comparison as well as providing a quality measure for (generated) samples under the learned distribution. We demonstrate how low entropy and/or multimodal distributions are not naturally modeled by DGNs and are a cause of training instabilities.
翻訳日:2022-12-28 13:47:40 公開日:2020-02-26