このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210204となっている論文です。

PDF登録状況(公開日: 20210204)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なし環境設計による創発的複雑度とゼロショット転送

Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design ( http://arxiv.org/abs/2012.02096v2 )

ライセンス: Link先を確認
Michael Dennis, Natasha Jaques, Eugene Vinitsky, Alexandre Bayen, Stuart Russell, Andrew Critch, Sergey Levine(参考訳) 堅牢性、伝達学習、教師なしのRL、創発的複雑性など、幅広い強化学習(RL)の問題は、政策を訓練するタスクや環境の分布を特定する必要がある。 しかし、環境の有用なディストリビューションを作成するのはエラーを起こしやすいため、かなりの開発時間と労力を要する。 本研究では,未知のパラメータを持つ環境を開発者が提供するための代替パラダイムとして,教師なし環境設計(UED)を提案する。 ドメインのランダム化は、エージェントの学習進捗に環境の構造や難易度を生成することができず、最小限の対人訓練は、しばしば解決不可能な最悪の環境をもたらす。 プロタゴニストエージェントの構造的, 溶解性のある環境を生成するために, 環境生成敵と結びついた第2のアンタゴニストエージェントを導入する。 敵は、主人公と敵エージェントの帰還の差として定義された後悔を最大化する環境を生成する。 われわれはこの手法をPAIRED(Protagonist Antagonist induced Regret Environment Design)と呼ぶ。 実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは高度に新規な環境で試験した場合に高いゼロショット転送性能が得られることが示された。

A wide range of reinforcement learning (RL) problems - including robustness, transfer learning, unsupervised RL, and emergent complexity - require specifying a distribution of tasks or environments in which a policy will be trained. However, creating a useful distribution of environments is error prone, and takes a significant amount of developer time and effort. We propose Unsupervised Environment Design (UED) as an alternative paradigm, where developers provide environments with unknown parameters, and these parameters are used to automatically produce a distribution over valid, solvable environments. Existing approaches to automatically generating environments suffer from common failure modes: domain randomization cannot generate structure or adapt the difficulty of the environment to the agent's learning progress, and minimax adversarial training leads to worst-case environments that are often unsolvable. To generate structured, solvable environments for our protagonist agent, we introduce a second, antagonist agent that is allied with the environment-generati ng adversary. The adversary is motivated to generate environments which maximize regret, defined as the difference between the protagonist and antagonist agent's return. We call our technique Protagonist Antagonist Induced Regret Environment Design (PAIRED). Our experiments demonstrate that PAIRED produces a natural curriculum of increasingly complex environments, and PAIRED agents achieve higher zero-shot transfer performance when tested in highly novel environments.
翻訳日:2021-05-23 15:04:24 公開日:2021-02-04
# (参考訳) データ中毒攻撃に対する近隣住民の認定ロバスト性 [全文訳有]

Certified Robustness of Nearest Neighbors against Data Poisoning Attacks ( http://arxiv.org/abs/2012.03765v2 )

ライセンス: CC BY 4.0
Jinyuan Jia and Xiaoyu Cao and Neil Zhenqiang Gong(参考訳) データ中毒攻撃は、機械学習モデルの変更、追加、あるいは慎重に選択されたトレーニング例の削除を通じて、マシンラーニングモデルを破壊することを目的としている。 データ中毒攻撃に対する最先端の認証防御に関する重要なアイデアは、テスト例のラベルを予測するための \emph{majority vote} メカニズムを作成することだ。 さらに、各投票者は、トレーニングデータセットのサブセットでトレーニングされたベース分類器である。 k$ near neighbors (knn) や radius closest neighbors (rnn) のような古典的な単純な学習アルゴリズムは、本質的な多数決機構を持っている。 本稿では,knn と rnn における本質的多数決機構が,一般データ中毒攻撃に対するロバスト性保証をすでに提供していることを示す。 さらに, MNIST と CIFAR10 に対する評価結果から,kNN と rNN の本質的な信頼性保証は, 最新技術による防御能力よりも優れていた。 我々の結果は、将来認証されたデータ中毒攻撃に対する防御の基準となる。

Data poisoning attacks aim to corrupt a machine learning model via modifying, adding, and/or removing some carefully selected training examples, such that the corrupted model predicts any or attacker-chosen incorrect labels for testing examples. The key idea of state-of-the-art certified defenses against data poisoning attacks is to create a \emph{majority vote} mechanism to predict the label of a testing example. Moreover, each voter is a base classifier trained on a subset of the training dataset. Classical simple learning algorithms such as $k$ nearest neighbors (kNN) and radius nearest neighbors (rNN) have intrinsic majority vote mechanisms. In this work, we show that the intrinsic majority vote mechanisms in kNN and rNN already provide certified robustness guarantees against general data poisoning attacks. Moreover, our evaluation results on MNIST and CIFAR10 show that the intrinsic certified robustness guarantees of kNN and rNN outperform those provided by state-of-the-art certified defenses. Our results serve as standard baselines for future certified defenses against data poisoning attacks.
翻訳日:2021-05-18 13:47:37 公開日:2021-02-04
# 人体における情報探索パターン理解のためのモデル非依存機能

Model-agnostic Fits for Understanding Information Seeking Patterns in Humans ( http://arxiv.org/abs/2012.04858v2 )

ライセンス: Link先を確認
Soumya Chatterjee, Pradeep Shenoy(参考訳) 不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。 ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。 我々は、これらのバイアスを集合的に再現するディープラーニングモデルを設計し、また、振る舞いの個々のバリエーションをキャプチャする。 私たちの研究の鍵となる発見は、個々の被験者から収集されたデータのpaucityが、人口から大量の被験者をサンプリングすることで克服できることです。 さらに、タスク目標や報酬構造、個人バイアスについて仮定することなく、高い精度で人間の行動を予測することができ、タスク内の人間の行動にモデルに依存しない適合性を提供します。 このようなアプローチは、モデリング者が特定した帰納的バイアスの潜在的な制限を横取りし、一般に人間の認知機能、特に人間とAIインターフェースの計算モデルに影響を及ぼす可能性がある。

In decision making tasks under uncertainty, humans display characteristic biases in seeking, integrating, and acting upon information relevant to the task. Here, we reexamine data from previous carefully designed experiments, collected at scale, that measured and catalogued these biases in aggregate form. We design deep learning models that replicate these biases in aggregate, while also capturing individual variation in behavior. A key finding of our work is that paucity of data collected from each individual subject can be overcome by sampling large numbers of subjects from the population, while still capturing individual differences. In addition, we can predict human behavior with high accuracy without making any assumptions about task goals, reward structure, or individual biases, thus providing a model-agnostic fit to human behavior in the task. Such an approach can sidestep potential limitations in modeler-specified inductive biases, and has implications for computational modeling of human cognitive function in general, and of human-AI interfaces in particular.
翻訳日:2021-05-16 02:15:01 公開日:2021-02-04
# FcaNet: 周波数チャネル注意ネットワーク

FcaNet: Frequency Channel Attention Networks ( http://arxiv.org/abs/2012.11879v3 )

ライセンス: Link先を確認
Zequn Qin, Pengyi Zhang, Fei Wu and Xi Li(参考訳) 注意機構、特にチャネルアテンションはコンピュータビジョン分野で大きな成功を収めている。 多くの研究は、グローバル平均プーリング(gap)を疑わしい前処理法として用いるという根本的な問題を無視しながら、効率的なチャネルアテンション機構を設計する方法に焦点を当てている。 本研究では、異なる視点から開始し、周波数分析を用いてチャネル注意を再考する。 周波数解析に基づいて,従来のギャップが周波数領域の特徴分解の特別な場合であることを数学的に証明する。 本研究では,周波数領域におけるチャネルアテンション機構の前処理を自然に一般化し,新しいマルチスペクトルチャンネルアテンションを用いたfcanetを提案する。 提案手法は単純だが有効である。 既存のチャネルアテンションメソッドでメソッドを実装するために、計算で1行だけコードを変更することができる。 さらに,提案手法は,画像分類,オブジェクト検出,インスタンスセグメンテーションタスクにおいて,他のチャネルアテンション手法と比較し,最先端の結果を得る。 提案手法は,ベースラインのsenet-50と比較して,imagenetのtop-1精度で1.8%向上し,同じパラメータ数と計算コストで改善することができた。 私たちのコードとモデルはhttps://github.com/c fzd/fcanetで公開されている。

Attention mechanism, especially channel attention, has gained great success in the computer vision field. Many works focus on how to design efficient channel attention mechanisms while ignoring a fundamental problem, i.e., using global average pooling (GAP) as the unquestionable pre-processing method. In this work, we start from a different view and rethink channel attention using frequency analysis. Based on the frequency analysis, we mathematically prove that the conventional GAP is a special case of the feature decomposition in the frequency domain. With the proof, we naturally generalize the pre-processing of channel attention mechanism in the frequency domain and propose FcaNet with novel multi-spectral channel attention. The proposed method is simple but effective. We can change only one line of code in the calculation to implement our method within existing channel attention methods. Moreover, the proposed method achieves state-of-the-art results compared with other channel attention methods on image classification, object detection, and instance segmentation tasks. Our method could improve by 1.8% in terms of Top-1 accuracy on ImageNet compared with the baseline SENet-50, with the same number of parameters and the same computational cost. Our code and models are publicly available at https://github.com/c fzd/FcaNet.
翻訳日:2021-04-26 07:30:46 公開日:2021-02-04
# 制御系における最大偏差に関する基礎的限界:フィードバックによって分散テールがどれくらい短くなるか?

Fundamental Limits on the Maximum Deviations in Control Systems: How Short Can Distribution Tails be Made by Feedback? ( http://arxiv.org/abs/2012.12174v4 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) 本稿では, フィードバック制御システムにおいて, プラントが線形時間不変であり, 制御器がプラントを安定化させる限り, 任意の因果関数となるような, 最大偏差の基本的な下界解析への情報理論の適用について述べる。 一般に、下限は植物の不安定な極(または非最小位相零点)と外乱の条件エントロピーによって特徴づけられる。 このような境界は、制御系の分配テールがフィードバックによってどれだけ短くできるかという基本的な限界を与える。

This paper is on the application of information theory to the analysis of fundamental lower bounds on the maximum deviations in feedback control systems, where the plant is linear time-invariant while the controller can generically be any causal functions as long as it stabilizes the plant. It is seen in general that the lower bounds are characterized by the unstable poles (or nonminimum-phase zeros) of the plant as well as the conditional entropy of the disturbance. Such bounds provide fundamental limits on how short the distribution tails in control systems can be made by feedback.
翻訳日:2021-04-26 07:12:42 公開日:2021-02-04
# (参考訳) 弁制御のための強化学習 [全文訳有]

Reinforcement Learning for Control of Valves ( http://arxiv.org/abs/2012.14668v2 )

ライセンス: CC BY 4.0
Rajesh Siraskar(参考訳) 本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。 PID(proportional-int egral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。 rlは、環境と対話することで学習する自律学習メカニズムである。 動的および非線形プロセスに挑戦するための最適なコントローラを構築する手段として、制御システムの世界で注目を集めている。 公開されたRL研究は、しばしばオープンソースツール(PythonとOpenAI Gym環境)を使用する。 DDPG(Deep Deterministic Policy-Gradient)アルゴリズムとSimulinkを用いて、非線形バルブをシミュレートし、評価のための実験的なテストベンチを作成する。 Simulinkは、工業エンジニアが選択した他のシステムに迅速に適応し、実験することを可能にする。 その結果、rlコントローラは速度で信号の追跡に非常に優れており、基準信号に対する誤差が小さいことがわかった。 しかし、PIDは外乱の拒絶に優れており、バルブの寿命は長くなる。 機械学習が成功するには、多くのハイパーパラメータをチューニングする必要がある。 本稿では,よりフォーマルでアルゴリズム的な「強化学習のカリキュラム」を,シンプルでアプリケーション指向の適応として導入する。 実験により、複雑な非線形現実世界システムの学習タスクを収束させるのに役立つことが示されている。 最後に、この研究から得られた経験的学習は、出版された研究と相関している。

This paper is a study of reinforcement learning (RL) as an optimal-control strategy for control of nonlinear valves. It is evaluated against the PID (proportional-integr al-derivative) strategy, using a unified framework. RL is an autonomous learning mechanism that learns by interacting with its environment. It is gaining increasing attention in the world of control systems as a means of building optimal-controllers for challenging dynamic and nonlinear processes. Published RL research often uses open-source tools (Python and OpenAI Gym environments). We use MATLAB's recently launched (R2019a) Reinforcement Learning Toolbox to develop the valve controller; trained using the DDPG (Deep Deterministic Policy-Gradient) algorithm and Simulink to simulate the nonlinear valve and create the experimental test-bench for evaluation. Simulink allows industrial engineers to quickly adapt and experiment with other systems of their choice. Results indicate that the RL controller is extremely good at tracking the signal with speed and produces a lower error with respect to the reference signal. The PID, however, is better at disturbance rejection and hence provides a longer life for the valves. Successful machine learning involves tuning many hyperparameters requiring significant investment of time and efforts. We introduce "Graded Learning" as a simplified, application oriented adaptation of the more formal and algorithmic "Curriculum for Reinforcement Learning". It is shown via experiments that it helps converge the learning task of complex non-linear real world systems. Finally, experiential learnings gained from this research are corroborated against published research.
翻訳日:2021-04-19 03:53:28 公開日:2021-02-04
# 価格が(おそらく)正しい:サンプルから市場均衡を学ぶ

The Price is (Probably) Right: Learning Market Equilibria from Samples ( http://arxiv.org/abs/2012.14838v2 )

ライセンス: Link先を確認
Omer Lev, Neel Patel, Vignesh Viswanathan, Yair Zick(参考訳) 市場の均衡計算は通常、プレイヤーのバリュエーション関数が知られている設定を考える。 そこで我々は、PAC学習理論フレームワークを用いて、共通の評価関数のクラスを分析し、評価関数の学習に基づく推定ではなく、直接PAC均衡割り当てを出力するアルゴリズムを提供する。 最悪ケース効率の低下を伴う自明なPAC市場効果が存在するため、アルゴリズムの効率を低くする。 一般分布下での効率損失はかなり高いが、いくつかのケース(例えば、単位需要評価)では、より優れた実用性を持つpac市場均衡を見出すことができる。

Equilibrium computation in markets usually considers settings where player valuation functions are known. We consider the setting where player valuations are unknown; using a PAC learning-theoretic framework, we analyze some classes of common valuation functions, and provide algorithms which output direct PAC equilibrium allocations, not estimates based on attempting to learn valuation functions. Since there exist trivial PAC market outcomes with an unbounded worst-case efficiency loss, we lower-bound the efficiency of our algorithms. While the efficiency loss under general distributions is rather high, we show that in some cases (e.g., unit-demand valuations), it is possible to find a PAC market equilibrium with significantly better utility.
翻訳日:2021-04-18 20:27:57 公開日:2021-02-04
# CASS:オンラインヘルスコミュニティのためのソーシャルサポートチャットボットの構築を目指す

CASS: Towards Building a Social-Support Chatbot for Online Health Community ( http://arxiv.org/abs/2101.01583v3 )

ライセンス: Link先を確認
Liuping Wang and Dakuo Wang and Feng Tian and Zhenhui Peng and Xiangmin Fan and Zhan Zhang and Shuai Ma and Mo Yu and Xiaojuan Ma and Hongan Wang(参考訳) チャットボットシステムは、今日のHCIとCSCWの研究で人気があったにもかかわらず、その2つの理由の1つとして不足している。1) システムの多くはルールベースのダイアログフローを使用しており、事前記述された応答を持つ限られた数の事前定義された入力にしか対応できない、2) シングルユーザシナリオに焦点を絞って設計されているため、これらのシステムが他のユーザやコミュニティにどのように影響するかは不明である。 本稿では,オンライン・ヘルス・コミュニティにおけるコミュニティ・メンバにソーシャル・サポートを提供する汎用チャットボット・アーキテクチャ(CASS)を開発する。 CASSアーキテクチャは高度なニューラルネットワークアルゴリズムに基づいており、ユーザからの新たな入力を処理し、さまざまな応答を生成することができる。 CASSは、他のオンラインコミュニティに簡単に移行できるため、一般化可能である。 フォローアップフィールド実験により、CASSは感情的支援を求める個々のメンバーを支援するのに有用であることが証明された。 私たちの研究は、チャットボットがコミュニティ全体のエンゲージメントにどのように影響を与えるかについての研究ギャップを埋めるのにも貢献します。

Chatbots systems, despite their popularity in today's HCI and CSCW research, fall short for one of the two reasons: 1) many of the systems use a rule-based dialog flow, thus they can only respond to a limited number of pre-defined inputs with pre-scripted responses; or 2) they are designed with a focus on single-user scenarios, thus it is unclear how these systems may affect other users or the community. In this paper, we develop a generalizable chatbot architecture (CASS) to provide social support for community members in an online health community. The CASS architecture is based on advanced neural network algorithms, thus it can handle new inputs from users and generate a variety of responses to them. CASS is also generalizable as it can be easily migrate to other online communities. With a follow-up field experiment, CASS is proven useful in supporting individual members who seek emotional support. Our work also contributes to fill the research gap on how a chatbot may influence the whole community's engagement.
翻訳日:2021-04-11 22:49:25 公開日:2021-02-04
# 材料認識における幾何学と照明の役割

The joint role of geometry and illumination on material recognition ( http://arxiv.org/abs/2101.02496v2 )

ライセンス: Link先を確認
Manuel Lagunas, Ana Serrano, Diego Gutierrez, Belen Masia(参考訳) 素材の観察と認識は私たちの日常生活の基本的な部分です。 一般的な観察条件下では、私たちを取り囲む物体を無作為に識別し、それらの材料を認識することができる。 それでも、物体の視覚特性を正確に識別するために起こる知覚過程を理解することは長年の課題である。 本研究では,幾何,照明,空間周波数の相互作用が物質認識課題のヒューマンパフォーマンスに与える影響を包括的かつ体系的に分析する。 対象サンプルのプール内において,参加者に異なる基準資料の認識を依頼する大規模行動実験を行った。 異なる実験では、刺激の周波数領域の情報を慎重にサンプリングする。 解析結果から,参照と候補の両方について,幾何学と照明との間に有意な一階間相互作用がみられた。 また,単純な画像統計と高次画像ヒストグラムは,人間のパフォーマンスと相関しないことを示した。 そこで本研究では,深層ニューラルネットワークを材料認識タスクで訓練することにより,高非線形統計の高レベル比較を行う。 以上の結果から,これらのモデルでは材料を正確に分類することができ,ラベル付き近位画像データから材料外観の有意義な表現を定義できることが示唆された。 最後に、これらの高非線形モデルと人間は、物質認識タスクに同様の高レベル要素を使用する可能性があるという予備的な証拠を見出した。

Observing and recognizing materials is a fundamental part of our daily life. Under typical viewing conditions, we are capable of effortlessly identifying the objects that surround us and recognizing the materials they are made of. Nevertheless, understanding the underlying perceptual processes that take place to accurately discern the visual properties of an object is a long-standing problem. In this work, we perform a comprehensive and systematic analysis of how the interplay of geometry, illumination, and their spatial frequencies affects human performance on material recognition tasks. We carry out large-scale behavioral experiments where participants are asked to recognize different reference materials among a pool of candidate samples. In the different experiments, we carefully sample the information in the frequency domain of the stimuli. From our analysis, we find significant first-order interactions between the geometry and the illumination, of both the reference and the candidates. In addition, we observe that simple image statistics and higher-order image histograms do not correlate with human performance. Therefore, we perform a high-level comparison of highly non-linear statistics by training a deep neural network on material recognition tasks. Our results show that such models can accurately classify materials, which suggests that they are capable of defining a meaningful representation of material appearance from labeled proximal image data. Last, we find preliminary evidence that these highly non-linear models and humans may use similar high-level factors for material recognition tasks.
翻訳日:2021-04-10 13:46:23 公開日:2021-02-04
# 強化コンタクトトラクションとエピデミック・インターベンション

Reinforced Contact Tracing and Epidemic Intervention ( http://arxiv.org/abs/2102.08251v1 )

ライセンス: Link先を確認
Tao Feng, Sirui Song, Tong Xia, Yong Li(参考訳) 新型コロナウイルスの流行は、人々の生活に深刻な脅威をもたらす。 エピデミックコントロール戦略は、人間の毎日の通勤を遮断することで経済に打撃を与えている。 本稿では,感染の最小化と移動介入のコストを両立できるスマートな流行対策戦略を探索するために,個別の強化学習型流行防止剤 (idrleca) を開発した。 IDRLECAはまず感染確率モデルを使用し、各個体の現在の感染確率を算出する。 そして、その感染確率と個人の健康状態および移動情報とを新規gnnに供給して、ヒトとの接触を介してウイルスの拡散を推定する。 推定リスクは、RLエージェントを更に支援し、個別レベルの疫病対策を選択するために使用される。 IDRLECAのトレーニングは、モビリティ介入のコストと疫病対策の効果の両方を考慮して特別に設計された報酬関数によって導かれる。 さらに,その難易度を軽減し,探索効率をさらに向上させる制御行動選択の制約を設計する。 大規模な実験の結果、IDRLECAは感染を非常に低レベルに抑制し、95%以上の人体移動を維持できることが示された。

The recent outbreak of COVID-19 poses a serious threat to people's lives. Epidemic control strategies have also caused damage to the economy by cutting off humans' daily commute. In this paper, we develop an Individual-based Reinforcement Learning Epidemic Control Agent (IDRLECA) to search for smart epidemic control strategies that can simultaneously minimize infections and the cost of mobility intervention. IDRLECA first hires an infection probability model to calculate the current infection probability of each individual. Then, the infection probabilities together with individuals' health status and movement information are fed to a novel GNN to estimate the spread of the virus through human contacts. The estimated risks are used to further support an RL agent to select individual-level epidemic-control actions. The training of IDRLECA is guided by a specially designed reward function considering both the cost of mobility intervention and the effectiveness of epidemic control. Moreover, we design a constraint for control-action selection that eases its difficulty and further improve exploring efficiency. Extensive experimental results demonstrate that IDRLECA can suppress infections at a very low level and retain more than 95% of human mobility.
翻訳日:2021-04-05 00:33:22 公開日:2021-02-04
# LIDARデータを用いたフェデレートmm波ビーム選択

Federated mmWave Beam Selection Utilizing LIDAR Data ( http://arxiv.org/abs/2102.02802v1 )

ライセンス: Link先を確認
Mahdi Boloursaz Mashhadi, Mikolaj Jankowski, Tze-Yang Tung, Szymon Kobus, and Deniz Gunduz(参考訳) ミリ波 (mmWave) 通信システムにおける効率的なリンク構成は, ビーム選択によるネットワーク性能のオーバーヘッドのため, 重要かつ困難な課題である。 車両間ネットワーク(V2I)では、車両に搭載されたLIDARセンサーの側情報を利用してビームサーチのオーバーヘッドを低減する。 本稿では,v2imm波通信システムのための分散lidar支援ビーム選択手法を提案する。 提案手法では、コネクテッドカーが協調して、システム正常動作中に、ローカルで利用可能なLIDARデータに基づいて共有ニューラルネットワーク(NN)を訓練する。 また,CNNアーキテクチャとLIDARプリプロセッシングの代替として,性能と複雑さの両面で,従来よりも大幅に優れていた,より複雑な畳み込みNN(CNN)アーキテクチャを提案する。

Efficient link configuration in millimeter wave (mmWave) communication systems is a crucial yet challenging task due to the overhead imposed by beam selection on the network performance. For vehicle-to-infrastru cture (V2I) networks, side information from LIDAR sensors mounted on the vehicles has been leveraged to reduce the beam search overhead. In this letter, we propose distributed LIDAR aided beam selection for V2I mmWave communication systems utilizing federated training. In the proposed scheme, connected vehicles collaborate to train a shared neural network (NN) on their locally available LIDAR data during normal operation of the system. We also propose an alternative reduced-complexity convolutional NN (CNN) architecture and LIDAR preprocessing, which significantly outperforms previous works in terms of both the performance and the complexity.
翻訳日:2021-04-05 00:29:50 公開日:2021-02-04
# 説明し 予測し 再び予測します

Explain and Predict, and then Predict Again ( http://arxiv.org/abs/2101.04109v2 )

ライセンス: Link先を確認
Zijian Zhang, Koustav Rudra, Avishek Anand(参考訳) 学習システムの望ましい特性は、効果的かつ解釈可能であることである。 この目的に向けて、入力テキストから抽出された説明をまず生成し、説明-then-predict modelと呼ばれる説明のみに基づいて予測を生成する、最近のモデルが提案されている。 これらのモデルは、主に抽出説明を学ぶ際の監督信号としてタスク入力を考慮し、有理化データを追加の帰納的バイアスとして効果的に統合しない。 我々は,説明生成フェーズにおけるマルチタスク学習を効果的にトレードオフ説明と予測損失に活用する,新しいシンプルなアプローチであるExPredを提案する。 そして、抽出した説明だけで別の予測ネットワークを使用してタスク性能を最適化する。 我々は、ファクト検証、感情分類、qaという3つの多様な言語データセットに対するアプローチを広範囲に評価し、既存のアプローチを実質的に上回っていることを見出します。

A desirable property of learning systems is to be both effective and interpretable. Towards this goal, recent models have been proposed that first generate an extractive explanation from the input text and then generate a prediction on just the explanation called explain-then-predict models. These models primarily consider the task input as a supervision signal in learning an extractive explanation and do not effectively integrate rationales data as an additional inductive bias to improve task performance. We propose a novel yet simple approach ExPred, that uses multi-task learning in the explanation generation phase effectively trading-off explanation and prediction losses. And then we use another prediction network on just the extracted explanations for optimizing the task performance. We conduct an extensive evaluation of our approach on three diverse language datasets -- fact verification, sentiment classification, and QA -- and find that we substantially outperform existing approaches.
翻訳日:2021-04-04 14:52:32 公開日:2021-02-04
# オンデバイスモデルのロバスト性:Androidアプリのディープラーニングモデルに対する敵対的攻撃

Robustness of on-device Models: Adversarial Attack to Deep Learning Models on Android Apps ( http://arxiv.org/abs/2101.04401v2 )

ライセンス: Link先を確認
Yujin Huang, Han Hu, Chunyang Chen(参考訳) ディープラーニングは、画像中のオブジェクト検出、自然言語理解、音声認識など、多くのアプリケーションでその力を示しています。 エンドユーザがアクセスしやすくするために、モバイルアプリに多くのディープラーニングモデルが組み込まれている。 スマートフォンからクラウドへのディープラーニングのオフロードと比較すると、デバイス上でのマシンラーニングの実行は、レイテンシ、接続性、消費電力の向上に役立つ。 しかし、Androidアプリ内のディープラーニングモデルのほとんどは、成熟したリバースエンジニアリングによって簡単に取得できる。 本研究では、TensorFlow Hubから、非常に類似したトレーニング済みモデルを特定し、敵攻撃を用いてディープラーニングモデルをハックする、単純だが効果的なアプローチを提案する。 実験中の10の現実世界のAndroidアプリはすべて、私たちのアプローチによって攻撃されています。 モデル攻撃の可能性とは別に、Google Play上で何百ものAndroidアプリが使用しているディープラーニングモデルの特徴を調査する実証的研究も実施している。 その結果,これらの多くは相互に類似しており,インターネット上で事前学習されたモデルにファインチューニング技術が広く使用されていることがわかった。

Deep learning has shown its power in many applications, including object detection in images, natural-language understanding, and speech recognition. To make it more accessible to end users, many deep learning models are now embedded in mobile apps. Compared to offloading deep learning from smartphones to the cloud, performing machine learning on-device can help improve latency, connectivity, and power consumption. However, most deep learning models within Android apps can easily be obtained via mature reverse engineering, while the models' exposure may invite adversarial attacks. In this study, we propose a simple but effective approach to hacking deep learning models using adversarial attacks by identifying highly similar pre-trained models from TensorFlow Hub. All 10 real-world Android apps in the experiment are successfully attacked by our approach. Apart from the feasibility of the model attack, we also carry out an empirical study that investigates the characteristics of deep learning models used by hundreds of Android apps on Google Play. The results show that many of them are similar to each other and widely use fine-tuning techniques to pre-trained models on the Internet.
翻訳日:2021-04-04 01:30:52 公開日:2021-02-04
# 最も厳密なまま生き残る:部分的情報を用いた正規化学習における安定かつ不安定な均衡

Survival of the strictest: Stable and unstable equilibria under regularized learning with partial information ( http://arxiv.org/abs/2101.04667v2 )

ライセンス: Link先を確認
Angeliki Giannou, Emmanouil-Vasileios Vlatakis-Gkaragkouni s, Panayotis Mertikopoulos(参考訳) 本稿では,N-プレイヤゲームにおける非回帰学習のナッシュ平衡収束特性について検討する。 具体的には、私たちは正規化リーダ(regularized leader, ftrl)のアルゴリズムに従う原型にフォーカスし、プレイヤーが遭遇する可能性のある不確実性(ノイズ、オラクルベースのフィードバック、バンディット、ペイオフベースの情報など)のスペクトルを十分に考慮しています。 この一般的な文脈では、ナッシュ均衡の安定性とその支持の間に包括的な等価性を確立する:ナッシュ均衡は安定であり、それが厳密である場合(すなわち、各均衡戦略が一意の最良の応答を持つ)に限り、任意に高い確率で引き寄せられる。 この等価性は、進化ゲーム理論のフォーク定理の既存の連続時間版をbona fideアルゴリズムによる学習設定に拡張し、ゲームにおける非回帰学習の日々の行動予測のための明確な洗練基準を提供する。

In this paper, we examine the Nash equilibrium convergence properties of no-regret learning in general N-player games. For concreteness, we focus on the archetypal follow the regularized leader (FTRL) family of algorithms, and we consider the full spectrum of uncertainty that the players may encounter - from noisy, oracle-based feedback, to bandit, payoff-based information. In this general context, we establish a comprehensive equivalence between the stability of a Nash equilibrium and its support: a Nash equilibrium is stable and attracting with arbitrarily high probability if and only if it is strict (i.e., each equilibrium strategy has a unique best response). This equivalence extends existing continuous-time versions of the folk theorem of evolutionary game theory to a bona fide algorithmic learning setting, and it provides a clear refinement criterion for the prediction of the day-to-day behavior of no-regret learning in games
翻訳日:2021-04-04 01:30:07 公開日:2021-02-04
# アクティブ高周波トレーディングのための深部強化学習

Deep Reinforcement Learning for Active High Frequency Trading ( http://arxiv.org/abs/2101.07107v2 )

ライセンス: Link先を確認
Antonio Briola, Jeremy Turiel, Riccardo Marcaccioli, Tomaso Aste(参考訳) アクティブな高周波取引のための,DRL(Deep Reinforcement Learning)ベースのフレームワークについて紹介する。 我々はDRLエージェントを訓練し、Pximal Policy Optimizationアルゴリズムを用いてIntel Corporation株の1ユニットを取引する。 訓練は、前月が検証データを構成する高頻度リミット・オーダー・ブックデータの3つの連続した月に対して行われる。 トレーニングデータにおける信号対雑音比を最大化するために,最大価格変化のあるトレーニングサンプルのみを選択することで,後者を構成する。 テストは翌月のデータで実施される。 ハイパーパラメータはシーケンシャルモデルに基づく最適化技術を用いて調整される。 LOBのメタ機能が異なる3つの状態特徴について考察する。 テストデータ上でエージェントのパフォーマンスを分析することで、エージェントは基盤となる環境の動的な表現を作成できると主張している。 彼らは、データに時折存在する正規性を識別し、長期の利益をもたらす取引戦略を作成するためにそれらを利用する。 実際、エージェントは高い確率的かつ非定常な環境にもかかわらず、安定したポジティブなリターンを生み出すことができる取引戦略を学ぶ。

We introduce the first end-to-end Deep Reinforcement Learning (DRL) based framework for active high frequency trading. We train DRL agents to trade one unit of Intel Corporation stock by employing the Proximal Policy Optimization algorithm. The training is performed on three contiguous months of high frequency Limit Order Book data, of which the last month constitutes the validation data. In order to maximise the signal to noise ratio in the training data, we compose the latter by only selecting training samples with largest price changes. The test is then carried out on the following month of data. Hyperparameters are tuned using the Sequential Model Based Optimization technique. We consider three different state characterizations, which differ in their LOB-based meta-features. Analysing the agents' performances on test data, we argue that the agents are able to create a dynamic representation of the underlying environment. They identify occasional regularities present in the data and exploit them to create long-term profitable trading strategies. Indeed, agents learn trading strategies able to produce stable positive returns in spite of the highly stochastic and non-stationary environment.
翻訳日:2021-03-27 06:02:55 公開日:2021-02-04
# TCLR:ビデオ表現のための時間的コントラスト学習

TCLR: Temporal Contrastive Learning for Video Representation ( http://arxiv.org/abs/2101.07974v2 )

ライセンス: Link先を確認
Ishan Dave, Rohit Gupta, Mamshad Nayeem Rizve and Mubarak Shah(参考訳) コントラスト学習は、イメージ表現の教師付き学習と自己監督型学習のギャップをほとんど埋めてきた。 しかし、ビデオデータの領域に対するコントラスト学習の既存の拡張は、ビデオクリップの時間的次元を越えて内部的特徴を明示的に表現しようとはしていない。 2つの新たな損失からなる時間的コントラスト学習フレームワークを開発し、既存のコントラスト的自己監督型ビデオ表現学習法を改善する。 第1の損失は、同じビデオから重複しないクリップを区別するタスクを追加し、第2の損失は、特徴の時間的多様性を高めるために、入力クリップの特徴マップの時間ステップを判別することを目的としている。 時間的コントラスト学習は、アクション認識、限定ラベルアクション分類、複数の3次元CNNアーキテクチャ上のビデオデータセットの最も近いビデオ検索などの下流ビデオ理解タスクにおいて、最先端の成果よりも大幅に向上する。 一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)、隣接するビデオ検索で56.2%(+11.7%)のTop-1リコールを達成した。

Contrastive learning has nearly closed the gap between supervised and self-supervised learning of image representations. Existing extensions of contrastive learning to the domain of video data however do not explicitly attempt to represent the internal distinctiveness across the temporal dimension of video clips. We develop a new temporal contrastive learning framework consisting of two novel losses to improve upon existing contrastive self-supervised video representation learning methods. The first loss adds the task of discriminating between non-overlapping clips from the same video, whereas the second loss aims to discriminate between timesteps of the feature map of an input clip in order to increase the temporal diversity of the features. Temporal contrastive learning achieves significant improvement over the state-of-the-art results in downstream video understanding tasks such as action recognition, limited-label action classification, and nearest-neighbor video retrieval on video datasets across multiple 3D CNN architectures. With the commonly used 3D-ResNet-18 architecture, we achieve 82.4% (+5.1% increase over the previous best) top-1 accuracy on UCF101 and 52.9% (+5.4% increase) on HMDB51 action classification, and 56.2% (+11.7% increase) Top-1 Recall on UCF101 nearest neighbor video retrieval.
翻訳日:2021-03-22 01:25:14 公開日:2021-02-04
# エピソードのランク付け:手続き的生成環境における探索のための簡単なアプローチ

Rank the Episodes: A Simple Approach for Exploration in Procedurally-Generat ed Environments ( http://arxiv.org/abs/2101.08152v2 )

ライセンス: Link先を確認
Daochen Zha, Wenye Ma, Lei Yuan, Xia Hu, Ji Liu(参考訳) スパース報酬の下での探索は、モデルなし強化学習の長年にわたる課題である。 state-of-the-artメソッドは、新しい状態や不確定な環境ダイナミクスの探求を促進するために内在的な報酬を導入することで、この課題に対処している。 残念ながら、本態的な報酬に基づく手法は、各エピソードで異なる環境が生成され、エージェントが1回以上同じ状態を訪れないような手続き的に生成された環境では、しばしば不足する。 RAPIDは, 手続き的に生成した環境に対して, 単純かつ効果的なエピソードレベルの探索手法である。 ラピッドは各エピソード全体を概観し、各エピソードごとに長期的な視点からエピソディックな探索スコアを与える。 これらの高得点エピソードは良好な探索行動として扱われ、小さなランキングバッファに格納される。 エージェントはバッファ内のエピソードを模倣して過去の良好な探索行動を再現する。 提案手法は, 手続き的に生成したMiniGrid環境とMiniWorldからの1対1の3D Mazeナビゲーションタスクと, スパースなMuJoCoタスクについて実証する。 その結果、RAPIDはサンプル効率と最終性能の点で最先端の固有報酬戦略を著しく上回っていることがわかった。 コードはhttps://github.com/d aochenzha/rapidで入手できる。

Exploration under sparse reward is a long-standing challenge of model-free reinforcement learning. The state-of-the-art methods address this challenge by introducing intrinsic rewards to encourage exploration in novel states or uncertain environment dynamics. Unfortunately, methods based on intrinsic rewards often fall short in procedurally-generat ed environments, where a different environment is generated in each episode so that the agent is not likely to visit the same state more than once. Motivated by how humans distinguish good exploration behaviors by looking into the entire episode, we introduce RAPID, a simple yet effective episode-level exploration method for procedurally-generat ed environments. RAPID regards each episode as a whole and gives an episodic exploration score from both per-episode and long-term views. Those highly scored episodes are treated as good exploration behaviors and are stored in a small ranking buffer. The agent then imitates the episodes in the buffer to reproduce the past good exploration behaviors. We demonstrate our method on several procedurally-generat ed MiniGrid environments, a first-person-view 3D Maze navigation task from MiniWorld, and several sparse MuJoCo tasks. The results show that RAPID significantly outperforms the state-of-the-art intrinsic reward strategies in terms of sample efficiency and final performance. The code is available at https://github.com/d aochenzha/rapid
翻訳日:2021-03-22 01:21:04 公開日:2021-02-04
# ドメインAPIを超えて:DSTC9の非構造化知識アクセストラックを用いたタスク指向会話モデリング

Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access Track in DSTC9 ( http://arxiv.org/abs/2101.09276v3 )

ライセンス: Link先を確認
Seokhwan Kim, Mihail Eric, Behnam Hedayatnia, Karthik Gopalakrishnan, Yang Liu, Chao-Wei Huang, Dilek Hakkani-Tur(参考訳) タスク指向の対話システムに関するこれまでの作業は、ドメインAPIの限定的なカバレッジに制限されている。 この課題トラックは、外部の非構造化知識ソースを組み込むことで、タスク指向対話システムの範囲を広げることを目的としている。 知識探索型ターン検出,知識選択,知識接地型応答生成の3つのタスクを定義した。 3つのタスクのためのデータセットとニューラルベースラインモデルを導入する。 チャレンジトラックは24チームから合計105のエントリーを受けた。 評価の結果,異なる大規模事前学習言語モデルを用いたアンサンブル法は,知識選択能力の向上と未知のデータへの一般化により高い性能を実現した。

Most prior work on task-oriented dialogue systems are restricted to a limited coverage of domain APIs, while users oftentimes have domain related requests that are not covered by the APIs. This challenge track aims to expand the coverage of task-oriented dialogue systems by incorporating external unstructured knowledge sources. We define three tasks: knowledge-seeking turn detection, knowledge selection, and knowledge-grounded response generation. We introduce the data sets and the neural baseline models for three tasks. The challenge track received a total of 105 entries from 24 participating teams. In the evaluation results, the ensemble methods with different large-scale pretrained language models achieved high performances with improved knowledge selection capability and better generalization into unseen data.
翻訳日:2021-03-20 17:26:14 公開日:2021-02-04
# PEマルウェア検出のための新しいDLアプローチ:Gloveベクター化、MCC_RCNN、特徴融合

A novel DL approach to PE malware detection: exploring Glove vectorization, MCC_RCNN and feature fusion ( http://arxiv.org/abs/2101.08969v3 )

ライセンス: Link先を確認
Yuzhou Lin(参考訳) 近年、マルウェアの脅威が高まっている。 マルウェアの変種の増加に関して、機械学習(ml)ベースとディープラーニング(dl)ベースのヒューリスティック検出のアプローチがある。 それでも、両者の予測精度は向上する必要がある。 PEマルウェア領域における上記の問題に対して,我々は,モデルに入力された静的機能の検出と利用のためのDLベースのアプローチを提案する。 コントリビューションは以下のとおりである。 既存のマルウェア検出手法を再カプセル化する。 すなわち,Glove に基づくマルウェアの命令層と意味層のvec-torized表現モデルを提案する。 我々は、CNNとRNNを組み合わせたMCC_RCNN(Malware Detection and Recurrent Convolutional Neural Network)と呼ばれるニューラルネットワークモデルを実装した。 さらに,静的な動作レベルにおける特徴融合について記述する。 提案手法は,Glove-based vectoriza-tion, MCC_RCNN-based classification method, and feature fusion stageに対するいくつかの比較実験から得られた数値結果により,他のベースライン法よりも高い予測精度を得ることができる。

In recent years, malware becomes more threatening. Concerning the increasing malware variants, there comes Machine Learning (ML)-based and Deep Learning (DL)-based approaches for heuristic detection. Nevertheless, the prediction accuracy of both needs to be improved. In response to the above issues in the PE malware domain, we propose the DL-based approaches for detection and use static-based features fed up into models. The contributions are as follows: we recapitulate existing malware detection methods. That is, we propose a vec-torized representation model of the malware instruction layer and semantic layer based on Glove. We implement a neural network model called MCC_RCNN (Malware Detection and Recurrent Convolutional Neural Network), comprising of the combination with CNN and RNN. Moreover, we provide a description of feature fusion in static behavior levels. With the numerical results generated from several comparative experiments towards evaluating the Glove-based vectoriza-tion, MCC_RCNN-based classification methodology and feature fusion stages, our proposed classification methods can obtain a higher prediction accuracy than the other baseline methods.
翻訳日:2021-03-20 17:16:41 公開日:2021-02-04
# (参考訳) 非等方性ランダムテンソルの学習と経験的リスク最小化への応用

Concentration of Non-Isotropic Random Tensors with Applications to Learning and Empirical Risk Minimization ( http://arxiv.org/abs/2102.04259v1 )

ライセンス: CC BY 4.0
Mathieu Even and Laurent Massouli\'e(参考訳) ディメンジョンは、最適化手法がデータのサイズに悩まされる現代の学習タスクに固有のボトルネックである。 本稿では,データの非等方的分布を考察し,環境よりも有効次元に依存して,これらの次元コストを削減するツールを開発する。 無限次元に一般化することを証明した楕円体の計量エントロピーの非漸近的推定と連鎖論に基づいて、我々の一様濃度境界は、大域次元の代わりに有効次元を伴い、既存の結果よりも改善される。 i) 通信効率のよい分散最適化のための統計的前提条件付けにおける最先端結果の改善, ii) 非スムース最適化のための非等方性ランダム化平滑化について紹介する。 どちらの応用も、線形モデルに対する経験的リスク最小化(ERM)を含む関数のクラスをカバーする。

Dimension is an inherent bottleneck to some modern learning tasks, where optimization methods suffer from the size of the data. In this paper, we study non-isotropic distributions of data and develop tools that aim at reducing these dimensional costs by a dependency on an effective dimension rather than the ambient one. Based on non-asymptotic estimates of the metric entropy of ellipsoids -- that prove to generalize to infinite dimensions -- and on a chaining argument, our uniform concentration bounds involve an effective dimension instead of the global dimension, improving over existing results. We show the importance of taking advantage of non-isotropic properties in learning problems with the following applications: i) we improve state-of-the-art results in statistical preconditioning for communication-effici ent distributed optimization, ii) we introduce a non-isotropic randomized smoothing for non-smooth optimization. Both applications cover a class of functions that encompasses empirical risk minization (ERM) for linear models.
翻訳日:2021-02-11 05:04:09 公開日:2021-02-04
# (参考訳) twitter上の悪意ある政治活動を検出するためのハイレベルアプローチ

High-level Approaches to Detect Malicious Political Activity on Twitter ( http://arxiv.org/abs/2102.04293v1 )

ライセンス: CC BY 4.0
Miguel Sozinho Ramalho(参考訳) 我々の研究は、現在まで続く政治的操作活動の検出と防止の新たなステップを表している。 それゆえ、私たちは最先端のアプローチに何が欠けているのかを理解することに集中し始めます。 我々は,現在の文献の問題点を考察し,分岐する道をたどる。 特に、悪意のある操作の影響を受けにくいデータ機能の使用に重点を置くこと、また、容易でインパクトの少ないケースに偏った粒度レベルを避けるための高レベルのアプローチにも注目すること。 私たちは、構造化されたTwitterデータ収集を実行するフレームワーク -- Twitter Watch -- を設計、実装し、ポルトガルのTwitter圏に適用しました。 2020年5月、約500万アカウントと1億2000万ツイートというデータスナップショットを調査した(この値はその後1億7500万件に増加した)。 分析期間は2019年8月から2020年5月までで、2019年10月6日のポルトガル総選挙に焦点が当てられている。 しかし、Covid-19のパンデミックは私たちのデータに現れ、Twitterの典型的な行動にどう影響するかも調べました。 コンテンツ指向、メタデータ指向、ネットワークインタラクション指向の3つの主要なアプローチを実施しました。 twitterのサスペンションパターンは、ポルトガルのtwitter界で見られる政治的トロール(この仕事と独立した仲間によって特定される)や、偽ニュース投稿アカウントには適していないことが分かりました。 また、個別に集めた異なる種類の悪意のあるアカウントは、2つの異なる分析を通してコンテンツと相互作用の両面で非常によく似ており、同時に通常のアカウントと非常に異なると推測した。

Our work represents another step into the detection and prevention of these ever-more present political manipulation efforts. We, therefore, start by focusing on understanding what the state-of-the-art approaches lack -- since the problem remains, this is a fair assumption. We find concerning issues within the current literature and follow a diverging path. Notably, by placing emphasis on using data features that are less susceptible to malicious manipulation and also on looking for high-level approaches that avoid a granularity level that is biased towards easy-to-spot and low impact cases. We designed and implemented a framework -- Twitter Watch -- that performs structured Twitter data collection, applying it to the Portuguese Twittersphere. We investigate a data snapshot taken on May 2020, with around 5 million accounts and over 120 million tweets (this value has since increased to over 175 million). The analyzed time period stretches from August 2019 to May 2020, with a focus on the Portuguese elections of October 6th, 2019. However, the Covid-19 pandemic showed itself in our data, and we also delve into how it affected typical Twitter behavior. We performed three main approaches: content-oriented, metadata-oriented, and network interaction-oriented . We learn that Twitter's suspension patterns are not adequate to the type of political trolling found in the Portuguese Twittersphere -- identified by this work and by an independent peer - nor to fake news posting accounts. We also surmised that the different types of malicious accounts we independently gathered are very similar both in terms of content and interaction, through two distinct analysis, and are simultaneously very distinct from regular accounts.
翻訳日:2021-02-09 20:02:28 公開日:2021-02-04
# (参考訳) 公益のためのAI開発:抽象的トラップから社会技術的リスクへ [全文訳有]

AI Development for the Public Interest: From Abstraction Traps to Sociotechnical Risks ( http://arxiv.org/abs/2102.04255v1 )

ライセンス: CC BY 4.0
McKane Andrus, Sarah Dean, Thomas Krendl Gilbert, Nathan Lambert, Tom Zick(参考訳) 公益技術(Public Interest Technology, PIT)の目標を達成するために、学部のカリキュラム内で倫理的問題や社会的文脈を伝えることに関心があるにもかかわらず、大学院レベルの介入はほとんど未調査のままである。 これは、異なる人工知能(AI)研究が社会的文脈とのインターフェースを意図的に追跡する相反する方法による可能性があります。 本稿では,AI研究の3つの分野,AI Safety,Fair Machine Learning (Fair ML),Human-in-the-Loo p (HIL) Autonomyにおける社会技術探究の歴史的出現を追究する。 各サブフィールドにおいて、PITの認識は、規範的社会秩序における技術的システムの統合が直面する特定の危険に起因していることを示す。 さらに、これらの歴史は、科学技術研究文献で定義されている概念的なトラップに対する各サブフィールドの応答を指示する方法を解釈します。 最後に、現在サイロ化されている分野の比較分析を通じて、AIにおける社会技術大学院教育への統一的アプローチのロードマップを提示する。

Despite interest in communicating ethical problems and social contexts within the undergraduate curriculum to advance Public Interest Technology (PIT) goals, interventions at the graduate level remain largely unexplored. This may be due to the conflicting ways through which distinct Artificial Intelligence (AI) research tracks conceive of their interface with social contexts. In this paper we track the historical emergence of sociotechnical inquiry in three distinct subfields of AI research: AI Safety, Fair Machine Learning (Fair ML) and Human-in-the-Loop (HIL) Autonomy. We show that for each subfield, perceptions of PIT stem from the particular dangers faced by past integration of technical systems within a normative social order. We further interrogate how these histories dictate the response of each subfield to conceptual traps, as defined in the Science and Technology Studies literature. Finally, through a comparative analysis of these currently siloed fields, we present a roadmap for a unified approach to sociotechnical graduate pedagogy in AI.
翻訳日:2021-02-09 19:52:46 公開日:2021-02-04
# (参考訳) 1ビットAdam:Adamの収束速度によるコミュニケーション効率の高い大規模トレーニング [全文訳有]

1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed ( http://arxiv.org/abs/2102.02888v1 )

ライセンス: CC0 1.0
Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He(参考訳) 大規模モデル(BERTやGPT-3など)のスケーラブルなトレーニングには、モデル設計、アーキテクチャ、システム機能に根ざした慎重な最適化が必要です。 システムの観点からは、通信は特にネットワーク帯域幅が限られている標準TCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。 通信圧縮は、そのようなシステムの訓練時間を短縮する重要な技術である。 最も効果的な方法の1つは、1ビット圧縮下でも堅牢な収束速度を提供するエラー補償圧縮です。 しかし、最先端のエラー補償技術は、勾配に依存するsgdやmomentum sgdのような基本的な最適化器でのみ動作する。 bertのようなモデルに対して最先端の収束効率と精度を提供するadamのような非線形勾配に基づく最適化では動作しない。 本稿では,通信容量を最大5\times$に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。 我々の重要な発見は、アダムの分散(非線形項)が(ウォームアップフェーズの後)安定し、残りのトレーニング(圧縮フェーズ)の固定プレコンディションとして使用できることである。 最大256 gpu での実験では、1ビット adam は bert-large pre-training で最大3.3\times$、 squad fine-tuningで最大2.9\times$ high throughput となる。 また,提案する研究に対して理論的分析を行う。

Scalable training of large models (like BERT and GPT-3) requires careful optimization rooted in model design, architecture, and system capabilities. From a system standpoint, communication has become a major bottleneck, especially on commodity systems with standard TCP interconnects that offer limited network bandwidth. Communication compression is an important technique to reduce training time on such systems. One of the most effective methods is error-compensated compression, which offers robust convergence speed even under 1-bit compression. However, state-of-the-art error compensation techniques only work with basic optimizers like SGD and momentum SGD, which are linearly dependent on the gradients. They do not work with non-linear gradient-based optimizers like Adam, which offer state-of-the-art convergence efficiency and accuracy for models like BERT. In this paper, we propose 1-bit Adam that reduces the communication volume by up to $5\times$, offers much better scalability, and provides the same convergence speed as uncompressed Adam. Our key finding is that Adam's variance (non-linear term) becomes stable (after a warmup phase) and can be used as a fixed precondition for the rest of the training (compression phase). Experiments on up to 256 GPUs show that 1-bit Adam enables up to $3.3\times$ higher throughput for BERT-Large pre-training and up to $2.9\times$ higher throughput for SQuAD fine-tuning. In addition, we provide theoretical analysis for our proposed work.
翻訳日:2021-02-08 23:35:38 公開日:2021-02-04
# (参考訳) PredCoin:クエリベースのハードラベル攻撃に対する防御 [全文訳有]

PredCoin: Defense against Query-based Hard-label Attack ( http://arxiv.org/abs/2102.02923v1 )

ライセンス: CC BY 4.0
Junfeng Guo, Yaswanth Yadlapalli, Thiele Lothar, Ang Li, and Cong Liu(参考訳) 近年、Deep Neural Networks (DNN) では多くの敵対攻撃や防御が提案されている。 その多くは非現実的なホワイトボックス設定にあるが、新しいクエリベースのハードラベル(QBHL)のブラックボックス攻撃は、現実世界のアプリケーション(Google Cloud、Tencent APIなど)に重大な脅威をもたらす。 今のところ、このような攻撃から守るための汎用的で実践的なアプローチは提案されていない。 本稿では,QBHL攻撃に対する堅牢性を実現するための実用的で汎用的な方法であるPredCoinを提案し,評価する。 PredCoinは、ほとんどのQBHL攻撃の必須成分である勾配推定ステップを毒する。 PredCoinは攻撃者が作成した勾配推定クエリをうまく識別し、出力に不確実性を導入する。 大規模な実験によると、PredCoinはターゲットモデルの全体的な精度を保ちながら、さまざまな設定やタスクにわたる4つの最先端QBHL攻撃に対して成功している。 PredCoinはまた、PredCoinの内部メカニズムに関する完全な知識を持っているかもしれないいくつかの防衛認識攻撃に対して堅牢かつ効果的であることが示されています。

Many adversarial attacks and defenses have recently been proposed for Deep Neural Networks (DNNs). While most of them are in the white-box setting, which is impractical, a new class of query-based hard-label (QBHL) black-box attacks pose a significant threat to real-world applications (e.g., Google Cloud, Tencent API). Till now, there has been no generalizable and practical approach proposed to defend against such attacks. This paper proposes and evaluates PredCoin, a practical and generalizable method for providing robustness against QBHL attacks. PredCoin poisons the gradient estimation step, an essential component of most QBHL attacks. PredCoin successfully identifies gradient estimation queries crafted by an attacker and introduces uncertainty to the output. Extensive experiments show that PredCoin successfully defends against four state-of-the-art QBHL attacks across various settings and tasks while preserving the target model's overall accuracy. PredCoin is also shown to be robust and effective against several defense-aware attacks, which may have full knowledge regarding the internal mechanisms of PredCoin.
翻訳日:2021-02-08 22:49:22 公開日:2021-02-04
# (参考訳) 常識知識による汎用的ゼロショットインテント検出 [全文訳有]

Generalized Zero-shot Intent Detection via Commonsense Knowledge ( http://arxiv.org/abs/2102.02925v1 )

ライセンス: CC BY 4.0
A.B. Siddique, Fuad Jamour, Luxun Xu, Vagelis Hristidis(参考訳) 自然言語の発話からユーザーの意図を識別することは、教師付き分類問題として広く研究されている会話システムの重要なステップです。 しかし、実際には、意図検出モデルをデプロイした後に新しい意図が現れる。 したがって、これらのモデルでは、見えない意図と見えない意図の両方で発話をシームレスに適応させ、分類する必要があります。 この設定をターゲットとするいくつかの既存のモデルは、ほとんど利用可能なトレーニングデータに大きく依存し、目に見えない意図を持つ発話を見られない意図と誤分類するバイアスを引き起こします。 学習データ不足の問題を克服するために,教師なしの方法でコモンセンス知識を活用する意図検出モデル RIDE を提案する。 RIDEは、発話と意図ラベルの間の深い意味的関係をキャプチャする堅牢で一般化可能な関係メタ機能を計算します。 広く使用されている3つのインテント検出ベンチマークを広範囲に分析した結果,インテント検出の精度は,インテント検出の精度が有意に向上し,インテント検出の最先端モデルを上回ることがわかった。

Identifying user intents from natural language utterances is a crucial step in conversational systems that has been extensively studied as a supervised classification problem. However, in practice, new intents emerge after deploying an intent detection model. Thus, these models should seamlessly adapt and classify utterances with both seen and unseen intents -- unseen intents emerge after deployment and they do not have training data. The few existing models that target this setting rely heavily on the scarcely available training data and overfit to seen intents data, resulting in a bias to misclassify utterances with unseen intents into seen ones. We propose RIDE: an intent detection model that leverages commonsense knowledge in an unsupervised fashion to overcome the issue of training data scarcity. RIDE computes robust and generalizable relationship meta-features that capture deep semantic relationships between utterances and intent labels; these features are computed by considering how the concepts in an utterance are linked to those in an intent label via commonsense knowledge. Our extensive experimental analysis on three widely-used intent detection benchmarks shows that relationship meta-features significantly increase the accuracy of detecting both seen and unseen intents and that RIDE outperforms the state-of-the-art model for unseen intents.
翻訳日:2021-02-08 20:08:24 公開日:2021-02-04
# (参考訳) Illiterate Communitiesによる代表コーパスの構築:開発途上国の課題と緩和戦略の概観 [全文訳有]

Building Representative Corpora from Illiterate Communities: A Review of Challenges and Mitigation Strategies for Developing Countries ( http://arxiv.org/abs/2102.02841v1 )

ライセンス: CC BY 4.0
Stephanie Hirmer, Alycia Leonard, Josephine Tumwesige, Costanza Conforti(参考訳) 現在NLPで採用されているデータ収集手法の多くは、話者リテラシーの仮定に依存する。 その結果、収集されたコーポラは、社会で最も脆弱で弱体化した人々の一部であり、しばしば農村開発地域に住む傾向にある世界の人口の誓いをほとんど表現できません。 このような控えめなグループは、モデリングやシステム設計の決定を行う際に無視されるだけでなく、データ駆動型NLPによって達成された開発成果の恩恵を受けることも妨げられる。 そこで本稿は,低所得国における非識字率の高い農村部コミュニティのデータを収集する際に生じる潜在的なバイアスと倫理的課題を特定し,今後の作業を支援するための実践的緩和策を提案する。

Most well-established data collection methods currently adopted in NLP depend on the assumption of speaker literacy. Consequently, the collected corpora largely fail to represent swathes of the global population, which tend to be some of the most vulnerable and marginalised people in society, and often live in rural developing areas. Such underrepresented groups are thus not only ignored when making modeling and system design decisions, but also prevented from benefiting from development outcomes achieved through data-driven NLP. This paper aims to address the under-representation of illiterate communities in NLP corpora: we identify potential biases and ethical issues that might arise when collecting data from rural communities with high illiteracy rates in Low-Income Countries, and propose a set of practical mitigation strategies to help future work.
翻訳日:2021-02-08 17:32:19 公開日:2021-02-04
# (参考訳) 学習アルゴリズムにおけるアンダーフィッティングの不確定性 [全文訳有]

Undecidability of Underfitting in Learning Algorithms ( http://arxiv.org/abs/2102.02850v1 )

ライセンス: CC BY-SA 4.0
Sonia Sehra, David Flores, George D. Montanez(参考訳) 近年の機械学習の結果から,エンコード可能な学習アルゴリズムがデータセットに常に不適合であるかどうかを判断することは,無制限のトレーニング時間が与えられたとしても決定不可能であることを示す。 境界学習アルゴリズム適合のための情報理論および確率的戦略を含む、この結果の重要性とさらなる研究のための潜在的なトピックについて議論する。

Using recent machine learning results that present an information-theoreti c perspective on underfitting and overfitting, we prove that deciding whether an encodable learning algorithm will always underfit a dataset, even if given unlimited training time, is undecidable. We discuss the importance of this result and potential topics for further research, including information-theoreti c and probabilistic strategies for bounding learning algorithm fit.
翻訳日:2021-02-08 17:13:43 公開日:2021-02-04
# (参考訳) 圧縮物体検出 [全文訳有]

Compressed Object Detection ( http://arxiv.org/abs/2102.02896v1 )

ライセンス: CC BY 4.0
Gedeon Muhawenayo and Georgia Gkioxari(参考訳) ディープラーニングのアプローチは、オブジェクト検出やポーズ推定などの視覚認識タスクで前例のないパフォーマンスを達成しました。 しかし最先端のモデルは数百万のパラメータをフロートとして表現しており、計算コストが高く、携帯電話やiotノードなどのハードウェアへのデプロイを制限している。 最も一般的に、ディープニューラルネットワークの活性化は、モデルが冗長なニューロンでパラメトリ化されていることを証明しがちである。 PruningやQuantizationなどのモデル圧縮技術は、パフォーマンスの損失が少なく、モデルの複雑さを改善することで有望な結果を示しています。 本研究では,不必要なモデル接続を捨てる圧縮技術であるプルーニングを拡張し,オブジェクト検出作業のための重み共有技術を提案する。 提案手法では,性能を損なうことなく,最先端のオブジェクト検出モデルを30.0%圧縮することができる。 また, 既存の事前学習重みで圧縮モデルを容易に初期化でき, 最新モデルの動物園を十分に活用できることを示した。

Deep learning approaches have achieved unprecedented performance in visual recognition tasks such as object detection and pose estimation. However, state-of-the-art models have millions of parameters represented as floats which make them computationally expensive and constrain their deployment on hardware such as mobile phones and IoT nodes. Most commonly, activations of deep neural networks tend to be sparse thus proving that models are over parametrized with redundant neurons. Model compression techniques, such as pruning and quantization, have recently shown promising results by improving model complexity with little loss in performance. In this work, we extended pruning, a compression technique that discards unnecessary model connections, and weight sharing techniques for the task of object detection. With our approach, we are able to compress a state-of-the-art object detection model by 30.0% without a loss in performance. We also show that our compressed model can be easily initialized with existing pre-trained weights, and thus is able to fully utilize published state-of-the-art model zoos.
翻訳日:2021-02-08 17:05:31 公開日:2021-02-04
# (参考訳) MR画像を用いた腰椎椎間板形状再建のための畳み込みニューラルネットワークの逆ロバスト性検討 [全文訳有]

Adversarial Robustness Study of Convolutional Neural Network for Lumbar Disk Shape Reconstruction from MR images ( http://arxiv.org/abs/2102.02885v1 )

ライセンス: CC BY 4.0
Jiasong Chen, Linchen Qian, Timur Urakov, Weiyong Gu, Liang Liang(参考訳) ディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)を用いた機械学習技術は、多くのアプリケーションにおいて、自動化され、正確で、高速な医療画像分析を実現している。 進歩にもかかわらず、人間の専門家の医師と同じくらい信頼できるDNNを構築することは依然として困難です。 入力画像に少量のノイズを加えることで、DNN分類器はノイズ画像の間違った分類(すなわち、分布内逆検サンプル)を行うのに対して、クリーン画像の正しい分類を行う。 もう1つの問題は、トレーニングセットのどのサンプルと似ていない分散サンプルによって引き起こされる。 入力のようなサンプルがあれば、DNNの出力は無意味になります。 本研究では、腰椎MRI画像から腰椎椎椎間板形状再建のための代表的なCNNの分布内(IND)および分布外(OOD)対比堅牢性について検討した。 データセットサイズとIND敵攻撃の堅牢性の関係を調べるために,データ拡張法を用いて,異なるレベルの形状変化のトレーニングセットを作成する。 我々は PGD をベースとした IND 逆数攻撃アルゴリズムを用いて OOD 逆数攻撃に拡張し, モデルテストのための OOD 逆数サンプルを生成する。 その結果,ind攻撃に対するcnnのロバスト性が向上し,さらに大きなトレーニングデータセットがindのロバスト性が向上する可能性が示唆された。 しかし、それはまだOODの敵対的な攻撃から防御する挑戦です。

Machine learning technologies using deep neural networks (DNNs), especially convolutional neural networks (CNNs), have made automated, accurate, and fast medical image analysis a reality for many applications, and some DNN-based medical image analysis systems have even been FDA-cleared. Despite the progress, challenges remain to build DNNs as reliable as human expert doctors. It is known that DNN classifiers may not be robust to noises: by adding a small amount of noise to an input image, a DNN classifier may make a wrong classification of the noisy image (i.e., in-distribution adversarial sample), whereas it makes the right classification of the clean image. Another issue is caused by out-of-distribution samples that are not similar to any sample in the training set. Given such a sample as input, the output of a DNN will become meaningless. In this study, we investigated the in-distribution (IND) and out-of-distribution (OOD) adversarial robustness of a representative CNN for lumbar disk shape reconstruction from spine MR images. To study the relationship between dataset size and robustness to IND adversarial attacks, we used a data augmentation method to create training sets with different levels of shape variations. We utilized the PGD-based algorithm for IND adversarial attacks and extended it for OOD adversarial attacks to generate OOD adversarial samples for model testing. The results show that IND adversarial training can improve the CNN robustness to IND adversarial attacks, and larger training datasets may lead to higher IND robustness. However, it is still a challenge to defend against OOD adversarial attacks.
翻訳日:2021-02-08 17:02:00 公開日:2021-02-04
# (参考訳) 入れ子量子化と潜在順序付けによるプログレッシブニューラル画像圧縮 [全文訳有]

Progressive Neural Image Compression with Nested Quantization and Latent Ordering ( http://arxiv.org/abs/2102.02913v1 )

ライセンス: CC BY 4.0
Yadong Lu, Yinhao Zhu, Yang Yang, Amir Said, Taco S Cohen(参考訳) 本稿では,単一のビットストリームで品質のスケーラブルな符号化を可能にすることで,可変ビットレート圧縮の境界をプッシュするプログレッシブニューラル画像圧縮方式であるPLONQを提案する。 既存の学習可能な可変ビットレートソリューションとは対照的に、各品質で別々のビットストリームを生成するため、レート制御が容易になり、ストレージも少なくなる。 遅延スケーリングに基づく可変ビットレート解を応用し、ネスト量子化グリッドを用いて複数の量子化レベルを定義する方法であるネスト量子化を導入し、粗い量子化レベルから最も細かい量子化レベルまで、全ての潜時を段階的に洗練する。 任意の2つの量子化レベル間のより微妙な進行性を達成するために、潜伏要素は、レート歪曲感覚で定義された重要順序で漸進的に洗練される。 我々の知る限り、PLONQは最初の学習ベースのプログレッシブ画像符号化方式であり、よく知られたウェーブレットベースのプログレッシブ画像コーデックであるSPIHTより優れている。

We present PLONQ, a progressive neural image compression scheme which pushes the boundary of variable bitrate compression by allowing quality scalable coding with a single bitstream. In contrast to existing learned variable bitrate solutions which produce separate bitstreams for each quality, it enables easier rate-control and requires less storage. Leveraging the latent scaling based variable bitrate solution, we introduce nested quantization, a method that defines multiple quantization levels with nested quantization grids, and progressively refines all latents from the coarsest to the finest quantization level. To achieve finer progressiveness in between any two quantization levels, latent elements are incrementally refined with an importance ordering defined in the rate-distortion sense. To the best of our knowledge, PLONQ is the first learning-based progressive image coding scheme and it outperforms SPIHT, a well-known wavelet-based progressive image codec.
翻訳日:2021-02-08 15:50:07 公開日:2021-02-04
# (参考訳) Alchemy:メタ強化学習のための構造化タスク分布 [全文訳有]

Alchemy: A structured task distribution for meta-reinforcement learning ( http://arxiv.org/abs/2102.02926v1 )

ライセンス: CC BY 4.0
Jane X. Wang, Michael King, Nicolas Porcel, Zeb Kurth-Nelson, Tina Zhu, Charlie Deck, Peter Choy, Mary Cassin, Malcolm Reynolds, Francis Song, Gavin Buttimore, David P. Reichert, Neil Rabinowitz, Loic Matthey, Demis Hassabis, Alexander Lerchner, Matthew Botvinick(参考訳) 強化学習の柔軟性とサンプル効率を高める方法としてメタ学習への関心が急速に高まっている。 しかし、この研究領域の1つの問題は、適切なベンチマークタスクが不足していることである。 一般に、過去のベンチマークの基盤となる構造は、本質的に興味をそそるには単純すぎるか、原則分析をサポートするには不明確すぎるかのどちらかである。 本稿では,構造的豊かさと構造的透明性を組み合わせたメタrl研究の新しいベンチマークを紹介する。 AlchemyはUnityで実装された3Dビデオゲームで、エピソードからエピソードに段階的に再サンプリングされる潜伏因果関係構造を含み、構造学習、オンライン推論、仮説テスト、および抽象ドメイン知識に基づくアクションシークエンスを可能にする。 Alchemy上の強力なRLエージェントのペアを評価し、これらのエージェントの1つを詳細に分析します。 結果は、メタラーニングの率直で具体的な失敗を明確に示し、メタRLの難しいベンチマークとしてAlchemyの検証を提供します。 このレポートと並行して、Alchemyを公開リソースとして、分析ツールやサンプルエージェントのトラジェクトリとともにリリースしています。

There has been rapidly growing interest in meta-learning as a method for increasing the flexibility and sample efficiency of reinforcement learning. One problem in this area of research, however, has been a scarcity of adequate benchmark tasks. In general, the structure underlying past benchmarks has either been too simple to be inherently interesting, or too ill-defined to support principled analysis. In the present work, we introduce a new benchmark for meta-RL research, which combines structural richness with structural transparency. Alchemy is a 3D video game, implemented in Unity, which involves a latent causal structure that is resampled procedurally from episode to episode, affording structure learning, online inference, hypothesis testing and action sequencing based on abstract domain knowledge. We evaluate a pair of powerful RL agents on Alchemy and present an in-depth analysis of one of these agents. Results clearly indicate a frank and specific failure of meta-learning, providing validation for Alchemy as a challenging benchmark for meta-RL. Concurrent with this report, we are releasing Alchemy as public resource, together with a suite of analysis tools and sample agent trajectories.
翻訳日:2021-02-08 15:23:33 公開日:2021-02-04
# Dense over-Parameterizatio nは本当に必要ですか? スパーストレーニングにおける時間過度パラメータ化

Do We Actually Need Dense Over-Parameterizatio n? In-Time Over-Parameterizatio n in Sparse Training ( http://arxiv.org/abs/2102.02887v1 )

ライセンス: Link先を確認
Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy(参考訳) 本稿では、スパーストレーニングにおけるIn-Time Over-Parameterizatio n(ITOP)の概念を提案することにより、高コストなオーバーパラメータ化を必要とせず、最先端の性能を持つディープニューラルネットワークをトレーニングする新たな視点を提案する。 ランダムなスパースネットワークから始まり、トレーニング中にスパース接続性を連続的に探索することにより、時空多様体においてオーバーパラメータ化を行い、スパーストレーニングと密なトレーニングの表現可能性のギャップを埋めることができる。 さらにITOPを使用して、動的スパーストレーニング(DST)の基盤となるメカニズムを理解し、DSTの利点は、最適なスパース接続を探索する際に、時間にわたって可能なパラメータをすべて考慮できる能力から来ていることを示す。 トレーニング中に確実に探索された十分なパラメータがある限り、DSTは高密度ニューラルネットワークを大きなマージンで上回ることができる。 本稿では,イメージネット上でResNet-50を用いた最先端のスパーストレーニング性能を実現するための一連の実験について述べる。 より印象的なことに,本手法は過パラメータ化に基づくスパース法よりも極端に分散度の高い性能を実現する。 CIFAR-100でトレーニングすると, 極端に間隔(98%)でも高密度モデルの性能と一致させることができる。

In this paper, we introduce a new perspective on training deep neural networks capable of state-of-the-art performance without the need for the expensive over-parameterizatio n by proposing the concept of In-Time Over-Parameterizatio n (ITOP) in sparse training. By starting from a random sparse network and continuously exploring sparse connectivities during training, we can perform an Over-Parameterizatio n in the space-time manifold, closing the gap in the expressibility between sparse training and dense training. We further use ITOP to understand the underlying mechanism of Dynamic Sparse Training (DST) and indicate that the benefits of DST come from its ability to consider across time all possible parameters when searching for the optimal sparse connectivity. As long as there are sufficient parameters that have been reliably explored during training, DST can outperform the dense neural network by a large margin. We present a series of experiments to support our conjecture and achieve the state-of-the-art sparse training performance with ResNet-50 on ImageNet. More impressively, our method achieves dominant performance over the overparameterization -based sparse methods at extreme sparsity levels. When trained on CIFAR-100, our method can match the performance of the dense model even at an extreme sparsity (98%).
翻訳日:2021-02-08 14:52:08 公開日:2021-02-04
# 深部強化学習に基づく画像分類は、たった30画像のトレーニングセットでMRI脳腫瘍の完全検査セット精度を達成する

Deep reinforcement learning-based image classification achieves perfect testing set accuracy for MRI brain tumors with a training set of only 30 images ( http://arxiv.org/abs/2102.02895v1 )

ライセンス: Link先を確認
Joseph Stember and Hrithwik Shalu(参考訳) 目的: 画像分類は、人工知能のイメージングにおける基本的なタスクである。 近年,強化学習は微小トレーニングセットにおいても,病変の局在とセグメンテーションに高い精度を発揮できることが示されている。 本稿では,画像分類のための強化学習を紹介する。 特に腫瘍を含む2次元MRI画像に対するアプローチについて検討した。 材料と方法: 深部Q学習とTD(0)Q学習を併用するために, 多段階画像分類を適用した。 30枚の画像(正常15枚、腫瘍含有15枚)を訓練した。 30例(正常15例,腫瘍含有15例)に分けて検討した。 比較のために、同じトレーニングとテストイメージのセットで教師付きディープラーニング分類ネットワークをトレーニングし、テストしました。 結果: 教師付きアプローチはトレーニングデータに迅速にオーバーフィットし,期待したようにテストセットではパフォーマンスが低かった(確率的推測よりも57%)が,強化学習アプローチは100%の精度を達成した。 結論:脳腫瘍の分類における強化学習の原理実証的応用を示した。 30画像のトレーニングセットで、完全なテストセットの精度を達成しました。

Purpose: Image classification may be the fundamental task in imaging artificial intelligence. We have recently shown that reinforcement learning can achieve high accuracy for lesion localization and segmentation even with minuscule training sets. Here, we introduce reinforcement learning for image classification. In particular, we apply the approach to normal vs. tumor-containing 2D MRI brain images. Materials and Methods: We applied multi-step image classification to allow for combined Deep Q learning and TD(0) Q learning. We trained on a set of 30 images (15 normal and 15 tumor-containing). We tested on a separate set of 30 images (15 normal and 15 tumor-containing). For comparison, we also trained and tested a supervised deep-learning classification network on the same set of training and testing images. Results: Whereas the supervised approach quickly overfit the training data and as expected performed poorly on the testing set (57% accuracy, just over random guessing), the reinforcement learning approach achieved an accuracy of 100%. Conclusion: We have shown a proof-of-principle application of reinforcement learning to the classification of brain tumors. We achieved perfect testing set accuracy with a training set of merely 30 images.
翻訳日:2021-02-08 14:51:31 公開日:2021-02-04
# EpiBench Platform for Propel AI/ML-based Epidemic Forecasting: A Prototype Demonstration Reaching Human Expert-level Performance

The EpiBench Platform to Propel AI/ML-based Epidemic Forecasting: A Prototype Demonstration Reaching Human Expert-level Performance ( http://arxiv.org/abs/2102.02842v1 )

ライセンス: Link先を確認
Ajitesh Srivastava, Tianjian Xu, Viktor K. Prasanna(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、MLによる流行予測技術の開発に多大な努力が注がれている。 しかし、新しいAI/ML技術が既存のものよりも優れているかどうかを主張するベンチマークは存在しない。 この“covid-forecast-hub”は、CDCに毎週予測を提出する、私たちを含む30以上のチームの集まりです。 チームがアプローチを継続的に変更/調整しているため、各チームの提出が期間ごとに異なるテクニックに対応し、人間の介入を伴う可能性があるため、これらの予測を使用して、1つの方法が他の方法よりも優れているかどうかを宣言することはできません。 このような予測は「人間の専門的な」予測と見なすことができ、AI/MLアプローチには適さないが、人間の専門家のパフォーマンスの指標として使用できる。 我々は、人間の介入なしにスケーラブルな予測に繋がる流行予測におけるai/ml研究の支援に興味を持っている。 どのモデリング技術、学習戦略、およびデータ前処理技術が流行の予測にうまく機能するかはまだオープンな問題です。 疫学に適用される最先端のAI/MLを前進させるためには、パフォーマンスポイントの集合を持つベンチマークが必要であり、現在の「最先端の」技術を特定する必要がある。 本稿では,AI/MLのコミュニティ主導ベンチマークによるプラットフォームであるEpiBenchを提案し,その課題を一様評価プロトコルを用いて標準化する。 本稿では,米国における新型コロナウイルスの流行と死を予知するタスクの提出を現在実施・受け付けているEpiBenchのプロトタイプを紹介し,このプロトタイプを用いて,CDCが現在使用している人的レベルのアンサンブルに到達した完全自動感染予測(人的介入を伴わない)に基づくアンサンブルを開発できることを実証する。

During the COVID-19 pandemic, a significant effort has gone into developing ML-driven epidemic forecasting techniques. However, benchmarks do not exist to claim if a new AI/ML technique is better than the existing ones. The "covid-forecast-hub&q uot; is a collection of more than 30 teams, including us, that submit their forecasts weekly to the CDC. It is not possible to declare whether one method is better than the other using those forecasts because each team's submission may correspond to different techniques over the period and involve human interventions as the teams are continuously changing/tuning their approach. Such forecasts may be considered "human-expert" forecasts and do not qualify as AI/ML approaches, although they can be used as an indicator of human expert performance. We are interested in supporting AI/ML research in epidemic forecasting which can lead to scalable forecasting without human intervention. Which modeling technique, learning strategy, and data pre-processing technique work well for epidemic forecasting is still an open problem. To help advance the state-of-the-art AI/ML applied to epidemiology, a benchmark with a collection of performance points is needed and the current "state-of-the-art&quo t; techniques need to be identified. We propose EpiBench a platform consisting of community-driven benchmarks for AI/ML applied to epidemic forecasting to standardize the challenge with a uniform evaluation protocol. In this paper, we introduce a prototype of EpiBench which is currently running and accepting submissions for the task of forecasting COVID-19 cases and deaths in the US states and We demonstrate that we can utilize the prototype to develop an ensemble relying on fully automated epidemic forecasts (no human intervention) that reaches human-expert level ensemble currently being used by the CDC.
翻訳日:2021-02-08 14:50:48 公開日:2021-02-04
# Chord Embeddings:何をキャプチャし、次のコード予測とアーティスト属性予測のための役割を分析します。

Chord Embeddings: Analyzing What They Capture and Their Role for Next Chord Prediction and Artist Attribute Prediction ( http://arxiv.org/abs/2102.02917v1 )

ライセンス: Link先を確認
Allison Lahnala, Gauri Kambhatla, Jiajun Peng, Matthew Whitehead, Gillian Minnehan, Eric Guldan, Jonathan K. Kummerfeld, An{\i}l \c{C}amc{\i}, Rada Mihalcea(参考訳) 自然言語処理法は様々な音楽研究に応用され、音楽と言語との関係を描いている。 本稿では,(1)コード組込みはどのような音楽情報を取り込むのか,という2つの重要な疑問に答えるために,2つのケーススタディで適用する,\textit{chord embeddeds} について検討することで,そのアプローチを拡大する。 と(2)音楽アプリケーションはどのようにそれらから利益がありますか? 本分析では,音楽理論に記述された重要な関係に従属する和音間の類似性を捉えた。 第1のケーススタディでは、コード埋め込みを次のコード予測タスクに使用することで、経験豊富なミュージシャンの予測とより密接にマッチする予測が得られることを実証する。 第2のケーススタディでは,音楽スタイロメトリックスに関連するタスクにおける表現の使用による潜在的メリットを示す。

Natural language processing methods have been applied in a variety of music studies, drawing the connection between music and language. In this paper, we expand those approaches by investigating \textit{chord embeddings}, which we apply in two case studies to address two key questions: (1) what musical information do chord embeddings capture?; and (2) how might musical applications benefit from them? In our analysis, we show that they capture similarities between chords that adhere to important relationships described in music theory. In the first case study, we demonstrate that using chord embeddings in a next chord prediction task yields predictions that more closely match those by experienced musicians. In the second case study, we show the potential benefits of using the representations in tasks related to musical stylometrics.
翻訳日:2021-02-08 14:50:00 公開日:2021-02-04
# 高次元逆問題の解に対するベイズ的多スケール深部生成モデル

Bayesian multiscale deep generative model for the solution of high-dimensional inverse problems ( http://arxiv.org/abs/2102.03169v1 )

ライセンス: Link先を確認
Yingzhi Xia, Nicholas Zabaras(参考訳) 偏微分方程式が支配する計算コストの高い前方モデルに対する空間的変動パラメータの推定に対処する。 深層確率的生成モデルに基づく新しいマルチスケールベイズ推論手法が導入された。 このような生成モデルは、各スケールに低次元の潜時符号化を推論し、粗から微細なスケールへの階層的なパラメータ生成を可能にする。 マルチスケールジェネレーティブモデルとマルコフチェーンモンテカルロ(MCMC)を組み合わせることで、スケールをまたいだ推論を実現し、様々なスケールで後パラメータサンプルを効率的に取得することができます。 低次元潜入埋め込みを用いた粗大パラメータの推定は、安価だが不正確なソルバーを使用して、グローバルおよび注目すべきパラメータ特徴を捕捉する。 後部情報を即時粗大化スケールで利用することにより, 微細なパラメータのMCMCサンプリングが可能となる。 このように、低次元変数の推論と安価な前方計算により、大まかなスケールでグローバルな特徴を識別し、局所的な特徴を微細スケールで洗練および修正する。 この手法は, 不均質媒体中の流れに対する透過性推定法として2種類ある。 1つは不確実な長さスケールを持つガウス乱体(GRF)であり、もう1つは異なるGRFによって定義される2つの領域とのチャネル化透過性である。 その結果, 安定性, 効率, 精度を示しながら, 高次元パラメータ推定が可能となった。

Estimation of spatially-varying parameters for computationally expensive forward models governed by partial differential equations is addressed. A novel multiscale Bayesian inference approach is introduced based on deep probabilistic generative models. Such generative models provide a flexible representation by inferring on each scale a low-dimensional latent encoding while allowing hierarchical parameter generation from coarse- to fine-scales. Combining the multiscale generative model with Markov Chain Monte Carlo (MCMC), inference across scales is achieved enabling us to efficiently obtain posterior parameter samples at various scales. The estimation of coarse-scale parameters using a low-dimensional latent embedding captures global and notable parameter features using an inexpensive but inaccurate solver. MCMC sampling of the fine-scale parameters is enabled by utilizing the posterior information in the immediate coarser-scale. In this way, the global features are identified in the coarse-scale with inference of low-dimensional variables and inexpensive forward computation, and the local features are refined and corrected in the fine-scale. The developed method is demonstrated with two types of permeability estimation for flow in heterogeneous media. One is a Gaussian random field (GRF) with uncertain length scales, and the other is channelized permeability with the two regions defined by different GRFs. The obtained results indicate that the method allows high-dimensional parameter estimation while exhibiting stability, efficiency and accuracy.
翻訳日:2021-02-08 14:49:23 公開日:2021-02-04
# 模倣学習におけるフィードバック:因果関係と共変シフトの融合

Feedback in Imitation Learning: Confusion on Causality and Covariate Shift ( http://arxiv.org/abs/2102.02872v1 )

ライセンス: Link先を確認
Jonathan Spencer, Sanjiban Choudhury, Arun Venkatraman, Brian Ziebart, J. Andrew Bagnell(参考訳) 模擬学習の実践者は、以前の行動のコンディショニングポリシーが「ホールドアウト」エラーと学習者のパフォーマンスの間に劇的な相違をもたらすとしばしば指摘している。 インタラクティブなアプローチは、この相違に確実に対処できますが、デモレータの繰り返しクエリが必要です。 最近の研究は、この相違が現在の行動を予測する「因果関係」に由来すると認識し、因果推論のツールを用いて現在の状態の因果的側面を緩和しようと試みている。 この研究では、この分散は単に共変量シフトの現れであり、特に意思決定と入力機能の間のフィードバックの設定によって悪化していると論じる。 学習者は多くの場合、決定を強く予測するが、強い共変量シフトの対象となる特徴に依存する。 我々の研究は、このシフトを理論的にも実際的にも、シミュレーターの利点を生かして、専門家のデモンストレーションを問うことなく緩和できる、幅広い種類の問題を示している。 私たちは、模倣学習のアプローチをテストするために使用される既存のベンチマークを分析し、これらのベンチマークは実現可能で単純であるため、現実世界の意思決定問題で見られる難しいエラー混合の体制を捉えるには不十分です。 従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらす,という我々の理論と一致している。 ロボット工学の問題に見られる現象を捉えた、新しい標準ベンチマークの必要性を詳述する。

Imitation learning practitioners have often noted that conditioning policies on previous actions leads to a dramatic divergence between "held out" error and performance of the learner in situ. Interactive approaches can provably address this divergence but require repeated querying of a demonstrator. Recent work identifies this divergence as stemming from a "causal confound" in predicting the current action, and seek to ablate causal aspects of current state using tools from causal inference. In this work, we argue instead that this divergence is simply another manifestation of covariate shift, exacerbated particularly by settings of feedback between decisions and input features. The learner often comes to rely on features that are strongly predictive of decisions, but are subject to strong covariate shift. Our work demonstrates a broad class of problems where this shift can be mitigated, both theoretically and practically, by taking advantage of a simulator but without any further querying of expert demonstration. We analyze existing benchmarks used to test imitation learning approaches and find that these benchmarks are realizable and simple and thus insufficient for capturing the harder regimes of error compounding seen in real-world decision making problems. We find, in a surprising contrast with previous literature, but consistent with our theory, that naive behavioral cloning provides excellent results. We detail the need for new standardized benchmarks that capture the phenomena seen in robotics problems.
翻訳日:2021-02-08 14:46:44 公開日:2021-02-04
# 連続時間信号の非線形独立成分分析

Nonlinear Independent Component Analysis for Continuous-Time Signals ( http://arxiv.org/abs/2102.02876v1 )

ライセンス: Link先を確認
Harald Oberhauser and Alexander Schell(参考訳) この過程の非線形混合の観測から多次元源過程を復元する古典的な問題を検討する。 ソースの座標過程の統計的独立性を仮定すると、このリカバリが十分微分可能で可逆関数によって与えられる場合、確率過程の多くの一般的なモデル(座標の順序と単調スケーリングまで)に対して可能であることを示す。 我々のアプローチの鍵は、確率解析と最近の非線形ICAに対する対照的な学習手法の組み合わせである。 これにより,提案手法の有効性を示す理論的な保証が広く適用できるスケーラブルな手法が得られる。

We study the classical problem of recovering a multidimensional source process from observations of nonlinear mixtures of this process. Assuming statistical independence of the coordinate processes of the source, we show that this recovery is possible for many popular models of stochastic processes (up to order and monotone scaling of their coordinates) if the mixture is given by a sufficiently differentiable, invertible function. Key to our approach is the combination of tools from stochastic analysis and recent contrastive learning approaches to nonlinear ICA. This yields a scalable method with widely applicable theoretical guarantees for which our experiments indicate good performance.
翻訳日:2021-02-08 14:46:19 公開日:2021-02-04
# スケーラブルかつ等変な球状CNNのための球面上の散乱ネットワーク

Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs ( http://arxiv.org/abs/2102.02828v1 )

ライセンス: Link先を確認
Jason D. McEwen, Christopher G. R. Wallis, Augustine N. Mavor-Parker(参考訳) 近年,球面上にネイティブに構築された畳み込みニューラルネットワーク(cnns)が開発され,球面データの解析に非常に有効であることが示されている。 効率的なフレームワークが定式化されているが、球面CNNは高度に計算が要求され、通常数千ピクセルの球面信号を超えてスケールできない。 我々は球面データに強力な表現空間を提供する球面上にネイティブに構築された散乱ネットワークを開発する。 球面散乱ネットワークは計算にスケーラブルであり、回転同値を示すが、その表現空間はイソメトリーに不変であり、効率的で安定した信号表現を提供する。 一般化球面cnnフレームワークにおいて、散乱ネットワークを付加的な層として統合することにより、球面cnnを数十メガピクセル以上の球面信号を含む、多くの実用的なアプリケーションで典型的な高分解能データにスケールする方法を示す。

Convolutional neural networks (CNNs) constructed natively on the sphere have been developed recently and shown to be highly effective for the analysis of spherical data. While an efficient framework has been formulated, spherical CNNs are nevertheless highly computationally demanding; typically they cannot scale beyond spherical signals of thousands of pixels. We develop scattering networks constructed natively on the sphere that provide a powerful representational space for spherical data. Spherical scattering networks are computationally scalable and exhibit rotational equivariance, while their representational space is invariant to isometries and provides efficient and stable signal representations. By integrating scattering networks as an additional type of layer in the generalized spherical CNN framework, we show how they can be leveraged to scale spherical CNNs to the high resolution data typical of many practical applications, with spherical signals of many tens of megapixels and beyond.
翻訳日:2021-02-08 14:44:40 公開日:2021-02-04
# ChainCQG: Flow-Aware Conversational Question生成

ChainCQG: Flow-Aware Conversational Question Generation ( http://arxiv.org/abs/2102.02864v1 )

ライセンス: Link先を確認
Jing Gu, Mostafa Mirshekari, Zhou Yu, Aaron Sisto(参考訳) 会話システムは多数の貴重なアプリケーションを可能にし、質問応答はこれらの多くを支える重要なコンポーネントです。 しかし、現実的なドメイン固有のトレーニングデータがないため、会話型質問応答は依然として困難である。 このボトルネックにインスパイアされた私たちは、トレーニングや評価目的で合成会話を生成する手段として、対話型質問生成に焦点を当てています。 我々は,会話の流れを改善し,様々な質問タイプと全体流動性に対応するための,新しい戦略をいくつか提示する。 特にChainCQGは、フロー伝搬トレーニング戦略を用いて複数の対話を横断して質問応答表現を学習する2段階のアーキテクチャとして設計されており、ChainCQGは、回答認識と未知のSOTAベースライン(例えば、BLEU-1の改善の48%まで)を著しく上回る。 さらに,モデルでは,流動性とコリファレンスアライメントの改善など,さまざまなタイプの質問を生成することが可能です。

Conversational systems enable numerous valuable applications, and question-answering is an important component underlying many of these. However, conversational question-answering remains challenging due to the lack of realistic, domain-specific training data. Inspired by this bottleneck, we focus on conversational question generation as a means to generate synthetic conversations for training and evaluation purposes. We present a number of novel strategies to improve conversational flow and accommodate varying question types and overall fluidity. Specifically, we design ChainCQG as a two-stage architecture that learns question-answer representations across multiple dialogue turns using a flow propagation training strategy.ChainCQG significantly outperforms both answer-aware and answer-unaware SOTA baselines (e.g., up to 48% BLEU-1 improvement). Additionally, our model is able to generate different types of questions, with improved fluidity and coreference alignment.
翻訳日:2021-02-08 14:43:10 公開日:2021-02-04
# 2D/3D画像登録のための更新オペレータの学習

Learning the Update Operator for 2D/3D Image Registration ( http://arxiv.org/abs/2102.02861v1 )

ライセンス: Link先を確認
Srikrishna Jaganathan, Jian Wang, Anja Borsdorf, Andreas Maier(参考訳) 最小侵襲の介入における画像誘導は、通常ライブ2次元X線イメージングを用いて提供される。 介入中に利用可能な情報を強化するために、2D / 3D画像登録を使用して2D画像に術前ボリュームをオーバーレイすることができます。 近年,深層学習に基づく2D/3D登録法は,計算効率とロバスト性の向上によって有望な結果を示している。 しかし,従来の最適化手法と比較すると,登録精度には差がある。 既知の演算子学習を用いたディープニューラルネットワークに従来の手法を組み込むことで、このギャップの解消を目指します。 この方向への最初のステップとして、Point-to-Plane Correspondenceモデルに基づいた反復2D/3D登録フレームワークの更新ステップを学ぶことを提案する。 深層ニューラルネットワークの既知の演算子としてPoint-to-Plane Correspondenceモデルを組み込み、反復的な登録のための更新ステップを学びます。 更新ステップ予測における登録精度は,既知演算子を持たない学習と比較して1.8倍向上した。

Image guidance in minimally invasive interventions is usually provided using live 2D X-ray imaging. To enhance the information available during the intervention, the preoperative volume can be overlaid over the 2D images using 2D/3D image registration. Recently, deep learning-based 2D/3D registration methods have shown promising results by improving computational efficiency and robustness. However, there is still a gap in terms of registration accuracy compared to traditional optimization-based methods. We aim to address this gap by incorporating traditional methods in deep neural networks using known operator learning. As an initial step in this direction, we propose to learn the update step of an iterative 2D/3D registration framework based on the Point-to-Plane Correspondence model. We embed the Point-to-Plane Correspondence model as a known operator in our deep neural network and learn the update step for the iterative registration. We show an improvement of 1.8 times in terms of registration accuracy for the update step prediction compared to learning without the known operator.
翻訳日:2021-02-08 14:41:51 公開日:2021-02-04
# 領域に基づく畳み込みニューラルネットワークによる自動リップ電流検出

Automated Rip Current Detection with Region based Convolutional Neural Networks ( http://arxiv.org/abs/2102.02902v1 )

ライセンス: Link先を確認
Akila de Silva, Issei Mori, Gregory Dusek, James Davis and Alex Pang(参考訳) 本稿では,波浪を伴うリッピング電流の自動同定のための機械学習手法を提案する。 リップ電流は、海に人々を掃除することによって多くの死をもたらす水の危険な高速移動電流です。 ほとんどの人は、それらを避けるためにリップ電流を認識する方法を知りません。 さらに、リッピング電流を予測しようとする試みは、ハザードモデルの訓練と検証を支援する観測の欠如によって妨げられている。 ウェブカメラとスマートフォンの存在は、海岸のビデオと静止画をユビキタスにし、リップ電流の観測の潜在的な源を提供します。 これらの同じデバイスは、リップ電流の存在を一般に認識するのに役立ちます。 欠けているのは、海岸画像からのリップ電流の存在や欠如を検出する方法である。 本稿では、rip電流のためのエキスパートラベルトレーニングとテストデータセットを提供する。 我々は,従来文献で報告されていたヒトや他のリップ電流検出法よりも高い精度で静止画像や映像の検出に,高速rcnnと独自の時間集約ステージを用いる。

This paper presents a machine learning approach for the automatic identification of rip currents with breaking waves. Rip currents are dangerous fast moving currents of water that result in many deaths by sweeping people out to sea. Most people do not know how to recognize rip currents in order to avoid them. Furthermore, efforts to forecast rip currents are hindered by lack of observations to help train and validate hazard models. The presence of web cams and smart phones have made video and still imagery of the coast ubiquitous and provide a potential source of rip current observations. These same devices could aid public awareness of the presence of rip currents. What is lacking is a method to detect the presence or absence of rip currents from coastal imagery. This paper provides expert labeled training and test data sets for rip currents. We use Faster-RCNN and a custom temporal aggregation stage to make detections from still images or videos with higher measured accuracy than both humans and other methods of rip current detection previously reported in the literature.
翻訳日:2021-02-08 14:41:38 公開日:2021-02-04
# (参考訳) 都市環境における局所的な表面温度予測にLong Short-Term Memory (LSTM) とInternet of Things (IoT) を使用すること [全文訳有]

Using Long Short-Term Memory (LSTM) and Internet of Things (IoT) for localized surface temperature forecasting in an urban environment ( http://arxiv.org/abs/2102.02892v1 )

ライセンス: CC BY 4.0
Manzhu Yu, Fangcao Xu, Weiming Hu, Jian Sun, Guido Cervone(参考訳) 気温上昇は温暖化気候の重要な指標の1つであり、生物学的システムや構築された構造に広範なストレスを引き起こす可能性があります。 ヒートアイランド効果により、密集した人為的な環境に伴う植生の減少により、他の景観に比べて都市環境において最も深刻である。 温暖化に伴うリスクを軽減し、人間や動物を保護するための短期的戦略を含む局所的な温度力学を適切に監視し、新たな構造を構築し、極端な事象に対処するための長期的な戦略を行うことが不可欠である。 観測された気温は大気モデルにとって非常に重要な入力であり、正確なデータが将来の予測に繋がる可能性がある。 地上で採取された環境温度は、局所的な動態を捉えることができない地域気象予報と比較して高い変動性を持つ。 高時間分解能および空間分解能のサブアーバンスケールで正確な気温予測が必要であることは明らかです。 本研究では,Long Short-Term Memory(LSTM)深層学習ネットワークを基盤として,空間分解能の高い日頭時間温度予測を行うフレームワークを提案する。 米国ニューヨーク市における歴史的その場観測とIoT(Internet of Things)観測を用いたケーススタディを示す。 その場観測による歴史的気温データを活用することで、LSTMモデルは、IoT観測には存在しないかもしれないより歴史的なパターンに露出することができる。 一方、IoTによる観測により、気温予測の空間分解能が大幅に向上します。

The rising temperature is one of the key indicators of a warming climate, and it can cause extensive stress to biological systems as well as built structures. Due to the heat island effect, it is most severe in urban environments compared to other landscapes due to the decrease in vegetation associated with a dense human-built environment. It is essential to adequately monitor the local temperature dynamics to mitigate risks associated with increasing temperatures, which can include short term strategy to protect people and animals, to long term strategy to how to build a new structure and cope with extreme events. Observed temperature is also a very important input for atmospheric models, and accurate data can lead to better future forecasts. Ambient temperature collected at ground level can have a higher variability when compared to regional weather forecasts, which fail to capture the local dynamics. There remains a clear need for an accurate air temperature prediction at the sub-urban scale at high temporal and spatial resolution. This research proposed a framework based on Long Short-Term Memory (LSTM) deep learning network to generate day-ahead hourly temperature forecast with high spatial resolution. A case study is shown which uses historical in-situ observations and Internet of Things (IoT) observations for New York City, USA. By leveraging the historical air temperature data from in-situ observations, the LSTM model can be exposed to more historical patterns that might not be present in the IoT observations. Meanwhile, by using IoT observations, the spatial resolution of air temperature predictions is significantly improved.
翻訳日:2021-02-08 14:00:55 公開日:2021-02-04
# (参考訳) Ivy: フレームワーク間のポータビリティのためのテンプレート付きディープラーニング [全文訳有]

Ivy: Templated Deep Learning for Inter-Framework Portability ( http://arxiv.org/abs/2102.02886v1 )

ライセンス: CC BY 4.0
Daniel Lenton, Fabio Pardo, Fabian Falck, Stephen James, Ronald Clark(参考訳) Ivyは、既存のDLフレームワークを抽象化し、コア関数がすべて一貫したコールシグネチャ、構文、入出力動作を示すように、テンプレート化されたディープラーニング(DL)フレームワークである。 Ivyはフレームワークテンプレートを使うことで、高レベルなフレームワークに依存しない機能を実装できる。 フレームワークテンプレートは、開発時に特定のフレームワークのプレースホルダとして動作し、実行時に決定される。 Ivy関数の移植性は、サポート対象のフレームワークのプロジェクトでの使用を可能にする。 Ivyは現在、TensorFlow、PyTorch、MXNet、Jax、NumPyをサポートしている。 Ivyとともに、メカニック、3Dビジョン、ロボティクス、微分可能な環境のための4つの純粋なIvyライブラリをリリースします。 評価を通じて、Ivyは実行時のオーバーヘッドがほとんどの場合1%未満のコード行を大幅に削減できることを示しています。 Ivyコミュニティには、独自の機能、レイヤ、ライブラリをIvyに記述し、オーディエンスを最大化し、生涯にわたるフレームワーク間コードベースの作成を通じてDL研究を加速させることで、開発者が参加することを歓迎します。 詳細はivy-dl.orgを参照。

We introduce Ivy, a templated Deep Learning (DL) framework which abstracts existing DL frameworks such that their core functions all exhibit consistent call signatures, syntax and input-output behaviour. Ivy allows high-level framework-agnostic functions to be implemented through the use of framework templates. The framework templates act as placeholders for the specific framework at development time, which are then determined at runtime. The portability of Ivy functions enables their use in projects of any supported framework. Ivy currently supports TensorFlow, PyTorch, MXNet, Jax and NumPy. Alongside Ivy, we release four pure-Ivy libraries for mechanics, 3D vision, robotics, and differentiable environments. Through our evaluations, we show that Ivy can significantly reduce lines of code with a runtime overhead of less than 1% in most cases. We welcome developers to join the Ivy community by writing their own functions, layers and libraries in Ivy, maximizing their audience and helping to accelerate DL research through the creation of lifelong inter-framework codebases. More information can be found at ivy-dl.org.
翻訳日:2021-02-08 13:45:35 公開日:2021-02-04
# 半同期フェデレーション学習

Semi-Synchronous Federated Learning ( http://arxiv.org/abs/2102.02849v1 )

ライセンス: Link先を確認
Dimitris Stripelis and Jose Luis Ambite(参考訳) 機械学習の問題に関連するデータは、規制、競争力、またはプライバシー上の理由によりデータを共有できない複数の場所に分散する状況があります。 例えば、ユーザーの携帯電話にあるデータ、特定の産業分野の企業の製造データ、または異なる病院にある医療記録などである。 Federated Learning(FL)は、サイロ全体で利用可能なすべてのデータに関する共同モデルを学ぶためのアプローチを提供します。 多くの場合、参加サイトは異なるデータ分布と計算能力を持っている。 同期flプロトコルは通信効率は優れていますが、学習の収束は遅く、逆に非同期flプロトコルの方がコンバージェンスが速く、通信コストも高くなります。 本稿では,局所モデルを最小のアイドル時間と高速収束に周期的に混合する半同期フェデレート学習プロトコルを提案する。 提案手法は,データおよび計算上不均一な環境における過去の研究を著しく上回っていることを示す。

There are situations where data relevant to a machine learning problem are distributed among multiple locations that cannot share the data due to regulatory, competitiveness, or privacy reasons. For example, data present in users' cellphones, manufacturing data of companies in a given industrial sector, or medical records located at different hospitals. Federated Learning (FL) provides an approach to learn a joint model over all the available data across silos. In many cases, participating sites have different data distributions and computational capabilities. In these heterogeneous environments previous approaches exhibit poor performance: synchronous FL protocols are communication efficient, but have slow learning convergence; conversely, asynchronous FL protocols have faster convergence, but at a higher communication cost. Here we introduce a novel Semi-Synchronous Federated Learning protocol that mixes local models periodically with minimal idle time and fast convergence. We show through extensive experiments that our approach significantly outperforms previous work in data and computationally heterogeneous environments.
翻訳日:2021-02-08 13:04:36 公開日:2021-02-04
# 高分解能交通速度推定のための深層学習法に運動波理論を組み込む

Incorporating Kinematic Wave Theory into a Deep Learning Method for High-Resolution Traffic Speed Estimation ( http://arxiv.org/abs/2102.02906v1 )

ライセンス: Link先を確認
Bilal Thonnam Thodi, Zaid Saeed Khan, Saif Eddin Jabari, Monica Menendez(参考訳) 本研究では, 波動に基づく深部畳み込みニューラルネットワーク(Deep CNN)を提案し, スパースプローブ車両軌道から高分解能交通速度のダイナミクスを推定する。 そこで我々は,既存の学習に基づく推定手法のロバスト性を改善するために,運動波理論の原理を取り入れるための2つの重要なアプローチを提案する。 まず、CNNに異方性トラフィックベースのカーネルを使用する。 このカーネルは、時空領域の再構成中に明示的に前方および後方のトラフィック波伝播特性を考慮に入れるように設計されている。 次に、シミュレーションデータを用いてCNNのトレーニングを行う。 これは暗黙的にcnnが学習するパターンに物理的な制約を課し、複雑なトラフィック動作を学習モデルに統合するための代替的で制限のない方法を提供する。 本稿では、異方性カーネルを用いて推定した速度場について述べるとともに、その等方性カーネルに対する利点を衝撃波力学の予測の観点から強調する。 さらに,次世代シミュレーション(ngsim)プログラムと高速道路ドローン(highd)データセットの2つのデータセットを用いて,実トラフィックへのトレーニングモデルの転送可能性をテストする。 最後に、我々は複数の(未知の)プローブ車両の浸透率を処理することを可能にするCNNのアンサンブルバージョンを提示します。 その結果、異方性カーネルは推定の正確性を改善しながらモデルの複雑さを低減し、シミュレーションベースのトレーニングは実世界のデータを用いたモデルフィッティングの代替となることを示した。 これは、事前の交通知識の活用が学習に基づく推定手法に価値をもたらすことを示唆し、それを行うためのより広範なアプローチを探求する大きな可能性を示唆している。

We propose a kinematic wave based Deep Convolutional Neural Network (Deep CNN) to estimate high resolution traffic speed dynamics from sparse probe vehicle trajectories. To that end, we introduce two key approaches that allow us to incorporate kinematic wave theory principles to improve the robustness of existing learning-based estimation methods. First, we use an anisotropic traffic-based kernel for the CNN. This kernel is designed to explicitly take forward and backward traffic wave propagation characteristics into account during reconstruction in the space-time domain. Second, we use simulated data for training the CNN. This implicitly imposes physical constraints on the patterns learned by the CNN, providing an alternate, unrestricted way to integrate complex traffic behaviors into learning models. We present the speed fields estimated using the anisotropic kernel and highlight its advantages over its isotropic counterpart in terms of predicting shockwave dynamics. Furthermore, we test the transferability of the trained model to real traffic by using two datasets: the Next Generation Simulation (NGSIM) program and the Highway Drone (HighD) dataset. Finally, we present an ensemble version of the CNN that allows us to handle multiple (and unknown) probe vehicle penetration rates. The results demonstrate that anisotropic kernels can reduce model complexity while improving the correctness of the estimation, and that simulation-based training is a viable alternative to model fitting using real-world data. This suggests that exploiting prior traffic knowledge adds value to learning-based estimation methods, and that there is great potential in exploring broader approaches to do so.
翻訳日:2021-02-08 13:04:21 公開日:2021-02-04
# Aggregating Bipolar Opinions with Appendix (英語)

Aggregating Bipolar Opinions (With Appendix) ( http://arxiv.org/abs/2102.02881v1 )

ライセンス: Link先を確認
Stefan Lauren and Francesco Belardinelli and Francesca Toni(参考訳) 議論の中で異なる当事者の意見を表わすバイポーラ・議論(ba)フレームワークを集約する新しい手法を提案する。 ABA(Bipolar Assumption-based Argumentation)は,BAを意味論的に完全に包含する形式である。 社会的選択論における判断集約の最近の結果を活用することで、バイポーラABAの関連特性に対して、正と負の2つの保存結果が証明される。

We introduce a novel method to aggregate Bipolar Argumentation (BA) Frameworks expressing opinions by different parties in debates. We use Bipolar Assumption-based Argumentation (ABA) as an all-encompassing formalism for BA under different semantics. By leveraging on recent results on judgement aggregation in Social Choice Theory, we prove several preservation results, both positive and negative, for relevant properties of Bipolar ABA.
翻訳日:2021-02-08 13:00:16 公開日:2021-02-04
# 自律走行車両の合理的・倫理的社会技術システムに向けて:多点決定解析の新しい応用

Toward a Rational and Ethical Sociotechnical System of Autonomous Vehicles: A Novel Application of Multi-Criteria Decision Analysis ( http://arxiv.org/abs/2102.02928v1 )

ライセンス: Link先を確認
Veljko Dubljevi\'c (1), George F. List (1), Jovan Milojevich (2), Nirav Ajmeri (3), William Bauer (1), Munindar P. Singh (1), Eleni Bardaka (1), Thomas Birkland (1), Charles Edwards (4), Roger Mayer (1), Ioan Muntean (5), Thomas Powers (6), Hesham Rakha (7), Vance Ricks (8), M. Shoaib Samandar (1) ((1) North Carolina State University, (2) Oklahoma State University, (3) University of Bristol, (4) University of North Carolina at Chapel Hill, (5) University of North Carolina at Asheville, (6) University of Delaware, (7) Virginia Tech, (8) Guilford College)(参考訳) 人工知能(AI)と自律システムの拡大は、重大な倫理的および安全上の懸念を高めながら、巨大な社会的利益を生み出す可能性を示しています。 AI技術は輸送にますます採用されている。 さまざまな車載技術の調査によると、回答者の約64%がスマートフォンアプリケーションを使って旅行を支援している。 最上位のアプリケーションはナビゲーションとリアルタイム交通情報システムであった。 通勤中にスマートフォンを使った人々の中で、最も利用率の高いアプリケーションはナビゲーションとエンターテイメントだった。 倫理的基準を知らされ認識される知的エージェントのシステムの開発を可能にするためには、関連する社会的懸念に対処する必要がある。 そうすることで、社会におけるこれらのシステムの責任ある統合が促進される。 そこで本研究では,マルチクリトリア意思決定分析(mcda)を応用して,aiの普及に伴う社会的・倫理的課題を検討するための,maia(formal multi-attribute impact assessment)質問紙の開発を行った。 私たちは、その差し迫った拡大のために、自律走行車(avs)のドメインにフォーカスしています。 しかし、AVは、知的で自律的なエージェントが個人レベル(歩行者、乗客など)または社会的レベルのいずれかで、人間と相互作用するあらゆるドメインのスタンドインとして機能します。

The expansion of artificial intelligence (AI) and autonomous systems has shown the potential to generate enormous social good while also raising serious ethical and safety concerns. AI technology is increasingly adopted in transportation. A survey of various in-vehicle technologies found that approximately 64% of the respondents used a smartphone application to assist with their travel. The top-used applications were navigation and real-time traffic information systems. Among those who used smartphones during their commutes, the top-used applications were navigation and entertainment. There is a pressing need to address relevant social concerns to allow for the development of systems of intelligent agents that are informed and cognizant of ethical standards. Doing so will facilitate the responsible integration of these systems in society. To this end, we have applied Multi-Criteria Decision Analysis (MCDA) to develop a formal Multi-Attribute Impact Assessment (MAIA) questionnaire for examining the social and ethical issues associated with the uptake of AI. We have focused on the domain of autonomous vehicles (AVs) because of their imminent expansion. However, AVs could serve as a stand-in for any domain where intelligent, autonomous agents interact with humans, either on an individual level (e.g., pedestrians, passengers) or a societal level.
翻訳日:2021-02-08 13:00:08 公開日:2021-02-04
# 逆レンダリングのための深層学習対応微分X線投影法

Deep Learning compatible Differentiable X-ray Projections for Inverse Rendering ( http://arxiv.org/abs/2102.02912v1 )

ライセンス: Link先を確認
Karthik Shetty, Annette Birkhold, Norbert Strobel, Bernhard Egger, Srikrishna Jaganathan, Markus Kowarschik, Andreas Maier(参考訳) 多くの最小限の侵襲的介入は2d fluoroscopic imagingに依存している。 これらのX線投影データから患者固有の3Dモデルを生成することで、手順ワークフローを改善することができる。 自動位置決めなどの補助機能を提供することで そのためには2つのことが必要です。 第一に、人間の解剖学と第二の統計的人間の形状モデル、微分可能なX線レンダラー。 本研究では,メッシュ構造内の光線が移動する距離を導出して距離マップを生成する微分可能なレンダラを提案する。 その機能を示すために、人間の形状モデルからX線画像をシミュレートする。 次に,患者登録に理想的な解剖学的構造である骨盤の実際の2次元透視画像から3次元モデルを再構成する逆問題を解くことにより,その応用を示す。 これは勾配降下を用いた反復最適化戦略によって達成される。 骨盤の大部分はフルオロスコープの視野内にあり、再構成されたモデルと基底真理のセグメンテーションの間の平均ハウスドルフ距離は30mmである。

Many minimally invasive interventional procedures still rely on 2D fluoroscopic imaging. Generating a patient-specific 3D model from these X-ray projection data would allow to improve the procedural workflow, e.g. by providing assistance functions such as automatic positioning. To accomplish this, two things are required. First, a statistical human shape model of the human anatomy and second, a differentiable X-ray renderer. In this work, we propose a differentiable renderer by deriving the distance travelled by a ray inside mesh structures to generate a distance map. To demonstrate its functioning, we use it for simulating X-ray images from human shape models. Then we show its application by solving the inverse problem, namely reconstructing 3D models from real 2D fluoroscopy images of the pelvis, which is an ideal anatomical structure for patient registration. This is accomplished by an iterative optimization strategy using gradient descent. With the majority of the pelvis being in the fluoroscopic field of view, we achieve a mean Hausdorff distance of 30 mm between the reconstructed model and the ground truth segmentation.
翻訳日:2021-02-08 12:56:52 公開日:2021-02-04
# 摂動近位アルゴリズムによる非平滑弱凸関数のサドル点エスケープ

Escaping Saddle Points for Nonsmooth Weakly Convex Functions via Perturbed Proximal Algorithms ( http://arxiv.org/abs/2102.02837v1 )

ライセンス: Link先を確認
Minhui Huang(参考訳) 非平滑な弱凸関数の厳密なサドルを回避できる周回近位アルゴリズムを提案する。 主な結果は、非スムース関数に対する$\epsilon$-approxima te local minimum の新たなキャラクタリゼーションと、滑らかな問題に対する鞍点をエスケープするための摂動勾配法の開発に基づいている。 具体的には、標準的な仮定の下で、摂動近位点、摂動近位勾配、および摂動近位線形アルゴリズムは、$d$が問題の次元である$O(\epsilon^{-2}\log(d)^4)$反復において、非平滑な弱凸関数に対して $\epsilon$-approxima te 局所最小値を求める。

We propose perturbed proximal algorithms that can provably escape strict saddles for nonsmooth weakly convex functions. The main results are based on a novel characterization of $\epsilon$-approxima te local minimum for nonsmooth functions, and recent developments on perturbed gradient methods for escaping saddle points for smooth problems. Specifically, we show that under standard assumptions, the perturbed proximal point, perturbed proximal gradient and perturbed proximal linear algorithms find $\epsilon$-approxima te local minimum for nonsmooth weakly convex functions in $O(\epsilon^{-2}\log(d)^4)$ iterations, where $d$ is the dimension of the problem.
翻訳日:2021-02-08 12:55:26 公開日:2021-02-04
# 深層強化学習でロボットを訓練する方法 : 私たちが学んだこと

How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned ( http://arxiv.org/abs/2102.02915v1 )

ライセンス: Link先を確認
Julian Ibarz and Jie Tan and Chelsea Finn and Mrinal Kalakrishnan and Peter Pastor and Sergey Levine(参考訳) 深部強化学習(Deep reinforcement learning, RL)は、低レベルのセンサー観測から複雑な振る舞いを自律的に取得するための、有望なアプローチである。 深層RL研究の大部分は、実環境における学習の制約に結びついていない、ビデオゲームやシミュレートされた制御の応用に焦点を当てているが、物理ロボットが現実世界で複雑なスキルを学べる可能性も示している。 同時に、現実世界のロボット工学は、人間の学習方法に直接関連し、現実世界の具体化エージェントとして、そのようなアルゴリズムを評価する魅力的な領域を提供する。 現実世界での知覚と移動の学習には多くの課題があり、そのうちのいくつかは他のものよりも扱いやすく、そのうちのいくつかはシミュレートされたドメインのみに焦点を当てたRL研究では考慮されないことが多い。 本稿では,ロボット深部RLに関するケーススタディをいくつか紹介する。 これらのケーススタディをもとに,深層rlにおける共通認識される課題と,これらの取り組みにおいてどのように対処されてきたかについて議論する。 また,他の課題についても概説する。その多くが実世界のロボット工学に特有のものであり,主流のRL研究の焦点ではないことが多い。 私たちの目標は、現実世界の深層RLの進歩に興味のあるロボット学者と機械学習研究者の両方にリソースを提供することです。

Deep reinforcement learning (RL) has emerged as a promising approach for autonomously acquiring complex behaviors from low level sensor observations. Although a large portion of deep RL research has focused on applications in video games and simulated control, which does not connect with the constraints of learning in real environments, deep RL has also demonstrated promise in enabling physical robots to learn complex skills in the real world. At the same time,real world robotics provides an appealing domain for evaluating such algorithms, as it connects directly to how humans learn; as an embodied agent in the real world. Learning to perceive and move in the real world presents numerous challenges, some of which are easier to address than others, and some of which are often not considered in RL research that focuses only on simulated domains. In this review article, we present a number of case studies involving robotic deep RL. Building off of these case studies, we discuss commonly perceived challenges in deep RL and how they have been addressed in these works. We also provide an overview of other outstanding challenges, many of which are unique to the real-world robotics setting and are not often the focus of mainstream RL research. Our goal is to provide a resource both for roboticists and machine learning researchers who are interested in furthering the progress of deep RL in the real world.
翻訳日:2021-02-08 12:55:06 公開日:2021-02-04
# 関心の依存量に関する判定を緩和する:喘息症例を用いたSHELF拡張法とコプラ法

Eliciting judgements about dependent quantities of interest: The SHELF extension and copula methods illustrated using an asthma case study ( http://arxiv.org/abs/2102.02852v1 )

ライセンス: Link先を確認
Bj\"orn Holzhauer (1), Lisa V. Hampson (1), John Paul Gosling (2), Bj\"orn Bornkamp (1), Joseph Kahn (3), Markus R. Lange (1), Wen-Lin Luo (3), Caterina Brindicci (1), David Lawrence (1), Steffen Ballerstedt (1), Anthony O'Hagan (4) ((1) Novartis Pharma AG, Basel, Switzerland, (2) JBA Risk Management Ltd, Skipton, United Kingdom, (3) Novartis Pharmaceuticals Corporation, East Hanover, USA, (4) The University of Sheffield, School of Mathematics and Statistics, Sheffield, United Kingdom)(参考訳) 製薬会社は、早期臨床試験からの限られた知識に基づいて、薬物開発プログラムに関する意思決定を定期的に行う必要がある。 このような状況では、専門家の判断を引き出すことは、未知の関心の量に関する証拠を合成するための魅力的なアプローチです。 医薬品開発プログラムの成功確率を計算する場合、異なるエンドポイントに対する薬物の効果などの関心の複数の量は、無関係として扱われるべきではありません。 SHeffield ELicitation Framework (SHELF) 内で複数の関連量の多変量分布を確立するための2つのアプローチについて議論する。 第1のアプローチは、別のものに関する知識を条件とする関心の量に関する専門家の判断を暗示する。 第2のアプローチでは、まず利息の量ごとに限界分布を抽出します。 そして、各対の量に対して、両者がそれぞれの導出された中央値の同じ側にある一致確率を導出する。 これにより、興味のある量の共同分布を得るためのコプラを指定できる。 これらのアプローチが喘息薬の登録プログラムの成功確率を評価するために行われた抽出ワークショップでどのように使用されたかを示す。 重要な研究の完了前に得られた専門家の判断は、最終的な試験結果とよく一致していました。

Pharmaceutical companies regularly need to make decisions about drug development programs based on the limited knowledge from early stage clinical trials. In this situation, eliciting the judgements of experts is an attractive approach for synthesising evidence on the unknown quantities of interest. When calculating the probability of success for a drug development program, multiple quantities of interest - such as the effect of a drug on different endpoints - should not be treated as unrelated. We discuss two approaches for establishing a multivariate distribution for several related quantities within the SHeffield ELicitation Framework (SHELF). The first approach elicits experts' judgements about a quantity of interest conditional on knowledge about another one. For the second approach, we first elicit marginal distributions for each quantity of interest. Then, for each pair of quantities, we elicit the concordance probability that both lie on the same side of their respective elicited medians. This allows us to specify a copula to obtain the joint distribution of the quantities of interest. We show how these approaches were used in an elicitation workshop that was performed to assess the probability of success of the registrational program of an asthma drug. The judgements of the experts, which were obtained prior to completion of the pivotal studies, were well aligned with the final trial results.
翻訳日:2021-02-08 12:51:55 公開日:2021-02-04
# 補助源のための機械学習

Machine Learning for Auxiliary Sources ( http://arxiv.org/abs/2102.02855v1 )

ライセンス: Link先を確認
Daniele Casati(参考訳) 我々は、一般に計算電磁法で使用される補助音源法(MAS)の数値アンサッツをニューラルネットワークとして書き直す。 線形層とアクティベーション層から構成される機能です MAS は部分微分方程式 (Partial Differential Equations, PDEs) の数値的手法であり、与えられた境界条件に一致する放射基底関数として、PDE の正確な解である点源を用いる。 ニューラルネットワークのフレームワークでは、Adamなどの最適化アルゴリズムを使用してMASを訓練し、その最適な係数とソースの中心特異点の位置の両方を見つけます。 また,本研究では,ニューラルネットワークとして訓練されたmas ansatzを用いて,中心特異点を持つ未知関数の場合には,その特異点の位置を検出することができることを示す。

We rewrite the numerical ansatz of the Method of Auxiliary Sources (MAS), typically used in computational electromagnetics, as a neural network, i.e. as a composed function of linear and activation layers. MAS is a numerical method for Partial Differential Equations (PDEs) that employs point sources, which are also exact solutions of the considered PDE, as radial basis functions to match a given boundary condition. In the framework of neural networks we rely on optimization algorithms such as Adam to train MAS and find both its optimal coefficients and positions of the central singularities of the sources. In this work we also show that the MAS ansatz trained as a neural network can be used, in the case of an unknown function with a central singularity, to detect the position of such singularity.
翻訳日:2021-02-08 12:51:35 公開日:2021-02-04
# (参考訳) ML-Doctor:機械学習モデルに対する推論攻撃の全体的リスク評価 [全文訳有]

ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models ( http://arxiv.org/abs/2102.02551v1 )

ライセンス: CC BY 4.0
Yugeng Liu and Rui Wen and Xinlei He and Ahmed Salem and Zhikun Zhang and Michael Backes and Emiliano De Cristofaro and Mario Fritz and Yang Zhang(参考訳) 機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどの情報を学ぶことができる。 研究者はこれらの攻撃を徹底的に研究していますが、彼らは孤立しています。 攻撃によって生じるリスク、例えば、適用できるさまざまなシナリオ、それらのパフォーマンスに影響を与える共通の要因、それらの間の関係、または防御技術の有効性など、包括的なイメージが欠けています。 本稿では,このギャップを,機械学習モデルに対する異なる推論攻撃の総合的リスク評価によって埋める。 メンバシップ推論、モデルインバージョン、属性推論、モデルの盗みという4つの攻撃に集中し、脅威モデルの分類を確立します。 5つのモデルアーキテクチャと4つのデータセットを対象とした広範な実験により,トレーニングデータセットの複雑性が攻撃性能に重要な役割を担っていること,一方,モデル盗みとメンバシップ推論攻撃の有効性は負の相関関係にあることが示された。 また,DP-SGDやKnowledge Distillationのような防衛手段が,推論攻撃の軽減を期待できることも示している。 私たちの分析は、モジュール化された再利用可能なソフトウェアであるml-doctorに依存しており、mlモデルオーナがモデルデプロイのリスクを評価できるようにしています。

Inference attacks against Machine Learning (ML) models allow adversaries to learn information about training data, model parameters, etc. While researchers have studied these attacks thoroughly, they have done so in isolation. We lack a comprehensive picture of the risks caused by the attacks, such as the different scenarios they can be applied to, the common factors that influence their performance, the relationship among them, or the effectiveness of defense techniques. In this paper, we fill this gap by presenting a first-of-its-kind holistic risk assessment of different inference attacks against machine learning models. We concentrate on four attacks - namely, membership inference, model inversion, attribute inference, and model stealing - and establish a threat model taxonomy. Our extensive experimental evaluation conducted over five model architectures and four datasets shows that the complexity of the training dataset plays an important role with respect to the attack's performance, while the effectiveness of model stealing and membership inference attacks are negatively correlated. We also show that defenses like DP-SGD and Knowledge Distillation can only hope to mitigate some of the inference attacks. Our analysis relies on a modular re-usable software, ML-Doctor, which enables ML model owners to assess the risks of deploying their models, and equally serves as a benchmark tool for researchers and practitioners.
翻訳日:2021-02-06 04:35:30 公開日:2021-02-04
# (参考訳) 指数収束率による弱監視の曖昧化 [全文訳有]

Disambiguation of weak supervision with exponential convergence rates ( http://arxiv.org/abs/2102.02789v1 )

ライセンス: CC BY 4.0
Vivien Cabannes, Francis Bach, Alessandro Rudi(参考訳) 教師付き学習を通じてアプローチする機械学習には、高価なデータアノテーションが必要である。 これは、データが不完全だが差別的な情報でアノテートされる弱い教師付き学習を動機付ける。 本論文では,与えられた入力から,潜在的なターゲットの集合が与えられるような,弱い監督の例である部分的ラベリングに焦点を当てる。 本稿では,弱監視から全監督を回復するための曖昧化原理について検討し,経験的曖昧化アルゴリズムを提案する。 古典的学習可能性仮定の下でアルゴリズムの指数関数収束率を証明し,本手法の有用性を実例で示す。

Machine learning approached through supervised learning requires expensive annotation of data. This motivates weakly supervised learning, where data are annotated with incomplete yet discriminative information. In this paper, we focus on partial labelling, an instance of weak supervision where, from a given input, we are given a set of potential targets. We review a disambiguation principle to recover full supervision from weak supervision, and propose an empirical disambiguation algorithm. We prove exponential convergence rates of our algorithm under classical learnability assumptions, and we illustrate the usefulness of our method on practical examples.
翻訳日:2021-02-06 03:56:09 公開日:2021-02-04
# (参考訳) ハイブリッド逆逆補強学習 [全文訳有]

Hybrid Adversarial Inverse Reinforcement Learning ( http://arxiv.org/abs/2102.02454v1 )

ライセンス: CC BY 4.0
Mingqi Yuan, Man-On Pun, Yi Chen, Qi Cao(参考訳) 本稿では、逆補強学習(IRL)、特にBD(Beyond-demonstrat or)IRLの問題について検討する。 BD-IRLは、専門家ポリシーを模倣するだけでなく、専門家の有限なデモンストレーションに基づいてBDポリシーを外挿することを目指しています。 現在、BD-IRLアルゴリズムのほとんどは2段階であり、まず報酬関数を推論し、強化学習(RL)を通してポリシーを学ぶ。 2つの異なるプロシージャのため、2段階のアルゴリズムは計算の複雑さが高く、堅牢性に欠ける。 これらの欠陥を克服するため,我々は,ハイブリッド逆強化学習 (hybrid adversarial inverse reinforcement learning, hairl) と題するbd-irlフレームワークを提案する。 シミュレーションの結果,HAIRLは他のSOTAアルゴリズムと比較して,より効率的で堅牢であることがわかった。

In this paper, we investigate the problem of the inverse reinforcement learning (IRL), especially the beyond-demonstrator (BD) IRL. The BD-IRL aims to not only imitate the expert policy but also extrapolate BD policy based on finite demonstrations of the expert. Currently, most of the BD-IRL algorithms are two-stage, which first infer a reward function then learn the policy via reinforcement learning (RL). Because of the two separate procedures, the two-stage algorithms have high computation complexity and lack robustness. To overcome these flaw, we propose a BD-IRL framework entitled hybrid adversarial inverse reinforcement learning (HAIRL), which successfully integrates the imitation and exploration into one procedure. The simulation results show that the HAIRL is more efficient and robust when compared with other similar state-of-the-art (SOTA) algorithms.
翻訳日:2021-02-06 02:53:58 公開日:2021-02-04
# (参考訳) 完全連結二元化ニューラルネットワークの普遍近似定理 [全文訳有]

Universal Approximation Theorems of Fully Connected Binarized Neural Networks ( http://arxiv.org/abs/2102.02631v1 )

ライセンス: CC BY 4.0
Mikail Yayla, Mario G\"unzel, Burim Ramosaj, and Jian-Jia Chen(参考訳) ニューラルネットワーク(NN)は、複雑な学習問題において高い予測精度で知られている。 実用的な利点に加えて、NNs は普遍近似(UA)定理のような好ましい理論特性も示している。 バイナリニューラルネットワーク(BNN)は、重みとアクティベーションドメインを2つの値に制限することにより、時間とメモリ要求を著しく削減する。 実用上の利点にもかかわらず、BNNs の UA 定理に基づく理論上の保証は、文献ではむしろ乏しい。 1)バイナライズされた入力の場合、UAは1つの隠れた層の下で構造的に達成できる。(2)実数を持つ入力の場合、UAは1つの隠れた層では達成できないが、Lipschitz-continuous 関数では2つの隠れた層の下で構造的に達成できる。 その結果、完全連結BNNは、特定の条件下で普遍的に関数を近似できることが示された。

Neural networks (NNs) are known for their high predictive accuracy in complex learning problems. Beside practical advantages, NNs also indicate favourable theoretical properties such as universal approximation (UA) theorems. Binarized Neural Networks (BNNs) significantly reduce time and memory demands by restricting the weight and activation domains to two values. Despite the practical advantages, theoretical guarantees based on UA theorems of BNNs are rather sparse in the literature. We close this gap by providing UA theorems for fully connected BNNs under the following scenarios: (1) for binarized inputs, UA can be constructively achieved under one hidden layer; (2) for inputs with real numbers, UA can not be achieved under one hidden layer but can be constructively achieved under two hidden layers for Lipschitz-continuous functions. Our results indicate that fully connected BNNs can approximate functions universally, under certain conditions.
翻訳日:2021-02-06 02:43:06 公開日:2021-02-04
# (参考訳) グラフ上のホークス過程 [全文訳有]

Hawkes Processes on Graphons ( http://arxiv.org/abs/2102.02741v1 )

ライセンス: CC BY 4.0
Hongteng Xu and Dixin Luo and Hongyuan Zha(参考訳) 基礎となる空間を共有し、同じ生成機構に従う異種イベント型を持つ複数の多変量点プロセスをモデル化するための新しいフレームワークを提案する。 グラガー因果グラフに関連付けられたホークス過程とその変種に着目して、我々のモデルは可算なイベント型空間を利用して、非パラメトリックなモデル {\it graphon} から異なる大きさのグラフをサンプリングする。 これらのグラフが与えられたら、対応するホークスプロセスを生成し、イベントシーケンスをシミュレートできる。 このグラフオンベースのホークスプロセスモデルを学ぶことは、1)異なるホークスプロセスが共有する基礎となる関係を推測するのに役立ち、2)異なるイベントタイプを持つイベントシーケンスをシミュレートする。 本研究では,生成した事象列と観測された事象列の階層的最適移動距離を最小化し,新たな報奨最大推定法を提案する。 モデルの特性を深く分析し、理論と実験の両方でその合理性と有効性を実証します。

We propose a novel framework for modeling multiple multivariate point processes, each with heterogeneous event types that share an underlying space and obey the same generative mechanism. Focusing on Hawkes processes and their variants that are associated with Granger causality graphs, our model leverages an uncountable event type space and samples the graphs with different sizes from a nonparametric model called {\it graphon}. Given those graphs, we can generate the corresponding Hawkes processes and simulate event sequences. Learning this graphon-based Hawkes process model helps to 1) infer the underlying relations shared by different Hawkes processes; and 2) simulate event sequences with different event types but similar dynamics. We learn the proposed model by minimizing the hierarchical optimal transport distance between the generated event sequences and the observed ones, leading to a novel reward-augmented maximum likelihood estimation method. We analyze the properties of our model in-depth and demonstrate its rationality and effectiveness in both theory and experiments.
翻訳日:2021-02-06 02:21:12 公開日:2021-02-04
# (参考訳) RECol: 異常検出のための再構築エラー列 [全文訳有]

RECol: Reconstruction Error Columns for Outlier Detection ( http://arxiv.org/abs/2102.02791v1 )

ライセンス: CC BY 4.0
J\"orn Hees, Dayananda Herurkar, Mario Meier(参考訳) 異常や異常を検出することは、一般的なデータ分析タスクです。 教師なし機械学習のサブフィールドとして、様々なアプローチが存在するが、大多数は入力特徴を独立したものとして扱い、入力特徴空間における単純な(線形な)関係を認識できないことが多い。 したがって、REColは一般的なデータ前処理手法で、残余のファッションで追加の列を生成する: 各列に対して、他の列に基づいてその値を予測し、再構成エラー列を生成する。 REColプリプロセッシングメソッドの有無にかかわらず、さまざまな共通ベースラインアプローチとベンチマークデータセットで実験を行い、生成された再構築エラー機能空間が一般的に一般的な異常検出方法をサポートし、ROC-AUCおよびPR-AUC値を大幅に改善することを示しています。

Detecting outliers or anomalies is a common data analysis task. As a sub-field of unsupervised machine learning, a large variety of approaches exist, but the vast majority treats the input features as independent and often fails to recognize even simple (linear) relationships in the input feature space. Hence, we introduce RECol, a generic data pre-processing approach to generate additional columns in a leave-one-out-fashio n: For each column, we try to predict its values based on the other columns, generating reconstruction error columns. We run experiments across a large variety of common baseline approaches and benchmark datasets with and without our RECol pre-processing method and show that the generated reconstruction error feature space generally seems to support common outlier detection methods and often considerably improves their ROC-AUC and PR-AUC values.
翻訳日:2021-02-06 01:40:24 公開日:2021-02-04
# (参考訳) FedAUX: フェデレーション学習におけるラベルなし補助データを活用する [全文訳有]

FedAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning ( http://arxiv.org/abs/2102.02514v1 )

ライセンス: CC BY 4.0
Felix Sattler and Tim Korjakow and Roman Rischke and Wojciech Samek(参考訳) フェデレート蒸留(Federated Distillation, FD)は、フェデレートラーニング(Federated Learning)のための新しいアルゴリズムパラダイムであり、従来のパラメータ平均化手法と競合する訓練性能を実現すると同時に、未ラベルの補助的なデータセットのクライアント予測を学生モデルに蒸留することで、クライアントが異なるモデルアーキテクチャを訓練できるようにする。 本研究では,FedAUXを提案する。FedAUXはFDの拡張であり,同じ仮定の下で,ラベルのない補助データから最大ユーティリティを導出することにより,性能を大幅に向上する。 FedAUXは、FDトレーニング手順を2つの方法で修正する。まず、補助データに対する教師なし事前トレーニングを行い、分散トレーニングのモデル初期化を見つける。 第二に、$(\varepsilon, \delta)$-differentia lly private certainty scoringは、各クライアントモデルの確実性に応じて、補助データ上のアンサンブル予測を重み付けるために使用されます。 大規模畳み込みニューラルネットワークとトランスモデルに関する実験では、FedAUXのトレーニングパフォーマンスがIidと非iidの両方で相当なマージンでSOTA FLベースラインメソッドを超え、集中型トレーニングパフォーマンスへのギャップをさらに埋めることが実証された。 コードはgithub.com/fedl-repo /fedauxで入手できる。

Federated Distillation (FD) is a popular novel algorithmic paradigm for Federated Learning, which achieves training performance competitive to prior parameter averaging based methods, while additionally allowing the clients to train different model architectures, by distilling the client predictions on an unlabeled auxiliary set of data into a student model. In this work we propose FedAUX, an extension to FD, which, under the same set of assumptions, drastically improves performance by deriving maximum utility from the unlabeled auxiliary data. FedAUX modifies the FD training procedure in two ways: First, unsupervised pre-training on the auxiliary data is performed to find a model initialization for the distributed training. Second, $(\varepsilon, \delta)$-differentia lly private certainty scoring is used to weight the ensemble predictions on the auxiliary data according to the certainty of each client model. Experiments on large-scale convolutional neural networks and transformer models demonstrate, that the training performance of FedAUX exceeds SOTA FL baseline methods by a substantial margin in both the iid and non-iid regime, further closing the gap to centralized training performance. Code is available at github.com/fedl-repo /fedaux.
翻訳日:2021-02-06 00:58:13 公開日:2021-02-04
# (参考訳) TricycleGAN: 形状優先に基づく教師なし画像合成とセグメンテーション [全文訳有]

TricycleGAN: Unsupervised Image Synthesis and Segmentation Based on Shape Priors ( http://arxiv.org/abs/2102.02690v1 )

ライセンス: CC BY 4.0
Umaseh Sivanesan, Luis H. Braga, Ranil R. Sonnadara, Kiret Dhindsa(参考訳) 医療画像分割は、臓器や病変などの関心のある領域を分離するために定期的に行われます。 現在、ディープラーニングは自動セグメンテーションの最先端にあるが、通常は、訓練された臨床医が手動でセグメンテーションした大規模なデータセットによる教師付きトレーニングの必要性によって制限されている。 半教師なし画像セグメンテーションの目標は、トレーニングデータの必要性を大幅に削減し、あるいは排除することであり、セグメンテーションモデルのトレーニングにおいて臨床医の負担を最小化することである。 そこで本研究では,非監視および半監督の画像分割が可能な新しいネットワークアーキテクチャであるTricycleGANを提案する。 このアプローチは、3つの生成モデルを使用して、エッジマップを中間ステップとして医療画像とセグメンテーションマップの翻訳を学びます。 生成ネットワークに基づく他のアプローチとは異なり、tricycleganは色やテクスチャよりも形状優先に依存している。 そのため、一般的に使用される視覚的手がかりが欠如している超音波画像など、医療画像の分野では特に適している。 腎超音波画像の臨床データセットとISIC 2018皮膚病変データセットのベンチマークを用いてTricycleGANを用いた実験を行った。

Medical image segmentation is routinely performed to isolate regions of interest, such as organs and lesions. Currently, deep learning is the state of the art for automatic segmentation, but is usually limited by the need for supervised training with large datasets that have been manually segmented by trained clinicians. The goal of semi-superised and unsupervised image segmentation is to greatly reduce, or even eliminate, the need for training data and therefore to minimze the burden on clinicians when training segmentation models. To this end we introduce a novel network architecture for capable of unsupervised and semi-supervised image segmentation called TricycleGAN. This approach uses three generative models to learn translations between medical images and segmentation maps using edge maps as an intermediate step. Distinct from other approaches based on generative networks, TricycleGAN relies on shape priors rather than colour and texture priors. As such, it is particularly well-suited for several domains of medical imaging, such as ultrasound imaging, where commonly used visual cues may be absent. We present experiments with TricycleGAN on a clinical dataset of kidney ultrasound images and the benchmark ISIC 2018 skin lesion dataset.
翻訳日:2021-02-06 00:10:28 公開日:2021-02-04
# (参考訳) 適応型セミパラメトリック言語モデル [全文訳有]

Adaptive Semiparametric Language Models ( http://arxiv.org/abs/2102.02557v1 )

ライセンス: CC BY 4.0
Dani Yogatama, Cyprien de Masson d'Autume, Lingpeng Kong(参考訳) 本稿では,大規模パラメトリックニューラルネットワーク(すなわちトランスフォーマ)と非パラメトリックエピソードメモリコンポーネントを統合アーキテクチャで結合した言語モデルを提案する。 我々のモデルは、ローカルに隠された状態(Transformer-XLに似た)とグローバルな長期記憶をキャッシュすることで、拡張された短期コンテキストを使用します。 複数の情報ソースを適応的に組み合わせて予測するゲーティング機能を設計します。 このメカニズムにより、モデルは、コンテキストに応じて、ローカルコンテキスト、短期メモリ、または長期メモリ(またはそれらの任意の組み合わせ)をアドホックベースで使用することができます。 単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を強いベースラインと比較した。

We present a language model that combines a large parametric neural network (i.e., a transformer) with a non-parametric episodic memory component in an integrated architecture. Our model uses extended short-term context by caching local hidden states -- similar to transformer-XL -- and global long-term memory by retrieving a set of nearest neighbor tokens at each timestep. We design a gating function to adaptively combine multiple information sources to make a prediction. This mechanism allows the model to use either local context, short-term memory, or long-term memory (or any combination of them) on an ad hoc basis depending on the context. Experiments on word-based and character-based language modeling datasets demonstrate the efficacy of our proposed method compared to strong baselines.
翻訳日:2021-02-05 23:41:04 公開日:2021-02-04
# (参考訳) 自然言語生成のためのインクリメンタルビーム操作 [全文訳有]

Incremental Beam Manipulation for Natural Language Generation ( http://arxiv.org/abs/2102.02574v1 )

ライセンス: CC BY 4.0
James Hargreaves, Andreas Vlachos, Guy Emerson(参考訳) 自然言語生成システムの性能は、現代のニューラルネットワークで大幅に向上した。 テスト時には通常、局所的に最適だがグローバルに最適化された予測を避けるためにビーム探索を用いる。 しかし, モデル誤差のため, ビームサイズが大きくなると, 評価基準による劣化が生じる可能性がある。 そのため、ビームサーチの出力を再帰することは一般的であるが、これはビームサーチに頼って仮説のよいセットを生成し、ポテンシャルゲインを制限する。 ビームサーチの他の代替手段では、ビームサーチと比較して適用性を制限するモデルのトレーニングを変更する必要がある。 本稿では,インクリメンタルビーム操作を提案する。 終端のみではなく、デコード中にビーム内の仮説を再ランク付けする。 このように、良い最終的な出力につながる可能性が低い仮説は破棄され、それらの場所で無視されたであろう仮説は代わりに考慮されます。 インクリメンタルビーム操作を適用すると、それぞれE2EとWebNLGの試験セットのバニラビーム探索よりも1.93と5.82のBLEUポイントが改善される。 提案手法は、WebNLGデータセットでそれと同等である一方で、E2Eチャレンジで1.04 BLEUポイントで強力なリランクラーを上回った。

The performance of natural language generation systems has improved substantially with modern neural networks. At test time they typically employ beam search to avoid locally optimal but globally suboptimal predictions. However, due to model errors, a larger beam size can lead to deteriorating performance according to the evaluation metric. For this reason, it is common to rerank the output of beam search, but this relies on beam search to produce a good set of hypotheses, which limits the potential gains. Other alternatives to beam search require changes to the training of the model, which restricts their applicability compared to beam search. This paper proposes incremental beam manipulation, i.e. reranking the hypotheses in the beam during decoding instead of only at the end. This way, hypotheses that are unlikely to lead to a good final output are discarded, and in their place hypotheses that would have been ignored will be considered instead. Applying incremental beam manipulation leads to an improvement of 1.93 and 5.82 BLEU points over vanilla beam search for the test sets of the E2E and WebNLG challenges respectively. The proposed method also outperformed a strong reranker by 1.04 BLEU points on the E2E challenge, while being on par with it on the WebNLG dataset.
翻訳日:2021-02-05 23:25:31 公開日:2021-02-04
# (参考訳) RoI Tanh-polar Transformer Network for Face Parsing in the Wild [全文訳有]

RoI Tanh-polar Transformer Network for Face Parsing in the Wild ( http://arxiv.org/abs/2102.02717v1 )

ライセンス: CC BY 4.0
Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic(参考訳) 顔解析は、画像中のターゲット顔の顔成分のピクセルワイズラベルを予測することを目的としている。 既存のアプローチは通常、前処理中に計算されたバウンディングボックスに対して入力画像からターゲットの顔を取り出すため、興味の内面領域(RoIs)のみを解析できる。 髪のような周辺領域は無視され、境界ボックスに部分的に含まれている近くの顔は気晴らしを引き起こす可能性があります。 さらに、これらの手法は、正面近傍の肖像画でのみ訓練・評価され、被写体におけるその性能は未調査である。 これらの問題に対処するため,本稿では3つの貢献を行う。 まず, 顔解析のためのibugmaskデータセットを野生で導入し, 大きさ, ポーズ, 表情, 背景の多種多様な1000個の手話画像と, 頭部のポーズ増強により生成した21,866枚の画像を含む大規模訓練セットhelen-lpについて紹介する。 第2に、ターゲット境界ボックスで導かれる顔領域とコンテキストの固定比で全画像をTanh極表現に変換するRoI Tanh極変換を提案する。 新しい表現は、元の画像に全ての情報を含み、畳み込みニューラルネットワーク(CNN)における回転同値を可能にする。 第三に、タン-極空間とタン-カルテス空間の両方に畳み込み層を含み、CNNの異なる形状の受容領域を可能にするハイブリッド残留表現学習ブロックであるハイブリッドブロックを提案する。 広範な実験により,提案手法が野生の顔解析の最先端を有意に改善することを示した。

Face parsing aims to predict pixel-wise labels for facial components of a target face in an image. Existing approaches usually crop the target face from the input image with respect to a bounding box calculated during pre-processing, and thus can only parse inner facial Regions of Interest (RoIs). Peripheral regions like hair are ignored and nearby faces that are partially included in the bounding box can cause distractions. Moreover, these methods are only trained and evaluated on near-frontal portrait images and thus their performance for in-the-wild cases were unexplored. To address these issues, this paper makes three contributions. First, we introduce iBugMask dataset for face parsing in the wild containing 1,000 manually annotated images with large variations in sizes, poses, expressions and background, and Helen-LP, a large-pose training set containing 21,866 images generated using head pose augmentation. Second, we propose RoI Tanh-polar transform that warps the whole image to a Tanh-polar representation with a fixed ratio between the face area and the context, guided by the target bounding box. The new representation contains all information in the original image, and allows for rotation equivariance in the convolutional neural networks (CNNs). Third, we propose a hybrid residual representation learning block, coined HybridBlock, that contains convolutional layers in both the Tanh-polar space and the Tanh-Cartesian space, allowing for receptive fields of different shapes in CNNs. Through extensive experiments, we show that the proposed method significantly improves the state-of-the-art for face parsing in the wild.
翻訳日:2021-02-05 23:17:30 公開日:2021-02-04
# (参考訳) スタイルのみの問題:スタイルに基づく回帰モデルを用いた年齢変換 [全文訳有]

Only a Matter of Style: Age Transformation Using a Style-Based Regression Model ( http://arxiv.org/abs/2102.02754v1 )

ライセンス: CC BY 4.0
Yuval Alaluf, Or Patashnik, Daniel Cohen-Or(参考訳) 年齢変化のタスクは、時間とともに個人の外観が変化することを示している。 入力された顔画像に対して、この複雑な変換を正確にモデル化することは、入力アイデンティティを保ちながら、顔の特徴や頭部の形状に大きな変更を加える必要があるため、非常に難しい。 本研究では,事前学習した未条件GAN(例えば,StyleGAN)の潜時空間に直接実際の顔画像をエンコードすることを学習する画像から画像への変換手法を提案する。 所望の年齢に対応する潜時符号を生成する際に,エンコーダを明示的に案内するために,事前学習した年齢回帰ネットワークを用いる。 本提案手法は,入力年齢と目標年齢の間の回帰タスクとして連続老化プロセスにアプローチし,生成画像の細粒度制御を行う。 さらに、経路制御年齢に先行して潜伏空間でのみ動作する他の手法とは異なり、本手法はより不整合で非線形な経路を学習する。 最後に、私たちのアプローチのエンドツーエンドの性質とStyleGANのリッチなセマンティックな潜在空間が、生成された画像をさらに編集できることを実証します。 質的・定量的評価は,最先端の手法と比較して,本手法の利点を示す。

The task of age transformation illustrates the change of an individual's appearance over time. Accurately modeling this complex transformation over an input facial image is extremely challenging as it requires making convincing and possibly large changes to facial features and head shape, while still preserving the input identity. In this work, we present an image-to-image translation method that learns to directly encode real facial images into the latent space of a pre-trained unconditional GAN (e.g., StyleGAN) subject to a given aging shift. We employ a pre-trained age regression network used to explicitly guide the encoder in generating the latent codes corresponding to the desired age. In this formulation, our method approaches the continuous aging process as a regression task between the input age and desired target age, providing fine-grained control over the generated image. Moreover, unlike other approaches that operate solely in the latent space using a prior on the path controlling age, our method learns a more disentangled, non-linear path. Finally, we demonstrate that the end-to-end nature of our approach, coupled with the rich semantic latent space of StyleGAN, allows for further editing of the generated images. Qualitative and quantitative evaluations show the advantages of our method compared to state-of-the-art approaches.
翻訳日:2021-02-05 22:51:03 公開日:2021-02-04
# (参考訳) スタイルGAN画像操作用エンコーダの設計

Designing an Encoder for StyleGAN Image Manipulation ( http://arxiv.org/abs/2102.02766v1 )

ライセンス: CC BY 4.0
Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, Daniel Cohen-Or(参考訳) 近年,事前学習した無条件発電機を用いて画像編集を行う様々な手法が急増している。 しかし、実際の画像にこれらの方法を適用することは、必ずしも画像の潜在空間への反転を必要とするため、依然として課題です。 実画像の反転を成功させるためには、入力画像を正確に再構築する潜在コードを見つける必要があり、さらに重要なことは、その意味のある操作を可能にすることです。 本稿では,最先端の無条件発電機であるStyleGANの潜在空間を慎重に検討する。 StyleGANの潜時空間における歪み編集性トレードオフと歪み知覚性トレードオフの存在を特定し、分析する。 そこで我々は,STYPEGANが学習した領域への反転の近さを制御できるように,エンコーダを設計するための2つの原則を提案する。 本稿では,これらのトレードオフのバランスをとることで,実際の画像の編集を容易にするための2つの原則に基づくエンコーダを提案する。 車や馬を含む多くの課題領域において,その性能を質的かつ定量的に評価することにより,我々のインバージョン手法は,一般的な編集技術とともに,少ない再構成精度の低下を伴い,より優れた実画像編集品質を達成できることを示した。

Recently, there has been a surge of diverse methods for performing image editing by employing pre-trained unconditional generators. Applying these methods on real images, however, remains a challenge, as it necessarily requires the inversion of the images into their latent space. To successfully invert a real image, one needs to find a latent code that reconstructs the input image accurately, and more importantly, allows for its meaningful manipulation. In this paper, we carefully study the latent space of StyleGAN, the state-of-the-art unconditional generator. We identify and analyze the existence of a distortion-editabili ty tradeoff and a distortion-perceptio n tradeoff within the StyleGAN latent space. We then suggest two principles for designing encoders in a manner that allows one to control the proximity of the inversions to regions that StyleGAN was originally trained on. We present an encoder based on our two principles that is specifically designed for facilitating editing on real images by balancing these tradeoffs. By evaluating its performance qualitatively and quantitatively on numerous challenging domains, including cars and horses, we show that our inversion method, followed by common editing techniques, achieves superior real-image editing quality, with only a small reconstruction accuracy drop.
翻訳日:2021-02-05 22:33:02 公開日:2021-02-04
# (参考訳) SurVAE Flow Augmented MCMCによる組合せ空間のサンプリング [全文訳有]

Sampling in Combinatorial Spaces with SurVAE Flow Augmented MCMC ( http://arxiv.org/abs/2102.02374v1 )

ライセンス: CC BY 4.0
Priyank Jaini, Didrik Nielsen and Max Welling(参考訳) ハイブリッドモンテカルロ(Hybrid Monte Carlo)は、複素連続分布からサンプリングする強力なマルコフ連鎖モンテカルロ法である。 しかし、HMCの主な制限は、勾配信号の欠如のために離散ドメインに適用できないことである。 本研究では,SurVAE Flowsを用いたモンテカルロ法を,正規化フローと変分非量子化といったニューラルトランスポート法とメトロポリス-ヘイスティングス法を組み合わせ,離散分布からサンプルを得るための新たな手法を提案する。 本手法は,まず全射写像を用いて離散空間の連続埋め込みを学習し,その後,連続空間から約ガウス分布潜在変数への単射変換を学習する。 サンプリングは、潜在空間におけるmcmc鎖をシミュレートし、これらのサンプルを学習変換によって対象の離散空間にマッピングすることで進行する。 統計学,計算物理学,機械学習など幅広い分野において,本アルゴリズムの有効性を実証し,代替アルゴリズムと比較して改善点を観察した。

Hybrid Monte Carlo is a powerful Markov Chain Monte Carlo method for sampling from complex continuous distributions. However, a major limitation of HMC is its inability to be applied to discrete domains due to the lack of gradient signal. In this work, we introduce a new approach based on augmenting Monte Carlo methods with SurVAE Flows to sample from discrete distributions using a combination of neural transport methods like normalizing flows and variational dequantization, and the Metropolis-Hastings rule. Our method first learns a continuous embedding of the discrete space using a surjective map and subsequently learns a bijective transformation from the continuous space to an approximately Gaussian distributed latent variable. Sampling proceeds by simulating MCMC chains in the latent space and mapping these samples to the target discrete space via the learned transformations. We demonstrate the efficacy of our algorithm on a range of examples from statistics, computational physics and machine learning, and observe improvements compared to alternative algorithms.
翻訳日:2021-02-05 22:31:04 公開日:2021-02-04
# (参考訳) HYDRA:深層ニューラルネットワークの解釈のための超勾配データ関連解析 [全文訳有]

HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep Neural Networks ( http://arxiv.org/abs/2102.02515v1 )

ライセンス: CC BY 4.0
Yuanyuan Chen, Boyang Li, Han Yu, Pengcheng Wu, Chunyan Miao(参考訳) ディープニューラルネットワーク(DNN)の振る舞いは、人間の解釈に強く抵抗します。 本稿では,DNNによる予測をトレーニングデータの影響として解釈するHypergradient Data Relevance Analysis(HYDRA)を提案する。 既存のアプローチでは、最終的なモデルパラメータに関するデータコントリビューションを推定し、トレーニングデータが最適化軌道をどのように形成するかを無視する。 テスト損失の過度な低下を解き放つことで トレーニングデータの重み付けは、トレーニング軌跡を通してテストデータポイントへのトレーニングデータの寄与度を評価する。 計算を加速するために、計算からヘッシアンを取り除き、適度な条件下で近似誤差が有界であることを証明する。 この理論的な主張を裏付ける実証的な結果は、誤差は確かに小さいことを示している。 また,データ寄与度を正確に推定し,ノイズデータラベルの検出において,hydraが影響関数を上回ることを定量的に示す。 ソースコードはhttps://github.com/c yyever/aaai_hydra_86 86で入手できる。

The behaviors of deep neural networks (DNNs) are notoriously resistant to human interpretations. In this paper, we propose Hypergradient Data Relevance Analysis, or HYDRA, which interprets the predictions made by DNNs as effects of their training data. Existing approaches generally estimate data contributions around the final model parameters and ignore how the training data shape the optimization trajectory. By unrolling the hypergradient of test loss w.r.t. the weights of training data, HYDRA assesses the contribution of training data toward test data points throughout the training trajectory. In order to accelerate computation, we remove the Hessian from the calculation and prove that, under moderate conditions, the approximation error is bounded. Corroborating this theoretical claim, empirical results indicate the error is indeed small. In addition, we quantitatively demonstrate that HYDRA outperforms influence functions in accurately estimating data contribution and detecting noisy data labels. The source code is available at https://github.com/c yyever/aaai_hydra_86 86.
翻訳日:2021-02-05 22:16:36 公開日:2021-02-04
# (参考訳) 深層学習に基づくモデル同定システムによる人間とヒューマノイドの生体刺激による姿勢制御モデルのモジュール構造解析 [全文訳有]

Deep Learning Based Model Identification System Exploits the Modular Structure of a Bio-Inspired Posture Control Model for Humans and Humanoids ( http://arxiv.org/abs/2102.02536v1 )

ライセンス: CC BY 4.0
Vittorio Lippi(参考訳) 本研究では、DEC(Disturbance Estimation and Compensation)パラメトリックモデルを用いた人間の姿勢制御のためのConvolutional Neural Networks(CNN)に基づくシステム識別手順を提案する。 提案した制御モデルのモジュラ構造は、異なる自由度を制御するモジュールのパラメータを特定するために同じニューラルネットワークを使用するという意味で、モジュール識別手順の設計にインスピレーションを与えた。 このように、外部刺激によって誘導される身体振れの例は、一度にいくつかのトレーニングサンプルを提供します。

This work presents a system identification procedure based on Convolutional Neural Networks (CNN) for human posture control using the DEC (Disturbance Estimation and Compensation) parametric model. The modular structure of the proposed control model inspired the design of a modular identification procedure, in the sense that the same neural network is used to identify the parameters of the modules controlling different degrees of freedom. In this way the presented examples of body sway induced by external stimuli provide several training samples at once
翻訳日:2021-02-05 22:11:58 公開日:2021-02-04
# (参考訳) 半空間近位グラフを用いたインスタンスベース学習 [全文訳有]

Instance-based learning using the Half-Space Proximal Graph ( http://arxiv.org/abs/2102.02755v1 )

ライセンス: CC BY 4.0
Ariana Talamantes and Edgar Chavez(参考訳) インスタンスベースの学習の主な例は、$ k$-nearest neighbor rule(kNN)であり、そのシンプルさと新しい目に見えないデータに適応し、古いデータを捨てる能力で賞賛されている。 よく言及される主な欠点は、$O(n)$である分類の複雑さ、およびパラメータ$k$の推定、使用される最寄りの隣人の数です。 分類時のインデックスの使用は、前者の不利を解消するが、後者には決定的な方法がない。 本稿では,HSPグラフを用いたパラメータフリーなインスタンスベース学習アルゴリズムを提案する。 HSP隣人は、中心ノードに関する近接と多様性を同時に保持する。 与えられたクエリを分類するために、HSP近傍を計算し、それらに対して単純な多数決ルールを適用する。 実験では、結果の分類器がデータセットのバッテリで$k$に対して$KNN$を改善しました。 この改善は、kNNとHSPの分類器の両方に重み付けされた多数決ルールを適用しても継続する。 驚くべきことに、確率指標を用いてHSPグラフを近似し、その結果分類タスクを高速化すると、この手法はkNN分類器と比較して精度が向上し、確率指標が悪化する可能性がある。

The primary example of instance-based learning is the $k$-nearest neighbor rule (kNN), praised for its simplicity and the capacity to adapt to new unseen data and toss away old data. The main disadvantages often mentioned are the classification complexity, which is $O(n)$, and the estimation of the parameter $k$, the number of nearest neighbors to be used. The use of indexes at classification time lifts the former disadvantage, while there is no conclusive method for the latter. This paper presents a parameter-free instance-based learning algorithm using the {\em Half-Space Proximal} (HSP) graph. The HSP neighbors simultaneously possess proximity and variety concerning the center node. To classify a given query, we compute its HSP neighbors and apply a simple majority rule over them. In our experiments, the resulting classifier bettered $KNN$ for any $k$ in a battery of datasets. This improvement sticks even when applying weighted majority rules to both kNN and HSP classifiers. Surprisingly, when using a probabilistic index to approximate the HSP graph and consequently speeding-up the classification task, our method could {\em improve} its accuracy in stark contrast with the kNN classifier, which worsens with a probabilistic index.
翻訳日:2021-02-05 21:59:58 公開日:2021-02-04
# (参考訳) オンラインハラスメント検出のためのバングラテキストデータセットと探索分析 [全文訳有]

Bangla Text Dataset and Exploratory Analysis for Online Harassment Detection ( http://arxiv.org/abs/2102.02478v1 )

ライセンス: CC BY 4.0
Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf(参考訳) 世界で7番目に話されている言語であるため、オンラインバングラ言語の使用は近年増加しています。 したがって、バングラのテキストデータを分析し、安全で嫌がらせのないオンライン環境を維持することが非常に重要である。 この記事でアクセス可能にされたデータは、著名人、政府職員、facebook上のアスリートによる投稿中の人々のコメントから収集され、マークされている。 集められたコメントの合計量は44001です。 このデータセットは、コメントがいじめ表現であるか否かを自然言語処理の助けを借りて区別し、不適切なコメントである場合にどの程度不適切であるかをマシンが判断する能力を開発するためにコンパイルされる。 コメントはハラスメントの異なるカテゴリでラベル付けされています。 本論文では,異なる視点からの探索的解析についても詳細に述べる。 分類されたベンガル語コメントのデータ収集が不足しているため、このデータセットは、いじめ語の検出、不適切なコメントの特定、ベンガル語の様々な分類の検出など、研究において重要な役割を果たす可能性がある。 データセットはhttps://data.mendele y.com/datasets/9xjx8 twk8pで公開されている。

Being the seventh most spoken language in the world, the use of the Bangla language online has increased in recent times. Hence, it has become very important to analyze Bangla text data to maintain a safe and harassment-free online place. The data that has been made accessible in this article has been gathered and marked from the comments of people in public posts by celebrities, government officials, athletes on Facebook. The total amount of collected comments is 44001. The dataset is compiled with the aim of developing the ability of machines to differentiate whether a comment is a bully expression or not with the help of Natural Language Processing and to what extent it is improper if it is an inappropriate comment. The comments are labeled with different categories of harassment. Exploratory analysis from different perspectives is also included in this paper to have a detailed overview. Due to the scarcity of data collection of categorized Bengali language comments, this dataset can have a significant role for research in detecting bully words, identifying inappropriate comments, detecting different categories of Bengali bullies, etc. The dataset is publicly available at https://data.mendele y.com/datasets/9xjx8 twk8p.
翻訳日:2021-02-05 21:48:13 公開日:2021-02-04
# (参考訳) Evidence-Aware偽ニュース検出のための階層型マルチヘッドアテンシブネットワーク [全文訳有]

Hierarchical Multi-head Attentive Network for Evidence-aware Fake News Detection ( http://arxiv.org/abs/2102.02680v1 )

ライセンス: CC BY 4.0
Nguyen Vo, Kyumin Lee(参考訳) 政治、経済、公衆衛生など様々な分野で偽ニュースや誤報が広まっており、情報を自動的に事実確認する必要がある。 偽ニュース検出の最近の傾向は、外部ソースからの証拠を活用することです。 しかし、既存の証拠認識偽ニュース検出方法は、単語レベルの注意または証拠レベルの注意のみに焦点を合わせており、その結果、最適のパフォーマンスが低下する可能性があります。 本稿では,テキストクレームのファクトチェックを行う階層型マルチヘッド注意ネットワークを提案する。 私たちのモデルは、単語レベルと証拠レベルの両方の説明を助けるマルチヘッドワードレベルの注意とマルチヘッドドキュメントレベルの注意を共同で組み合わせます。 2つの実語データセットの実験は、私たちのモデルが7つの最先端のベースラインを上回っていることを示しています。 ベースラインに対する改善は6\%から18\%である。 ソースコードとデータセットは \texttt{\url{https://github.com/n guyenvo09/eacl2021}} でリリースされる。

The widespread of fake news and misinformation in various domains ranging from politics, economics to public health has posed an urgent need to automatically fact-check information. A recent trend in fake news detection is to utilize evidence from external sources. However, existing evidence-aware fake news detection methods focused on either only word-level attention or evidence-level attention, which may result in suboptimal performance. In this paper, we propose a Hierarchical Multi-head Attentive Network to fact-check textual claims. Our model jointly combines multi-head word-level attention and multi-head document-level attention, which aid explanation in both word-level and evidence-level. Experiments on two real-word datasets show that our model outperforms seven state-of-the-art baselines. Improvements over baselines are from 6\% to 18\%. Our source code and datasets are released at \texttt{\url{https://github.com/n guyenvo09/EACL2021}}.
翻訳日:2021-02-05 21:03:10 公開日:2021-02-04
# (参考訳) 音声反対例:声帯マスクを用いた攻撃 [全文訳有]

Audio Adversarial Examples: Attacks Using Vocal Masks ( http://arxiv.org/abs/2102.02417v1 )

ライセンス: CC BY 4.0
Lynnette Ng, Kai Yuan Tay, Wei Han Chua, Lucerne Loke, Danqi Ye, Melissa Chua(参考訳) 自動音声テキストシステム上での音声対向例を構築した。 音声波形が与えられると、元の音声から生成された音声音声マスクをオーバーレイして別の音声を生成する。 We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。 さらに,人間アノテータに敵対音声の書き起こしを依頼した。 我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。 この攻撃の可能性は、機械と人間の音声知覚を研究する新しい領域を導入する。

We construct audio adversarial examples on automatic Speech-To-Text systems . Given any audio waveform, we produce an another by overlaying an audio vocal mask generated from the original audio. We apply our audio adversarial attack to five SOTA STT systems: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx. In addition, we engaged human annotators to transcribe the adversarial audio. Our experiments show that these adversarial examples fool State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently pick out the speech. The feasibility of this attack introduces a new domain to study machine and human perception of speech.
翻訳日:2021-02-05 20:49:24 公開日:2021-02-04
# (参考訳) DIFFnet:入力拡散勾配スキームとb値に一般化された拡散パラメータマッピングネットワーク

DIFFnet: Diffusion parameter mapping network generalized for input diffusion gradient schemes and bvalues ( http://arxiv.org/abs/2102.02463v1 )

ライセンス: CC0 1.0
Juhung Park, Woojin Jung, Eun-Jung Choi, Se-Hong Oh, Dongmyung Shin, Hongjun An, and Jongho Lee(参考訳) MRIでは拡散モデルパラメータを再構成するディープニューラルネットワークが提案されている。 しかし、ネットワークの入力は、特定の拡散勾配スキーム(すなわち、拡散勾配方向と数)とトレーニングデータと同じ特定のb値のために設計されました。 本研究では,ディフネットと呼ばれる新しい深層ニューラルネットワークを開発し,様々な勾配スキームとb値の拡散重み信号の一般化再構成ツールとして機能する。 一般化のために、拡散信号はq空間で正規化され、その後投影および量子化され、ネットワークの入力として行列(qmatrix)を生成する。 このアプローチの有効性を示すために、DIFFnetは拡散テンソルイメージング(DIFFnetDTI)およびニューロサイト配向分散および密度イメージング(DIFFnetNODDI)のために評価される。 各モデルでは、異なる勾配スキームとb値を持つ2つのデータセットをテストする。 その結果, 処理時間を大幅に短縮し, 拡散パラメータの正確な再構成が可能となった(DTIとNODDIでは従来法よりも約8.7倍, 処理時間が2240倍速く, DTIでは平均4%以下, NODDIでは8%以下であった)。 ネットワークの一般化能力は、データセットからの拡散信号の減少によってさらに検証された。 以前に提案されたディープニューラルネットワークとは異なり、diffnetは入力に特定の勾配スキームやb値を必要としない。 その結果、様々な複雑な拡散画像のオンライン再構成ツールとして採用することができる。

In MRI, deep neural networks have been proposed to reconstruct diffusion model parameters. However, the inputs of the networks were designed for a specific diffusion gradient scheme (i.e., diffusion gradient directions and numbers) and a specific b-value that are the same as the training data. In this study, a new deep neural network, referred to as DIFFnet, is developed to function as a generalized reconstruction tool of the diffusion-weighted signals for various gradient schemes and b-values. For generalization, diffusion signals are normalized in a q-space and then projected and quantized, producing a matrix (Qmatrix) as an input for the network. To demonstrate the validity of this approach, DIFFnet is evaluated for diffusion tensor imaging (DIFFnetDTI) and for neurite orientation dispersion and density imaging (DIFFnetNODDI). In each model, two datasets with different gradient schemes and b-values are tested. The results demonstrate accurate reconstruction of the diffusion parameters at substantially reduced processing time (approximately 8.7 times and 2240 times faster processing time than conventional methods in DTI and NODDI, respectively; less than 4% mean normalized root-mean-square errors (NRMSE) in DTI and less than 8% in NODDI). The generalization capability of the networks was further validated using reduced numbers of diffusion signals from the datasets. Different from previously proposed deep neural networks, DIFFnet does not require any specific gradient scheme and b-value for its input. As a result, it can be adopted as an online reconstruction tool for various complex diffusion imaging.
翻訳日:2021-02-05 20:41:06 公開日:2021-02-04
# (参考訳) ProxyFAUG: Proximity-based Fingerprint Augmentation [全文訳有]

ProxyFAUG: Proximity-based Fingerprint Augmentation ( http://arxiv.org/abs/2102.02706v1 )

ライセンス: CC BY 4.0
Grigorios G. Anagnostopoulos and Alexandros Kalousis(参考訳) データ要求機械学習手法の普及により、単純なルールベースの手法でトレーニングデータセットのサイズを拡大できる方法論の必要性が明らかになった。 本研究で提案する指紋強調法は、この概念に沿って、位置決めモデルのトレーニングに使用される指紋データセットを強化することを目的とする。 提案手法では, 空間近接で記録された指紋を利用して指紋増強を行い, 元の指紋の特徴を組み合わせた新しい指紋を作成する。 新しい拡張指紋を構成する提案された方法は、遺伝的アルゴリズムのクロスオーバーおよび突然変異演算子に触発される。 ProxyFAUG法は, 規則に基づく, 確率的, 近接性に基づく指紋強調法を導入することにより, 指紋データセットの達成可能な位置決め精度を向上させることを目的としている。 ProxyFAUGの性能は、公開データセットを用いて屋外のSigfox設定で評価される。 このデータセットのベストパフォーマンスの公開ポジショニング方法は、拡張データセットを使用して、平均誤差の点では40%、平均誤差の点では6%改善されます。 結果の分析は、中央値誤差の印象的な改善によって示されるように、より低い誤差四重項で体系的かつ有意な性能改善を示す。

The proliferation of data-demanding machine learning methods has brought to light the necessity for methodologies which can enlarge the size of training datasets, with simple, rule-based methods. In-line with this concept, the fingerprint augmentation scheme proposed in this work aims to augment fingerprint datasets which are used to train positioning models. The proposed method utilizes fingerprints which are recorded in spacial proximity, in order to perform fingerprint augmentation, creating new fingerprints which combine the features of the original ones. The proposed method of composing the new, augmented fingerprints is inspired by the crossover and mutation operators of genetic algorithms. The ProxyFAUG method aims to improve the achievable positioning accuracy of fingerprint datasets, by introducing a rule-based, stochastic, proximity-based method of fingerprint augmentation. The performance of ProxyFAUG is evaluated in an outdoor Sigfox setting using a public dataset. The best performing published positioning method on this dataset is improved by 40% in terms of median error and 6% in terms of mean error, with the use of the augmented dataset. The analysis of the results indicate a systematic and significant performance improvement at the lower error quartiles, as indicated by the impressive improvement of the median error.
翻訳日:2021-02-05 20:39:54 公開日:2021-02-04
# (参考訳) Im2Vec: ベクトルスーパービジョンなしでベクトルグラフィックを合成する [全文訳有]

Im2Vec: Synthesizing Vector Graphics without Vector Supervision ( http://arxiv.org/abs/2102.02798v1 )

ライセンス: CC BY 4.0
Pradyumna Reddy, Michael Gharbi, Michal Lukac, Niloy J. Mitra(参考訳) ベクトルグラフィックスはフォント、ロゴ、デジタルアートワーク、グラフィックデザインを表現するために広く使われている。 しかし、多くの研究がラスター画像の生成アルゴリズムに焦点を当てているが、ベクターグラフィックスにはわずかな選択肢しか存在しない。 入力グラフィックを常にラスタ化し、画像ベースの生成アプローチに頼ることができるが、これはベクトル表現の利点を否定する。 現在の代替案は、訓練時にベクトルグラフィックス表現を明示的に監督する必要がある特殊なモデルを使用することです。 大規模なベクトルグラフデータセットは入手が難しいため、これは理想的ではない。 さらに、与えられた設計に対するベクトル表現はユニークではないので、ベクトル表現を監督するモデルは不要に制約される。 その代わり、様々なトポロジーを持つ複雑なベクトルグラフィックスを生成できる新しいニューラルネットワークを提案し、容易に利用可能なラスター訓練画像(つまり、ベクトルに対応しない)からの間接的な監督しか必要としない。 これを実現するために、生成したベクトル形状をレンダリングし、それらをラスタキャンバスに合成する微分可能なラスタ化パイプラインを使用します。 提案手法を各種データセット上で実証し,ベクトルグラフィックスの明示的な監督を必要とする最先端のSVG-VAEとDeepSVGとの比較を行った。 最後に、我々はまた、地下ベクトル表現が利用できないMNISTデータセットのアプローチを実証する。 ソースコード、データセット、その他の結果はhttp://geometry.cs.u cl.ac.uk/projects/20 20/Im2Vec/で入手できる。

Vector graphics are widely used to represent fonts, logos, digital artworks, and graphic designs. But, while a vast body of work has focused on generative algorithms for raster images, only a handful of options exists for vector graphics. One can always rasterize the input graphic and resort to image-based generative approaches, but this negates the advantages of the vector representation. The current alternative is to use specialized models that require explicit supervision on the vector graphics representation at training time. This is not ideal because large-scale high quality vector-graphics datasets are difficult to obtain. Furthermore, the vector representation for a given design is not unique, so models that supervise on the vector representation are unnecessarily constrained. Instead, we propose a new neural network that can generate complex vector graphics with varying topologies, and only requires indirect supervision from readily-available raster training images (i.e., with no vector counterparts). To enable this, we use a differentiable rasterization pipeline that renders the generated vector shapes and composites them together onto a raster canvas. We demonstrate our method on a range of datasets, and provide comparison with state-of-the-art SVG-VAE and DeepSVG, both of which require explicit vector graphics supervision. Finally, we also demonstrate our approach on the MNIST dataset, for which no groundtruth vector representation is available. Source code, datasets, and more results are available at http://geometry.cs.u cl.ac.uk/projects/20 20/Im2Vec/
翻訳日:2021-02-05 20:29:05 公開日:2021-02-04
# (参考訳) 非線形距離距離からカーネルベースの薬物処方予測システムの解析 [全文訳有]

The Analysis from Nonlinear Distance Metric to Kernel-based Drug Prescription Prediction System ( http://arxiv.org/abs/2102.02446v1 )

ライセンス: CC BY 4.0
Der-Chen Chang, Ophir Frieder, Chi-Feng Hung, Hao-Ren Yao(参考訳) 距離メトリックとその非線形バリアントは、機械学習に基づく現実世界の問題解決において重要な役割を果たします。 ユークリッド距離測定とコサイン距離測定が, 理論上だけでなく, 現実世界の医療応用, すなわち薬剤処方のアウトカム予測においてもどのように異なるかを実証した。 ユークリッド距離は局所幾何問題において好ましい性質を示す。 この点で、ユークリッド距離は、低変動結果観察を伴う短期疾患下で適用することができる。 さらに、高変動性慢性疾患を提示する場合、コサイン距離を使用することが好ましい。 これらの異なる幾何学的性質は、元の埋め込み空間に異なる部分多様体をもたらし、したがって、異なる最適化非線形カーネル埋め込みフレームワークにつながる。 これらのフレームワークで必要な幾何学的特性を最初に確立しました。 これらの性質から、特定の視点でそれらの違いを解釈した。 実世界,大規模電子健康記録および埋め込み空間の可視化に関する評価は,我々のアプローチを実証的に検証した。

Distance metrics and their nonlinear variant play a crucial role in machine learning based real-world problem solving. We demonstrated how Euclidean and cosine distance measures differ not only theoretically but also in real-world medical application, namely, outcome prediction of drug prescription. Euclidean distance exhibits favorable properties in the local geometry problem. To this regard, Euclidean distance can be applied under short-term disease with low-variation outcome observation. Moreover, when presenting to highly variant chronic disease, it is preferable to use cosine distance. These different geometric properties lead to different submanifolds in the original embedded space, and hence, to different optimizing nonlinear kernel embedding frameworks. We first established the geometric properties that we needed in these frameworks. From these properties interpreted their differences in certain perspectives. Our evaluation on real-world, large-scale electronic health records and embedding space visualization empirically validated our approach.
翻訳日:2021-02-05 20:00:19 公開日:2021-02-04
# (参考訳) オーステナイト系ステンレス鋼316Lストリップ圧延におけるロール偏向の有限要素解析のための機械学習に基づく一般化モデル [全文訳有]

Machine Learning-Based Generalized Model for Finite Element Analysis of Roll Deflection During the Austenitic Stainless Steel 316L Strip Rolling ( http://arxiv.org/abs/2102.02470v1 )

ライセンス: CC BY 4.0
Mahshad Lotfinia and Soroosh Tayebi Arasteh(参考訳) ストリップ圧延の過程では、材料圧のかなりの力がワークロールの弾性変形、すなわち偏向過程を引き起こす。 ワークロール偏向の制御不能な量は、その幅に沿ってプレートの許容厚さの高い偏差につながります。 オーステナイト系ステンレス鋼 (ASS) は, 低温におけるオーステナイト相の不安定性から, 冷間変形によりひずみ誘起マルテンサイト (SIM) が生成し, 機械的特性が向上する。 これは、冷間変形中にASS 316Lが硬化し、ASS 316Lのひずみ応力曲線が非線形に振る舞うようになり、鋼の他のカテゴリと区別される。 そこで本研究では,冷間圧延におけるASS316Lの流れ応力をより正確に予測するための機械学習(ML)手法を提案する。 さらに,ニューラルネットワークのトレーニングに必要なデータセットである stress316l を得るために,様々な機械的引張試験を行う。 さらに、マルチパスローリングプロセス中にフロー応力の一定値を使用する代わりに、平衡方程式の有限差分(FD)定式化を使用して、フロー応力の動的挙動を考慮し、ストリップが変形中にロールに強制する平均圧力の推定につながります。 最後に、有限要素分析(FEA)を使用して、ワークロールツールの偏向を計算します。 その結果、ASS 316Lに特有のロール偏向の計算のための一般化されたモデルが出来上がります。 私たちの知る限りでは、これはFEMとMLアプローチを使用して圧延プレートの動的フロー応力とSIMを考慮するASS 316Lの最初のモデルであり、通行料のより良い設計に寄与することができます。

During the strip rolling process, a considerable amount of the forces of the material pressure cause elastic deformation on the work-roll, i.e., the deflection process. The uncontrollable amount of the work-roll deflection leads to the high deviations in the permissible thickness of the plate along its width. In the context of the Austenitic Stainless Steels (ASS), due to the instability of the Austenite phase in a cold temperature, cold deformation leads to the production of Strain-Induced Martensite (SIM), which improves the mechanical properties. It leads to the hardening of the ASS 316L during the cold deformation, which causes the Strain-Stress curve of the ASS 316L to behave non-linearly, which distinguishes it from other categories of steels. To account for this phenomenon, we propose to utilize a Machine Learning (ML) method to predict more accurately the flow stress of the ASS 316L during the cold rolling. Furthermore, we conduct various mechanical tensile tests in order to obtain the required dataset, Stress316L, for training the neural network. Moreover, instead of using a constant value of flow stress during the multi-pass rolling process, we use a Finite Difference (FD) formulation of the equilibrium equation in order to account for the dynamic behavior of the flow stress, which leads to the estimation of the mean pressure, which the strip enforces to the rolls during deformation. Finally, using the Finite Element Analysis (FEA), the deflection of the work-roll tools will be calculated. As a result, we end up with a generalized model for the calculation of the roll deflection, specific to the ASS 316L. To the best of our knowledge, this is the first model for ASS 316L which considers dynamic flow stress and SIM of the rolled plate, using FEM and an ML approach, which could contribute to the better design of the tolls.
翻訳日:2021-02-05 18:43:33 公開日:2021-02-04
# (参考訳) 小型人体運動データセットを用いたデータ解析におけるモデルの重要性-ヒトとヒトの姿勢制御に応用した神経ロボティクスからの吸入 [全文訳有]

The Importance of Models in Data Analysis with Small Human Movement Datasets -- Inspirations from Neurorobotics Applied to Posture Control of Humanoids and Humans ( http://arxiv.org/abs/2102.02543v1 )

ライセンス: CC BY-SA 4.0
Vittorio Lippi, Christoph Maurer and Thomas Mergner(参考訳) 本研究では、DEC(Disturbance Estimation and Compensation)パラメトリックモデルを用いた人間の姿勢制御のためのConvolutional Neural Networks(CNN)に基づくシステム識別手順を提案する。 提案した制御モデルのモジュラ構造は、異なる自由度を制御するモジュールのパラメータを特定するために同じニューラルネットワークを使用するという意味で、モジュール識別手順の設計にインスピレーションを与えた。 このように、外部刺激によって引き起こされる身体動揺の例では、複数のトレーニングサンプルを一度に提供しています。

This work presents a system identification procedure based on Convolutional Neural Networks (CNN) for human posture control using the DEC (Disturbance Estimation and Compensation) parametric model. The modular structure of the proposed control model inspired the design of a modular identification procedure, in the sense that the same neural network is used to identify the parameters of the modules controlling different degrees of freedom. In this way the presented examples of body sway induced by external stimuli provide several training samples at once.
翻訳日:2021-02-05 18:33:48 公開日:2021-02-04
# (参考訳) 適応的ランダムフーリエ特徴を用いた風況復元 [全文訳有]

Wind Field Reconstruction with Adaptive Random Fourier Features ( http://arxiv.org/abs/2102.02365v1 )

ライセンス: CC BY 4.0
Jonas Kiessling, Emanuel Str\"om and Ra\'ul Tempone(参考訳) 本研究では, 空間補間法を用いて, 地表面近傍の水平風場を再現する手法について検討した。 特に、ランダムフーリエの特徴は、Krigingや逆距離重み付けを含む一連のベンチマーク手法と比較される。 Random Fourier feature is a linear model $\beta(\pmb x) = \sum_{k=1}^K \beta_k e^{i\omega_k \pmb x}$ approximating the velocity field, with frequency $\omega_k$ randomly sampled and amplitudes $\beta_k$ trained to minimal a loss function。 物理的に動機付けられた発散罰用語 $|\nabla \cdot \beta(\pmb x)|^2$ と、ソボレフノルム上のペナルティを含む。 我々は、一般化誤差の境界を導出し、境界を最小化するサンプリング密度を導出する。 次に(arxiv:2007.10683 [math.na])、最適分布の周波数をサンプリングするための適応メトロポリス・ハスティングスアルゴリズムを考案する。 我々の実験では、ランダムなフーリエ機能はベンチマークモデルよりも優れています。

We investigate the use of spatial interpolation methods for reconstructing the horizontal near-surface wind field given a sparse set of measurements. In particular, random Fourier features is compared to a set of benchmark methods including Kriging and Inverse distance weighting. Random Fourier features is a linear model $\beta(\pmb x) = \sum_{k=1}^K \beta_k e^{i\omega_k \pmb x}$ approximating the velocity field, with frequencies $\omega_k$ randomly sampled and amplitudes $\beta_k$ trained to minimize a loss function. We include a physically motivated divergence penalty term $|\nabla \cdot \beta(\pmb x)|^2$, as well as a penalty on the Sobolev norm. We derive a bound on the generalization error and derive a sampling density that minimizes the bound. Following (arXiv:2007.10683 [math.NA]), we devise an adaptive Metropolis-Hastings algorithm for sampling the frequencies of the optimal distribution. In our experiments, our random Fourier features model outperforms the benchmark models.
翻訳日:2021-02-05 18:04:28 公開日:2021-02-04
# (参考訳) シャーパーサブWeibull濃度 : 非漸近的Bai-Yinの理論 [全文訳有]

Sharper Sub-Weibull Concentrations: Non-asymptotic Bai-Yin's Theorem ( http://arxiv.org/abs/2102.02450v1 )

ライセンス: CC BY 4.0
Huiming Zhang, Haoyu Wei(参考訳) 高次元確率から生じる非漸近集中不等式は、機械学習と高次元統計学の有限サンプル理論において重要な役割を果たす。 この記事では、独立したサブWeibullランダム変数の要約のためのよりシャープで定常的な濃度不等式を得る。これは、小さな偏差のためのサブGaussianと大きな偏差のためのサブWeibullの2つの尾の混合物につながる(平均から)。 これらの境界は、より鋭い定数で既存の境界を改善する。 ランダム行列の応用において、ベイ=インの定理の非漸近版をウェイブル代入に対して導き、それ以前の結果をガウス代入の項で拡張する。 負二項回帰の応用において、共変量ベクトル $X$ がスパース構造で分布しているとき、推定係数の $\ell_2$-error を与え、これは負二項回帰の新しい結果である。

Arising in high-dimensional probability, non-asymptotic concentration inequalities play an essential role in the finite-sample theory of machine learning and high-dimensional statistics. In this article, we obtain a sharper and constants-specified concentration inequality for the summation of independent sub-Weibull random variables, which leads to a mixture of two tails: sub-Gaussian for small deviations and sub-Weibull for large deviations (from mean). These bounds improve existing bounds with sharper constants. In the application of random matrices, we derive non-asymptotic versions of Bai-Yin's theorem for sub-Weibull entries and it extends the previous result in terms of sub-Gaussian entries. In the application of negative binomial regressions, we gives the $\ell_2$-error of the estimated coefficients when covariate vector $X$ is sub-Weibull distributed with sparse structures, which is a new result for negative binomial regressions.
翻訳日:2021-02-05 17:40:51 公開日:2021-02-04
# (参考訳) Covid-19のリスクファクター:ドイツの医療クレームデータからの統計的学習 [全文訳有]

Covid-19 risk factors: Statistical learning from German healthcare claims data ( http://arxiv.org/abs/2102.02697v1 )

ライセンス: CC BY 4.0
Roland Jucknewitz, Oliver Weidinger, Anja Schramm(参考訳) 我々は、AOK Bayernの請求データを用いた振り返りコホート研究に基づいて、Covid-19の重度、重度、致命的なコースに対する事前のリスク要因を分析した。 方法として, 候補因子の事前グループ化と事前選択を回避し, 33,000種以上の共変量を用いて, 診断, 医薬, 手順の詳細な階層化情報を使用する。 我々のアプローチは、事前の主観的知識を必要とせず、明確に特定された致死性グループを用いた形式解析と競合する。 この方法と公表された係数は、脆弱な亜集団に対する保護措置を優先する意思決定者や、より小さなコホートに対する個人のリスク要因の研究における共同創設者の調整を目指す研究者にとって、興味深いものかもしれない。

We analyse prior risk factors for severe, critical or fatal courses of Covid-19 based on a retrospective cohort study using claims data of the AOK Bayern. As a methodological contribution, we avoid prior grouping and pre-selection of candidate risk factors and use fine-grained hierarchical information from medical classification systems for diagnoses, pharmaceuticals and procedures, using more than 33,000 covariates. Our approach is competitive to formal analyses using well-specified morbidity groups without needing prior subject-matter knowledge. The methodology and our published coefficients may be of interest for decision makers when prioritizing protective measures towards vulnerable subpopulations as well as for researchers aiming to adjust for confounders in studies of individual risk factors also for smaller cohorts.
翻訳日:2021-02-05 17:08:36 公開日:2021-02-04
# (参考訳) 放射線治療とPETにおける深層学習に基づく合成CT生成

Deep learning-based synthetic-CT generation in radiotherapy and PET: a review ( http://arxiv.org/abs/2102.02734v1 )

ライセンス: CC BY 4.0
Maria Francesca Spadea, Matteo Maspero, Paolo Zaffino, Joao Seco(参考訳) 近年,SCT(Synthetic Computed Tomography)の生成のためのディープラーニング(DL)に基づく手法が,古典的手法の代替として注目されている。 臨床応用としては, 磁気共鳴(MR)による治療計画におけるCTの置き換え, II) コーンビームCT(CBCT)による画像誘導適応放射線治療の促進, III) ポジトロン・エミッション・トモグラフィ(PET)の補正のための減衰地図の作成, の3つのカテゴリに分類して, これらの手法を体系的に検討する。 適切なデータベース検索は2014年1月から2020年12月までに発行されたジャーナルの記事で実施された。 DL法の主な特徴は、各対象研究から抽出され、ネットワークアーキテクチャとメトリクス間の包括的な比較が報告された。 各カテゴリの詳細なレビューが行われ、重要な貢献を強調し、特定の課題を特定し、成果を要約しました。 最後に, 様々な側面から引用された全作品の統計を分析した結果, 人気と今後の傾向, DLベースのsCT生成の可能性を明らかにした。 dl-based sct generation の現況について検討し,本法の臨床適応性について検討した。

Recently, deep learning (DL)-based methods for the generation of synthetic computed tomography (sCT) have received significant research attention as an alternative to classical ones. We present here a systematic review of these methods by grouping them into three categories, according to their clinical applications: I) to replace CT in magnetic resonance (MR)-based treatment planning, II) facilitate cone-beam computed tomography (CBCT)-based image-guided adaptive radiotherapy, and III) derive attenuation maps for the correction of Positron Emission Tomography (PET). Appropriate database searching was performed on journal articles published between January 2014 and December 2020. The DL methods' key characteristics were extracted from each eligible study, and a comprehensive comparison among network architectures and metrics was reported. A detailed review of each category was given, highlighting essential contributions, identifying specific challenges, and summarising the achievements. Lastly, the statistics of all the cited works from various aspects were analysed, revealing the popularity and future trends, and the potential of DL-based sCT generation. The current status of DL-based sCT generation was evaluated, assessing the clinical readiness of the presented methods.
翻訳日:2021-02-05 16:57:43 公開日:2021-02-04
# テキスト生成による視覚言語タスクの統合

Unifying Vision-and-Language Tasks via Text Generation ( http://arxiv.org/abs/2102.02779v1 )

ライセンス: Link先を確認
Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal(参考訳) 既存の視覚・言語学習の方法は、通常、タスク固有のアーキテクチャと各タスクの目的を設計する必要がある。 例えば、視覚的質問応答のためのマルチラベル回答分類器、表現理解を参照するための領域スコアラー、および画像キャプションのための言語デコーダなどである。 これらの問題を軽減するため,本稿では,視覚的およびテキスト的入力に基づくテキストのラベル生成を学習するマルチモーダル条件付きテキスト生成という,同一言語モデリング目的の単一アーキテクチャで異なるタスクを学習する統一的なフレームワークを提案する。 視覚質問応答、表現理解の参照、視覚常識推論を含む7つの一般的な視覚言語ベンチマークにおいて、私たちの生成的アプローチ(単一の統一アーキテクチャ)は、最近のタスク固有の視覚言語モデルに匹敵するパフォーマンスに達している。 さらに,我々の生成的アプローチは,稀な回答を持つ質問に対して,より優れた一般化能力を示す。 さらに,本フレームワークでは,一組のパラメータを持つ単一アーキテクチャでマルチタスク学習が可能であり,個別に最適化された単一タスクモデルと同じような性能を実現する。 コードはhttps://github.com/j -min/VL-T5で公開されます。

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on answering questions that have rare answers. In addition, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, which achieves similar performance to separately optimized single-task models. Our code will be publicly available at: https://github.com/j -min/VL-T5
翻訳日:2021-02-05 16:51:33 公開日:2021-02-04
# データ・テキスト生成における単語レベルの幻覚制御

Controlling Hallucinations at Word Level in Data-to-Text Generation ( http://arxiv.org/abs/2102.02810v1 )

ライセンス: Link先を確認
Cl\'ement Rebuffel, Marco Roberti, Laure Soulier, Geoffrey Scoutheeten, Rossella Cancelliere, Patrick Gallinari(参考訳) Data-to-Text Generation (DTG) は、自然言語記述における構造化データの書き起こしを目的とした自然言語生成のサブフィールドである。 この分野は最近、手作りのパイプラインを必要とせずに優れた構文スキルを示すニューラルネットワークジェネレータの使用によって強化されている。一方、生成されたテキストの品質はトレーニングデータの品質を反映しているため、現実的な設定では不完全な構造テキストペアしか提供されない。 その結果、最先端のニューラルモデルには、アウトプットに誤解を招くステートメント(通常幻覚と呼ばれる)が含まれる。 この現象の制御は、現在DTGにとって大きな課題であり、論文で対処されている問題です。 以前の作業では、インスタンスレベルでこの問題を扱う。 各テーブル参照ペアのアライメントスコアを使用する。 対照的に,幻覚は単語レベルで扱われるべきであると主張する,より細かいアプローチを提案する。 具体的には、単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。 これらのラベルは、共起解析と依存性解析に基づく単純で効率的なスコアリング手順に従って得られる。 標準wikibioベンチマークにおける自動測定と人的判断による広範な評価は、アライメントラベルの精度と提案するマルチブランチデコーダの有効性を示している。 我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。 ToTToの劣化バージョンに関するさらなる実験は、非常にノイズの多い設定で私たちのモデルをうまく利用できることを示しています。

Data-to-Text Generation (DTG) is a subfield of Natural Language Generation aiming at transcribing structured data in natural language descriptions. The field has been recently boosted by the use of neural-based generators which exhibit on one side great syntactic skills without the need of hand-crafted pipelines; on the other side, the quality of the generated text reflects the quality of the training data, which in realistic settings only offer imperfectly aligned structure-text pairs. Consequently, state-of-art neural models include misleading statements - usually called hallucinations - in their outputs. The control of this phenomenon is today a major challenge for DTG, and is the problem addressed in the paper. Previous work deal with this issue at the instance level: using an alignment score for each table-reference pair. In contrast, we propose a finer-grained approach, arguing that hallucinations should rather be treated at the word level. Specifically, we propose a Multi-Branch Decoder which is able to leverage word-level labels to learn the relevant parts of each training instance. These labels are obtained following a simple and efficient scoring procedure based on co-occurrence analysis and dependency parsing. Extensive evaluations, via automated metrics and human judgment on the standard WikiBio benchmark, show the accuracy of our alignment labels and the effectiveness of the proposed Multi-Branch Decoder. Our model is able to reduce and control hallucinations, while keeping fluency and coherence in generated texts. Further experiments on a degraded version of ToTTo show that our model could be successfully used on very noisy settings.
翻訳日:2021-02-05 16:50:51 公開日:2021-02-04
# meingame: 一つのポートレートからゲームキャラクターの顔を作る

MeInGame: Create a Game Character Face from a Single Portrait ( http://arxiv.org/abs/2102.02371v1 )

ライセンス: Link先を確認
Jiangke Lin, Yi Yuan, Zhengxia Zou(参考訳) 近年,深層学習に基づく3次元顔再構成法が提案されているが,ゲームに応用例は少ない。 現在のゲームキャラクターのカスタマイズシステムでは、プレイヤーは顔の特徴を手動で調整する必要があるか、顔の形やテクスチャの制限がある。 本論文では,顔の形状と質感を1つのポートレートから予測し,既存のほとんどの3Dゲームに組み込むことができる自動文字顔作成手法を提案する。 3D Morphable Face Model(3DMM)ベースの手法は、単一の画像から正確な3D顔を復元することができるが、3DMMメッシュのトポロジは、ほとんどのゲームで使用されるメッシュとは異なる。 忠実なテクスチャを得るためには、既存の手法ではトレーニングに大量の顔テクスチャデータを必要とするが、そのようなデータセットの構築には時間がかかり、手間がかかる。 さらに、実験室で収集されたそのようなデータセットは、現場の状況によく当てはまらない。 これらの課題に対処するために,1)低コストの顔テクスチャ取得手法,2)3DMMメッシュの形状をゲームに変換する形状変換アルゴリズム,3)3Dゲームフェイス再構築ネットワークをトレーニングするための新しいパイプラインを提案する。 提案手法は,入力されたポートレートに類似した詳細かつ鮮明なゲームキャラクタを生成できるだけでなく,照明や咬合の影響も排除できる。 実験の結果,本手法はゲームにおける最先端手法よりも優れていた。

Many deep learning based 3D face reconstruction methods have been proposed recently, however, few of them have applications in games. Current game character customization systems either require players to manually adjust considerable face attributes to obtain the desired face, or have limited freedom of facial shape and texture. In this paper, we propose an automatic character face creation method that predicts both facial shape and texture from a single portrait, and it can be integrated into most existing 3D games. Although 3D Morphable Face Model (3DMM) based methods can restore accurate 3D faces from single images, the topology of 3DMM mesh is different from the meshes used in most games. To acquire fidelity texture, existing methods require a large amount of face texture data for training, while building such datasets is time-consuming and laborious. Besides, such a dataset collected under laboratory conditions may not generalized well to in-the-wild situations. To tackle these problems, we propose 1) a low-cost facial texture acquisition method, 2) a shape transfer algorithm that can transform the shape of a 3DMM mesh to games, and 3) a new pipeline for training 3D game face reconstruction networks. The proposed method not only can produce detailed and vivid game characters similar to the input portrait, but can also eliminate the influence of lighting and occlusions. Experiments show that our method outperforms state-of-the-art methods used in games.
翻訳日:2021-02-05 16:49:23 公開日:2021-02-04
# 大規模言語モデルの能力・限界・社会的影響を理解する

Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models ( http://arxiv.org/abs/2102.02503v1 )

ライセンス: Link先を確認
Alex Tamkin, Miles Brundage, Jack Clark, Deep Ganguli(参考訳) 2020年10月14日、openai、stanford institute for human-centered artificial intelligence、および他の大学の研究者たちが、当時最大の公開密集型言語モデルであるgpt-3に関するオープンリサーチに関する議論に集まった。 会議はチャタム・ハウス・ルールズの下で開催された。 議論者は、コンピュータ科学、言語学、哲学、政治科学、コミュニケーション、サイバー政策など、様々な研究の背景から来ていた。 1) 大規模言語モデルの技術的能力と制限は何ですか? 2)大規模言語モデルの普及による社会的影響はどのようなものか? ここでは、上記の2つのテーマで構成した議論の詳細な概要を説明します。

On October 14th, 2020, researchers from OpenAI, the Stanford Institute for Human-Centered Artificial Intelligence, and other universities convened to discuss open research questions surrounding GPT-3, the largest publicly-disclosed dense language model at the time. The meeting took place under Chatham House Rules. Discussants came from a variety of research backgrounds including computer science, linguistics, philosophy, political science, communications, cyber policy, and more. Broadly, the discussion centered around two main questions: 1) What are the technical capabilities and limitations of large language models? 2) What are the societal effects of widespread use of large language models? Here, we provide a detailed summary of the discussion organized by the two themes above.
翻訳日:2021-02-05 16:48:38 公開日:2021-02-04
# 粒状受入予測のためのEHRの時間カスケードと構造モデリング

Temporal Cascade and Structural Modelling of EHRs for Granular Readmission Prediction ( http://arxiv.org/abs/2102.02586v1 )

ライセンス: Link先を確認
Bhagya Hettige, Weiqing Wang, Yuan-Fang Li, Suong Le, Wray Buntine(参考訳) 1)次の入院時と(2)電子健康記録(EHR)データをマイニングすることで、患者の次の入院時に何が起こるかを予測することで、臨床上の意思決定を支援することができる。 リカレントニューラルネットワーク(RNN)とポイントプロセスモデルは通常、時間的シーケンシャルデータのモデル化に使用される。 単純なRNNモデルは、病院訪問のシーケンスが連続訪問の間の厳密な因果関係に従うと仮定する。 しかし、現実の世界では、患者は複数の慢性的な疾患、すなわちマルチモルビディティを併存している可能性があるため、非中間の歴史的訪問が次の訪問に最も影響を与える可能性がある。 点過程(例えば、ホークス過程)はカスケード時間関係をモデル化できるが、それ以前の生成過程の仮定に強く依存している。 これらの課題に対処するための新しいモデルMEDCASを提案する。 MEDCASは、訪問タイプと時間ギャップをモデル化する点過程を、時間的カスケード関係を捉えることのできる注意に基づくシーケンス・ツー・シーケンス学習モデルに統合することで、RNNベースのモデルとポイントプロセスの長所を結合する。 短期訪問患者を補うため,MEDCASにおけるポイントプロセスのマーカーを構築するために,グラフに基づく構造モデリング手法が用いられている。 実世界の3つのEHRデータセットに対する大規模な実験が実施され、その結果、 \texttt{MEDCAS} が両方のタスクにおける最先端モデルより優れていることが示された。

Predicting (1) when the next hospital admission occurs and (2) what will happen in the next admission about a patient by mining electronic health record (EHR) data can provide granular readmission predictions to assist clinical decision making. Recurrent neural network (RNN) and point process models are usually employed in modelling temporal sequential data. Simple RNN models assume that sequences of hospital visits follow strict causal dependencies between consecutive visits. However, in the real-world, a patient may have multiple co-existing chronic medical conditions, i.e., multimorbidity, which results in a cascade of visits where a non-immediate historical visit can be most influential to the next visit. Although a point process (e.g., Hawkes process) is able to model a cascade temporal relationship, it strongly relies on a prior generative process assumption. We propose a novel model, MEDCAS, to address these challenges. MEDCAS combines the strengths of RNN-based models and point processes by integrating point processes in modelling visit types and time gaps into an attention-based sequence-to-sequence learning model, which is able to capture the temporal cascade relationships. To supplement the patients with short visit sequences, a structural modelling technique with graph-based methods is used to construct the markers of the point process in MEDCAS. Extensive experiments on three real-world EHR datasets have been performed and the results demonstrate that \texttt{MEDCAS} outperforms state-of-the-art models in both tasks.
翻訳日:2021-02-05 16:48:06 公開日:2021-02-04
# 極小超パラメータ二層ニューラルネットワークの局所収束理論

A Local Convergence Theory for Mildly Over-Parameterized Two-Layer Neural Network ( http://arxiv.org/abs/2102.02410v1 )

ライセンス: Link先を確認
Mo Zhou, Rong Ge, Chi Jin(参考訳) 過剰なパラメータ化はニューラルネットワークの最適化の成功に不可欠だと広く考えられているが、既存の過剰なパラメータ化の理論のほとんどは、その理由を完全に説明していない。 実際には、教師ニューラルネットワークを用いてデータが生成される場合、わずかに過度にパラメータ化されたニューラルネットワークでも0損失を達成し、教師ニューロンの方向を回復することができる。 本稿では,軽度過パラメータ2層ニューラルネットの局所収束理論を考案する。 我々は、損失が既に閾値よりも低い限り(関連するパラメータではポリノミカル)、過度にパラメータ化された2層ニューラルネットワークの全ての学生ニューロンが教師ニューロンの1つに収束し、損失は0。 私たちの結果は、教師ニューロンの数よりも少なくとも大きい限り、学生ニューロンの任意の数を保持し、私たちの収束率は、学生ニューロンの数から独立しています。 我々の分析の重要な要素は、局所最適化景観の新たなキャラクタリゼーションです -- 前の研究で使われた局所強い凸性やpl条件とは異なる、lojasiewicz特性の特別なケースを満たす勾配を示します。

While over-parameterizatio n is widely believed to be crucial for the success of optimization for the neural networks, most existing theories on over-parameterizatio n do not fully explain the reason -- they either work in the Neural Tangent Kernel regime where neurons don't move much, or require an enormous number of neurons. In practice, when the data is generated using a teacher neural network, even mildly over-parameterized neural networks can achieve 0 loss and recover the directions of teacher neurons. In this paper we develop a local convergence theory for mildly over-parameterized two-layer neural net. We show that as long as the loss is already lower than a threshold (polynomial in relevant parameters), all student neurons in an over-parameterized two-layer neural network will converge to one of teacher neurons, and the loss will go to 0. Our result holds for any number of student neurons as long as it is at least as large as the number of teacher neurons, and our convergence rate is independent of the number of student neurons. A key component of our analysis is the new characterization of local optimization landscape -- we show the gradient satisfies a special case of Lojasiewicz property which is different from local strong convexity or PL conditions used in previous work.
翻訳日:2021-02-05 16:44:08 公開日:2021-02-04
# 全変動正規化による雑音ラベルのみからの学習雑音遷移行列

Learning Noise Transition Matrix from Only Noisy Labels via Total Variation Regularization ( http://arxiv.org/abs/2102.02414v1 )

ライセンス: Link先を確認
Yivan Zhang, Gang Niu, Masashi Sugiyama(参考訳) 多くの弱教師付き分類法は、クラス条件ラベルの破損を捉えるためにノイズ遷移行列を用いる。 ノイズの多いデータから遷移行列を推定するために、既存の手法では、ニューラルネットワークの過信のために信頼できないノイズの多いクラスポストを推定する必要があることが多い。 本研究では, 雑音遷移行列を推定し, 誤りを生じやすいクラス後推定に頼らずに, 同時に分類器を学習する理論的基礎的手法を提案する。 具体的には,確率ラベルの破壊過程の特徴に着想を得て,予測確率を互いにより区別しやすくする全変分正則化を提案する。 軽度の仮定の下で、提案手法は遷移行列の一貫した推定値を得る。 ベンチマークおよび実世界データセットを用いた実験により,提案手法の有効性を示す。

Many weakly supervised classification methods employ a noise transition matrix to capture the class-conditional label corruption. To estimate the transition matrix from noisy data, existing methods often need to estimate the noisy class-posterior, which could be unreliable due to the overconfidence of neural networks. In this work, we propose a theoretically grounded method that can estimate the noise transition matrix and learn a classifier simultaneously, without relying on the error-prone noisy class-posterior estimation. Concretely, inspired by the characteristics of the stochastic label corruption process, we propose total variation regularization, which encourages the predicted probabilities to be more distinguishable from each other. Under mild assumptions, the proposed method yields a consistent estimator of the transition matrix. We show the effectiveness of the proposed method through experiments on benchmark and real-world datasets.
翻訳日:2021-02-05 16:43:28 公開日:2021-02-04
# 点雲からシミュレーションモデルへ:3次元モデリングのためのベイズ分節とエントロピーに基づく不確かさ推定

From a Point Cloud to a Simulation Model: Bayesian Segmentation and Entropy based Uncertainty Estimation for 3D Modelling ( http://arxiv.org/abs/2102.02488v1 )

ライセンス: Link先を確認
Christina Petschnigg, Markus Spitzner, Lucas Weitzendorf and J\"urgen Pilz(参考訳) 室内環境の3Dモデリングとプロセスシミュレーションの生成は、工場および組立計画において重要な役割を果たします。 ブラウンフィールド計画では、既存のデータはしばしば時代遅れで、特に2dで計画された古い植物では不完全である。 したがって、現在の環境モデルは既存のデータに基づいて直接生成することができず、そのような工場モデルを高度に自動化した方法で構築する方法に関する全体的なアプローチはほとんど存在しない。 生産プラントで環境モデルを生成する主なステップは、データ収集と事前処理、オブジェクト識別、およびポーズ推定である。 本稿では,大規模室内環境のディジタル化から始まり,静的環境やシミュレーションモデルの生成に至る,方法論的ワークフローを詳述する。 オブジェクト識別ステップは、ポイントクラウドセグメンテーションが可能なベイズニューラルネットワークを使用して実現される。 ベイジアンセグメンテーションフレームワークによって生成されたネットワークの不確実性に関する情報を用いて、より正確な環境モデルを構築する方法について詳しく述べる。 大規模自動車生産プラントの組立ラインで収集された実世界のデータセットにおいて、データ収集とポイントクラウドセグメンテーションのステップと結果のモデル精度を評価する。 セグメンテーションネットワークは、Stanford Large-Scale 3D Indoor Spacesデータセットでさらに評価されている。 ベイジアンセグメンテーションネットワークは、頻繁なベースラインの性能を明らかに上回り、シミュレーションシーンにおけるモデル配置の精度を大幅に向上させることができる。

The 3D modelling of indoor environments and the generation of process simulations play an important role in factory and assembly planning. In brownfield planning cases existing data are often outdated and incomplete especially for older plants, which were mostly planned in 2D. Thus, current environment models cannot be generated directly on the basis of existing data and a holistic approach on how to build such a factory model in a highly automated fashion is mostly non-existent. Major steps in generating an environment model in a production plant include data collection and pre-processing, object identification as well as pose estimation. In this work, we elaborate a methodical workflow, which starts with the digitalization of large-scale indoor environments and ends with the generation of a static environment or simulation model. The object identification step is realized using a Bayesian neural network capable of point cloud segmentation. We elaborate how the information on network uncertainty generated by a Bayesian segmentation framework can be used in order to build up a more accurate environment model. The steps of data collection and point cloud segmentation as well as the resulting model accuracy are evaluated on a real-world data set collected at the assembly line of a large-scale automotive production plant. The segmentation network is further evaluated on the publicly available Stanford Large-Scale 3D Indoor Spaces data set. The Bayesian segmentation network clearly surpasses the performance of the frequentist baseline and allows us to increase the accuracy of the model placement in a simulation scene considerably.
翻訳日:2021-02-05 16:42:56 公開日:2021-02-04
# 最適一級分類性能

Optimised one-class classification performance ( http://arxiv.org/abs/2102.02618v1 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis(参考訳) 本稿では、SVM(Support Vector Machine)、NND(Nearest Neighbour Distance)、ALP(Average Localized Proximity)の3つのデータ記述子に対するハイパーパラメータ最適化の徹底的な処理について述べる。 SVMのハイパーパラメータはクロスバリデーションによって最適化されなければならないが、NNDとALPは1つの最寄りのクエリを再利用できる。 50個のデータセットから抽出した246個の分類問題に対するハイパーパラメータ最適化の効果を実験的に評価する。 最適化アルゴリズムの選択から、最近のMalherbe-Powell提案は、3つのデータディスクリプタのハイパーパラメータを最も効率的に最適化します。 ハイパーパラメータ評価の数の関数として、テストAUROCの増加とオーバーフィットの量を計算します。 50回の評価の後、ALPとSVMは共にNNDを著しく上回った。 ALPとSVMのパフォーマンスは同等ですが、ALPはより効率的に最適化できます。 これは、ハイパーパラメータ最適化を伴う1クラス分類の多くの変数を、既知のトレードオフによる明確な選択へと分解し、実践者がインフォームドな決定を行えるようにする。

We provide a thorough treatment of hyperparameter optimisation for three data descriptors with a good track-record in the literature: Support Vector Machine (SVM), Nearest Neighbour Distance (NND) and Average Localised Proximity (ALP). The hyperparameters of SVM have to be optimised through cross-validation, while NND and ALP allow the reuse of a single nearest-neighbour query and an efficient form of leave-one-out validation. We experimentally evaluate the effect of hyperparameter optimisation with 246 classification problems drawn from 50 datasets. From a selection of optimisation algorithms, the recent Malherbe-Powell proposal optimises the hyperparameters of all three data descriptors most efficiently. We calculate the increase in test AUROC and the amount of overfitting as a function of the number of hyperparameter evaluations. After 50 evaluations, ALP and SVM both significantly outperform NND. The performance of ALP and SVM is comparable, but ALP can be optimised more efficiently, while a choice between ALP and SVM based on validation AUROC gives the best overall result. This distils the many variables of one-class classification with hyperparameter optimisation down to a clear choice with a known trade-off, allowing practitioners to make informed decisions.
翻訳日:2021-02-05 16:42:13 公開日:2021-02-04
# LipSwishを連結したInvertible DenseNets

Invertible DenseNets with Concatenated LipSwish ( http://arxiv.org/abs/2102.02694v1 )

ライセンス: Link先を確認
Yura Perugachi-Diaz, Jakub M. Tomczak, Sandjai Bhulai(参考訳) 残差フローに代わるよりパラメータ効率の良いInvertible Dense Networks(i-DenseNets )を紹介します。 この方法は、Lipschitz定数を満たすことによってネットワークの反転性を強制するDenseNetsの連結のLipschitz連続性の分析に依存します。 本手法は,モデル性能の向上だけでなく,連結表現の重要性も示し,学習可能な連結を提案して拡張する。 さらに、Lipschitz条件を強制する方法を示し、パフォーマンスを高めるためのアクティベーション機能としてConcatenated LipSwishを紹介します。 新しいアーキテクチャ i-DenseNet はResidual Flow や他のフローベースモデルと同等のパラメータ予算を用いて,次元当たりのビットで評価された密度推定を行う。 さらに, モデルが生成モデルと判別モデルの両方であるハイブリッドモデルとして訓練された場合, 提案モデルが残差流を上回ることを示す。

We introduce Invertible Dense Networks (i-DenseNets), a more parameter efficient alternative to Residual Flows. The method relies on an analysis of the Lipschitz continuity of the concatenation in DenseNets, where we enforce invertibility of the network by satisfying the Lipschitz constant. We extend this method by proposing a learnable concatenation, which not only improves the model performance but also indicates the importance of the concatenated representation. Additionally, we introduce the Concatenated LipSwish as activation function, for which we show how to enforce the Lipschitz condition and which boosts performance. The new architecture, i-DenseNet, out-performs Residual Flow and other flow-based models on density estimation evaluated in bits per dimension, where we utilize an equal parameter budget. Moreover, we show that the proposed model out-performs Residual Flows when trained as a hybrid model where the model is both a generative and a discriminative model.
翻訳日:2021-02-05 16:41:32 公開日:2021-02-04
# 分散ロバスト性のためのSelfNormとCrossNorm

SelfNorm and CrossNorm for Out-of-Distribution Robustness ( http://arxiv.org/abs/2102.02811v1 )

ライセンス: Link先を確認
Zhiqiang Tang, Yunhe Gao, Yi Zhu, Zhi Zhang, Mu Li, Dimitris Metaxas(参考訳) 正規化技術はディープニューラルネットワークのトレーニングの安定化と加速に不可欠である。 しかし、それらは主に独立で同一の分散(IID)データのために設計されており、多くの現実世界の分散(OOD)状況を満たしていません。 従来と異なり,本論文ではOOD一般化を促進するために,SelfNormとCrossNormの2つの正規化手法を提案する。 SelfNormは、統計(チャネル平均と分散)を再検討するのに対して、CrossNormは特徴マップ間で統計を交換する。 SelfNormとCrossNormは、統計利用のさまざまな方向を探索しながら、OOD一般化で互いに補完することができます。 異なる領域(視覚と言語)、タスク(分類とセグメンテーション)、および設定(監督および半監督)に関する広範な実験は、それらの有効性を示しています。

Normalization techniques are crucial in stabilizing and accelerating the training of deep neural networks. However, they are mainly designed for the independent and identically distributed (IID) data, not satisfying many real-world out-of-distribution (OOD) situations. Unlike most previous works, this paper presents two normalization methods, SelfNorm and CrossNorm, to promote OOD generalization. SelfNorm uses attention to recalibrate statistics (channel-wise mean and variance), while CrossNorm exchanges the statistics between feature maps. SelfNorm and CrossNorm can complement each other in OOD generalization, though exploring different directions in statistics usage. Extensive experiments on different domains (vision and language), tasks (classification and segmentation), and settings (supervised and semi-supervised) show their effectiveness.
翻訳日:2021-02-05 16:40:55 公開日:2021-02-04
# データセットのスケール測定の探索

Exploring Scale-Measures of Data Sets ( http://arxiv.org/abs/2102.02576v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) 測定は、多数の科学的モデルとその作成の基本的なビルディングブロックです。 これは特にデータ駆動科学に当てはまります。 現代のデータセットの複雑さとサイズが高いため、理解可能で効率的なスケーリングメソッドの開発の必要性が手中にあります。 データのスケーリングに関する深い理論は、形式的な概念分析の分野で開発されたスケール測定である。 近年の発展は、与えられたデータセットのすべてのスケール測定値の集合が格子を構成することを示し、効率的な探索アルゴリズムを可能にする。 本研究では,この格子の性質を研究し,よく知られた属性探索手法に基づく新しいスケール計測探索アルゴリズムを提案する。 私達の結果はスケールの推薦の複数の適用を、最も顕著な(半)自動スケーリング動機づけます。

Measurement is a fundamental building block of numerous scientific models and their creation. This is in particular true for data driven science. Due to the high complexity and size of modern data sets, the necessity for the development of understandable and efficient scaling methods is at hand. A profound theory for scaling data is scale-measures, as developed in the field of formal concept analysis. Recent developments indicate that the set of all scale-measures for a given data set constitutes a lattice and does hence allow efficient exploring algorithms. In this work we study the properties of said lattice and propose a novel scale-measure exploration algorithm that is based on the well-known and proven attribute exploration approach. Our results motivate multiple applications in scale recommendation, most prominently (semi-)automatic scaling.
翻訳日:2021-02-05 16:39:41 公開日:2021-02-04
# EFloat: ディープラーニングのためのエントロピーコードフローティングポイントフォーマット

EFloat: Entropy-coded Floating Point Format for Deep Learning ( http://arxiv.org/abs/2102.02705v1 )

ライセンス: Link先を確認
Rajesh Bordawekar and Bulent Abali and Ming-Hung Chen(参考訳) FP32, BFloat16, IEEE-Half精度, DLFloat, TensorFloat, 8ビットフロートを含む任意の幅の既存の浮動小数点(FP)フォーマットよりも4~6ビットの精度と広い指数域を持つEFloat浮動小数点数形式について述べる。 ディープラーニングモデルの大規模なクラスでは、FP指数値がエントロピー符号化の機会を示すいくつかのユニークな値に集結する傾向にある。 EFloatフォーマットは、頻繁な指数値と符号をHuffmanコードでエンコードし、平均指数フィールド幅を最小限に抑えます。 保存ビットは、同じ幅の他のFPフォーマットと比較して平均4ビットから6ビットのEFloat数値精度を増大させる。 提案する符号化の概念は、8ビットフロートを含む低精度フォーマットに有用である。 低精度演算によるディープラーニングモデルのトレーニングは難しい。 EFloatの精度が向上すれば、これらのタスクにもチャンスが生まれるかもしれない。 我々は現在,大規模なNLPディープラーニングモデルで使用されるメモリの圧縮と保存にEFloatフォーマットを使用している。 AIアクセラレータのPCIeおよびメモリ帯域幅制限を改善するための潜在的なハードウェア実装も議論されている。

We describe the EFloat floating-point number format with 4 to 6 additional bits of precision and a wider exponent range than the existing floating point (FP) formats of any width including FP32, BFloat16, IEEE-Half precision, DLFloat, TensorFloat, and 8-bit floats. In a large class of deep learning models we observe that FP exponent values tend to cluster around few unique values which presents entropy encoding opportunities. The EFloat format encodes frequent exponent values and signs with Huffman codes to minimize the average exponent field width. Saved bits then become available to the mantissa increasing the EFloat numeric precision on average by 4 to 6 bits compared to other FP formats of equal width. The proposed encoding concept may be beneficial to low-precision formats including 8-bit floats. Training deep learning models with low precision arithmetic is challenging. EFloat, with its increased precision may provide an opportunity for those tasks as well. We currently use the EFloat format for compressing and saving memory used in large NLP deep learning models. A potential hardware implementation for improving PCIe and memory bandwidth limitations of AI accelerators is also discussed.
翻訳日:2021-02-05 16:37:48 公開日:2021-02-04
# 混合データ型インプテーションのための漸近的完全かつ高速ガウスコプラモデル

Asymptotically Exact and Fast Gaussian Copula Models for Imputation of Mixed Data Types ( http://arxiv.org/abs/2102.02642v1 )

ライセンス: Link先を確認
Benjamin Christoffersen, Mark Clements, Keith Humphreys, Hedvig Kjellstr\"om(参考訳) 混合データ型による値の欠落は、サーベイの処理や異なる医学的応用など、多数の機械学習アプリケーションにおいて一般的な問題である。 近年,確率的枠組みを用いて損失値の計算を行う手段としてガウスコプラモデルが提案されている。 現在のガウスコプラモデルは、芸術的パフォーマンスの状態を生み出すことが示されているが、それらは2つの制限がある:それらは高速であるが不正確であり、順序のない多項式変数をサポートしない近似に基づいている。 ランダム化擬似モンテカルロ法を用いてモデル推定とインプットの両方に直接的および任意的精度の近似を用いた最初の制限に対処する。 提案手法では,提案手法と比較して,推定モデルパラメータとインプット値の誤差が低い。 また、以前のガウスコプラモデルを拡張し、順序変数、二項変数、連続変数の現在のサポートに加えて、順序付き多項式変数を含める。

Missing values with mixed data types is a common problem in a large number of machine learning applications such as processing of surveys and in different medical applications. Recently, Gaussian copula models have been suggested as a means of performing imputation of missing values using a probabilistic framework. While the present Gaussian copula models have shown to yield state of the art performance, they have two limitations: they are based on an approximation that is fast but may be imprecise and they do not support unordered multinomial variables. We address the first limitation using direct and arbitrarily precise approximations both for model estimation and imputation by using randomized quasi-Monte Carlo procedures. The method we provide has lower errors for the estimated model parameters and the imputed values, compared to previously proposed methods. We also extend the previous Gaussian copula models to include unordered multinomial variables in addition to the present support of ordinal, binary, and continuous variables.
翻訳日:2021-02-05 16:36:36 公開日:2021-02-04
# Instance-Aware Projection Consistency による動的シーンの単眼的深さの学習

Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency ( http://arxiv.org/abs/2102.02629v1 )

ライセンス: Link先を確認
Seokju Lee, Sunghoon Im, Stephen Lin, In So Kweon(参考訳) 本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。 私たちの技術貢献は3倍です。 まず、各剛体物体の個々の動きをモデル化しながら、逆投影と前方投影の基本的な違いを強調し、ニューラルフォワードプロジェクションモジュールを用いた幾何的補正プロジェクションパイプラインを提案する。 第2に,各背景領域と対象領域に自己スーパーバイザリー信号を与える,統一的なインスタンス認識型フォトメトリックと幾何学的一貫性の損失をデザインする。 最後に,オフザシェルフインスタンスセグメンテーションと光フローモデルを用いて,トレーニングパイプラインの入力として使用されるビデオインスタンスセグメンテーションマップを生成する汎用的な自動アノテーション方式を提案する。 これらの要素は詳細なアブレーション研究で検証される。 kittiとcityscapesデータセットで行った広範囲な実験を通じて,最先端の奥行き推定手法と動き推定手法に勝ることを示す。 私たちのコード、データセット、モデルはhttps://github.com/S eokjuLee/Insta-DM で利用可能です。

We present an end-to-end joint training framework that explicitly models 6-DoF motion of multiple dynamic objects, ego-motion and depth in a monocular camera setup without supervision. Our technical contributions are three-fold. First, we highlight the fundamental difference between inverse and forward projection while modeling the individual motion of each rigid object, and propose a geometrically correct projection pipeline using a neural forward projection module. Second, we design a unified instance-aware photometric and geometric consistency loss that holistically imposes self-supervisory signals for every background and object region. Lastly, we introduce a general-purpose auto-annotation scheme using any off-the-shelf instance segmentation and optical flow models to produce video instance segmentation maps that will be utilized as input to our training pipeline. These proposed elements are validated in a detailed ablation study. Through extensive experiments conducted on the KITTI and Cityscapes dataset, our framework is shown to outperform the state-of-the-art depth and motion estimation methods. Our code, dataset, and models are available at https://github.com/S eokjuLee/Insta-DM .
翻訳日:2021-02-05 16:35:57 公開日:2021-02-04
# 保証付きチューニングパラメータの学習のためのメタストラテジー

Meta-strategy for Learning Tuning Parameters with Guarantees ( http://arxiv.org/abs/2102.02504v1 )

ライセンス: Link先を確認
Dimitri Meunier and Pierre Alquier(参考訳) オンライングラデーションアルゴリズム(OGA)のようなオンライングラデーションメソッドは、実際には設定が難しいパラメータのチューニングに依存します。 オンラインメタラーニングシナリオを検討し、過去のタスクからこれらのパラメータを学習するためのメタストラテジーを提案します。 我々の戦略は後悔の限界の最小化に基づいている。 これにより、OGAの初期化とステップサイズを保証で学ぶことができる。 我々は,凸損失の場合の戦略の後悔の分析を行う。 パラメータが$\theta_1,\dots,\the ta_T$で、それぞれ1,\dots,T$で、互いに十分近い場合、我々の戦略は、それぞれのタスクを独立して学習することを改善することを示唆している。

Online gradient methods, like the online gradient algorithm (OGA), often depend on tuning parameters that are difficult to set in practice. We consider an online meta-learning scenario, and we propose a meta-strategy to learn these parameters from past tasks. Our strategy is based on the minimization of a regret bound. It allows to learn the initialization and the step size in OGA with guarantees. We provide a regret analysis of the strategy in the case of convex losses. It suggests that, when there are parameters $\theta_1,\dots,\the ta_T$ solving well tasks $1,\dots,T$ respectively and that are close enough one to each other, our strategy indeed improves on learning each task in isolation.
翻訳日:2021-02-05 16:34:25 公開日:2021-02-04
# グラフアライメント問題における部分回復の可能性

Impossibility of Partial Recovery in the Graph Alignment Problem ( http://arxiv.org/abs/2102.02685v1 )

ライセンス: Link先を確認
Luca Ganassali, Laurent Massouli\'e, Marc Lelarge(参考訳) ランダムグラフアライメントは、相関エッジを持つ2つのランダムグラフ間の基礎となる頂点対応を回復することを意味します。 これは、よく知られたNPハードグラフ同型問題の平均ケースおよびノイズバージョンと見なすことができる。 相関式 Erd\"os-R\'enyi モデルでは、スパース状態における部分的回復の不可能な結果が一定平均度と相関で証明され、最大到達可能オーバーラップの一般有界性も証明される。 私たちの境界はノイズレスの場合(グラフ同型問題)でタイトであり、まだノイズとタイトであると仮定します。 この証明手法は、erd\"os-r\'enyiグラフの木の成分間の自己同型を構築するための確率的手法の注意深い応用に依存している。

Random graph alignment refers to recovering the underlying vertex correspondence between two random graphs with correlated edges. This can be viewed as an average-case and noisy version of the well-known NP-hard graph isomorphism problem. For the correlated Erd\"os-R\'enyi model, we prove an impossibility result for partial recovery in the sparse regime, with constant average degree and correlation, as well as a general bound on the maximal reachable overlap. Our bound is tight in the noiseless case (the graph isomorphism problem) and we conjecture that it is still tight with noise. Our proof technique relies on a careful application of the probabilistic method to build automorphisms between tree components of a subcritical Erd\"os-R\'enyi graph.
翻訳日:2021-02-05 16:33:49 公開日:2021-02-04
# Converse, Focus, Guess -- マルチドキュメント駆動対話を目指して

Converse, Focus and Guess -- Towards Multi-Document Driven Dialogue ( http://arxiv.org/abs/2102.02435v1 )

ライセンス: Link先を確認
Han Liu, Caixia Yuan, Xiaojie Wang, Yushu Yang, Huixing Jiang, Zhongyuan Wang(参考訳) 本稿では,対話を指導することで,ユーザが興味を持っている対象文書をエージェントが推測できる,MD3(Multi-Document Driven Dialogue)を提案する。 そこで本研究では,映画を記述する16,881の文書と,関連する13,434の対話を含む,新しいデータセットを提案する。 さらに,MD3モデルを提案する。 ターゲットのドキュメントを推測しながら、ドキュメントのエンゲージメントとユーザフィードバックの両方でコンディショニングされたユーザと会話する。 大規模な外部文書を対話に組み込むために、オブジェクトについて話す属性に敏感な文書表現を事前に訓練します。 その後、文書的信念と属性的信念の進化を検出することで対話状態を追跡し、最終的にエントロピー減少と報酬増加の原則で対話ポリシーを最適化し、最小のターン数でユーザーのターゲットを推測することが期待されます。 実験の結果,本手法はいくつかの強力なベースライン法よりも優れており,人間の性能に非常に近いことがわかった。

We propose a novel task, Multi-Document Driven Dialogue (MD3), in which an agent can guess the target document that the user is interested in by leading a dialogue. To benchmark progress, we introduce a new dataset of GuessMovie, which contains 16,881 documents, each describing a movie, and associated 13,434 dialogues. Further, we propose the MD3 model. Keeping guessing the target document in mind, it converses with the user conditioned on both document engagement and user feedback. In order to incorporate large-scale external documents into the dialogue, it pretrains a document representation which is sensitive to attributes it talks about an object. Then it tracks dialogue state by detecting evolvement of document belief and attribute belief, and finally optimizes dialogue policy in principle of entropy decreasing and reward increasing, which is expected to successfully guess the user's target in a minimum number of turns. Experiments show that our method significantly outperforms several strong baseline methods and is very close to human's performance.
翻訳日:2021-02-05 16:33:12 公開日:2021-02-04
# One Sizeは、すべてに適合しない:言語間の高速テキストモデルのための最適なN-gramサイズを見つける

One Size Does Not Fit All: Finding the Optimal N-gram Sizes for FastText Models across Languages ( http://arxiv.org/abs/2102.02585v1 )

ライセンス: Link先を確認
V\'it Novotn\'y (1) and Eniafe Festus Ayetiran (1) and D\'avid Lupt\'ak (1) and Michal \v{S}tef\'anik (1) and Petr Sojka (1) ((1) Faculty of Informatics Masaryk University)(参考訳) テキスト分類や情報検索,機械翻訳といった下流タスクには,大規模コーパスからの教師なし語表現学習が極めて必要である。 fasttext言語モデルの表現精度は、主にサブワード情報の使用によるものである。 以前の研究では、fastTextサブワードサイズの最適化は大幅に無視され、英語とドイツ語に最適化されたサブワードサイズを使用して英語以外のfastText言語モデルが訓練された。 私たちは、Wikipediaで英語、ドイツ語、チェコ語、イタリア語の高速テキスト言語モデルを訓練し、英語、ドイツ語、チェコ語、イタリア語の単語類似タスクのサブワードサイズを最適化します。 我々は、サブワードサイズの最適化がチェコ語の類似タスクの5%の改善をもたらすことを示しています。 また、計算コストのかかるハイパーパラメータの最適化を、安価な$n$-gramの周波数分析に置き換えることも示している: 言語中のすべてのユニークなサブワードの3.76%をカバーしているサブワードサイズは、英語、ドイツ語、チェコ語、イタリア語の単語類似タスクにおける最適な高速テキストハイパーパラメータである。

Unsupervised word representation learning from large corpora is badly needed for downstream tasks such as text classification, information retrieval, and machine translation. The representation precision of the fastText language models is mostly due to their use of subword information. In previous work, the optimization of fastText subword sizes has been largely neglected, and non-English fastText language models were trained using subword sizes optimized for English and German. In our work, we train English, German, Czech, and Italian fastText language models on Wikipedia, and we optimize the subword sizes on the English, German, Czech, and Italian word analogy tasks. We show that the optimization of subword sizes results in a 5% improvement on the Czech word analogy task. We also show that computationally expensive hyperparameter optimization can be replaced with cheap $n$-gram frequency analysis: subword sizes that are the closest to covering 3.76% of all unique subwords in a language are shown to be the optimal fastText hyperparameters on the English, German, Czech, and Italian word analogy tasks.
翻訳日:2021-02-05 16:32:34 公開日:2021-02-04
# マクロプランニングによるデータ・テキスト生成

Data-to-text Generation with Macro Planning ( http://arxiv.org/abs/2102.02723v1 )

ライセンス: Link先を確認
Ratish Puduppully and Mirella Lapata(参考訳) データ-テキスト生成に対する最近のアプローチは、非常に成功したエンコーダ-デコーダアーキテクチャまたはその変種を採用している。 これらのモデルはテキストを生成し(ただし不正確であることが多い)、適切なコンテンツの選択と順序付けが極めて不十分である。 これらの問題のいくつかを克服するために、マクロ計画段階のニューラルモデルと、計画と表面実現のために別々のモジュールを包含する伝統的な手法を想起する生成段階を提案する。 Macroプランはエンティティやイベント、それらのインタラクションといった重要なコンテンツのハイレベルな構成を表しており、データから学習され、ジェネレータへの入力として与えられる。 2つのデータ・トゥ・テキスト・ベンチマーク(RotoWire と MLB)の大規模な実験により、我々のアプローチは自動評価と人的評価で競争ベースラインを上回っていることが示された。

Recent approaches to data-to-text generation have adopted the very successful encoder-decoder architecture or variants thereof. These models generate text which is fluent (but often imprecise) and perform quite poorly at selecting appropriate content and ordering it coherently. To overcome some of these issues, we propose a neural model with a macro planning stage followed by a generation stage reminiscent of traditional methods which embrace separate modules for planning and surface realization. Macro plans represent high level organization of important content such as entities, events and their interactions; they are learnt from data and given as input to the generator. Extensive experiments on two data-to-text benchmarks (RotoWire and MLB) show that our approach outperforms competitive baselines in terms of automatic and human evaluation.
翻訳日:2021-02-05 16:31:54 公開日:2021-02-04
# Egalitarian Judgment Aggregation

Egalitarian Judgment Aggregation ( http://arxiv.org/abs/2102.02785v1 )

ライセンス: Link先を確認
Sirin Botan and Ronald de Haan and Marija Slavkovik and Zoi Terzopoulou(参考訳) 平等主義的考察は社会選択論の多くの分野で中心的な役割を担っている。 平等主義の原則の適用は、分割の方法を決定するときに誰もがケーキの平等なシェアを得ることを保証することから、委員会選挙におけるジェンダーまたは民族に対するバランスを保証することまで及ぶ。 しかし、egalitarianアプローチは、論理的に相互接続された問題を集約するための強力なフレームワークである判断集約にはほとんど注目されていません。 私たちはそのギャップを埋める第一歩を踏み出します。 判断集約における平等主義の2つの古典的な解釈を捉えた公理を紹介し、これらを既存の公理の文脈の中で、信念の結合の関連する枠組みに配置する。 次に、社会選択理論からこれらの公理といくつかの戦略的保証性の概念との関係を探ります。 最後に,新しい平等主義的判断集約規則は,本分析に基づくものであり,結果決定と戦略操作の両方に関する複雑性を提示する。

Egalitarian considerations play a central role in many areas of social choice theory. Applications of egalitarian principles range from ensuring everyone gets an equal share of a cake when deciding how to divide it, to guaranteeing balance with respect to gender or ethnicity in committee elections. Yet, the egalitarian approach has received little attention in judgment aggregation -- a powerful framework for aggregating logically interconnected issues. We make the first steps towards filling that gap. We introduce axioms capturing two classical interpretations of egalitarianism in judgment aggregation and situate these within the context of existing axioms in the pertinent framework of belief merging. We then explore the relationship between these axioms and several notions of strategyproofness from social choice theory at large. Finally, a novel egalitarian judgment aggregation rule stems from our analysis; we present complexity results concerning both outcome determination and strategic manipulation for that rule.
翻訳日:2021-02-05 16:30:38 公開日:2021-02-04
# Deep Face Fuzzy Vault: 実装とパフォーマンス

Deep Face Fuzzy Vault: Implementation and Performance ( http://arxiv.org/abs/2102.02458v1 )

ライセンス: Link先を確認
Christian Rathgeb, Johannes Merkle, Johanna Scholz, Benjamin Tams, Vanessa Nesterowicz(参考訳) 深い畳み込みニューラルネットワークは、顔認識性能を大幅に改善した。 類似した発展、例えば 畳み込みニューラルネットワークは 顔画像の再構築に 素晴らしい結果をもたらしました 対応する埋め込みから 潜伏した空間に これは深刻なセキュリティリスクを引き起こし、例えば、誤用を防ぐために保存された深い顔の埋め込みの保護を必要とします。 身元確認詐欺 本稿では,リンク不能なディープフェイスファジィ型ファジィ型テンプレート保護スキームを提案する。 そのために、固定長実値深面埋め込みを整数値特徴集合にマップする特徴変換法が導入された。 この特徴変換の一環として,加法角周縁損失(arcface)を訓練した最先端深層畳み込みニューラルネットワークを用いて,異なる特徴量化と2値化手法の詳細な解析を行う。 キーバインディングでは、得られた機能セットはリンク不能な改良されたファジィボールトにロックされる。 キー検索のために、異なる多項式再構成技術の効率を検討する。 提案する特徴変換法とテンプレート保護スキームは生体計測特性に依存せず、ディープニューラルネットワークによって計算される事実上あらゆる生体計測特徴に適用することができる。 最良の構成のために、FERETおよびFRGCv2フェースデータベースのクロスデータベース実験において、偽一致率0.01%で1%以下の偽非マッチ率が達成される。 平均して、約28ビットのセキュリティレベルが得られます。 本研究は、顔参照データのプライバシー保護と顔からのデジタル鍵導出を提供する、顔ベースのファジィ・バーソルドスキームを初めて実現する。

Deep convolutional neural networks have achieved remarkable improvements in facial recognition performance. Similar kinds of developments, e.g. deconvolutional neural networks, have shown impressive results for reconstructing face images from their corresponding embeddings in the latent space. This poses a severe security risk which necessitates the protection of stored deep face embeddings in order to prevent from misuse, e.g. identity fraud. In this work, an unlinkable improved deep face fuzzy vault-based template protection scheme is presented. To this end, a feature transformation method is introduced which maps fixed-length real-valued deep face embeddings to integer-valued feature sets. As part of said feature transformation, a detailed analysis of different feature quantisation and binarisation techniques is conducted using features extracted with a state-of-the-art deep convolutional neural network trained with the additive angular margin loss (ArcFace). At key binding, obtained feature sets are locked in an unlinkable improved fuzzy vault. For key retrieval, the efficiency of different polynomial reconstruction techniques is investigated. The proposed feature transformation method and template protection scheme are agnostic of the biometric characteristic and, thus, can be applied to virtually any biometric features computed by a deep neural network. For the best configuration, a false non-match rate below 1% at a false match rate of 0.01%, is achieved in cross-database experiments on the FERET and FRGCv2 face databases. On average, a security level of up to approximately 28 bits is obtained. This work presents the first effective face-based fuzzy vault scheme providing privacy protection of facial reference data as well as digital key derivation from face.
翻訳日:2021-02-05 16:28:52 公開日:2021-02-04
# 多年衛星画像からの3次元表面再構成

3D Surface Reconstruction From Multi-Date Satellite Images ( http://arxiv.org/abs/2102.02502v1 )

ライセンス: Link先を確認
Sebastian Bullinger, Christoph Bodensteiner, Michael Arens(参考訳) 正確な3次元環境モデルの再構築は、フォトグラメトリの分野で最も基本的な目標の1つです。 衛星画像は大規模環境復元に適した特性を提供するため、衛星画像対の点雲を再構成するためのステレオマッチングに基づく様々な方法が存在する。 最近、複数の衛星画像から点群を再構築できる最初のSfM(Structure from Motion)ベースのアプローチが提案されている。 本研究では,このsfmベースのパイプラインを拡張して,ポイント雲だけでなく,テクスチャ情報を含む水密メッシュを再構築する手法を提案する。 我々は、衛星画像の文脈で最先端のメッシュ再構築アルゴリズムを利用するために必須であるいくつかのステップの詳細な説明を提供します。 これには、有限射影カメラキャリブレーション行列の分解、対応する深度マップと入力画像のスキュー補正、およびパラメータ化深度値からの現実世界の深度マップの復元が含まれる。 本論文では,現在のメッシュ化アルゴリズムと組み合わせたパイプラインが,完全度と中央値誤差の点で最新の点群再構成アルゴリズムを上回っていることを示した。 パイプラインのソースコードを公開しています。

The reconstruction of accurate three-dimensional environment models is one of the most fundamental goals in the field of photogrammetry. Since satellite images provide suitable properties for obtaining large-scale environment reconstructions, there exist a variety of Stereo Matching based methods to reconstruct point clouds for satellite image pairs. Recently, the first Structure from Motion (SfM) based approach has been proposed, which allows to reconstruct point clouds from multiple satellite images. In this work, we propose an extension of this SfM based pipeline that allows us to reconstruct not only point clouds but watertight meshes including texture information. We provide a detailed description of several steps that are mandatory to exploit state-of-the-art mesh reconstruction algorithms in the context of satellite imagery. This includes a decomposition of finite projective camera calibration matrices, a skew correction of corresponding depth maps and input images as well as the recovery of real-world depth maps from reparameterized depth values. The paper presents an extensive quantitative evaluation on multi-date satellite images demonstrating that the proposed pipeline combined with current meshing algorithms outperforms state-of-the-art point cloud reconstruction algorithms in terms of completeness and median error. We make the source code of our pipeline publicly available.
翻訳日:2021-02-05 16:28:06 公開日:2021-02-04
# ABCNet:微細解像度リモートセンシング画像の効率的なセマンティックセグメンテーションのための注意深い双方向コンテキストネットワーク

ABCNet: Attentive Bilateral Contextual Network for Efficient Semantic Segmentation of Fine-Resolution Remote Sensing Images ( http://arxiv.org/abs/2102.02531v1 )

ライセンス: Link先を確認
Rui Li, Chenxi Duan(参考訳) リモートセンシング画像の意味セグメンテーションは、精密農業、環境保護、経済評価において重要な役割を果たす。 近年,セマンティクスセグメンテーションにおいて,精細なリモートセンシング画像が利用可能になっている。 しかし、空間分解能の増加によって引き起こされる複雑な情報により、最先端のディープラーニングアルゴリズムは通常、複雑なネットワークアーキテクチャをセグメンテーションに利用する。 具体的には、畳み込みニューラルネットワーク(CNN)の高次性能は、きめ細かい空間の詳細(微細な解像度)と十分なコンテキスト情報(大きな受容場)に大きく依存しており、どちらも高い計算コストを発生させる。 これにより、リアルタイム処理を必要とする実世界のシナリオでの運用性と可用性が著しく損なわれます。 本論文では,最先端のアルゴリズムと比較して計算消費が顕著に低い畳み込みニューラルネットワーク(CNN)であるAttentive Bilateral Contextual Network (ABCNet)を提案する。 コードはhttps://github.com/l ironui/ABCNetで入手できる。

Semantic segmentation of remotely sensed images plays a crucial role in precision agriculture, environmental protection, and economic assessment. In recent years, substantial fine-resolution remote sensing images are available for semantic segmentation. However, due to the complicated information caused by the increased spatial resolution, state-of-the-art deep learning algorithms normally utilize complex network architectures for segmentation, which usually incurs high computational complexity. Specifically, the high-caliber performance of the convolutional neural network (CNN) heavily relies on fine-grained spatial details (fine resolution) and sufficient contextual information (large receptive fields), both of which trigger high computational costs. This crucially impedes their practicability and availability in real-world scenarios that require real-time processing. In this paper, we propose an Attentive Bilateral Contextual Network (ABCNet), a convolutional neural network (CNN) with double branches, with prominently lower computational consumptions compared to the cutting-edge algorithms, while maintaining a competitive accuracy. Code is available at https://github.com/l ironui/ABCNet.
翻訳日:2021-02-05 16:27:29 公開日:2021-02-04
# CHEF: 食品ドメイン検索のためのクロスモーダル階層的埋め込み

CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval ( http://arxiv.org/abs/2102.02547v1 )

ライセンス: Link先を確認
Hai X. Pham and Ricardo Guerrero and Jiatong Li and Vladimir Pavlovic(参考訳) 画像とテキストのペアのようなマルチモーダルデータの豊富さにもかかわらず、これらのデータインスタンスの構築における個々のエンティティとその異なる役割を理解するための努力はほとんどありませんでした。 本研究は,視覚言語関連問題として,料理レシピ自動作成における実体とその重要性を探究する試みである。 具体的には,食品画像検索と検索タスクにおける画像とテキストの潜在表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。 このモデルは、画像とテキスト、およびタイトル、成分、調理指示を含むレシピのテキスト部分間の複雑な機能的および階層的な関係を発見することができます。 筆者らは,効率的な木構造長短期記憶を計算用クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに特定できるだけでなく,食品レシピの特徴表現をより有意義に学習し,クロスモーダル検索やレシピ適応タスクに適していることを示した。

Despite the abundance of multi-modal data, such as image-text pairs, there has been little effort in understanding the individual entities and their different roles in the construction of these data instances. In this work, we endeavour to discover the entities and their corresponding importance in cooking recipes automaticall} as a visual-linguistic association problem. More specifically, we introduce a novel cross-modal learning framework to jointly model the latent representations of images and text in the food image-recipe association and retrieval tasks. This model allows one to discover complex functional and hierarchical relationships between images and text, and among textual parts of a recipe including title, ingredients and cooking instructions. Our experiments show that by making use of efficient tree-structured Long Short-Term Memory as the text encoder in our computational cross-modal retrieval framework, we are not only able to identify the main ingredients and cooking actions in the recipe descriptions without explicit supervision, but we can also learn more meaningful feature representations of food recipes, appropriate for challenging cross-modal retrieval and recipe adaption tasks.
翻訳日:2021-02-05 16:26:51 公開日:2021-02-04
# セマンティックセグメンテーションのためのアクティブ境界損失

Active Boundary Loss for Semantic Segmentation ( http://arxiv.org/abs/2102.02696v1 )

ライセンス: Link先を確認
Chi Wang, Yunke Zhang, Miaomiao Cui, Jinlin Liu, Peiran Ren, Yin Yang, Xuansong Xie, XianSheng Hua, Hujun Bao, Weiwei Xu(参考訳) 本稿では,セマンティックセグメンテーションのための新しいアクティブ境界損失を提案する。 これは、一般的に使用されるクロスエントロピー損失で明示的に強制されないエンドツーエンドトレーニング中に予測された境界とグラウンドトゥルース境界との間のアライメントを段階的に促進することができます。 現在のネットワークパラメータを用いて、セグメント化結果から検出された予測境界に基づいて、境界アライメント問題を微分可能方向ベクトル予測問題として定式化し、各イテレーションにおける予測境界の移動を導く。 私たちの損失はモデルに依存しず、境界の詳細を改善するためにセグメンテーションネットワークのトレーニングに接続することができます。 実験結果から, アクティブ境界損失によるトレーニングは, 課題の画像とビデオオブジェクトのセグメンテーションデータセットにおいて, 境界Fスコアとインターセクションオーバーユニオンを効果的に向上させることができることがわかった。

This paper proposes a novel active boundary loss for semantic segmentation. It can progressively encourage the alignment between predicted boundaries and ground-truth boundaries during end-to-end training, which is not explicitly enforced in commonly used cross-entropy loss. Based on the predicted boundaries detected from the segmentation results using current network parameters, we formulate the boundary alignment problem as a differentiable direction vector prediction problem to guide the movement of predicted boundaries in each iteration. Our loss is model-agnostic and can be plugged into the training of segmentation networks to improve the boundary details. Experimental results show that training with the active boundary loss can effectively improve the boundary F-score and mean Intersection-over-Un ion on challenging image and video object segmentation datasets.
翻訳日:2021-02-05 16:26:12 公開日:2021-02-04
# 記号と属性による絵画における重要な俳優の計算的識別

Computational identification of significant actors in paintings through symbols and attributes ( http://arxiv.org/abs/2102.02732v1 )

ライセンス: Link先を確認
David G.Stork, Anthony Bourached, George H.Cann, and Ryan-Rhys Griffiths(参考訳) ファインアートペインティングの自動分析は、人工知能、コンピュータビジョン、機械学習、知識表現に、従来の写真の分析で生じるものとはかなり異なるいくつかの新しい技術的課題を提示します。 最も重要な違いは、多くの現実主義の絵画が教訓、道徳、意味を伝えるために物語やエピソードを描くことです。 アートワークにおける意味の自動解釈と抽出の初期のステップは、人物(アクター)の識別である。 特にキリスト教美術では、聖書のエピソードや物語を識別するために俳優を識別しなければならず、芸術作品を理解する上で重要なステップである。 我々は、深層畳み込みニューラルネットワークと単純な知識データベースに基づく自動システムを設計し、聖人のシンボルや属性に基づいて、6世紀にわたるキリスト教芸術の聖人を識別した。 私たちの作品は、メッセージの自動意味解釈とファインアートにおける意味の広いタスクの最初のステップを表しています。

The automatic analysis of fine art paintings presents a number of novel technical challenges to artificial intelligence, computer vision, machine learning, and knowledge representation quite distinct from those arising in the analysis of traditional photographs. The most important difference is that many realist paintings depict stories or episodes in order to convey a lesson, moral, or meaning. One early step in automatic interpretation and extraction of meaning in artworks is the identifications of figures (actors). In Christian art, specifically, one must identify the actors in order to identify the Biblical episode or story depicted, an important step in understanding the artwork. We designed an automatic system based on deep convolutional neural networks and simple knowledge database to identify saints throughout six centuries of Christian art based in large part upon saints symbols or attributes. Our work represents initial steps in the broad task of automatic semantic interpretation of messages and meaning in fine art.
翻訳日:2021-02-05 16:25:39 公開日:2021-02-04
# 時間的コントラスト学習による半教師付き行動認識

Semi-Supervised Action Recognition with Temporal Contrastive Learning ( http://arxiv.org/abs/2102.02751v1 )

ライセンス: Link先を確認
Ankit Singh, Omprakash Chakraborty, Ashutosh Varshney, Rameswar Panda, Rogerio Feris, Kate Saenko, Abir Das(参考訳) ラベル付きビデオからのみアクションを認識することを学ぶことは、退屈に収集されたアクティビティラベルが不足しているため、難しい問題である。 映像速度の変化がアクションを変化させないという事実を利用して、ラベルのない動画を2つの異なる速度で2経路時間的コントラストモデルで学習することでこの問題にアプローチします。 具体的には,同一映像の符号化表現間の類似性を2つの異なる速度で最大化し,異なる速度で再生される異なる映像間の類似性を最小化する。 この方法では、監視されていないビデオのプールに存在する「時間」という観点で、豊富な監督情報を使用する。 ビデオ再生速度を操作するこのシンプルで効果的な戦略により、さまざまなベンチマークデータセットとネットワークアーキテクチャにまたがる最先端の半監視画像認識手法のビデオ拡張機能を大幅に上回ります。 興味深いことに、提案手法は一般化と堅牢性を示すドメイン外無ラベルビデオの恩恵を受ける。 我々はまた,アプローチを検証するために,厳密なアブレーションと分析を行う。

Learning to recognize actions from only a handful of labeled videos is a challenging problem due to the scarcity of tediously collected activity labels. We approach this problem by learning a two-pathway temporal contrastive model using unlabeled videos at two different speeds leveraging the fact that changing video speed does not change an action. Specifically, we propose to maximize the similarity between encoded representations of the same video at two different speeds as well as minimize the similarity between different videos played at different speeds. This way we use the rich supervisory information in terms of 'time' that is present in otherwise unsupervised pool of videos. With this simple yet effective strategy of manipulating video playback rates, we considerably outperform video extensions of sophisticated state-of-the-art semi-supervised image recognition methods across multiple diverse benchmark datasets and network architectures. Interestingly, our proposed approach benefits from out-of-domain unlabeled videos showing generalization and robustness. We also perform rigorous ablations and analysis to validate our approach.
翻訳日:2021-02-05 16:25:05 公開日:2021-02-04
# 微細パッチ画像分類のためのマスクガイド注意

Mask guided attention for fine-grained patchy image classification ( http://arxiv.org/abs/2102.02771v1 )

ライセンス: Link先を確認
Jun Wang, Xiaohan Yu, Yongsheng Gao(参考訳) 本研究では、微細なパッチ画像分類のための新しいマスク誘導注意(MGA)法を提案する。 きめ細かい画像分類の鍵となる課題は、2つの折りたたみ、超きめ細かなカテゴリー間ばらつき、そして訓練に利用できるデータが少ないことである。 このことは、限られたトレーニングサンプル内で識別モデルを訓練するために、より有用な監視信号を使用することを検討する動機となっている。 具体的には,事前学習されたセマンティクスセグメンテーションモデルを統合し,補助監督信号,すなわちパッチイアテンションマスクを生成し,識別表現学習を可能にする。 パッチ注意マスクは、分類器を駆動して、画像の重要部分(例えば、異なるカテゴリ間の共通特徴)をフィルタリングし、きめ細かいパッチ画像分類のためのMGAの堅牢性を高める。 提案手法の有効性を3つの公開パッチ画像データセットで検証する。 実験により,MGA法は最先端手法と比較して3つのデータセットにおいて優れた性能を示すことが示された。 また、MGAがSoyCultivarVeinおよびBtfPISデータセットの精度を2.25%および2%向上させ、微細なパッチ画像分類の解決に向けた実用性を示している。

In this work, we present a novel mask guided attention (MGA) method for fine-grained patchy image classification. The key challenge of fine-grained patchy image classification lies in two folds, ultra-fine-grained inter-category variances among objects and very few data available for training. This motivates us to consider employing more useful supervision signal to train a discriminative model within limited training samples. Specifically, the proposed MGA integrates a pre-trained semantic segmentation model that produces auxiliary supervision signal, i.e., patchy attention mask, enabling a discriminative representation learning. The patchy attention mask drives the classifier to filter out the insignificant parts of images (e.g., common features between different categories), which enhances the robustness of MGA for the fine-grained patchy image classification. We verify the effectiveness of our method on three publicly available patchy image datasets. Experimental results demonstrate that our MGA method achieves superior performance on three datasets compared with the state-of-the-art methods. In addition, our ablation study shows that MGA improves the accuracy by 2.25% and 2% on the SoyCultivarVein and BtfPIS datasets, indicating its practicality towards solving the fine-grained patchy image classification.
翻訳日:2021-02-05 16:24:28 公開日:2021-02-04
# プルーニングによる畳み込みのより深い考察

A Deeper Look into Convolutions via Pruning ( http://arxiv.org/abs/2102.02804v1 )

ライセンス: Link先を確認
Ilke Cugu, Emre Akbas(参考訳) 畳み込みニューラルネットワーク(CNN)は、パラメータ共有原理によりパラメータがはるかに少ないにもかかわらず、完全に接続されたニューラルネットワークよりも優れた視覚認識性能を達成することができる。 したがって、現代のアーキテクチャは、畳み込みの複数の層の後、最後に非常に少数の完全接続層を含むように設計されている。 画像全体に適用される小さな行列の比較的小さなグループで、大きな完全連結層を置き換えることができるのは興味深いことです。 さらに、この戦略は、すでにパラメータの数を減らすが、畳み込みのほとんどは、認識性能の損失を被ることなく、同様に除去することができる。 しかし、認識作業の大部分に責任を負う畳み込みニューロンのこの隠れたサブセットを検出するための確かなレシピは存在しない。 そこで本研究では,CIFAR-10,CIFAR-100, Tiny ImageNetのデータセットを用いた画像分類問題において,CNNの内部構造,すなわち残留ニューラルネットワーク(ResNet)に光を放つための古典的な重みに基づく重要度割当手法に加えて,固有値に基づく行列特性を用いる。

Convolutional neural networks (CNNs) are able to attain better visual recognition performance than fully connected neural networks despite having much less parameters due to their parameter sharing principle. Hence, modern architectures are designed to contain a very small number of fully-connected layers, often at the end, after multiple layers of convolutions. It is interesting to observe that we can replace large fully-connected layers with relatively small groups of tiny matrices applied on the entire image. Moreover, although this strategy already reduces the number of parameters, most of the convolutions can be eliminated as well, without suffering any loss in recognition performance. However, there is no solid recipe to detect this hidden subset of convolutional neurons that is responsible for the majority of the recognition work. Hence, in this work, we use the matrix characteristics based on eigenvalues in addition to the classical weight-based importance assignment approach for pruning to shed light on the internal mechanisms of a widely used family of CNNs, namely residual neural networks (ResNets), for the image classification problem using CIFAR-10, CIFAR-100 and Tiny ImageNet datasets.
翻訳日:2021-02-05 16:23:46 公開日:2021-02-04
# 多段階プログレッシブ画像復元

Multi-Stage Progressive Image Restoration ( http://arxiv.org/abs/2102.02808v1 )

ライセンス: Link先を確認
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao(参考訳) 画像復元タスクは、画像の復元中に空間的詳細と高レベル文脈情報との複雑なバランスを要求する。 本稿では,これらの目標を最適にバランスできる新しい相乗的設計を提案する。 我々の主な提案はマルチステージアーキテクチャであり、劣化した入力の復元機能を段階的に学習し、全体の回復プロセスをより管理しやすいステップに分解する。 具体的には、まずエンコーダ・デコーダアーキテクチャを用いてコンテキスト化された特徴を学習し、その後ローカル情報を保持する高分解能分岐と組み合わせる。 それぞれの段階において,局所的な特徴の重み付けに教師ありの注意を生かした,画素単位の適応設計を提案する。 このような多段階アーキテクチャの主要な要素は、異なる段階間の情報交換である。 そこで本研究では,情報を早期から後期にかけて順次交換するだけでなく,情報損失を回避するために特徴処理ブロック間の側方接続も有する二面的手法を提案する。 MPRNetと名づけられた密接な相互接続型マルチステージアーキテクチャは、イメージデレイン、デブレーション、デノイジングなど、さまざまなタスクで10のデータセットで強力なパフォーマンス向上を実現します。 例えば、Rain100L、GoPro、DNDデータセットでは、PSNRの利得はそれぞれ4 dB、0.81 dB、0.21 dBで、最先端のものと比較します。 ソースコードとトレーニング済みモデルはhttps://github.com/s wz30/MPRNet.comで入手できる。

Image restoration tasks demand a complex balance between spatial details and high-level contextualized information while recovering images. In this paper, we propose a novel synergistic design that can optimally balance these competing goals. Our main proposal is a multi-stage architecture, that progressively learns restoration functions for the degraded inputs, thereby breaking down the overall recovery process into more manageable steps. Specifically, our model first learns the contextualized features using encoder-decoder architectures and later combines them with a high-resolution branch that retains local information. At each stage, we introduce a novel per-pixel adaptive design that leverages in-situ supervised attention to reweight the local features. A key ingredient in such a multi-stage architecture is the information exchange between different stages. To this end, we propose a two-faceted approach where the information is not only exchanged sequentially from early to late stages, but lateral connections between feature processing blocks also exist to avoid any loss of information. The resulting tightly interlinked multi-stage architecture, named as MPRNet, delivers strong performance gains on ten datasets across a range of tasks including image deraining, deblurring, and denoising. For example, on the Rain100L, GoPro and DND datasets, we obtain PSNR gains of 4 dB, 0.81 dB and 0.21 dB, respectively, compared to the state-of-the-art. The source code and pre-trained models are available at https://github.com/s wz30/MPRNet.
翻訳日:2021-02-05 16:23:03 公開日:2021-02-04
# アンカーポイントのないエンドツーエンドのラベル・ノイズ学習

Provably End-to-end Label-Noise Learning without Anchor Points ( http://arxiv.org/abs/2102.02400v1 )

ライセンス: Link先を確認
Xuefeng Li, Tongliang Liu, Bo Han, Gang Niu, Masashi Sugiyama(参考訳) ラベル・ノイズ学習において、遷移行列は統計的に一貫した分類器を構築する上で重要な役割を果たす。 遷移行列に対する既存の整合性推定器は、アンカー点を利用して開発された。 しかし、アンカーポイントの仮定は実際のシナリオでは必ずしも満たされない。 本稿では,ニューラルネットワークが学習した分布と雑音のクラス後分布との差分と,遷移行列の列によって形成される単純さの体積の2つの目的を同時に最小化する,アンカーポイントのないラベル-ノイズ学習のエンドツーエンドフレームワークを提案する。 提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。 これは、遷移行列が証明可能であり、学習された分類器が統計的に一貫した最も穏やかな仮定である。 ベンチマークデータセットの実験結果は,提案手法の有効性と堅牢性を示す。

In label-noise learning, the transition matrix plays a key role in building statistically consistent classifiers. Existing consistent estimators for the transition matrix have been developed by exploiting anchor points. However, the anchor-point assumption is not always satisfied in real scenarios. In this paper, we propose an end-to-end framework for solving label-noise learning without anchor points, in which we simultaneously minimize two objectives: the discrepancy between the distribution learned by the neural network and the noisy class-posterior distribution, and the volume of the simplex formed by the columns of the transition matrix. Our proposed framework can identify the transition matrix if the clean class-posterior probabilities are sufficiently scattered. This is by far the mildest assumption under which the transition matrix is provably identifiable and the learned classifier is statistically consistent. Experimental results on benchmark datasets demonstrate the effectiveness and robustness of the proposed method.
翻訳日:2021-02-05 16:20:38 公開日:2021-02-04
# 探索サブネットに基づく空間グラフ畳み込みニューラルネットワーク

Lookup subnet based Spatial Graph Convolutional neural Network ( http://arxiv.org/abs/2102.02588v1 )

ライセンス: Link先を確認
Jingzhao Hu, Xiaoqi Zhang, Qiaomei Jia, Chen Wang, Qirong Bu, Jun Feng(参考訳) Convolutional Neural Networks(CNNs)は、ユークリッド構造データにおける顕著なパフォーマンスブレークスルーを達成しました。 近年,アグリゲーション変換に基づくグラフニューラルネットワーク(GNN)は,非ユークリッドデータ上での強力な性能を徐々に生み出している。 本稿では,CNNを非ユークリッド領域に自然に一般化し,局所フィルタやパラメータ共有,フレキシブルな受容場など,CNNの優れた性質を継承するクロス相関グラフ畳み込み手法を提案する。 一方、動的に生成された畳み込みカーネルとクロスコレーション演算子を利用して、集約変換または近似に基づく先行メソッドの欠点に対処する。 本手法は,3つのグラフベンチマーク(cora,citeseer,pubme d citation network dataset)において,最先端の結果を達成あるいは一致させた。

Convolutional Neural Networks(CNNs) has achieved remarkable performance breakthrough in Euclidean structure data. Recently, aggregation-transfor mation based Graph Neural networks(GNNs) gradually produce a powerful performance on non-Euclidean data. In this paper, we propose a cross-correlation based graph convolution method allowing to naturally generalize CNNs to non-Euclidean domains and inherit the excellent natures of CNNs, such as local filters, parameter sharing, flexible receptive field, etc. Meanwhile, it leverages dynamically generated convolution kernel and cross-correlation operators to address the shortcomings of prior methods based on aggregation-transfor mation or their approximations. Our method has achieved or matched popular state-of-the-art results across three established graph benchmarks: the Cora, Citeseer, and Pubmed citation network datasets.
翻訳日:2021-02-05 16:20:04 公開日:2021-02-04
# ckconv:シーケンシャルデータのための連続カーネル畳み込み

CKConv: Continuous Kernel Convolution For Sequential Data ( http://arxiv.org/abs/2102.02611v1 )

ライセンス: Link先を確認
David W. Romero, Anna Kuzina, Erik J. Bekkers, Jakub M. Tomczak, Mark Hoogendoorn(参考訳) シーケンシャルデータに対する従来のニューラルネットワークアーキテクチャには,重要な制限がある。 繰り返しネットワークは、爆発と消失の勾配、小さな効果的なメモリの地平線に悩まされ、順次訓練されなければなりません。 畳み込みネットワークは未知のサイズのシーケンスを処理できず、そのメモリの地平線を事前定義しなければならない。 本研究では,CNNの畳み込みカーネルを連続関数として定式化することで,これらすべての問題を解くことができることを示す。 結果として生じる連続カーネル畳み込み(ckconv)は、任意の形式の再帰に依存することなく、単一の操作内で、任意に長いシーケンスを並列にモデル化できる。 連続カーネル畳み込みネットワーク(CKCNN)が複数のデータセット(例えば、permuted MNIST)で最先端の結果を得ることを示すとともに、その継続的な性質のおかげで、一様でないサンプルデータセットと不規則にサンプリングされたデータをネイティブに処理できることを示す。 CKCNNは、これらの目的のために設計されたニューラルODEよりもはるかに速く簡単な方法で一致またはより良いパフォーマンスを発揮します。

Conventional neural architectures for sequential data present important limitations. Recurrent networks suffer from exploding and vanishing gradients, small effective memory horizons, and must be trained sequentially. Convolutional networks are unable to handle sequences of unknown size and their memory horizon must be defined a priori. In this work, we show that all these problems can be solved by formulating convolutional kernels in CNNs as continuous functions. The resulting Continuous Kernel Convolution (CKConv) allows us to model arbitrarily long sequences in a parallel manner, within a single operation, and without relying on any form of recurrence. We show that Continuous Kernel Convolutional Networks (CKCNNs) obtain state-of-the-art results in multiple datasets, e.g., permuted MNIST, and, thanks to their continuous nature, are able to handle non-uniformly sampled datasets and irregularly-sampled data natively. CKCNNs match or perform better than neural ODEs designed for these purposes in a much faster and simpler manner.
翻訳日:2021-02-05 16:19:28 公開日:2021-02-04
# 二次正規化の再考: 連続学習のための説明運動正規化

Rethinking Quadratic Regularizers: Explicit Movement Regularization for Continual Learning ( http://arxiv.org/abs/2102.02805v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Puja Trivedi, Robert P. Dick(参考訳) 二次正則化器は、深層ニューラルネットワーク(dnn)における破滅的な忘れることの軽減によく用いられるが、最近の連続学習法と競合することができない。 本研究では,2次正規化の下でのパラメータ更新を解析し,モデルパラメータの現在の値と過去の値の重み付け平均を暗黙的に実行することにより,過去のタスクを忘れないようにする。 解析の結果, 2次正則化器の性能は, (a) 重み付き平均値のトレーニングハイパーパラメータ依存性から生じており, しばしば不安定なトレーニングとなり, (b) 深い層への重要性が低下する傾向がみられた。 そこで本研究では,重み付き平均化の学習ハイパーパラメータへの依存性を取り除き,より深い層への重要度の低い割り当てによる問題を回避するために相対的尺度を用いた,二次正規化を改良した連続学習アルゴリズムemrを提案する。 2次正規化と比較して、EMRは6.2%高い平均精度と4.5%低い平均忘れを達成する。

Quadratic regularizers are often used for mitigating catastrophic forgetting in deep neural networks (DNNs), but are unable to compete with recent continual learning methods. To understand this behavior, we analyze parameter updates under quadratic regularization and demonstrate such regularizers prevent forgetting of past tasks by implicitly performing a weighted average between current and previous values of model parameters. Our analysis shows the inferior performance of quadratic regularizers arises from (a) dependence of weighted averaging on training hyperparameters, which often results in unstable training and (b) assignment of lower importance to deeper layers, which are generally the cause for forgetting in DNNs. To address these limitations, we propose Explicit Movement Regularization (EMR), a continual learning algorithm that modifies quadratic regularization to remove the dependence of weighted averaging on training hyperparameters and uses a relative measure for importance to avoid problems caused by lower importance assignment to deeper layers. Compared to quadratic regularization, EMR achieves 6.2% higher average accuracy and 4.5% lower average forgetting.
翻訳日:2021-02-05 16:18:49 公開日:2021-02-04
# 知的ロボットのための運動計画アルゴリズムに関する研究

A survey of motion planning algorithms for intelligent robotics ( http://arxiv.org/abs/2102.02376v1 )

ライセンス: Link先を確認
Chengmin Zhou, Bingding Huang, Pasi Fr\"anti(参考訳) 典型的な運動計画アルゴリズムの原理を調査・分析します。 これには、従来の計画アルゴリズム、教師付き学習、最適値強化学習、ポリシー勾配強化学習が含まれる。 従来の計画アルゴリズムには,グラフ探索アルゴリズム,サンプリングベースアルゴリズム,補間曲線アルゴリズムなどがある。 教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。 最適値強化学習アルゴリズムには、Q学習、DQN、double DQN、DQNのデュエルがある。 ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。 解析比較による運動計画アルゴリズムの性能評価と適用を評価するための新たな一般基準も導入されている。 最適値とポリシー勾配アルゴリズムの収束速度と安定性を特別に分析する。 動作計画アルゴリズムの原理と解析比較に基づき,今後の方向性を解析的に提示する。 本稿では,ロボット工学におけるモーションプランニングアルゴリズムの長所,短所,関係,未来について,研究者に明確かつ包括的な理解を与え,より優れたモーションプランニングアルゴリズムを実現する方法を提案する。

We investigate and analyze principles of typical motion planning algorithms. These include traditional planning algorithms, supervised learning, optimal value reinforcement learning, policy gradient reinforcement learning. Traditional planning algorithms we investigated include graph search algorithms, sampling-based algorithms, and interpolating curve algorithms. Supervised learning algorithms include MSVM, LSTM, MCTS and CNN. Optimal value reinforcement learning algorithms include Q learning, DQN, double DQN, dueling DQN. Policy gradient algorithms include policy gradient method, actor-critic algorithm, A3C, A2C, DPG, DDPG, TRPO and PPO. New general criteria are also introduced to evaluate performance and application of motion planning algorithms by analytical comparisons. Convergence speed and stability of optimal value and policy gradient algorithms are specially analyzed. Future directions are presented analytically according to principles and analytical comparisons of motion planning algorithms. This paper provides researchers with a clear and comprehensive understanding about advantages, disadvantages, relationships, and future of motion planning algorithms in robotics, and paves ways for better motion planning algorithms.
翻訳日:2021-02-05 16:16:51 公開日:2021-02-04
# 永続ルールに基づくインタラクティブ強化学習

Persistent Rule-based Interactive Reinforcement Learning ( http://arxiv.org/abs/2102.02441v1 )

ライセンス: Link先を確認
Adam Bignold and Francisco Cruz and Richard Dazeley and Peter Vamplew and Cameron Foale(参考訳) 対話型強化学習は、エージェントに追加情報を提供する人間トレーナーを含む自律エージェントの学習プロセスをリアルタイムで高速化する。 現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。 さらに、各インタラクションが提供する情報は保持されず、単独使用後にエージェントによって破棄される。 本研究では,与えられた知識を保持・再利用する方法として,永続的なルールに基づく対話型強化学習手法を提案する。 私たちの実験結果は、トレーナーに必要なインタラクションの数を減らしながら、エージェントのパフォーマンスを大幅に改善する永続的なアドバイスを示しています。 さらに、ルールベースのアドバイスは、状態ベースのアドバイスと同じようなパフォーマンスへの影響を示すが、インタラクション数は大幅に減少する。

Interactive reinforcement learning has allowed speeding up the learning process in autonomous agents by including a human trainer providing extra information to the agent in real-time. Current interactive reinforcement learning research has been limited to interactions that offer relevant advice to the current state only. Additionally, the information provided by each interaction is not retained and instead discarded by the agent after a single-use. In this work, we propose a persistent rule-based interactive reinforcement learning approach, i.e., a method for retaining and reusing provided knowledge, allowing trainers to give general advice relevant to more than just the current state. Our experimental results show persistent advice substantially improves the performance of the agent while reducing the number of interactions required for the trainer. Moreover, rule-based advice shows similar performance impact as state-based advice, but with a substantially reduced interaction count.
翻訳日:2021-02-05 16:16:13 公開日:2021-02-04
# 進化的マルチタスク最適化:方法論概要,課題,今後の研究方向

Evolutionary Multitask Optimization: a Methodological Overview, Challenges and Future Research Directions ( http://arxiv.org/abs/2102.02558v1 )

ライセンス: Link先を確認
Eneko Osaba, Aritz D. Martinez and Javier Del Ser(参考訳) 本研究では,複数の最適化問題を同時に解決するために,単一探索処理を行うことでマルチタスクを考える。 このシナリオに対処する主な目標は、最適化されている問題(タスク)のうち既存の相補性を動的に活用し、価値ある知識の交換を通じて互いに助け合うことである。 さらに、進化的マルチタスクの新たなパラダイムは、進化的計算から引き出されたインスピレーションの概念を用いて、マルチタスク最適化のシナリオに取り組む。 この調査の主な目的は、この分野における新しいアルゴリズム提案(すなわち、マルチファクタリ最適化とマルチポピュレーションベースのマルチタスク)を設計する際に続く方法論パターンに焦点を当てて、これまでの進化的マルチタスクで公開された豊富な文献を収集し、整理し、批判的に検討することです。 我々は、このトピックにおける今後の取り組みを刺激する有望な研究方向とともに、現在オープンである課題を特定することで、われわれの批判的分析を補完する。 この原稿を通して行われた議論は、この分野で働くコミュニティが最近続く一般的な軌跡の参考として、そしてこのエキサイティングな研究道に参加することに関心のある新人や研究者のための自己完結のエントリーポイントとして、聴衆に提供されます。

In this work we consider multitasking in the context of solving multiple optimization problems simultaneously by conducting a single search process. The principal goal when dealing with this scenario is to dynamically exploit the existing complementarities among the problems (tasks) being optimized, helping each other through the exchange of valuable knowledge. Additionally, the emerging paradigm of Evolutionary Multitasking tackles multitask optimization scenarios by using as inspiration concepts drawn from Evolutionary Computation. The main purpose of this survey is to collect, organize and critically examine the abundant literature published so far in Evolutionary Multitasking, with an emphasis on the methodological patterns followed when designing new algorithmic proposals in this area (namely, multifactorial optimization and multipopulation-base d multitasking). We complement our critical analysis with an identification of challenges that remain open to date, along with promising research directions that can stimulate future efforts in this topic. Our discussions held throughout this manuscript are offered to the audience as a reference of the general trajectory followed by the community working in this field in recent times, as well as a self-contained entry point for newcomers and researchers interested to join this exciting research avenue.
翻訳日:2021-02-05 16:15:42 公開日:2021-02-04
# 複数専門家によるトライアディック探索と探索

Triadic Exploration and Exploration with Multiple Experts ( http://arxiv.org/abs/2102.02654v1 )

ライセンス: Link先を確認
Maximilian Felde and Gerd Stumme(参考訳) 形式的概念分析(FCA)は、ドメインの専門家が形式的コンテキスト(オブジェクトと属性のクロステーブル)で表される知識領域の構造的依存関係を発見するのに役立つ属性探索と呼ばれる方法を提供する。 Triadic Concept Analysisは、条件の概念を取り入れたFCAの拡張である。 属性探索の多くの拡張とバリエーションが研究されているが、複数の専門家を組み込む試みはほとんど行われていない。 本稿では,三進概念分析に基づく三進探索を行い,三進領域における条件属性の意味を探索する。 次に、このアプローチを、ドメインに関する異なる見解を持つ複数の専門家による属性探索の定式化に適用します。

Formal Concept Analysis (FCA) provides a method called attribute exploration which helps a domain expert discover structural dependencies in knowledge domains that can be represented by a formal context (a cross table of objects and attributes). Triadic Concept Analysis is an extension of FCA that incorporates the notion of conditions. Many extensions and variants of attribute exploration have been studied but only few attempts at incorporating multiple experts have been made. In this paper we present triadic exploration based on Triadic Concept Analysis to explore conditional attribute implications in a triadic domain. We then adapt this approach to formulate attribute exploration with multiple experts that have different views on a domain.
翻訳日:2021-02-05 16:14:58 公開日:2021-02-04
# トリガーグラフによる知識ベースの実現

Materializing Knowledge Bases via Trigger Graphs ( http://arxiv.org/abs/2102.02753v1 )

ライセンス: Link先を確認
Efthymia Tsamoura, David Carral, Enrico Malizia, Jacopo Urbani(参考訳) このチェイスは、KG(Knowledge Graphs)のような知識ベース(KB)を実現するためによく確立されたアルゴリズムのファミリーであり、依存関係下でのクエリ応答やデータクリーニングといった重要なタスクに対処する。 追従アルゴリズムの一般的な問題は、冗長な計算を実行することである。 この問題に対処するために,冗長な計算を避けるためのルールの実行を導くトリガーグラフ(tgs)の概念を導入する。 実世界KB上でTGがいつどのように計算され、TGのメリットがどのようなものかを解くための広範な理論的および実証的研究の結果を提示する。 結果は、(最小の)tgを計算するアルゴリズムの導入を含む。 提案手法を新しいエンジンに実装し,実験結果から,コモディティマシン上での17B事実を40分未満で実現可能なKBよりもはるかに効率がよいことを示した。

The chase is a well-established family of algorithms used to materialize Knowledge Bases (KBs), like Knowledge Graphs (KGs), to tackle important tasks like query answering under dependencies or data cleaning. A general problem of chase algorithms is that they might perform redundant computations. To counter this problem, we introduce the notion of Trigger Graphs (TGs), which guide the execution of the rules avoiding redundant computations. We present the results of an extensive theoretical and empirical study that seeks to answer when and how TGs can be computed and what are the benefits of TGs when applied over real-world KBs. Our results include introducing algorithms that compute (minimal) TGs. We implemented our approach in a new engine, and our experiments show that it can be significantly more efficient than the chase enabling us to materialize KBs with 17B facts in less than 40 min on commodity machines.
翻訳日:2021-02-05 16:14:26 公開日:2021-02-04
# 勾配降下による低ランク対称行列の完全線形収束速度解析

Exact Linear Convergence Rate Analysis for Low-Rank Symmetric Matrix Completion via Gradient Descent ( http://arxiv.org/abs/2102.02396v1 )

ライセンス: Link先を確認
Trung Vu and Raviv Raich(参考訳) ファクタリゼーションベースの勾配降下は、低ランクマトリックスの完了を解決するためのスケーラブルで効率的なアルゴリズムです。 構造的非凸最適化の最近の進歩は、低ランク行列とサンプリングセットの特定の統計的仮定の下で、勾配降下のグローバル収束を保証する。 しかし、この理論は、勾配降下が問題の大域的な解に対する高速線型収束を楽しむことを示唆する一方で、境界技術の普遍性は収束率の正確な推定値を得るのを妨げている。 本稿では,対称行列に対する因子分解に基づく行列完成のための勾配降下の完全線形収束率を局所的に解析する。 基礎となるモデルに関する追加の仮定がなければ、解行列とサンプリングセットのみに依存する勾配降下の局所収束の決定論的条件を特定することができる。 さらに重要なことに、我々の分析は、実際に観測された線形収束と正確に一致する漸近収束率の閉形式表現を提供する。 我々の知る限りでは、行列完備化のためにユークリッド空間における行列分解に対する勾配降下の正確な収束率を与える最初の結果である。

Factorization-based gradient descent is a scalable and efficient algorithm for solving low-rank matrix completion. Recent progress in structured non-convex optimization has offered global convergence guarantees for gradient descent under certain statistical assumptions on the low-rank matrix and the sampling set. However, while the theory suggests gradient descent enjoys fast linear convergence to a global solution of the problem, the universal nature of the bounding technique prevents it from obtaining an accurate estimate of the rate of convergence. In this paper, we perform a local analysis of the exact linear convergence rate of gradient descent for factorization-based matrix completion for symmetric matrices. Without any additional assumptions on the underlying model, we identify the deterministic condition for local convergence of gradient descent, which only depends on the solution matrix and the sampling set. More crucially, our analysis provides a closed-form expression of the asymptotic rate of convergence that matches exactly with the linear convergence observed in practice. To the best of our knowledge, our result is the first one that offers the exact rate of convergence of gradient descent for matrix factorization in Euclidean space for matrix completion.
翻訳日:2021-02-05 16:13:10 公開日:2021-02-04
# A Possible Artificial Intelligence Ecosystem Avatar: the Moorea case (IDEA)

A Possible Artificial Intelligence Ecosystem Avatar: the Moorea case (IDEA) ( http://arxiv.org/abs/2102.02384v1 )

ライセンス: Link先を確認
Jean-Pierre Barriot, Neil Davies, Beno\^it Stoll, S\'ebastien Chabrier and Alban Gabillon(参考訳) 高スループットデータ収集技術と大規模(クラウド)コンピューティングは、物理、化学、生物学、生態学、漁業、経済学、その他の社会科学などのマルチモーダルデータを統合することで、あらゆる規模の生態系の理解を変えつつある。 本論文では,IDEA (Island Digital Ecosystem Avatars) プロジェクト (Moorea Island) の枠組みにおけるDeep Stacking Networks (DSN) に基づく大規模データ同化と予測のバックボーンについて,島を流域とラグーン単位で細分化することに焦点を当てる。 また,生態系アバターモデルのトレーニングと制約が可能な生データや,生態指標や物理的指標や指標といった第2レベルのデータについても述べる。

High-throughput data collection techniques and largescale (cloud) computing are transforming our understanding of ecosystems at all scales by allowing the integration of multimodal data such as physics, chemistry, biology, ecology, fishing, economics and other social sciences in a common computational framework. We focus in this paper on a large scale data assimilation and prediction backbone based on Deep Stacking Networks (DSN) in the frame of the IDEA (Island Digital Ecosystem Avatars) project (Moorea Island), based on the subdivision of the island in watersheds and lagoon units. We also describe several kinds of raw data that can train and constrain such an ecosystem avatar model, as well as second level data such as ecological or physical indexes / indicators.
翻訳日:2021-02-05 16:12:33 公開日:2021-02-04
# SAFELearning: 安全なアグリゲーションでフェデレーション学習のバックドア検出を可能にする

SAFELearning: Enable Backdoor Detectability In Federated Learning With Secure Aggregation ( http://arxiv.org/abs/2102.02402v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Jiarui Li, Shucheng Yu, Christian Makaya(参考訳) モデルプライバシに関しては,フェデレーション学習における局所モデルパラメータは,リモートアグリゲータに送信する前に難読化される。 この手法は \emph{secure aggregation} と呼ばれる。 しかし、セキュアな集約により、モデル中毒攻撃(例えばバックドアを挿入する)が、既存の異常検出方法が通常、プレーンテキストローカルモデルへのアクセスを必要とするため、より便利になる。 本稿では,安全なアグリゲーションのためのバックドア検出を支援するsafelearningを提案する。 我々はこれを2つの新しいプリミティブ、すなわち \emph{oblivious random grouping (ORG) と \emph{partial parameter disclosure (PPD) によって達成する。 PPDは、個々のモデルのプライバシーを漏洩することなく、異常検出のための集約されたサブグループのモデルの安全な部分的開示を可能にする。 SAFELearningは、一般的なバックドア戦略の下でメインタスクの精度を損なうことなく、バックドアモデルの精度を著しく低減することができる。 SAFELearning は CIFAR-10 上の ResNet-18 に対して 100\%$ から $8.2\%$ までバックドアの精度を下げます。

For model privacy, local model parameters in federated learning shall be obfuscated before sent to the remote aggregator. This technique is referred to as \emph{secure aggregation}. However, secure aggregation makes model poisoning attacks, e.g., to insert backdoors, more convenient given existing anomaly detection methods mostly require access to plaintext local models. This paper proposes SAFELearning which supports backdoor detection for secure aggregation. We achieve this through two new primitives - \emph{oblivious random grouping (ORG)} and \emph{partial parameter disclosure (PPD)}. ORG partitions participants into one-time random subgroups with group configurations oblivious to participants; PPD allows secure partial disclosure of aggregated subgroup models for anomaly detection without leaking individual model privacy. SAFELearning is able to significantly reduce backdoor model accuracy without jeopardizing the main task accuracy under common backdoor strategies. Extensive experiments show SAFELearning reduces backdoor accuracy from $100\%$ to $8.2\%$ for ResNet-18 over CIFAR-10 when $10\%$ participants are malicious.
翻訳日:2021-02-05 16:11:56 公開日:2021-02-04
# 常時オン型スマートセンシングのための5\mu W標準セルメモリ構成可能超次元計算加速器

A 5 \mu W Standard Cell Memory-based Configurable Hyperdimensional Computing Accelerator for Always-on Smart Sensing ( http://arxiv.org/abs/2102.02758v1 )

ライセンス: Link先を確認
Manuel Eggimann, Abbas Rahimi, Luca Benini(参考訳) 超次元コンピューティング(Hyperdimensional Computing、HDC)は、ベクトルの高次元全体像に基づく脳に触発された計算パラダイムである。 最近、高並列ハードウェアの実装に固有のエラー耐性と適合性のために、組み込みスマートセンシングの注目を集めました。 本研究では,エネルギー制約型センサノードを常時オンに分類するための完全自律HDCアクセラレータのプログラム可能な全デジタルCMOS実装を提案する。 エネルギー効率の良い標準セルメモリ(SCM)を使用することで、設計は容易にクロステクノロジーマッピング可能です。 典型的なアプリケーションでは5$\mu W$、EMGジェスチャ認識のような常時オンのウェアラブルタスクのためのポストレイアウトシミュレーションで最大3$\timesの最先端(SoA)デジタルアーキテクチャよりもエネルギー効率が向上する。 アクセラレータのアーキテクチャの一部として、共通のhdc-algorithmicプリミティブのハードウェアフレンドリーな新しい実施形態を導入し、3.3$\times$技術によるsoaの領域縮小を実現し、すべての調査対象において同じ精度のレベルを達成します。 提案されたアーキテクチャはまた、統合されたSCMベースの構成メモリに格納されたHDC用に最適化されたマイクロコードを使用して完全に構成可能なデータパスを持ち、HDCアルゴリズムの柔軟性の観点から設計を「汎用」にしている。 この柔軟性により、新しいHDCタスク、例えばボールベアリング障害検出のタスクに適用された新しいHDCタスクでアクセルを使用することができる。

Hyperdimensional computing (HDC) is a brain-inspired computing paradigm based on high-dimensional holistic representations of vectors. It recently gained attention for embedded smart sensing due to its inherent error-resiliency and suitability to highly parallel hardware implementations. In this work, we propose a programmable all-digital CMOS implementation of a fully autonomous HDC accelerator for always-on classification in energy-constrained sensor nodes. By using energy-efficient standard cell memory (SCM), the design is easily cross-technology mappable. It achieves extremely low power, 5 $\mu W$ in typical applications, and an energy-efficiency improvement over the state-of-the-art (SoA) digital architectures of up to 3$\times$ in post-layout simulations for always-on wearable tasks such as EMG gesture recognition. As part of the accelerator's architecture, we introduce novel hardware-friendly embodiments of common HDC-algorithmic primitives, which results in 3.3$\times$ technology scaled area reduction over the SoA, achieving the same accuracy levels in all examined targets. The proposed architecture also has a fully configurable datapath using microcode optimized for HDC stored on an integrated SCM based configuration memory, making the design "general-purpose" ; in terms of HDC algorithm flexibility. This flexibility allows usage of the accelerator across novel HDC tasks, for instance, a newly designed HDC applied to the task of ball bearing fault detection.
翻訳日:2021-02-05 16:11:14 公開日:2021-02-04
# 自律走行車対ペデストリアン通信のための最先端と新たな拡張現実インターフェースの比較

Comparing State-of-the-Art and Emerging Augmented Reality Interfaces for Autonomous Vehicle-to-Pedestria n Communication ( http://arxiv.org/abs/2102.02783v1 )

ライセンス: Link先を確認
F. Gabriele Prattic\`o, Fabrizio Lamberti, Alberto Cannav\`o, Lia Morra, Paolo Montuschi(参考訳) 歩行者や他の脆弱な道路利用者に完全に自律的な車両の状態と意図を明確に示すことは、それらを共存させる上で重要です。 ここ数年、車載デバイス(ledパネルなど)、路上の短距離投影、道路インフラインターフェース(例えば、組み込みディスプレイを備えた特別なアスファルト)など、さまざまなパラダイムや技術を活用して、様々な外部インターフェースが提案されている。 これらの設計は、モックアップ、特別に準備された車両、または仮想環境を用いて、異種評価指標を用いて異なる設定で実験された。 Augmented Reality(AR)に基づくインターフェースの開発も提案されているが、そのユーザビリティと有効性はまだテストされていない。 本稿では,最先端のインタフェースと新しいデザインを共通条件下で比較することにより,文献体系を補完することを目的としている。 この目的のために没入型バーチャルリアリティーに基づくシミュレーションを開発し、非規制環境下で歩行者が都市環境を横断する様子を再現した。 次に,客観的・主観的指標を用いた車両間相互作用の様々な次元について調査を行った。 考慮されたすべての次元にわたって明確なインターフェイスはなかったが、AR設計の1つは、人間の形態の特徴を示すLEDパネルと比較してより高い認知努力およびより低い直感性の費用で、安全および信頼の観点から最先端の結果を達成しました。 様々な次元のランキングとともに、この研究から生まれた様々な代替案の利点と欠点が、この分野の次の発展に重要な情報をもたらす可能性がある。

Providing pedestrians and other vulnerable road users with a clear indication about a fully autonomous vehicle status and intentions is crucial to make them coexist. In the last few years, a variety of external interfaces have been proposed, leveraging different paradigms and technologies including vehicle-mounted devices (like LED panels), short-range on-road projections, and road infrastructure interfaces (e.g., special asphalts with embedded displays). These designs were experimented in different settings, using mockups, specially prepared vehicles, or virtual environments, with heterogeneous evaluation metrics. Promising interfaces based on Augmented Reality (AR) have been proposed too, but their usability and effectiveness have not been tested yet. This paper aims to complement such body of literature by presenting a comparison of state-of-the-art interfaces and new designs under common conditions. To this aim, an immersive Virtual Reality-based simulation was developed, recreating a well-known scenario represented by pedestrians crossing in urban environments under non-regulated conditions. A user study was then performed to investigate the various dimensions of vehicle-to-pedestria n interaction leveraging objective and subjective metrics. Even though no interface clearly stood out over all the considered dimensions, one of the AR designs achieved state-of-the-art results in terms of safety and trust, at the cost of higher cognitive effort and lower intuitiveness compared to LED panels showing anthropomorphic features. Together with rankings on the various dimensions, indications about advantages and drawbacks of the various alternatives that emerged from this study could provide important information for next developments in the field.
翻訳日:2021-02-05 16:10:28 公開日:2021-02-04
# 深部投影GSUREによる画像復元

Image Restoration by Deep Projected GSURE ( http://arxiv.org/abs/2102.02485v1 )

ライセンス: Link先を確認
Shady Abu-Hussein, Tom Tirer, Se Young Chun, Yonina C. Eldar, and Raja Giryes(参考訳) Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。 近年,CNN(Deep Convolutional Neural Networks)に基づくソリューションは,大きな可能性を秘めている。 しかし、外部データを用いてcnnを訓練するこれらの技術のほとんどは、訓練段階で使用された観測モデルに限定されている。 この欠点のない最近の代替案は、内部学習を使用してターゲットイメージを学習することに依存します。 このような顕著な例の1つは、最小二乗の損失で入力画像に直接ネットワークを訓練するDeep Image Prior (DIP)技術である。 本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜伏画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。 フレームワークを使用する方法が2つあります。 第一に, 明示的前置法を用いない場合, 提案手法がdipなどの他の内部学習手法よりも優れていることを示す。 第2に、GSUREに基づく損失は、プラグアンドプレイのプリエンス方式で使用する場合、性能が向上することを示す。

Ill-posed inverse problems appear in many image processing applications, such as deblurring and super-resolution. In recent years, solutions that are based on deep Convolutional Neural Networks (CNNs) have shown great promise. Yet, most of these techniques, which train CNNs using external data, are restricted to the observation models that have been used in the training phase. A recent alternative that does not have this drawback relies on learning the target image using internal learning. One such prominent example is the Deep Image Prior (DIP) technique that trains a network directly on the input image with a least-squares loss. In this paper, we propose a new image restoration framework that is based on minimizing a loss function that includes a "projected-version&qu ot; of the Generalized SteinUnbiased Risk Estimator (GSURE) and parameterization of the latent image by a CNN. We demonstrate two ways to use our framework. In the first one, where no explicit prior is used, we show that the proposed approach outperforms other internal learning methods, such as DIP. In the second one, we show that our GSURE-based loss leads to improved performance when used within a plug-and-play priors scheme.
翻訳日:2021-02-05 16:07:59 公開日:2021-02-04
# 事前知識を有する動的MRIの超解像改善のための微調整深層学習モデルパラメータ

Fine-tuning deep learning model parameters for improved super-resolution of dynamic MRI with prior-knowledge ( http://arxiv.org/abs/2102.02711v1 )

ライセンス: Link先を確認
Chompunuch Sarasaen, Soumick Chatterjee, Mario Breitkopf, Georg Rose, Andreas N\"urnberger and Oliver Speck(参考訳) 動的イメージングは、生理学的変化を評価するための介入のための有益なツールです。 それにもかかわらず、ダイナミックMRIでは、高時間分解能を達成する一方で、空間分解能は損なわれる。 この時空間トレードオフを克服するために、動的MRIの高い時間分解能を維持しながら空間情報を最大化するための事前知識に基づく微調整による超解像(SR)MRIの再構築を提案する。 ベンチマークデータセットを用いてU-Netベースのネットワークをトレーニングし、1つの被写体固有の静的高分解能MRIを事前知識として微調整し、推論段階で高分解能ダイナミック画像を得る。 3名の被験者の3次元動的データを異なるパラメータで取得し,ネットワークの一般化能力をテストする。 動的MRIの面内アンダーサンプリングの異なるレベルを対象に, 実験を行った。 再構成した動的srは, 微調整後の高分解能地盤と高い類似性を示した。 この研究で実験された最低解像度(k空間の6.25~\%)の平均SSIMは0.939$\pm$0.008と0.957$\pm$0.006であった。 これは理論的には16の加速係数をもたらす可能性があり、これは半秒未満で取得できる可能性がある。 提案手法は, 動的MRIにおける時空間的トレードオフを, 高加速度因子においても緩和できることを示す。

Dynamic imaging is a beneficial tool for interventions to assess physiological changes. Nonetheless during dynamic MRI, while achieving a high temporal resolution, the spatial resolution is compromised. To overcome this spatio-temporal trade-off, this research presents a super-resolution (SR) MRI reconstruction with prior knowledge based fine-tuning to maximise spatial information while preserving high temporal resolution of dynamic MRI. An U-Net based network with perceptual loss is trained on a benchmark dataset and fine-tuned using one subject-specific static high resolution MRI as prior knowledge to obtain high resolution dynamic images during the inference stage. 3D dynamic data for three subjects were acquired with different parameters to test the generalisation capabilities of the network. The method was tested for different levels of in-plane undersampling for dynamic MRI. The reconstructed dynamic SR results showed higher similarity with the high resolution ground-truth after fine-tuning. The average SSIM of the lowest resolution experimented during this research (6.25~\% of the k-space) before and after fine-tuning were 0.939 $\pm$ 0.008 and 0.957 $\pm$ 0.006 respectively. This could theoretically result in an acceleration factor of 16, which can potentially be acquired in less than half a second. The proposed approach shows that the super-resolution MRI reconstruction with prior-information can alleviate the spatio-temporal trade-off in dynamic MRI, even for high acceleration factors.
翻訳日:2021-02-05 16:07:18 公開日:2021-02-04
# 原子システム導入のためのユニバーサルフレームワーク

A Universal Framework for Featurization of Atomistic Systems ( http://arxiv.org/abs/2102.02390v1 )

ライセンス: Link先を確認
Xiangyun Lei, Andrew J. Medford(参考訳) 分子動力学シミュレーションは、多くの科学分野で貴重なツールです。 しかし、ユビキタス古典力場は反応系を記述することができず、量子分子力学は大きな系や長い時間スケールを扱うのに計算的に要求されすぎる。 物理や機械学習に基づく反応力場は、時間と長さのスケールのギャップを埋めるために用いられるが、これらの力場は構築にかなりの労力を必要とし、与えられた化学組成や応用に非常に特有である。 機械学習モデルの極端な柔軟性は、化学結合のより一般的な記述を提供する反応力場を生み出すことを約束する。 しかし、機械学習モデルの顕著な制限は、要素固有の特徴の使用であり、要素の数に匹敵するスケールの悪いモデルに繋がる。 本研究は、原子周辺の電子密度の物理的関係の多極展開を利用して、要素タイプ間で補間され、存在元素数によらず固定次元を持つ特徴ベクトルを生成するガウス型多極(gmp)実現スキームを導入する。 GMPとニューラルネットワークを組み合わせることで、MD17データセットで広く使用されているBehler-Parinello対称関数と直接比較し、精度と計算効率が向上したことを明らかにしました。 さらに,GMPに基づくモデルではQM9データセットの化学的精度が得られ,新しい要素を外挿してもその精度は妥当であることを示す。 最後に、Open Catalysis Project (OCP)データセットのGMPベースのモデルをテストし、グラフ畳み込みディープラーニングモデルと比較して、同等のパフォーマンスと学習率の改善を明らかにした。 その結果, この破砕法は, 効率的かつ伝達可能な反応力場の構築において重要なギャップを埋めることが示唆された。

Molecular dynamics simulations are an invaluable tool in numerous scientific fields. However, the ubiquitous classical force fields cannot describe reactive systems, and quantum molecular dynamics are too computationally demanding to treat large systems or long timescales. Reactive force fields based on physics or machine learning can be used to bridge the gap in time and length scales, but these force fields require substantial effort to construct and are highly specific to given chemical composition and application. The extreme flexibility of machine learning models promises to yield reactive force fields that provide a more general description of chemical bonding. However, a significant limitation of machine learning models is the use of element-specific features, leading to models that scale poorly with the number of elements. This work introduces the Gaussian multi-pole (GMP) featurization scheme that utilizes physically-relevant multi-pole expansions of the electron density around atoms to yield feature vectors that interpolate between element types and have a fixed dimension regardless of the number of elements present. We combine GMP with neural networks to directly compare it to the widely-used Behler-Parinello symmetry functions for the MD17 dataset, revealing that it exhibits improved accuracy and computational efficiency. Further, we demonstrate that GMP-based models can achieve chemical accuracy for the QM9 dataset, and their accuracy remains reasonable even when extrapolating to new elements. Finally, we test GMP-based models for the Open Catalysis Project (OCP) dataset, revealing comparable performance and improved learning rates when compared to graph convolutional deep learning models. The results indicate that this featurization scheme fills a critical gap in the construction of efficient and transferable reactive force fields.
翻訳日:2021-02-05 16:05:00 公開日:2021-02-04
# 複数損失関数を用いた効率的な最適化に基づく微細構造再構築手法

An efficient optimization based microstructure reconstruction approach with multiple loss functions ( http://arxiv.org/abs/2102.02407v1 )

ライセンス: Link先を確認
Anindya Bhaduri, Ashwini Gupta, Audrey Olivier, Lori Graham-Brady(参考訳) 確率的ミクロ構造再構築は、(一連の)ターゲットミクロ構造の重要な統計と特性に一致するミクロ構造のデジタル生成を含む。 このプロセスは、網羅的でコストのかかる実験的な特性を行うことなく、マイクロ構造のアンサンブルに関する計算解析を可能にする。 統計関数に基づく深層学習に基づく手法は,幅広い材料システムに適用可能な確率的微細構造再構築手法の一つである。 本稿では,事前に訓練した深層ニューラルネットワークの統計ディスクリプタと特徴マップを全体的損失関数に統合し,最適化に基づく再構成手法を提案する。 これにより, ターゲット組織の重要な物理特性を保ちながら, 組織を再構築する計算効率が向上した。 二相ランダム多孔質セラミックス材料の微細構造再構築の数値例は、提案された方法論の効率を示す。 さらに, 対象のミクロ構造に対して, 材料特性のばらつきを捉えるアルゴリズムの容量を解析するために, 有効弾性率, 有効熱伝導率, 有効油圧伝導率を計算するために, 再構成されたミクロ構造の詳細な有限要素解析(FEA)を行う。 この方法は,3次元構造に拡張される可能性を持つランダム多相材料を2次元で再構成するための,経済的,効率的で使いやすい手法を提供する。

Stochastic microstructure reconstruction involves digital generation of microstructures that match key statistics and characteristics of a (set of) target microstructure(s). This process enables computational analyses on ensembles of microstructures without having to perform exhaustive and costly experimental characterizations. Statistical functions-based and deep learning-based methods are among the stochastic microstructure reconstruction approaches applicable to a wide range of material systems. In this paper, we integrate statistical descriptors as well as feature maps from a pre-trained deep neural network into an overall loss function for an optimization based reconstruction procedure. This helps us to achieve significant computational efficiency in reconstructing microstructures that retain the critically important physical properties of the target microstructure. A numerical example for the microstructure reconstruction of bi-phase random porous ceramic material demonstrates the efficiency of the proposed methodology. We further perform a detailed finite element analysis (FEA) of the reconstructed microstructures to calculate effective elastic modulus, effective thermal conductivity and effective hydraulic conductivity, in order to analyse the algorithm's capacity to capture the variability of these material properties with respect to those of the target microstructure. This method provides an economic, efficient and easy-to-use approach for reconstructing random multiphase materials in 2D which has the potential to be extended to 3D structures.
翻訳日:2021-02-05 16:04:09 公開日:2021-02-04
# エンドツーエンドのトレーニング可能なハイブリッド古典量子分類器

An end-to-end trainable hybrid classical-quantum classifier ( http://arxiv.org/abs/2102.02416v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Chih-Min Huang, Chia-Wei Hsing and Ying-Jer Kao(参考訳) 量子インスパイアされたテンソルネットワークと変分量子回路を組み合わせて教師付き学習タスクを行うハイブリッドモデルを提案する。 このアーキテクチャは、モデルの古典的部分と量子部分を同時にトレーニングし、エンドツーエンドのトレーニングフレームワークを提供する。 また, 主成分分析と比較して, 結合次元の低い行列積状態に基づくテンソルネットワークは, mnist および fashion-mnist データセットの二元および三元分類における変分量子回路の入力データの特徴抽出器として優れていることを示した。 アーキテクチャは高度に適応可能であり、テンソルネットワークと量子回路の対応を利用して量子資源の可用性に応じて古典量子境界を調整できる。

We introduce a hybrid model combining a quantum-inspired tensor network and a variational quantum circuit to perform supervised learning tasks. This architecture allows for the classical and quantum parts of the model to be trained simultaneously, providing an end-to-end training framework. We show that compared to the principal component analysis, a tensor network based on the matrix product state with low bond dimensions performs better as a feature extractor for the input data of the variational quantum circuit in the binary and ternary classification of MNIST and Fashion-MNIST datasets. The architecture is highly adaptable and the classical-quantum boundary can be adjusted according the availability of the quantum resource by exploiting the correspondence between tensor networks and quantum circuits.
翻訳日:2021-02-05 16:03:30 公開日:2021-02-04
# シンプルなモデルで複雑なシステムを制御するためのデータ効率のよい学習

Keep it Simple: Data-efficient Learning for Controlling Complex Systems with Simple Models ( http://arxiv.org/abs/2102.02493v1 )

ライセンス: Link先を確認
Thomas Power and Dmitry Berenson(参考訳) 複雑な動的で新しいオブジェクトを操作する場合、例えば変形可能なオブジェクトなど、状態表現は必ずしも利用できない。 観察から表現とダイナミクスの両方を学ぶには、大量のデータが必要です。 複雑な動的および高次元状態空間を持つシステムを制御するための,データ効率のよい学習手法であるLearted Visual similarity Predictive Control (LVSPC)を提案する。 LVSPCは、画像観察を生成できる与えられた単純なモデル近似を利用する。 これらの画像を用いて、オンラインの複雑なシステムの観測から単純なモデルの状態を推定する知覚モデルを訓練する。 次に、複雑なシステムのデータを使用して、単純なモデルのパラメータに適合し、このモデルが不正確である場所を学習します。 最後に、我々はモデル予測制御を使い、単純なモデルが不正確で、コントローラが信頼性が低い領域からコントローラをバイアスします。 我々はLVSPCを2つのタスク、すなわちテザリング質量とロープの操作で評価した。 提案手法は, 最先端の強化学習手法に対して, 桁違いに少ないデータで比較可能であることが判明した。 lvspcは、シミュレーションからの画像のみを訓練した知覚システムを使用しても、わずか10回の試行で80%の成功率の実際のロボットのロープ操作タスクも完了している。

When manipulating a novel object with complex dynamics, a state representation is not always available, for example for deformable objects. Learning both a representation and dynamics from observations requires large amounts of data. We propose Learned Visual Similarity Predictive Control (LVSPC), a novel method for data-efficient learning to control systems with complex dynamics and high-dimensional state spaces from images. LVSPC leverages a given simple model approximation from which image observations can be generated. We use these images to train a perception model that estimates the simple model state from observations of the complex system online. We then use data from the complex system to fit the parameters of the simple model and learn where this model is inaccurate, also online. Finally, we use Model Predictive Control and bias the controller away from regions where the simple model is inaccurate and thus where the controller is less reliable. We evaluate LVSPC on two tasks; manipulating a tethered mass and a rope. We find that our method performs comparably to state-of-the-art reinforcement learning methods with an order of magnitude less data. LVSPC also completes the rope manipulation task on a real robot with 80% success rate after only 10 trials, despite using a perception system trained only on images from simulation.
翻訳日:2021-02-05 16:02:56 公開日:2021-02-04
# リコメンダシステムのためのデュアルエンベディングに基づくニューラルコラボレーティブフィルタリング

Dual-embedding based Neural Collaborative Filtering for Recommender Systems ( http://arxiv.org/abs/2102.02549v1 )

ライセンス: Link先を確認
Gongshan He, Dongxing Zhao, Lixing Ding(参考訳) 様々な推奨技術の中で、協調フィルタリング(CF)が最も成功しています。 そしてCFの重要な問題は、ユーザとアイテムの表現方法だ。 以前の作品は通常、ユーザ(アイテム)を潜在要因(別名)のベクトルとして表現する。 次に、表現に基づいてユーザとアイテム間のインタラクションをモデル化します。 その効果にもかかわらず、協調フィルタリングのための十分な埋め込みを得るには不十分であると主張する。 SVD++のアイデアにインスパイアされ、ユーザ自身と相互作用したアイテムに基づいて、DNCFという、Dual-embeddingベースのニューラルネットワーク協調フィルタリングの略である一般的な協調フィルタリングフレームワークを提案します。 ユーザ(アイテム)に対するプリミティブな埋め込みの学習に加えて,インタラクションされたアイテム(ユーザ)の観点から追加的な埋め込みを導入し,ユーザ(item)表現を拡大する。 提案したDNCFフレームワークの有効性を,従来の行列因数分解モデルや他の最先端のディープラーニングベースレコメンデータモデルと比較することにより,4つの公開データセットに対する大規模な実験により実証した。

Among various recommender techniques, collaborative filtering (CF) is the most successful one. And a key problem in CF is how to represent users and items. Previous works usually represent a user (an item) as a vector of latent factors (aka. \textit{embedding}) and then model the interactions between users and items based on the representations. Despite its effectiveness, we argue that it's insufficient to yield satisfactory embeddings for collaborative filtering. Inspired by the idea of SVD++ that represents users based on themselves and their interacted items, we propose a general collaborative filtering framework named DNCF, short for Dual-embedding based Neural Collaborative Filtering, to utilize historical interactions to enhance the representation. In addition to learning the primitive embedding for a user (an item), we introduce an additional embedding from the perspective of the interacted items (users) to augment the user (item) representation. Extensive experiments on four publicly datasets demonstrated the effectiveness of our proposed DNCF framework by comparing its performance with several traditional matrix factorization models and other state-of-the-art deep learning based recommender models.
翻訳日:2021-02-05 16:02:17 公開日:2021-02-04
# 群集スターフィールドの変分推定

Variational Inference for Deblending Crowded Starfields ( http://arxiv.org/abs/2102.02409v1 )

ライセンス: Link先を確認
Runjing Liu, Jon D. McAuliffe, Jeffrey Regier (for the LSST Dark Energy Science Collaboration)(参考訳) 天文調査によって収集された画像データでは、星と銀河はしばしば重なる。 デブレンディングは、個々の光源を調査画像から区別し、特徴付ける作業です。 混雑した星界の天文学的画像からソースを消す完全ベイズ法であるStarNetを提案する。 starnetは、amortized variational distributionsやwake-sleepアルゴリズムなど、変分推論の最近の進歩を活用している。 ウェイクリープはKLの分岐を最小化するが、逆KLの分岐を最小化する従来の変分推論と比較して大きな利点がある。 筆者らは,M2球状クラスタのSDSS画像を用いた実験において,PCAT (Probablistic Cataloging) とDAOPHOT (SDSS for Deblending) を用いたソフトウェアパイプラインの2つの競合手法と比較して,StarNetの精度を著しく向上した。 さらに、StarNetはPCATよりも10万ドル速く、現代の天文調査でベイズ推論を完全に実行するのに必要なスケーリング特性を示しています。

In the image data collected by astronomical surveys, stars and galaxies often overlap. Deblending is the task of distinguishing and characterizing individual light sources from survey images. We propose StarNet, a fully Bayesian method to deblend sources in astronomical images of crowded star fields. StarNet leverages recent advances in variational inference, including amortized variational distributions and the wake-sleep algorithm. Wake-sleep, which minimizes forward KL divergence, has significant benefits compared to traditional variational inference, which minimizes a reverse KL divergence. In our experiments with SDSS images of the M2 globular cluster, StarNet is substantially more accurate than two competing methods: Probablistic Cataloging (PCAT), a method that uses MCMC for inference, and a software pipeline employed by SDSS for deblending (DAOPHOT). In addition, StarNet is as much as $100,000$ times faster than PCAT, exhibiting the scaling characteristics necessary to perform fully Bayesian inference on modern astronomical surveys.
翻訳日:2021-02-05 15:58:25 公開日:2021-02-04
# ガウス図形モデルにおけるモデル選択と異常検出のためのグラフ符号化

Graph Coding for Model Selection and Anomaly Detection in Gaussian Graphical Models ( http://arxiv.org/abs/2102.02431v1 )

ライセンス: Link先を確認
Mojtaba Abolfazli, Anders Host-Madsen, June Zhang, Andras Bratincsak(参考訳) 記述長の古典的な応用は、最小記述長(MDL)原理によるモデル選択である。 本研究の目的は,スカラーの単純なモデル選択やシーケンスを超えて,データ解析のための記述長を拡張することである。 具体的には、ガウス図形モデルにおけるデータ解析のための記述長を拡張する。 これらは、変数間の相互作用をグラフの形で、すなわちガウスデータの列でモデル化する強力なツールである。 本手法は,ユニバーサルグラフ符号化手法を用いて,モデルの複雑さを正確に考慮し,より厳密なグラフモデル選択手法を提供する。 本手法は合成心電図(ECG)データを用いて,ガウス図形モデルにおけるグラフモデルと異常を検出する。 実験の結果,本手法は一般的な手法に比べて性能がよいことがわかった。

A classic application of description length is for model selection with the minimum description length (MDL) principle. The focus of this paper is to extend description length for data analysis beyond simple model selection and sequences of scalars. More specifically, we extend the description length for data analysis in Gaussian graphical models. These are powerful tools to model interactions among variables in a sequence of i.i.d Gaussian data in the form of a graph. Our method uses universal graph coding methods to accurately account for model complexity, and therefore provide a more rigorous approach for graph model selection. The developed method is tested with synthetic and electrocardiogram (ECG) data to find the graph model and anomaly in Gaussian graphical models. The experiments show that our method gives better performance compared to commonly used methods.
翻訳日:2021-02-05 15:57:46 公開日:2021-02-04
# キルヒホフ板の曲げ解析のための深部コロケーション法

A Deep Collocation Method for the Bending Analysis of Kirchhoff Plate ( http://arxiv.org/abs/2102.02617v1 )

ライセンス: Link先を確認
Hongwei Guo, Xiaoying Zhuang, Timon Rabczuk(参考訳) 本論文では,薄板曲げ問題に対する深層コロケーション法 (DCM) を提案する。 この手法は、ディープラーニングに関わる計算グラフとバックプロパゲーションアルゴリズムを利用する。 さらに,提案するdcmはfeedforward deep neural network (dnn) に基づいており,機械的問題に対するディープラーニングの従来の応用とは異なっている。 まず、ランダムに分散したコロケーションポイントのバッチが、最初はドメイン内と境界に沿って生成される。 損失関数はキルヒホフ板の曲げ問題に対する偏微分方程式 (PDE) の制御を目的とし, 境界条件と初期条件はそれらの座標点で最小化される。 バックプロパゲーションプロセスでオプティマイザの組み合わせを採用し、損失関数を最小化し、最適なハイパーパラメータを得る。 Kirchhoffプレート曲げ問題では、C1連続性要件は従来のメッシュベースの手法で重大な困難を生じさせる。 これは、連続的な横断偏向を近似するためにディープニューラルネットワークを使用する提案されたDCMによって解決することができ、様々な幾何学のキルチホフプレートの曲げ解析に適しています。

In this paper, a deep collocation method (DCM) for thin plate bending problems is proposed. This method takes advantage of computational graphs and backpropagation algorithms involved in deep learning. Besides, the proposed DCM is based on a feedforward deep neural network (DNN) and differs from most previous applications of deep learning for mechanical problems. First, batches of randomly distributed collocation points are initially generated inside the domain and along the boundaries. A loss function is built with the aim that the governing partial differential equations (PDEs) of Kirchhoff plate bending problems, and the boundary/initial conditions are minimised at those collocation points. A combination of optimizers is adopted in the backpropagation process to minimize the loss function so as to obtain the optimal hyperparameters. In Kirchhoff plate bending problems, the C1 continuity requirement poses significant difficulties in traditional mesh-based methods. This can be solved by the proposed DCM, which uses a deep neural network to approximate the continuous transversal deflection, and is proved to be suitable to the bending analysis of Kirchhoff plate of various geometries.
翻訳日:2021-02-05 15:57:14 公開日:2021-02-04
# 低ビットレート広帯域音声符号化:深部生成モデルに基づくアプローチ

Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based Approach ( http://arxiv.org/abs/2102.02640v1 )

ライセンス: Link先を確認
Gang Min, Xiongwei Zhang, Xia Zou, Xiangyang Liu(参考訳) 従来の低ビットレート音声符号化アプローチは8khzでの狭帯域音声のみを扱うため、音声品質のさらなる改善は制限される。 本稿では,画像と音声圧縮のための深層学習手法の探索に成功し,MFCCのベクトル量子化(VQ)とWaveGlowと呼ばれる深層生成モデルを用いて効率的かつ高品質な音声符号化を行うことにより,新たなアプローチを提案する。 符号化機能は、16kHzの広帯域音声のための80次元のMFCCベクトルであり、1000-2000bit/sのビットレートでの音声符号化は、MFCCのベクトルに異なるVQスキームを適用することで、確実に実装できる。 この新しいディープジェネレーションネットワークベースのコーデックは、サンプルごとの自動回帰機構をWaveGlowモデルが放棄すると高速に動作します。 我々は,マルチスピーカ TIMIT コーパスに対するこの新しいアプローチを評価し,その実験結果から,従来の MELPe コーデックに比べて低ビットレートでの音声品質が向上することが実証された。

Traditional low bit-rate speech coding approach only handles narrowband speech at 8kHz, which limits further improvements in speech quality. Motivated by recent successful exploration of deep learning methods for image and speech compression, this paper presents a new approach through vector quantization (VQ) of mel-frequency cepstral coefficients (MFCCs) and using a deep generative model called WaveGlow to provide efficient and high-quality speech coding. The coding feature is sorely an 80-dimension MFCCs vector for 16kHz wideband speech, then speech coding at the bit-rate throughout 1000-2000 bit/s could be scalably implemented by applying different VQ schemes for MFCCs vector. This new deep generative network based codec works fast as the WaveGlow model abandons the sample-by-sample autoregressive mechanism. We evaluated this new approach over the multi-speaker TIMIT corpus, and experimental results demonstrate that it provides better speech quality compared with the state-of-the-art classic MELPe codec at lower bit-rate.
翻訳日:2021-02-05 15:56:36 公開日:2021-02-04
# HMC, データマイニングにおけるアルゴリズム, 機能解析アプローチ

HMC, an Algorithms in Data Mining, the Functional Analysis approach ( http://arxiv.org/abs/2102.02691v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz Nowicki(参考訳) 本論文の主な目的は、分析、確率的およびアルゴリズム的コミュニティ間のコミュニケーションを促進することである。 本稿では,Hamiltonian (Hybrid) Monte Carloアルゴリズムの進化する物体は確率分布の密度であり,ツールは関数解析から導かれる動的系の観点から,収束の証明を提示する。

The main purpose of this paper is to facilitate the communication between the Analytic, Probabilistic and Algorithmic communities. We present a proof of convergence of the Hamiltonian (Hybrid) Monte Carlo algorithm from the point of view of the Dynamical Systems, where the evolving objects are densities of probability distributions and the tool are derived from the Functional Analysis.
翻訳日:2021-02-05 15:55:13 公開日:2021-02-04
# 物理計算における敵対的攻撃と防御:システム的レビュー

Adversarial Attacks and Defenses in Physiological Computing: A Systematic Review ( http://arxiv.org/abs/2102.02729v1 )

ライセンス: Link先を確認
Dongrui Wu, Weili Fang, Yi Zhang, Liuqing Yang, Hanbin Luo, Lieyun Ding, Xiaodong Xu and Xiang Yu(参考訳) 生理学的コンピューティングは、人間の生理データをリアルタイムでシステム入力として利用する。 脳とコンピュータのインターフェース、感情コンピューティング、適応的自動化、健康情報学、生理的信号に基づく生体計測などと大きく重なり合っている。 生理学的コンピューティングは、ユーザからコンピュータへの通信帯域幅を増加させるが、攻撃者が故意にトレーニングおよび/またはテスト例を操作して機械学習アルゴリズム出力をハイジャックすることで、ユーザの混乱、フラストレーション、負傷、さらには死に至る可能性のある、さまざまなタイプの敵対攻撃の対象となる。 しかし、生理学的コンピューティングシステムの脆弱性は十分に注目されておらず、それに対する敵意攻撃に関する包括的なレビューは存在していない。 このギャップを埋めるために、生理学コンピューティングの主要な研究分野、様々なタイプの敵攻撃とその生理学コンピューティングへの応用、およびそれに対応する防衛戦略を体系的に検討する。 このレビューは、生理学的コンピューティングシステムの脆弱性、およびより重要な、それらをより安全にするための防衛戦略に関するより多くの研究の関心を引き付けることを願っています。

Physiological computing uses human physiological data as system inputs in real time. It includes, or significantly overlaps with, brain-computer interfaces, affective computing, adaptive automation, health informatics, and physiological signal based biometrics. Physiological computing increases the communication bandwidth from the user to the computer, but is also subject to various types of adversarial attacks, in which the attacker deliberately manipulates the training and/or test examples to hijack the machine learning algorithm output, leading to possibly user confusion, frustration, injury, or even death. However, the vulnerability of physiological computing systems has not been paid enough attention to, and there does not exist a comprehensive review on adversarial attacks to it. This paper fills this gap, by providing a systematic review on the main research areas of physiological computing, different types of adversarial attacks and their applications to physiological computing, and the corresponding defense strategies. We hope this review will attract more research interests on the vulnerability of physiological computing systems, and more importantly, defense strategies to make them more secure.
翻訳日:2021-02-05 15:54:46 公開日:2021-02-04
# 並列ACGNチャネルとカルマンフィルタのフィードバック容量:フィードバックによるパワーアロケーション

Feedback Capacity of Parallel ACGN Channels and Kalman Filter: Power Allocation with Feedback ( http://arxiv.org/abs/2102.02730v1 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) 本稿では,パラレル加算色ガウス雑音(ACGN)チャネルのフィードバック容量をカルマンフィルタの変種と比較する。 これにより、これらのチャネルのフィードバック容量の上限が低くなり、また、フィードバックを伴う本質的にパワー割り当てポリシーである対応するフィードバック(再帰的)コーディングスキームが得られる。 その結果、単一のACGNフィードバックチャネルの場合、既存の下位境界に還元されるが、並列的な付加的な白色ガウス雑音(AWGN)チャネルでは、再帰的符号化方式は「フィードバック給水」電力割り当てポリシーに還元される。

In this paper, we relate the feedback capacity of parallel additive colored Gaussian noise (ACGN) channels to a variant of the Kalman filter. By doing so, we obtain lower bounds on the feedback capacity of such channels, as well as the corresponding feedback (recursive) coding schemes, which are essentially power allocation policies with feedback, to achieve the bounds. The results are seen to reduce to existing lower bounds in the case of a single ACGN feedback channel, whereas when it comes to parallel additive white Gaussian noise (AWGN) channels with feedback, the recursive coding scheme reduces to a "feedback water-filling" power allocation policy.
翻訳日:2021-02-05 15:54:06 公開日:2021-02-04
# (参考訳) Latent Continuity を用いたバンディットの転送学習 [全文訳有]

Transfer Learning in Bandits with Latent Continuity ( http://arxiv.org/abs/2102.02472v1 )

ライセンス: CC BY 4.0
Hyejin Park and Seiyun Shin and Kwang-Sung Jun and Jungseul Ok(参考訳) 構造的確率的多重武装バンディットは、標準的な非構造的バンディット問題よりも高速な後悔率を提供する。 しかし、ほとんどの構造化バンディットは、しばしば利用できないリプシッツ連続性のような構造パラメータの知識を前提としている。 潜在構造パラメータに対処するために,無線リンクにおけるレート適応などの実用的問題に触発されて,エージェントが事前タスクから次のタスクへ構造情報を転送するために学習しなければならないトランスファー学習環境を検討する。 従来のタスクに基づいてLipschitz定数を明確かつ正確に推定し、新しいタスクに完全に活用するための新しいフレームワークを提案します。 提案されたフレームワークの効率を2つの折り目で分析する: (i) 推定器のサンプル複雑さは、情報理論の基本限界と一致する; (ii) 新しいタスクに縛られた私たちの後悔は、軽度の仮定の下でLipschitz定数の完全な知識を持つオラクルアルゴリズムのそれに近いです。 私たちの分析は、学習者が直面する基本的な課題などの潜在的なLipschitzconstantsの転送学習に関する有用な洞察のセットを明らかにします。 本研究では, 理論的知見を検証し, ベースラインと比較し, 提案フレームワークの優位性を示した。

Structured stochastic multi-armed bandits provide accelerated regret rates over the standard unstructured bandit problems. Most structured bandits, however, assume the knowledge of the structural parameter such as Lipschitz continuity, which is often not available. To cope with the latent structural parameter, we consider a transfer learning setting in which an agent must learn to transfer the structural information from the prior tasks to the next task, which is inspired by practical problems such as rate adaptation in wireless link. We propose a novel framework to provably and accurately estimate the Lipschitz constant based on previous tasks and fully exploit it for the new task at hand. We analyze the efficiency of the proposed framework in two folds: (i) the sample complexity of our estimator matches with the information-theoreti c fundamental limit; and (ii) our regret bound on the new task is close to that of the oracle algorithm with the full knowledge of the Lipschitz constant under mild assumptions. Our analysis reveals a set of useful insights on transfer learning for latent Lipschitzconstants such as the fundamental challenge a learner faces. Our numerical evaluations confirm our theoretical findings and show the superiority of the proposed framework compared to baselines.
翻訳日:2021-02-05 15:53:23 公開日:2021-02-04
# (参考訳) グラフモデルを用いたガウス専門家の選択 [全文訳有]

Gaussian Experts Selection using Graphical Models ( http://arxiv.org/abs/2102.01496v2 )

ライセンス: CC BY 4.0
Hamed Jalali, Martin Pawelczyk, Gjergji Kasneci(参考訳) 局所近似はガウス過程(GP)をビッグデータに拡張する一般的な手法である。 ローカル近似は、元のデータセットをサブセットに分割し、各サブセットでローカルエキスパートをトレーニングすることで、時間の複雑さを低減する。 専門家の予測の集約は、専門家間の条件依存または独立を仮定して行われる。 専門家間の \emph{conditional independent assumption} (CI) を課すと、異なる専門家の予測の集約が、不確実性の定量化のコストで時間効率良く行われる。 一方、モデルに依存する専門家は、非現実的に高い計算コストを犠牲にして正確な予測と不確実性定量を提供することができる。 理論ガイドによる専門家選定ステップを通じて弱い専門家を排除することにより、依存専門家を集約する計算コストを大幅に削減し、校正された不確実性の定量化を確保します。 専門家間の条件付き依存関係をエンコードするスパース精度行列を使用して,最も重要な専門家を選択することで,無向なグラフィカルモデルに関する文献の手法を活用する。 モレロフ

Local approximations are popular methods to scale Gaussian processes (GPs) to big data. Local approximations reduce time complexity by dividing the original dataset into subsets and training a local expert on each subset. Aggregating the experts' prediction is done assuming either conditional dependence or independence between the experts. Imposing the \emph{conditional independence assumption} (CI) between the experts renders the aggregation of different expert predictions time efficient at the cost of poor uncertainty quantification. On the other hand, modeling dependent experts can provide precise predictions and uncertainty quantification at the expense of impractically high computational costs. By eliminating weak experts via a theory-guided expert selection step, we substantially reduce the computational cost of aggregating dependent experts while ensuring calibrated uncertainty quantification. We leverage techniques from the literature on undirected graphical models, using sparse precision matrices that encode conditional dependencies between experts to select the most important experts. Moreov
翻訳日:2021-02-05 11:59:49 公開日:2021-02-04
# 最適状態値関数の線形実現性を考慮したMDPのクエリ効率プランニングについて

On Query-efficient Planning in MDPs under Linear Realizability of the Optimal State-value Function ( http://arxiv.org/abs/2102.02049v2 )

ライセンス: Link先を確認
Gellert Weisz, Philip Amortila, Barnab\'as Janzer, Yasin Abbasi-Yadkori, Nan Jiang, Csaba Szepesv\'ari(参考訳) 生成モデルを用いた固定正則マルコフ決定プロセス(MDP)における局所計画の問題点を,生成モデルを通じてアクセス可能な特徴マップのスパンに最適値関数が存在することを前提として検討する。 すべてのポリシーの線形実現可能性を仮定する以前の研究とは対照的に、単一の線形実現可能な(決定論的)ポリシーの非常に緩やかな仮定を考える。 最近の下界は、最適ポリシーの作用値関数が線形実現可能である場合に、H(MDPの地平線)またはd(特徴写像の次元)の指数的な数のクエリを必要とすることを証明した。 彼らの構成は指数関数的に大きなアクションセットを持つことに大きく依存している。 対照的に、本研究では、アクション集合が小さい場合(すなわち、)にpoly$(h, d)$学習が可能(状態値関数実現可能性)となることを定めている。 O(1))。 特に,ポリ$((dH/\delta)^A)$クエリを用いて,値関数がゼロ付近の固定半径球からのパラメータと線形に実現可能な任意の決定的ポリシに対して,$\delta$-optimal Policyを求めるTensorPlanアルゴリズムを提案する。 これは、単一の競合値関数の線形実現性のみを使用して多項式クエリの複雑性を保証する最初のアルゴリズムである。 計算コストが同じように有界であるかどうかは、まだ興味深い疑問である。 上界は下界で補われ、無限ホリゾンエピソディック設定では、一定の部分最適化性を達成するプランナーは、次元やアクションの数において指数関数的に多くのクエリを必要とする。

We consider the problem of local planning in fixed-horizon Markov Decision Processes (MDPs) with a generative model under the assumption that the optimal value function lies in the span of a feature map that is accessible through the generative model. As opposed to previous work where linear realizability of all policies was assumed, we consider the significantly relaxed assumption of a single linearly realizable (deterministic) policy. A recent lower bound established that the related problem when the action-value function of the optimal policy is linearly realizable requires an exponential number of queries, either in H (the horizon of the MDP) or d (the dimension of the feature mapping). Their construction crucially relies on having an exponentially large action set. In contrast, in this work, we establish that poly$(H, d)$ learning is possible (with state value function realizability) whenever the action set is small (i.e. O(1)). In particular, we present the TensorPlan algorithm which uses poly$((dH/\delta)^A)$ queries to find a $\delta$-optimal policy relative to any deterministic policy for which the value function is linearly realizable with a parameter from a fixed radius ball around zero. This is the first algorithm to give a polynomial query complexity guarantee using only linear-realizability of a single competing value function. Whether the computation cost is similarly bounded remains an interesting open question. The upper bound is complemented by a lower bound which proves that in the infinite-horizon episodic setting, planners that achieve constant suboptimality need exponentially many queries, either in the dimension or the number of actions.
翻訳日:2021-02-05 11:42:52 公開日:2021-02-04
# 因果的協調フィルタリング

Causal Collaborative Filtering ( http://arxiv.org/abs/2102.01868v2 )

ライセンス: Link先を確認
Shuyuan Xu, Yingqiang Ge, Yunqi Li, Zuohui Fu, Xu Chen, Yongfeng Zhang(参考訳) リコメンダーシステムは、多くのパーソナライズされたサービスにとって重要で価値のあるツールです。 協調フィルタリング(CF)アルゴリズムは、パーソナライズされたレコメンデーションの基盤となるメカニズムを駆動する基本的なアルゴリズムである。 従来のCFアルゴリズムの多くは、ユーザ/アイテムベースのCFなどのメモリベースの方法、マトリックスファクタリゼーションやディープラーニングモデルなどの学習ベースの方法など、マッチングのためのデータから相関パターンをマイニングまたは学習するという基本的なアイデアに基づいて設計されています。 しかし, 相関学習から因果学習へ進むことは重要な問題であり, 因果モデリングは, ユーザモデリングとパーソナライズのための観察データ以外で考えるのに役立つ。 本稿では,コラボレーティブフィルタリングとレコメンデーションの因果関係をモデル化するための汎用フレームワークであるcausal collaborative filtering (ccf)を提案する。 まず、従来のCFアルゴリズムの多くは、単純化された因果グラフの下でCCFの特別な場合であることを数学的に示す。 次に, 観測データに基づいて因果関係を推定できるように, $do$-calculus に対する条件付き介入手法を提案する。 最後に,ユーザの嗜好を推定する汎用的な反事実制約学習フレームワークを提案する。 実験は2種類の実世界のデータセット – 従来型とランダム化された試験データ -- で行われ、その結果、フレームワークは多くのCFアルゴリズムの推奨性能を向上させることができることが示された。

Recommender systems are important and valuable tools for many personalized services. Collaborative Filtering (CF) algorithms -- among others -- are fundamental algorithms driving the underlying mechanism of personalized recommendation. Many of the traditional CF algorithms are designed based on the fundamental idea of mining or learning correlative patterns from data for matching, including memory-based methods such as user/item-based CF as well as learning-based methods such as matrix factorization and deep learning models. However, advancing from correlative learning to causal learning is an important problem, because causal/counterfactua l modeling can help us to think outside of the observational data for user modeling and personalization. In this paper, we propose Causal Collaborative Filtering (CCF) -- a general framework for modeling causality in collaborative filtering and recommendation. We first provide a unified causal view of CF and mathematically show that many of the traditional CF algorithms are actually special cases of CCF under simplified causal graphs. We then propose a conditional intervention approach for $do$-calculus so that we can estimate the causal relations based on observational data. Finally, we further propose a general counterfactual constrained learning framework for estimating the user-item preferences. Experiments are conducted on two types of real-world datasets -- traditional and randomized trial data -- and results show that our framework can improve the recommendation performance of many CF algorithms.
翻訳日:2021-02-05 11:42:00 公開日:2021-02-04
# 非IIDデータサイロのフェデレーション学習:実験的研究

Federated Learning on Non-IID Data Silos: An Experimental Study ( http://arxiv.org/abs/2102.02079v2 )

ライセンス: Link先を確認
Qinbin Li, Yiqun Diao, Quan Chen, Bingsheng He(参考訳) 機械学習サービスは多くのデータ集約型アプリケーションで登場しており、その効果は大量の高品質のトレーニングデータに大きく依存しています。 しかし、プライバシーの懸念やデータ規制の高まりにより、トレーニングデータは断片化され、複数のデータサイロ(例えば、異なる組織や国内で)の分散データベースを形成している。 効率的な機械学習サービスを開発するには、生データを交換することなく、このような分散データベースのデータを利用する必要がある。 近年、フェデレーテッド・ラーニング(FL)は関心が高まり、複数のパーティがローカルデータを交換することなく機械学習モデルを協調的にトレーニングできるソリューションとなっている。 分散データベースにおける重要かつ共通の課題は、当事者間のデータ分散(すなわち非IID)の不均一性である。 非IIDデータ設定下での学習効率に対処するFLアルゴリズムは数多く存在する。 しかし,従来の研究では,代表的かつ徹底的ではないパーティ間でのデータ分割戦略が非常に厳格なため,そのメリットとデメリットを体系的に理解する実験的な研究が欠落している。 本論文では,フェデレーション学習における非IIDデータ設定の理解と研究を支援するために,非IIDデータケースをカバーする包括的なデータ分割戦略を提案する。 さらに,最先端flアルゴリズムを評価するための広範囲な実験を行った。 非IIDはFLアルゴリズムの精度を学習する上で大きな課題をもたらしており、既存のFLアルゴリズムが他のどの場合よりも優れているものはない。 我々の実験は、データサイロの課題に対処するための将来の研究のための洞察を提供する。

Machine learning services have been emerging in many data-intensive applications, and their effectiveness highly relies on large-volume high-quality training data. However, due to the increasing privacy concerns and data regulations, training data have been increasingly fragmented, forming distributed databases of multiple data silos (e.g., within different organizations and countries). To develop effective machine learning services, there is a must to exploit data from such distributed databases without exchanging the raw data. Recently, federated learning (FL) has been a solution with growing interests, which enables multiple parties to collaboratively train a machine learning model without exchanging their local data. A key and common challenge on distributed databases is the heterogeneity of the data distribution (i.e., non-IID) among the parties. There have been many FL algorithms to address the learning effectiveness under non-IID data settings. However, there lacks an experimental study on systematically understanding their advantages and disadvantages, as previous studies have very rigid data partitioning strategies among parties, which are hardly representative and thorough. In this paper, to help researchers better understand and study the non-IID data setting in federated learning, we propose comprehensive data partitioning strategies to cover the typical non-IID data cases. Moreover, we conduct extensive experiments to evaluate state-of-the-art FL algorithms. We find that non-IID does bring significant challenges in learning accuracy of FL algorithms, and none of the existing state-of-the-art FL algorithms outperforms others in all cases. Our experiments provide insights for future studies of addressing the challenges in data silos.
翻訳日:2021-02-05 11:41:16 公開日:2021-02-04
# BeFair:銀行セクターの公平性への取り組み

BeFair: Addressing Fairness in the Banking Sector ( http://arxiv.org/abs/2102.02137v2 )

ライセンス: Link先を確認
Alessandro Castelnovo, Riccardo Crupi, Giulia Del Gamba, Greta Greco, Aisha Naseer, Daniele Regoli, Beatriz San Miguel Gonzalez(参考訳) アルゴリズムバイアスの軽減は、データサイエンスコミュニティと機械学習(ML)の専門家にとって最も困難な混乱の1つです。 数年間にわたり、MLの公平性分野に多大な努力が注がれている。 バイアスの特定と公正なアルゴリズムの設計の進歩にもかかわらず、それらを業界に翻訳することは大きな課題です。 本稿では,銀行セクターにおける産業的オープンイノベーションプロジェクトの初期成果として,MLの公平性に関する一般的なロードマップと,バイアスの特定と緩和を支援するBeFairと呼ばれるツールキットの実装を提案する。 その結果、明示的な制約のないモデルのトレーニングは、予測におけるバイアスの悪化につながる可能性がある。

Algorithmic bias mitigation has been one of the most difficult conundrums for the data science community and Machine Learning (ML) experts. Over several years, there have appeared enormous efforts in the field of fairness in ML. Despite the progress toward identifying biases and designing fair algorithms, translating them into the industry remains a major challenge. In this paper, we present the initial results of an industrial open innovation project in the banking sector: we propose a general roadmap for fairness in ML and the implementation of a toolkit called BeFair that helps to identify and mitigate bias. Results show that training a model without explicit constraints may lead to bias exacerbation in the predictions.
翻訳日:2021-02-05 11:40:28 公開日:2021-02-04
# 悪意あるクライアントに対する安全なフェデレーションラーニング

Provably Secure Federated Learning against Malicious Clients ( http://arxiv.org/abs/2102.01854v2 )

ライセンス: Link先を確認
Xiaoyu Cao, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) フェデレーションラーニングにより、クライアントはローカルトレーニングデータをクラウドサーバーと共有することなく、共有グローバルモデルを共同で学習できます。 しかし、悪意のあるクライアントはグローバルモデルを破損して、テスト例の誤ったラベルを予測できます。 悪意のあるクライアントに対する既存の防御は、Byzantine-robustフェデレーション学習方法を活用します。 しかし、これらの方法は、テスト例の予測ラベルが悪意のあるクライアントの影響を受けないことを保証できません。 このギャップをアンサンブル連合学習によって橋渡しします。 特に,任意のベースフェデレーション学習アルゴリズムを用いて,複数のグローバルモデルを学習し,それぞれがランダムに選択されたクライアントのサブセットを用いて学習する。 テスト例のラベルを予測する場合、私たちは、グローバルモデルに多数票を投じます。 我々は,任意のベースフェデレーション学習アルゴリズムを用いたアンサンブルフェデレーション学習が,悪意のあるクライアントに対して確実に安全であることを示す。 具体的には、テスト例のためのアンサンブルグローバルモデルによって予測されたラベルは、悪意のあるクライアントの限定された数に影響されない。 さらに、導出境界は密接であることが示される。 本手法をMNISTおよびヒューマンアクティビティ認識データセット上で評価する。 例えば、1000件のクライアントのうち20件が悪意がある場合、mnistの認証精度は88%である。

Federated learning enables clients to collaboratively learn a shared global model without sharing their local training data with a cloud server. However, malicious clients can corrupt the global model to predict incorrect labels for testing examples. Existing defenses against malicious clients leverage Byzantine-robust federated learning methods. However, these methods cannot provably guarantee that the predicted label for a testing example is not affected by malicious clients. We bridge this gap via ensemble federated learning. In particular, given any base federated learning algorithm, we use the algorithm to learn multiple global models, each of which is learnt using a randomly selected subset of clients. When predicting the label of a testing example, we take majority vote among the global models. We show that our ensemble federated learning with any base federated learning algorithm is provably secure against malicious clients. Specifically, the label predicted by our ensemble global model for a testing example is provably not affected by a bounded number of malicious clients. Moreover, we show that our derived bound is tight. We evaluate our method on MNIST and Human Activity Recognition datasets. For instance, our method can achieve a certified accuracy of 88% on MNIST when 20 out of 1,000 clients are malicious.
翻訳日:2021-02-05 11:39:57 公開日:2021-02-04