このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201123となっている論文です。

PDF登録状況(公開日: 20201123)

TitleAuthorsAbstract論文公表日・翻訳日
# 逆ネットワーク蒸留による異種デモレータ間の共同ゴールと戦略推論

Joint Goal and Strategy Inference across Heterogeneous Demonstrators via Reward Network Distillation ( http://arxiv.org/abs/2001.00503v3 )

ライセンス: Link先を確認
Letian Chen, Rohan Paleja, Muyleng Ghuy, Matthew Gombolay(参考訳) 強化学習(RL)は、意思決定の仕方を学ぶための一般的なフレームワークとして大きな成功を収めています。 しかし、この成功はRLの専門家による報酬関数の対話的な手作りに依存している。 一方、逆強化学習(IRL)は、容易に達成できる人間の実演から報酬関数を学習しようとする。 しかし、IRLには2つの大きな制限がある。 1) 報酬の曖昧さ - 専門家のデモンストレーションを説明することができる、無限の報酬機能が存在する。 2) 異質性 - 人間の専門家は様々な戦略と好みを採用するため、デモ参加者が同じ報酬を最大化しようとするという一般的な仮定のため、複数のデモ参加者からの学習が困難になる。 本研究では,ネットワーク蒸留による課題目標と人間の戦略的嗜好を共同で推測する手法を提案する。 このアプローチにより、ロバストなタスク報酬(報酬の曖昧さ)を蒸留し、各戦略の目的(異質性を扱う)をモデル化することができます。 本アルゴリズムは,2つの模擬タスクと実世界の卓球タスクにおいて,タスク報酬と戦略報酬をよりよく再現できることを示す。

Reinforcement learning (RL) has achieved tremendous success as a general framework for learning how to make decisions. However, this success relies on the interactive hand-tuning of a reward function by RL experts. On the other hand, inverse reinforcement learning (IRL) seeks to learn a reward function from readily-obtained human demonstrations. Yet, IRL suffers from two major limitations: 1) reward ambiguity - there are an infinite number of possible reward functions that could explain an expert's demonstration and 2) heterogeneity - human experts adopt varying strategies and preferences, which makes learning from multiple demonstrators difficult due to the common assumption that demonstrators seeks to maximize the same reward. In this work, we propose a method to jointly infer a task goal and humans' strategic preferences via network distillation. This approach enables us to distill a robust task reward (addressing reward ambiguity) and to model each strategy's objective (handling heterogeneity). We demonstrate our algorithm can better recover task reward and strategy rewards and imitate the strategies in two simulated tasks and a real-world table tennis task.
翻訳日:2023-01-16 03:46:32 公開日:2020-11-23
# テンソルカーネルと教師なしコンパニオンオブジェクトによるディープイメージクラスタリング

Deep Image Clustering with Tensor Kernels and Unsupervised Companion Objectives ( http://arxiv.org/abs/2001.07026v2 )

ライセンス: Link先を確認
Daniel J. Trosten, Michael C. Kampffmeyer, Robert Jenssen(参考訳) 本稿では,畳み込みニューラルネットワークとテンソルカーネルを用いた深層画像クラスタリングの新しいモデルを開発した。 提案されたDeep Tensor Kernel Clustering(DTKC)は、中間層の出力で共通のクラスタ構造を反映するようにトレーニングされた畳み込みニューラルネットワーク(CNN)で構成されている。 ネットワーク全体の一貫したクラスタ構造を促進することは、これらのクラスタが入力空間において非線形であるように見えるとしても、有意義なクラスタへと導く可能性を秘めている。 クラスタ構造は、ネットワーク内の層に個別の損失関数をアタッチする、教師なしの補助目的の概念によって強制される。 これらの教師なし共役目的は、ベクトルから任意のランクのテンソルへのコーシー=シュワルツ(CS)の発散の一般化に基づく。 cnnの中間表現のテンソル的性質のため、csの分岐をテンソル値データに一般化することは重要なステップである。 提案したDTKCモデルの性能を徹底的に評価するための実験を行った。 結果は、モデルが幅広いベースラインアルゴリズムに匹敵する、あるいは性能を発揮することを示している。 また,本モデルでは,自動エンコーダに基づくクラスタリングモデルにおいて問題となる機能ミスマッチを伴わないことを示す。

In this paper we develop a new model for deep image clustering, using convolutional neural networks and tensor kernels. The proposed Deep Tensor Kernel Clustering (DTKC) consists of a convolutional neural network (CNN), which is trained to reflect a common cluster structure at the output of its intermediate layers. Encouraging a consistent cluster structure throughout the network has the potential to guide it towards meaningful clusters, even though these clusters might appear to be nonlinear in the input space. The cluster structure is enforced through the idea of unsupervised companion objectives, where separate loss functions are attached to layers in the network. These unsupervised companion objectives are constructed based on a proposed generalization of the Cauchy-Schwarz (CS) divergence, from vectors to tensors of arbitrary rank. Generalizing the CS divergence to tensor-valued data is a crucial step, due to the tensorial nature of the intermediate representations in the CNN. Several experiments are conducted to thoroughly assess the performance of the proposed DTKC model. The results indicate that the model outperforms, or performs comparable to, a wide range of baseline algorithms. We also empirically demonstrate that our model does not suffer from objective function mismatch, which can be a problematic artifact in autoencoder-based clustering models.
翻訳日:2023-01-08 04:55:10 公開日:2020-11-23
# lesion harvester: ラベルなしの病変と硬い例を大規模に反復的に採掘する

Lesion Harvester: Iteratively Mining Unlabeled Lesions and Hard-Negative Examples at Scale ( http://arxiv.org/abs/2001.07776v3 )

ライセンス: Link先を確認
Jinzheng Cai, Adam P. Harrison, Youjing Zheng, Ke Yan, Yuankai Huo, Jing Xiao, Lin Yang, Le Lu(参考訳) 機械学習アルゴリズムのトレーニングに必要な大規模医用画像データを取得することは、専門家主導のアノテーションコストのため、しばしば難解である。 病院のアーカイブから抽出された最近のデータセット、例えばDeepLesionはこの問題に対処し始めている。 しかし、これらはしばしば不完全または不完全にラベル付けされ、例えば深紅葉はその病変の50%以上をラベル付けしていない。 したがって, 医用画像解析の進歩には, 欠失アノテーションを抽出するための効果的な手法が不可欠である。 これは私たちの研究の目標であり、DeepLesionデータセットから欠落した病変を高精度に回収する強力なシステムを開発している。 高い忠実度を達成するためのある程度の専門的労力の必要性を受け入れるため、医療画像ボリュームの小さなラベル付きサブセットを利用して、残りの部分からインテリジェントにアノテーションをマイニングします。 そこで我々は,高感度病変提案生成器と極めて選択的病変提案分類器を連携させた。 提案フレームワークは汎用的ではあるが,3次元文脈的病変提案生成器の提案とマルチビューマルチスケール病変提案分類器を用いて性能を最適化する。 これらの手法は, 新たな強い負の抑制損失を生かし, 余分な病変が見つからないまでこの過程を継続することにより, 提案生成体を微調整するために再利用する。 また,本法では90%以上の精度を維持しつつ9,805個の病変を採取できることを示した。 提案手法の利点を実証するため, 収穫した病変でトレーニングした病変検出器は, 元のアノテーションでトレーニングしたのと同じ変種よりも有意に優れ, 平均精度は7%から10%向上した。 私たちはアノテーションをhttps://github.com/jimmycai91/deeplesionannotationでオープンソースにしました。

Acquiring large-scale medical image data, necessary for training machine learning algorithms, is frequently intractable, due to prohibitive expert-driven annotation costs. Recent datasets extracted from hospital archives, e.g., DeepLesion, have begun to address this problem. However, these are often incompletely or noisily labeled, e.g., DeepLesion leaves over 50% of its lesions unlabeled. Thus, effective methods to harvest missing annotations are critical for continued progress in medical image analysis. This is the goal of our work, where we develop a powerful system to harvest missing lesions from the DeepLesion dataset at high precision. Accepting the need for some degree of expert labor to achieve high fidelity, we exploit a small fully-labeled subset of medical image volumes and use it to intelligently mine annotations from the remainder. To do this, we chain together a highly sensitive lesion proposal generator and a very selective lesion proposal classifier. While our framework is generic, we optimize our performance by proposing a 3D contextual lesion proposal generator and by using a multi-view multi-scale lesion proposal classifier. These produce harvested and hard-negative proposals, which we then re-use to finetune our proposal generator by using a novel hard negative suppression loss, continuing this process until no extra lesions are found. Extensive experimental analysis demonstrates that our method can harvest an additional 9,805 lesions while keeping precision above 90%. To demonstrate the benefits of our approach, we show that lesion detectors trained on our harvested lesions can significantly outperform the same variants only trained on the original annotations, with boost of average precision of 7% to 10%. We open source our annotations at https://github.com/JimmyCai91/DeepLesionAnnotation.
翻訳日:2023-01-08 00:20:30 公開日:2020-11-23
# 統一解集合プログラミングのさらなる改善のための信念ベースリビジョン

Belief Base Revision for Further Improvement of Unified Answer Set Programming ( http://arxiv.org/abs/2003.04369v2 )

ライセンス: Link先を確認
Kumar Sankar Ray, Sandip Paul, Diganta Saha(参考訳) 信念に基づく改訂が開発されている。 信念ベースは、不正確で不確実な情報を表現し、それらと非単調な推論を行うことのできる統一アンサーセットプログラムを用いて表現される。 ベースリビジョンオペレータは、Removed Set Revision戦略を用いて開発されている。 オペレータは、ベースリビジョンオペレーターが満足する前提条件に関して特徴付けられる。

A belief base revision is developed. The belief base is represented using Unified Answer Set Programs which is capable of representing imprecise and uncertain information and perform nonomonotonic reasoning with them. The base revision operator is developed using Removed Set Revision strategy. The operator is characterized with respect to the postulates for base revisions operator satisfies.
翻訳日:2022-12-28 08:50:45 公開日:2020-11-23
# 分散ディープニューラルネットワークトレーニングのための通信最適化戦略:調査

Communication optimization strategies for distributed deep neural network training: A survey ( http://arxiv.org/abs/2003.03009v2 )

ライセンス: Link先を確認
Shuo Ouyang, Dezun Dong, Yemao Xu, Liquan Xiao(参考訳) 高性能コンピューティングとディープラーニングの最近のトレンドは、大規模ディープニューラルネットワークトレーニングの研究の急増につながっている。 しかしながら、計算ノード間の頻繁な通信要求により、トレーニング全体の速度が劇的に低下し、分散トレーニング、特にネットワーク帯域幅が制限されたクラスタにおいてボトルネックが発生する。 分散通信の欠点を軽減するため、研究者は様々な最適化戦略を提案した。 本稿では,アルゴリズムとコンピュータネットワークの両方の観点から,コミュニケーション戦略の包括的調査を行う。 アルゴリズム最適化は分散トレーニングで使用される通信量を削減することに集中し、ネットワーク最適化は分散デバイス間の通信の高速化に重点を置いている。 アルゴリズムレベルでは、1ラウンドあたりの通信ラウンド数と送信ビット数を削減する方法について述べる。 さらに、計算と通信の重なり合う方法も解明する。 ネットワークレベルでは、論理的通信方式やネットワークプロトコルなど、ネットワークインフラストラクチャによる影響について論じる。 最後に,分散ディープニューラルネットワークトレーニングのためのコミュニケーションを加速するための今後の課題と新たな研究方向を推定する。

Recent trends in high-performance computing and deep learning have led to the proliferation of studies on large-scale deep neural network training. However, the frequent communication requirements among computation nodes drastically slows the overall training speeds, which causes bottlenecks in distributed training, particularly in clusters with limited network bandwidths. To mitigate the drawbacks of distributed communications, researchers have proposed various optimization strategies. In this paper, we provide a comprehensive survey of communication strategies from both an algorithm viewpoint and a computer network perspective. Algorithm optimizations focus on reducing the communication volumes used in distributed training, while network optimizations focus on accelerating the communications between distributed devices. At the algorithm level, we describe how to reduce the number of communication rounds and transmitted bits per round. In addition, we elucidate how to overlap computation and communication. At the network level, we discuss the effects caused by network infrastructures, including logical communication schemes and network protocols. Finally, we extrapolate the potential future challenges and new research directions to accelerate communications for distributed deep neural network training.
翻訳日:2022-12-26 01:46:53 公開日:2020-11-23
# 反復したRock-Paper-Scissorsゲームで対戦し、人間に勝つマルチAI

Multi-AI competing and winning against humans in iterated Rock-Paper-Scissors game ( http://arxiv.org/abs/2003.06769v2 )

ライセンス: Link先を確認
Lei Wang, Wenbin Huang, Yuanpeng Li, Julian Evans, Sailing He(参考訳) 人間の行動の予測とモデル化、そして人間の意思決定プロセスにおけるトレンドの発見は、社会科学の大きな問題である。 Rock Paper Scissors (RPS)は、多くのゲーム理論問題や現実世界の競争において、基本的な戦略的問題である。 特定の人間の相手を打ち負かす正しいアプローチを見つけるのは困難です。 ここでは,1つの固定メモリ長のマルコフモデルに基づくAI(人工知能)アルゴリズムを用いて,反復RPSゲームにおいて人間と競合する。 複数のマルコフモデルと異なる固定メモリ長("multi-ai"と略される)を組み合わせて人間の競争行動のモデル化と予測を行い、異なる競争戦略に適応するために変更可能なパラメータを持つマルチaiのアーキテクチャを開発する。 対戦相手の戦略変化に適応するために,マルチAIの速度と感度を制御するために「焦点長」(5や10などの正の数)と呼ばれるパラメータを導入する。 フォーカス長は、マルチAIがどのシングルAIが最高のパフォーマンスを持ち、次のゲームでプレーするかを決める際に見るべき前のラウンドの数である。 それぞれが1つのマルチaiモデルに対して300ラウンド連続でプレイする52人の異なる人物を実験し、その戦略が人間の95%以上の敵に勝利できることを実証した。

Predicting and modeling human behavior and finding trends within human decision-making processes is a major problem of social science. Rock Paper Scissors (RPS) is the fundamental strategic question in many game theory problems and real-world competitions. Finding the right approach to beat a particular human opponent is challenging. Here we use an AI (artificial intelligence) algorithm based on Markov Models of one fixed memory length (abbreviated as "single AI") to compete against humans in an iterated RPS game. We model and predict human competition behavior by combining many Markov Models with different fixed memory lengths (abbreviated as "multi-AI"), and develop an architecture of multi-AI with changeable parameters to adapt to different competition strategies. We introduce a parameter called "focus length" (a positive number such as 5 or 10) to control the speed and sensitivity for our multi-AI to adapt to the opponent's strategy change. The focus length is the number of previous rounds that the multi-AI should look at when determining which Single-AI has the best performance and should choose to play for the next game. We experimented with 52 different people, each playing 300 rounds continuously against one specific multi-AI model, and demonstrated that our strategy could win against more than 95% of human opponents.
翻訳日:2022-12-23 09:03:56 公開日:2020-11-23
# 多変量ニューラルネットワーク近似における誤差境界のシャープ性について

On Sharpness of Error Bounds for Multivariate Neural Network Approximation ( http://arxiv.org/abs/2004.02203v3 )

ライセンス: Link先を確認
Steffen Goebbels(参考訳) 単一隠れ層フィードフォワードニューラルネットワークはリッジ関数の和である多変数関数を表現することができる。 これらのリッジ関数はアクティベーション関数とカスタマイズ可能なウェイトによって定義される。 この論文は、リッジ関数の和による最良の非線形近似を扱う。 誤差境界は滑らかさのモジュラーで表される。 しかし、主な焦点は、境界が最善であることを証明することである。 この目的のために、反例は一様有界性原理の非線形な定量的拡張によって構成される。 それらは、ロジスティック活性化関数およびある部分多項式活性化関数に対するリプシッツ類に対する鋭さを示す。 論文は (goebbels, st.) における不平等な結果に基づいている。 単一隠れ層フィードフォワードニューラルネットワークによる不定値近似の誤差境界のシャープ性について 結果: 75 (3), 2020, article 109, https://rdcu.be/b5mkh)。

Single hidden layer feedforward neural networks can represent multivariate functions that are sums of ridge functions. These ridge functions are defined via an activation function and customizable weights. The paper deals with best non-linear approximation by such sums of ridge functions. Error bounds are presented in terms of moduli of smoothness. The main focus, however, is to prove that the bounds are best possible. To this end, counterexamples are constructed with a non-linear, quantitative extension of the uniform boundedness principle. They show sharpness with respect to Lipschitz classes for the logistic activation function and for certain piecewise polynomial activation functions. The paper is based on univariate results in (Goebbels, St.: On sharpness of error bounds for univariate approximation by single hidden layer feedforward neural networks. Results Math 75 (3), 2020, article 109, https://rdcu.be/b5mKH).
翻訳日:2022-12-16 12:53:14 公開日:2020-11-23
# 顔の奥行き認識に対する移動可能な敵意攻撃に向けて

Towards Transferable Adversarial Attack against Deep Face Recognition ( http://arxiv.org/abs/2004.05790v2 )

ライセンス: Link先を確認
Yaoyao Zhong and Weihong Deng(参考訳) 顔認識は、ディープラーニング手法の開発により、過去5年間で大きな成功を収めてきた。 しかし、ディープ畳み込みニューラルネットワーク(DCNN)は敵の例に弱いことが判明している。 特に、このタイプの攻撃はターゲットシステムに問い合わせることなく完全にブラックボックス方式で適用できるため、転送可能な敵の例の存在はDCNNの堅牢性を著しく損なう可能性がある。 本稿では,まず,ラベルレベルの手法よりも特徴レベルの手法が優れていることを示すことにより,顔認識における移動可能な逆攻撃の特徴について検討する。 そこで我々は, 畳み込み層で使用されるドロップアウト型手法であるDFANetを提案し, 代理モデルの多様性を高め, アンサンブルのような効果が得られることを示した。 各種トレーニングデータベース,損失関数,ネットワークアーキテクチャを用いた最先端の顔モデルに関する大規模な実験により,提案手法は既存の攻撃手法の転送可能性を大幅に向上することを示した。 最後に、LFWデータベースにDFANetを適用することで、クエリなしで4つの商用APIをうまく攻撃できる新しい対向顔ペアを生成する。 このTALFWデータベースは、深層顔認識の堅牢性と防御の研究を容易にするために利用できる。

Face recognition has achieved great success in the last five years due to the development of deep learning methods. However, deep convolutional neural networks (DCNNs) have been found to be vulnerable to adversarial examples. In particular, the existence of transferable adversarial examples can severely hinder the robustness of DCNNs since this type of attacks can be applied in a fully black-box manner without queries on the target system. In this work, we first investigate the characteristics of transferable adversarial attacks in face recognition by showing the superiority of feature-level methods over label-level methods. Then, to further improve transferability of feature-level adversarial examples, we propose DFANet, a dropout-based method used in convolutional layers, which can increase the diversity of surrogate models and obtain ensemble-like effects. Extensive experiments on state-of-the-art face models with various training databases, loss functions and network architectures show that the proposed method can significantly enhance the transferability of existing attack methods. Finally, by applying DFANet to the LFW database, we generate a new set of adversarial face pairs that can successfully attack four commercial APIs without any queries. This TALFW database is available to facilitate research on the robustness and defense of deep face recognition.
翻訳日:2022-12-14 00:00:31 公開日:2020-11-23
# レーンチェンジシナリオにおける自律走行車の対向評価

Adversarial Evaluation of Autonomous Vehicles in Lane-Change Scenarios ( http://arxiv.org/abs/2004.06531v2 )

ライセンス: Link先を確認
Baiming Chen, Xiang Chen, Wu Qiong, Liang Li(参考訳) 自動運転車は都市や高速道路に配備する前に総合的に評価されなければならない。 しかし、既存の自動運転車の評価手法のほとんどは静的であり、適応性が欠如しているため、テスト車両の困難なシナリオを生成するのに非効率である。 本稿では,深部強化学習による対向環境における自律走行車の評価を効率よく行うための適応評価フレームワークを提案する。 危険シナリオのマルチモーダル性を考慮すると,多様な局所的最適性を表現するためにアンサンブルモデルを用いる。 次に,非パラメトリックベイズ法を用いて逆方針をクラスタ化する。 提案手法は、ego車両と周辺車両との頻繁な相互作用を伴う典型的な車線変更シナリオで検証される。 その結果,本手法で生成した逆シナリオは,試験車両の性能を著しく低下させることがわかった。 また,テスト車両の弱点を推察するために使用できる,生成した敵環境の異なるパターンを示す。

Autonomous vehicles must be comprehensively evaluated before deployed in cities and highways. However, most existing evaluation approaches for autonomous vehicles are static and lack adaptability, so they are usually inefficient in generating challenging scenarios for tested vehicles. In this paper, we propose an adaptive evaluation framework to efficiently evaluate autonomous vehicles in adversarial environments generated by deep reinforcement learning. Considering the multimodal nature of dangerous scenarios, we use ensemble models to represent different local optimums for diversity. We then utilize a nonparametric Bayesian method to cluster the adversarial policies. The proposed method is validated in a typical lane-change scenario that involves frequent interactions between the ego vehicle and the surrounding vehicles. Results show that the adversarial scenarios generated by our method significantly degrade the performance of the tested vehicles. We also illustrate different patterns of generated adversarial environments, which can be used to infer the weaknesses of the tested vehicles.
翻訳日:2022-12-13 09:13:14 公開日:2020-11-23
# ハードウェアエネルギー効率向上のためのアプリケーション動作の学習事例

The Case for Learning Application Behavior to Improve Hardware Energy Efficiency ( http://arxiv.org/abs/2004.13074v2 )

ライセンス: Link先を確認
Kevin Weston, Vahid Jafanza, Arnav Kansal, Abhishek Taur, Mohamed Zahran, Abdullah Muzahid(参考訳) コンピュータアプリケーションは継続的に進化している。 しかし、一連のアプリケーションから重要な知識を収集し、未知のアプリケーションのコンテキストに適用することができる。 本稿では,抽出した知識をハードウェア構成のチューニングに用いることを提案する。 このようなチューニングの目標は、ハードウェアの効率を最大化すること(エネルギー消費を最小限に抑えながらアプリケーションの性能を最大化すること)である。 提案手法はFOECASTERと呼ばれ、ディープラーニングモデルを用いて、ハードウェアリソースの構成がアプリケーションの特定の動作に最適なエネルギー効率を提供するかを学習する。 目に見えないアプリケーションの実行中、モデルは学習した知識を使ってハードウェアリソースを再設定し、エネルギー効率を最大化する。 我々はFOECASTERの詳細な設計と実装を行い、その性能を従来のハードウェア再構成手法と比較した。 この結果から,ForECASTERは全リソースに設定されたベースライン上で最大18.4%のシステム電力を節約できることがわかった。 FORECASTERはベースライン設定で16%のシステム電力を節約し、全体のパフォーマンスの0.01%を犠牲にしている。 以前の方式と比較して、FOECASTERは電力節約率を7%向上させる。

Computer applications are continuously evolving. However, significant knowledge can be harvested from a set of applications and applied in the context of unknown applications. In this paper, we propose to use the harvested knowledge to tune hardware configurations. The goal of such tuning is to maximize hardware efficiency (i.e., maximize an applications performance while minimizing the energy consumption). Our proposed approach, called FORECASTER, uses a deep learning model to learn what configuration of hardware resources provides the optimal energy efficiency for a certain behavior of an application. During the execution of an unseen application, the model uses the learned knowledge to reconfigure hardware resources in order to maximize energy efficiency. We have provided a detailed design and implementation of FORECASTER and compared its performance against a prior state-of-the-art hardware reconfiguration approach. Our results show that FORECASTER can save as much as 18.4% system power over the baseline set up with all resources. On average, FORECASTER saves 16% system power over the baseline setup while sacrificing less than 0.01% of overall performance. Compared to the prior scheme, FORECASTER increases power savings by 7%.
翻訳日:2022-12-09 06:04:50 公開日:2020-11-23
# AVGZSLNet:多モード埋め込みによるラベル特徴の再構成による音声視覚一般化ゼロショット学習

AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing Label Features from Multi-Modal Embeddings ( http://arxiv.org/abs/2005.13402v3 )

ライセンス: Link先を確認
Pratik Mazumder, Pravendra Singh, Kranti Kumar Parida, Vinay P. Namboodiri(参考訳) 本稿では,マルチモーダル環境でのゼロショット学習を一般化するための新しい手法を提案する。 テキスト埋め込みのセマンティックな関連性をゼロショット学習の手段として,音声とビデオの埋め込みを対応するクラスラベルテキスト特徴空間と整列させることにより活用する。 本手法はクロスモーダルデコーダと複合三重項損失を用いる。 クロスモーダルデコーダは、クラスラベルテキストの特徴をデータポイントのオーディオおよびビデオ埋め込みから再構成できるという制約を強制する。 これにより、オーディオとビデオの埋め込みは、クラスラベルのテキスト埋め込みに近づいた。 合成三重項損失は、オーディオ、ビデオ、テキストの埋め込みを利用する。 同じクラスからの埋め込みをもっと近づけ、異なるクラスからの埋め込みをマルチモーダルな設定でプッシュするのに役立つ。 これにより、マルチモーダルなゼロショット学習タスクでネットワークのパフォーマンスが向上する。 重要なのは、テスト時にモダリティが欠落していても、マルチモーダルなゼロショット学習アプローチが有効です。 我々は、一般化されたゼロショット分類と検索タスクにアプローチを試行し、単一のモダリティや複数のモダリティの存在下で他のモデルよりも優れていることを示す。 従来のアプローチと比較し,様々なアプローチを用いてアプローチを検証する。

In this paper, we propose a novel approach for generalized zero-shot learning in a multi-modal setting, where we have novel classes of audio/video during testing that are not seen during training. We use the semantic relatedness of text embeddings as a means for zero-shot learning by aligning audio and video embeddings with the corresponding class label text feature space. Our approach uses a cross-modal decoder and a composite triplet loss. The cross-modal decoder enforces a constraint that the class label text features can be reconstructed from the audio and video embeddings of data points. This helps the audio and video embeddings to move closer to the class label text embedding. The composite triplet loss makes use of the audio, video, and text embeddings. It helps bring the embeddings from the same class closer and push away the embeddings from different classes in a multi-modal setting. This helps the network to perform better on the multi-modal zero-shot learning task. Importantly, our multi-modal zero-shot learning approach works even if a modality is missing at test time. We test our approach on the generalized zero-shot classification and retrieval tasks and show that our approach outperforms other models in the presence of a single modality as well as in the presence of multiple modalities. We validate our approach by comparing it with previous approaches and using various ablations.
翻訳日:2022-11-28 09:51:48 公開日:2020-11-23
# ベイズ目標符号化におけるサンプリング技術

Sampling Techniques in Bayesian Target Encoding ( http://arxiv.org/abs/2006.01317v2 )

ライセンス: Link先を確認
Michael Larionov(参考訳) ターゲットエンコーディングはカテゴリ変数の効果的なエンコーディング技術であり、数値変数とカテゴリ変数を混合したテーブル型データセットを処理する機械学習システムでよく使用される。 近年, 共役ベイズモデルを用いて, この符号化技術のエンエンハンスバージョンが提案されている。 本稿では,対象変数のカテゴリ内分布から情報を抽出し,一般化を改善し,ターゲットリークを低減するサンプリング手法を用いてベイズ符号化法をさらに発展させる。

Target encoding is an effective encoding technique of categorical variables and is often used in machine learning systems for processing tabular data sets with mixed numeric and categorical variables. Recently en enhanced version of this encoding technique was proposed by using conjugate Bayesian modeling. This paper presents a further development of Bayesian encoding method by using sampling techniques, which helps in extracting information from intra-category distribution of the target variable, improves generalization and reduces target leakage.
翻訳日:2022-11-26 06:49:49 公開日:2020-11-23
# ニューラルリアプノフの再設計

Neural Lyapunov Redesign ( http://arxiv.org/abs/2006.03947v2 )

ライセンス: Link先を確認
Arash Mehrjou, Mohammad Ghavamzadeh, Bernhard Sch\"olkopf(参考訳) 単にパフォーマンスメトリックに基づく学習コントローラは、制御理論と強化学習の両方において、多くの物理および非物理タスクにおいて有効であることが証明されている。 しかし、実際には、コントローラは、エージェントと環境の両方に害を及ぼさないよう、何らかの安全概念を保証しなければならない。 安定性は安全の重要な概念であり、その侵害は確実に安全でない行動を引き起こす。 リャプノフ関数は非線形力学系の安定性を評価する効果的なツールである。 本稿では,改良されたリアプノフ関数と自動制御器合成を反復的に組み合わせ,大規模な安全領域の制御ポリシを得る。 本稿では,リアプノフ関数の推定と,閉ループシステムの安定性領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。 提案するアルゴリズムで処理可能なシステムのクラスについて理論的結果を示し,本手法の有効性を例示力学系を用いて実証的に評価する。

Learning controllers merely based on a performance metric has been proven effective in many physical and non-physical tasks in both control theory and reinforcement learning. However, in practice, the controller must guarantee some notion of safety to ensure that it does not harm either the agent or the environment. Stability is a crucial notion of safety, whose violation can certainly cause unsafe behaviors. Lyapunov functions are effective tools to assess stability in nonlinear dynamical systems. In this paper, we combine an improving Lyapunov function with automatic controller synthesis in an iterative fashion to obtain control policies with large safe regions. We propose a two-player collaborative algorithm that alternates between estimating a Lyapunov function and deriving a controller that gradually enlarges the stability region of the closed-loop system. We provide theoretical results on the class of systems that can be treated with the proposed algorithm and empirically evaluate the effectiveness of our method using an exemplary dynamical system.
翻訳日:2022-11-24 21:32:49 公開日:2020-11-23
# 単一軌道からの不安定線形二次レギュレータの学習安定化制御

Learning Stabilizing Controllers for Unstable Linear Quadratic Regulators from a Single Trajectory ( http://arxiv.org/abs/2006.11022v2 )

ライセンス: Link先を確認
Lenart Treven, Sebastian Curi, Mojmir Mutny, Andreas Krause(参考訳) 力学系を制御する主な課題は安定性を確保することである。 システムが不明な場合、多数の可視系を同時に安定化することを目的としており、堅牢なアプローチは有望である。 二次コストモデルに基づく線形コントローラを線形二次レギュレータ (lqr) として検討した。 我々は,楕円型不確かさ集合内の全ての系を安定化する2つの異なる半定値プログラム(sdp)を提案する。 さらに、提案したSDPの実現可能性条件が \emph{equivalent} であることを示す。 導出されたロバストコントローラ合成を用いて、高い確率で安定化コントローラを迅速に識別する効率的なデータ依存アルゴリズム -\textsc{eXploration} を提案する。 当社のアプローチは,インプットとして安定化コントローラを必要とする既存のアルゴリズムを初期化し,後悔に定数を追加するために使用することができる。 さらに, 安定化コントローラを探索しながら, 経験的に, textsc{eXploration} のステップ数を減らし, コストを削減できる様々なヒューリスティックスを提案する。

The principal task to control dynamical systems is to ensure their stability. When the system is unknown, robust approaches are promising since they aim to stabilize a large set of plausible systems simultaneously. We study linear controllers under quadratic costs model also known as linear quadratic regulators (LQR). We present two different semi-definite programs (SDP) which results in a controller that stabilizes all systems within an ellipsoid uncertainty set. We further show that the feasibility conditions of the proposed SDPs are \emph{equivalent}. Using the derived robust controller syntheses, we propose an efficient data dependent algorithm -- \textsc{eXploration} -- that with high probability quickly identifies a stabilizing controller. Our approach can be used to initialize existing algorithms that require a stabilizing controller as an input while adding constant to the regret. We further propose different heuristics which empirically reduce the number of steps taken by \textsc{eXploration} and reduce the suffered cost while searching for a stabilizing controller.
翻訳日:2022-11-19 05:23:56 公開日:2020-11-23
# ポーズ推定回帰の逆移動

Adversarial Transfer of Pose Estimation Regression ( http://arxiv.org/abs/2006.11658v2 )

ライセンス: Link先を確認
Boris Chidlovskii, Assem Sadek(参考訳) 視覚的位置推定におけるカメラポーズ推定の問題に対処する。 ポーズ推定のための現在の回帰に基づく手法を訓練し、シーンワイズで評価する。 トレーニングデータセットの座標フレームに依存し、シーンやデータセット間の一般化が低いことを示す。 我々は、データセットシフトを一般化の重要な障壁とみなし、移動学習をポーズ推定モデルのより良い再利用に向けた代替手段とみなす。 分類のためのドメイン適応手法を改訂し、マルチ回帰タスクであるカメラポーズ推定に拡張する。 本研究では,シーン不変画像表現を学習する深層適応ネットワークを開発し,逆学習を用いてモデル転送のための表現を生成する。 ネットワークを自己教師付き学習で強化し,適応性理論を用いて2つのシーンにおける画像のシーン不変表現の存在を検証する。 我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。

We address the problem of camera pose estimation in visual localization. Current regression-based methods for pose estimation are trained and evaluated scene-wise. They depend on the coordinate frame of the training dataset and show a low generalization across scenes and datasets. We identify the dataset shift an important barrier to generalization and consider transfer learning as an alternative way towards a better reuse of pose estimation models. We revise domain adaptation techniques for classification and extend them to camera pose estimation, which is a multi-regression task. We develop a deep adaptation network for learning scene-invariant image representations and use adversarial learning to generate such representations for model transfer. We enrich the network with self-supervised learning and use the adaptability theory to validate the existence of scene-invariant representation of images in two given scenes. We evaluate our network on two public datasets, Cambridge Landmarks and 7Scene, demonstrate its superiority over several baselines and compare to the state of the art methods.
翻訳日:2022-11-18 22:29:11 公開日:2020-11-23
# 失敗から学ぶ:バイアス付き分類器の訓練

Learning from Failure: Training Debiased Classifier from Biased Classifier ( http://arxiv.org/abs/2007.02561v2 )

ライセンス: Link先を確認
Junhyun Nam, Hyuntak Cha, Sungsoo Ahn, Jaeho Lee, Jinwoo Shin(参考訳) ニューラルネットワークは多くの場合、データセットに存在する散発的な相関に依存する予測を学習し、モデルにバイアスを与える。 従来の研究では、突発的に相関する属性の明示的なラベル付けや、特定のバイアスタイプを仮定することでこの問題に対処していましたが、代わりに、より安価で汎用的な人間の知識を使用します。 まず、ニューラルネットワークが所望の知識よりも簡単に学習できる場合にのみ、素早い相関に頼ることを学ぶのを観察し、トレーニングの初期段階において、そのような依存が最も顕著である。 そこで本研究では,一対のニューラルネットワークを同時に訓練することにより,障害に基づくデバイアス手法を提案する。 主なアイデアは2つあります (a)「偏見」を繰り返し増幅してバイアスを受ける最初のネットワークを意図的に訓練し、 b)バイアスネットワークの偏見に逆らうサンプルに着目して第2ネットワークの訓練を怠っている。 (a) 広範な実験により,合成データと実世界のデータセットの両方において,ネットワークのトレーニングを様々なバイアスに対して大幅に改善できることが証明された。 驚いたことに、我々のフレームワークは時折、突発的に相関する属性の明示的な監督を必要とするデバイアス法よりも優れています。

Neural networks often learn to make predictions that overly rely on spurious correlation existing in the dataset, which causes the model to be biased. While previous work tackles this issue by using explicit labeling on the spuriously correlated attributes or presuming a particular bias type, we instead utilize a cheaper, yet generic form of human knowledge, which can be widely applicable to various types of bias. We first observe that neural networks learn to rely on the spurious correlation only when it is "easier" to learn than the desired knowledge, and such reliance is most prominent during the early phase of training. Based on the observations, we propose a failure-based debiasing scheme by training a pair of neural networks simultaneously. Our main idea is twofold; (a) we intentionally train the first network to be biased by repeatedly amplifying its "prejudice", and (b) we debias the training of the second network by focusing on samples that go against the prejudice of the biased network in (a). Extensive experiments demonstrate that our method significantly improves the training of the network against various types of biases in both synthetic and real-world datasets. Surprisingly, our framework even occasionally outperforms the debiasing methods requiring explicit supervision of the spuriously correlated attributes.
翻訳日:2022-11-13 01:25:03 公開日:2020-11-23
# EAGLE:空中画像を用いた実世界シナリオにおける大規模車両検出データセット

EAGLE: Large-scale Vehicle Detection Dataset in Real-World Scenarios using Aerial Imagery ( http://arxiv.org/abs/2007.06124v3 )

ライセンス: Link先を確認
Seyed Majid Azimi, Reza Bahmanyar, Corenin Henry and Franz Kurz(参考訳) 高度推定を伴う空中画像からのマルチクラス車両検出は,交通監視や災害管理に応用される近距離・遠隔領域において重要な課題である。 過去10年間、私たちは地上画像における物体検出の著しい進歩を目の当たりにしてきたが、多種多様な大規模データセットの不足により、まだ空中画像の初期段階にある。 さまざまなアプリケーションに有用なツールであるにも関わらず、現在の空中データセットは、実際のシナリオの課題を部分的に反映しているに過ぎない。 この問題に対処するために,空中画像におけるオブジェクト指向情報を用いた多クラス車両検出のための大規模データセットであるEAGLE(OriEnted Vehicle Detection using Aerial imaGery in real-worLd scEnarios)を導入する。 様々なカメラセンサー、解像度、飛行高度、天候、照明、ヘイズ、シャドウ、時間、都市、国、オクルージョン、カメラアングルを備えた、さまざまな現実世界の状況からなる高解像度の空中画像が特徴である。 アノテーションは、小車や大車クラスの航空画像の専門家によって行われた。 EAGLEには、215,986のインスタンスに4つのポイントと向きで定義された向き付きバウンディングボックスがアノテートされており、このタスクでこれまでで最大のデータセットとなっている。 また、ヘイズやシャドウ除去の研究や、超高解像度やインペイントの応用もサポートする。 我々は,(1)水平有界ボックスによる検出,(2)回転有界ボックス,(3)指向有界ボックスの3つのタスクを定義する。 我々は,本データセットにおけるオブジェクト検出における最先端手法の評価を行い,ベースラインを形成する。 EAGLEデータセットは現実世界の状況とそれに伴う課題を正確に反映している。

Multi-class vehicle detection from airborne imagery with orientation estimation is an important task in the near and remote vision domains with applications in traffic monitoring and disaster management. In the last decade, we have witnessed significant progress in object detection in ground imagery, but it is still in its infancy in airborne imagery, mostly due to the scarcity of diverse and large-scale datasets. Despite being a useful tool for different applications, current airborne datasets only partially reflect the challenges of real-world scenarios. To address this issue, we introduce EAGLE (oriEnted vehicle detection using Aerial imaGery in real-worLd scEnarios), a large-scale dataset for multi-class vehicle detection with object orientation information in aerial imagery. It features high-resolution aerial images composed of different real-world situations with a wide variety of camera sensor, resolution, flight altitude, weather, illumination, haze, shadow, time, city, country, occlusion, and camera angle. The annotation was done by airborne imagery experts with small- and large-vehicle classes. EAGLE contains 215,986 instances annotated with oriented bounding boxes defined by four points and orientation, making it by far the largest dataset to date in this task. It also supports researches on the haze and shadow removal as well as super-resolution and in-painting applications. We define three tasks: detection by (1) horizontal bounding boxes, (2) rotated bounding boxes, and (3) oriented bounding boxes. We carried out several experiments to evaluate several state-of-the-art methods in object detection on our dataset to form a baseline. Experiments show that the EAGLE dataset accurately reflects real-world situations and correspondingly challenging applications.
翻訳日:2022-11-11 05:55:13 公開日:2020-11-23
# 自然グラフネットワーク

Natural Graph Networks ( http://arxiv.org/abs/2007.08349v2 )

ライセンス: Link先を確認
Pim de Haan, Taco Cohen, Max Welling(参考訳) グラフニューラルネットワークの重要な要件は、グラフの記述方法に依存しない方法でグラフを処理しなければならないことである。 伝統的に、これはグラフネットワークがノードの置換に同値でなければならないことを意味する。 ここでは、等分散の代わりに、より一般的な自然性の概念はグラフネットワークが明確に定義され、より大きなグラフネットワークのクラスを開くのに十分であることを示す。 我々は、グローバルおよびローカルの自然グラフネットワークを定義し、後者は、より柔軟でありながら、従来のメッセージパッシンググラフニューラルネットワークと同じくらいスケーラブルである。 等価なメッセージネットワークパラメータ化を用いたグラフ上での自然ネットワークの実用的なインスタンス化により,複数のベンチマークで優れた性能が得られる。

A key requirement for graph neural networks is that they must process a graph in a way that does not depend on how the graph is described. Traditionally this has been taken to mean that a graph network must be equivariant to node permutations. Here we show that instead of equivariance, the more general concept of naturality is sufficient for a graph network to be well-defined, opening up a larger class of graph networks. We define global and local natural graph networks, the latter of which are as scalable as conventional message passing graph neural networks while being more flexible. We give one practical instantiation of a natural network on graphs which uses an equivariant message network parameterization, yielding good performance on several benchmarks.
翻訳日:2022-11-09 21:56:22 公開日:2020-11-23
# HardNetディスクリプタの改良

Improving the HardNet Descriptor ( http://arxiv.org/abs/2007.09699v2 )

ライセンス: Link先を確認
Milan Pultar(参考訳) 本論文では,最新に近いハードネットディスクリプタに着目した,幅広いベースラインステレオを対象とした局所特徴記述子学習の問題を考える。 AMOS Patchesデータセットが導入され、照明と外観の変化に対する堅牢性が改善されている。 AMOSデータセットから選択したカメラの登録画像に基づいている。 我々は,パッチデータセット作成プロセスに関するレコメンデーションを提供し,異なるモダリティのデータに基づいてトレーニングされたハードネットを評価する。 また,より小さなデータセットで同等の性能を実現するために,データセットの組み合わせと削減手法も導入した。 HardNet8はオリジナルのHardNetを一貫して上回り、接続パターン、最終的なプーリング、受信フィールド、手動または自動検索アルゴリズムで見つかるCNNビルディングブロック、DARTSというアーキテクチャ上の選択の恩恵を受けている。 バッチサイズやトレーニング長といった見過ごされたハイパーパラメータがディスクリプタの品質に与える影響を示す。 PCA次元の削減はパフォーマンスをさらに向上させ、メモリフットプリントも削減する。 ひとつは、hpatches、amosパッチ、imwフォトツーリズムといった様々なベンチマークでうまく動作し、もうひとつはimwフォトツーリズムに最適化されている。

In the thesis we consider the problem of local feature descriptor learning for wide baseline stereo focusing on the HardNet descriptor, which is close to state-of-the-art. AMOS Patches dataset is introduced, which improves robustness to illumination and appearance changes. It is based on registered images from selected cameras from the AMOS dataset. We provide recommendations on the patch dataset creation process and evaluate HardNet trained on data of different modalities. We also introduce a dataset combination and reduction methods, that allow comparable performance on a significantly smaller dataset. HardNet8, consistently outperforming the original HardNet, benefits from the architectural choices made: connectivity pattern, final pooling, receptive field, CNN building blocks found by manual or automatic search algorithms -- DARTS. We show impact of overlooked hyperparameters such as batch size and length of training on the descriptor quality. PCA dimensionality reduction further boosts performance and also reduces memory footprint. Finally, the insights gained lead to two HardNet8 descriptors: one performing well on a variety of benchmarks -- HPatches, AMOS Patches and IMW Phototourism, the other is optimized for IMW Phototourism.
翻訳日:2022-11-09 00:24:13 公開日:2020-11-23
# 拡張顕微鏡用グローバルボクセルトランスネットワーク

Global Voxel Transformer Networks for Augmented Microscopy ( http://arxiv.org/abs/2008.02340v2 )

ライセンス: Link先を確認
Zhengyang Wang, Yaochen Xie, Shuiwang Ji(参考訳) 深層学習の進歩は,高額な顕微鏡ハードウェアや試料調製技術を用いることなく,高品質な顕微鏡画像を得ることが可能となった。 しかし、現在の強化顕微鏡のためのディープラーニングモデルは、主にU-Netベースのニューラルネットワークであり、パフォーマンスを制限するある種の欠点を共有している。 本稿では,現在のu-netモデルの本質的限界を克服し,性能向上を実現する,拡張顕微鏡のための高度なディープラーニングツールであるglobal voxel transformer networks(gvtnets)を紹介する。 gvtnetはグローバルボクセルトランスフォーマーオペレータ(gvto)上に構築されており、畳み込みのようなローカルオペレータとは対照的に、グローバル情報を集約することができる。 提案手法を既存のデータセットに適用し,様々な環境下で3つの異なる拡張顕微鏡タスクを行う。 パフォーマンスは、以前のU-Netベースのアプローチよりも大幅に、一貫して向上している。

Advances in deep learning have led to remarkable success in augmented microscopy, enabling us to obtain high-quality microscope images without using expensive microscopy hardware and sample preparation techniques. However, current deep learning models for augmented microscopy are mostly U-Net based neural networks, thus sharing certain drawbacks that limit the performance. In this work, we introduce global voxel transformer networks (GVTNets), an advanced deep learning tool for augmented microscopy that overcomes intrinsic limitations of the current U-Net based models and achieves improved performance. GVTNets are built on global voxel transformer operators (GVTOs), which are able to aggregate global information, as opposed to local operators like convolutions. We apply the proposed methods on existing datasets for three different augmented microscopy tasks under various settings. The performance is significantly and consistently better than previous U-Net based approaches.
翻訳日:2022-11-02 18:02:05 公開日:2020-11-23
# IoTネットワークにおける異常な無線リンク検出の学習

Learning to Detect Anomalous Wireless Links in IoT Networks ( http://arxiv.org/abs/2008.05232v2 )

ライセンス: Link先を確認
Gregor Cerar, Halil Yetgin, Bla\v{z} Bertalani\v{c}, Carolina Fortuna(参考訳) 何十年もの研究の末、モノのインターネット(IoT)はついに現実の生活に浸透し、インフラやプロセスの効率と健康の改善に役立っている。 大量のIoTデバイスがデプロイされているため、意図した操作を保証するために、自然に大きな運用コストがかかります。 大規模IoTネットワークにおけるこのような意図された操作を効果的に処理するために、異常検出、すなわち異常検出の自動検出は、重要で困難なタスクとなる。 本稿では,実世界の実験的なIoTデプロイメントを動機として,リンク層で識別される4種類の無線ネットワーク異常を紹介する。 しきい値と機械学習(ml)に基づく分類器の性能を調べ、これらの異常を自動的に検出する。 本研究では,非符号化および符号化(オートエンコーダ)特徴表現における3つの教師付きML手法と3つの教師なしML手法の相対的性能について検討する。 私たちの結果は 一 選択された監督的アプローチは、0.98以上のF1スコアを有する異常を検出でき、一方、非監督的アプローチは、平均0.90のF1スコアを有する異常を検出できる。 ii)OC-SVMは、SuddenDの0.99、SuddenRの0.95、InstaDの0.93、SlowDの0.95のF1スコアに達する他の教師なしMLアプローチよりも優れています。

After decades of research, the Internet of Things (IoT) is finally permeating real-life and helps improve the efficiency of infrastructures and processes as well as our health. As a massive number of IoT devices are deployed, they naturally incur great operational costs to ensure intended operations. To effectively handle such intended operations in massive IoT networks, automatic detection of malfunctioning, namely anomaly detection, becomes a critical but challenging task. In this paper, motivated by a real-world experimental IoT deployment, we introduce four types of wireless network anomalies that are identified at the link layer. We study the performance of threshold- and machine learning (ML)-based classifiers to automatically detect these anomalies. We examine the relative performance of three supervised and three unsupervised ML techniques on both non-encoded and encoded (autoencoder) feature representations. Our results demonstrate that; i) selected supervised approaches are able to detect anomalies with F1 scores of above 0.98, while unsupervised ones are also capable of detecting the said anomalies with F1 scores of, on average, 0.90, and ii) OC-SVM outperforms all the other unsupervised ML approaches reaching at F1 scores of 0.99 for SuddenD, 0.95 for SuddenR, 0.93 for InstaD and 0.95 for SlowD.
翻訳日:2022-10-31 06:15:07 公開日:2020-11-23
# 偽ニュース検出のためのオンラインコミュニティのグラフベースモデリング

Graph-based Modeling of Online Communities for Fake News Detection ( http://arxiv.org/abs/2008.06274v4 )

ライセンス: Link先を確認
Shantanu Chandra, Pushkar Mishra, Helen Yannakoudakis, Madhav Nimishakavi, Marzieh Saeidi, Ekaterina Shutova(参考訳) ここ数年、ソーシャルメディアプラットフォーム上で偽ニュースを自動的に検出する取り組みが盛んに行われてきた。 既存の研究は、オンライン投稿を広めるための構造、スタイル、コンテンツ、パターン、そしてそれらと相互作用するユーザーの人口特性をモデル化している。 しかし、投稿と対話するオンラインコミュニティの特性のモデル化には注意が向けられていない。 本稿では,グラフニューラルネットワーク(gnns)に基づく,新たなソーシャルコンテキスト認識型偽ニュース検出フレームワーク「safe」を提案する。 提案フレームワークは,次のような情報を集約する。 1)コンテンツの性質が普及している。 2)ユーザのコンテンツ共有行動、及び 3) それらのユーザのソーシャルネットワーク。 さらに,この課題に対する複数のGNNモデルの体系的比較を行い,これまでNLP内でユーザやコミュニティモデリングに使用されていなかったリレーショナルおよび双曲型GNNに基づく新しい手法を導入する。 このフレームワークが既存のテキストベースの技術よりも大幅に改善され、2つの異なるドメインの偽ニュースデータセットで最先端の結果が得られることを実証的に実証した。

Over the past few years, there has been a substantial effort towards automated detection of fake news on social media platforms. Existing research has modeled the structure, style, content, and patterns in dissemination of online posts, as well as the demographic traits of users who interact with them. However, no attention has been directed towards modeling the properties of online communities that interact with the posts. In this work, we propose a novel social context-aware fake news detection framework, SAFER, based on graph neural networks (GNNs). The proposed framework aggregates information with respect to: 1) the nature of the content disseminated, 2) content-sharing behavior of users, and 3) the social network of those users. We furthermore perform a systematic comparison of several GNN models for this task and introduce novel methods based on relational and hyperbolic GNNs, which have not been previously used for user or community modeling within NLP. We empirically demonstrate that our framework yields significant improvements over existing text-based techniques and achieves state-of-the-art results on fake news datasets from two different domains.
翻訳日:2022-10-30 16:34:48 公開日:2020-11-23
# 未知値を持つ属性ベースおよび関係ベースアクセス制御ポリシーの学習

Learning Attribute-Based and Relationship-Based Access Control Policies with Unknown Values ( http://arxiv.org/abs/2008.08444v4 )

ライセンス: Link先を確認
Thang Bui and Scott D. Stoller(参考訳) 属性ベースアクセス制御(ABAC)とリレーションベースアクセス制御(ReBAC)は、エンティティ間の関係の属性と連鎖の観点でポリシーを表現できるようにすることで、セキュリティと情報共有を促進する高いレベルの表現性と柔軟性を提供する。 レガシーアクセス制御情報からABACおよびReBACポリシーを学習するアルゴリズムは、ABACまたはReBACへの移行コストを大幅に削減する可能性がある。 本稿では、アクセス制御リスト(ACL)からABACおよびReBACポリシーをマイニングするための最初のアルゴリズムと、いくつかの属性の値が不明なエンティティに関する不完全な情報を示す。 この問題の核心は、未知数を含むラベル付き特徴ベクトルの集合から簡潔な3値論理式を学習していると見なすことができ、その問題に対して最初のアルゴリズム(我々の知る限り)を与えることができる。

Attribute-Based Access Control (ABAC) and Relationship-based access control (ReBAC) provide a high level of expressiveness and flexibility that promote security and information sharing, by allowing policies to be expressed in terms of attributes of and chains of relationships between entities. Algorithms for learning ABAC and ReBAC policies from legacy access control information have the potential to significantly reduce the cost of migration to ABAC or ReBAC. This paper presents the first algorithms for mining ABAC and ReBAC policies from access control lists (ACLs) and incomplete information about entities, where the values of some attributes of some entities are unknown. We show that the core of this problem can be viewed as learning a concise three-valued logic formula from a set of labeled feature vectors containing unknowns, and we give the first algorithm (to the best of our knowledge) for that problem.
翻訳日:2022-10-27 12:17:31 公開日:2020-11-23
# 植林した傾斜回復の空間的複雑さは検出の時と同じか?

Is the space complexity of planted clique recovery the same as that of detection? ( http://arxiv.org/abs/2008.12825v2 )

ライセンス: Link先を確認
Jay Mardia(参考訳) 我々は、大きさ k のclique を Erd\H{o}s-R\'enyi graph G(n, 1/2) に植込み、このclique を検出または回収することに関心がある。 この問題は、クランクサイズ k=sqrt{n} における統計計算的ギャップが広く信じられており、他の統計問題の平均ケース硬度を推定できるようなギャップを持つ原型的問題として浮上している。 また、同様の性質の他の問題とは異なり、検出と回復の変種間の密接な計算的接続を示す。 しかし、植えられたクランク問題の計算複雑性に関するこの広範囲な調査は、主に時間複雑性に焦点が当てられている。 本研究では, 「空間効率」 を計算効率の概念として用いる場合, 植栽されたクライクを興味深い問題にするための統計的計算現象を問う。 この問題に対する肯定的な答えは、サイズ k = Omega(sqrt{n}) の植込みクリケットを復元できる O(log n) 空間アルゴリズムの存在に依存することを示すことは比較的容易である。 私たちの主な成果は,そのようなアルゴリズムの設計に非常に近いものです。 k=Omega(sqrt{n}) の場合、回復問題は空間の O((log*{n}-log*{k/sqrt{n}}) log n) ビットで解くことができる。 1. 任意の定数整数 l > 0 に対して k = omega(sqrt{n}log^{(l)}n) であれば、空間利用は O(log n) ビットである。 2. k = theta(sqrt{n}) ならば、空間の使い方は o(log*{n} log n) ビットである。 この結果は、そのようなパラメータの達成に非常に近いため、サイズ k = Omega(sqrt{n}) の傾きを回復するための O(log n) 空間アルゴリズムが存在することを示唆している。 これは、(仮定的に)植木されたクランクの時間複雑性を(仮定的に)保持する統計計算現象が、(仮定的に)空間複雑性をも保持する証拠を与える。

We study the planted clique problem in which a clique of size k is planted in an Erd\H{o}s-R\'enyi graph G(n, 1/2), and one is interested in either detecting or recovering this planted clique. This problem is interesting because it is widely believed to show a statistical-computational gap at clique size k=sqrt{n}, and has emerged as the prototypical problem with such a gap from which average-case hardness of other statistical problems can be deduced. It also displays a tight computational connection between the detection and recovery variants, unlike other problems of a similar nature. This wide investigation into the computational complexity of the planted clique problem has, however, mostly focused on its time complexity. In this work, we ask- Do the statistical-computational phenomena that make the planted clique an interesting problem also hold when we use `space efficiency' as our notion of computational efficiency? It is relatively easy to show that a positive answer to this question depends on the existence of a O(log n) space algorithm that can recover planted cliques of size k = Omega(sqrt{n}). Our main result comes very close to designing such an algorithm. We show that for k=Omega(sqrt{n}), the recovery problem can be solved in O((log*{n}-log*{k/sqrt{n}}) log n) bits of space. 1. If k = omega(sqrt{n}log^{(l)}n) for any constant integer l > 0, the space usage is O(log n) bits. 2.If k = Theta(sqrt{n}), the space usage is O(log*{n} log n) bits. Our result suggests that there does exist an O(log n) space algorithm to recover cliques of size k = Omega(sqrt{n}), since we come very close to achieving such parameters. This provides evidence that the statistical-computational phenomena that (conjecturally) hold for planted clique time complexity also (conjecturally) hold for space complexity.
翻訳日:2022-10-24 02:43:48 公開日:2020-11-23
# 制約付き多目的ベイズ最適化のための最大エントロピー探索

Max-value Entropy Search for Multi-Objective Bayesian Optimization with Constraints ( http://arxiv.org/abs/2009.01721v2 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal, Janardhan Rao Doppa(参考訳) 我々は,高機能評価を用いた制約付き多目的ブラックボックス最適化の問題を考察し,制約セットを満たす真のパレート解集合を近似し,関数評価の数を最小化する。 例えば、航空電力システムの設計アプリケーションでは、セルの温度と電圧の特定の閾値を満たしながら、総エネルギーと質量をトレードオフする設計を見つける必要があります。 この最適化は設計を評価するために高価な計算シミュレーションを実行する必要がある。 本稿では,制約付き多目的最適化 (MESMOC) のための「最大値エントロピー探索」と呼ばれる新しい手法を提案する。 MESMOCは、出力空間エントロピーに基づく取得関数を用いて、評価のための入力のシーケンスを効率よく選択し、制約を満たしながら高品質なパリトセットソリューションを明らかにする。 mesmocを2つの実世界のエンジニアリング設計アプリケーションに適用し,最先端アルゴリズムの有効性を実証した。

We consider the problem of constrained multi-objective blackbox optimization using expensive function evaluations, where the goal is to approximate the true Pareto set of solutions satisfying a set of constraints while minimizing the number of function evaluations. For example, in aviation power system design applications, we need to find the designs that trade-off total energy and the mass while satisfying specific thresholds for motor temperature and voltage of cells. This optimization requires performing expensive computational simulations to evaluate designs. In this paper, we propose a new approach referred as {\em Max-value Entropy Search for Multi-objective Optimization with Constraints (MESMOC)} to solve this problem. MESMOC employs an output-space entropy based acquisition function to efficiently select the sequence of inputs for evaluation to uncover high-quality pareto-set solutions while satisfying constraints. We apply MESMOC to two real-world engineering design applications to demonstrate its effectiveness over state-of-the-art algorithms.
翻訳日:2022-10-23 00:25:03 公開日:2020-11-23
# ファインレゾリューションリモートセンシング画像のセマンティクスセグメンテーションのためのマルチアテンションネットワーク

Multi-Attention-Network for Semantic Segmentation of Fine Resolution Remote Sensing Images ( http://arxiv.org/abs/2009.02130v4 )

ライセンス: Link先を確認
Rui Li, Shunyi Zheng, Chenxi Duan, Ce Zhang, Jianlin Su, P.M. Atkinson(参考訳) リモートセンシング画像の意味セグメンテーションは、土地資源管理、生物圏モニタリング、都市計画など、幅広いアプリケーションにおいて重要な役割を果たす。 リモートセンシング画像におけるセマンティックセグメンテーションの精度は、深部畳み込みニューラルネットワークによって著しく向上しているが、標準モデルにはいくつかの制限がある。 まず、u-netのようなエンコーダ-デコーダアーキテクチャでは、マルチスケール機能の利用は、低レベル機能と高レベル機能を直接改良することなく結合する情報の使用を過小評価する。 第二に、機能マップの長距離依存性が不十分に探究され、結果として各意味クラスに付随する最適化された特徴表現が生成される。 第3に、dot-product attentionメカニズムがセマンティックセグメンテーションで導入され、長距離依存関係のモデル化に利用されているにもかかわらず、大きな時間と空間の注意の要求は、大規模入力によるアプリケーションシナリオでの注意の実際の使用を妨げている。 本稿では,マルチアテンション・ネットワーク(manet,multi-attention-network)を提案する。 線形複雑化を伴うカーネル注意の新たな注意機構が提案され,注目されている計算要求が軽減される。 カーネルアテンションとチャネルアテンションに基づいて,ResNeXt-101によって抽出された局所特徴写像と対応する大域的依存関係と相互依存チャネルマップを適応的に統合する。 異なる衛星センサが捉えた3つの高解像度リモートセンシング画像に関する数値実験は、deeplab v3+、pspnet、fastfcn、danet、ocrnetなどのベンチマーク手法よりも優れた性能を示している。

Semantic segmentation of remote sensing images plays an important role in a wide range of applications including land resource management, biosphere monitoring and urban planning. Although the accuracy of semantic segmentation in remote sensing images has been increased significantly by deep convolutional neural networks, several limitations exist in standard models. First, for encoder-decoder architectures such as U-Net, the utilization of multi-scale features causes the underuse of information, where low-level features and high-level features are concatenated directly without any refinement. Second, long-range dependencies of feature maps are insufficiently explored, resulting in sub-optimal feature representations associated with each semantic class. Third, even though the dot-product attention mechanism has been introduced and utilized in semantic segmentation to model long-range dependencies, the large time and space demands of attention impede the actual usage of attention in application scenarios with large-scale input. This paper proposed a Multi-Attention-Network (MANet) to address these issues by extracting contextual dependencies through multiple efficient attention modules. A novel attention mechanism of kernel attention with linear complexity is proposed to alleviate the large computational demand in attention. Based on kernel attention and channel attention, we integrate local feature maps extracted by ResNeXt-101 with their corresponding global dependencies and reweight interdependent channel maps adaptively. Numerical experiments on three large-scale fine resolution remote sensing images captured by different satellite sensors demonstrate the superior performance of the proposed MANet, outperforming the DeepLab V3+, PSPNet, FastFCN, DANet, OCRNet, and other benchmark approaches.
翻訳日:2022-10-22 08:01:26 公開日:2020-11-23
# 連続近似を用いた情報理論多目的ベイズ最適化

Information-Theoretic Multi-Objective Bayesian Optimization with Continuous Approximations ( http://arxiv.org/abs/2009.05700v3 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal, Janardhan Rao Doppa(参考訳) 実世界のアプリケーションの多くは、トレードオフ精度とリソースコストの評価を伴う連続関数近似を用いた複数の目的のブラックボックス最適化を伴う。 例えば、ロケット発射実験では、設計評価のための連続忠実度シミュレータ(例えば、反射率パラメータからトレードオフシミュレーション時間と精度)を用いて、帰還時間と角度距離をトレードオフする設計を見つける必要がある。 目標は、評価のコストを最小化し、最適パレートセットを近似することである。 本稿では,この問題を解決するために,連続近似(imoca)を用いた情報理論的多目的ベイズ最適化と呼ばれる新しい手法を提案する。 鍵となる考え方は、複数の目的に対する入力と関数の近似のシーケンスを選択し、最適パレートフロントの単位コスト当たりの情報ゲインを最大化することである。 多様な合成および実世界のベンチマーク実験の結果,imocaは既存の単一忠実性手法よりも大幅に改善されていることがわかった。

Many real-world applications involve black-box optimization of multiple objectives using continuous function approximations that trade-off accuracy and resource cost of evaluation. For example, in rocket launching research, we need to find designs that trade-off return-time and angular distance using continuous-fidelity simulators (e.g., varying tolerance parameter to trade-off simulation time and accuracy) for design evaluations. The goal is to approximate the optimal Pareto set by minimizing the cost for evaluations. In this paper, we propose a novel approach referred to as information-Theoretic Multi-Objective Bayesian Optimization with Continuous Approximations (iMOCA)} to solve this problem. The key idea is to select the sequence of input and function approximations for multiple objectives which maximize the information gain per unit cost for the optimal Pareto front. Our experiments on diverse synthetic and real-world benchmarks show that iMOCA significantly improves over existing single-fidelity methods.
翻訳日:2022-10-19 07:41:52 公開日:2020-11-23
# ロバストで効率的な脚移動のための接触適応制御器の学習

Learning a Contact-Adaptive Controller for Robust, Efficient Legged Locomotion ( http://arxiv.org/abs/2009.10019v4 )

ライセンス: Link先を確認
Xingye Da, Zhaoming Xie, David Hoeller, Byron Boots, Animashree Anandkumar, Yuke Zhu, Buck Babich, Animesh Garg(参考訳) 本稿では,モデルベース制御と強化学習(RL)を組み合わせた階層型フレームワークを提案する。 システムは、環境の変化に応じてプリミティブのセットから選択することを学ぶハイレベルコントローラと、プリミティブを堅牢に実行するために確立された制御方法を利用する低レベルコントローラで構成される。 我々のフレームワークは、トレーニング中に見られない新しいシナリオを含む、環境変化の挑戦にすぐに適応できるコントローラを学習する。 学習したコントローラはエネルギー効率が最大85パーセント向上し、ベースラインメソッドよりも堅牢である。 また,ランダム化や適応方式を伴わずに,物理ロボットにコントローラを配置する。

We present a hierarchical framework that combines model-based control and reinforcement learning (RL) to synthesize robust controllers for a quadruped (the Unitree Laikago). The system consists of a high-level controller that learns to choose from a set of primitives in response to changes in the environment and a low-level controller that utilizes an established control method to robustly execute the primitives. Our framework learns a controller that can adapt to challenging environmental changes on the fly, including novel scenarios not seen during training. The learned controller is up to 85~percent more energy efficient and is more robust compared to baseline methods. We also deploy the controller on a physical robot without any randomization or adaptation scheme.
翻訳日:2022-10-16 05:43:39 公開日:2020-11-23
# MonoClothCap: モノクラーRGBビデオから一時的にコヒーレントな衣服の撮影を目指す

MonoClothCap: Towards Temporally Coherent Clothing Capture from Monocular RGB Video ( http://arxiv.org/abs/2009.10711v2 )

ライセンス: Link先を確認
Donglai Xiang, Fabian Prada, Chenglei Wu, Jessica Hodgins(参考訳) 本稿では,モノクラーRGBビデオ入力から時間的コヒーレントな動的衣服の変形を捉える手法を提案する。 既存の文献とは対照的に,本手法では事前にスキャンしたメッシュテンプレートを必要とせず,Wildビデオに適用することができる。 出力を有効な変形空間に制約するために,Tシャツ,ショートパンツ,ロングパンツの3種類の服の統計的変形モデルを構築した。 シルエット, セグメンテーション, テクスチャの差を最小限にして, 捕捉した形状を入力フレームに合わせるために, 微分可能なレンダラーを用いる。 変形追跡におけるドリフトを最小化するために,衣服の目に見えるテクスチャ領域を順次拡大するuvテクスチャ成長法を開発した。 また,畳み込みニューラルネットワークによって推定される通常の地図に布地表面を合わせることにより,入力ビデオからきずの細部を抽出する。 本手法は単眼映像から身体と衣服の時間的コヒーレントな再構築を実現する。 さまざまな挑戦的なビデオから、衣料品のキャプチャが成功していることを示す。 広範囲な定量的実験により,衣服の姿勢誤差や表面再構成誤差などの指標に対する効果が実証された。

We present a method to capture temporally coherent dynamic clothing deformation from a monocular RGB video input. In contrast to the existing literature, our method does not require a pre-scanned personalized mesh template, and thus can be applied to in-the-wild videos. To constrain the output to a valid deformation space, we build statistical deformation models for three types of clothing: T-shirt, short pants and long pants. A differentiable renderer is utilized to align our captured shapes to the input frames by minimizing the difference in both silhouette, segmentation, and texture. We develop a UV texture growing method which expands the visible texture region of the clothing sequentially in order to minimize drift in deformation tracking. We also extract fine-grained wrinkle detail from the input videos by fitting the clothed surface to the normal maps estimated by a convolutional neural network. Our method produces temporally coherent reconstruction of body and clothing from monocular video. We demonstrate successful clothing capture results from a variety of challenging videos. Extensive quantitative experiments demonstrate the effectiveness of our method on metrics including body pose error and surface reconstruction error of the clothing.
翻訳日:2022-10-15 23:09:40 公開日:2020-11-23
# CoKe:ロバストキーポイント検出のための局所的コントラスト学習

CoKe: Localized Contrastive Learning for Robust Keypoint Detection ( http://arxiv.org/abs/2009.14115v3 )

ライセンス: Link先を確認
Yutong Bai, Angtian Wang, Adam Kortylewski, Alan Yuille(参考訳) 今日のキーポイント検出の最も一般的なアプローチは、すべてのキーポイントの全体論的表現を学ぶことを目的とした非常に複雑なネットワークアーキテクチャである。 標準的なバックボーンアーキテクチャの出力からローカルキーポイント表現を学べますか? これにより、特にオブジェクトの大きな部分が隠されている場合、ネットワークがよりシンプルで堅牢になる。 表現学習の観点から,この問題を考察することで実現可能であることを示す。 特に、キーポイントカーネルは、機能空間内の3つのタイプの距離を最適化するために選択される必要がある: 同じキーポイントの特徴は他のキーポイントの特徴と異なりながら、同じキーポイントの特徴は互いに似ているべきである。 我々は,この最適化プロセスを,教師付きコントラスト学習を含むCoKeと呼ぶフレームワーク内で定式化する。 CoKeは、大規模なデータセット上で表現学習プロセスを可能にするために、いくつかの近似を作成する必要がある。 特に,非キーポイント特徴を近似するためのクラッタバンクと,特徴抽出器を訓練しながらキーポイント表現を計算するモーメント更新を導入する。 実験の結果,CoKeは全キーポイント(スタックド・ホアーグラス・ネットワーク,MSS-Net)と,詳細な3次元オブジェクト・ジオメトリ(StarMap)によって管理されるアプローチとを併用して,最先端の成果が得られることがわかった。 さらに、CoKeは頑丈で、オブジェクトが部分的に隠蔽され、さまざまなデータセット(PASCAL3D+、MPII、ObjectNet3D)の関連作業よりも大幅に優れています。

Today's most popular approaches to keypoint detection involve very complex network architectures that aim to learn holistic representations of all keypoints. In this work, we take a step back and ask: Can we simply learn a local keypoint representation from the output of a standard backbone architecture? This will help make the network simpler and more robust, particularly if large parts of the object are occluded. We demonstrate that this is possible by looking at the problem from the perspective of representation learning. Specifically, the keypoint kernels need to be chosen to optimize three types of distances in the feature space: Features of the same keypoint should be similar to each other, while differing from those of other keypoints, and also being distinct from features from the background clutter. We formulate this optimization process within a framework, which we call CoKe, which includes supervised contrastive learning. CoKe needs to make several approximations to enable representation learning process on large datasets. In particular, we introduce a clutter bank to approximate non-keypoint features, and a momentum update to compute the keypoint representation while training the feature extractor. Our experiments show that CoKe achieves state-of-the-art results compared to approaches that jointly represent all keypoints holistically (Stacked Hourglass Networks, MSS-Net) as well as to approaches that are supervised by detailed 3D object geometry (StarMap). Moreover, CoKe is robust and performs exceptionally well when objects are partially occluded and significantly outperforms related work on a range of diverse datasets (PASCAL3D+, MPII, ObjectNet3D).
翻訳日:2022-10-13 06:48:12 公開日:2020-11-23
# yodar: 不確実性に基づくカメラとレーダセンサによる車両検出のためのセンサ融合

YOdar: Uncertainty-based Sensor Fusion for Vehicle Detection with Camera and Radar Sensors ( http://arxiv.org/abs/2010.03320v2 )

ライセンス: Link先を確認
Kamil Kowol, Matthias Rottmann, Stefan Bracke, Hanno Gottschalk(参考訳) 本研究では,カメラとレーダデータとのセンサ融合のための不確実性に基づく手法を提案する。 1つの処理カメラともう1つのレーダーデータの2つのニューラルネットワークの出力は、不確実な認識方法で結合される。 この目的のために,両ネットワークの出力と対応するメタ情報を収集する。 各予測対象について、収集した情報を勾配促進法で後処理し、両ネットワークの合同予測を生成する。 我々の実験では、yolov3オブジェクト検出ネットワークと1d$レーダーセグメンテーションネットワークを組み合わせることで、nuscenesデータセット上での手法を評価する。 特に、カメラデータに基づく物体検出ネットワークの能力が潜在的に障害となる夜景に焦点を当てている。 実験の結果,本手法は非常にモジュール性が高く,単一センサのベースラインに比べて性能が著しく向上し,特に深層学習に基づくフュージョンアプローチが適していることがわかった。

In this work, we present an uncertainty-based method for sensor fusion with camera and radar data. The outputs of two neural networks, one processing camera and the other one radar data, are combined in an uncertainty aware manner. To this end, we gather the outputs and corresponding meta information for both networks. For each predicted object, the gathered information is post-processed by a gradient boosting method to produce a joint prediction of both networks. In our experiments we combine the YOLOv3 object detection network with a customized $1D$ radar segmentation network and evaluate our method on the nuScenes dataset. In particular we focus on night scenes, where the capability of object detection networks based on camera data is potentially handicapped. Our experiments show, that this approach of uncertainty aware fusion, which is also of very modular nature, significantly gains performance compared to single sensor baselines and is in range of specifically tailored deep learning based fusion approaches.
翻訳日:2022-10-09 22:26:12 公開日:2020-11-23
# 不正認証のためのドメイン非依存学習

Domain Agnostic Learning for Unbiased Authentication ( http://arxiv.org/abs/2010.05250v2 )

ライセンス: Link先を確認
Jian Liang, Yuren Cao, Shuang Li, Bing Bai, Hao Li, Fei Wang, Kun Bai(参考訳) 認証は、データインスタンスと所定のID間のマッチング関係を確認するタスクである。 認証問題の典型的な例は、顔認識と人物の再識別である。 データ駆動認証は、望ましくないバイアス、すなわち、モデルが1つのドメイン(例えば、春の服を着ている人)で訓練され、他のドメイン(例えば、服を夏服に変更する)で適用されることがある。 それまでの作業は、ドメイン差分を排除しようと努力してきた。 通常、ドメインアノテーションが提供され、すべてのドメインがクラスを共有していると仮定する。 しかし、認証には、異なるID/クラスで共有される多数のドメインがあり、これらのドメインを徹底的に注釈付けすることは不可能である。 ドメインディファレンスがモデル化と排除を難しくする可能性がある。 本稿では,ドメインラベルなしでドメインの差分を除去するドメイン非依存手法を提案する。 モデルがもはやドメイン差を検出しなくなるまで、潜在ドメイン発見とドメイン差分除去を交互に行う。 提案手法では,入力と出力の間の不均質な予測関係を学習することで潜在領域を発見する。 次に、クラス依存空間とクラス非依存空間の両方においてドメイン差を排除し、除去の堅牢性を改善する。 さらに、我々の手法をメタラーニングフレームワークに拡張し、より徹底的なドメイン差除去を追求する。 提案手法の有効性と優位性を示すための総合的な実験評価結果を提供する。

Authentication is the task of confirming the matching relationship between a data instance and a given identity. Typical examples of authentication problems include face recognition and person re-identification. Data-driven authentication could be affected by undesired biases, i.e., the models are often trained in one domain (e.g., for people wearing spring outfits) while applied in other domains (e.g., they change the clothes to summer outfits). Previous works have made efforts to eliminate domain-difference. They typically assume domain annotations are provided, and all the domains share classes. However, for authentication, there could be a large number of domains shared by different identities/classes, and it is impossible to annotate these domains exhaustively. It could make domain-difference challenging to model and eliminate. In this paper, we propose a domain-agnostic method that eliminates domain-difference without domain labels. We alternately perform latent domain discovery and domain-difference elimination until our model no longer detects domain-difference. In our approach, the latent domains are discovered by learning the heterogeneous predictive relationships between inputs and outputs. Then domain-difference is eliminated in both class-dependent and class-independent spaces to improve robustness of elimination. We further extend our method to a meta-learning framework to pursue more thorough domain-difference elimination. Comprehensive empirical evaluation results are provided to demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2022-10-08 12:50:21 公開日:2020-11-23
# LiDAM: 局所的なドメイン適応と反復マッチングによる半教師付き学習

LiDAM: Semi-Supervised Learning with Localized Domain Adaptation and Iterative Matching ( http://arxiv.org/abs/2010.06668v2 )

ライセンス: Link先を確認
Qun Liu, Matthew Shreve, Raja Bala(参考訳) データは豊富だが、データラベリングは高価である。 半教師付き学習法は、ラベル付きサンプルとラベルなしデータの大規模なコーパスを組み合わせて、効果的にモデルを訓練する。 本稿では,ドメイン適応と自己ペース学習の両方に根ざした半教師付き学習手法LiDAMを提案する。 LiDAMはまず、より正確なクラスタと擬似ラベルをもたらすモデルのドメイン不変性を改善するために、ローカライズされたドメインシフトを実行する。 これらの擬似ラベルは、高信頼度予測に対する多数整合性に基づく新しい反復マッチング手法を用いて、実クラスラベルと自己ペースで整列する。 同時に、最終分類器は収束するまで接地ラベルを予測するように訓練される。 LiDAMはCIFAR-100データセットで最先端のパフォーマンスを達成し、2500ラベルを使用する場合のFixMatch(73.50%対71.82%)を上回っている。

Although data is abundant, data labeling is expensive. Semi-supervised learning methods combine a few labeled samples with a large corpus of unlabeled data to effectively train models. This paper introduces our proposed method LiDAM, a semi-supervised learning approach rooted in both domain adaptation and self-paced learning. LiDAM first performs localized domain shifts to extract better domain-invariant features for the model that results in more accurate clusters and pseudo-labels. These pseudo-labels are then aligned with real class labels in a self-paced fashion using a novel iterative matching technique that is based on majority consistency over high-confidence predictions. Simultaneously, a final classifier is trained to predict ground-truth labels until convergence. LiDAM achieves state-of-the-art performance on the CIFAR-100 dataset, outperforming FixMatch (73.50% vs. 71.82%) when using 2500 labels.
翻訳日:2022-10-07 23:12:43 公開日:2020-11-23
# 深部生成モデルを用いた受容体結合部位における3次元分子構造の生成

Generating 3D Molecular Structures Conditional on a Receptor Binding Site with Deep Generative Models ( http://arxiv.org/abs/2010.14442v3 )

ライセンス: Link先を確認
Tomohide Masuda, Matthew Ragoza, David Ryan Koes(参考訳) 深い生成モデルが適用され、SMILES文字列や分子グラフのような二次元分子の生成に成功している。 本研究では,3次元3次元結合ポケット上に条件付き3次元分子構造を生成可能な深部生成モデルについて初めて述べる。 畳み込みニューラルネットワークを用いて、原子密度グリッドを別々の受容体とリガンド潜在空間に符号化する。 リガンド潜在空間は、新しい分子のサンプリングをサポートするために変動する。 デコーダネットワークは、受容体に条件付けられた新規リガンドの原子密度を生成する。 離散原子は、これらの連続密度に適合して分子構造を形成する。 本研究は,「シード」構造によって定義される変動潜在空間から,有効かつ特異な分子を容易にサンプリングできることを示し,生成された構造が結合部位と合理的な相互作用を持つことを示した。 種構造から潜在空間で構造をサンプリングすると、生成した構造の新規性は増大するが、予測された結合親和性は低下する。 全体として,条件付き3次元分子構造生成の実現可能性を示し,高結合親和性などの所望の分子特性を明示的に最適化する手法の出発点を提供する。

Deep generative models have been applied with increasing success to the generation of two dimensional molecules as SMILES strings and molecular graphs. In this work we describe for the first time a deep generative model that can generate 3D molecular structures conditioned on a three-dimensional (3D) binding pocket. Using convolutional neural networks, we encode atomic density grids into separate receptor and ligand latent spaces. The ligand latent space is variational to support sampling of new molecules. A decoder network generates atomic densities of novel ligands conditioned on the receptor. Discrete atoms are then fit to these continuous densities to create molecular structures. We show that valid and unique molecules can be readily sampled from the variational latent space defined by a reference `seed' structure and generated structures have reasonable interactions with the binding site. As structures are sampled farther in latent space from the seed structure, the novelty of the generated structures increases, but the predicted binding affinity decreases. Overall, we demonstrate the feasibility of conditional 3D molecular structure generation and provide a starting point for methods that also explicitly optimize for desired molecular properties, such as high binding affinity.
翻訳日:2022-10-06 22:22:51 公開日:2020-11-23
# 自己監督的逆回帰による準最適演示からの学習

Learning from Suboptimal Demonstration via Self-Supervised Reward Regression ( http://arxiv.org/abs/2010.11723v3 )

ライセンス: Link先を確認
Letian Chen, Rohan Paleja, Matthew Gombolay(参考訳) learning from demonstration(lfd)は、非ロボット主義のエンドユーザがロボットに人間のデモを提供することでタスクを実行するように教えることを可能にすることで、ロボティクスの民主化を目指している。 しかし、現代のLfD技術、例えば逆強化学習(IRL)は、ユーザが少なくとも確率論的に最適なデモを提供すると仮定する。 この仮定は現実世界のほとんどのシナリオでは成り立たない。 準最適実証から学ぶための最近の試みは、ペアワイズランキングとルース・シェパード則に従う。 しかし,これらの手法は誤った仮定をしており,不安定で劣化した性能に悩まされている。 これらの制限を克服し、最適度パラメータ化されたデータを合成し、最適報酬関数を訓練する手法を開発した。 実験により,前処理では ~0.75 に対して ~0.95 の相関を持つ理想化された報酬関数を学習する。 そして、サブオプティマイズよりも200%改善し、以前の作業よりも90%改善できるポリシーをトレーニングできます。 本研究では,卓球におけるトップスピンストライクをロボットに教える実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。

Learning from Demonstration (LfD) seeks to democratize robotics by enabling non-roboticist end-users to teach robots to perform a task by providing a human demonstration. However, modern LfD techniques, e.g. inverse reinforcement learning (IRL), assume users provide at least stochastically optimal demonstrations. This assumption fails to hold in most real-world scenarios. Recent attempts to learn from sub-optimal demonstration leverage pairwise rankings and following the Luce-Shepard rule. However, we show these approaches make incorrect assumptions and thus suffer from brittle, degraded performance. We overcome these limitations in developing a novel approach that bootstraps off suboptimal demonstrations to synthesize optimality-parameterized data to train an idealized reward function. We empirically validate we learn an idealized reward function with ~0.95 correlation with ground-truth reward versus ~0.75 for prior work. We can then train policies achieving ~200% improvement over the suboptimal demonstration and ~90% improvement over prior work. We present a physical demonstration of teaching a robot a topspin strike in table tennis that achieves 32% faster returns and 40% more topspin than user demonstration.
翻訳日:2022-10-06 12:24:16 公開日:2020-11-23
# COVID-19予測のための複数のデータソースを用いたディープラーニングモデルの検討

Examining Deep Learning Models with Multiple Data Sources for COVID-19 Forecasting ( http://arxiv.org/abs/2010.14491v2 )

ライセンス: Link先を確認
Lijing Wang, Aniruddha Adiga, Srinivasan Venkatramanan, Jiangzhuo Chen, Bryan Lewis, Madhav Marathe(参考訳) 新型コロナウイルスのパンデミックは1918年のインフルエンザ・パンデミック以来、最も大きな公衆衛生上の災害となっている。 新型コロナウイルスなどのパンデミックでは、時間的・信頼性の高い時空間予測が重要である。 近年,深層学習に基づく予測時系列モデルが普及し,流行予測に成功している。 ここでは、新型コロナウイルスの予測のためのディープラーニングベースのモデルの設計と分析に焦点を当てる。 我々は、複数の繰り返しニューラルネットワークに基づくディープラーニングモデルを実装し、それらを積み重ねアンサンブル技術を用いて組み合わせる。 新型コロナウイルスの感染拡大における複数の要因の影響を取り入れるため、より優れた予測のために、COVID-19の確認データや死亡事例数データ、検査データなど複数のソースを検討する。 トレーニングデータのばらつきを克服し,病気の動的相関に対処するために,クラスタリングによる高解像度予測トレーニングを提案する。 本手法は,種々の時空間効果により,特定の地域群の類似した傾向を同定するのに役立つ。 県,州,国レベルで新たに確認された症例を毎週予測する手法について検討した。 新型コロナウイルス(covid-19)の状況で異なる時系列モデルの包括的比較を行い分析した。 その結果、単純なディープラーニングモデルは、より複雑なモデルと比較して、同等あるいは優れたパフォーマンスを達成できることがわかった。 我々は現在、州と連邦当局に提供する毎週の予測の一部として、我々の方法を統合しています。

The COVID-19 pandemic represents the most significant public health disaster since the 1918 influenza pandemic. During pandemics such as COVID-19, timely and reliable spatio-temporal forecasting of epidemic dynamics is crucial. Deep learning-based time series models for forecasting have recently gained popularity and have been successfully used for epidemic forecasting. Here we focus on the design and analysis of deep learning-based models for COVID-19 forecasting. We implement multiple recurrent neural network-based deep learning models and combine them using the stacking ensemble technique. In order to incorporate the effects of multiple factors in COVID-19 spread, we consider multiple sources such as COVID-19 confirmed and death case count data and testing data for better predictions. To overcome the sparsity of training data and to address the dynamic correlation of the disease, we propose clustering-based training for high-resolution forecasting. The methods help us to identify the similar trends of certain groups of regions due to various spatio-temporal effects. We examine the proposed method for forecasting weekly COVID-19 new confirmed cases at county-, state-, and country-level. A comprehensive comparison between different time series models in COVID-19 context is conducted and analyzed. The results show that simple deep learning models can achieve comparable or better performance when compared with more complicated models. We are currently integrating our methods as a part of our weekly forecasts that we provide state and federal authorities.
翻訳日:2022-10-02 13:10:36 公開日:2020-11-23
# 深層畳み込みニューラルネットワークにおける球面座標変換前処理の影響 : 脳腫瘍分割と生存予測

Impact of Spherical Coordinates Transformation Pre-processing in Deep Convolution Neural Networks for Brain Tumor Segmentation and Survival Prediction ( http://arxiv.org/abs/2010.13967v2 )

ライセンス: Link先を確認
Carlo Russo, Sidong Liu, Antonio Di Ieva(参考訳) 事前処理とデータ拡張は、ディープ畳み込みニューラルネットワーク(DCNN)において重要な役割を果たす。 本稿では,データセットの標準化と拡張を目的としたいくつかの手法を提案するとともに,標準のカルト空間画像やボリュームと比較して特徴学習がより容易になるような,球形空間変換入力データをDCNNに供給するための新しい手法を提案する。 本研究では,脳腫瘍分節(BraTS)チャレンジ2020データセットにおける脳腫瘍分節の精度と患者全体の生存率(OS)予測を改善するための前処理法として球面座標変換を適用した。 lesionencoderフレームワークは、dcnnモデルから機能を自動的に抽出するために適用され、検証データセット上でのos予測の0.586の精度を実現している。

Pre-processing and Data Augmentation play an important role in Deep Convolutional Neural Networks (DCNN). Whereby several methods aim for standardization and augmentation of the dataset, we here propose a novel method aimed to feed DCNN with spherical space transformed input data that could better facilitate feature learning compared to standard Cartesian space images and volumes. In this work, the spherical coordinates transformation has been applied as a preprocessing method that, used in conjunction with normal MRI volumes, improves the accuracy of brain tumor segmentation and patient overall survival (OS) prediction on Brain Tumor Segmentation (BraTS) Challenge 2020 dataset. The LesionEncoder framework has been then applied to automatically extract features from DCNN models, achieving 0.586 accuracy of OS prediction on the validation data set, which is one of the best results according to BraTS 2020 leaderboard.
翻訳日:2022-10-02 11:49:10 公開日:2020-11-23
# 3次元再構成のための変形性テトラダラルメッシュの学習

Learning Deformable Tetrahedral Meshes for 3D Reconstruction ( http://arxiv.org/abs/2011.01437v2 )

ライセンス: Link先を確認
Jun Gao, Wenzheng Chen, Tommy Xiang, Clement Fuji Tsang, Alec Jacobson, Morgan McGuire, Sanja Fidler(参考訳) 学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。 ニューラルネットワークの3d再構成に関する以前の研究は、ポイントクラウド、voxel、サーフェスメッシュ、暗黙的な関数表現の利点だけでなく、制限も示していた。 Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。 既存のボリュームアプローチとは異なり、DefTetは頂点配置と占有の両方を最適化し、標準的な3D再構成損失関数に対して微分可能である。 これにより、学習ベースのニューラルアーキテクチャに対して高い精度、容積、および許容できる。 任意の複雑なトポロジーを表現でき、メモリと計算効率を両立し、グリッドサイズが代替のボリュームアプローチよりも大幅に小さい高忠実度再構成を実現できることを示す。 予測された表面は本質的に四面体メッシュとして定義されるため、後処理は不要である。 DefTetは、以前のベストアプローチの品質と最速アプローチのパフォーマンスの両方に一致しているか、超えるかを実証する。 提案手法は,ノイズの多い点群から直接計算される高品質なテトラヘドラルメッシュを取得し,単一の画像のみを入力として,高品質な3Dテトメシュ結果を示す最初の方法である。 プロジェクトのWebページ: https://nv-tlabs.github.io/DefTet/

3D shape representations that accommodate learning-based 3D reconstruction are an open problem in machine learning and computer graphics. Previous work on neural 3D reconstruction demonstrated benefits, but also limitations, of point cloud, voxel, surface mesh, and implicit function representations. We introduce Deformable Tetrahedral Meshes (DefTet) as a particular parameterization that utilizes volumetric tetrahedral meshes for the reconstruction problem. Unlike existing volumetric approaches, DefTet optimizes for both vertex placement and occupancy, and is differentiable with respect to standard 3D reconstruction loss functions. It is thus simultaneously high-precision, volumetric, and amenable to learning-based neural architectures. We show that it can represent arbitrary, complex topology, is both memory and computationally efficient, and can produce high-fidelity reconstructions with a significantly smaller grid size than alternative volumetric approaches. The predicted surfaces are also inherently defined as tetrahedral meshes, thus do not require post-processing. We demonstrate that DefTet matches or exceeds both the quality of the previous best approaches and the performance of the fastest ones. Our approach obtains high-quality tetrahedral meshes computed directly from noisy point clouds, and is the first to showcase high-quality 3D tet-mesh results using only a single image as input. Our project webpage: https://nv-tlabs.github.io/DefTet/
翻訳日:2022-09-30 05:10:25 公開日:2020-11-23
# シュープリントによる深層学習解析と年齢予測

Deep Learning Analysis and Age Prediction from Shoeprints ( http://arxiv.org/abs/2011.03794v2 )

ライセンス: Link先を確認
Muhammad Hassan (1), Yan Wang (1), Di Wang (2), Daixi Li (3), Yanchun Liang (1), You Zhou (1,2) and Dong Xu (4) ((1) Computer Science and Technology, Jilin University, Changchun, (2) Joint NTU-UBC Research Centre of Excellence in Active Living for the Elderly, Nanyang Technological University, Singapore, (3) Everspray Science and Technology Company Ltd., (4) Department of Electrical Engineering and Computer Science, University of Missouri, Columbia)(参考訳) 人間の歩行と歩行にはいくつかの複雑な身体部分があり、性格、気分、社会的・文化的特徴、老化の影響を受けている。 これらの因子は靴のプリントに反映され、年齢を予測できるが、これはいかなる計算手法を使っても体系的に対処されない問題である。 7歳から80歳までの被験者10万点の靴プリントを収集し,そのデータを用いて,年齢関連パターンの分析と年齢予測のためのディープラーニングモデルシューネットを開発した。 このモデルは、様々な畳み込みニューラルネットワークモデルをスキップ機構を使って統合し、特にペアワイズシュープリントから圧力や摩耗領域の年齢関連特徴を抽出する。 その結果、40.23%の被験者が5歳未満で予測誤差があり、性別分類の予測精度は86.07%に達した。 興味深いことに、年齢に関する特徴は主に左右の靴印の非対称な違いにある。 また, シュープリントの圧力分布には, 年齢, 性別関係の興味深いパターンがみられ, 特にヒール領域における性別による変化が, 年齢とともに足指の中央から外方へ拡がる圧力力について検討した。 このような統計は、法医学的な調査、歩行パターン障害の医学研究、バイオメトリックス、スポーツ研究の新しい方法に関する洞察を与える。

Human walking and gaits involve several complex body parts and are influenced by personality, mood, social and cultural traits, and aging. These factors are reflected in shoeprints, which in turn can be used to predict age, a problem not systematically addressed using any computational approach. We collected 100,000 shoeprints of subjects ranging from 7 to 80 years old and used the data to develop a deep learning end-to-end model ShoeNet to analyze age-related patterns and predict age. The model integrates various convolutional neural network models together using a skip mechanism to extract age-related features, especially in pressure and abrasion regions from pair-wise shoeprints. The results show that 40.23% of the subjects had prediction errors within 5-years of age and the prediction accuracy for gender classification reached 86.07%. Interestingly, the age-related features mostly reside in the asymmetric differences between left and right shoeprints. The analysis also reveals interesting age-related and gender-related patterns in the pressure distributions on shoeprints; in particular, the pressure forces spread from the middle of the toe toward outside regions over age with gender-specific variations on heel regions. Such statistics provide insight into new methods for forensic investigations, medical studies of gait-pattern disorders, biometrics, and sport studies.
翻訳日:2022-09-28 22:44:11 公開日:2020-11-23
# 光音響イメージングにおける不確かさ定量化のためのインバータブルニューラルネットワーク

Invertible Neural Networks for Uncertainty Quantification in Photoacoustic Imaging ( http://arxiv.org/abs/2011.05110v2 )

ライセンス: Link先を確認
Jan-Hinrich N\"olke, Tim Adler, Janek Gr\"ohl, Thomas Kirchner, Lynton Ardizzone, Carsten Rother, Ullrich K\"othe, Lena Maier-Hein(参考訳) multispectral photoacoustic imaging (pai) は、血液酸素化などの機能的組織パラメータの回復を可能にする新しいイメージングモードである。 しかし、根底にある逆問題には潜在的な欠陥があり、理論的に比較して、組織の性質が根本的に異なる可能性がある。 本研究では,条件付きインバータブルニューラルネットワーク(cinn)の概念を活用し,この不確実性に対処する新しい手法を提案する。 具体的には,組織酸素化の一般的な推定値を超えて,単画素初期圧力スペクトルを全後方確率密度に変換することを提案する。 このようにして、問題固有の曖昧さは出力の複数のモードで符号化できる。 提案するアーキテクチャに基づいて,(1)光音響デバイス設計と(2)光音響画像取得の最適化という不確かさを補うために,この情報を活用する2つのユースケースを実証する。 本研究は,本手法がPAIを用いた生理的パラメータの不確実性を考慮した復元のための重要なビルディングブロックとなる可能性を示すものである。

Multispectral photoacoustic imaging (PAI) is an emerging imaging modality which enables the recovery of functional tissue parameters such as blood oxygenation. However, the underlying inverse problems are potentially ill-posed, meaning that radically different tissue properties may - in theory - yield comparable measurements. In this work, we present a new approach for handling this specific type of uncertainty by leveraging the concept of conditional invertible neural networks (cINNs). Specifically, we propose going beyond commonly used point estimates for tissue oxygenation and converting single-pixel initial pressure spectra to the full posterior probability density. This way, the inherent ambiguity of a problem can be encoded with multiple modes in the output. Based on the presented architecture, we demonstrate two use cases which leverage this information to not only detect and quantify but also to compensate for uncertainties: (1) photoacoustic device design and (2) optimization of photoacoustic image acquisition. Our in silico studies demonstrate the potential of the proposed methodology to become an important building block for uncertainty-aware reconstruction of physiological parameters with PAI.
翻訳日:2022-09-27 07:05:21 公開日:2020-11-23
# 生体顕微鏡データの半・自己教師型セマンティックセグメンテーションの比較研究

A comparative study of semi- and self-supervised semantic segmentation of biomedical microscopy data ( http://arxiv.org/abs/2011.08076v2 )

ライセンス: Link先を確認
Nastassya Horlava, Alisa Mironenko, Sebastian Niehaus, Sebastian Wagner, Ingo Roeder, Nico Scherf(参考訳) 近年,CNN(Convolutional Neural Networks)がバイオメディカル画像解析の最先端技術となっている。 しかしながら、これらのネットワークは通常、大量のラベル付きトレーニングデータを必要とする教師付き方法で訓練される。 これらのラベル付きデータセットは、しばしば生物医学領域で取得することが困難である。 本研究では,バイオメディカルイメージセグメンテーションのためのラベルの少ないCNNの訓練方法を検証する。 バイオメディカル・顕微鏡画像のセマンティックセグメンテーションのために,2つの半自監督画像分類法を適用し,その性能解析を行った。

In recent years, Convolutional Neural Networks (CNNs) have become the state-of-the-art method for biomedical image analysis. However, these networks are usually trained in a supervised manner, requiring large amounts of labelled training data. These labelled data sets are often difficult to acquire in the biomedical domain. In this work, we validate alternative ways to train CNNs with fewer labels for biomedical image segmentation using. We adapt two semi- and self-supervised image classification methods and analyse their performance for semantic segmentation of biomedical microscopy images.
翻訳日:2022-09-26 23:30:56 公開日:2020-11-23
# 任意のアルゴリズムの帰属バイアス:マージンによる有界バイアス

Implicit bias of any algorithm: bounding bias via margin ( http://arxiv.org/abs/2011.06550v4 )

ライセンス: Link先を確認
Elvis Dohmatob(参考訳) 有限次元ユークリッド空間において、$n$の点 $x_1,\ldots,x_n$ を考える。 点に対して分離超平面(単位正規ベクトル $w)$ が存在し、すなわち同じ色の点が超平面の同じ側にあるような超平面が存在すると仮定する。 そのような超平面の質をマージン $\gamma(w)$ で測定し、任意の点 $x_i$ と超平面の間の最小距離として定義する。 本稿では, マージン関数 $\gamma$ が非滑らかなkurdyka-lojasiewicz不等式を満たすことを証明した。 この結果は遥かに大きな結果をもたらす。 例えば、$\gamma^{opt}$ を問題の最大マージンとし、$w^{opt}$ をこの値を達成する超平面のパラメータとする。 パラメータ $w$ を持つ他の分離超平面が与えられたとき、$d(w):=\|w-w^{opt}\|$ を $w$ と $w^{opt}$ の間のユークリッド距離とする。 以前の KL-不等式から、$(\gamma^{opt}-\gamma(w)) / R \le d(w) \le 2\sqrt{(\gamma^{opt}-\gamma(w))/\gamma^{opt}}$, ここで、$R:=\max_i \|x_i\|$ は原点からの点 $x_i$ の最大距離である。 したがって、任意の最適化アルゴリズム(漸近的か否かにかかわらず)において、繰り返しの偏りは、マージンの収束率の平方根の少なくとも1倍の速さで収束する。 したがって、本研究は、特別な解析が利用できない状況において、マージンの観点から任意のアルゴリズムの暗黙のバイアスを分析するための汎用的なツールを提供する:マージンの収束率を確立するのに十分である。

Consider $n$ points $x_1,\ldots,x_n$ in finite-dimensional euclidean space, each having one of two colors. Suppose there exists a separating hyperplane (identified with its unit normal vector $w)$ for the points, i.e a hyperplane such that points of same color lie on the same side of the hyperplane. We measure the quality of such a hyperplane by its margin $\gamma(w)$, defined as minimum distance between any of the points $x_i$ and the hyperplane. In this paper, we prove that the margin function $\gamma$ satisfies a nonsmooth Kurdyka-Lojasiewicz inequality with exponent $1/2$. This result has far-reaching consequences. For example, let $\gamma^{opt}$ be the maximum possible margin for the problem and let $w^{opt}$ be the parameter for the hyperplane which attains this value. Given any other separating hyperplane with parameter $w$, let $d(w):=\|w-w^{opt}\|$ be the euclidean distance between $w$ and $w^{opt}$, also called the bias of $w$. From the previous KL-inequality, we deduce that $(\gamma^{opt}-\gamma(w)) / R \le d(w) \le 2\sqrt{(\gamma^{opt}-\gamma(w))/\gamma^{opt}}$, where $R:=\max_i \|x_i\|$ is the maximum distance of the points $x_i$ from the origin. Consequently, for any optimization algorithm (gradient-descent or not), the bias of the iterates converges at least as fast as the square-root of the rate of their convergence of the margin. Thus, our work provides a generic tool for analyzing the implicit bias of any algorithm in terms of its margin, in situations where a specialized analysis might not be available: it is sufficient to establish a good rate for converge of the margin, a task which is usually much easier.
翻訳日:2022-09-26 06:42:09 公開日:2020-11-23
# Pyramid Point: 機能レイヤを再検討するためのマルチレベルフォーカスネットワーク

Pyramid Point: A Multi-Level Focusing Network for Revisiting Feature Layers ( http://arxiv.org/abs/2011.08692v2 )

ライセンス: Link先を確認
Nina Varney, Vijayan K. Asari and Quinn Graehling(参考訳) 本稿では,無順序点集合から多種多様な対象分類群を学習する手法を提案する。 本稿では,従来の「u」形状ではなく,密集したピラミッド構造を用いたピラミッド点ネットワークを提案する。 このピラミッド構造は第2の外観を与え、ネットワークが異なるレイヤを同時に再検討できるようにし、ノイズの少ない追加レイヤを作成することでコンテキスト情報を増やす。 本稿では,カーネル出力に注意機構を加えることで,従来型の点畳み込みに拡張する集中型カーネル点畳み込み(fkp conv)を導入する。 このFKP Convは機能品質を向上し、カーネルの出力を動的に重み付けすることができます。 これらのFKP Convsは、エンコーダのバックボーンを構成する、リカレントFKP Bottleneckブロックの中央部分です。 この異なるネットワークでは、3つのベンチマークデータセット上での競合性能を示す。 また,FKP Convにおける各元素の陽性効果を示すためのアブレーション研究も行った。

We present a method to learn a diverse group of object categories from an unordered point set. We propose our Pyramid Point network, which uses a dense pyramid structure instead of the traditional 'U' shape, typically seen in semantic segmentation networks. This pyramid structure gives a second look, allowing the network to revisit different layers simultaneously, increasing the contextual information by creating additional layers with less noise. We introduce a Focused Kernel Point convolution (FKP Conv), which expands on the traditional point convolutions by adding an attention mechanism to the kernel outputs. This FKP Conv increases our feature quality and allows us to weigh the kernel outputs dynamically. These FKP Convs are the central part of our Recurrent FKP Bottleneck block, which makes up the backbone of our encoder. With this distinct network, we demonstrate competitive performance on three benchmark data sets. We also perform an ablation study to show the positive effects of each element in our FKP Conv.
翻訳日:2022-09-24 15:46:36 公開日:2020-11-23
# stressnet: 熱ビデオ中の応力を検出する

StressNet: Detecting Stress in Thermal Videos ( http://arxiv.org/abs/2011.09540v2 )

ライセンス: Link先を確認
Satish Kumar, A S M Iftekhar, Michael Goebel, Tom Bullock, Mary H. MacLean, Michael B. Miller, Tyler Santander, Barry Giesbrecht, Scott T. Grafton, B.S. Manjunath(参考訳) 生理的信号の正確な測定は、ヒトのバイタルサインの効果的なモニタリングに不可欠である。 近年のコンピュータビジョンの発展により、人間のデジタルビデオからパルスレートや呼吸速度などの信号を抽出することができ、非接触監視の可能性も高まっている。 本稿では,熱映像から生理的信号を取得し,ストレス状態を分類する新しい手法を提案する。 提案するネットワーク--stressnet--は皮膚と下層の血管による熱の直接放出と吸収をモデル化するハイブリッドエミッション表現モデルを備えている。 この結果、isti(初期収縮時間間隔:ヒトのストレスの定量的指標と見なされる心臓交感神経活動の変化の指標)を再構築するために時空間ネットワークによって使用される、情報豊富な顔の特徴表現が得られる。 再構成されたISTI信号はストレス検出モデルに入力され、個人のストレス状態(ストレス、ストレスなし)を検出し分類する。 詳細な評価では、ISTI信号の95%の精度で推定し、平均精度0.842で応力を検出する。 ソースコードはgithubで公開されている。

Precise measurement of physiological signals is critical for the effective monitoring of human vital signs. Recent developments in computer vision have demonstrated that signals such as pulse rate and respiration rate can be extracted from digital video of humans, increasing the possibility of contact-less monitoring. This paper presents a novel approach to obtaining physiological signals and classifying stress states from thermal video. The proposed network--"StressNet"--features a hybrid emission representation model that models the direct emission and absorption of heat by the skin and underlying blood vessels. This results in an information-rich feature representation of the face, which is used by spatio-temporal network for reconstructing the ISTI ( Initial Systolic Time Interval: a measure of change in cardiac sympathetic activity that is considered to be a quantitative index of stress in humans ). The reconstructed ISTI signal is fed into a stress-detection model to detect and classify the individual's stress state ( i.e. stress or no stress ). A detailed evaluation demonstrates that StressNet achieves estimated the ISTI signal with 95% accuracy and detect stress with average precision of 0.842. The source code is available on Github.
翻訳日:2022-09-24 05:23:08 公開日:2020-11-23
# 注目された液体ウォーピングgan : 画像合成のための統一フレームワーク

Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis ( http://arxiv.org/abs/2011.09055v2 )

ライセンス: Link先を確認
Wen Liu, Zhixin Piao, Zhi Tu, Wenhan Luo, Lin Ma and Shenghua Gao(参考訳) 我々は,人間の運動模倣,外観移動,新しい視点合成を含む人間の画像合成を統一的な枠組みで取り組む。 つまり、トレーニングされたモデルを使って、これらのタスクをすべて処理できるということです。 既存のタスク固有の方法は、主に2Dキーポイントを使用して人体構造を推定する。 しかし、人物のパーソナライズされた形状を特徴付ける能力のない位置情報のみを表現し、手足の回転をモデル化する。 本稿では,3Dボディーメッシュリカバリモジュールを用いてポーズと形状をアンタングルする手法を提案する。 関節の位置と回転をモデル化できるだけでなく、パーソナライズされた体の形状もモデル化できる。 本研究では, テクスチャ, スタイル, 色, 顔の同一性などのソース情報を保持するために, 画像および特徴空間のソース情報を合成基準に伝達する, 意図的液体ウォーピングブロック(AttLWB)を用いた注意的液体ウォーピングGANを提案する。 具体的には、ソースidをよく特徴付けるデノージング畳み込みオートエンコーダによってソース特徴を抽出する。 さらに,提案手法は複数のソースからより柔軟なワーピングをサポートすることができる。 未知のソース画像の一般化能力をさらに向上するため、ワンショット対角学習を適用する。 詳しくは、まずモデルを広範なトレーニングセットでトレーニングする。 そして、そのモデルを1/2ショットのアンセエン画像で微調整し、高分解能(512 x 512, 1024 x 1024)結果を生成する。 また、人間の動きの模倣、外観伝達、新しいビュー合成の評価のための新しいデータセット、すなわちiPERデータセットを構築した。 広範な実験により,顔の同一性,形状の一貫性,衣料品の細部を保存できる手法の有効性が実証された。 すべてのコードとデータセットはhttps://impersonator.org/work/impersonator-plus-htmlで公開されている。

We tackle human image synthesis, including human motion imitation, appearance transfer, and novel view synthesis, within a unified framework. It means that the model, once being trained, can be used to handle all these tasks. The existing task-specific methods mainly use 2D keypoints to estimate the human body structure. However, they only express the position information with no abilities to characterize the personalized shape of the person and model the limb rotations. In this paper, we propose to use a 3D body mesh recovery module to disentangle the pose and shape. It can not only model the joint location and rotation but also characterize the personalized body shape. To preserve the source information, such as texture, style, color, and face identity, we propose an Attentional Liquid Warping GAN with Attentional Liquid Warping Block (AttLWB) that propagates the source information in both image and feature spaces to the synthesized reference. Specifically, the source features are extracted by a denoising convolutional auto-encoder for characterizing the source identity well. Furthermore, our proposed method can support a more flexible warping from multiple sources. To further improve the generalization ability of the unseen source images, a one/few-shot adversarial learning is applied. In detail, it firstly trains a model in an extensive training set. Then, it finetunes the model by one/few-shot unseen image(s) in a self-supervised way to generate high-resolution (512 x 512 and 1024 x 1024) results. Also, we build a new dataset, namely iPER dataset, for the evaluation of human motion imitation, appearance transfer, and novel view synthesis. Extensive experiments demonstrate the effectiveness of our methods in terms of preserving face identity, shape consistency, and clothes details. All codes and dataset are available on https://impersonator.org/work/impersonator-plus-plus.html.
翻訳日:2022-09-24 04:11:42 公開日:2020-11-23
# 潜在変数モデルにおける階層的変化の検出

Detecting Hierarchical Changes in Latent Variable Models ( http://arxiv.org/abs/2011.09465v3 )

ライセンス: Link先を確認
Shintaro Fukushima and Kenji Yamanishi(参考訳) 本稿では,データストリームから潜在変数モデル(HCDL)の階層的変化を検出する問題に対処する。 潜在変数モデルには3つの異なるレベルの変更がある。 1) 最初のレベルは、固定潜在変数のデータ分布の変化である。 2) 2つ目は、潜伏変数上の分布において、 3) 3つ目は潜在変数の数である。 変更がどのレベルから来ているか(変更解釈可能性)を特定することで、変更の原因を分析することができるため、これらの変更を検出することが重要です。 本稿では,3段階の変化を階層的に検出するための情報理論的枠組みを提案する。 MDL (minimum description length) は、DNML (Decomposed normalized maximum max) コード長計算と組み合わせて、変化の度合いを測定するために統計値を変更する。 我々は、変更に対して信頼できる警報を行うための理論的基礎を与える。 確率的ブロックモデルに着目し,合成およびベンチマークデータセットを用いて,変化の解釈性と変化検出の観点から,フレームワークの有効性を実証する。

This paper addresses the issue of detecting hierarchical changes in latent variable models (HCDL) from data streams. There are three different levels of changes for latent variable models: 1) the first level is the change in data distribution for fixed latent variables, 2) the second one is that in the distribution over latent variables, and 3) the third one is that in the number of latent variables. It is important to detect these changes because we can analyze the causes of changes by identifying which level a change comes from (change interpretability). This paper proposes an information-theoretic framework for detecting changes of the three levels in a hierarchical way. The key idea to realize it is to employ the MDL (minimum description length) change statistics for measuring the degree of change, in combination with DNML (decomposed normalized maximum likelihood) code-length calculation. We give a theoretical basis for making reliable alarms for changes. Focusing on stochastic block models, we employ synthetic and benchmark datasets to empirically demonstrate the effectiveness of our framework in terms of change interpretability as well as change detection.
翻訳日:2022-09-24 03:44:41 公開日:2020-11-23
# 逐次的ターゲット:テキスト分類におけるデータ不均衡の漸進的学習アプローチ

Sequential Targeting: an incremental learning approach for data imbalance in text classification ( http://arxiv.org/abs/2011.10216v2 )

ライセンス: Link先を確認
Joel Jang, Yoonjeon Kim, Kyoungho Choi, Sungho Suh(参考訳) 分類タスクは、学習者がすべてのクラスを一般化するように訓練されることを保証するために、データのバランスのとれた分散を必要とする。 しかし、現実世界のデータセットでは、インスタンスの数はクラスによって大きく異なる。 これは典型的には、その支配性のために多数派に対する偏見を促進する学習者につながる。 したがって、不均衡データセットを扱う方法は、特にテキスト分類において、分散スキューを緩和し、非表現データを完全に活用するために重要である。 テキストデータの不均衡に対処しながら、ほとんどの手法はデータの数値表現のサンプリング手法を使用し、その効率は表現の有効性に制限される。 本稿では,データを相互に排他的なサブセットに分割し,学習者を適応的に訓練することで,段階的な学習設定を強制する,表現法の有効性によらず,新たな学習方法であるシーケンスターゲティング(ST)を提案する。 インクリメンタル学習で生じる問題に対処するために,弾性重み統合を適用する。 シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。

Classification tasks require a balanced distribution of data to ensure the learner to be trained to generalize over all classes. In real-world datasets, however, the number of instances vary substantially among classes. This typically leads to a learner that promotes bias towards the majority group due to its dominating property. Therefore, methods to handle imbalanced datasets are crucial for alleviating distributional skews and fully utilizing the under-represented data, especially in text classification. While addressing the imbalance in text data, most methods utilize sampling methods on the numerical representation of the data, which limits its efficiency on how effective the representation is. We propose a novel training method, Sequential Targeting(ST), independent of the effectiveness of the representation method, which enforces an incremental learning setting by splitting the data into mutually exclusive subsets and training the learner adaptively. To address problems that arise within incremental learning, we apply elastic weight consolidation. We demonstrate the effectiveness of our method through experiments on simulated benchmark datasets (IMDB) and data collected from NAVER.
翻訳日:2022-09-23 05:32:00 公開日:2020-11-23
# ローカライゼーションとナビゲーションタスクのためのリアルトランスファーへの学習

Learning Synthetic to Real Transfer for Localization and Navigational Tasks ( http://arxiv.org/abs/2011.10274v2 )

ライセンス: Link先を確認
Maxime Pietrantoni, Boris Chidlovskii, Tomi Silander(参考訳) 自律ナビゲーションは、人間の介入や監督なしにナビゲートできるエージェントで構成されており、高いレベルの計画と低レベルの制御の両方に影響を与える。 ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。 この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。 限られた時間と幅広い問題を考えると、重要なものの絶対的なナビゲーション性能が主な目的ではなかった。 むしろ、現代のロボット工学と自律ナビゲーションの大きなボトルネックであるsim2realギャップの研究に重点が置かれた。 ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。 igibson simulatorは、フォトリアリスティックなテクスチャと物理エンジンで選ばれた。 空間表現に取り組むトポロジカルなアプローチは、新しい環境への一般化と条件の変化に対する感受性の低下から、計量的アプローチよりも選択された。 ナビゲーションパイプラインは、ローカライゼーションモジュール、プランニングモジュール、ローカルナビゲーションモジュールとして分解される。 これらのモジュールは3つの異なるネットワーク、画像表現抽出器、通過検出器、局所ポリシーを利用する。 後者は、特定のタスク用に作成された関連するデータセットを使用して、特別に調整されたタスクでトレーニングされる。 局所化は、エージェントが特定の空間表現に対して局所化する能力である。 さまざまな変換に対して,信頼性と再現性,堅牢性が求められます。 特徴記述子抽出器として補助タスクで訓練されたディープニューラルネットワークを用いて、画像検索タスクとしてローカライゼーションに取り組む。 ローカルポリシーは、ROSナビゲーションスタックで収集された専門家の軌道からの行動的クローンによって訓練される。

Autonomous navigation consists in an agent being able to navigate without human intervention or supervision, it affects both high level planning and low level control. Navigation is at the crossroad of multiple disciplines, it combines notions of computer vision, robotics and control. This work aimed at creating, in a simulation, a navigation pipeline whose transfer to the real world could be done with as few efforts as possible. Given the limited time and the wide range of problematic to be tackled, absolute navigation performances while important was not the main objective. The emphasis was rather put on studying the sim2real gap which is one the major bottlenecks of modern robotics and autonomous navigation. To design the navigation pipeline four main challenges arise; environment, localization, navigation and planning. The iGibson simulator is picked for its photo-realistic textures and physics engine. A topological approach to tackle space representation was picked over metric approaches because they generalize better to new environments and are less sensitive to change of conditions. The navigation pipeline is decomposed as a localization module, a planning module and a local navigation module. These modules utilize three different networks, an image representation extractor, a passage detector and a local policy. The laters are trained on specifically tailored tasks with some associated datasets created for those specific tasks. Localization is the ability for the agent to localize itself against a specific space representation. It must be reliable, repeatable and robust to a wide variety of transformations. Localization is tackled as an image retrieval task using a deep neural network trained on an auxiliary task as a feature descriptor extractor. The local policy is trained with behavioral cloning from expert trajectories gathered with ROS navigation stack.
翻訳日:2022-09-23 05:30:39 公開日:2020-11-23
# 経験的モード分解に基づく負荷と再生可能時系列予測の解析

Analysis of Empirical Mode Decomposition-based Load and Renewable Time Series Forecasting ( http://arxiv.org/abs/2011.11410v1 )

ライセンス: Link先を確認
Nima Safari, George Price, Chi Yung Chung(参考訳) 経験的モード分解法(EMD)とその変種は、負荷および再生可能な予測文献に広く用いられている。 このマルチレゾリューション分解により、歴史的負荷と再生可能生成に関連する時系列 (ts) は、非定常かつ非線形ないくつかの内在モード関数 (imfs) に分解される。 これにより、理論的に高い精度で成分の予測を行うことができる。 EMD法は, モーダルエイリアスや境界効果問題などの問題が多いが, TS分解に基づく負荷と再生可能発生予測の文献は, 主に, 予測精度の観点から異なる分解手法の性能を比較することに焦点を当てており, これらの問題を精査することはめったにない。 これらの問題を過小評価すると、リアルタイムアプリケーションにおける予測モデルの性能が低下する可能性がある。 本稿では,これらの課題とモデル開発における重要性について考察する。 実世界のデータを用いて,EMDに基づくモデルを示し,境界効果の影響を示す。

The empirical mode decomposition (EMD) method and its variants have been extensively employed in the load and renewable forecasting literature. Using this multiresolution decomposition, time series (TS) related to the historical load and renewable generation are decomposed into several intrinsic mode functions (IMFs), which are less non-stationary and non-linear. As such, the prediction of the components can theoretically be carried out with notably higher precision. The EMD method is prone to several issues, including modal aliasing and boundary effect problems, but the TS decomposition-based load and renewable generation forecasting literature primarily focuses on comparing the performance of different decomposition approaches from the forecast accuracy standpoint; as a result, these problems have rarely been scrutinized. Underestimating these issues can lead to poor performance of the forecast model in real-time applications. This paper examines these issues and their importance in the model development stage. Using real-world data, EMD-based models are presented, and the impact of the boundary effect is illustrated.
翻訳日:2022-09-22 03:32:11 公開日:2020-11-23
# 機械学習による流行検査と封じ込め戦略の改善

Improving epidemic testing and containment strategies using machine learning ( http://arxiv.org/abs/2011.11717v1 )

ライセンス: Link先を確認
Laura Natali, Saga Helgadottir, Onofrio M. Marago, and Giovanni Volpe(参考訳) アウトブレイクの発生は、大きな社会的・経済的コストを伴う。 コスト効率の良い封じ込め戦略は、感染した個人を効率的に識別し、利用可能なテストリソースを最大限に活用することに依存している。 したがって、最適なテスト戦略を素早く特定することが重要である。 ここでは、機械学習を用いて、どの個人が検査に最も有益であるかを識別し、自動的かつ動的に検査戦略を病原体の特徴に適応させることを実証する。 具体的には,sir(archetypal susceptible-infectious-recovered)モデルを用いて集団発生をシミュレートし,最初に確認された症例のデータを用いてニューラルネットワークを訓練し,残りの個体群について予測を行う。 これらの予測を用いることで、通常のアプローチよりもより効果的かつ迅速にアウトブレイクを封じ込めます。 さらに,本手法は,感染性疾患を効果的に根絶するための再感染(SIRSモデル)の可能性がある場合にも有効であることを示す。

Containment of epidemic outbreaks entails great societal and economic costs. Cost-effective containment strategies rely on efficiently identifying infected individuals, making the best possible use of the available testing resources. Therefore, quickly identifying the optimal testing strategy is of critical importance. Here, we demonstrate that machine learning can be used to identify which individuals are most beneficial to test, automatically and dynamically adapting the testing strategy to the characteristics of the disease outbreak. Specifically, we simulate an outbreak using the archetypal susceptible-infectious-recovered (SIR) model and we use data about the first confirmed cases to train a neural network that learns to make predictions about the rest of the population. Using these prediction, we manage to contain the outbreak more effectively and more quickly than with standard approaches. Furthermore, we demonstrate how this method can be used also when there is a possibility of reinfection (SIRS model) to efficiently eradicate an endemic disease.
翻訳日:2022-09-22 03:30:40 公開日:2020-11-23
# IoTシステムにおけるガウス過程回帰のためのデータ支援センシング

Data-aided Sensing for Gaussian Process Regression in IoT Systems ( http://arxiv.org/abs/2011.11725v1 )

ライセンス: Link先を確認
Jinho Choi(参考訳) 本稿では,インターネット・オブ・シングシステムにおいて,センサから収集したデータセットを学習するために用いられるガウス過程回帰法に対して,帯域幅の制限された効率的なデータ収集を行う。 我々は,少数のセンサがアップロードした少数の計測データから,ガウス過程回帰とデータ支援センシングを用いたセンサ計測の補間に焦点をあてる。 アクティブなセンサ選択により,データ支援センシングを用いたガウス過程の回帰は,ランダム選択と比べ,完全なデータセットを適切に推定できることが示されている。 マルチチャネルALOHAでは、センサが計測の予測のフィードバックを得られる場合、その測定値と予測値を比較することで、各センサがアップロードするか否かを判断できるように、分散選択的アップロードのためにデータアシストセンシングが一般化される。 数値計算により,従来のマルチチャネルALOHAと同等のアップロード確率を持つ場合と比較して,ガウス過程の回帰をデータ支援センシングにより改善できることが示された。

In this paper, for efficient data collection with limited bandwidth, data-aided sensing is applied to Gaussian process regression that is used to learn data sets collected from sensors in Internet-of-Things systems. We focus on the interpolation of sensors' measurements from a small number of measurements uploaded by a fraction of sensors using Gaussian process regression with data-aided sensing. Thanks to active sensor selection, it is shown that Gaussian process regression with data-aided sensing can provide a good estimate of a complete data set compared to that with random selection. With multichannel ALOHA, data-aided sensing is generalized for distributed selective uploading when sensors can have feedback of predictions of their measurements so that each sensor can decide whether or not it uploads by comparing its measurement with the predicted one. Numerical results show that modified multichannel ALOHA with predictions can help improve the performance of Gaussian process regression with data-aided sensing compared to conventional multichannel ALOHA with equal uploading probability.
翻訳日:2022-09-22 03:30:24 公開日:2020-11-23
# 因果グラフネットによる不確かさ下での生活評価

Remaining Useful Life Estimation Under Uncertainty with Causal GraphNets ( http://arxiv.org/abs/2011.11740v1 )

ライセンス: Link先を確認
Charilaos Mylonas and Eleni Chatzi(参考訳) 本研究では,時系列モデルの構築と学習のための新しいアプローチを提案し,非等間隔観測による大規模時系列学習の問題に対処し,同時に複数のスケールにまたがる興味のある特徴を持つ可能性を示した。 提案手法は,非定常確率時系列予測モデルの構築に適しており,シミュレーション確率分解データセットと実世界加速寿命試験データセットを用いて実効性を示す。 提案手法はグラフネットに基づくもので, 生の観測ではなく, 状態ベクトルのレベルでのシステム進化を記述するモデルとして暗黙的に学習する。 提案手法は, 時間的畳み込み特徴抽出ヘッド (RNN-tCNN) を用いた再帰的ネットワークと比較し, 検討した問題文脈に対して有効な代替手段となる。 最後に, 確率分布を学習するための再パラメータ化勾配の計算の最近の進歩を生かして, 残余の生活予測よりもガンマ分布として予測の不確実性を表現する単純な手法を用いる。

In this work, a novel approach for the construction and training of time series models is presented that deals with the problem of learning on large time series with non-equispaced observations, which at the same time may possess features of interest that span multiple scales. The proposed method is appropriate for constructing predictive models for non-stationary stochastic time series.The efficacy of the method is demonstrated on a simulated stochastic degradation dataset and on a real-world accelerated life testing dataset for ball-bearings. The proposed method, which is based on GraphNets, implicitly learns a model that describes the evolution of the system at the level of a state-vector rather than of a raw observation. The proposed approach is compared to a recurrent network with a temporal convolutional feature extractor head (RNN-tCNN) which forms a known viable alternative for the problem context considered. Finally, by taking advantage of recent advances in the computation of reparametrization gradients for learning probability distributions, a simple yet effective technique for representing prediction uncertainty as a Gamma distribution over remaining useful life predictions is employed.
翻訳日:2022-09-22 03:24:30 公開日:2020-11-23
# SDSSにおける二重核銀河の検出

Detection of Double-Nuclei Galaxies in SDSS ( http://arxiv.org/abs/2011.12177v1 )

ライセンス: Link先を確認
Bhattacharya, Anwesh, Saha, Snehanshu, Das, Mousumi(参考訳) 銀河の相互作用と融合が、宇宙の構造の階層的成長に重要な役割を果たすことは、現在よく確立されている。 銀河の融合は楕円銀河や大きな円盤銀河の形成につながり、恒星の形成や核活動を通じて銀河の進化を促進する。 融合の間、個々の銀河の核は接近し、最終的に二重核銀河を形成する。 融合は一般的であるが、二重核銀河(DNG)の検出は稀で、かなりセレンディピティーである。 それらの検出は、超大質量ブラックホール(SMBH)双対、二重活動銀河核(DAGN)の形成と関連するフィードバック効果を理解するのに役立つため、非常に重要である。 したがって、二重核銀河の発見のためのデータの自動的・システム的調査が必要である。 我々は,Sloan Digital Sky Survey (SDSS) を対象カタログとして,銀河の所定の画像がDNGの特徴を持つかどうかを検出する新しいアルゴリズム "Gothic" (Graph-bOosTed Iterated HIll Climbing) を導入した(ASCLエントリ2707)。 我々はSDSSのStripe 82領域から10万個の銀河のランダムなサンプルを用いてこのアルゴリズムを検証し、入力カタログの慎重な選択で最大4.2%の検出率を得た。

It is now well established that galaxy interactions and mergers play a crucial role in the hierarchical growth of structure in our universe. Galaxy mergers can lead to the formation of elliptical galaxies and larger disk galaxies, as well as drive galaxy evolution through star formation and nuclear activity. During mergers, the nuclei of the individual galaxies come closer and finally form a double nuclei galaxy. Although mergers are common, the detection of double-nuclei galaxies (DNGs) is rare and fairly serendipitous. Their detection is very important as their properties can help us understand the formation of supermassive black hole (SMBH) binaries, dual active galactic nuclei (DAGN), and the associated feedback effects. There is thus a need for an automatic/systematic survey of data for the discovery of double nuclei galaxies. Using the Sloan digital sky survey (SDSS) as the target catalog, we have introduced a novel algorithm "Gothic" (Graph-bOosTed iterated HIll Climbing) that detects whether a given image of a galaxy has characteristic features of a DNG (ASCL entry 2707). We have tested the algorithm on a random sample of 100,000 galaxies from the Stripe 82 region in SDSS and obtained a maximum detection rate of 4.2% with a careful choice of the input catalog.
翻訳日:2022-09-22 03:23:57 公開日:2020-11-23
# デバイスローカライズとトラッキングのための隣接oblivious learning(noble)

Neighbor Oblivious Learning (NObLe) for Device Localization and Tracking ( http://arxiv.org/abs/2011.14954v1 )

ライセンス: Link先を確認
Zichang Liu, Li Chou, Anshumali Shrivastava(参考訳) デバイス上のローカライゼーションとトラッキングは、さまざまなアプリケーションにとってますます重要になっている。 急速に増加する位置データとともに、機械学習(ml)技術が広く採用されている。 主な理由は、ML推論が同等の精度でGPSクエリよりもはるかにエネルギー効率が良く、特定のシナリオではGPS信号の信頼性が極めて低いためである。 この目的のために、ディープニューラルネットワークのようないくつかの技術が提案されている。 しかし、トレーニング中は、フロアプランのような既知の構造情報を組み込んだものはほとんどなく、特に屋内や他の構造環境において有用である。 本稿では,これらの重要な構造情報を活用できないため,最先端のシステムでは精度が著しく低下すると主張する。 構造的特性が明示的に利用できないため、ほとんどの構造的学習アプローチが適用できないため、この問題は非常に難しい。 入力空間と出力空間の両方がリッチ構造を含む可能性があることを考慮し、多様体射影からの直観を通して方法を研究する。 既存の多様体に基づく学習手法はユークリッド距離などの周辺情報を積極的に活用しているのに対し,本手法は近接学習(NObLe)を行う。 WiFiによる指紋位置測定と慣性計測ユニット(IMU)によるデバイストラッキングを含む2つの直交的アプリケーションに対するアプローチの有効性を実証し,最先端の予測精度を大幅に向上させることを示す。

On-device localization and tracking are increasingly crucial for various applications. Along with a rapidly growing amount of location data, machine learning (ML) techniques are becoming widely adopted. A key reason is that ML inference is significantly more energy-efficient than GPS query at comparable accuracy, and GPS signals can become extremely unreliable for specific scenarios. To this end, several techniques such as deep neural networks have been proposed. However, during training, almost none of them incorporate the known structural information such as floor plan, which can be especially useful in indoor or other structured environments. In this paper, we argue that the state-of-the-art-systems are significantly worse in terms of accuracy because they are incapable of utilizing these essential structural information. The problem is incredibly hard because the structural properties are not explicitly available, making most structural learning approaches inapplicable. Given that both input and output space potentially contain rich structures, we study our method through the intuitions from manifold-projection. Whereas existing manifold based learning methods actively utilized neighborhood information, such as Euclidean distances, our approach performs Neighbor Oblivious Learning (NObLe). We demonstrate our approach's effectiveness on two orthogonal applications, including WiFi-based fingerprint localization and inertial measurement unit(IMU) based device tracking, and show that it gives significant improvement over state-of-art prediction accuracy.
翻訳日:2022-09-22 03:22:53 公開日:2020-11-23
# Gonogo: 感度実験を実行、分析、シミュレーションするためのテストメソッドのR実装

Gonogo: An R Implementation of Test Methods to Perform, Analyze and Simulate Sensitivity Experiments ( http://arxiv.org/abs/2011.11177v1 )

ライセンス: Link先を確認
Paul A. Roediger(参考訳) この研究はgonogo.Rに含まれる一連のR関数のドキュメントを提供する。 この機能は、感受性テスト実践者や研究者に、2つの反応と1つの刺激レベル(薬の量、投下高さ、速度など)を含む様々な感度実験を実行し、分析し、シミュレートする能力を提供する。 現代のNeyerおよび3pod適応プロシージャ、およびBrucetonとLanglieが含まれている。 後者の2つのベンチマーク手順は、一般化されたアップダウン変換応答規則に従って実行される。 各手順は三相実験のフェーズ1に指定される。 phase-oneの目標は重複するデータを達成することである。 2つの追加(およびオプション)のリファインメントフェーズは、d-optimal criteriaとrobbins-monro-joseph手順を利用している。 2つの精錬フェーズの目標は,潜伏応答分布の中央値と尾値の近傍でそれぞれ試験を行うことである。

This work provides documentation for a suite of R functions contained in gonogo.R. The functions provide sensitivity testing practitioners and researchers with an ability to conduct, analyze and simulate various sensitivity experiments involving binary responses and a single stimulus level (e.g., drug dosage, drop height, velocity, etc.). Included are the modern Neyer and 3pod adaptive procedures, as well as the Bruceton and Langlie. The latter two benchmark procedures are capable of being performed according to generalized up-down transformed-response rules. Each procedure is designated phase-one of a three-phase experiment. The goal of phase-one is to achieve overlapping data. The two additional (and optional) refinement phases utilize the D-optimal criteria and the Robbins-Monro-Joseph procedure. The goals of the two refinement phases are to situate testing in the vicinity of the median and tails of the latent response distribution, respectively.
翻訳日:2022-09-22 03:22:29 公開日:2020-11-23
# マルチコンパートメント磁気共鳴フィンガープリントへのオフザグリッドアプローチ

An off-the-grid approach to multi-compartment magnetic resonance fingerprinting ( http://arxiv.org/abs/2011.11193v1 )

ライセンス: Link先を確認
Mohammad Golbabaee and Clarice Poon(参考訳) 画像ボクセル内の複数の組織区画を分離する新しい数値的手法を提案し,磁気共鳴指紋法(mrf)による核磁気共鳴特性と混合分画を定量的に推定する。 組織数, タイプ, 定量的性質は分かっていないが, ボクセル内でのBloch磁化反応を線形に混合したスパースコンパートメントで構成されていると考えられる。 多次元NMR特性の細粒度離散化は、(離散)スパース近似の数値的手法のスケーラビリティと精度に挑戦できる、大きく、一貫性の高いMRF辞書を生成する。 これらの問題を解決するために,連続(非離散化)ブロッホ応答モデルを用いたスパース近似のためのスパース群ラッソ正規化を拡張したオフ・ザ・グリッド手法を提案する。 さらに、非線形および非解析的ブロッホ応答をニューラルネットワークにより近似し、提案アルゴリズムによる勾配の効率的なバックプロパゲーションを可能にする。 シミュレーションおよび生体内健康脳MRFデータを用いて,ベースラインマルチコンパートメントMRF法と比較して提案手法の有効性を実証した。

We propose a novel numerical approach to separate multiple tissue compartments in image voxels and to estimate quantitatively their nuclear magnetic resonance (NMR) properties and mixture fractions, given magnetic resonance fingerprinting (MRF) measurements. The number of tissues, their types or quantitative properties are not a-priori known, but the image is assumed to be composed of sparse compartments with linearly mixed Bloch magnetisation responses within voxels. Fine-grid discretisation of the multi-dimensional NMR properties creates large and highly coherent MRF dictionaries that can challenge scalability and precision of the numerical methods for (discrete) sparse approximation. To overcome these issues, we propose an off-the-grid approach equipped with an extended notion of the sparse group lasso regularisation for sparse approximation using continuous (non-discretised) Bloch response models. Further, the nonlinear and non-analytical Bloch responses are approximated by a neural network, enabling efficient back-propagation of the gradients through the proposed algorithm. Tested on simulated and in-vivo healthy brain MRF data, we demonstrate effectiveness of the proposed scheme compared to the baseline multicompartment MRF methods.
翻訳日:2022-09-22 03:22:14 公開日:2020-11-23
# LINDT: ローカル適応による負のフェデレーション学習に対処する

LINDT: Tackling Negative Federated Learning with Local Adaptation ( http://arxiv.org/abs/2011.11160v1 )

ライセンス: Link先を確認
Hong Lin, Lidan Shou, Ke Chen, Gang Chen, Sai Wu(参考訳) Federated Learning(FL)は有望な分散学習パラダイムであり、多くのデータ所有者(クライアントとも呼ばれる)が、各クライアントのデータを公開することなく、共同で共有モデルを学ぶことができる。 しかし、負のフェデレート学習(nfl)と呼ばれる状態の中、flは正しく進行しない可能性がある。 本稿では、負のフェデレーション学習の問題に対処する。 NFLの厳密な定義を定式化し、その本質的な原因を分析する。 NFLをリアルタイムに処理するための新しいフレームワーク LINDT を提案する。 このフレームワークは、NFLの検出とリカバリのために、あらゆるニューラルネットワークベースのFLシステムで動作する可能性がある。 具体的には,サーバからNFLを検出するメトリクスを紹介する。 nflのリカバリ時には、各クライアントのローカルデータに対するフェデレーションモデルへの適応を、レイヤごとに相互に結合したデュアルモデルを学ぶことによって実現している。 実験の結果,nflの様々なシナリオにおいて,提案手法により局所データに対するflの性能が著しく向上することが示された。

Federated Learning (FL) is a promising distributed learning paradigm, which allows a number of data owners (also called clients) to collaboratively learn a shared model without disclosing each client's data. However, FL may fail to proceed properly, amid a state that we call negative federated learning (NFL). This paper addresses the problem of negative federated learning. We formulate a rigorous definition of NFL and analyze its essential cause. We propose a novel framework called LINDT for tackling NFL in run-time. The framework can potentially work with any neural-network-based FL systems for NFL detection and recovery. Specifically, we introduce a metric for detecting NFL from the server. On occasion of NFL recovery, the framework makes adaptation to the federated model on each client's local data by learning a Layer-wise Intertwined Dual-model. Experiment results show that the proposed approach can significantly improve the performance of FL on local data in various scenarios of NFL.
翻訳日:2022-09-22 03:14:05 公開日:2020-11-23
# cocoi: 汎用的非平面プッシュのためのコンタクトアウェアオンラインコンテキスト推論

COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing ( http://arxiv.org/abs/2011.11270v1 )

ライセンス: Link先を確認
Zhuo Xu, Wenhao Yu, Alexander Herzog, Wenlong Lu, Chuyuan Fu, Masayoshi Tomizuka, Yunfei Bai, C. Karen Liu, Daniel Ho(参考訳) 一般的なコンタクトリッチな操作問題は、複雑なコンタクト物理を理解するのが難しいため、ロボット工学における長年の課題である。 深部強化学習(RL)はロボット操作タスクを解く大きな可能性を示している。 しかし、既存のRLポリシーは様々な動的特性を持つ環境への適応性に制限があるため、多くのコンタクトリッチな操作タスクの解決に重要である。 本研究では,コンタクト・リッチなインタラクションを用いてオンラインのダイナミクス特性のコンテキスト埋め込みをエンコードする深層rl手法であるコンタクト・アウェア・オンラインコンテキスト推論(cocoi)を提案する。 本研究では,ロボットが単眼カメラ画像と手首力トルクセンサを読み取ることで,物体を直立させながら目標位置まで押し上げる,新規かつ挑戦的な非平面プッシュタスクに基づいて,この手法について検討する。 我々は、シミュレーションにおけるCOCOIの幅広い設定と力学特性、および実際のロボット上でのシミュレート・トゥ・リアル・トランスファーシナリオの実証実験を行った(ビデオ:https://youtu.be/nrmJYksh1Kc)。

General contact-rich manipulation problems are long-standing challenges in robotics due to the difficulty of understanding complicated contact physics. Deep reinforcement learning (RL) has shown great potential in solving robot manipulation tasks. However, existing RL policies have limited adaptability to environments with diverse dynamics properties, which is pivotal in solving many contact-rich manipulation tasks. In this work, we propose Contact-aware Online COntext Inference (COCOI), a deep RL method that encodes a context embedding of dynamics properties online using contact-rich interactions. We study this method based on a novel and challenging non-planar pushing task, where the robot uses a monocular camera image and wrist force torque sensor reading to push an object to a goal location while keeping it upright. We run extensive experiments to demonstrate the capability of COCOI in a wide range of settings and dynamics properties in simulation, and also in a sim-to-real transfer scenario on a real robot (Video: https://youtu.be/nrmJYksh1Kc)
翻訳日:2022-09-22 03:13:28 公開日:2020-11-23
# 接続性ベクトル:永続ホモロジーの有限次元ベクトル表現

The Interconnectivity Vector: A Finite-Dimensional Vector Representation of Persistent Homology ( http://arxiv.org/abs/2011.11579v1 )

ライセンス: Link先を確認
Megan Johnson, Jae-Hun Jung(参考訳) Persistent Homology (PH) はデータセットの基盤構造を研究する上で有用なツールである。 パーシステンスダイアグラム(pds)は、2次元の点の多重集合であり、データセットのphを調べることによって得られる情報の簡潔な要約である。 しかし、PDは典型的な機械学習ワークフローに組み込むのは難しい。 この目的のために、PDを表す主要な方法としてカーネル法とベクトル化法がある。 本稿では,Bag-of-Words (BoW) から適応したPDの表現である相互接続ベクトルと呼ばれる新しい有限次元ベクトルを提案する。 この新しい表現は、データセットのホモロジー的特徴間の接続を示すために構築される。 この相互接続ベクトルの初期定義は不安定であることが証明されるが、ベクトルの安定化バージョンを導入し、入力の小さな摂動に関してその安定性を証明する。 提案したベクトル化の両バージョンを複数のデータセットで評価し,高い判別力を示す。

Persistent Homology (PH) is a useful tool to study the underlying structure of a data set. Persistence Diagrams (PDs), which are 2D multisets of points, are a concise summary of the information found by studying the PH of a data set. However, PDs are difficult to incorporate into a typical machine learning workflow. To that end, two main methods for representing PDs have been developed: kernel methods and vectorization methods. In this paper we propose a new finite-dimensional vector, called the interconnectivity vector, representation of a PD adapted from Bag-of-Words (BoW). This new representation is constructed to demonstrate the connections between the homological features of a data set. This initial definition of the interconnectivity vector proves to be unstable, but we introduce a stabilized version of the vector and prove its stability with respect to small perturbations in the inputs. We evaluate both versions of the presented vectorization on several data sets and show their high discriminative power.
翻訳日:2022-09-22 03:12:51 公開日:2020-11-23
# Attentional-GCNN: 遺伝性自律走行車症例に対する適応的歩行者軌道予測

Attentional-GCNN: Adaptive Pedestrian Trajectory Prediction towards Generic Autonomous Vehicle Use Cases ( http://arxiv.org/abs/2011.11190v1 )

ライセンス: Link先を確認
Kunming Li, Stuart Eiffert, Mao Shan, Francisco Gomez-Donoso, Stewart Worrall and Eduardo Nebot(参考訳) 共有歩行者環境における自律走行車両ナビゲーションは、将来の群衆の動きを正確かつ最小限の遅延で予測する能力を必要とする。 予測の不確実性を理解することも重要である。 しかし、既存のアプローチは生成モデルの繰り返しサンプリングによってのみ不確実性を推定できる。 さらに、現在の予測モデルは、空中ビューを使用して群衆の完全な可観測性を前提としたデータセットに基づいて訓練されている。 これらは一般的に、車両の観点から実世界の用途を表すものではなく、搭載センサーが遮蔽されたときに不確実性の境界が過小評価される可能性がある。 時空間グラフを用いた動き予測における先行研究から着想を得た新しいグラフ畳み込みニューラルネット(GCNN)ベースのアプローチであるAttentional-GCNNを提案し,グラフの端に注意重みを割り当てることで,群衆の歩行者間の暗黙的な相互作用に関する情報を集約する。 我々のモデルは、確率分布を出力するか、より早い決定論的予測を訓練することができ、速度または不確実性境界の精度が要求される自動運転車のユースケースに適用可能である。 予測モデルのトレーニングをさらに改善するため,実世界利用を表すインテリジェントな車両プラットフォームから収集した自動ラベル付き歩行者データセットを提案する。 提案手法は,多数のデータセットを用いた実験により,10%平均変位誤差(ADE)と12%最終変位誤差(FDE)を高速な推論速度で向上することを示す。

Autonomous vehicle navigation in shared pedestrian environments requires the ability to predict future crowd motion both accurately and with minimal delay. Understanding the uncertainty of the prediction is also crucial. Most existing approaches however can only estimate uncertainty through repeated sampling of generative models. Additionally, most current predictive models are trained on datasets that assume complete observability of the crowd using an aerial view. These are generally not representative of real-world usage from a vehicle perspective, and can lead to the underestimation of uncertainty bounds when the on-board sensors are occluded. Inspired by prior work in motion prediction using spatio-temporal graphs, we propose a novel Graph Convolutional Neural Network (GCNN)-based approach, Attentional-GCNN, which aggregates information of implicit interaction between pedestrians in a crowd by assigning attention weight in edges of the graph. Our model can be trained to either output a probabilistic distribution or faster deterministic prediction, demonstrating applicability to autonomous vehicle use cases where either speed or accuracy with uncertainty bounds are required. To further improve the training of predictive models, we propose an automatically labelled pedestrian dataset collected from an intelligent vehicle platform representative of real-world use. Through experiments on a number of datasets, we show our proposed method achieves an improvement over the state of art by 10% Average Displacement Error (ADE) and 12% Final Displacement Error (FDE) with fast inference speeds.
翻訳日:2022-09-22 03:07:04 公開日:2020-11-23
# ディープラーニングを用いた完全自動化産業監視に向けた産業オブジェクト, 機械部分, 欠陥認識 多レベルvgg19の場合

Industrial object, machine part and defect recognition towards fully automated industrial monitoring employing deep learning. The case of multilevel VGG19 ( http://arxiv.org/abs/2011.11305v1 )

ライセンス: Link先を確認
Ioannis D. Apostolopoulos, Mpesiana Tzani(参考訳) 現代の産業は、商品の自動生産を監視する現代的なソリューションを必要としている。 技術システムや機械の機械部品の機能をスマートに監視することは、完全な自動生産プロセスにおいて必須である。 ディープラーニングは、リアルタイムオブジェクト検出や他のタスクを可能にしつつも、欠陥検出と産業オブジェクト認識のための特別に設計された畳み込みニューラルネットワークの有効性についてはほとんど研究されていない。 本研究では, 欠陥材料, 工業用工具, エンジン部品を含む産業関連データセットを6種類使用し, パターン認識の特化モデルの構築を目指した。 最近のVirtual Geometry Group(VGG)ネットワークの成功に触発されて,より局所的かつグローバルな特徴抽出を可能にするMultipath VGG19という改良版を提案する。 実験は従来のVGG19に対するMVGG19の有効性を検証した。 具体的には、6つの画像データセットのうち5つで上位分類性能が達成され、平均分類改善は6.95%であった。

Modern industry requires modern solutions for monitoring the automatic production of goods. Smart monitoring of the functionality of the mechanical parts of technology systems or machines is mandatory for a fully automatic production process. Although Deep Learning has been advancing, allowing for real-time object detection and other tasks, little has been investigated about the effectiveness of specially designed Convolutional Neural Networks for defect detection and industrial object recognition. In the particular study, we employed six publically available industrial-related datasets containing defect materials and industrial tools or engine parts, aiming to develop a specialized model for pattern recognition. Motivated by the recent success of the Virtual Geometry Group (VGG) network, we propose a modified version of it, called Multipath VGG19, which allows for more local and global feature extraction, while the extra features are fused via concatenation. The experiments verified the effectiveness of MVGG19 over the traditional VGG19. Specifically, top classification performance was achieved in five of the six image datasets, while the average classification improvement was 6.95%.
翻訳日:2022-09-22 03:06:40 公開日:2020-11-23
# SCGAN: ジェネレーティブ・ディバイサル・ネットワークを用いた鮮度マップ誘導カラー化

SCGAN: Saliency Map-guided Colorization with Generative Adversarial Network ( http://arxiv.org/abs/2011.11377v1 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Kwok-Wai Cheung, Wing-Yin Yu, Yasar Abbas Ur Rehman(参考訳) グレースケールの写真が与えられた場合、カラー化システムは視覚的に可視なカラフルな画像を推定する。 従来の手法では、しばしば意味論を使ってグレースケールの画像を彩色する。 しかし、これらの方法では、分類意味情報のみを埋め込んで、最終色化画像に意味的混乱と色出血をもたらす。 これらの問題に対処するため,生成適応ネットワーク(SCGAN)フレームワークによる完全自動サリエンシマップ誘導色付けを提案する。 カラー化とサリエンシーマップを共同で予測し、カラー化画像における意味的混乱と色出血を最小限に抑える。 事前学習したVGG-16-Grayネットワークのグローバルな特徴をカラー化エンコーダに埋め込むため、提案したSCGANは最先端の手法よりもはるかに少ないデータでトレーニングし、知覚的に合理的なカラー化を実現することができる。 さらに,新たなサリエンシーマップに基づく誘導手法を提案する。 カラー化デコーダのブランチを使用して、サリエンシマップをプロキシターゲットとして予測する。 また,2つの階層的判別器をそれぞれ生成した彩色図と塩分図に活用し,視覚知覚性能の向上を図る。 提案システムはimagenet検証セット上で評価される。 実験の結果,SCGANは最先端技術よりも,より合理的なカラー化画像を生成することができた。

Given a grayscale photograph, the colorization system estimates a visually plausible colorful image. Conventional methods often use semantics to colorize grayscale images. However, in these methods, only classification semantic information is embedded, resulting in semantic confusion and color bleeding in the final colorized image. To address these issues, we propose a fully automatic Saliency Map-guided Colorization with Generative Adversarial Network (SCGAN) framework. It jointly predicts the colorization and saliency map to minimize semantic confusion and color bleeding in the colorized image. Since the global features from pre-trained VGG-16-Gray network are embedded to the colorization encoder, the proposed SCGAN can be trained with much less data than state-of-the-art methods to achieve perceptually reasonable colorization. In addition, we propose a novel saliency map-based guidance method. Branches of the colorization decoder are used to predict the saliency map as a proxy target. Moreover, two hierarchical discriminators are utilized for the generated colorization and saliency map, respectively, in order to strengthen visual perception performance. The proposed system is evaluated on ImageNet validation set. Experimental results show that SCGAN can generate more reasonable colorized images than state-of-the-art techniques.
翻訳日:2022-09-22 03:06:21 公開日:2020-11-23
# マルチタスク・ラーニングによる人的定住状況の回帰と地域気候ゾーンの分類

Multi-task Learning for Human Settlement Extent Regression and Local Climate Zone Classification ( http://arxiv.org/abs/2011.11452v1 )

ライセンス: Link先を確認
Chunping Qiu, Lukas Liebel, Lloyd H. Hughes, Michael Schmitt, Marco K\"orner, and Xiao Xiang Zhu(参考訳) HSE(Human Settlement Extent)とLCZ(Local Climate Zone)はどちらも持続可能な都市開発や都市ヒートアイランド(UHI)研究に欠かせない情報源である。 リモートセンシング(rs)とディープラーニング(dl)に基づく分類アプローチは、グローバルマッピングの可能性を提供することで重要な役割を果たす。 しかしながら、ほとんどの取り組みは2つのスキームのうちの1つにのみ焦点を当てている。 このことは、学習した機能を両方の関連するタスクに活用できるため、不要な冗長性につながる。 本稿では,HSE回帰とLCZ分類において,マルチタスク学習(MTL)の概念を初めて導入する。 我々は,MTLフレームワークを提案し,共通特徴学習のためのバックボーンネットワーク,タスク固有の特徴学習のためのアテンションモジュール,両課題のバランスをとる重み付け戦略からなるエンドツーエンド畳み込みニューラルネットワーク(CNN)を開発した。 また,HSE予測をLCZ分類の先行として活用して精度を高めることを提案する。 MTLアプローチは、世界中の13都市のSentinel-2データで広範囲にテストされた。 その結果、このフレームワークは両方のタスクに競争力のあるソリューションを提供することができた。

Human Settlement Extent (HSE) and Local Climate Zone (LCZ) maps are both essential sources, e.g., for sustainable urban development and Urban Heat Island (UHI) studies. Remote sensing (RS)- and deep learning (DL)-based classification approaches play a significant role by providing the potential for global mapping. However, most of the efforts only focus on one of the two schemes, usually on a specific scale. This leads to unnecessary redundancies, since the learned features could be leveraged for both of these related tasks. In this letter, the concept of multi-task learning (MTL) is introduced to HSE regression and LCZ classification for the first time. We propose a MTL framework and develop an end-to-end Convolutional Neural Network (CNN), which consists of a backbone network for shared feature learning, attention modules for task-specific feature learning, and a weighting strategy for balancing the two tasks. We additionally propose to exploit HSE predictions as a prior for LCZ classification to enhance the accuracy. The MTL approach was extensively tested with Sentinel-2 data of 13 cities across the world. The results demonstrate that the framework is able to provide a competitive solution for both tasks.
翻訳日:2022-09-22 03:05:58 公開日:2020-11-23
# ロボット触覚シミュレーションのための粒子の弾性相互作用

Elastic Interaction of Particles for Robotic Tactile Simulation ( http://arxiv.org/abs/2011.11528v1 )

ライセンス: Link先を確認
Yikai Wang, Wenbing Huang, Bin Fang, Fuchun Sun(参考訳) 触覚センシングは、ロボットの知覚と操作において重要な役割を果たす。 データ収集の現実世界の限界を克服するために、仮想環境における触覚応答をシミュレートすることはロボット研究の欲望の方向である。 既存のほとんどの研究は、触覚センサを剛性多体としてモデル化しており、触覚センサの弾性特性を反映するだけでなく、2つの物体間の微細な物理的相互作用を特徴づけることができない。 本稿では,触覚エミュレーションのための新しいフレームワークであるElastic Interaction of Particles (EIP)を提案する。 中心となるEIPは、触覚センサを座標粒子のグループとしてモデル化し、弾性理論を適用して接触過程における粒子の変形を調節する。 EIPの実装は、既存の物理エンジンに頼ることなく、ゼロから行われる。 触覚データを用いたロボット知覚と触覚-視覚融合による3次元幾何学的再構成の2つの応用において,提案手法の有効性を検証する実験を行った。 ロボット触覚シミュレーションのための新しい静脈を開き、下流の様々なロボットタスクに寄与することができる。

Tactile sensing plays an important role in robotic perception and manipulation. To overcome the real-world limitations of data collection, simulating tactile response in virtual environment comes as a desire direction of robotic research. Most existing works model the tactile sensor as a rigid multi-body, which is incapable of reflecting the elastic property of the tactile sensor as well as characterizing the fine-grained physical interaction between two objects. In this paper, we propose Elastic Interaction of Particles (EIP), a novel framework for tactile emulation. At its core, EIP models the tactile sensor as a group of coordinated particles, and the elastic theory is applied to regulate the deformation of particles during the contact process. The implementation of EIP is conducted from scratch, without resorting to any existing physics engine. Experiments to verify the effectiveness of our method have been carried out on two applications: robotic perception with tactile data and 3D geometric reconstruction by tactile-visual fusion. It is possible to open up a new vein for robotic tactile simulation, and contribute to various downstream robotic tasks.
翻訳日:2022-09-22 03:05:37 公開日:2020-11-23
# RISE-SLAM: SLAMのためのリソース対応逆シュミット推定器

RISE-SLAM: A Resource-aware Inverse Schmidt Estimator for SLAM ( http://arxiv.org/abs/2011.11730v1 )

ライセンス: Link先を確認
Tong Ke, Kejian J. Wu, and Stergios I. Roumeliotis(参考訳) 本稿では,視覚-慣性同時ローカライゼーションとマッピング(SLAM)を行うRISE-SLAMアルゴリズムを提案する。 特に、リアルタイム操作を達成するために、既存のアプローチでは、事前に見積もられた状態が完全に知られていると仮定されることが多い。 その代わり、状態ベクトルの大きさと二次的メモリ要求を線形に処理するschmidt-kalmanフィルタのアイデアに基づき、線形メモリ要求と調整可能な(線形な)処理コストを持つ情報領域における新しい一貫した近似手法を導出する。 特に、リソースを意識した逆シュミット推定器(RISE)は、計算効率のトレードオフ推定精度を実現する。 さらに,探索段階と再局在段階のSLAMシステムの要求に対処するために,効率を保ちながら精度を最大化するために,RISEの異なる構成(状態数と順序の点で)を採用する。 最後に、提案したRISE-SLAMアルゴリズムを公開データセット上で評価し、その精度と効率の両面において、代替の視覚慣性SLAMシステムと比較して優位性を示す。

In this paper, we present the RISE-SLAM algorithm for performing visual-inertial simultaneous localization and mapping (SLAM), while improving estimation consistency. Specifically, in order to achieve real-time operation, existing approaches often assume previously-estimated states to be perfectly known, which leads to inconsistent estimates. Instead, based on the idea of the Schmidt-Kalman filter, which has processing cost linear in the size of the state vector but quadratic memory requirements, we derive a new consistent approximate method in the information domain, which has linear memory requirements and adjustable (constant to linear) processing cost. In particular, this method, the resource-aware inverse Schmidt estimator (RISE), allows trading estimation accuracy for computational efficiency. Furthermore, and in order to better address the requirements of a SLAM system during an exploration vs. a relocalization phase, we employ different configurations of RISE (in terms of the number and order of states updated) to maximize accuracy while preserving efficiency. Lastly, we evaluate the proposed RISE-SLAM algorithm on publicly-available datasets and demonstrate its superiority, both in terms of accuracy and efficiency, as compared to alternative visual-inertial SLAM systems.
翻訳日:2022-09-22 03:05:00 公開日:2020-11-23
# 中国, イタリア, 日本の多国籍データを用いた胸部CTにおける半監督的学習

Federated Semi-Supervised Learning for COVID Region Segmentation in Chest CT using Multi-National Data from China, Italy, Japan ( http://arxiv.org/abs/2011.11750v1 )

ライセンス: Link先を確認
Dong Yang, Ziyue Xu, Wenqi Li, Andriy Myronenko, Holger R. Roth, Stephanie Harmon, Sheng Xu, Baris Turkbey, Evrim Turkbey, Xiaosong Wang, Wentao Zhu, Gianpaolo Carrafiello, Francesca Patella, Maurizio Cariati, Hirofumi Obinata, Hitoshi Mori, Kaku Tamura, Peng An, Bradford J. Wood, Daguang Xu(参考訳) 新型コロナウイルスの流行により、SARS-CoV-2感染の確実な診断と管理が緊急に必要になった。 補足具として,胸部CTは新型コロナウイルスに特徴的な視覚パターンを明らかにすることができることが示されている。 CT解析を容易にするため,最近の研究はコンピュータ支援による特徴解析と診断に重点を置いており,有望な結果を示している。 しかし、臨床データセンター間のデータのドメインシフトは、学習ベースのモデルをデプロイする際に深刻な課題となる。 本研究では,この課題に対して,フェデレーションとセミ教師付き学習による解決を試みる。 1つのデータセットでモデルをトレーニングし、他の国に適用する場合、パフォーマンスギャップを研究するために、3つの国から1704のスキャンからなる多国籍データベースが採用されている。 専門家の放射線科医は945件の検査を手作業で検査した。 データとアノテーションのばらつきに対処するために、新しいフェデレーション付き半教師付き学習手法を提案し、すべての利用可能なデータ(アノテーションの有無に関わらず)を完全に活用する。 連合学習は機密データ共有の必要性を回避し、データプライバシに関する厳格な規制ポリシーを持つ機関や国にとって有利である。 さらに、半スーパービジョンは分散設定下でのアノテーションの負担を軽減する可能性がある。 提案手法は, モデル重み付けではなく, 従来のデータ共有方式による完全教師付きシナリオと比較して有効であることが示されている。

The recent outbreak of COVID-19 has led to urgent needs for reliable diagnosis and management of SARS-CoV-2 infection. As a complimentary tool, chest CT has been shown to be able to reveal visual patterns characteristic for COVID-19, which has definite value at several stages during the disease course. To facilitate CT analysis, recent efforts have focused on computer-aided characterization and diagnosis, which has shown promising results. However, domain shift of data across clinical data centers poses a serious challenge when deploying learning-based models. In this work, we attempt to find a solution for this challenge via federated and semi-supervised learning. A multi-national database consisting of 1704 scans from three countries is adopted to study the performance gap, when training a model with one dataset and applying it to another. Expert radiologists manually delineated 945 scans for COVID-19 findings. In handling the variability in both the data and annotations, a novel federated semi-supervised learning technique is proposed to fully utilize all available data (with or without annotations). Federated learning avoids the need for sensitive data-sharing, which makes it favorable for institutions and nations with strict regulatory policy on data privacy. Moreover, semi-supervision potentially reduces the annotation burden under a distributed setting. The proposed framework is shown to be effective compared to fully supervised scenarios with conventional data sharing instead of model weight sharing.
翻訳日:2022-09-22 03:04:37 公開日:2020-11-23
# 畳み込みニューラルネットワークを用いた超音波画像からの視床上腱症の自動認識

Automatic Recognition of the Supraspinatus Tendinopathy from Ultrasound Images using Convolutional Neural Networks ( http://arxiv.org/abs/2011.11777v1 )

ライセンス: Link先を確認
Mostafa Jahanifar, Neda Zamani Tajeddin, Meisam Hasani, Babak Shekarchi, Kamran Azema(参考訳) 腱の損傷は, 腱障害, 完全および部分的な皮下断裂, 上垂体腱(SST)が最も脆弱である。 SSTの早期診断は極めて重要であり,超音波画像検査で行うことは困難である。 本稿では,畳み込みニューラルネットワークを用いた自動腱症認識フレームワークを提案し,診断支援を行った。 この枠組みは腱のセグメンテーションと分類の2つの重要な部分を持っている。 テンドンセグメンテーションは、エンコーダ-デコーダアーキテクチャのパラダイムに従い、マルチスケールのエンラギングセルを使用する新しいネットワークNASUNetを通じて行われる。 さらに、特徴抽出エンジンとして異なる基底モデルをサポートする腱症認識のための一般分類パイプラインが提案されている。 ネットワーク入力として, 腱領域の位置情報を含む2つの特徴地図を導入し, 分類ネットワークを空間的に認識した。 腱症認識システムを評価するため、100SST超音波画像からなるデータセットが取得され、磁気共鳴画像により腱症症例が二重検証された。 セグメンテーションと分類の両方のタスクでは、知識の伝達、伝達学習、データ拡張技術を取り入れることで、トレーニングデータの欠如が補償されている。 クロスバリデーション実験では、提案した腱症認識モデルは91%の精度、86.67%の感度、92.86%の特異性を達成し、他のモデルに対する最先端の性能を示している。

Tendon injuries like tendinopathies, full and partial thickness tears are prevalent, and the supraspinatus tendon (SST) is the most vulnerable ones in the rotator cuff. Early diagnosis of SST tendinopathies is of high importance and hard to achieve using ultrasound imaging. In this paper, an automatic tendinopathy recognition framework based on convolutional neural networks has been proposed to assist the diagnosis. This framework has two essential parts of tendon segmentation and classification. Tendon segmentation is done through a novel network, NASUNet, which follows an encoder-decoder architecture paradigm and utilizes a multi-scale Enlarging cell. Moreover, a general classification pipeline has been proposed for tendinopathy recognition, which supports different base models as the feature extractor engine. Two feature maps comprising positional information of the tendon region have been introduced as the network input to make the classification network spatial-aware. To evaluate the tendinopathy recognition system, a data set consisting of 100 SST ultrasound images have been acquired, in which tendinopathy cases are double-verified by magnetic resonance imaging. In both segmentation and classification tasks, lack of training data has been compensated by incorporating knowledge transferring, transfer learning, and data augmentation techniques. In cross-validation experiments, the proposed tendinopathy recognition model achieves 91% accuracy, 86.67% sensitivity, and 92.86% specificity, showing state-of-the-art performance against other models.
翻訳日:2022-09-22 03:04:14 公開日:2020-11-23
# ソフトマックス関数の代替探索

Exploring Alternatives to Softmax Function ( http://arxiv.org/abs/2011.11538v1 )

ライセンス: Link先を確認
Kunal Banerjee, Vishak Prasad C, Rishi Raj Gupta, Karthik Vyas, Anushree H, Biswajit Mishra(参考訳) ソフトマックス関数は、マルチクラス分類、マルチラベル分類、注意機構などの人工ニューラルネットワークで広く使われている。 しかし、その効果は文学でしばしば疑問視される。 対数ソフトマックス損失は球状ファミリーと呼ばれるより一般的な損失関数のクラスに属しており、そのメンバーである対数ソフトマックス損失はおそらくこのクラスにおいて最良の選択肢である。 ソフトマックス関数の判別性を高める別のアプローチでは、ソフトマージンソフトマックス (sm-softmax) が最適な選択肢として提案されている。 本研究では,テイラー・ソフトマックス,SM-ソフトマックス,提案したSM-テイラー・ソフトマックスをソフトマックス関数の代替として検討する。 さらに、バックプロパゲーション中にテイラー・ソフトマックスを有限級数あるいは無限級数とみなすという影響とともに、テイラー・ソフトマックスを10項まで拡大する効果(もともとは2項に拡張することを提案した研究)についても検討する。 画像分類タスクを異なるデータセットで行った結果,sm-taylor softmax関数の構成が通常のsoftmax関数や他の代替関数よりも優れていることが明らかとなった。

Softmax function is widely used in artificial neural networks for multiclass classification, multilabel classification, attention mechanisms, etc. However, its efficacy is often questioned in literature. The log-softmax loss has been shown to belong to a more generic class of loss functions, called spherical family, and its member log-Taylor softmax loss is arguably the best alternative in this class. In another approach which tries to enhance the discriminative nature of the softmax function, soft-margin softmax (SM-softmax) has been proposed to be the most suitable alternative. In this work, we investigate Taylor softmax, SM-softmax and our proposed SM-Taylor softmax, an amalgamation of the earlier two functions, as alternatives to softmax function. Furthermore, we explore the effect of expanding Taylor softmax up to ten terms (original work proposed expanding only to two terms) along with the ramifications of considering Taylor softmax to be a finite or infinite series during backpropagation. Our experiments for the image classification task on different datasets reveal that there is always a configuration of the SM-Taylor softmax function that outperforms the normal softmax function and its other alternatives.
翻訳日:2022-09-22 02:57:14 公開日:2020-11-23
# 制約のない特徴を持つ神経崩壊

Neural collapse with unconstrained features ( http://arxiv.org/abs/2011.11619v1 )

ライセンス: Link先を確認
Dustin G. Mixon, Hans Parshall, Jianzong Pi(参考訳) 神経崩壊は、最近パパヤン、ハン、ドノホによって発見された深層学習における創発的な現象である。 神経崩壊も経験的に発生する,単純な「制約のない特徴モデル」を提案する。 このモデルを研究することで、経験的リスクの展望の観点から、神経崩壊の発生についていくつかの説明を与える。

Neural collapse is an emergent phenomenon in deep learning that was recently discovered by Papyan, Han and Donoho. We propose a simple "unconstrained features model" in which neural collapse also emerges empirically. By studying this model, we provide some explanation for the emergence of neural collapse in terms of the landscape of empirical risk.
翻訳日:2022-09-22 02:56:49 公開日:2020-11-23
# 説明可能な多変量時系列分類:重要な変数と情報的時間間隔への出席を学習するディープニューラルネットワーク

Explainable Multivariate Time Series Classification: A Deep Neural Network Which Learns To Attend To Important Variables As Well As Informative Time Intervals ( http://arxiv.org/abs/2011.11631v1 )

ライセンス: Link先を確認
Tsung-Yu Hsieh, Suhang Wang, Yiwei Sun, Vasant Honavar(参考訳) 時系列データは、さまざまな現実世界のアプリケーションで広く使われており、AIソリューションによってなされた決定を理解し、完全に信頼するための信頼できる、説明可能なモデルを求めている。 多変量時系列データから説明可能な分類器を構築する問題を考える。 このような予測モデルを理解するための重要な基準は、分類に対する時間変化の入力変数の寄与を解明し定量化することである。 そこで我々は,変数の識別と分類器出力を決定する時間間隔を同時に行う,新しいモジュール型畳み込み型特徴抽出・注意機構を提案する。 提案手法は,多変量時系列分類タスクにおいて,最先端のベースライン手法よりも優れていることを示すベンチマークデータセットを用いた広範な実験結果を示す。 本研究の結果,提案手法で同定された変数と時間間隔は,利用可能なドメイン知識に対して意味があることが示されている。

Time series data is prevalent in a wide variety of real-world applications and it calls for trustworthy and explainable models for people to understand and fully trust decisions made by AI solutions. We consider the problem of building explainable classifiers from multi-variate time series data. A key criterion to understand such predictive models involves elucidating and quantifying the contribution of time varying input variables to the classification. Hence, we introduce a novel, modular, convolution-based feature extraction and attention mechanism that simultaneously identifies the variables as well as time intervals which determine the classifier output. We present results of extensive experiments with several benchmark data sets that show that the proposed method outperforms the state-of-the-art baseline methods on multi-variate time series classification task. The results of our case studies demonstrate that the variables and time intervals identified by the proposed method make sense relative to available domain knowledge.
翻訳日:2022-09-22 02:56:44 公開日:2020-11-23
# 教師なし学習のためのアンサンブルと距離に基づく特徴ランキング

Ensemble- and Distance-Based Feature Ranking for Unsupervised Learning ( http://arxiv.org/abs/2011.11679v1 )

ライセンス: Link先を確認
Matej Petkovi\'c, Dragi Kocev, Bla\v{z} \v{S}krlj, Sa\v{s}o D\v{z}eroski(参考訳) 本研究では,教師なし機能ランキングと選択のための2つの新しい手法(グループ)を提案する。 最初のグループは、予測クラスタリングツリーのアンサンブルから計算される特徴ランキングスコア(genie3スコア、ランダムフォレストスコア)を含む。 第2の方法はureliefであり、特徴ランク付けアルゴリズムのリリーフファミリの教師なし拡張である。 26のベンチマークデータセットと5つのベースラインを用いて、Genie3スコア(余分な木のアンサンブルから推定される)とUReliefメソッドの両方が既存の手法より優れており、Genie3は上位機能の予測能力において、全体的な性能が最も優れていることを示す。 さらに,提案手法のハイパーパラメータが性能に与える影響を解析し,genie3スコアにおいて最も効率的なパラメータ構成によって最高品質が達成されることを示す。 最後に,現実に最も関係のあるランキングにおける特徴の所在を探索する方法を提案する。

In this work, we propose two novel (groups of) methods for unsupervised feature ranking and selection. The first group includes feature ranking scores (Genie3 score, RandomForest score) that are computed from ensembles of predictive clustering trees. The second method is URelief, the unsupervised extension of the Relief family of feature ranking algorithms. Using 26 benchmark data sets and 5 baselines, we show that both the Genie3 score (computed from the ensemble of extra trees) and the URelief method outperform the existing methods and that Genie3 performs best overall, in terms of predictive power of the top-ranked features. Additionally, we analyze the influence of the hyper-parameters of the proposed methods on their performance, and show that for the Genie3 score the highest quality is achieved by the most efficient parameter configuration. Finally, we propose a way of discovering the location of the features in the ranking, which are the most relevant in reality.
翻訳日:2022-09-22 02:56:29 公開日:2020-11-23
# 小規模オンラインコースにおける学生のパフォーマンス向上 - 機械学習による介入-

Improving Students Performance in Small-Scale Online Courses -- A Machine Learning-Based Intervention ( http://arxiv.org/abs/2012.01187v1 )

ライセンス: Link先を確認
Sepinoud Azimi, Carmen-Gabriela Popa, and Tatjana Cuci\'c(参考訳) 大規模なオープンオンラインコース(MOOCs)の誕生は、教育の届け方に大きな影響を与えている。 クラスでの伝統的な教育は、いつ、どこで、どのペースで学習しているかを選択したい若い世代にはあまり人気がないように思われる。 そのため、多くの大学は、少なくとも一部は、オンラインでコースを受講している。 しかし、若い世代の学習者にとって非常に魅力的なオンラインコースはコストがかかる。 例えば、これらのコースのドロップアウト率は従来のコースよりも高く、教師との直接の交流が減少すれば、教育者からのタイムリーな指導や介入は少なくなる。 機械学習(ML)ベースのアプローチは、他の領域で驚くべき成功を収めている。 MLベースのテクニックを適用するという既存のスティグマは、限られた量の生成されたデータで小規模のコースを扱う場合、大量のデータを必要とする。 本研究では,オンライン学習管理システムから収集したデータを学生の全体的なパフォーマンスを予測するために活用できるだけでなく,学生のパフォーマンスを高めるためのタイムリーな介入戦略を提案するためにも利用できることを示す。 本研究の結果から,学生の進路を改善させるための効果的な介入戦略が,授業の途中で提案される可能性が示唆された。 また,本研究の成果に基づいて,課題学生の特定や早期介入戦略の提案を支援する支援的教育的ツールを提案する。

The birth of massive open online courses (MOOCs) has had an undeniable effect on how teaching is being delivered. It seems that traditional in class teaching is becoming less popular with the young generation, the generation that wants to choose when, where and at what pace they are learning. As such, many universities are moving towards taking their courses, at least partially, online. However, online courses, although very appealing to the younger generation of learners, come at a cost. For example, the dropout rate of such courses is higher than that of more traditional ones, and the reduced in person interaction with the teachers results in less timely guidance and intervention from the educators. Machine learning (ML) based approaches have shown phenomenal successes in other domains. The existing stigma that applying ML based techniques requires a large amount of data seems to be a bottleneck when dealing with small scale courses with limited amounts of produced data. In this study, we show not only that the data collected from an online learning management system could be well utilized in order to predict students overall performance but also that it could be used to propose timely intervention strategies to boost the students performance level. The results of this study indicate that effective intervention strategies could be suggested as early as the middle of the course to change the course of students progress for the better. We also present an assistive pedagogical tool based on the outcome of this study, to assist in identifying challenging students and in suggesting early intervention strategies.
翻訳日:2022-09-22 02:55:48 公開日:2020-11-23
# 離散構造応答の確率論的モデリングと複合板浸透モデルへの応用

Probabilistic modeling of discrete structural response with application to composite plate penetration models ( http://arxiv.org/abs/2011.11780v1 )

ライセンス: Link先を確認
Anindya Bhaduri, Christopher S. Meyer, John W. Gillespie Jr., Bazle Z. Haque, Michael D. Shields, Lori Graham-Brady(参考訳) 構造物の離散応答は、しばしば重要な確率的関心量である。 例えば、ある構造が崩壊したかどうかなど、バイナリイベントの確率を特定する必要がある。 本研究では、分散グリッドサンプリングと組み合わせた適応型ドメインベース分解・分類法を用いて、そのような離散出力に対する効率的な分類サロゲートモデリングアルゴリズムを開発した。 全てのモデルパラメータに対する出力の単調な振る舞いの仮定は、問題の物理に基づいて、モデル評価の数を減らし、アルゴリズムをより効率的にするのに役立つ。 本稿では, s-2ガラス/sc-15エポキシ複合板の弾道衝撃を受ける確率的浸透応答を生成するための計算フレームワークの開発について述べる。 これにより、衝突速度の関数としての確率的速度応答(pvr)曲線または$v_0-v_{100}$曲線の計算可能生成と、モデルパラメータの関数としての弾道限界速度予測が可能になる。 PVR曲線は、モデル入力パラメータの可変性を取り入れ、衝突速度の関数としてプレートの浸透確率を記述する。

Discrete response of structures is often a key probabilistic quantity of interest. For example, one may need to identify the probability of a binary event, such as, whether a structure has buckled or not. In this study, an adaptive domain-based decomposition and classification method, combined with sparse grid sampling, is used to develop an efficient classification surrogate modeling algorithm for such discrete outputs. An assumption of monotonic behaviour of the output with respect to all model parameters, based on the physics of the problem, helps to reduce the number of model evaluations and makes the algorithm more efficient. As an application problem, this paper deals with the development of a computational framework for generation of probabilistic penetration response of S-2 glass/SC-15 epoxy composite plates under ballistic impact. This enables the computationally feasible generation of the probabilistic velocity response (PVR) curve or the $V_0-V_{100}$ curve as a function of the impact velocity, and the ballistic limit velocity prediction as a function of the model parameters. The PVR curve incorporates the variability of the model input parameters and describes the probability of penetration of the plate as a function of impact velocity.
翻訳日:2022-09-22 02:55:25 公開日:2020-11-23
# 物体中心画像のステッチング

Object-centered image stitching ( http://arxiv.org/abs/2011.11789v1 )

ライセンス: Link先を確認
Charles Herrmann and Chen Wang and Richard Strong Bowen and Emil Keyder and Ramin Zabih(参考訳) 画像縫合は通常、3つのフェーズに分解される: 登録: ソースイメージを共通のターゲット画像と整列する シーム発見: ターゲット画像の各ピクセルが出身するべきソース画像を決定する ブレンディング: シーム上の遷移を円滑にする ブレンディング。 [1]で述べたように、シーム検出フェーズは、ソース画像間の遷移が目立たないピクセル間でシームを配置しようとする。 ここでは、オブジェクトを収穫したり、省略したり、複製したりする際に、このアプローチの最も問題となる障害が発生することを観察する。 そこで我々は,オブジェクト検出の最近の進歩を生かして,この問題に対してオブジェクト中心のアプローチをとる [2,3,4]。 我々は、シーム発見段階で使われるエネルギー関数を変更することで、このタイプの誤差で候補解をペナルティ化する。 これにより、挑戦的な画像のより現実的な縫合結果が得られる。 さらに、これらの手法は、入力データに回復不能な咬合があるかどうかを判定するために使用することができ、また、ステッチングアルゴリズムの出力を評価するのに使用できる簡易な評価基準を提案する。

Image stitching is typically decomposed into three phases: registration, which aligns the source images with a common target image; seam finding, which determines for each target pixel the source image it should come from; and blending, which smooths transitions over the seams. As described in [1], the seam finding phase attempts to place seams between pixels where the transition between source images is not noticeable. Here, we observe that the most problematic failures of this approach occur when objects are cropped, omitted, or duplicated. We therefore take an object-centered approach to the problem, leveraging recent advances in object detection [2,3,4]. We penalize candidate solutions with this class of error by modifying the energy function used in the seam finding stage. This produces substantially more realistic stitching results on challenging imagery. In addition, these methods can be used to determine when there is non-recoverable occlusion in the input data, and also suggest a simple evaluation metric that can be used to evaluate the output of stitching algorithms.
翻訳日:2022-09-22 02:48:00 公開日:2020-11-23
# 混合パラダイムプロセスモデルのコンフォーマンスチェック

Conformance Checking of Mixed-paradigm Process Models ( http://arxiv.org/abs/2011.11551v1 )

ライセンス: Link先を確認
Boudewijn van Dongen, Johannes De Smedt, Claudio Di Ciccio, Jan Mendling(参考訳) 混合パラダイムプロセスモデルは、ペトリネットやDeclareのような手続き的および宣言的表現の強みを統合する。 複雑な振る舞いをコンパクトに捉えることができるので、プロセスマイニングでは特に興味深いです。 プロセスマイニングのための混合パラダイムモデルの拡散に関する重要な研究課題は、対応する適合性検査技術の欠如である。 本稿では,混合パラダイムモデルの絡み合った状態空間を扱う最初のアプローチを考案し,この問題に対処する。 具体的には、アライメントベースのリプレイを使用して状態空間を探索し、手続き的な方法でトレース適合性を計算する。 すべての状態において、宣言的制約は別々に更新され、対応するアクティビティを無効にする。 本手法は,すべての直交宣言制約を尊重することにより,最適なアライメントに向けた効率的なリプレイを実現する。 本手法をProMに実装し,実世界のイベントログを用いて評価を行った。

Mixed-paradigm process models integrate strengths of procedural and declarative representations like Petri nets and Declare. They are specifically interesting for process mining because they allow capturing complex behaviour in a compact way. A key research challenge for the proliferation of mixed-paradigm models for process mining is the lack of corresponding conformance checking techniques. In this paper, we address this problem by devising the first approach that works with intertwined state spaces of mixed-paradigm models. More specifically, our approach uses an alignment-based replay to explore the state space and compute trace fitness in a procedural way. In every state, the declarative constraints are separately updated, such that violations disable the corresponding activities. Our technique provides for an efficient replay towards an optimal alignment by respecting all orthogonal Declare constraints. We have implemented our technique in ProM and demonstrate its performance in an evaluation with real-world event logs.
翻訳日:2022-09-22 02:47:40 公開日:2020-11-23
# exascaleでドメインサイエンスにディープラーニングを統合する

Integrating Deep Learning in Domain Sciences at Exascale ( http://arxiv.org/abs/2011.11188v1 )

ライセンス: Link先を確認
Rick Archibald, Edmond Chow, Eduardo D'Azevedo, Jack Dongarra, Markus Eisenbach, Rocco Febbo, Florent Lopez, Daniel Nichols, Stanimire Tomov, Kwai Wong, and Junqi Yin(参考訳) 本稿では、ディープラーニング人工知能(AI)を設計し、従来の高性能コンピューティング(HPC)シミュレーションと統合する際の課題について述べる。 既存のパッケージを評価し,大規模hpcシステム上でディープラーニングモデルとアプリケーションを効率的に実行し,課題を特定し,現在の大規模異種システムと今後のexascaleシステムのための新しい非同期並列化と最適化手法を提案する。 これらの開発は、既存のHPC AIソフトウェア機能とともに、オープンソースのHPCディープラーニングフレームワークであるMagmaDNNに統合されている。 多くのディープラーニングフレームワークはデータサイエンティストをターゲットにしており、既存のHPCワークフローに品質統合を提供するには不足している。 本稿では,MPI,CuBLAS,CuDNN,MKL,HIPなどの既存のHPCライブラリとの深い統合を通じて,HPCディープラーニングフレームワークの必要性とニーズ(例えばMagmaDNNなど)について論じる。 また、アルゴリズムによる縮小と混合精度の強化、および非同期最適化手法によっても改善が示される。 最後に、ORNLおよびUTKにおける従来の計算集約型およびデータ集約型アプリケーションをAIで拡張するための図と潜在的なソリューションを示す。 アプローチと今後の課題は、材料科学、イメージング、気候応用で説明される。

This paper presents some of the current challenges in designing deep learning artificial intelligence (AI) and integrating it with traditional high-performance computing (HPC) simulations. We evaluate existing packages for their ability to run deep learning models and applications on large-scale HPC systems efficiently, identify challenges, and propose new asynchronous parallelization and optimization techniques for current large-scale heterogeneous systems and upcoming exascale systems. These developments, along with existing HPC AI software capabilities, have been integrated into MagmaDNN, an open-source HPC deep learning framework. Many deep learning frameworks are targeted at data scientists and fall short in providing quality integration into existing HPC workflows. This paper discusses the necessities of an HPC deep learning framework and how those needs can be provided (e.g., as in MagmaDNN) through a deep integration with existing HPC libraries, such as MAGMA and its modular memory management, MPI, CuBLAS, CuDNN, MKL, and HIP. Advancements are also illustrated through the use of algorithmic enhancements in reduced- and mixed-precision, as well as asynchronous optimization methods. Finally, we present illustrations and potential solutions for enhancing traditional compute- and data-intensive applications at ORNL and UTK with AI. The approaches and future challenges are illustrated in materials science, imaging, and climate applications.
翻訳日:2022-09-22 02:47:28 公開日:2020-11-23
# 幾何学的ユニバーサルミラープロックス

Geometry-Aware Universal Mirror-Prox ( http://arxiv.org/abs/2011.11203v1 )

ライセンス: Link先を確認
Reza Babanezhad and Simon Lacoste-Julien(参考訳) ミラープロキシ (MP) は変分不等式 (VI) を解くアルゴリズムとしてよく知られている。 vi モノトーン演算子は、凸最小化、min-max、saddle point 問題など、多数の設定をカバーする。 収束アルゴリズムを得るためには、古典的なMPアルゴリズムのステップサイズは、推定が難しい滑らか度パラメータなどの演算子の問題依存的な知識に大きく依存する。 近年、滑らかで有界な演算子に対するMPの普遍的な変種が導入されたが、これはMPの更新のノルムにのみ依存する。 本研究では,更新間のBregman分散に対する更新の規範を評価することへの依存を緩和する。 この緩和により、ユニバーサルMPの分析を、オペレータがスムーズでなければバウンダリのない設定にまで拡張できる。 さらに, 確率的単調作用素を用いてvi問題を異なる設定で解析し, 対数係数までの最適速度を求める。

Mirror-prox (MP) is a well-known algorithm to solve variational inequality (VI) problems. VI with a monotone operator covers a large group of settings such as convex minimization, min-max or saddle point problems. To get a convergent algorithm, the step-size of the classic MP algorithm relies heavily on the problem dependent knowledge of the operator such as its smoothness parameter which is hard to estimate. Recently, a universal variant of MP for smooth/bounded operators has been introduced that depends only on the norm of updates in MP. In this work, we relax the dependence to evaluating the norm of updates to Bregman divergence between updates. This relaxation allows us to extends the analysis of universal MP to the settings where the operator is not smooth or bounded. Furthermore, we analyse the VI problem with a stochastic monotone operator in different settings and obtain an optimal rate up to a logarithmic factor.
翻訳日:2022-09-22 02:46:50 公開日:2020-11-23
# RoBERTaを用いたソーシャルメディアにおける精神疾患の検出と分類

Detection and Classification of mental illnesses on social media using RoBERTa ( http://arxiv.org/abs/2011.11226v1 )

ライセンス: Link先を確認
Ankit Murarka, Balaji Radhakrishnan, Sushma Ravichandran(参考訳) 現在の社会距離規制を考えると、ソーシャルメディアは多くの人々にとって主要なコミュニケーション手段となっている。 これにより、個人で援助を受けられない精神疾患に苦しむ多くの人々が隔離された。 彼らは自分自身を表現し、病気に対処するためのガイダンスを探すためにソーシャルメディアに目を向けるようになった。 これを念頭に置いて,ソーシャルメディア上での精神疾患の投稿を検知・分類し,適切な支援を求めるためのソリューションを提案する。 本研究では, うつ病, 不安, 双極性障害, ADHD, PTSDの5種類の精神疾患を, ソーシャルメディアプラットフォーム上の非構造化ユーザデータを解析することにより検出・分類する。 さらに、このトピックに関する研究を進めるために、新たな高品質データセットも公開しています。 われわれの研究は、RoBERTaのようなTransformerベースのアーキテクチャを使って人々の感情や心理学を分析する最初のマルチクラスモデルであると信じている。 また,行動テストを用いてモデルをストレステストする方法を実証する。 本研究では,検出と分類のプロセスの一部を自動化し,公衆衛生システムへの貢献を期待する。

Given the current social distancing regulations across the world, social media has become the primary mode of communication for most people. This has resulted in the isolation of many people suffering from mental illnesses who are unable to receive assistance in person. They have increasingly turned to social media to express themselves and to look for guidance in dealing with their illnesses. Keeping this in mind, we propose a solution to detect and classify mental illness posts on social media thereby enabling users to seek appropriate help. In this work, we detect and classify five prominent kinds of mental illnesses: depression, anxiety, bipolar disorder, ADHD and PTSD by analyzing unstructured user data on social media platforms. In addition, we are sharing a new high-quality dataset to drive research on this topic. We believe that our work is the first multi-class model that uses a Transformer-based architecture such as RoBERTa to analyze people's emotions and psychology. We also demonstrate how we stress-test our model using behavioral testing. With this research, we hope to be able to contribute to the public health system by automating some of the detection and classification process.
翻訳日:2022-09-22 02:46:36 公開日:2020-11-23
# 医療における強化学習のための表現学習の実証的研究

An Empirical Study of Representation Learning for Reinforcement Learning in Healthcare ( http://arxiv.org/abs/2011.11235v1 )

ライセンス: Link先を確認
Taylor W. Killian, Haoran Zhang, Jayakumar Subramanian, Mehdi Fatemi, Marzyeh Ghassemi(参考訳) 強化学習(rl)は敗血症患者に対する仮説的治療戦略の同定と開発、特に観察データを用いたオフライン学習に焦点を当てた逐次的推定と予測問題に最近適用されている。 実際には、成功したRLは、適切な治療戦略を開発するために、シーケンシャルな観測から得られた情報的潜在状態に依存している。 現在、医療現場でそのような状態を構築するのがいかに最適かは、オープンな疑問である。 本稿では,MIMIC-IIIデータセットの敗血症患者のデータを用いて,複数の情報符号化アーキテクチャを実証研究し,患者の状態を表現した。 我々は,表現次元の影響,確立された明度スコアとの相関,およびそれらから派生した治療方針を評価する。 逐次的に形成された状態表現は、バッチ設定における効果的なポリシー学習を促進し、医療データのシーケンシャルかつ部分的な性質に忠実な表現学習に対するより思慮深いアプローチを検証する。

Reinforcement Learning (RL) has recently been applied to sequential estimation and prediction problems identifying and developing hypothetical treatment strategies for septic patients, with a particular focus on offline learning with observational data. In practice, successful RL relies on informative latent states derived from sequential observations to develop optimal treatment strategies. To date, how best to construct such states in a healthcare setting is an open question. In this paper, we perform an empirical study of several information encoding architectures using data from septic patients in the MIMIC-III dataset to form representations of a patient state. We evaluate the impact of representation dimension, correlations with established acuity scores, and the treatment policies derived from them. We find that sequentially formed state representations facilitate effective policy learning in batch settings, validating a more thoughtful approach to representation learning that remains faithful to the sequential and partial nature of healthcare data.
翻訳日:2022-09-22 02:46:20 公開日:2020-11-23
# IC Neuron: ニューラルネットワークを構築するための効率的なユニット

IC Neuron: An Efficient Unit to Construct Neural Networks ( http://arxiv.org/abs/2011.11271v1 )

ライセンス: Link先を確認
Junyi An, Fengshan Liu, Jian Zhao and Furao Shen(参考訳) 一般的な機械学習手法として、ニューラルネットワークは、多くの複雑なタスクを解決するために使用できる。 その強力な一般化能力は、基本ニューロンモデルの表現能力に由来する。 最も一般的なニューロンはMPニューロンであり、線形変換と非線形活性化関数を用いて入力を順次処理する。 物理学における弾性衝突モデルに着想を得て,より複雑な分布を表現できる新しいニューロンモデルを提案する。 我々は、層間衝突(IC)ニューロンと呼ぶ。 ICニューロンは入力空間を異なる線形変換を表すために使用される複数の部分空間に分割する。 この操作は非線形表現能力を高め、与えられたタスクに有用な入力機能を強調する。 我々は、ICニューロンを完全連結(FC)、畳み込み、再帰構造に統合することにより、ICネットワークを構築する。 ICネットワークは、様々な実験で従来のネットワークを上回っている。 我々は、icニューロンはネットワーク構造を構築する基本的なユニットであると信じている。

As a popular machine learning method, neural networks can be used to solve many complex tasks. Their strong generalization ability comes from the representation ability of the basic neuron model. The most popular neuron is the MP neuron, which uses a linear transformation and a non-linear activation function to process the input successively. Inspired by the elastic collision model in physics, we propose a new neuron model that can represent more complex distributions. We term it Inter-layer collision (IC) neuron. The IC neuron divides the input space into multiple subspaces used to represent different linear transformations. This operation enhanced non-linear representation ability and emphasizes some useful input features for the given task. We build the IC networks by integrating the IC neurons into the fully-connected (FC), convolutional, and recurrent structures. The IC networks outperform the traditional networks in a wide range of experiments. We believe that the IC neuron can be a basic unit to build network structures.
翻訳日:2022-09-22 02:45:34 公開日:2020-11-23
# Chang'E-4のデータを用いたニューラルスタイル転送のためのサイクル一貫性のある生成共役ネットワーク

Cycle-consistent Generative Adversarial Networks for Neural Style Transfer using data from Chang'E-4 ( http://arxiv.org/abs/2011.11627v1 )

ライセンス: Link先を確認
J. de Curt\'o and R. Duvall(参考訳) Generative Adversarial Networks (GAN) はコンピュータビジョンに多大な応用をもたらした。 しかし、宇宙科学と惑星探査の文脈では、大きな進歩のために扉が開いている。 本稿では,Chang'E-4ミッションの惑星データを扱うためのツールを紹介し,レンダリング画像からのサイクル一貫性を用いたニューラルスタイル転送のためのフレームワークを提案する。 実験は2021年にカーネギーメロンの旗艦として月面に投入されるナノローバーのアイリス・ルナー・ローバー(Iris Lunar Rover)の文脈で行われ、アメリカ初の無人探査機となった。

Generative Adversarial Networks (GANs) have had tremendous applications in Computer Vision. Yet, in the context of space science and planetary exploration the door is open for major advances. We introduce tools to handle planetary data from the mission Chang'E-4 and present a framework for Neural Style Transfer using Cycle-consistency from rendered images. The experiments are conducted in the context of the Iris Lunar Rover, a nano-rover that will be deployed in lunar terrain in 2021 as the flagship of Carnegie Mellon, being the first unmanned rover of America to be on the Moon.
翻訳日:2022-09-22 02:39:43 公開日:2020-11-23
# モーションで撮影:モーションセグメンテーションによるカモフラージュ物体発見

Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation ( http://arxiv.org/abs/2011.11630v1 )

ライセンス: Link先を確認
Hala Lamdouar, Charig Yang, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,映像中の迷彩物体を,特に動き情報を利用して物体のセグメンテーションを行うコンピュータアーキテクチャを設計することである。 私たちは以下の3つの貢献をします 一) カモフラージュを破るために必要な2つの重要な要素、すなわち、差分画像のオブジェクト境界を効果的に強調する背景に基づいて連続したフレームを整列する微分可能な登録モジュールと、ある時点で動きがない場合でもオブジェクトの永続性を維持しつつ、移動物体を検出するメモリを有するモーションセグメンテーションモジュールとからなる、新しいアーキテクチャを提案する。 (II) 様々な種類の動物(67種)に140本以上のクリップを収録した,最初の大規模移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。 3) 提案手法の有効性を実証し, 動作のみに依存して, DAVIS2016における教師なしセグメンテーションプロトコル上での競争性能を実現する。

The objective of this paper is to design a computational architecture that discovers camouflaged objects in videos, specifically by exploiting motion information to perform object segmentation. We make the following three contributions: (i) We propose a novel architecture that consists of two essential components for breaking camouflage, namely, a differentiable registration module to align consecutive frames based on the background, which effectively emphasises the object boundary in the difference image, and a motion segmentation module with memory that discovers the moving objects, while maintaining the object permanence even when motion is absent at some point. (ii) We collect the first large-scale Moving Camouflaged Animals (MoCA) video dataset, which consists of over 140 clips across a diverse range of animals (67 categories). (iii) We demonstrate the effectiveness of the proposed model on MoCA, and achieve competitive performance on the unsupervised segmentation protocol on DAVIS2016 by only relying on motion.
翻訳日:2022-09-22 02:39:28 公開日:2020-11-23
# 資源制約環境における低解像度顔認識

Low-Resolution Face Recognition In Resource-Constrained Environments ( http://arxiv.org/abs/2011.11674v1 )

ライセンス: Link先を確認
Mozhdeh Rouhsedaghat and Yifan Wang and Shuowen Hu and Suya You and C.-C. Jay Kuo(参考訳) 本稿では,ネットワークとコンピューティングに制限のある資源制約環境における非パラメトリック低解像度顔認識モデルを提案する。 このような環境は、少ないトレーニング複雑さと低解像度の入力画像で、少数のラベル付きデータサンプルで効果的にトレーニングできる小さなモデルを要求することが多い。 これらの課題に対処するために、逐次サブスペース学習(SSL)と呼ばれる、新たな説明可能な機械学習手法を採用する。 SSLは、検証パフォーマンスのためにモデルサイズを柔軟に交換する、説明可能な非パラメトリックモデルを提供する。 モデルがバックプロパゲーションなしで1パスフィードフォワードでトレーニングされるため、トレーニングの複雑さは大幅に低下する。 さらに、ラベリングコストを低減するために、能動的学習を便利に組み込むことができる。 提案モデルの有効性はLFWとCMU Multi-PIEデータセットの実験によって実証された。

A non-parametric low-resolution face recognition model for resource-constrained environments with limited networking and computing is proposed in this work. Such environments often demand a small model capable of being effectively trained on a small number of labeled data samples, with low training complexity, and low-resolution input images. To address these challenges, we adopt an emerging explainable machine learning methodology called successive subspace learning (SSL).SSL offers an explainable non-parametric model that flexibly trades the model size for verification performance. Its training complexity is significantly lower since its model is trained in a one-pass feedforward manner without backpropagation. Furthermore, active learning can be conveniently incorporated to reduce the labeling cost. The effectiveness of the proposed model is demonstrated by experiments on the LFW and the CMU Multi-PIE datasets.
翻訳日:2022-09-22 02:39:07 公開日:2020-11-23
# 言語的対象制約によるシームズ追跡

Siamese Tracking with Lingual Object Constraints ( http://arxiv.org/abs/2011.11721v1 )

ライセンス: Link先を確認
Maximilian Filtenborg, Efstratios Gavves, Deepak Gupta(参考訳) 伝統的に、視覚オブジェクト追跡は、所定のビデオを通して対象オブジェクトを追跡し、オブジェクトの動きの軌跡を提供する。 しかし,多くの実用用途において,映像素材に付加的な意味情報を作用させる必要があるため,この出力はしばしば不十分である。 例えば、監視やターゲット固有のビデオ要約では、特定の事前定義された制約(例えば「黄色い車の近くに立つとき」)に関して、ターゲットを監視する必要がある。 本稿では,追加の言語制約を受ける視覚物体を探索し,追跡する。 Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。 彼らの仕事のゴールは、トラッキング自体の改善と拡張である。 ベンチマークと実験を行うために、元のLaSOTデータセットとMOT16データセットのフレームに追加の制約を加えることでキュレートされたc-MOT16とc-LaSOTという2つのデータセットをコントリビュートする。 また,最近のsiamese追跡法を拡張し,自然言語処理と視覚的質問応答の分野から着想を得たモジュールを追加することで得られた2つの深層モデルsiamct-dfgとsiamct-caについて実験を行った。 実験結果から,提案したSiamCT-CAモデルの方が優れた性能を示すことが示された。 また,制約の妥当性に基づき,動画の選択的圧縮が可能となる。

Classically, visual object tracking involves following a target object throughout a given video, and it provides us the motion trajectory of the object. However, for many practical applications, this output is often insufficient since additional semantic information is required to act on the video material. Example applications of this are surveillance and target-specific video summarization, where the target needs to be monitored with respect to certain predefined constraints, e.g., 'when standing near a yellow car'. This paper explores, tracking visual objects subjected to additional lingual constraints. Differently from Li et al., we impose additional lingual constraints upon tracking, which enables new applications of tracking. Whereas in their work the goal is to improve and extend upon tracking itself. To perform benchmarks and experiments, we contribute two datasets: c-MOT16 and c-LaSOT, curated through appending additional constraints to the frames of the original LaSOT and MOT16 datasets. We also experiment with two deep models SiamCT-DFG and SiamCT-CA, obtained through extending a recent state-of-the-art Siamese tracking method and adding modules inspired from the fields of natural language processing and visual question answering. Through experimental results, we show that the proposed model SiamCT-CA can significantly outperform its counterparts. Furthermore, our method enables the selective compression of videos, based on the validity of the constraint.
翻訳日:2022-09-22 02:38:29 公開日:2020-11-23
# KeepAugment: シンプルな情報保存データ拡張アプローチ

KeepAugment: A Simple Information-Preserving Data Augmentation Approach ( http://arxiv.org/abs/2011.11778v1 )

ライセンス: Link先を確認
Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu(参考訳) データ強化(DA)は最先端のディープラーニングシステムのトレーニングに不可欠な技術である。 本稿では,データ拡張が雑音を伴う拡張例をもたらす可能性を示し,推論中の未知データの性能を損なうことを実証的に示す。 この問題を軽減するために,強調画像の忠実度を高めるために,emph{KeepAugment}と呼ばれるシンプルかつ高効率なアプローチを提案する。 まず、サリエンシーマップを使用して元の画像上の重要な領域を検出し、拡張中にこれらの重要な領域を保存する。 この情報保存戦略により、より忠実なトレーニング例を生成することができる。 実験により,オートオーグメント,カットアウト,ランダム消去,画像分類,半教師付き画像分類,マルチビューマルチカメラトラッキング,オブジェクト検出など,先行技術データ拡張方式を改良した手法を実証した。

Data augmentation (DA) is an essential technique for training state-of-the-art deep learning systems. In this paper, we empirically show data augmentation might introduce noisy augmented examples and consequently hurt the performance on unaugmented data during inference. To alleviate this issue, we propose a simple yet highly effective approach, dubbed \emph{KeepAugment}, to increase augmented images fidelity. The idea is first to use the saliency map to detect important regions on the original images and then preserve these informative regions during augmentation. This information-preserving strategy allows us to generate more faithful training examples. Empirically, we demonstrate our method significantly improves on a number of prior art data augmentation schemes, e.g. AutoAugment, Cutout, random erasing, achieving promising results on image classification, semi-supervised image classification, multi-view multi-camera tracking and object detection.
翻訳日:2022-09-22 02:37:15 公開日:2020-11-23
# 複数登録によるロバスト画像縫合

Robust image stitching with multiple registrations ( http://arxiv.org/abs/2011.11784v1 )

ライセンス: Link先を確認
Charles Herrmann and Chen Wang and Richard Strong Bowen and Emil Keyder and Michael Krainin and Ce Liu and Ramin Zabih(参考訳) パノラマ生成はコンピュータビジョンにおいて最も広く使われている技術の一つである。 google street viewのような業界アプリケーションに加えて、数百万の消費者がスマートフォンや他のカメラで使用している。 伝統的に、問題は3つのフェーズに分解される: 登録: ソースイメージの1つの変換を選択して他の入力と整合させる シーム検索: 最終的な結果で各ピクセルのソースイメージを選択する ブレンディング: マイナーなビジュアルアーティファクトを修正する 。 ここでは、特に大きな深度変化や物体の動きのあるシーンにおいて、単一の登録を使用することでエラーが発生することが多いことを観察する。 そこで本研究では,画像の奥行きの異なる領域を高い精度でキャプチャできる多重登録方式を提案する。 MRF推論技術は,複数の登録にまたがって海面まで自然に拡張され,そのエネルギー関数は,複数登録の使用によって悪化する一般的な問題である重複や裂けを防止できる新しい用語で容易に変更可能であることを示す。 本手法は,階層型ステレオと密接な関係を持ち,画像のステッチングを明示的なシーンモデリングに近づける。 実験的証拠は,本手法が実質的な運動や視差でパノラマを有意に改善することを示している。

Panorama creation is one of the most widely deployed techniques in computer vision. In addition to industry applications such as Google Street View, it is also used by millions of consumers in smartphones and other cameras. Traditionally, the problem is decomposed into three phases: registration, which picks a single transformation of each source image to align it to the other inputs, seam finding, which selects a source image for each pixel in the final result, and blending, which fixes minor visual artifacts. Here, we observe that the use of a single registration often leads to errors, especially in scenes with significant depth variation or object motion. We propose instead the use of multiple registrations, permitting regions of the image at different depths to be captured with greater accuracy. MRF inference techniques naturally extend to seam finding over multiple registrations, and we show here that their energy functions can be readily modified with new terms that discourage duplication and tearing, common problems that are exacerbated by the use of multiple registrations. Our techniques are closely related to layer-based stereo, and move image stitching closer to explicit scene modeling. Experimental evidence demonstrates that our techniques often generate significantly better panoramas when there is substantial motion or parallax.
翻訳日:2022-09-22 02:36:59 公開日:2020-11-23
# re-identification = Retrieval + Verification: Back to Essence and Forward with a new Metric

Re-identification = Retrieval + Verification: Back to Essence and Forward with a New Metric ( http://arxiv.org/abs/2011.11506v1 )

ライセンス: Link先を確認
Zheng Wang, Xin Yuan, Toshihiko Yamasaki, Yutian Lin, Xin Xu, Wenjun Zeng(参考訳) 再同定(re-ID)は現在,クローズドワールド画像検索タスクとして検討されており,検索基準による評価を行っている。 アルゴリズムはランキングリストをユーザーに返すが、どの画像が真のターゲットであるかはわからない。 本質的に、現在のre-idは検索の重要性を過大に強調するが、検証の値である \textit{i.e} を過大に強調する。 一方、re-IDには、クエリIDがギャラリーに現れないシナリオも含まなければならない。 この目的のために、オープンセット設定における検索と検証の組み合わせである re-ID, \textit{i.e.} の本質に戻り、新しいメトリクス、すなわち Genuine Open-set re-ID Metric (GOM) を提示する。 GOMは、検索と検証を行う効果を単一の統一メトリックに明確にバランスさせる。 サブメトリックのファミリに分解することもでき、re-IDパフォーマンスの明確な分析を可能にする。 GOMがre-IDベンチマークに与える影響を評価し,これまでに確立された指標から考慮されていないre-IDパフォーマンスの重要な側面を捉える能力を示した。 さらに, GOMスコアは, リID性能の人間の視覚的評価と整合性に優れていた。 関連するコードはhttps://github.com/yuanxincherry/person-reid-evaluationで入手できる。

Re-identification (re-ID) is currently investigated as a closed-world image retrieval task, and evaluated by retrieval based metrics. The algorithms return ranking lists to users, but cannot tell which images are the true target. In essence, current re-ID overemphasizes the importance of retrieval but underemphasizes that of verification, \textit{i.e.}, all returned images are considered as the target. On the other hand, re-ID should also include the scenario that the query identity does not appear in the gallery. To this end, we go back to the essence of re-ID, \textit{i.e.}, a combination of retrieval and verification in an open-set setting, and put forward a new metric, namely, Genuine Open-set re-ID Metric (GOM). GOM explicitly balances the effect of performing retrieval and verification into a single unified metric. It can also be decomposed into a family of sub-metrics, enabling a clear analysis of re-ID performance. We evaluate the effectiveness of GOM on the re-ID benchmarks, showing its ability to capture important aspects of re-ID performance that have not been taken into account by established metrics so far. Furthermore, we show GOM scores excellent in aligning with human visual evaluation of re-ID performance. Related codes are available at https://github.com/YuanXinCherry/Person-reID-Evaluation
翻訳日:2022-09-22 02:30:15 公開日:2020-11-23
# 終端MRI非平衡データ分割のための平面3次元伝達学習

Planar 3D Transfer Learning for End to End Unimodal MRI Unbalanced Data Segmentation ( http://arxiv.org/abs/2011.11557v1 )

ライセンス: Link先を確認
Martin Kolarik, Radim Burget, Carlos M. Travieso-Gonzalez, Jan Kocica(参考訳) 本稿では,事前学習した2次元畳み込みニューラルネットワーク重みを平面3次元カーネルにマッピングする手法を提案する。 提案手法は、2次元VGG-16から転送されるエンコーダを備えた平面3次元res-u-netネットワークにより検証され、単段非平衡3次元画像データセグメンテーションに適用される。 特に,脳抽出を必要とせず,流体減衰インバージョンリカバリ(flair)配列のみを用いたmiccai 2016 ms lesion segmentation challengeデータセットの方法を評価し,実際の医学的praxisをシミュレートした。 平面型3Dres-u-netネットワークは、生のMRIスキャン処理法のうち、感度とDiceスコアの両方で最善を尽くし、最先端のunimodal not-to endアプローチと同等のDiceスコアを得た。 完全なソースコードはオープンソースライセンスでリリースされ、この論文は機械学習再現性チェックリストに準拠している。 3次元データ表現のための実践的な転送学習を実装することで、選択的サンプリングなしで重大不均衡データを分割することができ、単一のモードで少ないトレーニングデータを用いてより信頼性の高い結果が得られる。 医学的な見地からすると、単発アプローチは、検査中に共同登録や追加のスキャン時間を必要としないため、実際の実践において有利である。 現代の医用画像技術はコンピュータ支援検出システム処理に適した高分解能な3次元解剖スキャンを撮像するが、多くの医療領域では放射線画像の解釈のための自動システムの展開は理論上はいまだに理論的である。 我々の研究は、部分的な研究課題に対する解決策を提供することでギャップを埋めることを目的としている。

We present a novel approach of 2D to 3D transfer learning based on mapping pre-trained 2D convolutional neural network weights into planar 3D kernels. The method is validated by the proposed planar 3D res-u-net network with encoder transferred from the 2D VGG-16, which is applied for a single-stage unbalanced 3D image data segmentation. In particular, we evaluate the method on the MICCAI 2016 MS lesion segmentation challenge dataset utilizing solely fluid-attenuated inversion recovery (FLAIR) sequence without brain extraction for training and inference to simulate real medical praxis. The planar 3D res-u-net network performed the best both in sensitivity and Dice score amongst end to end methods processing raw MRI scans and achieved comparable Dice score to a state-of-the-art unimodal not end to end approach. Complete source code was released under the open-source license, and this paper complies with the Machine learning reproducibility checklist. By implementing practical transfer learning for 3D data representation, we could segment heavily unbalanced data without selective sampling and achieved more reliable results using less training data in a single modality. From a medical perspective, the unimodal approach gives an advantage in real praxis as it does not require co-registration nor additional scanning time during an examination. Although modern medical imaging methods capture high-resolution 3D anatomy scans suitable for computer-aided detection system processing, deployment of automatic systems for interpretation of radiology imaging is still rather theoretical in many medical areas. Our work aims to bridge the gap by offering a solution for partial research questions.
翻訳日:2022-09-22 02:29:30 公開日:2020-11-23
# 限定バッチサイズ分割ニューラルネットワークの正規化法の比較

Comparing Normalization Methods for Limited Batch Size Segmentation Neural Networks ( http://arxiv.org/abs/2011.11559v1 )

ライセンス: Link先を確認
Martin Kolarik, Radim Burget, Kamil Riha(参考訳) Batch Normalizationの普及により、より安定した高速な結果でより深いニューラルネットワークのトレーニングが可能になる。 しかしながら、バッチ正規化はトレーニング中に大きなバッチサイズを使用するのが最適であり、最先端のセグメンテーション畳み込みニューラルネットワークアーキテクチャは非常にメモリを必要とするため、現在のハードウェアでは大きなバッチサイズを達成できないことが多い。 本研究では, 3次元ctスキャンから2本の脊椎分節問題に対して, 代替正規化法について検討した。 本結果は,限定バッチサイズニューラルネットワークトレーニング環境におけるインスタンス正規化の有効性を示す。 比較したすべての手法のうち、インスタンス正規化はDice係数=0.96で最高の結果を得たが、これはトレーニング時間が長いより深いネットワークによって達成された過去の結果に匹敵するものである。 また,本実験で使用するインスタンス正規化の実装は,正規化手法を伴わないネットワークと比較して計算時間効率が良いことを示す。

The widespread use of Batch Normalization has enabled training deeper neural networks with more stable and faster results. However, the Batch Normalization works best using large batch size during training and as the state-of-the-art segmentation convolutional neural network architectures are very memory demanding, large batch size is often impossible to achieve on current hardware. We evaluate the alternative normalization methods proposed to solve this issue on a problem of binary spine segmentation from 3D CT scan. Our results show the effectiveness of Instance Normalization in the limited batch size neural network training environment. Out of all the compared methods the Instance Normalization achieved the highest result with Dice coefficient = 0.96 which is comparable to our previous results achieved by deeper network with longer training time. We also show that the Instance Normalization implementation used in this experiment is computational time efficient when compared to the network without any normalization method.
翻訳日:2022-09-22 02:28:58 公開日:2020-11-23
# バナナのRGB-T画像からの無生物ストレス予測

Abiotic Stress Prediction from RGB-T Images of Banana Plantlets ( http://arxiv.org/abs/2011.11597v1 )

ライセンス: Link先を確認
Sagi Levanon, Oshry Markovich, Itamar Gozlan, Ortal Bakhshian, Alon Zvirin, Yaron Honen, and Ron Kimmel(参考訳) ストレス条件の予測は、植物の成長段階のモニタリング、病気の検出、収穫量の評価に重要である。 さまざまなセンサから取得したマルチモーダルデータは、さまざまな視点を提供し、予測プロセスにメリットが期待できる。 本研究では,4つの異なる水処理および肥料処理を施した植物株の2週間半の間に得られたデータセットを用いて,バナナ植物株の無菌性ストレス予測手法と戦略について述べる。 データセットはrgbとサーマルイメージで構成され、各プラントで1日1回撮影される。 その結果は、ニューラルネットワークが高い予測率(4つのクラスの中で90セント以上)を示すという意味で、治療を区別する特徴がほとんどない場合には、現場の専門家が提供できるよりもはるかに高い。

Prediction of stress conditions is important for monitoring plant growth stages, disease detection, and assessment of crop yields. Multi-modal data, acquired from a variety of sensors, offers diverse perspectives and is expected to benefit the prediction process. We present several methods and strategies for abiotic stress prediction in banana plantlets, on a dataset acquired during a two and a half weeks period, of plantlets subject to four separate water and fertilizer treatments. The dataset consists of RGB and thermal images, taken once daily of each plant. Results are encouraging, in the sense that neural networks exhibit high prediction rates (over $90\%$ amongst four classes), in cases where there are hardly any noticeable features distinguishing the treatments, much higher than field experts can supply.
翻訳日:2022-09-22 02:27:45 公開日:2020-11-23
# BiOpt:Few-Shotセグメンテーションのためのバイレベル最適化

BiOpt: Bi-Level Optimization for Few-Shot Segmentation ( http://arxiv.org/abs/2011.11245v1 )

ライセンス: Link先を確認
Jinlu Liu and Liang Song and Yongqiang Qin(参考訳) Few-shotのセグメンテーションは、サポートイメージが不足しているため、新しいクラスのオブジェクトをセグメンテーションすることを目的としている。 インダクティブな設定では、既存のプロトタイプベースの手法では、サポートイメージからプロトタイプを抽出することに重点を置いているが、クエリ画像の意味情報を利用できない。 本稿では,問合せ画像からのクラスプロトタイプの計算をインダクティブ設定で成功させるbi-level optimization (biopt)を提案する。 BiOptの学習手順は、内ループと外ループの2つのネストループに分解される。 それぞれのタスクにおいて、インナーループはクエリイメージから最適化されたプロトタイプを学習することを目的としている。 initのステップは、サポート機能とクエリ機能の両方からの知識を十分に活用し、適切な初期化プロトタイプを内部ループに提供するために行われる。 外ループは、異なるタスクにまたがる識別的埋め込み空間を学ぶことを目的としている。 提案したBiOptアルゴリズムの優位性を2つのベンチマークで検証した。 特に,5-shot PASCAL-$5^i$と1-shot COCO-$20^i$の最先端性能を一貫して達成する。

Few-shot segmentation is a challenging task that aims to segment objects of new classes given scarce support images. In the inductive setting, existing prototype-based methods focus on extracting prototypes from the support images; however, they fail to utilize semantic information of the query images. In this paper, we propose Bi-level Optimization (BiOpt), which succeeds to compute class prototypes from the query images under inductive setting. The learning procedure of BiOpt is decomposed into two nested loops: inner and outer loop. On each task, the inner loop aims to learn optimized prototypes from the query images. An init step is conducted to fully exploit knowledge from both support and query features, so as to give reasonable initialized prototypes into the inner loop. The outer loop aims to learn a discriminative embedding space across different tasks. Extensive experiments on two benchmarks verify the superiority of our proposed BiOpt algorithm. In particular, we consistently achieve the state-of-the-art performance on 5-shot PASCAL-$5^i$ and 1-shot COCO-$20^i$.
翻訳日:2022-09-22 02:20:54 公開日:2020-11-23
# 文脈における自己閉塞物体の3次元登録

3D Registration for Self-Occluded Objects in Context ( http://arxiv.org/abs/2011.11260v1 )

ライセンス: Link先を確認
Zheng Dang and Fei Wang and Mathieu Salzmann(参考訳) 3Dポイントクラウドの登録作業には多くの進歩があったが、現場で2.5Dセンサーで観測された物体の6Dポーズを推定できる学習ベースの方法はまだ存在しない。 このシナリオの課題は、ほとんどの測定が物体の周囲の文脈を描写する外れ値であるという事実と、完全な3Dオブジェクトモデルと自己排除された観察とのミスマッチである。 このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。 提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。 これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。 さらに時間とメモリ効率のよいオンザフライレンダリングベースのトレーニング戦略も開発しています。 提案手法は従来の3d登録手法よりも優れていることを実証する実験を行った。

While much progress has been made on the task of 3D point cloud registration, there still exists no learning-based method able to estimate the 6D pose of an object observed by a 2.5D sensor in a scene. The challenges of this scenario include the fact that most measurements are outliers depicting the object's surrounding context, and the mismatch between the complete 3D object model and its self-occluded observations. We introduce the first deep learning framework capable of effectively handling this scenario. Our method consists of an instance segmentation module followed by a pose estimation one. It allows us to perform 3D registration in a one-shot manner, without requiring an expensive iterative procedure. We further develop an on-the-fly rendering-based training strategy that is both time- and memory-efficient. Our experiments evidence the superiority of our approach over the state-of-the-art traditional and learning-based 3D registration methods.
翻訳日:2022-09-22 02:20:38 公開日:2020-11-23
# 学習に基づく最適化アルゴリズム:画像登録最適化ネットワーク

A Learning-based Optimization Algorithm:Image Registration Optimizer Network ( http://arxiv.org/abs/2011.11365v1 )

ライセンス: Link先を確認
Jia Wang, Ping Wang, Biao Li, Yinghui Gao, and Siyi Zhao(参考訳) リモートセンシング画像登録は、多くの課題があるにもかかわらず、画像ベースのナビゲーションシステムにとって有用である。 登録の探索空間は通常凸でないため、最適な変換パラメータを探索することを目的とした最適化アルゴリズムは難しいステップである。 従来の最適化アルゴリズムでは、同時収束とグローバル最適化の矛盾をほとんど解決できない。 本稿では,画像登録最適化ネットワーク(IRON)という,学習に基づく新しい最適化アルゴリズムを提案する。 鉄は、同様の計量値からなる3次元テンソル(9x9x9)によって訓練される。 3次元テンソルの要素は、探索空間の初期パラメータの9x9x9近傍に対応する。 次にテンソルのラベルは、初期パラメータから大域的な最適パラメータを示すベクトルである。 特別なアーキテクチャのため、IRONは任意の初期化に対してグローバルな最適化を直接予測することができた。 実験の結果,提案アルゴリズムは他の古典的最適化アルゴリズムよりも高い精度,平均二乗誤差 (RMSE) の低根,効率の向上が示された。 我々のIRONコードは、さらに研究することができる。https://www.github.com/jaxwangkd04/IRON

Remote sensing image registration is valuable for image-based navigation system despite posing many challenges. As the search space of registration is usually non-convex, the optimization algorithm, which aims to search the best transformation parameters, is a challenging step. Conventional optimization algorithms can hardly reconcile the contradiction of simultaneous rapid convergence and the global optimization. In this paper, a novel learning-based optimization algorithm named Image Registration Optimizer Network (IRON) is proposed, which can predict the global optimum after single iteration. The IRON is trained by a 3D tensor (9x9x9), which consists of similar metric values. The elements of the 3D tensor correspond to the 9x9x9 neighbors of the initial parameters in the search space. Then, the tensor's label is a vector that points to the global optimal parameters from the initial parameters. Because of the special architecture, the IRON could predict the global optimum directly for any initialization. The experimental results demonstrate that the proposed algorithm performs better than other classical optimization algorithms as it has higher accuracy, lower root of mean square error (RMSE), and more efficiency. Our IRON codes are available for further study.https://www.github.com/jaxwangkd04/IRON
翻訳日:2022-09-22 02:19:42 公開日:2020-11-23
# マンゴーの自動品質グレーディングのための深層学習:方法と展望

Deep Learning for Automatic Quality Grading of Mangoes: Methods and Insights ( http://arxiv.org/abs/2011.11378v1 )

ライセンス: Link先を確認
Shih-Lun Wu, Hsiao-Yen Tung, Yu-Lun Hsu(参考訳) マンゴーの品質向上は、マンゴー栽培者が利益に大きな影響を与えるため、重要な課題である。 しかし、このプロセスはいまだに、疲労やエラーに悩まされている人間の残酷な努力に依存している。 これを解決するために,コンピュータビジョンの深層学習技術である様々な畳み込みニューラルネットワーク(CNN)を用いて,グレーディングタスクにアプローチする。 関連するモデルには、imagenet challengeの多くの過去の勝者である、alexnet、vggs、resnetsのマスクr-cnn(背景除去)、そして分類タスクにおけるマルチタスク学習の主張に触発された自己定義畳み込みオートエンコーダ分類器(convae-clfs)が含まれる。 また、この研究では、ImageNet事前学習重みを利用して転送学習が採用されている。 事前処理技術、トレーニングの詳細、そして結果のパフォーマンスについて実験するのに加えて、私たちはさらに一歩進んで、サリエンシマップと主成分分析(PCA)の助けを借りて、モデルの動作に関する説明可能な洞察を提供します。 これらの洞察は、複雑な深層学習のブラックボックスを簡潔かつ有意義に垣間見ることができ、信頼を育み、また、評価結果をレビューするために現実世界のユースケースで人間に提示することもできる。

The quality grading of mangoes is a crucial task for mango growers as it vastly affects their profit. However, until today, this process still relies on laborious efforts of humans, who are prone to fatigue and errors. To remedy this, the paper approaches the grading task with various convolutional neural networks (CNN), a tried-and-tested deep learning technology in computer vision. The models involved include Mask R-CNN (for background removal), the numerous past winners of the ImageNet challenge, namely AlexNet, VGGs, and ResNets; and, a family of self-defined convolutional autoencoder-classifiers (ConvAE-Clfs) inspired by the claimed benefit of multi-task learning in classification tasks. Transfer learning is also adopted in this work via utilizing the ImageNet pretrained weights. Besides elaborating on the preprocessing techniques, training details, and the resulting performance, we go one step further to provide explainable insights into the model's working with the help of saliency maps and principal component analysis (PCA). These insights provide a succinct, meaningful glimpse into the intricate deep learning black box, fostering trust, and can also be presented to humans in real-world use cases for reviewing the grading results.
翻訳日:2022-09-22 02:19:25 公開日:2020-11-23
# 効率的なディープニューラルネットワークの動的圧縮戦略としての合成とプルーニング

Synthesis and Pruning as a Dynamic Compression Strategy for Efficient Deep Neural Networks ( http://arxiv.org/abs/2011.11358v1 )

ライセンス: Link先を確認
Alastair Finlinson, Sotiris Moschoyiannis(参考訳) 脳はタスク固有の適応が可能な高度に再構成可能な機械である。 脳は、問題を解くために、より最適な設定を継続的に調整します。 本稿では,学習時の脳の行動から直接引き出す,フィードフォワードネットワークのための新しい戦略的合成アルゴリズムを提案する。 提案手法はネットワークを解析し,その大きさに基づいて重み付けを行う。 ランダム選択を提唱する既存のアプローチとは異なり、我々はハイパフォーマンスなノードを新しいエッジの開始点として選択し、ウェイト上のガウス分布を利用して対応するエンドポイントを選択する。 この戦略は、有用な接続を生成して、残りのネットワーク構造を小さくすることだけを目的としている。 この手法は圧縮をさらに進めるためにプルーニングと補完される。 ディープフィードフォワードネットワークに対する手法を実証する。 この研究で合成アプローチから形成された残存サブネットワークは、90%程度の類似性を持つ共通サブネットワークを形成する。 プルーニングを戦略的合成手法の補完として利用し,圧縮性の向上を観察する。

The brain is a highly reconfigurable machine capable of task-specific adaptations. The brain continually rewires itself for a more optimal configuration to solve problems. We propose a novel strategic synthesis algorithm for feedforward networks that draws directly from the brain's behaviours when learning. The proposed approach analyses the network and ranks weights based on their magnitude. Unlike existing approaches that advocate random selection, we select highly performing nodes as starting points for new edges and exploit the Gaussian distribution over the weights to select corresponding endpoints. The strategy aims only to produce useful connections and result in a smaller residual network structure. The approach is complemented with pruning to further the compression. We demonstrate the techniques to deep feedforward networks. The residual sub-networks that are formed from the synthesis approaches in this work form common sub-networks with similarities up to ~90%. Using pruning as a complement to the strategic synthesis approach, we observe improvements in compression.
翻訳日:2022-09-22 02:12:28 公開日:2020-11-23
# マルチエージェントゲームのためのディープRLにおけるポリシー情報規則化による統合

Consolidation via Policy Information Regularization in Deep RL for Multi-Agent Games ( http://arxiv.org/abs/2011.11517v1 )

ライセンス: Link先を確認
Tyler Malloy, Tim Klinger, Miao Liu, Matthew Riemer, Gerald Tesauro, Chris R. Sims(参考訳) 本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。 継続的制御実験における関連するアプローチによる以前の研究は、この方法が環境力学の変化に対してより堅牢な学習方針を好むことを示唆している。 マルチエージェントゲームの設定は、学習を通して他のエージェントのポリシーが変化し、非定常環境を導入するため、自然にこのような堅牢性を必要とする。 このため,近年の連続学習手法を,容量制限MADDPGと呼ぶ手法と比較した。 多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。

This paper introduces an information-theoretic constraint on learned policy complexity in the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) reinforcement learning algorithm. Previous research with a related approach in continuous control experiments suggests that this method favors learning policies that are more robust to changing environment dynamics. The multi-agent game setting naturally requires this type of robustness, as other agents' policies change throughout learning, introducing a nonstationary environment. For this reason, recent methods in continual learning are compared to our approach, termed Capacity-Limited MADDPG. Results from experimentation in multi-agent cooperative and competitive tasks demonstrate that the capacity-limited approach is a good candidate for improving learning performance in these environments.
翻訳日:2022-09-22 02:12:15 公開日:2020-11-23
# 深層学習のための不均衡ロバストソフトマックス

Imbalance Robust Softmax for Deep Embeeding Learning ( http://arxiv.org/abs/2011.11155v1 )

ライセンス: Link先を確認
Hao Zhu, Yang Yuan, Guosheng Hu, Xiang Wu, Neil Robertson(参考訳) 深層埋め込み学習は,最小クラス間距離よりも最大クラス間距離が小さい距離空間を学習することが期待される。 近年,顔認識(fr)と人物再同定(re-id)の分野における識別的深層埋め込み学習によるオープンセット問題を解決する研究が注目されている。 オープンセットの問題とは別に、不均衡なトレーニングデータもfrとre-idの性能低下の主な要因であり、実際のアプリケーションではデータ不均衡が広く存在する。 しかしながら、データの不均衡がfrとre-idのパフォーマンスにsoftmaxやその変異にどのように影響するか、その理由や方法に関する研究はほとんどない。 本研究では,ニューラルネットワークの最適化とソフトマックスに関する特徴分布の観点から,データの不均衡を深く検討する。 データ不均衡に起因する性能劣化の主な原因の1つは、重み(最大完全連結層からの)が特徴空間のクラス中心から遠く離れていることである。 本研究では,オープンセット問題を同時に解決し,データ不均衡の影響を低減できる統一フレームワーク imbalance-robust softmax (ir-softmax) を提案する。 IR-Softmaxは、重みをクラス中心として直接設定することで、任意のソフトマックスとその変種(開集合問題と区別できる)に一般化することができる。 本研究では、IR-Softmaxの枠組みの下で2つの識別ソフトマックス(A-SoftmaxとAM-Softmax)を明示的に再定式化する。 我々は fr データベース (lfw, megaface) と re-id データベース (market-1501, duke) について広範な実験を行い,ir-softmax は最先端手法を上回っている。

Deep embedding learning is expected to learn a metric space in which features have smaller maximal intra-class distance than minimal inter-class distance. In recent years, one research focus is to solve the open-set problem by discriminative deep embedding learning in the field of face recognition (FR) and person re-identification (re-ID). Apart from open-set problem, we find that imbalanced training data is another main factor causing the performance degradation of FR and re-ID, and data imbalance widely exists in the real applications. However, very little research explores why and how data imbalance influences the performance of FR and re-ID with softmax or its variants. In this work, we deeply investigate data imbalance in the perspective of neural network optimisation and feature distribution about softmax. We find one main reason of performance degradation caused by data imbalance is that the weights (from the penultimate fully-connected layer) are far from their class centers in feature space. Based on this investigation, we propose a unified framework, Imbalance-Robust Softmax (IR-Softmax), which can simultaneously solve the open-set problem and reduce the influence of data imbalance. IR-Softmax can generalise to any softmax and its variants (which are discriminative for open-set problem) by directly setting the weights as their class centers, naturally solving the data imbalance problem. In this work, we explicitly re-formulate two discriminative softmax (A-Softmax and AM-Softmax) under the framework of IR-Softmax. We conduct extensive experiments on FR databases (LFW, MegaFace) and re-ID database (Market-1501, Duke), and IR-Softmax outperforms many state-of-the-art methods.
翻訳日:2022-09-22 02:11:48 公開日:2020-11-23
# グラフ注意トラッキング

Graph Attention Tracking ( http://arxiv.org/abs/2011.11204v1 )

ライセンス: Link先を確認
Dongyan Guo, Yanyan Shao, Ying Cui, Zhenhua Wang, Liyan Zhang, Chunhua Shen(参考訳) シームズネットワークに基づくトラッカーは、類似性マッチング問題として視覚追跡タスクを定式化する。 ほとんどのシームズトラッカーは、ターゲットブランチと検索ブランチ間の畳み込み特徴相互相関による類似性学習を実現している。 しかし、対象特徴領域のサイズを事前に固定する必要があるため、これらの相互相関ベースの手法は、非常に悪質な背景情報を保存したり、大量のフォアグラウンド情報を欠いている。 さらに、ターゲットと検索領域のグローバルマッチングは、ターゲット構造と部分レベルの情報をほとんど無視する。 本稿では,この問題を解決するために,汎用オブジェクト追跡のための単純なターゲット認識シアームグラフアテンションネットワークを提案する。 本稿では,完全二部グラフによる対象と検索領域とのパート・ツー・パート対応を確立し,テンプレート特徴から検索特徴へのターゲット情報伝達にグラフ注意機構を適用することを提案する。 さらに,テンプレート-機能領域選択にプリフィックスされた領域トリッピングを用いず,対象領域の選択機構を解析し,異なるオブジェクトのサイズとアスペクト比のバリエーションに適合させる。 GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験では、提案されたSiamGATが多くの最先端トラッカーを上回り、主要な性能を発揮することを示した。 コードは: https://git.io/siamgat

Siamese network based trackers formulate the visual tracking task as a similarity matching problem. Almost all popular Siamese trackers realize the similarity learning via convolutional feature cross-correlation between a target branch and a search branch. However, since the size of target feature region needs to be pre-fixed, these cross-correlation base methods suffer from either reserving much adverse background information or missing a great deal of foreground information. Moreover, the global matching between the target and search region also largely neglects the target structure and part-level information. In this paper, to solve the above issues, we propose a simple target-aware Siamese graph attention network for general object tracking. We propose to establish part-to-part correspondence between the target and the search region with a complete bipartite graph, and apply the graph attention mechanism to propagate target information from the template feature to the search feature. Further, instead of using the pre-fixed region cropping for template-feature-area selection, we investigate a target-aware area selection mechanism to fit the size and aspect ratio variations of different objects. Experiments on challenging benchmarks including GOT-10k, UAV123, OTB-100 and LaSOT demonstrate that the proposed SiamGAT outperforms many state-of-the-art trackers and achieves leading performance. Code is available at: https://git.io/SiamGAT
翻訳日:2022-09-22 02:10:07 公開日:2020-11-23
# 外眼写真における糖尿病の隠れた兆候の検出

Detecting hidden signs of diabetes in external eye photographs ( http://arxiv.org/abs/2011.11732v1 )

ライセンス: Link先を確認
Boris Babenko, Akinori Mitani, Ilana Traynis, Naho Kitade, Preeti Singh, April Maa, Jorge Cuadros, Greg S. Corrado, Lily Peng, Dale R. Webster, Avinash Varadarajan, Naama Hammel, Yun Liu(参考訳) 糖尿病関連網膜状態は、眼の後部を調べることで検出できる。 対照的に、眼の前部を調べると、眼の前面に影響を及ぼす条件が明らかになる(例えば、まぶた、角膜、結晶レンズの変化など)。 本研究では, 糖尿病性網膜疾患と血糖コントロールについて, 眼前眼の外部写真から知見が得られるかを検討した。 米国1州に301例の糖尿病網膜症(DR)スクリーニング部位を有する糖尿病患者145,832例の眼球画像を用いた深部学習システム(DLS)を開発し,他の18州198部位の画像を含む3つの検証セットを用いてDLSを評価した。 検証セットA(n=27,415例,全無治療)では,70.2の受信機動作特性曲線(AUC)以下の領域で血糖コントロール不良(HbA1c > 9%),75.3の中等度または弱度DR,78.0の糖尿病性黄斑浮腫,79.4の視力低下DRが検出された。 全4項目において, DLSのAUCは, 年齢, 性別, 人種, 民族, 糖尿病の年数など, 自己申告ベースライン特性よりも高い(p<0.001)。 予測値の正の面では、予測された上位5%の患者は、hba1c > 9%の確率が67%、視力が糖尿病網膜症を脅かす確率が20%であった。 その結果,拡張瞳孔(評価セットB,5,058例)と異なるスクリーニングサービス(評価セットC,10,402例)に一般化した。 以上の結果から,外部視線写真は糖尿病患者を管理する医療提供者にとって有用な情報を含んでいることが示唆された。 遠隔診断と管理に有用性を評価するためには, 異なるデバイスや患者集団(糖尿病のないもの)でこれらの知見を検証する必要がある。

Diabetes-related retinal conditions can be detected by examining the posterior of the eye. By contrast, examining the anterior of the eye can reveal conditions affecting the front of the eye, such as changes to the eyelids, cornea, or crystalline lens. In this work, we studied whether external photographs of the front of the eye can reveal insights into both diabetic retinal diseases and blood glucose control. We developed a deep learning system (DLS) using external eye photographs of 145,832 patients with diabetes from 301 diabetic retinopathy (DR) screening sites in one US state, and evaluated the DLS on three validation sets containing images from 198 sites in 18 other US states. In validation set A (n=27,415 patients, all undilated), the DLS detected poor blood glucose control (HbA1c > 9%) with an area under receiver operating characteristic curve (AUC) of 70.2; moderate-or-worse DR with an AUC of 75.3; diabetic macular edema with an AUC of 78.0; and vision-threatening DR with an AUC of 79.4. For all 4 prediction tasks, the DLS's AUC was higher (p<0.001) than using available self-reported baseline characteristics (age, sex, race/ethnicity, years with diabetes). In terms of positive predictive value, the predicted top 5% of patients had a 67% chance of having HbA1c > 9%, and a 20% chance of having vision threatening diabetic retinopathy. The results generalized to dilated pupils (validation set B, 5,058 patients) and to a different screening service (validation set C, 10,402 patients). Our results indicate that external eye photographs contain information useful for healthcare providers managing patients with diabetes, and may help prioritize patients for in-person screening. Further work is needed to validate these findings on different devices and patient populations (those without diabetes) to evaluate its utility for remote diagnosis and management.
翻訳日:2022-09-22 02:04:16 公開日:2020-11-23
# STEPs-RL:音声表現学習のための音声テキストの絡み合わせ

STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation Learning ( http://arxiv.org/abs/2011.11387v1 )

ライセンス: Link先を確認
Prakamya Mishra(参考訳) 本稿では,音声とテキストの絡み合いを用いた音声音声表現の学習を行うマルチモーダル深層ニューラルネットワークアーキテクチャを提案する。 STEPs-RLは、その文脈的単語の音声とテキストを用いて、対象の音声単語の音声シーケンスを予測し、そのモデルが有意な潜在表現をエンコードするように教師付き方法で訓練される。 既存の研究と異なり、音声と共に音声を用いて聴覚表現学習を行い、意味的・統語的情報と時間的情報とを捉える。 このモデルにより得られた潜在表現は、89.47%の精度でターゲット音素列を予測できるだけでなく、4つの広く使われている単語類似性ベンチマークデータセットで評価すると、テキスト表現モデルであるWord2Vec & FastText(テキスト転写で訓練された)と競合する結果を得ることができた。 さらに, 生成したベクトル空間の探索により, 提案モデルが発声単語の音声構造を捉える能力を示した。 我々の知る限りでは、既存のどの作品も音声とテキストの絡み合わせを使って、話し言葉の表現を学習しているわけではない。

In this paper, we present a novel multi-modal deep neural network architecture that uses speech and text entanglement for learning phonetically sound spoken-word representations. STEPs-RL is trained in a supervised manner to predict the phonetic sequence of a target spoken-word using its contextual spoken word's speech and text, such that the model encodes its meaningful latent representations. Unlike existing work, we have used text along with speech for auditory representation learning to capture semantical and syntactical information along with the acoustic and temporal information. The latent representations produced by our model were not only able to predict the target phonetic sequences with an accuracy of 89.47% but were also able to achieve competitive results to textual word representation models, Word2Vec & FastText (trained on textual transcripts), when evaluated on four widely used word similarity benchmark datasets. In addition, investigation of the generated vector space also demonstrated the capability of the proposed model to capture the phonetic structure of the spoken-words. To the best of our knowledge, none of the existing works use speech and text entanglement for learning spoken-word representation, which makes this work first of its kind.
翻訳日:2022-09-22 02:03:12 公開日:2020-11-23
# 事前学習型言語モデルの教師なしドメイン適応

Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model ( http://arxiv.org/abs/2011.11499v1 )

ライセンス: Link先を確認
Juntao Li, Ruidan He, Hai Ye, Hwee Tou Ng, Lidong Bing, Rui Yan(参考訳) 最近の研究では、大規模なラベルのないテキストで言語横断モデルの事前学習は、様々な言語横断タスクや低リソースタスクよりも大幅なパフォーマンス向上をもたらすことが示されている。 100の言語とテラバイトのテキストのトレーニングを通じて、言語横断モデルは、低リソースの言語処理と単言語モデルよりも優れる高リソース言語を活用する上で有効であることが証明されている。 本稿では、事前訓練された言語モデルが新しいドメインに適応する必要がある場合の言語間・言語間(CLCD)設定をさらに検討する。 具体的には,未ラベルの原文をソース言語に付与することにより,アンタゴライズされた言語間表現からドメイン固有特徴とドメイン不変特徴を自動的に抽出する,教師なし特徴分解法を提案する。 提案モデルでは,相互情報推定を活用し,言語横断モデルによって計算された表現を,ドメイン不変部分とドメイン固有部分に分割する。 実験結果から,提案手法はCLCD設定における最先端の事前学習言語モデルに対して,大幅な性能向上を実現することが示された。 本論文のソースコードはhttps://github.com/lijuntaopku/ufdで公開されている。

Recent research indicates that pretraining cross-lingual language models on large-scale unlabeled texts yields significant performance improvements over various cross-lingual and low-resource tasks. Through training on one hundred languages and terabytes of texts, cross-lingual language models have proven to be effective in leveraging high-resource languages to enhance low-resource language processing and outperform monolingual models. In this paper, we further investigate the cross-lingual and cross-domain (CLCD) setting when a pretrained cross-lingual language model needs to adapt to new domains. Specifically, we propose a novel unsupervised feature decomposition method that can automatically extract domain-specific features and domain-invariant features from the entangled pretrained cross-lingual representations, given unlabeled raw texts in the source language. Our proposed model leverages mutual information estimation to decompose the representations computed by a cross-lingual model into domain-invariant and domain-specific parts. Experimental results show that our proposed method achieves significant performance improvements over the state-of-the-art pretrained cross-lingual language model in the CLCD setting. The source code of this paper is publicly available at https://github.com/lijuntaopku/UFD.
翻訳日:2022-09-22 02:02:28 公開日:2020-11-23
# Diachronic WordNet バージョンにおける分類学の充実に関する研究

Studying Taxonomy Enrichment on Diachronic WordNet Versions ( http://arxiv.org/abs/2011.11536v1 )

ライセンス: Link先を確認
Irina Nikishina, Alexander Panchenko, Varvara Logacheva, Natalia Loukachevitch(参考訳) オントロジー、分類学、テサウリは多くのNLPタスクで使われている。 しかし、ほとんどの研究は、既存の資源の維持よりも、これらの語彙資源の創出に焦点を当てている。 したがって、分類学の豊か化の問題に対処する。 本稿では,多言語に適応可能な資源不足設定における分類拡張の可能性について検討する。 我々は,分類体系強化モデルを訓練し評価するための新しい英語とロシア語のデータセットを作成し,そのデータセットを他の言語向けに作成する手法を記述した。

Ontologies, taxonomies, and thesauri are used in many NLP tasks. However, most studies are focused on the creation of these lexical resources rather than the maintenance of the existing ones. Thus, we address the problem of taxonomy enrichment. We explore the possibilities of taxonomy extension in a resource-poor setting and present methods which are applicable to a large number of languages. We create novel English and Russian datasets for training and evaluating taxonomy enrichment models and describe a technique of creating such datasets for other languages.
翻訳日:2022-09-22 02:01:53 公開日:2020-11-23
# BERTは感受性を損なうか? アスペクトベース感性モデル改善のための文脈埋め込みと非文脈埋め込みの比較

Does BERT Understand Sentiment? Leveraging Comparisons Between Contextual and Non-Contextual Embeddings to Improve Aspect-Based Sentiment Models ( http://arxiv.org/abs/2011.11673v1 )

ライセンス: Link先を確認
Natesh Reddy, Pranaydeep Singh, Muktabh Mayank Srivastava(参考訳) 文中の異なる単語に対して極性検出を行う場合、感情を理解するために周囲の単語を見る必要がある。 BERTのような事前訓練された言語モデルは、文書内の単語だけでなく、単語の周囲のコンテキストもエンコードできる。 これは「事前訓練された言語モデルは、各単語に関する感情情報を自動的にエンコードするのか?」と疑問を投げかけ、「異なる側面に対して極性を推測するために使われるのか? 本研究では,BERTからコンテキスト埋め込みと一般的な単語埋め込みとの比較をトレーニングすることで,感情を推定できることを示す。 また、BERTと汎用単語埋め込みを比較して構築したモデルの重みのサブセットを微調整すると、アスペクトベース感性分類データセットにおける極性検出のための技術結果が得られます。

When performing Polarity Detection for different words in a sentence, we need to look at the words around to understand the sentiment. Massively pretrained language models like BERT can encode not only just the words in a document but also the context around the words along with them. This begs the questions, "Does a pretrain language model also automatically encode sentiment information about each word?" and "Can it be used to infer polarity towards different aspects?". In this work we try to answer this question by showing that training a comparison of a contextual embedding from BERT and a generic word embedding can be used to infer sentiment. We also show that if we finetune a subset of weights the model built on comparison of BERT and generic word embedding, it can get state of the art results for Polarity Detection in Aspect Based Sentiment Classification datasets.
翻訳日:2022-09-22 02:01:46 公開日:2020-11-23
# 機械学習と自然言語処理技術を用いた学生書議論のモデレーションの分析と支援

Using Machine Learning and Natural Language Processing Techniques to Analyze and Support Moderation of Student Book Discussions ( http://arxiv.org/abs/2011.11712v1 )

ライセンス: Link先を確認
Jernej Vivod(参考訳) 従来の対面学習の強化や代替となる技術の採用が増加し、学生をエンゲージメントし、教師が新しい情報を提示する能力を促進することを目的とした、無数のツールやプラットフォームの開発につながった。 imapbookプロジェクトは、小学生のリテラシーと読書能力を向上させることを目的としており、インタラクティブな電子書籍を提示し、適度な本議論に参加させる。 本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。 本稿では,議論に投稿されたメッセージが議論書に関連があるか,そのメッセージが文なのか,質問なのか,回答なのか,どの広いカテゴリに分類できるかを予測することを目的とする。 使用済みの機能サブセットを徐々に豊かにし、標準分類アルゴリズムと新しいFeature stackingメソッドを使って比較します。 標準分類性能指標とベイズ相関t-testを用いて,議論モデレーションにおける記述法の利用が実現可能であることを示す。 今後は,メッセージの時間的相互依存度が強い場合の重要情報抽出に焦点をあてて,より優れた性能の実現を目指す。

The increasing adoption of technology to augment or even replace traditional face-to-face learning has led to the development of a myriad of tools and platforms aimed at engaging the students and facilitating the teacher's ability to present new information. The IMapBook project aims at improving the literacy and reading comprehension skills of elementary school-aged children by presenting them with interactive e-books and letting them take part in moderated book discussions. This study aims to develop and illustrate a machine learning-based approach to message classification that could be used to automatically notify the discussion moderator of a possible need for an intervention and also to collect other useful information about the ongoing discussion. We aim to predict whether a message posted in the discussion is relevant to the discussed book, whether the message is a statement, a question, or an answer, and in which broad category it can be classified. We incrementally enrich our used feature subsets and compare them using standard classification algorithms as well as the novel Feature stacking method. We use standard classification performance metrics as well as the Bayesian correlated t-test to show that the use of described methods in discussion moderation is feasible. Moving forward, we seek to attain better performance by focusing on extracting more of the significant information found in the strong temporal interdependence of the messages.
翻訳日:2022-09-22 02:01:29 公開日:2020-11-23
# コンテキスト化埋め込みとモデルアーキテクチャの改善によるユーモア中心の感情分析の進展

Advancing Humor-Focused Sentiment Analysis through Improved Contextualized Embeddings and Model Architecture ( http://arxiv.org/abs/2011.11773v1 )

ライセンス: Link先を確認
Felipe Godoy(参考訳) ユーモアは人間の相互作用の自然で基本的な要素である。 正しく適用すれば、ユーモアは感情や感情を便利かつ効果的に表現し、対人関係の愛情、親しみやすさ、信頼を高める。 しかし、ユーモアを理解することは、ユーモアを意識した言語処理モデルの観点から計算的に難しい課題である。 バーチャルアシスタントやiotデバイスを通じて言語モデルが普及するにつれ、ユーモア認識モデルを開発する必要性が指数関数的に高まっている。 この特定の感情分析タスクを実行するための最先端の能力をさらに向上するためには、設計に文脈的要素と非言語的要素を組み込んだモデルを検討する必要がある。 理想的には、言語以外の要素をモデルに追加の埋め込み入力として受け入れるアーキテクチャを求める。 そこで本研究では,非言語情報を用いた文脈的埋め込み改善技術の研究の現状と,一般的な単語埋め込み手法上での文脈保持を改善するための深層アーキテクチャについて分析する。

Humor is a natural and fundamental component of human interactions. When correctly applied, humor allows us to express thoughts and feelings conveniently and effectively, increasing interpersonal affection, likeability, and trust. However, understanding the use of humor is a computationally challenging task from the perspective of humor-aware language processing models. As language models become ubiquitous through virtual-assistants and IOT devices, the need to develop humor-aware models rises exponentially. To further improve the state-of-the-art capacity to perform this particular sentiment-analysis task we must explore models that incorporate contextualized and nonverbal elements in their design. Ideally, we seek architectures accepting non-verbal elements as additional embedded inputs to the model, alongside the original sentence-embedded input. This survey thus analyses the current state of research in techniques for improved contextualized embedding incorporating nonverbal information, as well as newly proposed deep architectures to improve context retention on top of popular word-embeddings methods.
翻訳日:2022-09-22 02:01:07 公開日:2020-11-23
# 深層学習によるニキビ皮膚病変の自動検出と分類

Automatic Detection and Classification of Tick-borne Skin Lesions using Deep Learning ( http://arxiv.org/abs/2011.11459v1 )

ライセンス: Link先を確認
Lauren Michelle Pfeifer and Matias Valdenegro-Toro(参考訳) 世界中で、ダニは様々な細菌、ウイルス、寄生虫の病気を伝染する原因となっている。 ダニ媒介病の発生率は過去10年で大幅に増加し、ライム病の年間感染者はアメリカ合衆国だけで推定30万人に上った。 その結果,病変同定法の改善やダニ媒介疾患の診断への取り組みが重要となる。 本研究の目的は,様々な畳み込みニューラルネットワークモデルを用いて皮膚の皮膚病変を検出することによって,Burlinaらによるアプローチを構築することである。 7つの異なる言語でGoogleから画像を取得してデータ入力を拡張し、トレーニングデータの多様化と皮膚病変検出の精度の向上を検証した。 最終的なデータセットには、約6,080の画像が含まれ、アーキテクチャの組み合わせ(ResNet 34、ResNet 50、VGG 19、Dense Net 121)でトレーニングされた。 DenseNet 121アーキテクチャでトレーニングしたモデルの精度は80.72%でした。

Around the globe, ticks are the culprit of transmitting a variety of bacterial, viral and parasitic diseases. The incidence of tick-borne diseases has drastically increased within the last decade, with annual cases of Lyme disease soaring to an estimated 300,000 in the United States alone. As a result, more efforts in improving lesion identification approaches and diagnostics for tick-borne illnesses is critical. The objective for this study is to build upon the approach used by Burlina et al. by using a variety of convolutional neural network models to detect tick-borne skin lesions. We expanded the data inputs by acquiring images from Google in seven different languages to test if this would diversify training data and improve the accuracy of skin lesion detection. The final dataset included nearly 6,080 images and was trained on a combination of architectures (ResNet 34, ResNet 50, VGG 19, and Dense Net 121). We obtained an accuracy of 80.72% with our model trained on the DenseNet 121 architecture.
翻訳日:2022-09-22 01:53:38 公開日:2020-11-23
# テンソル分解境界損失畳み込みとコンテキスト対応スキップ接続を用いた高忠実度インタラクティブビデオセグメンテーション

High Fidelity Interactive Video Segmentation Using Tensor Decomposition Boundary Loss Convolutional Tessellations and Context Aware Skip Connections ( http://arxiv.org/abs/2011.11602v1 )

ライセンス: Link先を確認
Anthony D. Rhodes, Manan Goel(参考訳) コンテキスト認識によるスキップ接続を伴う畳み込みネットワークを用いた対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(hyperseg)と畳み込みテッセレーション手順を組み合わせた圧縮ハイパーカラム画像特徴を提供する。 高出力忠実性を維持するため,本モデルでは,ダウンサンプリングやプール処理を使わずに,すべての画像特徴を高解像度で処理し,レンダリングする。 提案手法は,(1)高カラム特徴量を調整するために統計的に導いたテンソル分解法を用い,(2)畳み込み型テッセルレーション法を用いて,これらの特徴をそれらのネイティブ解像度に描画する。 画素レベルの分割結果の改善のために境界損失関数を導入し,映像データの時間的コヒーレンスを改善するため,モデルに時間的画像情報を含める。 実験により,高分解能映像データを用いた対話型セグメンテーションタスクにおけるベースラインモデルに対するモデルの精度向上を実証する。 ベンチマークビデオセグメンテーションデータセットであるVFXセグメンテーションデータセットも導入した。これは27,046以上の高解像度ビデオフレームを含み、グリーンスクリーンや様々な複合シーンが対応する手作りのピクセルレベルのセグメンテーションを含む。 本研究は,高分解能データによるアートセグメンテーションの忠実性向上への拡張を示し,vfxパイプラインや医用イメージング分野など,幅広いアプリケーションドメインで利用可能である。

We provide a high fidelity deep learning algorithm (HyperSeg) for interactive video segmentation tasks using a convolutional network with context-aware skip connections, and compressed, hypercolumn image features combined with a convolutional tessellation procedure. In order to maintain high output fidelity, our model crucially processes and renders all image features in high resolution, without utilizing downsampling or pooling procedures. We maintain this consistent, high grade fidelity efficiently in our model chiefly through two means: (1) We use a statistically-principled tensor decomposition procedure to modulate the number of hypercolumn features and (2) We render these features in their native resolution using a convolutional tessellation technique. For improved pixel level segmentation results, we introduce a boundary loss function; for improved temporal coherence in video data, we include temporal image information in our model. Through experiments, we demonstrate the improved accuracy of our model against baseline models for interactive segmentation tasks using high resolution video data. We also introduce a benchmark video segmentation dataset, the VFX Segmentation Dataset, which contains over 27,046 high resolution video frames, including greenscreen and various composited scenes with corresponding, hand crafted, pixel level segmentations. Our work presents an extension to improvement to state of the art segmentation fidelity with high resolution data and can be used across a broad range of application domains, including VFX pipelines and medical imaging disciplines.
翻訳日:2022-09-22 01:53:21 公開日:2020-11-23
# ピクセルから脚へ:四足歩行の階層的学習

From Pixels to Legs: Hierarchical Learning of Quadruped Locomotion ( http://arxiv.org/abs/2011.11722v1 )

ライセンス: Link先を確認
Deepali Jain, Atil Iscen, Ken Caluwaerts(参考訳) 障害物回避と経路計画のために視覚入力を処理しながら、現実の混み合ったシーンや複雑な地形をナビゲートする脚ロボットが必要である。 四足歩行ロボットは階層的強化学習(hrl)により,これら2つのスキルを習得できることを示す。 階層構造により、我々のポリシーは、高レベル(HL)と低レベル(LL)のニューラルネットワークポリシを同時に学習することで、この結合問題を暗黙的に分解することを学ぶ。 これら2つのレベルは低次元の隠蔽層によって接続される。 HLは1対1のカメラビューを受け取り、LLはHLとロボットの内蔵センサーから潜在コマンドを受け取り、アクチュエータを制御する。 私たちは、湾曲した崖と迷路の2つの異なる環境を歩くポリシーを訓練します。 階層的ポリシは,これらの環境においてロコモティとナビゲートを同時に学習し,非階層的ニューラルネットワークポリシよりも効率的であることを示す。 このアーキテクチャはタスク間の知識の再利用も可能にする。 1つのタスクでトレーニングされたllネットワークは、新しい環境で新しいタスクに転送できる。 最後に、カメラ画像を処理するHLは、LLに比べてずっと低い周波数で評価することができ、計算時間と帯域幅の要求を低減できる。

Legged robots navigating crowded scenes and complex terrains in the real world are required to execute dynamic leg movements while processing visual input for obstacle avoidance and path planning. We show that a quadruped robot can acquire both of these skills by means of hierarchical reinforcement learning (HRL). By virtue of their hierarchical structure, our policies learn to implicitly break down this joint problem by concurrently learning High Level (HL) and Low Level (LL) neural network policies. These two levels are connected by a low dimensional hidden layer, which we call latent command. HL receives a first-person camera view, whereas LL receives the latent command from HL and the robot's on-board sensors to control its actuators. We train policies to walk in two different environments: a curved cliff and a maze. We show that hierarchical policies can concurrently learn to locomote and navigate in these environments, and show they are more efficient than non-hierarchical neural network policies. This architecture also allows for knowledge reuse across tasks. LL networks trained on one task can be transferred to a new task in a new environment. Finally HL, which processes camera images, can be evaluated at much lower and varying frequencies compared to LL, thus reducing computation times and bandwidth requirements.
翻訳日:2022-09-22 01:52:14 公開日:2020-11-23
# クラス不均衡によるフェデレーション学習

Federated learning with class imbalance reduction ( http://arxiv.org/abs/2011.11266v1 )

ライセンス: Link先を確認
Miao Yang, Akitanoshou Wong, Hongbin Zhu, Haifeng Wang, Hua Qian(参考訳) フェデレートラーニング(FL)は、多数のエッジコンピューティングデバイスがグローバルラーニングモデルを協調的にトレーニングできるようにする、有望なテクニックである。 プライバシー上の懸念から、デバイス上の生データは集中型サーバでは利用できない。 スペクトル制限と計算能力に制約されるため、訓練されたモデルをトレーニングし、集約のために集中サーバに送信できるデバイスはごく一部のみである。 局所的なデータ分布はすべてのデバイスで異なるため、クラス不均衡問題は不都合なクライアントの選択とともに発生し、グローバルモデルの収束速度が遅くなる。 本稿では,生データを意識せずにクラス分布を明らかにするための推定手法を提案する。 本手法に基づいて,クラス不均衡を最小化するためのデバイス選択アルゴリズムを提案し,グローバルモデルの収束性能を向上させることができる。 シミュレーションの結果,提案アルゴリズムの有効性が示された。

Federated learning (FL) is a promising technique that enables a large amount of edge computing devices to collaboratively train a global learning model. Due to privacy concerns, the raw data on devices could not be available for centralized server. Constrained by the spectrum limitation and computation capacity, only a subset of devices can be engaged to train and transmit the trained model to centralized server for aggregation. Since the local data distribution varies among all devices, class imbalance problem arises along with the unfavorable client selection, resulting in a slow converge rate of the global model. In this paper, an estimation scheme is designed to reveal the class distribution without the awareness of raw data. Based on the scheme, a device selection algorithm towards minimal class imbalance is proposed, thus can improve the convergence performance of the global model. Simulation results demonstrate the effectiveness of the proposed algorithm.
翻訳日:2022-09-22 01:45:31 公開日:2020-11-23
# AutoGraph: グラフニューラルネットワークの自動化

AutoGraph: Automated Graph Neural Network ( http://arxiv.org/abs/2011.11288v1 )

ライセンス: Link先を確認
Yaoman Li and Irwin King(参考訳) グラフは多くのアプリケーションで重要な役割を果たす。 近年,グラフニューラルネットワーク (GNN) はグラフ解析タスクにおいて有望な結果を達成している。 最先端のGNNモデルとしては、例えば、Graph Convolutional Networks (GCN)、Graph Attention Networks (GAT)などがある。 これらの成功にもかかわらず、ほとんどのGNNは浅い構造しか持たない。 これによりGNNの表現力は低下する。 ディープニューラルネットワークのパワーをフル活用するために、最近いくつかのディープGNNが提案されている。 しかし、深いGNNの設計には重要なアーキテクチャ工学が必要である。 本研究では,深部GNNの設計を自動化する手法を提案する。 提案手法では,新しいタイプのスキップ接続をGNNs検索空間に追加し,機能再利用を促進し,消滅する勾配問題を緩和する。 また、進化的アルゴリズムは進化中のGNNの層を増やし、より深いネットワークを生成する。 本手法をグラフノード分類タスクで評価する。 実験の結果,提案手法により生成したGNNは,Cora,Citeseer,Pubmed,PPIデータセットの最先端結果を得ることができることがわかった。

Graphs play an important role in many applications. Recently, Graph Neural Networks (GNNs) have achieved promising results in graph analysis tasks. Some state-of-the-art GNN models have been proposed, e.g., Graph Convolutional Networks (GCNs), Graph Attention Networks (GATs), etc. Despite these successes, most of the GNNs only have shallow structure. This causes the low expressive power of the GNNs. To fully utilize the power of the deep neural network, some deep GNNs have been proposed recently. However, the design of deep GNNs requires significant architecture engineering. In this work, we propose a method to automate the deep GNNs design. In our proposed method, we add a new type of skip connection to the GNNs search space to encourage feature reuse and alleviate the vanishing gradient problem. We also allow our evolutionary algorithm to increase the layers of GNNs during the evolution to generate deeper networks. We evaluate our method in the graph node classification task. The experiments show that the GNNs generated by our method can obtain state-of-the-art results in Cora, Citeseer, Pubmed and PPI datasets.
翻訳日:2022-09-22 01:45:17 公開日:2020-11-23
# ニューラルネットワークにおける偶数活性化関数の利用

A Use of Even Activation Functions in Neural Networks ( http://arxiv.org/abs/2011.11713v1 )

ライセンス: Link先を確認
Fuchang Gao and Boyu Zhang(参考訳) 深層学習技術を科学的発見に適用することへの幅広い関心にもかかわらず、科学的データを正確に記述する解釈可能な公式の学習は非常に困難である。 成功の鍵は、データの基盤構造に関する既存の知識や仮説をディープラーニングモデルアーキテクチャに効果的に統合し、機械学習を導くことである。 現在、そのような統合は損失関数のカスタマイズを通じて一般的に行われている。 本稿では、この構造を反映したカスタムアクティベーション関数を構築することにより、データ構造の既存の知識や仮説を統合する方法を提案する。 具体的には、データから学習する多変量対象関数 $f$ が部分的に交換可能である場合、例えば $f(u,v,w)=f(v,u,w)$ for $u,v\in \mathbb{R}^d$ を考える。 例えば、これらの条件は左右反転下で不変な画像の分類に満足している。 理論実証と実験的検証により,完全結合層のうちの1つにおいて偶数活性化関数を用いることにより,ニューラルネットワークの性能が向上することを示す。 実験的な9次元回帰問題では、非対称アクティベーション関数の1つを「シーガル」アクティベーション関数 $\log(1+x^2)$ に置き換えると、ネットワーク性能が大幅に向上する。 驚くべきことに、活性化関数でさえニューラルネットワークではほとんど使われない。 その結果,カスタマイズされたアクティベーション関数はニューラルネットワークにおいて大きな可能性を秘めている。

Despite broad interest in applying deep learning techniques to scientific discovery, learning interpretable formulas that accurately describe scientific data is very challenging because of the vast landscape of possible functions and the "black box" nature of deep neural networks. The key to success is to effectively integrate existing knowledge or hypotheses about the underlying structure of the data into the architecture of deep learning models to guide machine learning. Currently, such integration is commonly done through customization of the loss functions. Here we propose an alternative approach to integrate existing knowledge or hypotheses of data structure by constructing custom activation functions that reflect this structure. Specifically, we study a common case when the multivariate target function $f$ to be learned from the data is partially exchangeable, \emph{i.e.} $f(u,v,w)=f(v,u,w)$ for $u,v\in \mathbb{R}^d$. For instance, these conditions are satisfied for the classification of images that is invariant under left-right flipping. Through theoretical proof and experimental verification, we show that using an even activation function in one of the fully connected layers improves neural network performance. In our experimental 9-dimensional regression problems, replacing one of the non-symmetric activation functions with the designated "Seagull" activation function $\log(1+x^2)$ results in substantial improvement in network performance. Surprisingly, even activation functions are seldom used in neural networks. Our results suggest that customized activation functions have great potential in neural networks.
翻訳日:2022-09-22 01:45:02 公開日:2020-11-23
# ieee超小型サッカーにおけるコーチタスクに適用される強化学習の解析

An analysis of Reinforcement Learning applied to Coach task in IEEE Very Small Size Soccer ( http://arxiv.org/abs/2011.11785v1 )

ライセンス: Link先を確認
Carlos H. C. Pena, Mateus G. Machado, Mariana S. Barros, Jos\'e D. P. Silva, Lucas D. Maciel, Tsang Ing Ren, Edna N. S. Barros, Pedro H. M. Braga, Hansenclever F. Bassani(参考訳) IEEE Very Small Size Soccer (VSSS) は、3つの小さなロボットからなる2つのチームが互いに対戦するロボットサッカー競技である。 伝統的に、決定論的コーチエージェントは、各相手の戦略に最も適した戦略と構成を選択する。 そのため、コーチの役割はゲームにとって非常に重要である。 そこで本稿では,強化学習(rl)に基づくコーチング課題に対するエンドツーエンドアプローチを提案する。 提案システムは,シミュレーションマッチ中の情報を処理し,対戦相手やゲーム条件に応じて,現在の構成を選択する最適なポリシーを学習する。 シミュレーション環境で3つの異なるチーム(バランス、攻撃的、攻撃的)に対して2つのRLポリシをトレーニングしました。 結果はvssリーグの上位チームのうちの1チームに対して評価され、勝利/負け率を約2.0で達成した後、有望な結果が得られた。

The IEEE Very Small Size Soccer (VSSS) is a robot soccer competition in which two teams of three small robots play against each other. Traditionally, a deterministic coach agent will choose the most suitable strategy and formation for each adversary's strategy. Therefore, the role of a coach is of great importance to the game. In this sense, this paper proposes an end-to-end approach for the coaching task based on Reinforcement Learning (RL). The proposed system processes the information during the simulated matches to learn an optimal policy that chooses the current formation, depending on the opponent and game conditions. We trained two RL policies against three different teams (balanced, offensive, and heavily offensive) in a simulated environment. Our results were assessed against one of the top teams of the VSSS league, showing promising results after achieving a win/loss ratio of approximately 2.0.
翻訳日:2022-09-22 01:44:36 公開日:2020-11-23
# 共振:リアルタイム通信におけるソフトウェア定数をコンテキスト認識モデルに置き換える

Resonance: Replacing Software Constants with Context-Aware Models in Real-time Communication ( http://arxiv.org/abs/2011.12715v1 )

ライセンス: Link先を確認
Jayant Gupchup, Ashkan Aazami, Yaran Fan, Senja Filipi, Tom Finley, Scott Inglis, Marcus Asteborg, Luke Caroll, Rajan Chari, Markus Cozowicz, Vishak Gopal, Vinod Prakash, Sasikanth Bendapudi, Jack Gerrits, Eric Lau, Huazhou Liu, Marco Rossi, Dima Slobodianyk, Dmitri Birjukov, Matty Cooper, Nilesh Javar, Dmitriy Perednya, Sriram Srinivasan, John Langford, Ross Cutler, Johannes Gehrke(参考訳) 大規模なソフトウェアシステムは、ランタイムのパフォーマンスを最適化するために、数百の'constants'をチューニングします。 これらの値は直観、実験、またはA/Bテストによって導かれる。 one-size-fits-all'アプローチは多くの場合、実行時のコンテキストに依存するため、サブ最適である。 本稿では,rtc(real-time communication)アプリケーションであるskypeにおいて,定数を学習コンテキスト関数に置き換える実験的な手法を提案する。 コンテクストバンディット(cb)に基づくシステムである共振について述べる。 実世界の3つの実験の経験を述べる。Skypeのオーディオ、ビデオ、トランスポートコンポーネントに適用する。 カプセル化原理を用いた大規模ソフトウェアシステムにおいて,機械学習(ml)推論を行うという,ユニークかつ実用的な課題が浮かび上がってくる。 最後に、このような開発環境でMLモデルを採用する際の摩擦を軽減するライブラリであるFeatureBrokerをオープンソース化しました。

Large software systems tune hundreds of 'constants' to optimize their runtime performance. These values are commonly derived through intuition, lab tests, or A/B tests. A 'one-size-fits-all' approach is often sub-optimal as the best value depends on runtime context. In this paper, we provide an experimental approach to replace constants with learned contextual functions for Skype - a widely used real-time communication (RTC) application. We present Resonance, a system based on contextual bandits (CB). We describe experiences from three real-world experiments: applying it to the audio, video, and transport components in Skype. We surface a unique and practical challenge of performing machine learning (ML) inference in large software systems written using encapsulation principles. Finally, we open-source FeatureBroker, a library to reduce the friction in adopting ML models in such development environments
翻訳日:2022-09-22 01:44:23 公開日:2020-11-23
# 漸近正規性を超えた経験的ブートストラップ法の漸近性

Asymptotics of the Empirical Bootstrap Method Beyond Asymptotic Normality ( http://arxiv.org/abs/2011.11248v1 )

ライセンス: Link先を確認
Morgane Austern, Vasilis Syrgkanis(参考訳) 統計的推論のための信頼区間を形成する最もよく使われる手法の1つは経験的ブートストラップであり、特に推定器の制限分布が不明な場合に最適である。 しかし、そのユビキタスな役割にもかかわらず、その理論的性質は漸近的でない正規推定器ではよく理解されていない。 本稿では, 安定条件下では, 経験的ブートストラップ推定器の限界分布を確立し, 漸近的に一貫した条件を導出し, 収束速度を定量化する。 さらに、ブートストラップ法を用いて、カバレッジ保証付き信頼区間を構築する3つの方法を提案する。 最後に、一様信頼帯、二サンプル核テスト、ミンマックス確率プログラム、スタック推定器の経験的リスクなどを含む一連の例によって、結果の一般化と厳密性を示す。

One of the most commonly used methods for forming confidence intervals for statistical inference is the empirical bootstrap, which is especially expedient when the limiting distribution of the estimator is unknown. However, despite its ubiquitous role, its theoretical properties are still not well understood for non-asymptotically normal estimators. In this paper, under stability conditions, we establish the limiting distribution of the empirical bootstrap estimator, derive tight conditions for it to be asymptotically consistent, and quantify the speed of convergence. Moreover, we propose three alternative ways to use the bootstrap method to build confidence intervals with coverage guarantees. Finally, we illustrate the generality and tightness of our results by a series of examples, including uniform confidence bands, two-sample kernel tests, minmax stochastic programs and the empirical risk of stacked estimators.
翻訳日:2022-09-22 01:43:50 公開日:2020-11-23
# 畳み込みニューラルネットワークを用いた顔認識の入力アクセス制御への応用

Application of Facial Recognition using Convolutional Neural Networks for Entry Access Control ( http://arxiv.org/abs/2011.11257v1 )

ライセンス: Link先を確認
Lars Lien Ankile, Morgan Feet Heggland, Kjartan Krange(参考訳) 本研究の目的は,畳み込みニューラルネットワークによる顔認識問題に対する解決策を,カメラを用いたホームエントリーアクセス制御システムに適用することを目的として設計することである。 より具体的には、画像中の人物を入力として捉え、その人物を著者の1人か否かを分類する、教師付き分類問題の解決に焦点をあてる。 1) WoodNet と呼ばれるニューラルネットワークをスクラッチから構築,訓練し,(2) ImageNet データベース上で事前学習したネットワークを活用し,プロジェクトのデータやクラスに適応させることで伝達学習を活用する。 著者を認識するためにモデルをトレーニングするために、150万以上の画像を含むデータセットが作成され、著者らとバランスを取っている。 ビデオからの画像抽出と画像拡張技術はデータセット作成に役立った。 結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。 事前訓練されたモデルはウッドネットよりもかなり速く取り付けられ、より一般化したようである。 しかし、これらの結果はいくつか注意点がある。 データセットのコンパイル方法や高精度のため、モデルがある程度データに過度に適合していると考える理由がある。 データコンパイルの方法が加わった結果、テストデータセットはトレーニングデータと十分な違いがなく、モデルの一般化を検証する能力が制限される可能性がある。 しかし,web-camベースのシステムでは,リアルタイムに顔の分類を行い,有望な結果を示し,少なくとも一部のクラスでは,モデルがかなりよく一般化されていることを示す(ビデオ参照)。

The purpose of this paper is to design a solution to the problem of facial recognition by use of convolutional neural networks, with the intention of applying the solution in a camera-based home-entry access control system. More specifically, the paper focuses on solving the supervised classification problem of taking images of people as input and classifying the person in the image as one of the authors or not. Two approaches are proposed: (1) building and training a neural network called WoodNet from scratch and (2) leveraging transfer learning by utilizing a network pre-trained on the ImageNet database and adapting it to this project's data and classes. In order to train the models to recognize the authors, a dataset containing more than 150 000 images has been created, balanced over the authors and others. Image extraction from videos and image augmentation techniques were instrumental for dataset creation. The results are two models classifying the individuals in the dataset with high accuracy, achieving over 99% accuracy on held-out test data. The pre-trained model fitted significantly faster than WoodNet, and seems to generalize better. However, these results come with a few caveats. Because of the way the dataset was compiled, as well as the high accuracy, one has reason to believe the models over-fitted to the data to some degree. An added consequence of the data compilation method is that the test dataset may not be sufficiently different from the training data, limiting its ability to validate generalization of the models. However, utilizing the models in a web-cam based system, classifying faces in real-time, shows promising results and indicates that the models generalized fairly well for at least some of the classes (see the accompanying video).
翻訳日:2022-09-22 01:36:37 公開日:2020-11-23
# アクションスコアを用いた教師なし難易度推定

Unsupervised Difficulty Estimation with Action Scores ( http://arxiv.org/abs/2011.11461v1 )

ライセンス: Link先を確認
Octavio Arriaga and Matias Valdenegro-Toro(参考訳) 機械学習モデルの難易度とバイアスの評価は、現在のモデルが現実の状況に適用されているため、非常に重要になっている。 本稿では,トレーニング中の各サンプルの損失の蓄積に基づいて,難易度を簡易に算出する手法を提案する。 これをアクションスコアと呼びます。 提案手法は,トレーニングプロセスから情報を収集するコールバックとして実装できるので,外部監視を一切必要としない。 我々は、イメージ分類とオブジェクト検出という2つの異なる設定でアプローチをテスト、分析し、両方の設定でアクションスコアがモデルとデータセットのバイアスに関する洞察を提供することを示す。

Evaluating difficulty and biases in machine learning models has become of extreme importance as current models are now being applied in real-world situations. In this paper we present a simple method for calculating a difficulty score based on the accumulation of losses for each sample during training. We call this the action score. Our proposed method does not require any modification of the model neither any external supervision, as it can be implemented as callback that gathers information from the training process. We test and analyze our approach in two different settings: image classification, and object detection, and we show that in both settings the action score can provide insights about model and dataset biases.
翻訳日:2022-09-22 01:36:11 公開日:2020-11-23
# AlphaMatch:Alpha-divergenceによる半教師あり学習の一貫性向上

AlphaMatch: Improving Consistency for Semi-supervised Learning with Alpha-divergence ( http://arxiv.org/abs/2011.11779v1 )

ライセンス: Link先を確認
Chengyue Gong, Dilin Wang, Qiang Liu(参考訳) 半教師付き学習(SSL)は、ラベル付きデータとラベルなしデータの両方を併用することにより、よりデータ効率の高い機械学習への重要なアプローチである。 我々は、データポイントとそれらから派生した拡張データとのラベル一貫性を効率的に強化することにより、データ拡張を利用する効率的なSSL手法であるAlphaMatchを提案する。 私たちの重要な技術的貢献は 1) 信頼度の高いデータの正規化を優先するためにアルファディバイジェンスを使用して、FixMatchと同じような効果を、より柔軟な方法で達成し、 2) fixmatch, uda, mixmatch などの最近のsslメソッドで使用される反復正規化手順よりも収束性がよい,一貫性を実現するための最適化ベースのemライクなアルゴリズムの提案。 AlphaMatchは単純で実装が簡単で、CIFAR-10、SVHN、CIFAR-100、STL-10などの標準ベンチマークで先行技術より一貫して優れている。 具体的には、CIFAR-10の91.3%の精度をクラスごとのラベル付きデータで達成し、FixMatchが達成した88.7%の精度よりも大幅に改善した。

Semi-supervised learning (SSL) is a key approach toward more data-efficient machine learning by jointly leverage both labeled and unlabeled data. We propose AlphaMatch, an efficient SSL method that leverages data augmentations, by efficiently enforcing the label consistency between the data points and the augmented data derived from them. Our key technical contribution lies on: 1) using alpha-divergence to prioritize the regularization on data with high confidence, achieving a similar effect as FixMatch but in a more flexible fashion, and 2) proposing an optimization-based, EM-like algorithm to enforce the consistency, which enjoys better convergence than iterative regularization procedures used in recent SSL methods such as FixMatch, UDA, and MixMatch. AlphaMatch is simple and easy to implement, and consistently outperforms prior arts on standard benchmarks, e.g. CIFAR-10, SVHN, CIFAR-100, STL-10. Specifically, we achieve 91.3% test accuracy on CIFAR-10 with just 4 labelled data per class, substantially improving over the previously best 88.7% accuracy achieved by FixMatch.
翻訳日:2022-09-22 01:35:37 公開日:2020-11-23
# MEG:Multi-Evidence GNN for Multimodal Semantic Forensics

MEG: Multi-Evidence GNN for Multimodal Semantic Forensics ( http://arxiv.org/abs/2011.11286v1 )

ライセンス: Link先を確認
Ekraam Sabir, Ayush Jaiswal, Wael AbdAlmageed, Prem Natarajan(参考訳) フェイクニュースはイメージ、テキスト、ロケーションなどのモダリティにまたがる意味的操作を伴い、その検出にはマルチモーダルな意味的鑑識の開発が必要である。 最近の研究は、画像にまつわる問題に焦点を合わせ、画像再生と呼んでいる -- キャプションやロケーションなどのマルチモーダルメタデータを伴って、デジタル的に操作されていない画像が意味的に誤って表現される。 画像とメタデータを合わせてマルチメディアパッケージを構成する。 問題設定は、潜在的に関連するパッケージのリファレンスデータセットを証拠として、クエリマルチメディアパッケージを認証するために、マルチモーダルなセマンティックフォサイクスを実行するアルゴリズムを必要とする。 既存の手法は、複数のエビデンスを使用することによる潜在的なパフォーマンス改善を無視する単一のエビデンス(回収パッケージ)の使用に限られる。 本稿では,複数の検索パッケージを証拠として効果的に活用し,エビデンス数に拡張可能な,マルチモーダル意味科学のためのグラフニューラルネットワークモデルを提案する。 私たちは、モデルのスケーラビリティとパフォーマンスを既存のメソッドと比較します。 実験の結果,提案手法は,従来の最先端アルゴリズムを最大25%の誤差低減で上回ることがわかった。

Fake news often involves semantic manipulations across modalities such as image, text, location etc and requires the development of multimodal semantic forensics for its detection. Recent research has centered the problem around images, calling it image repurposing -- where a digitally unmanipulated image is semantically misrepresented by means of its accompanying multimodal metadata such as captions, location, etc. The image and metadata together comprise a multimedia package. The problem setup requires algorithms to perform multimodal semantic forensics to authenticate a query multimedia package using a reference dataset of potentially related packages as evidences. Existing methods are limited to using a single evidence (retrieved package), which ignores potential performance improvement from the use of multiple evidences. In this work, we introduce a novel graph neural network based model for multimodal semantic forensics, which effectively utilizes multiple retrieved packages as evidences and is scalable with the number of evidences. We compare the scalability and performance of our model against existing methods. Experimental results show that the proposed model outperforms existing state-of-the-art algorithms with an error reduction of up to 25%.
翻訳日:2022-09-22 01:35:16 公開日:2020-11-23
# DenseNetモデルに基づく癌画像の分類

Cancer image classification based on DenseNet model ( http://arxiv.org/abs/2011.11186v1 )

ライセンス: Link先を確認
Ziliang Zhong, Muhang Zheng, Huafeng Mai, Jianan Zhao, Xinyi Liu(参考訳) コンピュータ支援診断は、医用画像に基づく検査の堅牢な評価方法を確立する。 画像処理は、不要な費用を削減しつつ、病気の分類と検出を容易にする有望な戦略を導入した。 本稿では,より大規模なデジタル病理診断から採取した小さな画像パッチを用いて,転移性癌を効果的に同定する,deepnetブロックに基づく新しい転移性癌の画像分類モデルを提案する。 PatchCamelyon(PCam)ベンチマークデータセットのわずかに修正されたバージョンに対する提案手法を評価する。 データセットは、kaggle competitionが提供するpatchcamelyon(pcam)ベンチマークデータセットのわずかに修正されたバージョンであり、転移検出の臨床的関連タスクを直進二進画像分類タスクに詰め込む。 実験の結果,本モデルはresnet34,vgg19などの古典的手法よりも優れていた。 さらに,データ拡張実験を行い,訓練および検証過程におけるバッチ処理と損失値の関係について検討した。

Computer-aided diagnosis establishes methods for robust assessment of medical image-based examination. Image processing introduced a promising strategy to facilitate disease classification and detection while diminishing unnecessary expenses. In this paper, we propose a novel metastatic cancer image classification model based on DenseNet Block, which can effectively identify metastatic cancer in small image patches taken from larger digital pathology scans. We evaluate the proposed approach to the slightly modified version of the PatchCamelyon (PCam) benchmark dataset. The dataset is the slightly modified version of the PatchCamelyon (PCam) benchmark dataset provided by Kaggle competition, which packs the clinically-relevant task of metastasis detection into a straight-forward binary image classification task. The experiments indicated that our model outperformed other classical methods like Resnet34, Vgg19. Moreover, we also conducted data augmentation experiment and study the relationship between Batches processed and loss value during the training and validation process.
翻訳日:2022-09-22 01:34:42 公開日:2020-11-23
# DeepClimGAN:高分解能気候データ生成装置

DeepClimGAN: A High-Resolution Climate Data Generator ( http://arxiv.org/abs/2011.11705v1 )

ライセンス: Link先を確認
Alexandra Puchko, Robert Link, Brian Hutchinson, Ben Kravitz, Abigail Snyder(参考訳) 地球系モデル(ESM)は、地球大気、陸、海洋の物理と化学をシミュレートし、将来の気候変動シナリオの予測を生成するためにしばしば用いられる。 これらのモデルは繰り返し実行するには計算集約的すぎるが、極端な事象を特徴付けるために分布尾を適切にサンプリングするなど、いくつかの重要な応用において限られた実行セットは不十分である。 妥協として、エミュレータはかなり安価であるが、ESMの複雑さを全て備えているわけではない。 本稿では, ESMエミュレータとして, 条件付き生成逆数ネットワーク(GAN)の使用を実証する。 これにより、選択したシナリオに対してESMが出力するものと一致した毎日の天気データを生成することができる。 特に、GANは、宇宙、時間、気候変数に関する共同確率分布を表現することを目的としており、洪水、干ばつ、熱波などの相関する極端な事象の研究を可能にしている。

Earth system models (ESMs), which simulate the physics and chemistry of the global atmosphere, land, and ocean, are often used to generate future projections of climate change scenarios. These models are far too computationally intensive to run repeatedly, but limited sets of runs are insufficient for some important applications, like adequately sampling distribution tails to characterize extreme events. As a compromise, emulators are substantially less expensive but may not have all of the complexity of an ESM. Here we demonstrate the use of a conditional generative adversarial network (GAN) to act as an ESM emulator. In doing so, we gain the ability to produce daily weather data that is consistent with what ESM might output over any chosen scenario. In particular, the GAN is aimed at representing a joint probability distribution over space, time, and climate variables, enabling the study of correlated extreme events, such as floods, droughts, or heatwaves.
翻訳日:2022-09-22 01:34:26 公開日:2020-11-23
# 内部変数を持つ物理誘導型ニューラルネットワークの連続問題への適用について

On the application of Physically-Guided Neural Networks with Internal Variables to Continuum Problems ( http://arxiv.org/abs/2011.11376v1 )

ライセンス: Link先を確認
Jacobo Ayensa-Jim\'enez, Mohamed H. Doweidar, Jose A. Sanz-Herrera, Manuel Doblar\'e(参考訳) 予測物理学は歴史的に、ある外部刺激と制約の下でシステムの進化を記述する数学的モデルの開発に基づいている。 このような数学的モデルの構造は、システムによって一定の範囲の環境条件内で満たされていると仮定される一連の衛生仮説に依存する。 物理的な知識を使って、ニューラルネットワークのデータ予測能力を知らせる新しい視点が生まれている。 このデータ駆動アプローチの特定の拡張は、内部変数を持つ物理誘導ニューラルネットワーク(PGNNIV)である。 普遍的な物理法則は、あるニューロン値がシステムの内部状態変数として解釈されるように、ニューラルネットワークの制約として使用される。 これにより、ネットワークの容量が解放され、より高速な収束、データニーズの削減、ノイズフィルタリングなどの予測特性が向上する。 さらに、ネットワークのトレーニングには観測可能なデータのみを使用し、トレーニングプロセスの結果として内部状態方程式を抽出することができるため、内部状態モデルの特定の構造を明示する必要はない。 この新しい手法を連続的な物理的問題に拡張し、トレーニングセットで測定可能な値のみを使用する場合の予測能力と説明能力を示す。 深層学習における画像解析のために開発された数学的演算子は、連続体物理学における標準的な関数演算子を考慮し、拡張することができ、両方の共通フレームワークを確立することができる。 提案手法は、不均一性や非線形性を含むいくつかの問題に対する内部構成状態方程式の発見と、データセット全体の予測能力を単一評価のコストで維持する能力を示す。

Predictive Physics has been historically based upon the development of mathematical models that describe the evolution of a system under certain external stimuli and constraints. The structure of such mathematical models relies on a set of hysical hypotheses that are assumed to be fulfilled by the system within a certain range of environmental conditions. A new perspective is now raising that uses physical knowledge to inform the data prediction capability of artificial neural networks. A particular extension of this data-driven approach is Physically-Guided Neural Networks with Internal Variables (PGNNIV): universal physical laws are used as constraints in the neural network, in such a way that some neuron values can be interpreted as internal state variables of the system. This endows the network with unraveling capacity, as well as better predictive properties such as faster convergence, fewer data needs and additional noise filtering. Besides, only observable data are used to train the network, and the internal state equations may be extracted as a result of the training processes, so there is no need to make explicit the particular structure of the internal state model. We extend this new methodology to continuum physical problems, showing again its predictive and explanatory capacities when only using measurable values in the training set. We show that the mathematical operators developed for image analysis in deep learning approaches can be used and extended to consider standard functional operators in continuum Physics, thus establishing a common framework for both. The methodology presented demonstrates its ability to discover the internal constitutive state equation for some problems, including heterogeneous and nonlinear features, while maintaining its predictive ability for the whole dataset coverage, with the cost of a single evaluation.
翻訳日:2022-09-22 01:28:43 公開日:2020-11-23
# マニフォールド分割判別分析

Manifold Partition Discriminant Analysis ( http://arxiv.org/abs/2011.11521v1 )

ライセンス: Link先を確認
Yang Zhou and Shiliang Sun(参考訳) 本稿では,manifold Partition Discriminant Analysis (MPDA) という,次元の教師付き削減のための新しいアルゴリズムを提案する。 これは、クラス内の類似性がデータ多様体の局所的な変化と一致する方向に沿って達成されるような線形埋め込み空間を見つけることを目的としている。 データ多様体を複数の線型部分空間に分割し、一階テイラー展開を利用することで、MPDAは接空間の接続をパラメータ化し、データ多様体を断片的に表現する。 グラフラプラシアン法はデータポイント間のペアワイズインタラクションのみをキャプチャするが,本手法ではデータポイント間のペアワイズインタラクションと高次インタラクション(局所一貫性を用いた)の両方をキャプチャする。 この多様体表現はクラス内類似性の尺度を改善するのに役立ち、さらに次元性低減の性能が向上する。 複数の実世界のデータセットに対する実験結果から,提案手法の有効性が示された。

We propose a novel algorithm for supervised dimensionality reduction named Manifold Partition Discriminant Analysis (MPDA). It aims to find a linear embedding space where the within-class similarity is achieved along the direction that is consistent with the local variation of the data manifold, while nearby data belonging to different classes are well separated. By partitioning the data manifold into a number of linear subspaces and utilizing the first-order Taylor expansion, MPDA explicitly parameterizes the connections of tangent spaces and represents the data manifold in a piecewise manner. While graph Laplacian methods capture only the pairwise interaction between data points, our method capture both pairwise and higher order interactions (using regional consistency) between data points. This manifold representation can help to improve the measure of within-class similarity, which further leads to improved performance of dimensionality reduction. Experimental results on multiple real-world data sets demonstrate the effectiveness of the proposed method.
翻訳日:2022-09-22 01:28:17 公開日:2020-11-23
# 因果効果推定のためのバランス正規化ニューラルネットワークモデル

Balance Regularized Neural Network Models for Causal Effect Estimation ( http://arxiv.org/abs/2011.11199v1 )

ライセンス: Link先を確認
Mehrdad Farajtabar, Andrew Lee, Yuanjian Feng, Vishal Gupta, Peter Dolan, Harish Chandran, Martin Szummer(参考訳) 観察データから個人および平均的な治療効果を推定することは、医療やeコマースのような多くの領域において重要な問題である。 本稿では,マルチヘッドニューラルネットワークアーキテクチャの均衡正則化を提唱する。 我々の研究は、治療された分布と治療されていない分布の違いを減らすための表現学習技術に動機づけられている。 さらに,コントロールグループにおけるコントロールアウトプットに類似した治療グループ内の個人に対するコントロールアウトプットの予測を促すことで,モデルをさらに調整する。 正規化器の異なる重み付けと帰納的推論の間のバイアス分散トレードオフを実験的に検討する。

Estimating individual and average treatment effects from observational data is an important problem in many domains such as healthcare and e-commerce. In this paper, we advocate balance regularization of multi-head neural network architectures. Our work is motivated by representation learning techniques to reduce differences between treated and untreated distributions that potentially arise due to confounding factors. We further regularize the model by encouraging it to predict control outcomes for individuals in the treatment group that are similar to control outcomes in the control group. We empirically study the bias-variance trade-off between different weightings of the regularizers, as well as between inductive and transductive inference.
翻訳日:2022-09-22 01:27:42 公開日:2020-11-23
# 生成逆数シミュレータ

Generative Adversarial Simulator ( http://arxiv.org/abs/2011.11472v1 )

ライセンス: Link先を確認
Jonathan Raiman(参考訳) 機械学習モデル間の知識の蒸留は、教師と学生ネットワーク間のアーキテクチャ変更時のパラメータカウントの削減、パフォーマンス改善、あるいはトレーニング時間の短縮のために、多くの新しい道を開いた。 強化学習の場合、この手法は生徒への教師政策の蒸留にも応用されている。 これまで、政策蒸留はシミュレータや現実世界の軌道へのアクセスを必要としていた。 本稿では,強化学習の文脈における知識蒸留に対するシミュレータフリーアプローチを提案する。 重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。 先行研究により, 教師付き学習モデルを用いてデータフリーな知識蒸留が可能であることが示されているが, これらの手法は, 各クラスに対してのみ, 単一の試行例を生成するのに脆弱である。 本稿では,出力クラス毎に複数の観測を明示的に処理する拡張を提案し,データ生成装置を再起動し,対向的な損失を生かして,出力クラスに対して可能な限り多くの例を見いだそうとしている。 私たちの知る限りでは、これは教師と学生の方針の間のシミュレータフリーな知識蒸留の最初の実演です。 この新しいアプローチは、ベンチマークデータセット(MNIST、Fashion-MNIST、CIFAR-10)上での学生ネットワークのデータフリー学習の状況を改善するとともに、複数の入力モードで問題に対処することを実証する。 また,pong,breakout,seaquestなどの高次元環境において蒸留剤をトレーニングした場合の開封問題も特定した。

Knowledge distillation between machine learning models has opened many new avenues for parameter count reduction, performance improvements, or amortizing training time when changing architectures between the teacher and student network. In the case of reinforcement learning, this technique has also been applied to distill teacher policies to students. Until now, policy distillation required access to a simulator or real world trajectories. In this paper we introduce a simulator-free approach to knowledge distillation in the context of reinforcement learning. A key challenge is having the student learn the multiplicity of cases that correspond to a given action. While prior work has shown that data-free knowledge distillation is possible with supervised learning models by generating synthetic examples, these approaches to are vulnerable to only producing a single prototype example for each class. We propose an extension to explicitly handle multiple observations per output class that seeks to find as many exemplars as possible for a given output class by reinitializing our data generator and making use of an adversarial loss. To the best of our knowledge, this is the first demonstration of simulator-free knowledge distillation between a teacher and a student policy. This new approach improves over the state of the art on data-free learning of student networks on benchmark datasets (MNIST, Fashion-MNIST, CIFAR-10), and we also demonstrate that it specifically tackles issues with multiple input modes. We also identify open problems when distilling agents trained in high dimensional environments such as Pong, Breakout, or Seaquest.
翻訳日:2022-09-22 01:26:56 公開日:2020-11-23
# condLSTM-Q: 地理的スケールにおけるCovid-19死亡率予測のための新しいディープラーニングモデル

condLSTM-Q: A novel deep learning model for predicting Covid-19 mortality in fine geographical Scale ( http://arxiv.org/abs/2011.11507v1 )

ライセンス: Link先を確認
HyeongChan Jo (1), Juhyun Kim (2), Tzu-Chen Huang (3), Yu-Li Ni (1) ((1) Division of Biology and Biological Engineering, Caltech, (2) The Division of Physics Mathematics and Astronomy, Caltech, (3) Walter Burke Institute for Theoretical Physics, Caltech)(参考訳) 異なる時空間スケールに焦点を当てた予測モデルは、新型コロナウイルスのパンデミックに対抗するために政府や医療システムに恩恵をもたらす。 ここでは,2週間の予測ウィンドウで,新型コロナウイルス死亡率の定量予測を行うための,条件付きLong Short-Term Memory Network with Quantile output (condLSTM-Q)を提案する。 この微妙な地理的スケールは、公的に利用可能な予測モデルでは珍しいが有用な特徴であり、州レベルの役人が州内の資源を調整するのに特に役立つ。 condLSTM-Qの定量予測は、予測された死亡死者の分布を人々に知らせ、重大度の軌道のより良い評価を可能にする。 ニューラルネットワークモデルのスケーラビリティと一般化性を考えると、このモデルは追加のデータソースを容易に組み込むことができ、新しいケースや入院などの有用な予測を直感的に生成するためにさらに開発することができる。

Predictive models with a focus on different spatial-temporal scales benefit governments and healthcare systems to combat the COVID-19 pandemic. Here we present the conditional Long Short-Term Memory networks with Quantile output (condLSTM-Q), a well-performing model for making quantile predictions on COVID-19 death tolls at the county level with a two-week forecast window. This fine geographical scale is a rare but useful feature in publicly available predictive models, which would especially benefit state-level officials to coordinate resources within the state. The quantile predictions from condLSTM-Q inform people about the distribution of the predicted death tolls, allowing better evaluation of possible trajectories of the severity. Given the scalability and generalizability of neural network models, this model could incorporate additional data sources with ease, and could be further developed to generate other useful predictions such as new cases or hospitalizations intuitively.
翻訳日:2022-09-22 01:25:57 公開日:2020-11-23
# 身体と脳の共進化のダイナミクス

The Dynamic of Body and Brain Co-Evolution ( http://arxiv.org/abs/2011.11440v1 )

ライセンス: Link先を確認
Paolo Pagliuca and Stefano Nolfi(参考訳) 本稿では,ロボットの身体と制御特性の共進化を可能にする手法を提案する。 ロボットの形態的特性を手作業で設計した形態的バプランに適応させたり、形態的バプランを進化させたりすることができる。 以上の結果から,共適応体と制御特性を持つロボットは,手作り形態を固定したロボットよりも優れていた。 興味深いことに、利点はより良い形態を選択することではなく、制御形質に形態的特徴を共適応し、その逆も可能な相互足場形成プロセスにある。 また,形態変化は必ずしもロボットのスキルに破壊的な影響を及ぼさないことを示した。

We introduce a method that permits to co-evolve the body and the control properties of robots. It can be used to adapt the morphological traits of robots with a hand-designed morphological bauplan or to evolve the morphological bauplan as well. Our results indicate that robots with co-adapted body and control traits outperform robots with fixed hand-designed morphologies. Interestingly, the advantage is not due to the selection of better morphologies but rather to the mutual scaffolding process that results from the possibility to co-adapt the morphological traits to the control traits and vice versa. Our results also demonstrate that morphological variations do not necessarily have destructive effects on robot skills.
翻訳日:2022-09-22 01:19:11 公開日:2020-11-23
# 単語埋め込みモデルがヘイトおよび攻撃的音声検出に及ぼす影響

Effect of Word Embedding Models on Hate and Offensive Speech Detection ( http://arxiv.org/abs/2012.07534v1 )

ライセンス: Link先を確認
Safa Alsafari, Samira Sadaoui, Malek Mouhoub(参考訳) ディープニューラルネットワークはヘイトスピーチ検出問題でうまく採用されている。 にもかかわらず、単語埋め込みモデルがニューラルネットワークの性能に及ぼす影響は文献で適切に検討されていない。 本研究では,2-class,3-class,6-classの異なる検出タスクを用いて,単語埋め込みモデルとニューラルネットワークアーキテクチャが予測精度に与える影響について検討した。 私たちの焦点はアラビア語です。 まず、大規模なアラビア文字コーパスに複数の単語埋め込みモデルを訓練する。 次に、アラビアヘイトと攻撃音声のデータセットに基づいて、各検出タスクに対して、事前訓練された単語埋め込みモデルを用いて、ニューラルネットワーク分類器を訓練する。 このタスクは様々な学習モデルを生み出し、徹底的な比較を行うことができる。 実験分析の結果,3つの検出タスクにおいて,スキップグラムモデルの優越性,cnnネットワークの優越性が示された。

Deep neural networks have been adopted successfully in hate speech detection problems. Nevertheless, the effect of the word embedding models on the neural network's performance has not been appropriately examined in the literature. In our study, through different detection tasks, 2-class, 3-class, and 6-class classification, we investigate the impact of both word embedding models and neural network architectures on the predictive accuracy. Our focus is on the Arabic language. We first train several word embedding models on a large-scale unlabelled Arabic text corpus. Next, based on a dataset of Arabic hate and offensive speech, for each detection task, we train several neural network classifiers using the pre-trained word embedding models. This task yields a large number of various learned models, which allows conducting an exhaustive comparison. The empirical analysis demonstrates, on the one hand, the superiority of the skip-gram models and, on the other hand, the superiority of the CNN network across the three detection tasks.
翻訳日:2022-09-22 01:18:44 公開日:2020-11-23
# 言語ガイド機械アクション

Language guided machine action ( http://arxiv.org/abs/2011.11400v1 )

ライセンス: Link先を確認
Feng Qi(参考訳) ここでは,言語誘導型マシンアクション(lgma)と呼ばれる階層型モジュールネットワークを構築し,そのモジュールが人間の皮質ネットワークを模倣した情報ストリームを処理し,言語誘導行動や意図分解,行動実行前のメンタルシミュレーションといった複数の汎用タスクを実現する。 LGMAは、(1)視覚、言語、感覚運動のマルチモーダル感覚情報を収集する一次感覚システムである。 2)言語を理解・合成するbrocaモジュール、感覚運動子と言語を翻訳するba14/40モジュール、言語と視覚を変換する中間モジュール、そして視覚と視覚の間を変換する上頭頂葉モジュール、そして、将来の空間行動のための認知マップに参加者の視覚オブジェクトと腕の状態を統合するための優れた頭頂葉を含む。 pre-supplementary motor area (pre-sma) はハイレベルインテンションを逐次原子アクションに変換することができるが、smaはこれらの原子アクション、現在のアームおよび参加者オブジェクトステートをセンサーモベクターに統合し、プレモータおよび一次モータを介してアームに対応するトルクを適用することで意図を達成することができる。 ハイレベルエグゼクティブシステムは、言語に基づいた明示的な推論と自主行動のガイドを行うpfcを含み、bgは習慣行動制御センターである。

Here we build a hierarchical modular network called Language guided machine action (LGMA), whose modules process information stream mimicking human cortical network that allows to achieve multiple general tasks such as language guided action, intention decomposition and mental simulation before action execution etc. LGMA contains 3 main systems: (1) primary sensory system that multimodal sensory information of vision, language and sensorimotor. (2) association system involves and Broca modules to comprehend and synthesize language, BA14/40 module to translate between sensorimotor and language, midTemporal module to convert between language and vision, and superior parietal lobe to integrate attended visual object and arm state into cognitive map for future spatial actions. Pre-supplementary motor area (pre-SMA) can converts high level intention into sequential atomic actions, while SMA can integrate these atomic actions, current arm and attended object state into sensorimotor vector to apply corresponding torques on arm via pre-motor and primary motor of arm to achieve the intention. The high-level executive system contains PFC that does explicit inference and guide voluntary action based on language, while BG is the habitual action control center.
翻訳日:2022-09-22 01:18:02 公開日:2020-11-23
# LaHAR:LDAを用いた潜在人間活動認識

LaHAR: Latent Human Activity Recognition using LDA ( http://arxiv.org/abs/2011.11151v1 )

ライセンス: Link先を確認
Zeyd Boukhers, Danniene Wete and Steffen Staab(参考訳) シーケンシャルなマルチセンサーデータの処理は、時間とともにシーケンシャルデータを取得可能なセンサの可用性が劇的に向上するため、多くのタスクにおいて重要となる。 HAR(Human Activity Recognition)は、この可用性の恩恵を受けている分野のひとつです。 事前定義されたアクティビティクラスを考慮してharを扱うほとんどのアプローチとは異なり、本論文は逐次データに潜伏するharパターンを発見するための新しいアプローチを提案する。 そこで我々は,テキスト解析におけるトピックモデリングアプローチであるlatent dirichlet allocation(lda)を採用した。 このデータをldaに適したものにするために,シーケンシャルデータからいわゆる「感覚語」を抽出する。 我々は,挑戦的なharデータセットについて実験を行い,ldaがシーケンシャルデータの基盤構造を明らかにすることが可能であることを実証した。 外部評価の結果,ラベル付きアクティビティと比較して,LDAはHARデータシーケンスを正確にクラスタリングできることがわかった。

Processing sequential multi-sensor data becomes important in many tasks due to the dramatic increase in the availability of sensors that can acquire sequential data over time. Human Activity Recognition (HAR) is one of the fields which are actively benefiting from this availability. Unlike most of the approaches addressing HAR by considering predefined activity classes, this paper proposes a novel approach to discover the latent HAR patterns in sequential data. To this end, we employed Latent Dirichlet Allocation (LDA), which is initially a topic modelling approach used in text analysis. To make the data suitable for LDA, we extract the so-called "sensory words" from the sequential data. We carried out experiments on a challenging HAR dataset, demonstrating that LDA is capable of uncovering underlying structures in sequential data, which provide a human-understandable representation of the data. The extrinsic evaluations reveal that LDA is capable of accurately clustering HAR data sequences compared to the labelled activities.
翻訳日:2022-09-22 01:17:35 公開日:2020-11-23
# 時系列データ計算:ディープラーニングアプローチに関する調査

Time Series Data Imputation: A Survey on Deep Learning Approaches ( http://arxiv.org/abs/2011.11347v1 )

ライセンス: Link先を確認
Chenguang Fang, Chen Wang(参考訳) 時系列は、すべて現実世界のアプリケーションにある。 しかし、センサーの故障や信号の欠如といった予期せぬ事故は時系列の値の欠落を引き起こし、データの利用が困難になる。 そして、従来の分類や回帰、シーケンシャルなデータ統合、予測タスクといった下流のアプリケーションに悪影響を与えるため、データ計算の要求が高まる。 現在、時系列データ計算は様々なカテゴリのメソッドでよく研究されている問題である。 しかし、これらの研究は観測間の時間的関係を取り、時系列を通常の構造化データとして扱い、時間データから情報を失うことは滅多にない。 近年、ディープラーニングモデルに大きな注目を集めている。 深層学習に基づく時系列手法は、データから時系列情報をキャプチャするため、RNNのようなモデルの使用に進歩している。 本稿では,この分野で最近進歩を遂げた深層学習手法を用いた時系列計算技術に着目した。 我々は,それらのモデルアーキテクチャ,その長所,短所,短所,および時系列計算手法の開発を示す効果をレビューし,議論する。

Time series are all around in real-world applications. However, unexpected accidents for example broken sensors or missing of the signals will cause missing values in time series, making the data hard to be utilized. It then does harm to the downstream applications such as traditional classification or regression, sequential data integration and forecasting tasks, thus raising the demand for data imputation. Currently, time series data imputation is a well-studied problem with different categories of methods. However, these works rarely take the temporal relations among the observations and treat the time series as normal structured data, losing the information from the time data. In recent, deep learning models have raised great attention. Time series methods based on deep learning have made progress with the usage of models like RNN, since it captures time information from data. In this paper, we mainly focus on time series imputation technique with deep learning methods, which recently made progress in this field. We will review and discuss their model architectures, their pros and cons as well as their effects to show the development of the time series imputation methods.
翻訳日:2022-09-22 01:17:02 公開日:2020-11-23
# 基底アライメントと重み付けペナルティによる連関関係データモデリングの改善

Improving Federated Relational Data Modeling via Basis Alignment and Weight Penalty ( http://arxiv.org/abs/2011.11369v1 )

ライセンス: Link先を確認
Yilun Lin, Chaochao Chen, Cen Chen and Li Wang(参考訳) 近年,連合学習(fl)が注目を集めている。 プライバシを保存する協調学習パラダイムとして、特にコンピュータビジョンや自然言語処理タスクなど、幅広いアプリケーションを可能にする。 しかし、今日まで、関係データにおける連合学習、すなわち知識グラフ(kg)の研究は限られている。 本稿では,異なる参加者間での kg 上でのフェデレーションモデリングを行うグラフニューラルネットワークアルゴリズムの修正版を提案する。 具体的には,固有データの不均一性問題とアルゴリズム収束の非効率に対処するために,federignと呼ばれる新しい最適化アルゴリズムを提案する。 1)オンクライアントパーソナライゼーションのための最適輸送(ot) 2) 収束を早めるための重み制約。 広範囲にわたる実験が、広く使われているデータセットで行われている。 実験の結果,提案手法はfedavgやfeedproxのような最先端fl法よりも収束性が向上した。

Federated learning (FL) has attracted increasing attention in recent years. As a privacy-preserving collaborative learning paradigm, it enables a broader range of applications, especially for computer vision and natural language processing tasks. However, to date, there is limited research of federated learning on relational data, namely Knowledge Graph (KG). In this work, we present a modified version of the graph neural network algorithm that performs federated modeling over KGs across different participants. Specifically, to tackle the inherent data heterogeneity issue and inefficiency in algorithm convergence, we propose a novel optimization algorithm, named FedAlign, with 1) optimal transportation (OT) for on-client personalization and 2) weight constraint to speed up the convergence. Extensive experiments have been conducted on several widely used datasets. Empirical results show that our proposed method outperforms the state-of-the-art FL methods, such as FedAVG and FedProx, with better convergence.
翻訳日:2022-09-22 01:16:44 公開日:2020-11-23
# ROME:Topology DisentanglementとGradients Accumulationによるメモリ効率NASのロバスト化

ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and Gradients Accumulation ( http://arxiv.org/abs/2011.11233v1 )

ライセンス: Link先を確認
Xiaoxing Wang and Xiangxiang Chu and Yuda Fan and Zhexi Zhang and Xiaolin Wei and Junchi Yan and Xiaokang Yang(参考訳) 単一パスに基づく微分可能なニューラルアーキテクチャ探索は、計算コストが低く、メモリフレンドリな性質を持つ。 しかし、主に無視されてきた厳格な検索不安定に悩まされ、より広いアプリケーションには潜在的な弱点が生じる。 本稿では、その性能崩壊問題を掘り下げ、RObustifying Memory-Efficient NAS (ROME)と呼ばれる新しいアルゴリズムを提案する。 具体的には 1) 探索・評価段階における一貫したトポロジに対して, トポロジをアーキテクチャの操作から切り離すためのパラメータを分離する。 このようにして、接続や操作を干渉なく独立してサンプリングできるのです。 2) サンプリングの不公平さとばらつきを和らげるために, ウェイト更新のための公平なサンプリングを強制し, アーキテクチャパラメータに勾配蓄積機構を適用する。 大規模な実験により,提案手法は高い性能とロバスト性を示し,多くの標準ベンチマークで最先端の結果が得られた。

Single-path based differentiable neural architecture search has great strengths for its low computational cost and memory-friendly nature. However, we surprisingly discover that it suffers from severe searching instability which has been primarily ignored, posing a potential weakness for a wider application. In this paper, we delve into its performance collapse issue and propose a new algorithm called RObustifying Memory-Efficient NAS (ROME). Specifically, 1) for consistent topology in the search and evaluation stage, we involve separate parameters to disentangle the topology from the operations of the architecture. In such a way, we can independently sample connections and operations without interference; 2) to discount sampling unfairness and variance, we enforce fair sampling for weight update and apply a gradient accumulation mechanism for architecture parameters. Extensive experiments demonstrate that our proposed method has strong performance and robustness, where it mostly achieves state-of-the-art results on a large number of standard benchmarks.
翻訳日:2022-09-22 01:09:38 公開日:2020-11-23
# リモートセンシングデータによる産業用煙管の特性評価

Characterization of Industrial Smoke Plumes from Remote Sensing Data ( http://arxiv.org/abs/2011.11344v1 )

ライセンス: Link先を確認
Michael Mommert, Mario Sigel, Marcel Neuhausler, Linus Scheibenreif, Damian Borth(参考訳) 地球温暖化の主な要因は、産業活動から排出される温室効果ガス(ghg)の人為的放出である。 これらの排出量の定量的モニタリングは、地球の気候への影響を十分に理解し、大規模な排出規制を実施するために必須である。 本研究では,ESAのSentinel-2衛星のマルチバンド画像データから,産業用煙煙の検出と定量化の可能性を検討する。 改良されたResNet-50を使用して、94.3%の精度で異なる大きさの煙突を検出することができる。 このモデルは自然雲を正しく無視し、エアロゾルや水蒸気からのスペクトル吸収に関連するイメージングチャネルに注目し、煙の局在化を可能にする。 このローカライズ機能を活用し,ラベル付きサブサンプル上でu-netセグメンテーションモデルをトレーニングした結果,iou(intersection-over-union)メトリックは0.608となり,スモークプルームの検出精度は94.0%となり,平均して画像中の煙に覆われた領域を5.6%まで再現できた。 モデルの性能は,表面の物体との混乱,半透明な煙を識別できないこと,rgbのみの画像に基づく煙を適切に識別できないこと,などがほとんどである。 それにもかかわらず,本研究は,世界中の産業プラントの活動を監視するために,煙活動のレベルを確実に検出し,定性的に推定することを可能にする。 データセットとコードベースは公開されています。

The major driver of global warming has been identified as the anthropogenic release of greenhouse gas (GHG) emissions from industrial activities. The quantitative monitoring of these emissions is mandatory to fully understand their effect on the Earth's climate and to enforce emission regulations on a large scale. In this work, we investigate the possibility to detect and quantify industrial smoke plumes from globally and freely available multi-band image data from ESA's Sentinel-2 satellites. Using a modified ResNet-50, we can detect smoke plumes of different sizes with an accuracy of 94.3%. The model correctly ignores natural clouds and focuses on those imaging channels that are related to the spectral absorption from aerosols and water vapor, enabling the localization of smoke. We exploit this localization ability and train a U-Net segmentation model on a labeled sub-sample of our data, resulting in an Intersection-over-Union (IoU) metric of 0.608 and an overall accuracy for the detection of any smoke plume of 94.0%; on average, our model can reproduce the area covered by smoke in an image to within 5.6%. The performance of our model is mostly limited by occasional confusion with surface objects, the inability to identify semi-transparent smoke, and human limitations to properly identify smoke based on RGB-only images. Nevertheless, our results enable us to reliably detect and qualitatively estimate the level of smoke activity in order to monitor activity in industrial plants across the globe. Our data set and code base are publicly available.
翻訳日:2022-09-22 01:08:55 公開日:2020-11-23
# youtubeビデオからimuデータを生成するための一般的な動きから学ぶ

Yet it moves: Learning from Generic Motions to Generate IMU data from YouTube videos ( http://arxiv.org/abs/2011.11600v1 )

ライセンス: Link先を確認
Vitor Fortes Rey, Kamalveer Kaur Garewal, Paul Lukowicz(参考訳) ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)は、コンピュータビジョンや自然言語処理といった分野よりも、機械学習の最近の進歩の恩恵を受けている。 ラベル付きトレーニングデータの大規模なリポジトリが不足しているため,これは極めて大きな意味を持つ。 本研究の目的は,ほとんどの活動に十分な量のオンラインビデオを使用することで,センサデータよりもラベル付けが容易で,ラベル付きウェアラブルモーションセンサデータをシミュレートすることである。 これまでの研究では、この方向の予備的な結果をすでに示しており、非常に単純で活動に特化したシミュレーションモデルと単一のセンサーモード(加速ノルム)に焦点を当てている。 本稿では、加速度計とジャイロ信号の両方の一般的な動きの回帰モデルをトレーニングし、ターゲット活動のビデオに適用して、HARモデルのトレーニングおよび/または改善に使用できる合成IMUデータ(加速度とジャイロノルム)を生成する方法について述べる。 回帰モデルによって生成されたシミュレーションデータに基づいてトレーニングされたシステムは、実際のセンサデータでトレーニングされたシステムの平均f1スコアの約10%以内に到達できることを実証する。 さらに、モデルキャリブレーションのための少量の実際のセンサデータを含むか、または(一般に)実際のセンサーデータで収集できるよりもビデオからより簡単にシミュレーションデータを生成することができるという事実を単純に活用することによって、実際のセンサーデータの利点を最終的に均等化できることを示す。

Human activity recognition (HAR) using wearable sensors has benefited much less from recent advances in Machine Learning than fields such as computer vision and natural language processing. This is to a large extent due to the lack of large scale repositories of labeled training data. In our research we aim to facilitate the use of online videos, which exists in ample quantity for most activities and are much easier to label than sensor data, to simulate labeled wearable motion sensor data. In previous work we already demonstrate some preliminary results in this direction focusing on very simple, activity specific simulation models and a single sensor modality (acceleration norm)\cite{10.1145/3341162.3345590}. In this paper we show how we can train a regression model on generic motions for both accelerometer and gyro signals and then apply it to videos of the target activities to generate synthetic IMU data (acceleration and gyro norms) that can be used to train and/or improve HAR models. We demonstrate that systems trained on simulated data generated by our regression model can come to within around 10% of the mean F1 score of a system trained on real sensor data. Furthermore we show that by either including a small amount of real sensor data for model calibration or simply leveraging the fact that (in general) we can easily generate much more simulated data from video than we can collect in terms of real sensor data the advantage of real sensor data can be eventually equalized.
翻訳日:2022-09-22 01:08:30 公開日:2020-11-23
# 変圧器モデルとコアテンションのアンサンブルを用いた大規模マルチモーダル分類

Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention ( http://arxiv.org/abs/2011.11735v1 )

ライセンス: Link先を確認
Varnith Chordia, Vijay Kumar BG(参考訳) Eコマースアプリケーションでは、推薦、検索、価格などのさまざまな下流タスクを可能にするため、正確で効率的な製品分類が重要である。 項目にはテキスト情報と視覚情報が含まれており、両方のモダリティを利用すると、どちらのモードのみを利用する分類よりも優れている。 本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。 我々は,事前学習された言語と画像埋め込みを用いた画像-テキスト関係のモデル化に2つの注意手法を用いる。 VQA(Visual Question Answering)タスクには2つの注意が広く使われているが、この概念をマルチモーダル分類に適用するための最初の試みである。

Accurate and efficient product classification is significant for E-commerce applications, as it enables various downstream tasks such as recommendation, retrieval, and pricing. Items often contain textual and visual information, and utilizing both modalities usually outperforms classification utilizing either mode alone. In this paper we describe our methodology and results for the SIGIR eCom Rakuten Data Challenge. We employ a dual attention technique to model image-text relationships using pretrained language and image embeddings. While dual attention has been widely used for Visual Question Answering(VQA) tasks, ours is the first attempt to apply the concept for multimodal classification.
翻訳日:2022-09-22 01:08:06 公開日:2020-11-23
# 潜在空間における進化計画

Evolutionary Planning in Latent Space ( http://arxiv.org/abs/2011.11293v1 )

ライセンス: Link先を確認
Thor V.A.N. Olesen, Dennis T.T. Nguyen, Rasmus Berg Palm, Sebastian Risi(参考訳) 計画はいくつかの望ましい特性を持つ強化学習の強力なアプローチである。 しかし、現実世界の多くの問題では容易には利用できない世界のモデルが必要となる。 本稿では,潜在空間(epls)における進化計画を可能にする世界モデルを学ぶことを提案する。 変動型オートエンコーダ(vae)を用いて、個々の観測の圧縮潜在性表現を学習し、混合密度再帰ニューラルネットワーク(mdrnn)を拡張して、計画に使用できる世界の確率的マルチモーダルフォワードモデルを学ぶ。 我々はRandom Mutation Hill Climbing (RMHC) を用いて、この学習された世界のモデルにおいて期待される報酬を最大化する一連の行動を見つける。 ランダムなポリシーからロールアウトし、学習された世界モデルを使って、より正確な計画ポリシーからロールアウトを繰り返すことで、世界のモデルを構築する方法を実証する。 この改良を数回繰り返した結果、私たちの計画エージェントは、標準的なモデルなし強化学習アプローチよりも優れている。

Planning is a powerful approach to reinforcement learning with several desirable properties. However, it requires a model of the world, which is not readily available in many real-life problems. In this paper, we propose to learn a world model that enables Evolutionary Planning in Latent Space (EPLS). We use a Variational Auto Encoder (VAE) to learn a compressed latent representation of individual observations and extend a Mixture Density Recurrent Neural Network (MDRNN) to learn a stochastic, multi-modal forward model of the world that can be used for planning. We use the Random Mutation Hill Climbing (RMHC) to find a sequence of actions that maximize expected reward in this learned model of the world. We demonstrate how to build a model of the world by bootstrapping it with rollouts from a random policy and iteratively refining it with rollouts from an increasingly accurate planning policy using the learned world model. After a few iterations of this refinement, our planning agents are better than standard model-free reinforcement learning approaches demonstrating the viability of our approach.
翻訳日:2022-09-22 01:07:55 公開日:2020-11-23