このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210729となっている論文です。

PDF登録状況(公開日: 20210729)

TitleAuthorsAbstract論文公表日・翻訳日
# MAIR: 説明可能な人工知能分野における研究論文・戦略・規制間の関係調査のための枠組み

MAIR: Framework for mining relationships between research articles, strategies, and regulations in the field of explainable artificial intelligence ( http://arxiv.org/abs/2108.06216v1 )

ライセンス: Link先を確認
Stanis{\l}aw Gizinski, Micha{\l} Kuzba, Bartosz Pielinski, Julian Sienkiewicz, Stanis{\l}aw {\L}aniewski, Przemys{\l}aw Biecek(参考訳) 高度な意思決定のためのAIアプリケーションの増加は、説明可能かつ解釈可能な機械学習(XI-ML)への関心を高めている。 この傾向は、信頼できるAIを開発するための規制や戦略の数の増加と、このトピックに特化した科学論文の数の増加の両方で見ることができる。 AIの持続可能な開発を保証するためには、研究論文に対する規制の影響のダイナミクスと、AI関連の政策に対する科学的言説の影響を理解することが不可欠である。 本稿では,AI関連政策文書とeXplainable Artificial Intelligence(XAI)研究論文の共同分析のための新しいフレームワークを提案する。 収集された文書にはメタデータと相互接続が組み込まれており、様々なNLP手法とInstitutional Grammarにインスパイアされた方法論が組み合わされている。 収集した文書から抽出した情報に基づいて, 組織化の異なる段階における文書間の相互作用, 類似性, 差異を理解するための一連の分析結果を紹介する。 私たちの知る限りでは、XI-MLメソッドとレギュレーションの間のダイナミクスを理解するために、自動言語分析ツールを使用する最初の作業である。 このようなシステムは、xai研究者とaiポリシメーカの協力向上に寄与すると考えています。

The growing number of AI applications, also for high-stake decisions, increases the interest in Explainable and Interpretable Machine Learning (XI-ML). This trend can be seen both in the increasing number of regulations and strategies for developing trustworthy AI and the growing number of scientific papers dedicated to this topic. To ensure the sustainable development of AI, it is essential to understand the dynamics of the impact of regulation on research papers as well as the impact of scientific discourse on AI-related policies. This paper introduces a novel framework for joint analysis of AI-related policy documents and eXplainable Artificial Intelligence (XAI) research papers. The collected documents are enriched with metadata and interconnections, using various NLP methods combined with a methodology inspired by Institutional Grammar. Based on the information extracted from collected documents, we showcase a series of analyses that help understand interactions, similarities, and differences between documents at different stages of institutionalization . To the best of our knowledge, this is the first work to use automatic language analysis tools to understand the dynamics between XI-ML methods and regulations. We believe that such a system contributes to better cooperation between XAI researchers and AI policymakers.
翻訳日:2021-08-22 14:36:05 公開日:2021-07-29
# 音声認識のためのGPT, GPT-2, BERT言語モデルの適用

Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition ( http://arxiv.org/abs/2108.07789v1 )

ライセンス: Link先を確認
Xianrui Zheng, Chao Zhang and Philip C. Woodland(参考訳) 大量のテキストで事前訓練された言語モデル(LM)、特に変換器(BERT)の双方向エンコーダ表現、生成前訓練(GPT)、GPT-2は、多くの自然言語処理タスクにおいて重要な技術となっている。 本稿では, 微調整GPT, GPT-2とそれらの組み合わせによる自動音声認識(ASR)の結果について述べる。 一方向 LM GPT や GPT-2 とは異なり、BERT は双方向であり、出力確率の直接積はもはや有効な言語事前確率ではない。 数学的に正確に双方向のLM出力に基づいて正しい言語事前確率を計算するための変換法を提案する。 AMI と Switchboard の ASR タスクを用いた実験の結果、微調整 GPT と GPT-2 の組み合わせは、ドメイン内テキストのスクラッチから最大12%の相対的単語誤り率削減 (WERR) で訓練された異なるアーキテクチャと3つのニューラル LM の組合せよりも優れていた。 さらに、言語先行確率の変換提案により、BERTは、さらに3%の相対WERRを受信でき、BERT、GPT、GPT-2の組み合わせにより、さらなる改善がもたらされる。

Language models (LMs) pre-trained on massive amounts of text, in particular bidirectional encoder representations from Transformers (BERT), generative pre-training (GPT), and GPT-2, have become a key technology for many natural language processing tasks. In this paper, we present results using fine-tuned GPT, GPT-2, and their combination for automatic speech recognition (ASR). Unlike unidirectional LM GPT and GPT-2, BERT is bidirectional whose direct product of the output probabilities is no longer a valid language prior probability. A conversion method is proposed to compute the correct language prior probability based on bidirectional LM outputs in a mathematically exact way. Experimental results on the widely used AMI and Switchboard ASR tasks showed that the combination of the fine-tuned GPT and GPT-2 outperformed the combination of three neural LMs with different architectures trained from scratch on the in-domain text by up to a 12% relative word error rate reduction (WERR). Furthermore, the proposed conversion for language prior probabilities enables BERT to receive an extra 3% relative WERR, and the combination of BERT, GPT and GPT-2 results in further improvements.
翻訳日:2021-08-22 14:35:09 公開日:2021-07-29
# (参考訳) 属性誘導スパーステンソルに基づく人物再同定モデル [全文訳有]

Attribute Guided Sparse Tensor-Based Model for Person Re-Identification ( http://arxiv.org/abs/2108.04352v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Ali Dabouei, Sobhan Soleymani, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 人の視覚的知覚は、カメラパラメータやポーズ、視点の変化など、多くの要因の影響を受けやすい。 これらのバリエーションは、人の再識別(ReID)を困難な問題にします。 それでも、人間の属性は通常、そのようなバリエーションに対する堅牢な視覚特性として機能する。 本稿では,人物のReIDの属性から特徴を活用できる新しい手法を提案する。 このモデルでは、非線形なヒューズidと属性特徴にテンソルを用い、損失関数のテンソルのパラメータを強制してreidの識別的融合特徴を生成する。 テンソルベースの手法は通常、多数のパラメータを含むため、これらのパラメータのトレーニングは非常に遅くなり、オーバーフィッティングの機会も増加する。 この問題に対処するために,構造スパーシティ学習(ssl)とテンソル分解(td)に基づく2つの新しい手法を提案する。 いくつかの標準歩行者データセットの実験を行った結果, テンソルベースアプローチは人のReIDベースラインを大幅に改善し, 工法よりも優れていた。

Visual perception of a person is easily influenced by many factors such as camera parameters, pose and viewpoint variations. These variations make person Re-Identification (ReID) a challenging problem. Nevertheless, human attributes usually stand as robust visual properties to such variations. In this paper, we propose a new method to leverage features from human attributes for person ReID. Our model uses a tensor to non-linearly fuse identity and attribute features, and then forces the parameters of the tensor in the loss function to generate discriminative fused features for ReID. Since tensor-based methods usually contain a large number of parameters, training all of these parameters becomes very slow, and the chance of overfitting increases as well. To address this issue, we propose two new techniques based on Structural Sparsity Learning (SSL) and Tensor Decomposition (TD) methods to create an accurate and stable learning problem. We conducted experiments on several standard pedestrian datasets, and experimental results indicate that our tensor-based approach significantly improves person ReID baselines and also outperforms state of the art methods.
翻訳日:2021-08-15 14:35:08 公開日:2021-07-29
# (参考訳) 顔属性予測を改善するマルチタスク学習におけるタスク構造規則化 [全文訳有]

Tasks Structure Regularization in Multi-Task Learning for Improving Facial Attribute Prediction ( http://arxiv.org/abs/2108.04353v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Ali Dabouei, Sobhan Soleymani, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 顔認識特性予測における畳み込みニューラルネットワーク(CNN)の大きな成功は、大量のラベル付き画像に依存する。 顔画像データセットは通常、一般的に使われる属性(性別など)によって注釈付けされるが、他の属性(大きな鼻など)のラベルは限定されており、予測は困難である。 この問題に対処するために,顔属性予測器が他の関連属性の知識を利用してより優れた一般化性能を得る,新しいマルチタスク学習(mtl)パラダイムを用いる。 ここでは、MLTパラダイムを2つの問題設定で活用する。 まず、タスクの構造(例えば顔属性のグループ化パターン)は事前の知識として知られ、同じグループ内のタスク(すなわち予測子)のパラメータは、限られた数の基底タスクの線形結合によって表現されると仮定する。 ここでは、この線形結合の係数に対する空間的制約も、各タスクがより構造化されより単純な方法で表現されると考えられる。 第二に、タスクの構造が未知であると仮定し、ラプラシア正規化フレームワークを用いてタスクの構造とパラメータを共同で学習する。 mtl法を顔属性予測法と比較し,その効果について検討した。

The great success of Convolutional Neural Networks (CNN) for facial attribute prediction relies on a large amount of labeled images. Facial image datasets are usually annotated by some commonly used attributes (e.g., gender), while labels for the other attributes (e.g., big nose) are limited which causes their prediction challenging. To address this problem, we use a new Multi-Task Learning (MTL) paradigm in which a facial attribute predictor uses the knowledge of other related attributes to obtain a better generalization performance. Here, we leverage MLT paradigm in two problem settings. First, it is assumed that the structure of the tasks (e.g., grouping pattern of facial attributes) is known as a prior knowledge, and parameters of the tasks (i.e., predictors) within the same group are represented by a linear combination of a limited number of underlying basis tasks. Here, a sparsity constraint on the coefficients of this linear combination is also considered such that each task is represented in a more structured and simpler manner. Second, it is assumed that the structure of the tasks is unknown, and then structure and parameters of the tasks are learned jointly by using a Laplacian regularization framework. Our MTL methods are compared with competing methods for facial attribute prediction to show its effectiveness.
翻訳日:2021-08-15 14:02:34 公開日:2021-07-29
# (参考訳) 新型コロナウイルスワクチンとソーシャルメディア:Twitter上での感情と議論 [全文訳有]

COVID-19 Vaccine and Social Media: Exploring Emotions and Discussions on Twitter ( http://arxiv.org/abs/2108.04816v1 )

ライセンス: CC BY 4.0
Amir Karami, Michael Zhu, Bailey Goldschmidt, Hannah R. Boyajieff, Mahdi M. Najafabadi(参考訳) 新型コロナウイルスワクチンに対する公衆の反応は、新型コロナウイルスのパンデミックを抑える重要な成功要因だ。 公衆の反応を理解するには、世論を探求する必要がある。 従来の調査は高価で時間がかかり、限られた健康トピックに対処し、小規模のデータを取得する。 Twitterは新型コロナウイルスワクチンに関する世論を理解する素晴らしい機会を提供することができる。 本研究は,covid-19ワクチンのより広い視点を提供するために,大量のツイートを収集し分析するために,計算処理と人間のコーディング手法を用いたアプローチを提案する。 本研究では,ツイートの感情とその時間的傾向を明らかにし,主要な話題を発見し,否定的および非否定的ツイートの話題を比較し,否定的および非否定的ツイートのトップトピックを開示する。 以上の結果から,2020年11月から2021年2月にかけて,新型コロナウイルスワクチンに対する否定的な評価は低下傾向にあった。 われわれはTwitterユーザーが、予防接種サイトから2020年11月から2021年2月の米国大統領選挙まで幅広い話題を議論しているのを発見した。 その結果、ほとんどのトピックの重みに関する負のツイートと非負のツイートの間に有意な差が認められた。 結果は、ネガティブツイートと非ネガティブツイートは、トピックの優先順位と焦点が異なることを示している。

Public response to COVID-19 vaccines is the key success factor to control the COVID-19 pandemic. To understand the public response, there is a need to explore public opinion. Traditional surveys are expensive and time-consuming, address limited health topics, and obtain small-scale data. Twitter can provide a great opportunity to understand public opinion regarding COVID-19 vaccines. The current study proposes an approach using computational and human coding methods to collect and analyze a large number of tweets to provide a wider perspective on the COVID-19 vaccine. This study identifies the sentiment of tweets and their temporal trend, discovers major topics, compares topics of negative and non-negative tweets, and discloses top topics of negative and non-negative tweets. Our findings show that the negative sentiment regarding the COVID-19 vaccine had a decreasing trend between November 2020 and February 2021. We found Twitter users have discussed a wide range of topics from vaccination sites to the 2020 U.S. election between November 2020 and February 2021. The findings show that there was a significant difference between negative and non-negative tweets regarding the weight of most topics. Our results also indicate that the negative and non-negative tweets had different topic priorities and focuses.
翻訳日:2021-08-15 13:22:55 公開日:2021-07-29
# (参考訳) クローズド・インシシデント表面の局所形態計測 [全文訳有]

Local Morphometry of Closed, Implicit Surfaces ( http://arxiv.org/abs/2108.04354v1 )

ライセンス: CC BY 4.0
Bryce A Besler, Tannis D. Kemp, Andrew S. Michalski, Nils D. Forkert, Steven K. Boyd(参考訳) 海馬、肝臓、骨などの解剖学的構造は、向き付け可能な閉じた表面として分析することができる。 これにより体積、面積、平均曲率、ガウス曲率、オイラー・ポアンカレ特性の計算が可能になり、また異なる位相構造間のこれらのモルフォメトリックスを比較することができる。 これらの構造は一般に、埋め込みのゼロレベル集合として曲線進化問題において暗黙的に表される。 実際、解剖学的構造のバイナリイメージは、符号付き距離変換を用いて埋め込む。 しかし、量子化は曲率の正確な計算を妨げ、モルフォメトリーにかなりの誤差をもたらす。 本稿では,ガウスのぼやけた2値像のゼロ交差として,局所形状の高精度な高速な埋め込み手法を提案する。 提案手法は,50個の臨床用ctデータから大腿骨および第四腰椎を基準に検証した。 その結果,符号付き距離変換は局所曲率の量子化誤差が大きいことがわかった。 回帰法とbland-altman解析によるモルフォメトリのグローバル検証により,平均平均曲率の決定係数は,符号付き距離変換で93.8%から提案法で100%に向上した。 表面積については、符号付き距離変換の-5.0%から提案手法の+0.6%に比例バイアスが改善される。 符号付き距離変換では使用不可能なEuler-Poincar\'e特性を98%の精度で改善する。 提案手法は,閉じた暗黙の面のモルフォメトリーを目的とし,局所的かつ大域的に曲率を評価できる。

Anatomical structures such as the hippocampus, liver, and bones can be analyzed as orientable, closed surfaces. This permits the computation of volume, surface area, mean curvature, Gaussian curvature, and the Euler-Poincar\'e characteristic as well as comparison of these morphometrics between structures of different topology. The structures are commonly represented implicitly in curve evolution problems as the zero level set of an embedding. Practically, binary images of anatomical structures are embedded using a signed distance transform. However, quantization prevents the accurate computation of curvatures, leading to considerable errors in morphometry. This paper presents a fast, simple embedding procedure for accurate local morphometry as the zero crossing of the Gaussian blurred binary image. The proposed method was validated based on the femur and fourth lumbar vertebrae of 50 clinical computed tomography datasets. The results show that the signed distance transform leads to large quantization errors in the computed local curvature. Global validation of morphometry using regression and Bland-Altman analysis revealed that the coefficient of determination for the average mean curvature is improved from 93.8% with the signed distance transform to 100% with the proposed method. For the surface area, the proportional bias is improved from -5.0% for the signed distance transform to +0.6% for the proposed method. The Euler-Poincar\'e characteristic is improved from unusable in the signed distance transform to 98% accuracy for the proposed method. The proposed method enables an improved local and global evaluation of curvature for purposes of morphometry on closed, implicit surfaces.
翻訳日:2021-08-15 13:08:02 公開日:2021-07-29
# (参考訳) ランダム幾何グラフの再構築 [全文訳有]

Improved Reconstruction of Random Geometric Graphs ( http://arxiv.org/abs/2107.14323v1 )

ライセンス: CC BY 4.0
Varsha Dani and Josep D\'iaz and Thomas P. Hayes and Cristopher Moore(参考訳) 地理空間や潜在空間、すなわちユークリッド空間や滑らかな部分多様体上の頂点の位置を推定するグラフの埋め込みは、ネットワーク分析、統計推論、グラフ視覚化において一般的なタスクである。 ランダムな幾何グラフの古典的モデルを考えると、$n$の点が一様に領域$n$の正方形に散らばっており、2つの点がそのユークリッド距離が$r$より小さい場合に限る。 再構成問題は、結果のグラフの隣接行列のみを与えられた頂点位置を対称性まで推測することからなる。 r=n^\alpha$ for $\alpha > 0$とすると、高い確率で頂点位置を最大誤差$O(n^\beta)$, $\beta=1/2-(4/3)\alpha$, $\alpha \ge 3/8$, $\beta=0$, そして誤差が$O(\sqrt{\log n})$に再構成するアルゴリズムを与える。 これは以前の結果よりも改善され、$r$未満のエラーで再構築できなかった。 本手法は, グラフ距離と近辺点数に基づく短距離推定のハイブリッドを用いてユークリッド距離を推定する。 我々は、この結果が球面にも当てはまること、そして(幾分異なる指数を持つ)任意の固定次元におけることの証明をスケッチする。

Embedding graphs in a geographical or latent space, i.e., inferring locations for vertices in Euclidean space or on a smooth submanifold, is a common task in network analysis, statistical inference, and graph visualization. We consider the classic model of random geometric graphs where $n$ points are scattered uniformly in a square of area $n$, and two points have an edge between them if and only if their Euclidean distance is less than $r$. The reconstruction problem then consists of inferring the vertex positions, up to symmetry, given only the adjacency matrix of the resulting graph. We give an algorithm that, if $r=n^\alpha$ for $\alpha > 0$, with high probability reconstructs the vertex positions with a maximum error of $O(n^\beta)$ where $\beta=1/2-(4/3)\alpha$, until $\alpha \ge 3/8$ where $\beta=0$ and the error becomes $O(\sqrt{\log n})$. This improves over earlier results, which were unable to reconstruct with error less than $r$. Our method estimates Euclidean distances using a hybrid of graph distances and short-range estimates based on the number of common neighbors. We sketch proofs that our results also apply on the surface of a sphere, and (with somewhat different exponents) in any fixed dimension.
翻訳日:2021-08-15 12:46:35 公開日:2021-07-29
# ドローン配送問題に対する厳密かつヒューリスティックなアプローチ

Exact and Heuristic Approaches to Drone Delivery Problems ( http://arxiv.org/abs/2108.01996v1 )

ライセンス: Link先を確認
J\'ulia C. Freitas, Puca Huachi V. Penna, T\'ulio A. M. Toffolo(参考訳) FSTSP(Flying Sidekick Traveling Salesman Problem)は、トラックとドローンによる配送システムである。 ドローンは1つのパッケージでトラックから打ち上げられ、顧客に届けられる。 それぞれのドローンはトラックに戻り、バッテリーを充電し、別の荷物を拾い、また新しい顧客場所に打ち上げなければならない。 本稿では,新しい混合整数型プログラミング(mip)の定式化と,この問題に対するヒューリスティックなアプローチを提案する。 提案するmip定式化は,前述したすべての例の定式化よりも線形緩和境界が向上し,文献から未解決例を最適に解くことができた。 タブサーチの概念を組み合わせた一般変数近傍探索メタヒューリスティックに基づくハイブリッドヒューリスティックを用いて,大規模インスタンスの高品質な解を求める。 アルゴリズムの効率は文献から1415のベンチマークインスタンスで評価され、最もよく知られたソリューションの80%以上が改善された。

The Flying Sidekick Traveling Salesman Problem (FSTSP) considers a delivery system composed by a truck and a drone. The drone launches from the truck with a single package to deliver to a customer. Each drone must return to the truck to recharge batteries, pick up another package, and launch again to a new customer location. This work proposes a novel Mixed Integer Programming (MIP) formulation and a heuristic approach to address the problem. The proposedMIP formulation yields better linear relaxation bounds than previously proposed formulations for all instances, and was capable of optimally solving several unsolved instances from the literature. A hybrid heuristic based on the General Variable Neighborhood Search metaheuristic combining Tabu Search concepts is employed to obtain high-quality solutions for large-size instances. The efficiency of the algorithm was evaluated on 1415 benchmark instances from the literature, and over 80% of the best known solutions were improved.
翻訳日:2021-08-08 11:07:06 公開日:2021-07-29
# (参考訳) 機械学習による風速と風力の時空間推定:予測、不確実性、技術的ポテンシャル

Spatio-temporal estimation of wind speed and wind power using machine learning: predictions, uncertainty and technical potential ( http://arxiv.org/abs/2108.00859v1 )

ライセンス: CC BY 4.0
Federico Amato, Fabian Guignard, Alina Walch, Nahid Mohajeri, Jean-Louis Scartezzini, Mikhail Kanevski(参考訳) 過去数十年の風力発電能力の成長は、世界の多くの地域で風力エネルギーがエネルギー移動に寄与していることを示している。 モデルに非常に可変で複雑であるため、風力の時空間変動と関連する不確かさの定量化はエネルギープランナーに非常に関係がある。 機械学習は風速と電力の予測を行う一般的なツールとなっている。 しかし、既存のアプローチにはいくつかの制限がある。 i)風速データにおける時空間相関の不十分な考察,(ii)風速予測の不確かさと風力推定への伝播を定量化するための既存手法の欠如,(iii)時間単位の周波数に注目することを含む。 これらの制約を克服するために,不規則に分布する風速測定から正則格子上の時空間場を再構成する枠組みを提案する。 データを時間的に参照される基底関数とその空間分布係数に分解した後、極端な学習機械を用いて空間的にモデル化する。 モデルと予測の不確実性、および風速から風力への変換後の伝播の予測は、データの分布パターンの仮定なしに提供される。 この手法は、スイスで100メートルのハブ高さのタービンに対して250\times 250$m$^2$のグリッド上での1時間当たりの風力ポテンシャルの研究に応用され、同国で最初のデータセットを生成する。 風力発電の可能性は、スイスにおける風力発電の技術的ポテンシャルを見積もるために、風力タービン設備の利用可能な領域と組み合わせられる。 ここで提示される風力推定は、将来の風力発電システムの設計を支援するためのプランナーにとって重要な入力である。

The growth of wind generation capacities in the past decades has shown that wind energy can contribute to the energy transition in many parts of the world. Being highly variable and complex to model, the quantification of the spatio-temporal variation of wind power and the related uncertainty is highly relevant for energy planners. Machine Learning has become a popular tool to perform wind-speed and power predictions. However, the existing approaches have several limitations. These include (i) insufficient consideration of spatio-temporal correlations in wind-speed data, (ii) a lack of existing methodologies to quantify the uncertainty of wind speed prediction and its propagation to the wind-power estimation, and (iii) a focus on less than hourly frequencies. To overcome these limitations, we introduce a framework to reconstruct a spatio-temporal field on a regular grid from irregularly distributed wind-speed measurements. After decomposing data into temporally referenced basis functions and their corresponding spatially distributed coefficients, the latter are spatially modelled using Extreme Learning Machines. Estimates of both model and prediction uncertainties, and of their propagation after the transformation of wind speed into wind power, are then provided without any assumptions on distribution patterns of the data. The methodology is applied to the study of hourly wind power potential on a grid of $250\times 250$ m$^2$ for turbines of 100 meters hub height in Switzerland, generating the first dataset of its type for the country. The potential wind power generation is combined with the available area for wind turbine installations to yield an estimate of the technical potential for wind power in Switzerland. The wind power estimate presented here represents an important input for planners to support the design of future energy systems with increased wind power generation.
翻訳日:2021-08-05 07:46:59 公開日:2021-07-29
# (参考訳) マルチモーダルデータに基づく迅速な災害対応のための機械学習手法 住宅・避難所ニーズの事例 [全文訳有]

A Machine learning approach for rapid disaster response based on multi-modal data. The case of housing & shelter needs ( http://arxiv.org/abs/2108.00887v1 )

ライセンス: CC BY 4.0
Karla Saldana Ochoa Tina Comes(参考訳) 気候変動とともに、洪水や熱帯性サイクロンなどの極端な出来事が、生活を脅かし、貧しく脆弱な人々の幸福を脅かしている。 災害に遭った人々の最も直接的なニーズの1つは避難所を見つけることである。 災害に関するデータの拡散は、すでに命を救い、建物の損傷を特定し、避難所のニーズを評価し、緊急避難所や居留地の設置に適した場所を見つけるためには、広範囲のデータを迅速に組み合わせる必要がある。 このギャップに対処し、総合的な評価を行うために、マルチモーダルデータの融合と高速解析を目的とした機械学習ワークフローを提案する。 このワークフローは、スケーラビリティと幅広いアクセシビリティを確保するために、オープンおよびオンラインデータを中心に構築されている。 世界中の200以上の災害に対する19の特徴データベースに基づいて, 意思決定レベルでの融合手法を用いた。 この技術により、収集されたマルチモーダルデータは、個々の変数の予測を容易にする共通の意味空間を共有することができる。 各融合数値ベクトルは自己組織マップ(som)と呼ばれる教師なしクラスタリングアルゴリズムに供給された。 訓練されたSOMは、将来のケースの予測器として機能し、死者総数、被災者総数、被害総数などの予測結果を可能にし、シェルターおよび住宅セクターにおける評価に関する具体的な勧告を提供する。 このような予測を実現するために,災害前の衛星画像と,その地理的・人口的条件をトレーニングモデルに示すことにより,予測精度62%を達成した。

Along with climate change, more frequent extreme events, such as flooding and tropical cyclones, threaten the livelihoods and wellbeing of poor and vulnerable populations. One of the most immediate needs of people affected by a disaster is finding shelter. While the proliferation of data on disasters is already helping to save lives, identifying damages in buildings, assessing shelter needs, and finding appropriate places to establish emergency shelters or settlements require a wide range of data to be combined rapidly. To address this gap and make a headway in comprehensive assessments, this paper proposes a machine learning workflow that aims to fuse and rapidly analyse multimodal data. This workflow is built around open and online data to ensure scalability and broad accessibility. Based on a database of 19 characteristics for more than 200 disasters worldwide, a fusion approach at the decision level was used. This technique allows the collected multimodal data to share a common semantic space that facilitates the prediction of individual variables. Each fused numerical vector was fed into an unsupervised clustering algorithm called Self-Organizing-Maps (SOM). The trained SOM serves as a predictor for future cases, allowing predicting consequences such as total deaths, total people affected, and total damage, and provides specific recommendations for assessments in the shelter and housing sector. To achieve such prediction, a satellite image from before the disaster and the geographic and demographic conditions are shown to the trained model, which achieved a prediction accuracy of 62 %
翻訳日:2021-08-05 07:45:32 公開日:2021-07-29
# (参考訳) 材料科学におけるベイズ最適化:調査 [全文訳有]

Bayesian Optimization in Materials Science: A Survey ( http://arxiv.org/abs/2108.00002v1 )

ライセンス: CC BY-SA 4.0
Lars Kotthoff and Hud Wahab and Patrick Johnson(参考訳) ベイジアン最適化は、ブラックボックスプロセスの最適化にAIの多くの領域で使われており、多くのアプリケーションで最先端の技術の改善が達成されている。 大規模で複雑な設計空間をインテリジェントに探索し、最適化するコストのかかるプロセスの評価回数を最小化する。 材料科学は、高価な実験やシミュレーションを必要とする評価を伴って、その合成や処理方法を定義する大きな設計空間を与えられた材料特性を最適化する問題を考察している。 ベイズ最適化はそのような問題に取り組むための一般的なアプローチでもあるが、同じ概念を調査している2つのコミュニティの重なりはほとんどない。 本稿では, 材料科学におけるベイズ最適化のアプローチについて, 交配率を高め, 作業重複を回避するための調査を行う。 共同研究に共通する課題と機会を強調する。

Bayesian optimization is used in many areas of AI for the optimization of black-box processes and has achieved impressive improvements of the state of the art for a lot of applications. It intelligently explores large and complex design spaces while minimizing the number of evaluations of the expensive underlying process to be optimized. Materials science considers the problem of optimizing materials' properties given a large design space that defines how to synthesize or process them, with evaluations requiring expensive experiments or simulations -- a very similar setting. While Bayesian optimization is also a popular approach to tackle such problems, there is almost no overlap between the two communities that are investigating the same concepts. We present a survey of Bayesian optimization approaches in materials science to increase cross-fertilization and avoid duplication of work. We highlight common challenges and opportunities for joint research efforts.
翻訳日:2021-08-05 07:34:30 公開日:2021-07-29
# (参考訳) AIOTを用いたスマートシティコマンドコントロールセンターのセキュアソリューション [全文訳有]

Secure solutions for Smart City Command Control Centre using AIOT ( http://arxiv.org/abs/2108.00003v1 )

ライセンス: CC BY 4.0
Balachandar.S and Chinnaiyan.R(参考訳) 人工知能を用いたサイバー攻撃からスマートシティIOTネットワークの堅牢なセキュアなソリューションを構築する。 smart city iot networkでは、さまざまなログコレクタやクラウドやエッジからの直接ソースから収集されたデータは、aiの潜在能力を活用すべきである。 スマートシティのコマンドとコントロールセンターチームは、これらのモデルを活用して、異なる都市IOTネットワークにデプロイし、侵入予測、ネットワークパケットのサージ、潜在的な外部ネットワークからのボットネット攻撃を支援する。 コマンド・アンド・コントロール・センターの利用者からみた重要なユースケース

To build a robust secure solution for smart city IOT network from any Cyber attacks using Artificial Intelligence. In Smart City IOT network, data collected from different log collectors or direct sources from cloud or edge should harness the potential of AI. The smart city command and control center team will leverage these models and deploy it in different city IOT network to help on intrusion prediction, network packet surge, potential botnet attacks from external network. Some of the vital use cases considered based on the users of command-and-control center
翻訳日:2021-08-05 07:19:19 公開日:2021-07-29
# u-gat:covid-19アウトカム予測のためのマルチモーダルグラフアテンションネットワーク

U-GAT: Multimodal Graph Attention Network for COVID-19 Outcome Prediction ( http://arxiv.org/abs/2108.00860v1 )

ライセンス: Link先を確認
Matthias Keicher, Hendrik Burwinkel, David Bani-Harouni, Magdalini Paschali, Tobias Czempiel, Egon Burian, Marcus R. Makowski, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 新型コロナウイルス(COVID-19)の最初の波で、病院は多数の入院患者に圧倒された。 最も可能性の高い個々の疾患の正確な予測は、限られた資源の計画を改善し、患者の最適な治療を見つけることができる。 しかし、新型コロナウイルス(COVID-19)などの新規の疾患を扱う場合、患者固有の要因(例)の影響がある。 疾患の即時進行における体重または既知の共死)は、大きく不明である。 新型コロナウイルスの場合、肺炎患者の集中治療室(ICU)の入院の必要性は、バイタルサイン(例)のような急性の指標によってのみ決定されることが多い。 呼吸速度、血中酸素濃度)は、すべての利用可能なデータを統合した統計分析と意思決定支援システムは、早期の予後を可能にする。 そこで本研究では,画像情報と非画像情報を組み合わせた総合グラフに基づくアプローチを提案する。 具体的には、クラスタリング患者のための人口グラフを構築するためのマルチモーダル類似度指標と、このグラフを処理し、COVID-19患者の結果を予測する画像ベースのエンドツーエンドグラフ注意ネットワークを導入する。 さらに、ネットワークは胸部CT画像を補助タスクとしてセグメント化し、利用可能なメタデータと特徴融合するための画像特徴と放射能を抽出する。 ドイツ、ミュンヘンのklinikum rechts der isarで収集されたデータセットの結果、我々のアプローチは単一モダリティと非グラフベースラインよりも優れていることがわかった。 さらに,このクラスタリングとグラフの注意は,人口グラフ内の患者関係の理解を深め,ネットワークの意思決定過程に関する洞察を与える。

During the first wave of COVID-19, hospitals were overwhelmed with the high number of admitted patients. An accurate prediction of the most likely individual disease progression can improve the planning of limited resources and finding the optimal treatment for patients. However, when dealing with a newly emerging disease such as COVID-19, the impact of patient- and disease-specific factors (e.g. body weight or known co-morbidities) on the immediate course of disease is by and large unknown. In the case of COVID-19, the need for intensive care unit (ICU) admission of pneumonia patients is often determined only by acute indicators such as vital signs (e.g. breathing rate, blood oxygen levels), whereas statistical analysis and decision support systems that integrate all of the available data could enable an earlier prognosis. To this end, we propose a holistic graph-based approach combining both imaging and non-imaging information. Specifically, we introduce a multimodal similarity metric to build a population graph for clustering patients and an image-based end-to-end Graph Attention Network to process this graph and predict the COVID-19 patient outcomes: admission to ICU, need for ventilation and mortality. Additionally, the network segments chest CT images as an auxiliary task and extracts image features and radiomics for feature fusion with the available metadata. Results on a dataset collected in Klinikum rechts der Isar in Munich, Germany show that our approach outperforms single modality and non-graph baselines. Moreover, our clustering and graph attention allow for increased understanding of the patient relationships within the population graph and provide insight into the network's decision-making process.
翻訳日:2021-08-03 15:26:35 公開日:2021-07-29
# マルチモーダルデータを用いたエミッショントモグラフィのための非パラメトリック後方学習

Nonparametric posterior learning for emission tomography with multimodal data ( http://arxiv.org/abs/2108.00866v1 )

ライセンス: Link先を確認
Fedor Goncharov, \'Eric Barat, Thomas Dautremer(参考訳) 本研究はPETやSPECTなどの発光トモグラフィーにおける不確実性定量化問題の研究を継続する。 特に、追加のマルチモーダルデータ(例えば解剖学的MRI画像)が利用可能である場合のシナリオを考察する。 この問題を解決するために,最近提案されている非パラメトリック後方学習手法をpoisson型エミッショントモグラフィの文脈に適用する。 このアプローチを使うことで、簡単に並列化可能でスケーラブルで実装が容易なサンプリングアルゴリズムを導出します。 また,少量のノイズ限界(すなわち取得時間が無限になる傾向がある場合)における生成試料の分布の条件的一貫性とタイトネスを証明し,mri画像の使用方法に関する新たな幾何学的,必要条件を導出する。 この条件は、不特定の一般化ポアソンモデルの文脈で自然に生じる。 我々はまた,PET や SPECT のEM-type アルゴリズムの文脈で非常によく用いられるデータ拡張スキームに基づくベイズMCMCサンプリングと対比した。 このようなデータ拡張がマルコフ連鎖の混合時間を大幅に増加させることを理論的および数値的に示す。 これを踏まえると、我々のアルゴリズムは設計の複雑さ、拡張性、数値負荷、不確実性定量化の必要性との間に合理的なトレードオフを与えているように見える。

In this work we continue studies of the uncertainty quantification problem in emission tomographies such as PET or SPECT. In particular, we consider a scenario when additional multimodal data (e.g., anatomical MRI images) are available. To solve the aforementioned problem we adapt the recently proposed nonparametric posterior learning technique to the context of Poisson-type data in emission tomography. Using this approach we derive sampling algorithms which are trivially parallelizable, scalable and very easy to implement. In addition, we prove conditional consistency and tightness for the distribution of produced samples in the small noise limit (i.e., when the acquisition time tends to infinity) and derive new geometrical and necessary condition on how MRI images must be used. This condition arises naturally in the context of misspecified generalized Poisson models. We also contrast our approach with bayesian MCMC sampling based a data augmentation scheme which is very popular in the context of EM-type algorithms for PET or SPECT. We show theoretically and also numerically that such data augmentation significantly increases mixing times for the Markov chain. In view of this, our algorithms seem to give a reasonable trade-off between design complexity, scalability, numerical load and asessement for the uncertainty quantification.
翻訳日:2021-08-03 15:03:57 公開日:2021-07-29
# ダークネットへのズームイン:インターネットの背景放射特性とその構造変化

Zooming Into the Darknet: Characterizing Internet Background Radiation and its Structural Changes ( http://arxiv.org/abs/2108.00079v1 )

ライセンス: Link先を確認
Michalis Kallitsis, Vasant Honavar, Rupesh Prajapati, Dinghao Wu, and John Yen(参考訳) ネットワーク望遠鏡(Darknet)は、マルウェアの伝播、サービス攻撃の否定、ネットワーク偵察のためのスキャンなどに関連する、インターネット全体の悪意ある活動にユニークな窓を提供する。 得られたデータの分析は、サイバー脅威の防止や緩和に使用できるセキュリティアナリストに実用的な洞察を与えることができる。 しかし、大きなダークネットは、毎日何百万もの恐ろしい出来事を観測し、捕獲された情報を有意義な洞察に変換する。 本研究では,ダークネットの挙動と時間的進化を特徴付ける新しい枠組みを提案する。 The proposed framework: (i) Extracts a high dimensional representation of Darknet events composed of features distilled from Darknet data and other external sources; (ii) Learns, in an unsupervised fashion, an information-preservi ng low-dimensional representation of these events (using deep representation learning) that is amenable to clustering; (iv) Performs clustering of the scanner data in the resulting representation space and provides interpretable insights using optimal decision trees; and (v) Utilizes the clustering outcomes as "signatures" that can be used to detect structural changes in the Darknet activities. 提案システムを大規模ネットワーク望遠鏡で評価し,実世界,ハイインパクトなサイバーセキュリティインシデントを検出する能力を示す。

Network telescopes or "Darknets" provide a unique window into Internet-wide malicious activities associated with malware propagation, denial of service attacks, scanning performed for network reconnaissance, and others. Analyses of the resulting data can provide actionable insights to security analysts that can be used to prevent or mitigate cyber-threats. Large Darknets, however, observe millions of nefarious events on a daily basis which makes the transformation of the captured information into meaningful insights challenging. We present a novel framework for characterizing Darknet behavior and its temporal evolution aiming to address this challenge. The proposed framework: (i) Extracts a high dimensional representation of Darknet events composed of features distilled from Darknet data and other external sources; (ii) Learns, in an unsupervised fashion, an information-preservi ng low-dimensional representation of these events (using deep representation learning) that is amenable to clustering; (iv) Performs clustering of the scanner data in the resulting representation space and provides interpretable insights using optimal decision trees; and (v) Utilizes the clustering outcomes as "signatures" that can be used to detect structural changes in the Darknet activities. We evaluate the proposed system on a large operational Network Telescope and demonstrate its ability to detect real-world, high-impact cybersecurity incidents.
翻訳日:2021-08-03 15:02:47 公開日:2021-07-29
# 非線形回帰のための高密度結合ニューラルネットワーク

Densely connected neural networks for nonlinear regression ( http://arxiv.org/abs/2108.00864v1 )

ライセンス: Link先を確認
Chao Jiang, Canchen Jiang, Dongwei Chen, Fei Hu(参考訳) 複雑な連結畳み込みネットワーク(DenseNet)は画像処理において良好に動作する。 しかし、回帰タスクでは、畳み込みDenseNetは独立した入力機能から重要な情報を失う可能性がある。 そこで本研究では, 畳み込みとプーリング層を完全連結層に置き換え, 元の連結近道を維持して機能を再利用する, 新たな密集型回帰モデルを提案する。 提案モデルの深さと入力寸法の影響を調べるために,広範囲な数値シミュレーションにより注意深い検証を行う。 結果は最適な深さ(19)を与え、限られた入力次元(200以下)を推奨する。 さらに,支援ベクトル回帰,決定木回帰,残差回帰を含むベースラインモデルと比較して,最適深さのモデルが最適である。 最終的に、密度ネット回帰は相対湿度の予測に応用され、結果は観測と高い相関(0.91)を示し、このモデルが環境データ解析を前進させる可能性を示唆する。

Densely connected convolutional networks (DenseNet) behave well in image processing. However, for regression tasks, convolutional DenseNet may lose essential information from independent input features. To tackle this issue, we propose a novel DenseNet regression model where convolution and pooling layers are replaced by fully connected layers and the original concatenation shortcuts are maintained to reuse the feature. To investigate the effects of depth and input dimension of proposed model, careful validations are performed by extensive numerical simulation. The results give an optimal depth (19) and recommend a limited input dimension (under 200). Furthermore, compared with the baseline models including support vector regression, decision tree regression, and residual regression, our proposed model with the optimal depth performs best. Ultimately, DenseNet regression is applied to predict relative humidity, and the outcome shows a high correlation (0.91) with observations, which indicates that our model could advance environmental data analysis.
翻訳日:2021-08-03 14:53:30 公開日:2021-07-29
# (参考訳) 深層ニューラルネットワークとドメイン知識を用いた強化学習の導入 [全文訳有]

Incorporation of Deep Neural Network & Reinforcement Learning with Domain Knowledge ( http://arxiv.org/abs/2107.14613v1 )

ライセンス: CC0 1.0
Aryan Karn, Ashutosh Acharya(参考訳) 本稿では,ニューラルネットワークを用いたモデル構築において,ドメイン情報を組み込んだ手法について述べる。 空間データの統合は、知識理解モデルの開発や、ヒューマン・マシン・インタフェースと強化学習を活用することで情報理解を支援する他の分野において、特に重要である。 このような多くの機会において、機械ベースのモデル開発は、適切な正確な構造で符号化された世界の人間の情報から本質的に利益を得るかもしれない。 本稿では, 意味的, 数学的制約などの情報をエンコードする方法の広範性について検討し, それらすべての手法の下でいくつかのサブカテゴリに到達した手法と結果について述べる。

We present a study of the manners by which Domain information has been incorporated when building models with Neural Networks. Integrating space data is uniquely important to the development of Knowledge understanding model, as well as other fields that aid in understanding information by utilizing the human-machine interface and Reinforcement Learning. On numerous such occasions, machine-based model development may profit essentially from the human information on the world encoded in an adequately exact structure. This paper inspects expansive ways to affect encode such information as sensible and mathematical limitations and portrays methods and results that came to a couple of subcategories under all of those methodologies.
翻訳日:2021-08-02 21:39:50 公開日:2021-07-29
# (参考訳) 機械学習に基づく診断における不確かさの定量化 [全文訳有]

Quantifying Uncertainty for Machine Learning Based Diagnostic ( http://arxiv.org/abs/2107.14261v1 )

ライセンス: CC BY 4.0
Owen Convery, Lewis Smith, Yarin Gal, Adi Hanuka(参考訳) 仮想診断(VD)は、診断出力を予測するために使用できるディープラーニングツールである。 VDは特に、出力の測定が侵入的、制限され、コストがかかるシステムや、出力を傷つけるリスクを負うシステムで有用である。 予測を考えると、その予測がどの程度信頼できるかを伝える必要がある。 これは予測の「不確かさ定量化」として知られている。 本稿では,SLACにおけるLinac Coherent Light Sourceの実験データに対する予測の不確実性の生成と解析を行うために,アンサンブル法と量子回帰ニューラルネットワークを用いる。 我々は、電子ビームの現在のプロファイルまたは長手位相空間像を正確かつ確実に予測することを目指している。 不確実性の下で情報的決定を行う能力は、ディープラーニングツールを粒子加速器として安全クリティカルなシステムに確実に展開するために重要である。

Virtual Diagnostic (VD) is a deep learning tool that can be used to predict a diagnostic output. VDs are especially useful in systems where measuring the output is invasive, limited, costly or runs the risk of damaging the output. Given a prediction, it is necessary to relay how reliable that prediction is. This is known as 'uncertainty quantification' of a prediction. In this paper, we use ensemble methods and quantile regression neural networks to explore different ways of creating and analyzing prediction's uncertainty on experimental data from the Linac Coherent Light Source at SLAC. We aim to accurately and confidently predict the current profile or longitudinal phase space images of the electron beam. The ability to make informed decisions under uncertainty is crucial for reliable deployment of deep learning tools on safety-critical systems as particle accelerators.
翻訳日:2021-08-02 21:21:31 公開日:2021-07-29
# (参考訳) ビデオシャドウ検出のための時間的特徴ワープ [全文訳有]

Temporal Feature Warping for Video Shadow Detection ( http://arxiv.org/abs/2107.14287v1 )

ライセンス: CC BY 4.0
Shilin Hu, Hieu Le, Dimitris Samaras(参考訳) 近年,シングルイメージシャドウ検出は急速に改善されているが,データ不足や時間的一貫性のモデル化が難しいため,ビデオシャドウ検出は依然として困難な課題である。 現在のビデオシャドウ検出法は、時間的コヒーレントであるが、移動するシャドウや小さなシャドウ領域を検出できない情報を利用するコアテンションによってこの目標を達成する。 本稿では,情報を時間的によりよく集約する,シンプルだが強力な手法を提案する。 光フローベースのワーピングモジュールを使用して、フレーム間の特徴の調整と結合を行います。 このワープモジュールを複数のディープネットワーク層にまたがって適用し、ローカル情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。 ViShaデータセットでフレームワークをトレーニングし、テストします。 実験の結果,本モデルは最先端ビデオシャドー検出法を28%上回り,berを16.7から12.0に削減した。

While single image shadow detection has been improving rapidly in recent years, video shadow detection remains a challenging task due to data scarcity and the difficulty in modelling temporal consistency. The current video shadow detection method achieves this goal via co-attention, which mostly exploits information that is temporally coherent but is not robust in detecting moving shadows and small shadow regions. In this paper, we propose a simple but powerful method to better aggregate information temporally. We use an optical flow based warping module to align and then combine features between frames. We apply this warping module across multiple deep-network layers to retrieve information from neighboring frames including both local details and high-level semantic information. We train and test our framework on the ViSha dataset. Experimental results show that our model outperforms the state-of-the-art video shadow detection method by 28%, reducing BER from 16.7 to 12.0.
翻訳日:2021-08-02 21:15:17 公開日:2021-07-29
# (参考訳) 欠落値を有する多変量臨床時系列用自己教師付き変圧器 [全文訳有]

Self-supervised Transformer for Multivariate Clinical Time-Series with Missing Values ( http://arxiv.org/abs/2107.14293v1 )

ライセンス: CC BY 4.0
Sindhu Tipirneni, Chandan K. Reddy(参考訳) 多変量時系列(mvts)データはクリティカルケアの設定で頻繁に観測され、通常過剰な欠如と不規則な時間間隔によって特徴付けられる。 このドメインにおける既存の学習表現のアプローチは、値の集約またはインプテーションによってそのような問題を処理し、インターンできめ細かい情報を抑圧し、望ましくないノイズ/オーバヘッドを機械学習モデルに追加する。 この課題に取り組むために,従来の密行列表現ではなく,時系列を観測トリプレットの集合として扱うことにより,これらの落とし穴を回避できるstrats(self-supervis ed transformer for timeseries)モデルを提案する。 離散化を必要とせず、連続時間と可変値のエンコードに新しい連続値埋め込み(cve)技術を用いる。 マルチヘッドアテンションレイヤを備えたTransformerコンポーネントで構成されており、繰り返しアーキテクチャで発生する繰り返しや消失する勾配の問題を避けながら、コンテキストトリプルの埋め込みを学習することができる。 多くの医療データセットもラベル付きデータの可用性の制限に悩まされている。 本モデルでは,教師なしデータを利用して,自己教師ありタスクとして時系列予測を行うことで,より良い表現を学習する。 実世界の多変量臨床時系列ベンチマークデータセットにおける実験は、stratsが死亡予測のための最先端の手法よりも優れた予測性能を示していることを示している。 最後に,STraTSの解釈可能なバージョンを提示し,時系列データから重要な測定値を特定する。

Multivariate time-series (MVTS) data are frequently observed in critical care settings and are typically characterized by excessive missingness and irregular time intervals. Existing approaches for learning representations in this domain handle such issues by either aggregation or imputation of values, which in-turn suppresses the fine-grained information and adds undesirable noise/overhead into the machine learning model. To tackle this challenge, we propose STraTS (Self-supervised Transformer for TimeSeries) model which bypasses these pitfalls by treating time-series as a set of observation triplets instead of using the traditional dense matrix representation. It employs a novel Continuous Value Embedding (CVE) technique to encode continuous time and variable values without the need for discretization. It is composed of a Transformer component with Multi-head attention layers which enables it to learn contextual triplet embeddings while avoiding problems of recurrence and vanishing gradients that occur in recurrent architectures. Many healthcare datasets also suffer from the limited availability of labeled data. Our model utilizes self-supervision by leveraging unlabeled data to learn better representations by performing time-series forecasting as a self-supervision task. Experiments on real-world multivariate clinical time-series benchmark datasets show that STraTS shows better prediction performance than state-of-the-art methods for mortality prediction, especially when labeled data is limited. Finally, we also present an interpretable version of STraTS which can identify important measurements in the time-series data.
翻訳日:2021-08-02 21:06:46 公開日:2021-07-29
# (参考訳) 時系列予測における特徴量の時間依存性 [全文訳有]

Temporal Dependencies in Feature Importance for Time Series Predictions ( http://arxiv.org/abs/2107.14317v1 )

ライセンス: CC BY 4.0
Clayton Rooke, Jonathan Smith, Kin Kwan Leung, Maksims Volkovs, Saba Zuberi(参考訳) 多変量時系列予測のための逐次モデルに適用する説明手法が機械学習文献で注目を集めている。 現状の手法は, 実例的説明の提供に長けているが, 長期にわたって, 複雑な特徴の相互作用を伴って, 効率よく正確に属性を作成できない。 ウィンドウ設定において,複数のインスタンスにまたがる予測分布の変化を定量化することにより,時系列予測設定における特徴重要度を評価するフレームワークWinITを提案する。 包括的実証的証拠により,本手法は,時間的依存性を重要視することで,先行する最先端の適合性が向上することが示された。 また,既存の解釈手法ではできない場合が多い時間ステップ内で,適切な機能帰属をソリューションがいかに改善するかを実証する。 シミュレーションデータと実世界の臨床データの比較を行った。 WinIT は FIT の2.47倍の性能を達成しており、実際のMIMIC の致命的課題における他の特徴的重要な手法である。 この作業のコードはhttps://github.com/l ayer6ai-labs/winitで入手できる。

Explanation methods applied to sequential models for multivariate time series prediction are receiving more attention in machine learning literature. While current methods perform well at providing instance-wise explanations, they struggle to efficiently and accurately make attributions over long periods of time and with complex feature interactions. We propose WinIT, a framework for evaluating feature importance in time series prediction settings by quantifying the shift in predictive distribution over multiple instances in a windowed setting. Comprehensive empirical evidence shows our method improves on the previous state-of-the-art, FIT, by capturing temporal dependencies in feature importance. We also demonstrate how the solution improves the appropriate attribution of features within time steps, which existing interpretability methods often fail to do. We compare with baselines on simulated and real-world clinical data. WinIT achieves 2.47x better performance than FIT and other feature importance methods on real-world clinical MIMIC-mortality task. The code for this work is available at https://github.com/l ayer6ai-labs/WinIT.
翻訳日:2021-08-02 20:52:29 公開日:2021-07-29
# (参考訳) PiBase:Raspberry PiとGoogle Firebaseを使用したIoTベースのセキュリティシステム [全文訳有]

PiBase: An IoT-based Security System using Raspberry Pi and Google Firebase ( http://arxiv.org/abs/2107.14325v1 )

ライセンス: CC BY 4.0
Venkat Margapuri, Niketa Penumajji, Mitchell Neilsen(参考訳) スマート環境は、デジタルデバイスがインターネット上で相互に接続され、同期して動作する環境である。 このような環境では、セキュリティが最も重要である。 本稿では,スマート環境における認証アクセスと侵入者検出について述べる。 提案されているPiBaseは、IoT(Internet of Things)ベースのアプリケーションで、侵入者を検出し、セキュリティを提供する。 このアプリケーションのハードウェアはraspberry piと、環境中の赤外線から動きを検出するpirモーションセンサーと、android携帯電話とカメラで構成されている。 アプリケーションのソフトウェアはJava、Python、NodeJSで書かれている。 Raspberry Piに接続するPIRセンサーとカメラモジュールは、人間の侵入を検知する。 機械学習アルゴリズム(Haar-feature based cascade classifiers)とLBPH(Linear Binary Pattern Histograms)は、それぞれ顔検出と顔認識に使用される。 アプリは非侵入者のリストを作成し、リストに載っていない者は侵入者として特定する。 アプリは、google firebaseクラウドメッセージングサービスを使用してアプリへの通知をトリガーすることで、侵入時にのみユーザに警告する。 ユーザは、検出された侵入者をアプリを通して非侵入者のリストに追加して、侵入者としてのさらなる検出を避けることができる。 Haar Cascadeアルゴリズムによる顔検出では94.6%のリコールが得られる。 したがって、システムは高効率かつ比較的低コストである。

Smart environments are environments where digital devices are connected to each other over the Internet and operate in sync. Security is of paramount importance in such environments. This paper addresses aspects of authorized access and intruder detection for smart environments. Proposed is PiBase, an Internet of Things (IoT)-based app that aids in detecting intruders and providing security. The hardware for the application consists of a Raspberry Pi, a PIR motion sensor to detect motion from infrared radiation in the environment, an Android mobile phone and a camera. The software for the application is written in Java, Python and NodeJS. The PIR sensor and Pi camera module connected to the Raspberry Pi aid in detecting human intrusion. Machine learning algorithms, namely Haar-feature based cascade classifiers and Linear Binary Pattern Histograms (LBPH), are used for face detection and face recognition, respectively. The app lets the user create a list of non-intruders and anyone that is not on the list is identified as an intruder. The app alerts the user only in the event of an intrusion by using the Google Firebase Cloud Messaging service to trigger a notification to the app. The user may choose to add the detected intruder to the list of non-intruders through the app to avoid further detections as intruder. Face detection by the Haar Cascade algorithm yields a recall of 94.6%. Thus, the system is both highly effective and relatively low cost.
翻訳日:2021-08-02 20:42:57 公開日:2021-07-29
# (参考訳) IIITG-ADBU@HASOC-Dra vidian-CodeMix-FIRE2 020: Code-Mixed Dravidian Textにおける攻撃的コンテンツ検出 [全文訳有]

IIITG-ADBU@HASOC-Dra vidian-CodeMix-FIRE2 020: Offensive Content Detection in Code-Mixed Dravidian Text ( http://arxiv.org/abs/2107.14336v1 )

ライセンス: CC BY 4.0
Arup Baruah, Kaushik Amar Das, Ferdous Ahmed Barbhuiya and Kuntal Dey(参考訳) 本稿では,共有タスクDravidian-CodeMix-HA SOC 2020におけるSVMとXLM-RoBERTaによる分類結果について述べる。 文字と単語n-gramのTF-IDF特徴を用いて訓練されたSVM分類器は、コードミキシングされたマラヤラムテキスト上で最善を尽くした。 YouTubeとTwitterのデータセットでそれぞれ0.95(第1位)と0.76(第3位)の重み付きF1スコアを得た。 XLM-RoBERTa ベースの分類器は、コードミキシングされた Tamil テキストで最善を尽くした。 コードミキシングされたTamil Twitterデータセットの重み付きF1スコアは0.87(3位)だった。

This paper presents the results obtained by our SVM and XLM-RoBERTa based classifiers in the shared task Dravidian-CodeMix-HA SOC 2020. The SVM classifier trained using TF-IDF features of character and word n-grams performed the best on the code-mixed Malayalam text. It obtained a weighted F1 score of 0.95 (1st Rank) and 0.76 (3rd Rank) on the YouTube and Twitter dataset respectively. The XLM-RoBERTa based classifier performed the best on the code-mixed Tamil text. It obtained a weighted F1 score of 0.87 (3rd Rank) on the code-mixed Tamil Twitter dataset.
翻訳日:2021-08-02 20:34:14 公開日:2021-07-29
# (参考訳) サル視覚野におけるマルチタスク学習によるロバスト視覚の実現 [全文訳有]

Towards robust vision by multi-task learning on monkey visual cortex ( http://arxiv.org/abs/2107.14344v1 )

ライセンス: CC BY 4.0
Shahd Safarani, Arne Nix, Konstantin Willeke, Santiago A. Cadena, Kelli Restivo, George Denfield, Andreas S. Tolias, Fabian H. Sinz(参考訳) ディープニューラルネットワーク(deep neural networks)は、コンピュータビジョンのさまざまなタスクで最先端の技術を設定しているが、画像歪みに対する一般化能力は驚くほど脆弱だ。 対照的に、哺乳類の視覚系は幅広い摂動に対して頑丈である。 近年の研究では、この一般化能力は視覚野全体の視覚刺激の表現にコードされる有用な帰納的バイアスによって説明できることが示唆されている。 そこで我々は、これらの誘導バイアスをマルチタスク学習アプローチでうまく活用し、画像分類とマカク一次視覚野(V1)の神経活動を予測するためにディープネットワークを共同で訓練した。 画像歪みに対するロバスト性をテストすることにより,ネットワークの分散汎化能力を測定した。 サルのv1データを共同トレーニングすると、トレーニング中に歪みがなくても頑健性が増すことがわかった。 さらに、我々のネットワークの堅牢性は、アーキテクチャの一部がノイズの多いイメージで直接トレーニングされているOracleネットワークに非常に近いことを示した。 また,ネットワークのロバスト性が向上するにつれて,ネットワークの表現がより脳のようなものになることを示した。 新たな制約付き再構成分析法を用いて,脳正規化ネットワークのロバスト性について検討した。 画像分類のみを訓練したベースラインネットワークと比較して,共同学習したネットワークはノイズよりもコンテンツに敏感であることが分かりました。 imagenet画像にdeepgazeが予測したサリエンシーマップを用いて,サルが共同学習したネットワークは,シーン内のサリエント領域に対してより敏感になる傾向にあり,物体境界の検出やボトムアップサリエンシーにおけるv1の役割に関する既存の理論を想起させる。 全体として、私たちの研究は脳から誘導バイアスを伝達する有望な研究の道を広げ、私たちの移行の効果の新しい分析を提供します。

Deep neural networks set the state-of-the-art across many tasks in computer vision, but their generalization ability to image distortions is surprisingly fragile. In contrast, the mammalian visual system is robust to a wide range of perturbations. Recent work suggests that this generalization ability can be explained by useful inductive biases encoded in the representations of visual stimuli throughout the visual cortex. Here, we successfully leveraged these inductive biases with a multi-task learning approach: we jointly trained a deep network to perform image classification and to predict neural activity in macaque primary visual cortex (V1). We measured the out-of-distribution generalization abilities of our network by testing its robustness to image distortions. We found that co-training on monkey V1 data leads to increased robustness despite the absence of those distortions during training. Additionally, we showed that our network's robustness is very close to that of an Oracle network where parts of the architecture are directly trained on noisy images. Our results also demonstrated that the network's representations become more brain-like as their robustness improves. Using a novel constrained reconstruction analysis, we investigated what makes our brain-regularized network more robust. We found that our co-trained network is more sensitive to content than noise when compared to a Baseline network that we trained for image classification alone. Using DeepGaze-predicted saliency maps for ImageNet images, we found that our monkey co-trained network tends to be more sensitive to salient regions in a scene, reminiscent of existing theories on the role of V1 in the detection of object borders and bottom-up saliency. Overall, our work expands the promising research avenue of transferring inductive biases from the brain, and provides a novel analysis of the effects of our transfer.
翻訳日:2021-08-02 20:24:37 公開日:2021-07-29
# (参考訳) 難解モデルにおけるパラメータ推定のためのニューラルネットワーク

Neural Networks for Parameter Estimation in Intractable Models ( http://arxiv.org/abs/2107.14346v1 )

ライセンス: CC BY 4.0
Amanda Lenzi, Julie Bessac, Johann Rudi and Michael L. Stein(参考訳) 本研究では,標準帰納法が計算不可能である場合,統計モデルのパラメータ推定に深層学習を用いることを提案する。 最大安定なプロセスからパラメータを推定する方法を示す。小さなデータセットであっても推論は極めて難しいが、シミュレーションは簡単である。 モデルシミュレーションのデータを入力として使用し,統計的パラメータを学習するために深層ニューラルネットワークを訓練する。 ニューラルネットワークベースの手法は、精度と計算時間の改善によって示されるように、現在のアプローチに匹敵する代替手段を提供する。 これは統計的パラメータ推定における深層学習の概念の証明として機能し、他の推定問題にも拡張できる。

We propose to use deep learning to estimate parameters in statistical models when standard likelihood estimation methods are computationally infeasible. We show how to estimate parameters from max-stable processes, where inference is exceptionally challenging even with small datasets but simulation is straightforward. We use data from model simulations as input and train deep neural networks to learn statistical parameters. Our neural-network-based method provides a competitive alternative to current approaches, as demonstrated by considerable accuracy and computational time improvements. It serves as a proof of concept for deep learning in statistical parameter estimation and can be extended to other estimation problems.
翻訳日:2021-08-02 20:09:13 公開日:2021-07-29
# (参考訳) WiC = TSV = WSD: 3つの意味的タスクの等価性について [全文訳有]

WiC = TSV = WSD: On the Equivalence of Three Semantic Tasks ( http://arxiv.org/abs/2107.14352v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak(参考訳) WiCタスクは、最近のMCL-WiC SemEvalタスクの人気が示すように、NLPコミュニティでかなりの注目を集めている。 WSDシステムと語彙資源はWiCタスクやWiCデータセット構築に使われてきた。 TSVはWiCとWSDの両方に関連する別のタスクです。 我々は、WiC、TSV、WSDの正確な関係を確立することを目指している。 これらのセマンティックな分類問題を相互に還元できることを実証し、理論的に等価であることを示す。 既存のwicデータセットを分析し,同値仮説を検証する。 意味的タスクに対する我々の理解は、理論計算機科学のツールの応用によって高まると結論づける。 また,これらのタスクに対してより効率的で簡単な方法が,他の2つでうまく適用できる可能性が示唆された。

The WiC task has attracted considerable attention in the NLP community, as demonstrated by the popularity of the recent MCL-WiC SemEval task. WSD systems and lexical resources have been used for the WiC task, as well as for WiC dataset construction. TSV is another task related to both WiC and WSD. We aim to establish the exact relationship between WiC, TSV, and WSD. We demonstrate that these semantic classification problems can be pairwise reduced to each other, and so they are theoretically equivalent. We analyze the existing WiC datasets to validate this equivalence hypothesis. We conclude that our understanding of semantic tasks can be increased through the applications of tools from theoretical computer science. Our findings also suggests that more efficient and simpler methods for one of these tasks could be successfully applied in the other two.
翻訳日:2021-08-02 20:08:09 公開日:2021-07-29
# (参考訳) OpenSync: 神経科学実験で複数の尺度を同期するオープンソースプラットフォーム [全文訳有]

OpenSync: An opensource platform for synchronizing multiple measures in neuroscience experiments ( http://arxiv.org/abs/2107.14367v1 )

ライセンス: CC BY 4.0
Moein Razavi, Vahid Janfaza, Takashi Yamauchi, Anton Leontyev, Shanle Longmire-Monford, Joseph Orr(参考訳) 背景:人間の心はマルチモーダルです。 しかし、行動学のほとんどの研究はタスクの正確さやレイテンシといった1世紀前の尺度に依存している。 人間の行動や脳機能をよりよく理解するためには、他の指標を導入し、様々な側面から行動を分析する必要がある。 しかし、複数の測定値を記録する実験を設計、実装するのは技術的に複雑で費用がかかる。 この問題に対処するには、人間の行動から複数の指標を同期できるプラットフォームが必要である。 方法:本論文では,神経科学実験における複数の指標の同期に使用できるOpenSyncというオープンソースのプラットフォームを紹介する。 このプラットフォームは、脳波(EEG)、ガルバニック皮膚反応(GSR)、視線追跡、体の動きなどの生理的指標を自動的に統合し、同期し、記録するのに役立つ。 ユーザ入力応答(マウス、キーボード、ジョイスティックなど)。 ) およびタスク関連情報(刺激マーカー)。 本稿では,OpenSyncの構造と詳細を説明し,サイコピーとユニティの2つのケーススタディを提供する。 既存のツールと比較すると: プロプライエタリなシステム(iMotionsなど)とは異なり、OpenSyncは無料であり、あらゆるオープンソース実験設計ソフトウェア(例えば、AcoyPy、OpenSesame、Unityなど)で使用することができる。 結果: 実験結果から,opensync プラットフォームはマイクロ秒の解像度で複数の計測手段を同期できることがわかった。

Background: The human mind is multimodal. Yet most behavioral studies rely on century-old measures such as task accuracy and latency. To create a better understanding of human behavior and brain functionality, we should introduce other measures and analyze behavior from various aspects. However, it is technically complex and costly to design and implement the experiments that record multiple measures. To address this issue, a platform that allows synchronizing multiple measures from human behavior is needed. Method: This paper introduces an opensource platform named OpenSync, which can be used to synchronize multiple measures in neuroscience experiments. This platform helps to automatically integrate, synchronize and record physiological measures (e.g., electroencephalogram (EEG), galvanic skin response (GSR), eye-tracking, body motion, etc.), user input response (e.g., from mouse, keyboard, joystick, etc.), and task-related information (stimulus markers). In this paper, we explain the structure and details of OpenSync, provide two case studies in PsychoPy and Unity. Comparison with existing tools: Unlike proprietary systems (e.g., iMotions), OpenSync is free and it can be used inside any opensource experiment design software (e.g., PsychoPy, OpenSesame, Unity, etc., https://pypi.org/pro ject/OpenSync/ and https://github.com/m oeinrazavi/OpenSync_ Unity). Results: Our experimental results show that the OpenSync platform is able to synchronize multiple measures with microsecond resolution.
翻訳日:2021-08-02 20:01:12 公開日:2021-07-29
# (参考訳) 拡張再構築のための深部量子化表現 [全文訳有]

Deep Quantized Representation for Enhanced Reconstruction ( http://arxiv.org/abs/2107.14368v1 )

ライセンス: CC BY 4.0
Akash Gupta, Abhishek Aich, Kevin Rodriguez, G. Venugopala Reddy, Amit K. Roy-Chowdhury(参考訳) 機械学習アプローチは生体画像解析において顕著な性能を示したが、これらの手法のほとんどは高品質で正確な画像データに依存している。 しかし、このようなデータの収集には集中的で慎重な手作業が必要だ。 シロイヌナズナのメリステム(sam)の撮影における大きな課題の1つは、zスタックの深いスライスが、コントラストの低下やぼやけといった永久的品質に関わる問題に苦しむことである。 これらの品質に関する問題は、データ収集中の品質をほとんど制御することなく、苦労して収集されたデータの廃棄につながることが多い。 そのため、さらなる分析に適するように画像を強化する技術を採用し、設計する必要がある。 本稿では,シロイヌナズナのShoot Apical Meristem(SAM)における高品質画像再構成のためのデータ駆動型Deep Quantized Latent Representation(DQLR) 手法を提案する。 提案フレームワークは,zスタック内の複数の連続スライスを用いて低次元の潜伏空間を学習し,それを量子化し,次いで量子化表現を用いて再構成し,よりシャープな画像を得る。 公開データセット上での実験は、有望な結果を示す方法論を検証する。

While machine learning approaches have shown remarkable performance in biomedical image analysis, most of these methods rely on high-quality and accurate imaging data. However, collecting such data requires intensive and careful manual effort. One of the major challenges in imaging the Shoot Apical Meristem (SAM) of Arabidopsis thaliana, is that the deeper slices in the z-stack suffer from different perpetual quality-related problems like poor contrast and blurring. These quality-related issues often lead to the disposal of the painstakingly collected data with little to no control on quality while collecting the data. Therefore, it becomes necessary to employ and design techniques that can enhance the images to make them more suitable for further analysis. In this paper, we propose a data-driven Deep Quantized Latent Representation (DQLR) methodology for high-quality image reconstruction in the Shoot Apical Meristem (SAM) of Arabidopsis thaliana. Our proposed framework utilizes multiple consecutive slices in the z-stack to learn a low dimensional latent space, quantize it and subsequently perform reconstruction using the quantized representation to obtain sharper images. Experiments on a publicly available dataset validate our methodology showing promising results.
翻訳日:2021-08-02 19:48:15 公開日:2021-07-29
# (参考訳) 転校学習による焼損地域動態の研究--ウガンダ北部西ナイルの難民集落を事例として [全文訳有]

Using transfer learning to study burned area dynamics: A case study of refugee settlements in West Nile, Northern Uganda ( http://arxiv.org/abs/2107.14372v1 )

ライセンス: CC BY 4.0
Robert Huppertz, Catherine Nakalembe, Hannah Kerner, Ramani Lachyan, Maxime Rischard(参考訳) 世界難民危機は歴史的に高い水準にあり、難民居留地がホスト国や周辺環境に与える影響を評価する必要性が高まっている。 森林火災はサハラ以南のアフリカの小作農において重要な土地管理手法であるので、燃やされた地域(ba)マッピングは、土地管理が地域環境に与える影響に関する情報を提供するのに役立つ。 しかし、サハラ以南のアフリカでは、BAの地下構造データがないため、高度にスケーラブルな深層学習(DL)技術の使用が制限されている。 本研究では,ウガンダ北部の西ナイル地域など地表面データが少ない地域において,baダイナミクスを研究するためのスケーラブルな転送学習手法を提案する。 ポルトガルのba地表面データに基づく深層学習モデルをトレーニングし,2015年から2020年の間,西ナイルの難民居住地区にそのモデルを適用することを提案する。 地域レベルのba動態とより広い西ナイル地域との比較により,避難民の居住環境に対する土地管理の影響を理解することを目的としている。

With the global refugee crisis at a historic high, there is a growing need to assess the impact of refugee settlements on their hosting countries and surrounding environments. Because fires are an important land management practice in smallholder agriculture in sub-Saharan Africa, burned area (BA) mappings can help provide information about the impacts of land management practices on local environments. However, a lack of BA ground-truth data in much of sub-Saharan Africa limits the use of highly scalable deep learning (DL) techniques for such BA mappings. In this work, we propose a scalable transfer learning approach to study BA dynamics in areas with little to no ground-truth data such as the West Nile region in Northern Uganda. We train a deep learning model on BA ground-truth data in Portugal and propose the application of that model on refugee-hosting districts in West Nile between 2015 and 2020. By comparing the district-level BA dynamic with the wider West Nile region, we aim to add understanding of the land management impacts of refugee settlements on their surrounding environments.
翻訳日:2021-08-02 19:42:06 公開日:2021-07-29
# (参考訳) インテリジェントトランスポートシステムにおけるコンテキストアウェアコンピューティングのモデリングと推論技術 [全文訳有]

Modelling and Reasoning Techniques for Context Aware Computing in Intelligent Transportation System ( http://arxiv.org/abs/2107.14374v1 )

ライセンス: CC BY 4.0
Swarnamugi.M and Chinnaiyan.R(参考訳) モノのインターネット技術の出現と最近のセンサーネットワークの進歩により、インテリジェントトランスポーテーションシステムと呼ばれる新しい次元の輸送システムが実現された。 道路交通シナリオにおける車両利用の増加と実体間の通信のため、インテリジェント交通システムにおける生データ生成量は巨大である。 この生データは、状況情報を推測し、交通信号管理、事故予測、物体検出など、道路交通の異なるモードに関連する新しいサービスを提供するために処理される。 コンテキストの重要性を理解するため、本稿はインテリジェントトランスポーテーションシステムにおけるコンテキスト認識の研究を目的とする。 本稿では,知的交通システムにおける文脈認識に関する文献に発達した顕著な応用についてレビューする。 本研究の目的は,その文脈とその特徴に注目し,知的輸送システムにおけるモデリング手法と推論手法の適用性を検討することである。 また、インテリジェントな輸送システム開発におけるモノのインターネットと機械学習の影響にも光を当てている。

The emergence of Internet of Things technology and recent advancement in sensor networks enabled transportation systems to a new dimension called Intelligent Transportation System. Due to increased usage of vehicles and communication among entities in road traffic scenarios, the amount of raw data generation in Intelligent Transportation System is huge. This raw data are to be processed to infer contextual information and provide new services related to different modes of road transport such as traffic signal management, accident prediction, object detection etc. To understand the importance of context, this article aims to study context awareness in the Intelligent Transportation System. We present a review on prominent applications developed in the literature concerning context awareness in the intelligent transportation system. The objective of this research paper is to highlight context and its features in ITS and to address the applicability of modelling techniques and reasoning approaches in Intelligent Transportation System. Also to shed light on impact of Internet of Things and machine learning in Intelligent Transportation System development.
翻訳日:2021-08-02 19:35:59 公開日:2021-07-29
# 大規模なバッチアクティブラーニング

Batch Active Learning at Scale ( http://arxiv.org/abs/2107.14263v1 )

ライセンス: Link先を確認
Gui Citovsky, Giulia DeSalvo, Claudio Gentile, Lazaros Karydas, Anand Rajagopalan, Afshin Rostamizadeh, Sanjiv Kumar(参考訳) 複雑で効果的なモデルを訓練する能力は、しばしば大量のトレーニングデータを必要とし、コスト、時間、計算資源のボトルネックになる可能性がある。 バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。 バッチサンプリングの実践的なメリットは、適応性の低下と、バッチ内で冗長なサンプルをサンプリングするリスクにある。 本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。 特に,不確実性と多様性の概念を組み合わせたサンプリング手法は,従来の研究よりも数桁大きなバッチサイズ (100k-1m) に容易に拡張でき,最近のベースラインと比較してモデルのトレーニング効率が大幅に向上することを示す。 最後に, 関連サンプリング法について, ラベルの複雑性の保証を証明した最初の理論的解析を行い, 特定の条件下でのサンプリング法とほぼ同値であることを示す。

The ability to train complex and highly effective models often requires an abundance of training data, which can easily become a bottleneck in cost, time, and computational resources. Batch active learning, which adaptively issues batched queries to a labeling oracle, is a common approach for addressing this problem. The practical benefits of batch sampling come with the downside of less adaptivity and the risk of sampling redundant examples within a batch -- a risk that grows with the batch size. In this work, we analyze an efficient active learning algorithm, which focuses on the large batch setting. In particular, we show that our sampling method, which combines notions of uncertainty and diversity, easily scales to batch sizes (100K-1M) several orders of magnitude larger than used in previous studies and provides significant improvements in model training efficiency compared to recent baselines. Finally, we provide an initial theoretical analysis, proving label complexity guarantees for a related sampling method, which we show is approximately equivalent to our sampling method in specific settings.
翻訳日:2021-08-02 13:10:27 公開日:2021-07-29
# 集中学習を活用した最近のマルチエージェント強化学習アルゴリズムの調査

Survey of Recent Multi-Agent Reinforcement Learning Algorithms Utilizing Centralized Training ( http://arxiv.org/abs/2107.14316v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Rolando Fernandez, Erin Zaroukian, Michael Dorothy, Anjon Basak, and Derrik E. Asher(参考訳) MARL(Multi-Agent Reinforcement Learning)パラダイムの探索には,協調作業における人間的なコラボレーションを実現するために,CLDE(Decentralized execution)アプローチによる集中型学習の実施に多くの作業が費やされている。 本稿では,集中型学習のバリエーションについて論じ,アルゴリズム的アプローチに関する最近の調査について述べる。 本研究の目的は,集中学習における情報共有機構の異なる実装が,協調作業を行うマルチエージェントシステムにおいて,集団協調行動にどのように影響するかを検討することである。

Much work has been dedicated to the exploration of Multi-Agent Reinforcement Learning (MARL) paradigms implementing a centralized learning with decentralized execution (CLDE) approach to achieve human-like collaboration in cooperative tasks. Here, we discuss variations of centralized training and describe a recent survey of algorithmic approaches. The goal is to explore how different implementations of information sharing mechanism in centralized learning may give rise to distinct group coordinated behaviors in multi-agent systems performing cooperative tasks.
翻訳日:2021-08-02 13:08:09 公開日:2021-07-29
# 曲線上のデータを分類可能なディープネットワーク

Deep Networks Provably Classify Data on Curves ( http://arxiv.org/abs/2107.14324v1 )

ライセンス: Link先を確認
Tingran Wang, Sam Buchanan, Dar Gilboa, John Wright(参考訳) 低次元の非線形構造を持つデータは、工学や科学的問題においてユビキタスである。 このような構造を持つモデル問題 - 深い完全連結ニューラルネットワークを用いて、単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するバイナリ分類タスク。 穏やかな正則性条件は別として、曲線の構成に制限は課さない。 i) 問題の難易度を設定する幾何的性質に対してネットワーク深さが大きい場合, および (ii) ネットワーク幅とサンプル数が深さの多項式である場合, ランダムに初期化された勾配降下はすぐに学習し, 高確率で2つの曲線上のすべての点を正しく分類する。 我々の知る限り、これは本質的なデータ特性にのみ依存する非線形データを持つディープネットワークに対する最初の一般化保証である。 我々の分析は、ネットワーク深度が分類問題の解法における適合資源の役割を担っているニューラルタンジェントカーネル(NTK)体制におけるダイナミクスの低減によって進行する。 特に、NTKの減衰特性のきめ細かい制御により、ネットワークが十分に深くなると、NTKは多様体上の変換不変作用素によって局所的に近似され、滑らかな函数上で安定に反転し、収束と一般化が保証されることを示した。

Data with low-dimensional nonlinear structure are ubiquitous in engineering and scientific problems. We study a model problem with such structure -- a binary classification task that uses a deep fully-connected neural network to classify data drawn from two disjoint smooth curves on the unit sphere. Aside from mild regularity conditions, we place no restrictions on the configuration of the curves. We prove that when (i) the network depth is large relative to certain geometric properties that set the difficulty of the problem and (ii) the network width and number of samples is polynomial in the depth, randomly-initialized gradient descent quickly learns to correctly classify all points on the two curves with high probability. To our knowledge, this is the first generalization guarantee for deep networks with nonlinear data that depends only on intrinsic data properties. Our analysis proceeds by a reduction to dynamics in the neural tangent kernel (NTK) regime, where the network depth plays the role of a fitting resource in solving the classification problem. In particular, via fine-grained control of the decay properties of the NTK, we demonstrate that when the network is sufficiently deep, the NTK can be locally approximated by a translationally invariant operator on the manifolds and stably inverted over smooth functions, which guarantees convergence and generalization.
翻訳日:2021-08-02 13:06:37 公開日:2021-07-29
# ADeLA: セマンティックセグメンテーションにおける視点適応のための注意付きDense Labeling

ADeLA: Automatic Dense Labeling with Attention for Viewpoint Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2107.14285v1 )

ライセンス: Link先を確認
Yanchao Yang, Hanxiang Ren, He Wang, Bokui Shen, Qingnan Fan, Youyi Zheng, C. Karen Liu and Leonidas Guibas(参考訳) 意味的セグメンテーションタスクの視点変化に起因する画像コンテンツシフトに対する教師なし領域適応手法について述べる。 ほとんどの既存メソッドは共有空間でドメインアライメントを行い、アライメントされた空間から出力へのマッピングは転送可能であると仮定する。 しかし、視点変化によって誘導される新しい内容は、効果的なアライメントのためにそのような空間を無効にし、結果として負の適応をもたらす。 本手法は2つの領域間の画像の統計を調整せずに動作する。 代わりに、カラーイメージのみにトレーニングされたビュー変換ネットワークを使用して、ターゲットのセマンティックイメージを指導する。 監視の欠如にもかかわらず、ビュートランスフォーメーションネットワークは、注意機構によって導入された誘導バイアスにより、セマンティックイメージに一般化することができる。 さらに,意味的イメージを意味的ラベルに変換する際の曖昧さを解消するために,色画像に暗示される未知のマッピングの機能表現としてビュー変換ネットワークを扱い,対象領域で擬似ラベルを生成する機能的ラベル幻覚を提案する。 本手法は,最先端の対応推定とビュー合成に基づくベースラインを超越する。 さらに、自己学習と対向ドメインアライメントを利用する最先端の教師なしドメインアライメント手法よりも優れている。 私たちのコードとデータセットは公開される予定だ。

We describe an unsupervised domain adaptation method for image content shift caused by viewpoint changes for a semantic segmentation task. Most existing methods perform domain alignment in a shared space and assume that the mapping from the aligned space to the output is transferable. However, the novel content induced by viewpoint changes may nullify such a space for effective alignments, thus resulting in negative adaptation. Our method works without aligning any statistics of the images between the two domains. Instead, it utilizes a view transformation network trained only on color images to hallucinate the semantic images for the target. Despite the lack of supervision, the view transformation network can still generalize to semantic images thanks to the inductive bias introduced by the attention mechanism. Furthermore, to resolve ambiguities in converting the semantic images to semantic labels, we treat the view transformation network as a functional representation of an unknown mapping implied by the color images and propose functional label hallucination to generate pseudo-labels in the target domain. Our method surpasses baselines built on state-of-the-art correspondence estimation and view synthesis methods. Moreover, it outperforms the state-of-the-art unsupervised domain adaptation methods that utilize self-training and adversarial domain alignment. Our code and dataset will be made publicly available.
翻訳日:2021-08-02 13:03:51 公開日:2021-07-29
# IoU認識によるリアルタイムアンカーフリー単段3次元検出

Real-Time Anchor-Free Single-Stage 3D Detection with IoU-Awareness ( http://arxiv.org/abs/2107.14342v1 )

ライセンス: Link先を確認
Runzhou Ge, Zhuangzhuang Ding, Yihan Hu, Wenxin Shao, Li Huang, Kun Li, Qiang Liu(参考訳) 本報告では、cvpr 2021におけるwaymo open datasetチャレンジにおいて、リアルタイム3d検出と「最も効率的なモデル」に対する勝利ソリューションを紹介する。 昨年受賞したafdetから拡張して、ベースモデルにいくつかの修正を加え、精度を高め、同時にレイテンシを大幅に削減しました。 AFDetV2と名付けられた改良型モデルには、ライト3D機能エクストラクタ、拡張受信フィールドを備えた改良されたRPN、IoU対応の信頼性スコアを生成するサブヘッドが装備されている。 これらのモデルの強化は、拡張されたデータ拡張、確率的な重み付け、ボクセル化のgpuベースの実装とともに、我々のafdetv2の勝率73.12 maph/l2、60.06 ms、afdetv2-baseの72.57 maph/l2、チャレンジスポンサーによる「最も効率的なモデル」、55.86 msである。

In this report, we introduce our winning solution to the Real-time 3D Detection and also the "Most Efficient Model" in the Waymo Open Dataset Challenges at CVPR 2021. Extended from our last year's award-winning model AFDet, we have made a handful of modifications to the base model, to improve the accuracy and at the same time to greatly reduce the latency. The modified model, named as AFDetV2, is featured with a lite 3D Feature Extractor, an improved RPN with extended receptive field and an added sub-head that produces an IoU-aware confidence score. These model enhancements, together with enriched data augmentation, stochastic weights averaging, and a GPU-based implementation of voxelization, lead to a winning accuracy of 73.12 mAPH/L2 for our AFDetV2 with a latency of 60.06 ms, and an accuracy of 72.57 mAPH/L2 for our AFDetV2-base, entitled as the "Most Efficient Model" by the challenge sponsor, with a winning latency of 55.86 ms.
翻訳日:2021-08-02 13:03:32 公開日:2021-07-29
# 人間のポーズを用いたビデオによる転倒検出

Video Based Fall Detection Using Human Poses ( http://arxiv.org/abs/2107.14633v1 )

ライセンス: Link先を確認
Ziwei Chen, Yiye Wang, Wankou Yang(参考訳) 深い畳み込みニューラルネットワークの最近の進歩により、ビデオベースのフォール検出精度が大幅に向上した。 しかし、光の変動、複雑な背景、これらアプローチの精度と一般化能力の低下など、いくつかの課題がある。 一方、計算コストは既存の転倒検出手法の適用を制限している。 この問題を解決するために,人間のポーズを用いたビデオによる転倒検出手法を提案する。 まず、軽量ポーズ推定器がビデオシーケンスから2dポーズを抽出し、2dポーズを3dポーズに持ち上げる。 第2に、推定された3次元ポーズを用いて転倒イベントを識別する頑健な転倒検出ネットワークを導入し、それぞれを増大させ、拡張畳み込みによる計算コストを低く抑える。 実験の結果,提案手法は大規模ベンチマーク動作認識データセットNTU RGB+Dで99.83%,GPU以外のプラットフォームでは18FPS,GPUプラットフォームでは63FPSのリアルタイム性能を実現している。

Video based fall detection accuracy has been largely improved due to the recent progress on deep convolutional neural networks. However, there still exists some challenges, such as lighting variation, complex background, which degrade the accuracy and generalization ability of these approaches. Meanwhile, large computation cost limits the application of existing fall detection approaches. To alleviate these problems, a video based fall detection approach using human poses is proposed in this paper. First, a lightweight pose estimator extracts 2D poses from video sequences and then 2D poses are lifted to 3D poses. Second, we introduce a robust fall detection network to recognize fall events using estimated 3D poses, which increases respective filed and maintains low computation cost by dilated convolutions. The experimental results show that the proposed fall detection approach achieves a high accuracy of 99.83% on large benchmark action recognition dataset NTU RGB+D and real-time performance of 18 FPS on a non-GPU platform and 63 FPS on a GPU platform.
翻訳日:2021-08-02 12:59:59 公開日:2021-07-29
# テンポラリスの経時的変化に就て

Otimizacao de pesos e funcoes de ativacao de redes neurais aplicadas na previsao de series temporais ( http://arxiv.org/abs/2107.14370v1 )

ライセンス: Link先を確認
Gecynalda Gomes, Teresa Ludermir(参考訳) ニューラルネットワークは、精度良く近似関数に高い容量を示す実験結果が得られた時系列予測に応用されている。 これらのアプリケーションで使用されるほとんどのニューラルモデルは、固定パラメータを持つアクティベーション関数を使用する。 しかし、アクティベーション関数の選択はニューラルネットワークの複雑さと性能に大きく影響し、限られた数のアクティベーション関数が使用されていることが知られている。 本研究では,ニューラルネットワークに対する自由パラメータ非対称アクティベーション関数の族の利用を提案し,定義されたアクティベーション関数の族が普遍近似定理の要件を満たすことを示す。 ニューラルネットワークの処理ユニット間の接続の重み付けを自由パラメータで行うことにより,この活性化関数群を大域的に最適化する手法を用いる。 提案手法の中心となる考え方は,マルチ層パーセプトロンネットワーク(MLP)における重みとアクティベーション関数を同時に最適化することであり,シミュレーションアニーリング,タブ探索,局所学習アルゴリズムの利点と,時系列の調整および予測における性能の向上を両立させるアプローチである。 私たちは、momentum(bpm)とlevenbergmarquardt(l m)という2つの学習アルゴリズムを選択しました。

Neural Networks have been applied for time series prediction with good experimental results that indicate the high capacity to approximate functions with good precision. Most neural models used in these applications use activation functions with fixed parameters. However, it is known that the choice of activation function strongly influences the complexity and performance of the neural network and that a limited number of activation functions have been used. In this work, we propose the use of a family of free parameter asymmetric activation functions for neural networks and show that this family of defined activation functions satisfies the requirements of the universal approximation theorem. A methodology for the global optimization of this family of activation functions with free parameter and the weights of the connections between the processing units of the neural network is used. The central idea of the proposed methodology is to simultaneously optimize the weights and the activation function used in a multilayer perceptron network (MLP), through an approach that combines the advantages of simulated annealing, tabu search and a local learning algorithm, with the purpose of improving performance in the adjustment and forecasting of time series. We chose two learning algorithms: backpropagation with the term momentum (BPM) and LevenbergMarquardt (LM).
翻訳日:2021-08-02 12:58:47 公開日:2021-07-29
# 病理組織学における全スライド画像の自動マルチステイン登録

Automatic Multi-Stain Registration of Whole Slide Images in Histopathology ( http://arxiv.org/abs/2107.14292v1 )

ライセンス: Link先を確認
Abubakr Shafique (1), Morteza Babaie (1 and 3), Mahjabin Sajadi (1), Adrian Batten (2), Soma Skdar (2), and H.R. Tizhoosh (1 and 3) ((1) Kimia Lab, University of Waterloo, Waterloo, ON, Canada., (2) Department of Pathology, Grand River Hospital, Kitchener, ON, Canada., and (3) Vector Institute, MaRS Centre, Toronto, Canada.)(参考訳) 複数のバイオマーカー画像と組織形態の同時解析は、疾患診断、治療計画、薬物開発に重要である。 免疫組織化学的およびヘマトキシリンおよびエオシン(H&E)顕微鏡スライドの全スライド画像(WSI)の横断的な比較が必要である。 しかし、単一セル精度で巨大な WSI を自動かつ高速に相互にアライメントすることは難しい。 スライド調製時に導入された形態的変形に加えて、細胞外観や組織形態の異なる染色にも大きなバリエーションがある。 本稿では, リンパ節転移巣の局所化を補助するために, 2段階の自動特徴量ベースクロスステイン化wsiアライメントを提案する。 画像ペアは、翻訳、回転、スケーリングを可能にした。 登録は、まずスケール不変画像変換(SIFT)を用いて、両方の画像のランドマークを最初に検出し、次に、ポイント対応を見つけるための高速サンプルコンセンサス(FSC)プロトコルを用いて、最終的に画像のアライメントを行う。 登録結果は,ジャカード指標を用いて視覚的,定量的に評価した。 提案システムによる結果の平均jaccard類似度指数は,マニュアル登録と比較して0.942である。

Joint analysis of multiple biomarker images and tissue morphology is important for disease diagnosis, treatment planning and drug development. It requires cross-staining comparison among Whole Slide Images (WSIs) of immuno-histochemical and hematoxylin and eosin (H&E) microscopic slides. However, automatic, and fast cross-staining alignment of enormous gigapixel WSIs at single-cell precision is challenging. In addition to morphological deformations introduced during slide preparation, there are large variations in cell appearance and tissue morphology across different staining. In this paper, we propose a two-step automatic feature-based cross-staining WSI alignment to assist localization of even tiny metastatic foci in the assessment of lymph node. Image pairs were aligned allowing for translation, rotation, and scaling. The registration was performed automatically by first detecting landmarks in both images, using the scale-invariant image transform (SIFT), followed by the fast sample consensus (FSC) protocol for finding point correspondences and finally aligned the images. The Registration results were evaluated using both visual and quantitative criteria using the Jaccard index. The average Jaccard similarity index of the results produced by the proposed system is 0.942 when compared with the manual registration.
翻訳日:2021-08-02 12:57:14 公開日:2021-07-29
# 畳み込みニューラルネットワークを用いた脳波多目的点眼検出器

EEG multipurpose eye blink detector using convolutional neural network ( http://arxiv.org/abs/2107.14235v1 )

ライセンス: Link先を確認
Amanda Ferrari Iaquinta, Ana Carolina de Sousa Silva, Aldrumont Ferraz J\'unior, Jessica Monique de Toledo, Gustavo Voltani von Atzingen(参考訳) 眼球運動によって放出される電気信号は、センサーに近接し、発生量が多いため、脳波に非常に強いアーティファクトを生じさせる。 脳波波形における目まばたき検出の文脈において, さらなる除去と信号浄化のために, 複数の戦略が文献に提案されている。 最も一般的に応用される方法は、大量の電極、サンプリングとデータ処理のための複雑な装置の使用である。 本研究の目的は,cnn(convolutional neural network)を用いた脳波信号の瞬き検出と除去のための信頼性の高いユーザ独立アルゴリズムの構築である。 トレーニングと検証のために、パブリックなEEGデータ3セットが使用された。 3つのセットにはサンプルが含まれており、採用された被験者は、特定の瞬間に瞬きを含む割り当てられたタスクを実行し、ビデオを見て記事を読む。 本研究で使用したモデルでは,自明な脳波信号と点眼器で汚染された信号とを識別する全ての特徴を,登録時にのみ発生した特定の特徴を過剰に適合させることなく理解することができた。

The electrical signal emitted by the eyes movement produces a very strong artifact on EEG signaldue to its close proximity to the sensors and abundance of occurrence. In the context of detectingeye blink artifacts in EEG waveforms for further removal and signal purification, multiple strategieswhere proposed in the literature. Most commonly applied methods require the use of a large numberof electrodes, complex equipment for sampling and processing data. The goal of this work is to createa reliable and user independent algorithm for detecting and removing eye blink in EEG signals usingCNN (convolutional neural network). For training and validation, three sets of public EEG data wereused. All three sets contain samples obtained while the recruited subjects performed assigned tasksthat included blink voluntarily in specific moments, watch a video and read an article. The modelused in this study was able to have an embracing understanding of all the features that distinguish atrivial EEG signal from a signal contaminated with eye blink artifacts without being overfitted byspecific features that only occurred in the situations when the signals were registered.
翻訳日:2021-08-02 12:55:33 公開日:2021-07-29
# レーザ誘起グラフェンのモデリングと最適化

Modeling and Optimizing Laser-Induced Graphene ( http://arxiv.org/abs/2107.14257v1 )

ライセンス: Link先を確認
Lars Kotthoff and Sourin Dey and Vivek Jain and Alexander Tyrrell and Hud Wahab and Patrick Johnson(参考訳) 多くの技術進歩は、グラフェンのような次世代の材料に依存している。 このような材料を製造することはしばしば困難であり、特にスケールでグラフェンを製造することはオープンな問題である。 我々は,レーザー誘起グラフェンの生産の最適化を記述した一連のデータセットを提供する。 我々は, 生産過程のパラメータに対するレーザー誘起グラフェン生成の挙動のモデル化, 異なる前駆物質間のモデルと知識の伝達, 可能な生産パラメータの空間上の変換結果の最適化の3つの課題を提示する。 興味のあるユーザのための出発点として,その生成に使用するコードとともに,図示的な結果を提示します。 私たちが提供しているデータは、機械学習の重要な現実世界の応用であり、私たちの知る限り、類似したデータセットは利用できない。

A lot of technological advances depend on next-generation materials, such as graphene, which enables a raft of new applications, for example better electronics. Manufacturing such materials is often difficult; in particular, producing graphene at scale is an open problem. We provide a series of datasets that describe the optimization of the production of laser-induced graphene, an established manufacturing method that has shown great promise. We pose three challenges based on the datasets we provide -- modeling the behavior of laser-induced graphene production with respect to parameters of the production process, transferring models and knowledge between different precursor materials, and optimizing the outcome of the transformation over the space of possible production parameters. We present illustrative results, along with the code used to generate them, as a starting point for interested users. The data we provide represents an important real-world application of machine learning; to the best of our knowledge, no similar datasets are available.
翻訳日:2021-08-02 12:55:12 公開日:2021-07-29
# 機械学習による二金属遷移金属錯体の暗号的挙動の解明

Deciphering Cryptic Behavior in Bimetallic Transition Metal Complexes with Machine Learning ( http://arxiv.org/abs/2107.14280v1 )

ライセンス: Link先を確認
Michael G. Taylor, Aditya Nandy, Connie C. Lu, and Heather J. Kulik(参考訳) 遷移金属錯体の合理的な調整は、エネルギー利用と貯蔵における顕著な課題に対処するために必要である。 金属-金属結合を示すヘテロビス金属遷移金属錯体は、重畳された「二重デッキ」配位子構造は、触媒作用の新興かつ魅力的な基盤であるが、それらの性質は、退屈な合成作業の前に予測することが困難である。 有理二金属複合設計のための構造とプロパティの関係を明らかにするためのデータ駆動アプローチを示す。 我々は多元線形回帰モデルとカーネルリッジ回帰モデル(krr)モデルの訓練に使用するヘテロ二金属錯体の金属局所環境のグラフベース表現を調整した。 酸化ポテンシャルに着目し,28種類の実験的特性を有する錯体からなる多重線形回帰モデルを構築した。 このトレーニングセットでは、高い精度(すなわち絶対誤差、MAE、0.25V)を実現し、新しいリガンド構造を持つ未確認実験データへの転送性を維持する。 金属-金属結合の程度を予測するため, 構造的特徴を持つヘテロビメタル330のサブセットを用いてKRRモデルを訓練した。 このKRRモデルは、テストセットの相対金属-金属結合長を5%以内まで予測し、重要な特徴の分析により、錯体の挙動に最も強く影響を与える基本原子寄与(原子価電子配置など)が明らかになる。 我々の研究は有理二金属設計の指針を提供し、形式的短さ比を含む特性は、ある期間から別の期間に転移可能であることを示唆している。

The rational tailoring of transition metal complexes is necessary to address outstanding challenges in energy utilization and storage. Heterobimetallic transition metal complexes that exhibit metal-metal bonding in stacked "double decker" ligand structures are an emerging, attractive platform for catalysis, but their properties are challenging to predict prior to laborious synthetic efforts. We demonstrate an alternative, data-driven approach to uncovering structure-property relationships for rational bimetallic complex design. We tailor graph-based representations of the metal-local environment for these heterobimetallic complexes for use in training of multiple linear regression and kernel ridge regression (KRR) models. Focusing on oxidation potentials, we obtain a set of 28 experimentally characterized complexes to develop a multiple linear regression model. On this training set, we achieve good accuracy (mean absolute error, MAE, of 0.25 V) and preserve transferability to unseen experimental data with a new ligand structure. We trained a KRR model on a subset of 330 structurally characterized heterobimetallics to predict the degree of metal-metal bonding. This KRR model predicts relative metal-metal bond lengths in the test set to within 5%, and analysis of key features reveals the fundamental atomic contributions (e.g., the valence electron configuration) that most strongly influence the behavior of complexes. Our work provides guidance for rational bimetallic design, suggesting that properties including the formal shortness ratio should be transferable from one period to another.
翻訳日:2021-08-02 12:52:13 公開日:2021-07-29
# ロボットストーリータラによるユーザ共感のモデル化

Modeling User Empathy Elicited by a Robot Storyteller ( http://arxiv.org/abs/2107.14345v1 )

ライセンス: Link先を確認
Leena Mathur, Micol Spitale, Hao Xi, Jieyun Li, Maja J Matari\'c(参考訳) 人間の共感を知覚できる仮想的およびロボット的エージェントは、人間の幸福を支える有意義で有意義な人間と機械の相互作用に参加する可能性がある。 計算的共感の研究は、言語的および非言語的行動を用いて共感をシミュレートし、人間からの共感的反応を誘発する共感的エージェントの設計に焦点を当ててきた。 ヒトにおける誘惑的共感を自動的に知覚する能力を持つエージェントを開発するという課題はほとんど解明されていない。 本稿では,ロボットエージェントとのインタラクション中に誘発されるユーザの共感をモデル化する最初の手法を提案する。 ロボットのストーリーテラー(参加者46名、ビデオ時間6.9時間)を聴いた参加者の新たなインタラクションコンテキストから新しいデータセットを収集した。 各ストーリーテリングの対話の後、参加者はロボットとの対話中に誘発された共感のレベルを評価するアンケートに答えた。 8種類の古典的機械学習モデルと2つのディープラーニングモデル(長期記憶ネットワークと時間畳み込みネットワーク)を用いて実験を行い、ロボットストーリーテラーを聴きながら参加者の視覚行動のパターンを利用して共感を検出する。 xgboostに基づく当社の最高パフォーマンスアプローチは,ビデオの共感検出時の精度69%とauc72%を達成した。 自動共感検出のためのモデリングアプローチと視覚機能に関する洞察を提供する。 我々の研究は、人間と機械の相互作用において仮想エージェントやロボットエージェントが活用できる共感知覚モデルの将来的な発展を通知し、動機づける。

Virtual and robotic agents capable of perceiving human empathy have the potential to participate in engaging and meaningful human-machine interactions that support human well-being. Prior research in computational empathy has focused on designing empathic agents that use verbal and nonverbal behaviors to simulate empathy and attempt to elicit empathic responses from humans. The challenge of developing agents with the ability to automatically perceive elicited empathy in humans remains largely unexplored. Our paper presents the first approach to modeling user empathy elicited during interactions with a robotic agent. We collected a new dataset from the novel interaction context of participants listening to a robot storyteller (46 participants, 6.9 hours of video). After each storytelling interaction, participants answered a questionnaire that assessed their level of elicited empathy during the interaction with the robot. We conducted experiments with 8 classical machine learning models and 2 deep learning models (long short-term memory networks and temporal convolutional networks) to detect empathy by leveraging patterns in participants' visual behaviors while they were listening to the robot storyteller. Our highest-performing approach, based on XGBoost, achieved an accuracy of 69% and AUC of 72% when detecting empathy in videos. We contribute insights regarding modeling approaches and visual features for automated empathy detection. Our research informs and motivates future development of empathy perception models that can be leveraged by virtual and robotic agents during human-machine interactions.
翻訳日:2021-08-02 12:51:45 公開日:2021-07-29
# 契約および/またはモノトンネットワークダイナミクスの分散同定

Distributed Identification of Contracting and/or Monotone Network Dynamics ( http://arxiv.org/abs/2107.14309v1 )

ライセンス: Link先を確認
Max Revay, Jack Umenberger, Ian R. Manchester(参考訳) 本稿では,非線形安定性の強い形式である収縮モデルとモノトーンモデルとを保証し,大規模ネットワークシステムの同定手法を提案する。 国家間の秩序関係は 保たれています 私たちが対処する主な課題は、モデルパラメータと安定性の証明書を同時に検索し、数百から数千のノードを持つネットワークへのスケーラビリティです。 本稿では,安定度と単調性に対する凸制約を許容するモデルセットを提案し,乗算器の交互方向法(ADMM)による分散同定が可能な分離可能な構造を持つ。 このアプローチの性能と拡張性は,200次元状態空間を持つ非線形トラフィックネットワークを含む,線形および非線形のケーススタディで説明される。

This paper proposes methods for identification of large-scale networked systems with guarantees that the resulting model will be contracting -- a strong form of nonlinear stability -- and/or monotone, i.e. order relations between states are preserved. The main challenges that we address are: simultaneously searching for model parameters and a certificate of stability, and scalability to networks with hundreds or thousands of nodes. We propose a model set that admits convex constraints for stability and monotonicity, and has a separable structure that allows distributed identification via the alternating directions method of multipliers (ADMM). The performance and scalability of the approach is illustrated on a variety of linear and non-linear case studies, including a nonlinear traffic network with a 200-dimensional state space.
翻訳日:2021-08-02 12:48:37 公開日:2021-07-29
# MLMOD Package: LAMMPSにおけるデータ駆動モデリングのための機械学習手法

MLMOD Package: Machine Learning Methods for Data-Driven Modeling in LAMMPS ( http://arxiv.org/abs/2107.14362v1 )

ライセンス: Link先を確認
Paul J. Atzberger(参考訳) 機械学習を用いて学習したシミュレーションデータ駆動モデルに組み込むソフトウェアパッケージについて論じる。 これらは、 (i) モデリングダイナミクスと時間ステップ統合、 (ii) システムコンポーネント間の相互作用のモデリング、および (iii) システムの状態を特徴付ける関心量の計算に使用できる。 このパッケージは、ニューラルネットワーク、ガウス過程回帰、カーネルモデル、その他のアプローチを含む一般的なモデルクラスによる機械学習メソッドの使用を可能にする。 このホワイトペーパーでは、プロトタイプのC++パッケージ、目的、使用例について論じます。

We discuss a software package for incorporating into simulations data-driven models trained using machine learning methods. These can be used for (i) modeling dynamics and time-step integration, (ii) modeling interactions between system components, and (iii) computing quantities of interest characterizing system state. The package allows for use of machine learning methods with general model classes including Neural Networks, Gaussian Process Regression, Kernel Models, and other approaches. We discuss in this whitepaper our prototype C++ package, aims, and example usage.
翻訳日:2021-08-02 12:48:26 公開日:2021-07-29
# (参考訳) サブグラフ検索に基づくオンライン質問応答システム [全文訳有]

An Online Question Answering System based on Sub-graph Searching ( http://arxiv.org/abs/2107.13684v1 )

ライセンス: CC BY 4.0
Shuangyong Song(参考訳) 知識グラフ(KG)は質問応答(QA)アプリケーション、特にエンティティベースのQAに広く使われている。 しかし、大規模な知識グラフ全体から回答を検索するのは非常に時間がかかり、実際のオンラインQAシステムの速度要求を満たすことは困難である。 本稿では,サブグラフインデックスを作成することでこの問題を解決するためのサブグラフ検索機構を設計し,各回答生成ステップをサブグラフレベルで制限する。 我々はこのメカニズムを実際のオンラインQAチャットシステムに利用し、エンティティベースの質問に答えることによって、質問のカバレッジを明らかに改善できると同時に、非常に高速で、オンラインQAのユーザエクスペリエンスを保証することができる。

Knowledge graphs (KGs) have been widely used for question answering (QA) applications, especially the entity based QA. However, searching an-swers from an entire large-scale knowledge graph is very time-consuming and it is hard to meet the speed need of real online QA systems. In this pa-per, we design a sub-graph searching mechanism to solve this problem by creating sub-graph index, and each answer generation step is restricted in the sub-graph level. We use this mechanism into a real online QA chat system, and it can bring obvious improvement on question coverage by well answer-ing entity based questions, and it can be with a very high speed, which en-sures the user experience of online QA.
翻訳日:2021-07-30 22:35:45 公開日:2021-07-29
# (参考訳) 非自己回帰型ニューラルマシン翻訳のための摂動長認識位置符号化 [全文訳有]

Using Perturbed Length-aware Positional Encoding for Non-autoregressive Neural Machine Translation ( http://arxiv.org/abs/2107.13689v1 )

ライセンス: CC BY 4.0
Yui Oka, Katsuhito Sudoh, and Satoshi Nakamura(参考訳) 非自己回帰型ニューラルネットワーク翻訳(NAT)は通常、自己回帰型ニューラルネットワーク翻訳(AT)を教師モデルとして、シーケンスレベルの知識蒸留を用いる。 しかし、NATモデルはATモデルよりも短い文を出力することが多い。 本研究では,摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案し,それを学生モデルLevenshtein Transformerに適用する。 WMT14ドイツ語から英語への翻訳において,バイリンガル評価法(BLEU)の標準Levenshtein Transformerを最大2.5ポイント上回る性能を示した。 NATモデルはベースラインNATモデルよりも長い文を出力する。

Non-autoregressive neural machine translation (NAT) usually employs sequence-level knowledge distillation using autoregressive neural machine translation (AT) as its teacher model. However, a NAT model often outputs shorter sentences than an AT model. In this work, we propose sequence-level knowledge distillation (SKD) using perturbed length-aware positional encoding and apply it to a student model, the Levenshtein Transformer. Our method outperformed a standard Levenshtein Transformer by 2.5 points in bilingual evaluation understudy (BLEU) at maximum in a WMT14 German to English translation. The NAT model output longer sentences than the baseline NAT models.
翻訳日:2021-07-30 22:32:31 公開日:2021-07-29
# (参考訳) 理論計算機科学から見た意識理論(2) : 意識チューリングマシンからの洞察 [全文訳有]

A Theory of Consciousness from a Theoretical Computer Science Perspective 2: Insights from the Conscious Turing Machine ( http://arxiv.org/abs/2107.13704v1 )

ライセンス: CC BY 4.0
Lenore Blum, Manuel Blum(参考訳) かつて哲学者や神学者の観念であった意識理解の探求は、現在では多くの分野の科学者によって活発に追求されている。 計算と複雑性の根底にある原理を理解することに関わる数学の分野である理論計算機科学(tcs)の視点から、資源制限の影響や驚くべき結果を含む意識を考察する。 アラン・チューリングのコンピュータの単純かつ強力な定義、チューリングマシン(TM)、および計算複雑性理論の観点から、認知神経科学者バーナード・バールズ(Bernard Baars)による意識のグローバルワークスペース理論(GWT)の修正版を形式化し、スタニスラス・デヘーネ(Stanislas Dehaene)、ジャン=ピエール・チェンドー(Jean-Pierre Changeaux)らによってさらに発展させた。 脳の複雑なモデルや認知のモデルを探すのではなく、(明らかに複雑な)意識の単純な計算モデルを探すのです。 我々は意識的チューリングマシン(CTM)、別名意識AIを定義し、その上で意識と関連する概念をCTMで定義する。 これらは数学的な(TCS)定義に過ぎないが、なぜCTMが意識を持っているのかを示唆する。 tcsパースペクティブは、計算複雑性理論と機械学習のツールを使用して、意識と関連する概念を理解するためのシンプルな形式的フレームワークを提供する。 これまで我々は,CTMにおける痛みと快楽の感情の高レベルな説明について検討した。 ここでは、視覚に関する3つの例(盲目、盲目、盲目の変化)を考察し、次に夢、自由意志、意識の変化について論じる。

The quest to understand consciousness, once the purview of philosophers and theologians, is now actively pursued by scientists of many stripes. We examine consciousness from the perspective of theoretical computer science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations. In the spirit of Alan Turing's simple yet powerful definition of a computer, the Turing Machine (TM), and perspective of computational complexity theory, we formalize a modified version of the Global Workspace Theory (GWT) of consciousness originated by cognitive neuroscientist Bernard Baars and further developed by him, Stanislas Dehaene, Jean-Pierre Changeaux and others. We are not looking for a complex model of the brain nor of cognition, but for a simple computational model of (the admittedly complex concept of) consciousness. We do this by defining the Conscious Turing Machine (CTM), also called a conscious AI, and then we define consciousness and related notions in the CTM. While these are only mathematical (TCS) definitions, we suggest why the CTM has the feeling of consciousness. The TCS perspective provides a simple formal framework to employ tools from computational complexity theory and machine learning to help us understand consciousness and related concepts. Previously we explored high level explanations for the feelings of pain and pleasure in the CTM. Here we consider three examples related to vision (blindsight, inattentional blindness, and change blindness), followed by discussions of dreams, free will, and altered states of consciousness.
翻訳日:2021-07-30 22:25:10 公開日:2021-07-29
# (参考訳) ターゲット分析に基づく異常行動検出 [全文訳有]

Abnormal Behavior Detection Based on Target Analysis ( http://arxiv.org/abs/2107.13706v1 )

ライセンス: CC BY 4.0
Luchuan Song, Bin Liu, Huihui Zhu, Qi Chu, Nenghai Yu(参考訳) 監視ビデオにおける異常行動検出は、インテリジェントシティの重要な部分である。 既存のほとんどの手法は異常の検出方法のみを考慮しており、異常の原因を説明することは少ない。 これらの異常行動の理由から直交的視点を考察する。 そこで本研究では,対象を物体,動作,運動の3つの枝を通して解析する多変量融合法を提案する。 オブジェクトブランチは外観情報にフォーカスし、モーションブランチは運動特徴の分布にフォーカスし、アクションブランチはターゲットのアクションカテゴリにフォーカスする。 これらの分枝が注目する情報は異なり、互いに補完し、協調して異常行動を検出することができる。 最終的な異常スコアは、3つの枝の異常スコアを組み合わせることで得られる。

Abnormal behavior detection in surveillance video is a pivotal part of the intelligent city. Most existing methods only consider how to detect anomalies, with less considering to explain the reason of the anomalies. We investigate an orthogonal perspective based on the reason of these abnormal behaviors. To this end, we propose a multivariate fusion method that analyzes each target through three branches: object, action and motion. The object branch focuses on the appearance information, the motion branch focuses on the distribution of the motion features, and the action branch focuses on the action category of the target. The information that these branches focus on is different, and they can complement each other and jointly detect abnormal behavior. The final abnormal score can then be obtained by combining the abnormal scores of the three branches.
翻訳日:2021-07-30 21:40:44 公開日:2021-07-29
# (参考訳) 群衆カウントのためのカスケード残留密度ネットワーク [全文訳有]

Cascaded Residual Density Network for Crowd Counting ( http://arxiv.org/abs/2107.13718v1 )

ライセンス: CC BY 4.0
Kun Zhao, Luchuan Song, Bin Liu, Qi Chu, Nenghai Yu(参考訳) 実際の群衆シーンにおけるスケールのばらつきや視点のばらつきといった問題のために、群衆のカウントは難しい課題である。 本稿では, 群衆数に対する高品質な密度マップを高精度に生成するために, 粗大なアプローチで新しいカスケード残差密度ネットワーク(CRDNet)を提案する。 1) 逐次的残留密度加群による多スケールピラミッド型特徴量による残留密度マップの推定。 密度マップ層の層別品質を効果的に向上することができる。 2) 局所的なカウントロスを新たに加えることにより, 局所的なカウントの精度を向上し, 局所的な人数を制限し, 画素単位のユークリッド的損失の誤差を低減した。 2つの公開ベンチマークデータセットの実験により,提案手法は最先端の手法と比較して効果的な改善が得られた。

Crowd counting is a challenging task due to the issues such as scale variation and perspective variation in real crowd scenes. In this paper, we propose a novel Cascaded Residual Density Network (CRDNet) in a coarse-to-fine approach to generate the high-quality density map for crowd counting more accurately. (1) We estimate the residual density maps by multi-scale pyramidal features through cascaded residual density modules. It can improve the quality of density map layer by layer effectively. (2) A novel additional local count loss is presented to refine the accuracy of crowd counting, which reduces the errors of pixel-wise Euclidean loss by restricting the number of people in the local crowd areas. Experiments on two public benchmark datasets show that the proposed method achieves effective improvement compared with the state-of-the-art methods.
翻訳日:2021-07-30 21:32:31 公開日:2021-07-29
# (参考訳) UIBert:UI理解のためのジェネリックマルチモーダル表現の学習 [全文訳有]

UIBert: Learning Generic Multimodal Representations for UI Understanding ( http://arxiv.org/abs/2107.13731v1 )

ライセンス: CC BY 4.0
Chongyang Bai, Xiaoxue Zang, Ying Xu, Srinivas Sunkara, Abhinav Rastogi, Jindong Chen, Blaise Aguera y Arcas(参考訳) スマートデバイスのアクセシビリティを改善し,その使用を簡素化するためには,ユーザインターフェース(UI)を理解し,ユーザのタスク完了を支援するモデルの構築が重要である。 しかし、画像、テキスト、構造メタデータを含むマルチモーダルui機能を効果的に活用する方法や、高品質のラベル付きデータを利用できない場合の優れたパフォーマンスを実現する方法など、ui特有の特徴によってユニークな課題が提案されている。 このような課題に対処するために,大規模なラベルなしuiデータに対する新しい事前トレーニングタスクを通じてトレーニングされたトランスフォーマベースの共同画像テキストモデルであるuibertを導入して,uiとそのコンポーネントの汎用的な特徴表現を学習する。 私たちの重要な直感は、UIの異種機能は自己整合性、すなわちUIコンポーネントのイメージとテキスト機能は、互いに予測可能であることです。 本稿では,この自己調整をuiコンポーネントの異なる機能と同一ui内の各種コンポーネント間で行う5つの事前学習タスクを提案する。 提案手法は,uibertが強力なマルチモーダルベースラインを最大9.26%の精度で上回る9つの実世界のダウンストリームuiタスクで評価する。

To improve the accessibility of smart devices and to simplify their usage, building models which understand user interfaces (UIs) and assist users to complete their tasks is critical. However, unique challenges are proposed by UI-specific characteristics, such as how to effectively leverage multimodal UI features that involve image, text, and structural metadata and how to achieve good performance when high-quality labeled data is unavailable. To address such challenges we introduce UIBert, a transformer-based joint image-text model trained through novel pre-training tasks on large-scale unlabeled UI data to learn generic feature representations for a UI and its components. Our key intuition is that the heterogeneous features in a UI are self-aligned, i.e., the image and text features of UI components, are predictive of each other. We propose five pretraining tasks utilizing this self-alignment among different features of a UI component and across various components in the same UI. We evaluate our method on nine real-world downstream UI tasks where UIBert outperforms strong multimodal baselines by up to 9.26% accuracy.
翻訳日:2021-07-30 21:24:42 公開日:2021-07-29
# (参考訳) メタラベルを用いた半教師付き医療画像セグメンテーションのための自己ペーストコントラスト学習 [全文訳有]

Self-Paced Contrastive Learning for Semi-supervisedMedic al Image Segmentation with Meta-labels ( http://arxiv.org/abs/2107.13741v1 )

ライセンス: CC BY 4.0
Jizong Peng, Ping Wang, Chrisitian Desrosiers, Marco Pedersoli(参考訳) ラベルなしデータの大規模なデータセット上で、コントラスト学習を伴う認識モデルの事前学習は、例えば画像分類のような下流タスクのパフォーマンスを高める大きな可能性を示している。 しかし、医用画像などの領域では、ラベルなしデータの収集は困難でコストがかかる。 本稿では,メタラベルアノテーションを用いたコントラスト学習を適応させ,追加のラベルなしデータがない場合でも医用画像セグメンテーションにおけるモデルの性能を向上させることを提案する。 3dmriスキャンにおける2dスライスの位置や使用されるデバイスの種類などのメタラベルは、取得プロセス中に無料で提供されることが多い。 画像エンコーダをプリトレーニングするためにメタラベルを使用し、半教師付きトレーニングを規則化し、アノテートされたデータの少ないセットをトレーニングに使用する。 最後に、弱いアノテーションを完全に活用するために、学習者が有用なラベルをノイズから識別するのに役立つセルフペースト学習アプローチを用いる。 3つの異なる医用画像セグメンテーションデータセットの結果から, 1) 少数のスキャンでトレーニングしたモデルの性能を高い精度で向上させ, 2) 従来のコントラストと半教師付きアプローチを上回り, 3) フルデータでトレーニングしたモデルの性能に近づいた。

Pre-training a recognition model with contrastive learning on a large dataset of unlabeled data has shown great potential to boost the performance of a downstream task, e.g., image classification. However, in domains such as medical imaging, collecting unlabeled data can be challenging and expensive. In this work, we propose to adapt contrastive learning to work with meta-label annotations, for improving the model's performance in medical image segmentation even when no additional unlabeled data is available. Meta-labels such as the location of a 2D slice in a 3D MRI scan or the type of device used, often come for free during the acquisition process. We use the meta-labels for pre-training the image encoder as well as to regularize a semi-supervised training, in which a reduced set of annotated data is used for training. Finally, to fully exploit the weak annotations, a self-paced learning approach is used to help the learning and discriminate useful labels from noise. Results on three different medical image segmentation datasets show that our approach: i) highly boosts the performance of a model trained on a few scans, ii) outperforms previous contrastive and semi-supervised approaches, and iii) reaches close to the performance of a model trained on the full data.
翻訳日:2021-07-30 21:11:23 公開日:2021-07-29
# (参考訳) 複合条件GANを用いた野生における正面顔認識のプロファイル [全文訳有]

Profile to Frontal Face Recognition in the Wild Using Coupled Conditional GAN ( http://arxiv.org/abs/2107.13742v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Veeru Talreja, Jeremy Dawson, Matthew C. Valenti, and Nasser M. Nasrabadi(参考訳) 近年、ディープラーニングの出現に伴い、顔認識は例外的な成功を収めている。 しかし、これらの深層顔認識モデルの多くは、プロフィール顔に比べて前面顔の扱いがはるかに優れている。 プロファイル顔の処理性能が低下する主な理由は、本質的に、プロファイル顔認識に有用なポーズ不変の深い表現を学ぶことが難しいためである。 本稿では、プロファイルフェース領域が、潜在特徴部分空間において、前面フェース領域と潜時接続を有することを仮定する。 我々は、この潜伏接続を利用して、プロファイル面と正面面を共通の潜伏部分空間に投影し、潜伏領域における検証や検索を行う。 我々は,共用条件生成対向ネットワーク(cpGAN)構造を利用して,潜在共通埋め込み部分空間において,プロファイルと正面像の隠れた関係を見出す。 具体的には、cpGANフレームワークは、2つの条件付きGANベースのサブネットワークで構成されている。 各サブネットワークは、共通の埋め込み機能部分空間内の2つの特徴領域間の対関係を最大化する射影を見つける傾向がある。 CFP, CMU Multi-PIE, IJB-A, IJB-Cデータセットを用いて本手法の有効性を実証した。 また,正面顔認識のための複合畳み込みニューラルネットワーク (cpCNN) と対角識別ドメイン適応ネットワーク (ADDA) も実装した。 我々は,cpCNNとADDAの性能を評価し,提案したcpGANと比較した。 最後に,vggface2データセットに含まれる入力プロファイルから前面顔の再構成のためのcpganの評価を行った。

In recent years, with the advent of deep-learning, face recognition has achieved exceptional success. However, many of these deep face recognition models perform much better in handling frontal faces compared to profile faces. The major reason for poor performance in handling of profile faces is that it is inherently difficult to learn pose-invariant deep representations that are useful for profile face recognition. In this paper, we hypothesize that the profile face domain possesses a latent connection with the frontal face domain in a latent feature subspace. We look to exploit this latent connection by projecting the profile faces and frontal faces into a common latent subspace and perform verification or retrieval in the latent domain. We leverage a coupled conditional generative adversarial network (cpGAN) structure to find the hidden relationship between the profile and frontal images in a latent common embedding subspace. Specifically, the cpGAN framework consists of two conditional GAN-based sub-networks, one dedicated to the frontal domain and the other dedicated to the profile domain. Each sub-network tends to find a projection that maximizes the pair-wise correlation between the two feature domains in a common embedding feature subspace. The efficacy of our approach compared with the state-of-the-art is demonstrated using the CFP, CMU Multi-PIE, IJB-A, and IJB-C datasets. Additionally, we have also implemented a coupled convolutional neural network (cpCNN) and an adversarial discriminative domain adaptation network (ADDA) for profile to frontal face recognition. We have evaluated the performance of cpCNN and ADDA and compared it with the proposed cpGAN. Finally, we have also evaluated our cpGAN for reconstruction of frontal faces from input profile faces contained in the VGGFace2 dataset.
翻訳日:2021-07-30 20:54:10 公開日:2021-07-29
# (参考訳) 視点不変運動反復計数 [全文訳有]

Viewpoint-Invariant Exercise Repetition Counting ( http://arxiv.org/abs/2107.13760v1 )

ライセンス: CC BY 4.0
Yu Cheng Hsu, Qingpeng Zhang, Efstratios Tsougenis, Kwok-Leung Tsui(参考訳) ヒューマンエクササイズと身体的リハビリテーションの繰り返しを数えることは、リハビリテーションと運動訓練において一般的な課題である。 既存のビジョンベースの反復カウント手法は、同じビデオの同時動作をあまり強調しない。 本研究は,様々なポーズ推定法から抽出した骨格位置から同時動作を数えるための視覚に基づくヒューマンモーション反復カウントを提案する。 提案手法は, アイダホ大学身体リハビリテーション運動データセット(UI-PRMD)とMM適合データセットを用いて検証した。 平均絶対誤差(MAE)は0.06であり、OBOAは0.94である。 UI-PRMDデータセット全体のMAEは0.06でOBOA 0.95である。 また,MAE 0.06 と OBOA 0.88 を併用して,様々なカメラ位置と同時動作で性能試験を行った。 提案手法は視野角と運動非依存の同時運動カウントを提供する。 この方法は、1台のカメラだけで大規模なリモートリハビリテーションやエクササイズトレーニングに使用できる可能性がある。

Counting the repetition of human exercise and physical rehabilitation is a common task in rehabilitation and exercise training. The existing vision-based repetition counting methods less emphasize the concurrent motions in the same video. This work presents a vision-based human motion repetition counting applicable to counting concurrent motions through the skeleton location extracted from various pose estimation methods. The presented method was validated on the University of Idaho Physical Rehabilitation Movements Data Set (UI-PRMD), and MM-fit dataset. The overall mean absolute error (MAE) for mm-fit was 0.06 with off-by-one Accuracy (OBOA) 0.94. Overall MAE for UI-PRMD dataset was 0.06 with OBOA 0.95. We have also tested the performance in a variety of camera locations and concurrent motions with conveniently collected video with overall MAE 0.06 and OBOA 0.88. The proposed method provides a view-angle and motion agnostic concurrent motion counting. This method can potentially use in large-scale remote rehabilitation and exercise training with only one camera.
翻訳日:2021-07-30 20:23:40 公開日:2021-07-29
# (参考訳) 財務用語のハイパーネム及び同期ランク付けのための用語展開とフィンバート微調整 [全文訳有]

Term Expansion and FinBERT fine-tuning for Hypernym and Synonym Ranking of Financial Terms ( http://arxiv.org/abs/2107.13764v1 )

ライセンス: CC BY 4.0
Ankush Chopra and Sohom Ghosh(参考訳) hypernymと同義語マッチングは、主要な自然言語処理(nlp)タスクの1つである。 本稿では,この問題を解決しようとするシステムを提案する。 IJCAI-2021におけるFinNLPワークショップの共有作業であるFinSim-3に参加するために,これらのシステムを設計した。 共有タスクは金融領域でこの問題を解決することに集中します。 分類や句の類似性タスクを微調整することで,様々なトランスフォーマティブによる事前学習埋め込みを実験した。 また,dbpedia (auer et al., 2007), investopedia, and the financial industry business ontology (fibo) の財務用語のオーガナイザと定義から提供されたprospectusを省略して,提供されたデータセットを拡張した。 FinBERT[Araci, 2019]と、前述のソースからのデータ拡張の両方を使用します。 意味的類似性を伴うデータ拡張を用いた用語拡張は,このタスクに有益であり,短いフレーズを扱う他のタスクにも有用であると考えられる。 我々の最高のパフォーマンスモデル(精度:0.917, Rank: 1.156)は、FIBOのラベル階層を用いて作成された拡張ラベルセット上で、細調整のSentenceBERT [Reimers et al., 2019] によって開発された。

Hypernym and synonym matching are one of the mainstream Natural Language Processing (NLP) tasks. In this paper, we present systems that attempt to solve this problem. We designed these systems to participate in the FinSim-3, a shared task of FinNLP workshop at IJCAI-2021. The shared task is focused on solving this problem for the financial domain. We experimented with various transformer based pre-trained embeddings by fine-tuning these for either classification or phrase similarity tasks. We also augmented the provided dataset with abbreviations derived from prospectus provided by the organizers and definitions of the financial terms from DBpedia [Auer et al., 2007], Investopedia, and the Financial Industry Business Ontology (FIBO). Our best performing system uses both FinBERT [Araci, 2019] and data augmentation from the afore-mentioned sources. We observed that term expansion using data augmentation in conjunction with semantic similarity is beneficial for this task and could be useful for the other tasks that deal with short phrases. Our best performing model (Accuracy: 0.917, Rank: 1.156) was developed by fine-tuning SentenceBERT [Reimers et al., 2019] (with FinBERT at the backend) over an extended labelled set created using the hierarchy of labels present in FIBO.
翻訳日:2021-07-30 20:12:59 公開日:2021-07-29
# (参考訳) 正規化フローを用いた確率的単眼3次元人物位置推定 [全文訳有]

Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows ( http://arxiv.org/abs/2107.13788v1 )

ライセンス: CC BY 4.0
Tom Wehrbein, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt(参考訳) 単眼画像からの3次元人物ポーズ推定は, 深さの曖昧さや咬合による問題である。 それでも、既存のほとんどの研究はこれらの曖昧さを無視し、1つの解のみを見積もっている。 対照的に、我々は、実現可能な3dポーズの完全な後方分布を表す多様な仮説群を生成する。 そこで本研究では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。 さらに、2D検出器の不確かさ情報を条件として組み込むことにより、不確かさの検出と閉塞を効果的にモデル化する。 さらなる成功の鍵は、学習された3Dポーズと、最高のM損失の一般化である。 ベンチマークデータセット human3.6m と mpi-inf-3dhp のアプローチを評価し,ほとんどの指標で比較した手法を上回った。 実装はgithubで公開されている。

3D human pose estimation from monocular images is a highly ill-posed problem due to depth ambiguities and occlusions. Nonetheless, most existing works ignore these ambiguities and only estimate a single solution. In contrast, we generate a diverse set of hypotheses that represents the full posterior distribution of feasible 3D poses. To this end, we propose a normalizing flow based method that exploits the deterministic 3D-to-2D mapping to solve the ambiguous inverse 2D-to-3D problem. Additionally, uncertain detections and occlusions are effectively modeled by incorporating uncertainty information of the 2D detector as condition. Further keys to success are a learned 3D pose prior and a generalization of the best-of-M loss. We evaluate our approach on the two benchmark datasets Human3.6M and MPI-INF-3DHP, outperforming all comparable methods in most metrics. The implementation is available on GitHub.
翻訳日:2021-07-30 20:02:21 公開日:2021-07-29
# (参考訳) 分数ダイナミクスを用いた非マルコフ強化学習 [全文訳有]

Non-Markovian Reinforcement Learning using Fractional Dynamics ( http://arxiv.org/abs/2107.13790v1 )

ライセンス: CC BY 4.0
Gaurav Gupta, Chenzhong Yin, Jyotirmoy V. Deshmukh, Paul Bogdan(参考訳) 強化学習(Reinforcement Learning, RL)は、確率的環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。 任意の状態において、エージェントは何らかのアクションを行い、環境は次の状態上の確率分布を決定し、エージェントに報酬を与える。 ほとんどのRLアルゴリズムは、環境がマルコフの仮定(すなわち)を満たすと仮定する。 次の状態の確率分布は現在の状態のみに依存する)。 本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。 このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。 モデルベースRL(MBRL)技術は、通常、データから環境のモデルを同時に学習し、学習したモデルに最適なポリシーを識別しようとする。 システムの非マルコビアン性は分数的力学系によってモデル化される手法を提案する。 最適ポリシから有界地平面モデル予測制御を用いたMBRLアルゴリズムの性能差を定量化できることを示す。 最後に,ヒト血糖値動態の薬物動態モデルに関する枠組みを実証し,実世界のデータセットから遠方の相関を捉えることができることを示した。

Reinforcement learning (RL) is a technique to learn the control policy for an agent that interacts with a stochastic environment. In any given state, the agent takes some action, and the environment determines the probability distribution over the next state as well as gives the agent some reward. Most RL algorithms typically assume that the environment satisfies Markov assumptions (i.e. the probability distribution over the next state depends only on the current state). In this paper, we propose a model-based RL technique for a system that has non-Markovian dynamics. Such environments are common in many real-world applications such as in human physiology, biological systems, material science, and population dynamics. Model-based RL (MBRL) techniques typically try to simultaneously learn a model of the environment from the data, as well as try to identify an optimal policy for the learned model. We propose a technique where the non-Markovianity of the system is modeled through a fractional dynamical system. We show that we can quantify the difference in the performance of an MBRL algorithm that uses bounded horizon model predictive control from the optimal policy. Finally, we demonstrate our proposed framework on a pharmacokinetic model of human blood glucose dynamics and show that our fractional models can capture distant correlations on real-world datasets.
翻訳日:2021-07-30 19:46:58 公開日:2021-07-29
# (参考訳) CI-Net:ジョイントセマンティックセグメンテーションと深さ推定のためのコンテキスト情報 [全文訳有]

CI-Net: Contextual Information for Joint Semantic Segmentation and Depth Estimation ( http://arxiv.org/abs/2107.13800v1 )

ライセンス: CC BY 4.0
Tianxiao Gao, Wu Wei, Zhongbin Cai, Zhun Fan, Shane Xie, Xinmei Wang, Qiuda Yu(参考訳) 単眼深度推定とセマンティックセグメンテーションはシーン理解の基本的な目的である。 タスクインタラクションの利点により、多くの研究が共同作業学習アルゴリズムを研究している。 しかし、既存のほとんどのメソッドはセマンティックラベルを完全に活用できず、提供されたコンテキスト構造を無視し、セグメント分割の予測を監督するためにのみ使用する。 本稿では,その問題を解決するために,文脈情報(CI-Net)を注入したネットワークを提案する。 具体的には、注意マップを生成するエンコーダに自己注意ブロックを導入する。 セマンティックラベルが生み出した根底的な真実からの監督により、ネットワークはコンテキスト情報に埋め込まれ、シーンをよりよく理解し、依存する特徴を利用して正確な予測を行う。 さらに、タスク固有の機能を深く融合させる機能共有モジュールを構築し、その機能を相互にガイドする一貫性損失を考案する。 提案したCI-NetをNYU-Depth-v2およびSUN-RGBDデータセット上で評価する。 実験の結果,提案したCI-Netが最先端技術と競合していることが確認された。

Monocular depth estimation and semantic segmentation are two fundamental goals of scene understanding. Due to the advantages of task interaction, many works study the joint task learning algorithm. However, most existing methods fail to fully leverage the semantic labels, ignoring the provided context structures and only using them to supervise the prediction of segmentation split. In this paper, we propose a network injected with contextual information (CI-Net) to solve the problem. Specifically, we introduce self-attention block in the encoder to generate attention map. With supervision from the ground truth created by semantic labels, the network is embedded with contextual information so that it could understand the scene better, utilizing dependent features to make accurate prediction. Besides, a feature sharing module is constructed to make the task-specific features deeply fused and a consistency loss is devised to make the features mutually guided. We evaluate the proposed CI-Net on the NYU-Depth-v2 and SUN-RGBD datasets. The experimental results validate that our proposed CI-Net is competitive with the state-of-the-arts.
翻訳日:2021-07-30 19:30:32 公開日:2021-07-29
# (参考訳) 連続性から編集可能性:連続画像によるGANの反転 [全文訳有]

From Continuity to Editability: Inverting GANs with Consecutive Images ( http://arxiv.org/abs/2107.13812v1 )

ライセンス: CC BY 4.0
Yangyang Xu, Yong Du, Wenpeng Xiao, Xuemiao Xu and Shengfeng He(参考訳) 既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。 そのうちの1つだけでは、実際の画像編集は実現できない。 本稿では,この逆転過程に連続した画像(映像フレームやポーズの異なる人物)を導入することで,このパラドックスを解消する。 私たちのソリューションの背景にある理論的根拠は、連続した画像の連続性が固有の編集可能な方向につながるということです。 この独立性は、2つのユニークな目的のために使用される: 1) 共同逆転過程を規則化し、各逆転したコードは一方から意味的にアクセスでき、編集可能なドメインで固定される; 2) 逆転したコードの忠実度を他の画像の補体で最大化するように、画像間コヒーレンスを強制する。 大規模な実験により,本手法は,実画像データセットと合成データセットの両方において,再現精度と編集性において,最先端の手法を著しく上回ることを示した。 さらに,本手法は,映像ベースGAN変換の最初のサポートと,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。 ソースコードは以下の通りである。 \url{https://github.com/Q ingyang-Xu/Inverting GANs_with_Consecutiv eImgs}。

Existing GAN inversion methods are stuck in a paradox that the inverted codes can either achieve high-fidelity reconstruction, or retain the editing capability. Having only one of them clearly cannot realize real image editing. In this paper, we resolve this paradox by introducing consecutive images (\eg, video frames or the same person with different poses) into the inversion process. The rationale behind our solution is that the continuity of consecutive images leads to inherent editable directions. This inborn property is used for two unique purposes: 1) regularizing the joint inversion process, such that each of the inverted code is semantically accessible from one of the other and fastened in a editable domain; 2) enforcing inter-image coherence, such that the fidelity of each inverted code can be maximized with the complement of other images. Extensive experiments demonstrate that our alternative significantly outperforms state-of-the-art methods in terms of reconstruction fidelity and editability on both the real image dataset and synthesis dataset. Furthermore, our method provides the first support of video-based GAN inversion, and an interesting application of unsupervised semantic transfer from consecutive images. Source code can be found at: \url{https://github.com/Q ingyang-Xu/Inverting GANs_with_Consecutiv eImgs}.
翻訳日:2021-07-30 19:11:11 公開日:2021-07-29
# (参考訳) 生物・化学プロセスのデータ駆動ソフトセンシングのための半教師付き学習

Semi-supervised Learning for Data-driven Soft-sensing of Biological and Chemical Processes ( http://arxiv.org/abs/2107.13822v1 )

ライセンス: CC BY-SA 4.0
Erik Esche, Torben Talis, Joris Weigert, Gerardo Brand-Rihm, Byungjun You, Christian Hoffmann, Jens-Uwe Repke(参考訳) 連続運転(バイオ)化学プロセスは、供給変動や市場の状況の変化といった外部の混乱にますます悩まされる。 製品の品質は、まれに測定される濃度の制御に左右されることが多い。 半教師付き回帰は、頻繁な測定状態に対するソフトセンサーを構築するための機械学習からのビルディングブロックとメソッドである。 ウィリアムズ・オットー法とバイオエタノール製造法という2つのケーススタディを用いて、半教師付き回帰を標準回帰法と比較し、その利点と(バイオ)化学産業におけるプロセス制御の適用範囲を評価する。

Continuously operated (bio-)chemical processes increasingly suffer from external disturbances, such as feed fluctuations or changes in market conditions. Product quality often hinges on control of rarely measured concentrations, which are expensive to measure. Semi-supervised regression is a possible building block and method from machine learning to construct soft-sensors for such infrequently measured states. Using two case studies, i.e., the Williams-Otto process and a bioethanol production process, semi-supervised regression is compared against standard regression to evaluate its merits and its possible scope of application for process control in the (bio-)chemical industry.
翻訳日:2021-07-30 18:58:37 公開日:2021-07-29
# (参考訳) 多チャンネル音声記録を用いたブラインドルームパラメータ推定 [全文訳有]

Blind Room Parameter Estimation Using Multiple-Multichanne l Speech Recordings ( http://arxiv.org/abs/2107.13832v1 )

ライセンス: CC BY 4.0
Prerak Srivastava, Antoine Deleforge, Emmanuel Vincent(参考訳) 部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。 本稿では,複数の音源受信者位置からの2チャンネル雑音音声記録に基づいて,室内の総表面積,音量,周波数依存性の残響時間,平均表面吸収をブラインド方式で同時推定する問題について検討する。 単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。 シミュレーションデータと実データの両方の結果から,1室で複数の観測値を用いた場合,全ての目標量の推定誤差やばらつきが著しく低減され,二つのチャネルが表面および体積の推定に有効であることが示唆された。 提案手法は,最近提案されたブラインドボリューム推定法よりも優れている。

Knowing the geometrical and acoustical parameters of a room may benefit applications such as audio augmented reality, speech dereverberation or audio forensics. In this paper, we study the problem of jointly estimating the total surface area, the volume, as well as the frequency-dependent reverberation time and mean surface absorption of a room in a blind fashion, based on two-channel noisy speech recordings from multiple, unknown source-receiver positions. A novel convolutional neural network architecture leveraging both single- and inter-channel cues is proposed and trained on a large, realistic simulated dataset. Results on both simulated and real data show that using multiple observations in one room significantly reduces estimation errors and variances on all target quantities, and that using two channels helps the estimation of surface and volume. The proposed model outperforms a recently proposed blind volume estimation method on the considered datasets.
翻訳日:2021-07-30 18:57:44 公開日:2021-07-29
# (参考訳) 転写学習による材料の微細構造多様性 [全文訳有]

Addressing materials' microstructure diversity using transfer learning ( http://arxiv.org/abs/2107.13841v1 )

ライセンス: CC BY 4.0
Aur\`ele Goetz, Ali Riza Durmaz, Martin M\"uller, Akhil Thomas, Dominik Britz, Pierre Kerfriden and Chris Eberl(参考訳) 材料の微細構造は合金組成と加工の歴史の象徴である。 そのため、微細構造は多種多様である。 工学的要求を満たすために材料が複雑化するにつれて、深層学習(DL)のような高度なコンピュータビジョン(CV)アプローチは、マイクログラフからマイクロストラクチャの構成成分を定量化するために必然的に関連性を得る。 DLは多くのタスクで従来のCV技術より優れているが、欠点はデータセット間のデータ効率と一般化性である。 これは本来、専門家による注釈データや幅広い資料の多様性に関連する費用と矛盾している。 ドメインの一般化性の低下とラベル付きデータの欠如に対処するため,教師なしドメイン適応(UDA)と呼ばれるサブクラス転送学習手法を提案する。 これらのアルゴリズムは、アノテーションがないにもかかわらず、後者のディストリビューションのパフォーマンスが最適化されるように、アノテーション付きソースデータと注釈なしターゲットデータで供給されたドメイン不変の特徴を見つけるタスクに対処する。 本研究は, 複合相鋼板の溶湯状ベイナイトセグメンテーションタスクについて実例で検討した。 ここで、ブリッジへのドメインは、異なる金属試料調製物(表面エッチング)と異なる撮像モードに選択される。 我々は、最先端のUDAアプローチが、ターゲットドメイン(一般化ベースライン)上のソースドメイン訓練モデルの na\" 適用をはるかに上回っていることを示す。 これは、ほとんどデータを使用しておらず、ベースラインモデルが事前トレーニングされたり、データ拡張が行われたりしても、ドメインシフトとは独立している。 UDAを通じて、mIoUは一般化ベースラインを82.2%、61.0%、49.7%から84.7%、67.3%、73.3%に改善した。 これは、この手法が材料のばらつきに対処する可能性を示す。

Materials' microstructures are signatures of their alloying composition and processing history. Therefore, microstructures exist in a wide variety. As materials become increasingly complex to comply with engineering demands, advanced computer vision (CV) approaches such as deep learning (DL) inevitably gain relevance for quantifying microstrucutures 7; constituents from micrographs. While DL can outperform classical CV techniques for many tasks, shortcomings are poor data efficiency and generalizability across datasets. This is inherently in conflict with the expense associated with annotating materials data through experts and extensive materials diversity. To tackle poor domain generalizability and the lack of labeled data simultaneously, we propose to apply a sub-class of transfer learning methods called unsupervised domain adaptation (UDA). These algorithms address the task of finding domain-invariant features when supplied with annotated source data and unannotated target data, such that performance on the latter distribution is optimized despite the absence of annotations. Exemplarily, this study is conducted on a lath-shaped bainite segmentation task in complex phase steel micrographs. Here, the domains to bridge are selected to be different metallographic specimen preparations (surface etchings) and distinct imaging modalities. We show that a state-of-the-art UDA approach surpasses the na\"ive application of source domain trained models on the target domain (generalization baseline) to a large extent. This holds true independent of the domain shift, despite using little data, and even when the baseline models were pre-trained or employed data augmentation. Through UDA, mIoU was improved over generalization baselines from 82.2%, 61.0%, 49.7% to 84.7%, 67.3%, 73.3% on three target datasets, respectively. This underlines this techniques' potential to cope with materials variance.
翻訳日:2021-07-30 18:45:51 公開日:2021-07-29
# (参考訳) MLP-ADAMを用いた地下水位予測のための人工知能ハイブリッド深層学習モデル [全文訳有]

Artificial Intelligence Hybrid Deep Learning Model for Groundwater Level Prediction Using MLP-ADAM ( http://arxiv.org/abs/2107.13870v1 )

ライセンス: CC BY 4.0
Pejman Zarafshan, Saman Javadi, Abbas Roozbahani, Seyed Mehdi Hashemy, Payam Zarafshan, Hamed Etezadi(参考訳) 地下水は淡水資源の最大の貯蔵物であり、農業、工業、家庭の水供給を通じて人間の消費のほとんどを主要な在庫としている。 流体学の分野では、時空の降雨強度を予測するためにニューラルネットワークを適用し、数値モデルと比較してニューラルネットワークの利点を導入した研究者もいる。 そして、データ駆動モデルを適用した多くの研究が行われている。 そのうちのいくつかは、半濃縮氷河砂と砂利帯水層における地下水位を変動状態で予測するために、ニューラルネットワーク(ANN)モデルを拡張した。 本稿では,多層パーセプトロンを用いて地下水位をシミュレーションする。 この問題には適応モーメント推定最適化アルゴリズムも用いられる。 シミュレーション地下水位の精度を評価するために、根平均二乗誤差、平均絶対誤差、平均二乗誤差、および判定係数()を用いる。 RMSEの合計値は0.9458と0.7313であり、それぞれモデル出力から得られる。 その結果,深層学習アルゴリズムは高精度な予測が可能となった。 パラメータの最適化は数では重要ではないが、モデリング設定における時間の値のため、モデリングに最適化アルゴリズムを適用することが推奨される。

Groundwater is the largest storage of freshwater resources, which serves as the major inventory for most of the human consumption through agriculture, industrial, and domestic water supply. In the fields of hydrological, some researchers applied a neural network to forecast rainfall intensity in space-time and introduced the advantages of neural networks compared to numerical models. Then, many researches have been conducted applying data-driven models. Some of them extended an Artificial Neural Networks (ANNs) model to forecast groundwater level in semi-confined glacial sand and gravel aquifer under variable state, pumping extraction and climate conditions with significant accuracy. In this paper, a multi-layer perceptron is applied to simulate groundwater level. The adaptive moment estimation optimization algorithm is also used to this matter. The root mean squared error, mean absolute error, mean squared error and the coefficient of determination ( ) are used to evaluate the accuracy of the simulated groundwater level. Total value of and RMSE are 0.9458 and 0.7313 respectively which are obtained from the model output. Results indicate that deep learning algorithms can demonstrate a high accuracy prediction. Although the optimization of parameters is insignificant in numbers, but due to the value of time in modelling setup, it is highly recommended to apply an optimization algorithm in modelling.
翻訳日:2021-07-30 18:22:52 公開日:2021-07-29
# (参考訳) 対人個人格付け最適化法が推薦品質に及ぼす影響の理解 [全文訳有]

Understanding the Effects of Adversarial Personalized Ranking Optimization Method on Recommendation Quality ( http://arxiv.org/abs/2107.13876v1 )

ライセンス: CC BY 4.0
Vito Walter Anelli, Yashar Deldjoo, Tommaso Di Noia, Felice Antonio Merra(参考訳) Recommender System (RS) はユーザーからのフィードバック(例えばレーティングなど)を使って顧客と製品のパーソナライズされたリストをマッチングする。 トップkレコメンデーションへのアプローチは主にLearning-to-Rankアルゴリズムに依存しており、その中で最も広く採用されているのはBayesian Personalized Ranking(BPR)である。 近年、BPRはモデルパラメータの逆転摂動に対して脆弱であることが判明した。 対人個人格付け(Adversarial Personalized Ranking, APR)は、対人訓練によってBPRを堅牢化することでこの問題を緩和する。 BPRにおけるAPRの精度性能の実証的な改善により、いくつかの推奨モデルで広く利用されている。 しかし、APRのビルディングブロックであるBPRがバイアスの増大とレコメンデーションノベルティの減少に敏感であることを示す最近の研究結果を考えると、APRの過度な性能、すなわち、新規性、カバレッジ、人気バイアスの増幅が注目されている。 本研究では,bprおよびapr最適化フレームワークの学習特性をモデル化し,フィードバックデータがテール分布を持つ場合,短頭項目からの肯定的な更新数が不均衡であることから,aprがbprよりも人気バイアスを増幅することを示す。 行列因子分解(mf)を用いて,bpr-mf と apr-mf の性能を精度と精度の指標で比較するために,2つの公開データセットで予備実験を行い,理論結果を実証的に検証した。 実験の結果, 新奇性および被覆率の低下と, バイアスの懸念の増幅が一貫して示された。

Recommender systems (RSs) employ user-item feedback, e.g., ratings, to match customers to personalized lists of products. Approaches to top-k recommendation mainly rely on Learning-To-Rank algorithms and, among them, the most widely adopted is Bayesian Personalized Ranking (BPR), which bases on a pair-wise optimization approach. Recently, BPR has been found vulnerable against adversarial perturbations of its model parameters. Adversarial Personalized Ranking (APR) mitigates this issue by robustifying BPR via an adversarial training procedure. The empirical improvements of APR's accuracy performance on BPR have led to its wide use in several recommender models. However, a key overlooked aspect has been the beyond-accuracy performance of APR, i.e., novelty, coverage, and amplification of popularity bias, considering that recent results suggest that BPR, the building block of APR, is sensitive to the intensification of biases and reduction of recommendation novelty. In this work, we model the learning characteristics of the BPR and APR optimization frameworks to give mathematical evidence that, when the feedback data have a tailed distribution, APR amplifies the popularity bias more than BPR due to an unbalanced number of received positive updates from short-head items. Using matrix factorization (MF), we empirically validate the theoretical results by performing preliminary experiments on two public datasets to compare BPR-MF and APR-MF performance on accuracy and beyond-accuracy metrics. The experimental results consistently show the degradation of novelty and coverage measures and a worrying amplification of bias.
翻訳日:2021-07-30 18:14:35 公開日:2021-07-29
# (参考訳) QuPeD: 蒸留による量子パーソナライゼーションとフェデレーション学習への応用

QuPeD: Quantized Personalization via Distillation with Applications to Federated Learning ( http://arxiv.org/abs/2107.13892v1 )

ライセンス: CC BY 4.0
Kaan Ozkara, Navjot Singh, Deepesh Data, Suhas Diggavi(参考訳) 従来のFLは、複数のクライアントとサーバを協調的に使用しながら、単一のグローバルモデルをトレーニングすることを目的としています。 FLアルゴリズムが直面する2つの自然な課題は、クライアント間でのデータの不均一性と、クライアントとのコラボレーションである。 本研究では、異種データやリソースにアクセス可能なクライアント間での「textit{knowledge distillation}」(KD)を介して、集合的(個人化されたモデル圧縮)訓練を容易にする「textit{quantized}」と「textit{personalized}」FLアルゴリズム「QuPeD」を導入する。 パーソナライズのために、クライアントは異なる量子化パラメータとモデル次元/構造を持つ \textit{compressed Personalized model} を学習できる。 そこで我々はまず,量子化値も最適化される緩和最適化問題を通じて量子化モデルを学習するアルゴリズムを提案する。 各クライアントが圧縮モデル(モデル次元と精度の両方において)に対して異なる要求を持つ場合、グローバルモデルを介して協調するローカルクライアントの目的に対して知識蒸留損失を導入することにより、圧縮パーソナライズフレームワークを定式化する。 この圧縮パーソナライズ問題を解決するための交互の近位勾配更新を開発し,その収束特性を分析する。 数値的には、QuPeDは、さまざまな異種環境におけるクライアントの個人化FLメソッド、FedAvg、およびローカルトレーニングよりも優れていた。

Traditionally, federated learning (FL) aims to train a single global model while collaboratively using multiple clients and a server. Two natural challenges that FL algorithms face are heterogeneity in data across clients and collaboration of clients with {\em diverse resources}. In this work, we introduce a \textit{quantized} and \textit{personalized} FL algorithm QuPeD that facilitates collective (personalized model compression) training via \textit{knowledge distillation} (KD) among clients who have access to heterogeneous data and resources. For personalization, we allow clients to learn \textit{compressed personalized models} with different quantization parameters and model dimensions/structure s. Towards this, first we propose an algorithm for learning quantized models through a relaxed optimization problem, where quantization values are also optimized over. When each client participating in the (federated) learning process has different requirements for the compressed model (both in model dimension and precision), we formulate a compressed personalization framework by introducing knowledge distillation loss for local client objectives collaborating through a global model. We develop an alternating proximal gradient update for solving this compressed personalization problem, and analyze its convergence properties. Numerically, we validate that QuPeD outperforms competing personalized FL methods, FedAvg, and local training of clients in various heterogeneous settings.
翻訳日:2021-07-30 18:01:35 公開日:2021-07-29
# (参考訳) テキスト認識のための実データを試してみるべき理由 [全文訳有]

Why You Should Try the Real Data for the Scene Text Recognition ( http://arxiv.org/abs/2107.13938v1 )

ライセンス: CC BY 4.0
Vladimir Loginov(参考訳) テキスト認識領域における最近の研究は、認識結果をニューホライズンズに推進している。 しかし長い間、人間がラベルを付けた自然テキスト認識データセットの欠如は、研究者にテキスト認識モデルのトレーニングに合成データを使うよう強制されてきた。 合成データセットは非常に大きい(最も有名な2つの合成データセットであるMJSynthとSynthTestは、それぞれ数百万の画像を持っている)が、ICDARなどの自然データセットと比較して、その多様性は不十分である可能性がある。 幸いなことに、最近リリースされたOpenImages V5データセットのテキスト認識アノテーションは、合成データセットの数やより多様な例と同等である。 我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。 いくつかのデータセットでは、以前のSOTAモデルよりも優れています。 本稿では,テキスト認識モデルについても述べる。 モデルのコードは利用可能だ。

Recent works in the text recognition area have pushed forward the recognition results to the new horizons. But for a long time a lack of large human-labeled natural text recognition datasets has been forcing researchers to use synthetic data for training text recognition models. Even though synthetic datasets are very large (MJSynth and SynthTest, two most famous synthetic datasets, have several million images each), their diversity could be insufficient, compared to natural datasets like ICDAR and others. Fortunately, the recently released text-recognition annotation for OpenImages V5 dataset has comparable with synthetic dataset number of instances and more diverse examples. We have used this annotation with a Text Recognition head architecture from the Yet Another Mask Text Spotter and got comparable to the SOTA results. On some datasets we have even outperformed previous SOTA models. In this paper we also introduce a text recognition model. The model's code is available.
翻訳日:2021-07-30 17:59:14 公開日:2021-07-29
# (参考訳) マイクロインフルエンサーのランキング:新しいマルチタスク学習と解釈可能なフレームワーク [全文訳有]

Ranking Micro-Influencers: a Novel Multi-Task Learning and Interpretable Framework ( http://arxiv.org/abs/2107.13943v1 )

ライセンス: CC BY 4.0
Adam Elwood, Alberto Gasparin, Alessandro Rozza(参考訳) ブランド商品の宣伝にソーシャルメディアが使われるようになり、効果的なインフルエンサーマーケティングへの需要が高まっている。 これは"マイクロインフルエンサー(micro-influencers)& quot;が主流の製品よりも手頃な価格だが発見が難しいため、さらに難しい。 本稿では,マルチメディアコンテンツに基づくマイクロインフルエンサーランキングにおける技術状況を改善するための,新しいマルチタスク学習フレームワークを提案する。 さらに,ブランドとインフルエンサーの視覚的一致が互換性のよい尺度であることが示されていることから,ブランドのメディア戦略の伝達にも利用できる,モデル決定を効果的に解釈するための視覚的手法を提供する。 最近構築されたパブリックデータセットの現在の状態と比較し、精度とモデルの複雑さの両面で大幅な改善を示す。 この研究で提示されるランキングと解釈のテクニックは、類似した構造を持つデータセットを持つ任意のマルチメディアランキングタスクに一般化することができる。

With the rise in use of social media to promote branded products, the demand for effective influencer marketing has increased. Brands are looking for improved ways to identify valuable influencers among a vast catalogue; this is even more challenging with "micro-influencers&qu ot;, which are more affordable than mainstream ones but difficult to discover. In this paper, we propose a novel multi-task learning framework to improve the state of the art in micro-influencer ranking based on multimedia content. Moreover, since the visual congruence between a brand and influencer has been shown to be good measure of compatibility, we provide an effective visual method for interpreting our models' decisions, which can also be used to inform brands' media strategies. We compare with the current state-of-the-art on a recently constructed public dataset and we show significant improvement both in terms of accuracy and model complexity. The techniques for ranking and interpretation presented in this work can be generalised to arbitrary multimedia ranking tasks that have datasets with a similar structure.
翻訳日:2021-07-30 17:47:44 公開日:2021-07-29
# (参考訳) demystifying neural language models's insensitivity to word-order [全文訳有]

Demystifying Neural Language Models' Insensitivity to Word-Order ( http://arxiv.org/abs/2107.13955v1 )

ライセンス: CC BY 4.0
Louis Clouatre, Prasanna Parthasarathi, Amal Zouaq, Sarath Chandar(参考訳) 自然言語理解モデルの単語順摂動に対する感受性を分析する最近の研究では、いくつかの言語タスクにおける最先端のモデルは、従来の構文や意味論で説明できないテキストを理解するユニークな方法を持っている可能性がある。 本稿では,自然言語モデルの単語順への無感性について,摂動を定量化し,そのニューラルモデルの性能が言語理解タスクに与える影響をglueベンチマークで解析する。 そこで本研究では, 直交変位(DND)と指数変位数(IDC)の2つの指標を提案し, 乱れたテキスト中のトークンの局所的およびグローバルな順序付けをスコアし, 局所的な順序付けが比較的乱される一方で, 先行文献に見られる摂動関数がグローバルな順序付けにのみ影響することを観察する。 本研究では,自然言語タスクにおけるdnd,idcとニューラル言語モデルの性能の関係を調べるために,サブワードと文字の粒度における摂動を提案する。 ニューラルネットワークモデル – 事前訓練されたトランスフォーマー、lstm、畳み込みアーキテクチャ – では、トークンのグローバルな順序付けよりも、局所的な順序付けが必要であることが分かりました。 提案されたメトリクスと摂動のスイートは、ニューラルネットワーク理解モデルの感度を様々な摂動の程度に研究する体系的な方法を可能にする。

Recent research analyzing the sensitivity of natural language understanding models to word-order perturbations have shown that the state-of-the-art models in several language tasks may have a unique way to understand the text that could seldom be explained with conventional syntax and semantics. In this paper, we investigate the insensitivity of natural language models to word-order by quantifying perturbations and analysing their effect on neural models' performance on language understanding tasks in GLUE benchmark. Towards that end, we propose two metrics - the Direct Neighbour Displacement (DND) and the Index Displacement Count (IDC) - that score the local and global ordering of tokens in the perturbed texts and observe that perturbation functions found in prior literature affect only the global ordering while the local ordering remains relatively unperturbed. We propose perturbations at the granularity of sub-words and characters to study the correlation between DND, IDC and the performance of neural language models on natural language tasks. We find that neural language models - pretrained and non-pretrained Transformers, LSTMs, and Convolutional architectures - require local ordering more so than the global ordering of tokens. The proposed metrics and the suite of perturbations allow a systematic way to study the (in)sensitivity of neural language understanding models to varying degree of perturbations.
翻訳日:2021-07-30 17:32:40 公開日:2021-07-29
# (参考訳) PPT核融合 : ピラミッドパッチ変換器による画像融合の事例研究 [全文訳有]

PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion ( http://arxiv.org/abs/2107.13967v1 )

ライセンス: CC0 1.0
Yu Fu, TianYang Xu, XiaoJun Wu, Josef Kittler(参考訳) トランスフォーマーアーキテクチャは近年急速に発展し、画像分類のためのビジョントランスフォーマー(ViT)など多くのコンピュータビジョンタスクにおいてCNNのアーカイテクチュアを上回っている。 しかし、既存の視覚変換モデルは、分類や検出、入力画像の空間分解能のゆがみ、入力の再構築や高解像度画像の生成における能力の犠牲となるような高レベルのタスクに対する意味情報を抽出することを目的としている。 そこで本稿では,上記の課題を効果的に解決するためのパッチピラミッドトランスフォーマ(ppt)を提案する。 我々はまず,まずパッチの列にテーマを変換するパッチ変換器を設計し,各パッチに対して変換器エンコーディングを行い,局所表現を抽出し,また画像全体から非局所情報を効果的に抽出するピラミッド変換器を構築した。 原画像の多次元・多次元・多角形状の集合を得た後,画像再構成ネットワークを設計し,特徴を元の入力に再構成できるようにする。 画像融合課題に対して提案したパッチピラミッド変換器を適用し, 実験結果により, 現状の融合手法よりも優れた性能を示し, 評価指標の最適値を得ることができた。 PPTネットワークの根底にある能力は、特徴抽出と画像再構成における普遍的なパワーによって反映され、ネットワークを再調整することなく、異なる画像融合タスクに直接適用することができる。

The Transformer architecture has achieved rapiddevelopment in recent years, outperforming the CNN archi-tectures in many computer vision tasks, such as the VisionTransformers (ViT) for image classification. However, existingvisual transformer models aim to extract semantic informationfor high-level tasks such as classification and detection, distortingthe spatial resolution of the input image, thus sacrificing thecapacity in reconstructing the input or generating high-resolutionimage s. In this paper, therefore, we propose a Patch PyramidTransformer(P PT) to effectively address the above issues. Specif-ically, we first design a Patch Transformer to transform theimage into a sequence of patches, where transformer encodingis performed for each patch to extract local representations.In addition, we construct a Pyramid Transformer to effectivelyextract the non-local information from the entire image. Afterobtaining a set of multi-scale, multi-dimensional, and multi-anglefeatures of the original image, we design the image reconstructionnetwor k to ensure that the features can be reconstructed intothe original input. To validate the effectiveness, we apply theproposed Patch Pyramid Transformer to the image fusion task.The experimental results demonstrate its superior performanceagainst the state-of-the-art fusion approaches, achieving the bestresults on several evaluation indicators. The underlying capacityof the PPT network is reflected by its universal power in featureextraction and image reconstruction, which can be directlyapplied to different image fusion tasks without redesigning orretraining the network.
翻訳日:2021-07-30 17:11:47 公開日:2021-07-29
# (参考訳) 山西省における脳卒中リスク評価の多目的最適化と説明 [全文訳有]

Multi-objective optimization and explanation for stroke risk assessment in Shanxi province ( http://arxiv.org/abs/2107.14060v1 )

ライセンス: CC BY 4.0
ing Ma, Yiyang Sun, Junjie Liu, Huaxiong Huang, Xiaoshuang Zhou and Shixin Xu(参考訳) ストロークは中国で最大の死因である(Zhou et al)。 2019年)。 山西省のデータセットは、患者の4つの状態におけるリスクを識別するために使用され、SHAP DeepExplainerを通じて状態遷移傾向を提供する。 不均衡なサンプルセットの精度を向上させるために、二次的インタラクティブな特徴の選択と付加を柔軟に行うことで、QIDNNモデルが最初に提案される。 実験結果から、7つのインタラクティブな特徴を持つQIDNNモデルは8.25 %$の最先端精度を実現することがわかった。 血圧、身体的不活性、喫煙、体重、総コレステロールは5つの重要な特徴である。 そして、最も緊急な状態である攻撃状態を高いリコールのために、多目的最適化の恩恵を受ける補助目的として、ストローク発生予測を行う。 予測精度は向上し、攻撃状態のリコールは、同じ特徴を持つQIDNN (67.93\%$) と比較して24.9\%$ (84.83\%$) 改善された。 本論文の予測モデルと解析ツールは, 理論上最適化された予測手法を提供するだけでなく, 患者毎のリスク状態と遷移方向の帰属説明を提供し, 医師が疾患を分析し, 診断するための好適なツールとなった。

Stroke is the top leading causes of death in China (Zhou et al. The Lancet 2019). A dataset from Shanxi Province is used to identify the risk of each patient's at four states low/medium/high/atta ck and provide the state transition tendency through a SHAP DeepExplainer. To improve the accuracy on an imbalance sample set, the Quadratic Interactive Deep Neural Network (QIDNN) model is first proposed by flexible selecting and appending of quadratic interactive features. The experimental results showed that the QIDNN model with 7 interactive features achieve the state-of-art accuracy $83.25\%$. Blood pressure, physical inactivity, smoking, weight and total cholesterol are the top five important features. Then, for the sake of high recall on the most urgent state, attack state, the stroke occurrence prediction is taken as an auxiliary objective to benefit from multi-objective optimization. The prediction accuracy was promoted, meanwhile the recall of the attack state was improved by $24.9\%$ (to $84.83\%$) compared to QIDNN (from $67.93\%$) with same features. The prediction model and analysis tool in this paper not only gave the theoretical optimized prediction method, but also provided the attribution explanation of risk states and transition direction of each patient, which provided a favorable tool for doctors to analyze and diagnose the disease.
翻訳日:2021-07-30 16:55:41 公開日:2021-07-29
# (参考訳) TERRA-REFの高分解能マルチセンサー・プラントはコンピュータビジョン・コミュニティに何をもたらすのか? [全文訳有]

What Does TERRA-REF's High Resolution, Multi Sensor Plant Sensing Public Domain Data Offer the Computer Vision Community? ( http://arxiv.org/abs/2107.14072v1 )

ライセンス: CC BY 4.0
David LeBauer, Max Burnette, Noah Fahlgren, Rob Kooper, Kenton McHenry, Abby Stylianou(参考訳) TERRA-REFプロジェクトの中心的な目的は、フィールド条件下で植物を研究するためのセンシング技術の評価研究のためのオープンアクセス参照データセットを作成することである。 TERRA-REFプログラムは1ヘクタール (~10^4$ m) を1週間に約1 mm^2$の空間分解能でスキャンすることを目的として、高解像度で最先端の技術センサーをガントリーシステムに展開した。 このシステムは、ステレオペアRGBカメラ、サーマルイメージ装置、レーザースキャナーで3D構造を捉え、300-2500nmの波長をカバーする2つのハイパースペクトルカメラを含む。 このセンサーデータは、新しい機械学習モデルのトレーニングに使用できる60種類以上の伝統的な植物計測と共に提供される。 気象・環境計測、農業管理・実験設計に関する情報、数百種の植物種のゲノム配列が収集され、センサーおよび植物形質(フェノタイプ)データとともに利用可能である。 TERRA-REFシステムは4年と10年で1PB以上のセンサーデータと約4500万のファイルを生成しました。 パブリックドメインにリリースされたサブセットは2シーズンで、総データ量の約半分を占めている。 これは、プロジェクトのコア生物学的スコープをはるかに超えた調査に、前例のない機会を提供する。 本稿では,コンピュータビジョンと機械学習のコミュニティに対して,利用可能なデータの概要と,この種のデータの潜在的応用について述べる。

A core objective of the TERRA-REF project was to generate an open-access reference dataset for the study of evaluation of sensing technology to study plants under field conditions. The TERRA-REF program deployed a suite of high resolution, cutting edge technology sensors on a gantry system with the aim of scanning 1 hectare (~$10^4$ m) at around $1 mm^2$ spatial resolution multiple times per week. The system contains co-located sensors including a stereo-pair RGB camera, a thermal imager, a laser scanner to capture 3D structure, and two hyperspectral cameras covering wavelengths of 300-2500nm. This sensor data is provided alongside over sixty types of traditional plant measurements that can be used to train new machine learning models. Associated weather and environmental measurements, information about agronomic management and experimental design, and the genomic sequences of hundreds of plant varieties have been collected and are available alongside the sensor and plant trait (phenotype) data. Over the course of four years and ten growing seasons, the TERRA-REF system generated over 1 PB of sensor data and almost 45 million files. The subset that has been released to the public domain accounts for two seasons and about half of the total data volume. This provides an unprecedented opportunity for investigations far beyond the core biological scope of the project. This focus of this paper is to provide the Computer Vision and Machine Learning communities an overview of the available data and some potential applications of this one of a kind data.
翻訳日:2021-07-30 16:43:28 公開日:2021-07-29
# (参考訳) 資金洗浄活動を検出するための文書署名分析のための全自動パイプライン [全文訳有]

Fully-Automatic Pipeline for Document Signature Analysis to Detect Money Laundering Activities ( http://arxiv.org/abs/2107.14091v1 )

ライセンス: CC BY 4.0
Nikhil Woodruff, Amir Enshaei, Bashar Awwad Shiekh Hasan(参考訳) 企業文書上に存在する署名は、利害関係者間の関係の調査によく用いられ、オフライン署名検証のタスクに関する先行研究は、標準署名データセットの幅広い方法を評価している。 しかしながら、そのようなタスクは、現実世界のコンテキストをすべて取り除いた、独立した署名画像の収集、調整、ラベル付けにおいて、以前の人間の監督の恩恵を受けることが多い。 英国会社ハウスのようなオンライン文書リポジトリにある署名には、印紙の下での場所、サイズ、品質、難読度が頻繁に含まれている。 企業文書の取得から個々の署名のクラスタリングまで,人間による支援なしに,署名抽出とキュレーションの統合パイプラインを提案する。 我々は,複数のヒューリスティックな手法,畳み込みニューラルネットワーク,生成する敵ネットワーク,および畳み込みシームズネットワークを用いて,それぞれ署名抽出,フィルタリング,クリーニング,埋め込みを行う。 文書署名解析において,不明瞭な同一著者の署名ペアのマッチングにおけるパイプラインの有効性と,そのパイプライン全体の文書署名解析に対する効果の両立と,実際のマネーロンダリング研究の分野におけるそのようなパイプラインの利用性について検討した。

Signatures present on corporate documents are often used in investigations of relationships between persons of interest, and prior research into the task of offline signature verification has evaluated a wide range of methods on standard signature datasets. However, such tasks often benefit from prior human supervision in the collection, adjustment and labelling of isolated signature images from which all real-world context has been removed. Signatures found in online document repositories such as the United Kingdom Companies House regularly contain high variation in location, size, quality and degrees of obfuscation under stamps. We propose an integrated pipeline of signature extraction and curation, with no human assistance from the obtaining of company documents to the clustering of individual signatures. We use a sequence of heuristic methods, convolutional neural networks, generative adversarial networks and convolutional Siamese networks for signature extraction, filtering, cleaning and embedding respectively. We evaluate both the effectiveness of the pipeline at matching obscured same-author signature pairs and the effectiveness of the entire pipeline against a human baseline for document signature analysis, as well as presenting uses for such a pipeline in the field of real-world anti-money laundering investigation.
翻訳日:2021-07-30 16:32:00 公開日:2021-07-29
# (参考訳) テスト時間変換による対向ロバスト性向上 [全文訳有]

Enhancing Adversarial Robustness via Test-time Transformation Ensembling ( http://arxiv.org/abs/2107.14110v1 )

ライセンス: CC BY 4.0
Juan C. P\'erez, Motasem Alfarra, Guillaume Jeanneret, Laura Rueda, Ali Thabet, Bernard Ghanem, Pablo Arbel\'aez(参考訳) 深層学習モデルは、敵攻撃として知られる知覚不能な摂動に騙される傾向がある。 本研究では,TTE(Test-time Transformation Ensembling)を組み込んだモデルが,このような攻撃に対する信頼性の高い防御として機能するかを検討する。 入力データを列車と試験時間の両方で変換することはモデル性能を向上させることが知られているが、その逆の堅牢性への影響は研究されていない。 本稿では,TTEによる画像変換が対向的強靭性に与える影響について,総合的な実証的研究を行った。 我々は、TTEは、再トレーニングを必要とせずに、様々な強力な攻撃に対するモデルロバスト性を一貫して改善し、この改善は、クリーンサンプルの正確性と事実上トレードオフがないことを示す。 最後に、TTEの利点が認証されたロバスト性ドメインにもたらされることを示し、TTEは最大で一貫した改善を提供する。

Deep learning models are prone to being fooled by imperceptible perturbations known as adversarial attacks. In this work, we study how equipping models with Test-time Transformation Ensembling (TTE) can work as a reliable defense against such attacks. While transforming the input data, both at train and test times, is known to enhance model performance, its effects on adversarial robustness have not been studied. Here, we present a comprehensive empirical study of the impact of TTE, in the form of widely-used image transforms, on adversarial robustness. We show that TTE consistently improves model robustness against a variety of powerful attacks without any need for re-training, and that this improvement comes at virtually no trade-off with accuracy on clean samples. Finally, we show that the benefits of TTE transfer even to the certified robustness domain, in which TTE provides sizable and consistent improvements.
翻訳日:2021-07-30 16:21:54 公開日:2021-07-29
# (参考訳) AIによる脆弱性人口のマッピング [全文訳有]

Mapping Vulnerable Populations with AI ( http://arxiv.org/abs/2107.14123v1 )

ライセンス: CC BY-SA 4.0
Benjamin Kellenberger and John E. Vargas-Mu\~noz and Devis Tuia and Rodrigo C. Daudt and Konrad Schindler and Thao T-T Whelan and Brenda Ayo and Ferda Ofli and Muhammad Imran(参考訳) 人道的行動は、支援操作を効率的に委譲するために正確な情報を必要とする。 そのような情報は、建物の足跡、建物の機能、人口密度の地図である。 この情報へのアクセスは、信頼できる国勢調査データと全国の地理データインフラのおかげで、先進国では両立しやすいが、開発途上国では、データが不完全あるいは時代遅れである場合が多い。 リモートセンシング画像から導かれる地図の構築は、こうした国々では部分的にこの課題を解決しているが、ランドスケープの設定や検証データの欠如により必ずしも正確ではない。 建物が存在している場合でも、建物の足跡層は、通常、建物の数や機能(オフィス、住宅、学校など)など、よりきめ細かい建物特性を明らかにしない。 このプロジェクトでは,異種データソースを用いたフットプリントと関数マッピングの自動化を目指す。 まず,衛星データから建物をデライン化し,深層学習モデルを用いてセマンティックイメージのセグメンテーションを行う。 ビルディング機能は,ツイート等のソーシャルメディアデータを解析して,異なるビルディング機能を自動的に識別し,ビルディングストーリー数などの追加情報を取得することにより,検索される。 これらの付加属性を付加したマップの構築により、人道支援の目標設定を支援するために必要な、より正確な人口密度マップの導出が可能になる。

Humanitarian actions require accurate information to efficiently delegate support operations. Such information can be maps of building footprints, building functions, and population densities. While the access to this information is comparably easy in industrialized countries thanks to reliable census data and national geo-data infrastructures, this is not the case for developing countries, where that data is often incomplete or outdated. Building maps derived from remote sensing images may partially remedy this challenge in such countries, but are not always accurate due to different landscape configurations and lack of validation data. Even when they exist, building footprint layers usually do not reveal more fine-grained building properties, such as the number of stories or the building's function (e.g., office, residential, school, etc.). In this project we aim to automate building footprint and function mapping using heterogeneous data sources. In a first step, we intend to delineate buildings from satellite data, using deep learning models for semantic image segmentation. Building functions shall be retrieved by parsing social media data like for instance tweets, as well as ground-based imagery, to automatically identify different buildings functions and retrieve further information such as the number of building stories. Building maps augmented with those additional attributes make it possible to derive more accurate population density maps, needed to support the targeted provision of humanitarian aid.
翻訳日:2021-07-30 15:57:16 公開日:2021-07-29
# (参考訳) 近代非線形関数オンファンクション回帰 [全文訳有]

Modern Non-Linear Function-on-Function Regression ( http://arxiv.org/abs/2107.14151v1 )

ライセンス: CC BY 4.0
Aniruddha Rajendra Rao, Matthew Reimherr(参考訳) 本稿では,ニューラルネットワークを用いた関数データに対する非線形関数オン関数回帰モデルを提案する。 本稿では,機能的応答モデリングのために,連続したニューロンからなる隠れ層を用いた枠組みを提案し,fdnn(functional direct neural network)とfbnn(functional basis neural network)の2つのモデル適合戦略を提案する。 どちらも機能データに固有の構造を利用し、機能予測と機能応答の間に存在する複雑な関係を捉えるために明示的に設計されている。 関数勾配を導出してこれらのモデルに適合し、より控えめな結果を得るために正規化手法を実装する。 本研究では,より広範なシミュレーションと実データ例を用いて,複雑な機能モデルを扱う手法のパワーと柔軟性を実証する。

We introduce a new class of non-linear function-on-function regression models for functional data using neural networks. We propose a framework using a hidden layer consisting of continuous neurons, called a continuous hidden layer, for functional response modeling and give two model fitting strategies, Functional Direct Neural Network (FDNN) and Functional Basis Neural Network (FBNN). Both are designed explicitly to exploit the structure inherent in functional data and capture the complex relations existing between the functional predictors and the functional response. We fit these models by deriving functional gradients and implement regularization techniques for more parsimonious results. We demonstrate the power and flexibility of our proposed method in handling complex functional models through extensive simulation studies as well as real data examples.
翻訳日:2021-07-30 15:48:45 公開日:2021-07-29
# (参考訳) ReFormer:イメージキャプションのためのリレーショナルトランス [全文訳有]

ReFormer: The Relational Transformer for Image Captioning ( http://arxiv.org/abs/2107.14178v1 )

ライセンス: CC0 1.0
Xuewen Yang, Yingru Liu, Xin Wang(参考訳) 画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。 現在のキャプションエンコーダは、グラフ畳み込みネット(gcn)を使用して関連情報を表現し、畳み込みまたは畳み込みを介して対象領域の特徴とマージし、文復号の最終入力を得る。 しかし、既存の手法におけるgcnベースのエンコーダは、2つの理由によりキャプションにはあまり効果がない。 第一に、画像キャプションを目的(すなわち最大類似度推定)として使う場合、関係中心の損失ではなく、エンコーダのポテンシャルを十分に調べることができない。 第二に、エンコーダ自体の代わりに事前訓練されたモデルを使用して関係を抽出することは柔軟性がなく、モデルの説明可能性に寄与できない。 画像キャプションの質を向上させるため,画像内のオブジェクト間の対関係を明示的に表現し,関係情報を埋め込んだ特徴を生成できるリレーショナルトランスフォーマを提案する。 reformerは、1つの変圧器モデルを用いてシーングラフ生成の目的を画像キャプションの目的と組み込んでいる。 この設計により、ReFormerは強力なリレーショナルイメージ特徴を抽出するベネフィットに優れた画像キャプションを生成するだけでなく、シーングラフでペアワイドなリレーショナルシップを明示的に記述することができる。 公開データセットにおける実験により,画像キャプションとシーングラフ生成における最先端手法を有意に上回っていることが示された。

Image captioning is shown to be able to achieve a better performance by using scene graphs to represent the relations of objects in the image. The current captioning encoders generally use a Graph Convolutional Net (GCN) to represent the relation information and merge it with the object region features via concatenation or convolution to get the final input for sentence decoding. However, the GCN-based encoders in the existing methods are less effective for captioning due to two reasons. First, using the image captioning as the objective (i.e., Maximum Likelihood Estimation) rather than a relation-centric loss cannot fully explore the potential of the encoder. Second, using a pre-trained model instead of the encoder itself to extract the relationships is not flexible and cannot contribute to the explainability of the model. To improve the quality of image captioning, we propose a novel architecture ReFormer -- a RElational transFORMER to generate features with relation information embedded and to explicitly express the pair-wise relationships between objects in the image. ReFormer incorporates the objective of scene graph generation with that of image captioning using one modified Transformer model. This design allows ReFormer to generate not only better image captions with the bene-fit of extracting strong relational image features, but also scene graphs to explicitly describe the pair-wise relation-ships. Experiments on publicly available datasets show that our model significantly outperforms state-of-the-art methods on image captioning and scene graph generation
翻訳日:2021-07-30 15:31:40 公開日:2021-07-29
# (参考訳) 視覚変換器の相対位置符号化再考と改善 [全文訳有]

Rethinking and Improving Relative Position Encoding for Vision Transformer ( http://arxiv.org/abs/2107.14222v1 )

ライセンス: CC BY 4.0
Kan Wu and Houwen Peng and Minghao Chen and Jianlong Fu and Hongyang Chao(参考訳) リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャするために重要である。 自然言語処理では一般的な効果が証明されている。 しかし、コンピュータビジョンでは、その効果は十分に研究されておらず、相対的な位置エンコーディングが絶対位置と同等に機能するかどうかなど、議論すら残されている。 そこで本研究では, 既存の相対位置符号化法を概観し, 視覚トランスフォーマーに適用した場合の長所と短所を分析した。 次に,画像RPE(iRPE)と呼ばれる2次元画像専用の位置符号化手法を提案する。 本手法では,双方向相対距離モデリングと,問合せと相対位置埋め込みの相互作用について検討する。 提案手法は単純かつ軽量である。 簡単にトランスブロックに差し込むことができる。 提案された符号化法により、DeiTとDETRは、学習率や重量減少などの余分なハイパーパラメータを調整せずに、ImageNetとCOCOのオリジナルバージョンよりも最大1.5%(トップ-1 Acc)と1.3%(mAP)の安定な改善が得られることを示した。 我々のアブレーションと分析は興味深い発見をもたらし、いくつかは以前の理解と相反する。 コードとモデルはhttps://github.com/m icrosoft/Cream/tree/ main/iRPEで公開されている。

Relative position encoding (RPE) is important for transformer to capture sequence ordering of input tokens. General efficacy has been proven in natural language processing. However, in computer vision, its efficacy is not well studied and even remains controversial, e.g., whether relative position encoding can work equally well as absolute position? In order to clarify this, we first review existing relative position encoding methods and analyze their pros and cons when applied in vision transformers. We then propose new relative position encoding methods dedicated to 2D images, called image RPE (iRPE). Our methods consider directional relative distance modeling as well as the interactions between queries and relative position embeddings in self-attention mechanism. The proposed iRPE methods are simple and lightweight. They can be easily plugged into transformer blocks. Experiments demonstrate that solely due to the proposed encoding methods, DeiT and DETR obtain up to 1.5% (top-1 Acc) and 1.3% (mAP) stable improvements over their original versions on ImageNet and COCO respectively, without tuning any extra hyperparameters such as learning rate and weight decay. Our ablation and analysis also yield interesting findings, some of which run counter to previous understanding. Code and models are open-sourced at https://github.com/m icrosoft/Cream/tree/ main/iRPE.
翻訳日:2021-07-30 15:15:06 公開日:2021-07-29
# (参考訳) RSO: 特徴選択のための新しい強化Swarm最適化アルゴリズム [全文訳有]

RSO: A Novel Reinforced Swarm Optimization Algorithm for Feature Selection ( http://arxiv.org/abs/2107.14199v1 )

ライセンス: CC BY 4.0
Hritam Basak, Mayukhmali Das, Susmita Modak(参考訳) Swarm最適化アルゴリズムは、データマイニングや機械学習アプリケーションの前に機能選択に広く利用されている。 メタヒューリスティックな自然にインスパイアされた特徴選択アプローチは、単一目的の最適化タスクに使用されるが、主な問題は、頻繁な早期収束であり、データマイニングに弱い寄与をもたらす。 本稿では,機能選択の問題点を生かした新しい特徴選択アルゴリズムである強化群最適化(rso)を提案する。 このアルゴリズムは、広く使われているbee swarm optimization (bso)アルゴリズムと強化学習 (rl) を組み込んで、優れた検索エージェントの報酬を最大化し、劣る者を罰する。 このハイブリッド最適化アルゴリズムはより適応的で堅牢であり、探索空間の活用と探索のバランスが良好である。 提案手法は,均衡データと不均衡データの完全なブレンドを含む,広く知られている25のuciデータセット上で評価される。 得られた結果は、類似した分類器構成を持つ他の人気かつ最近の特徴選択アルゴリズムと比較される。 実験の結果,提案手法は25例中22例(88%)でBSOより優れていた。 また,本研究の結果から,提案手法の優越性を確立した25例中19例 (76%) において,rsoが最も優れた結果を示した。

Swarm optimization algorithms are widely used for feature selection before data mining and machine learning applications. The metaheuristic nature-inspired feature selection approaches are used for single-objective optimization tasks, though the major problem is their frequent premature convergence, leading to weak contribution to data mining. In this paper, we propose a novel feature selection algorithm named Reinforced Swarm Optimization (RSO) leveraging some of the existing problems in feature selection. This algorithm embeds the widely used Bee Swarm Optimization (BSO) algorithm along with Reinforcement Learning (RL) to maximize the reward of a superior search agent and punish the inferior ones. This hybrid optimization algorithm is more adaptive and robust with a good balance between exploitation and exploration of the search space. The proposed method is evaluated on 25 widely known UCI datasets containing a perfect blend of balanced and imbalanced data. The obtained results are compared with several other popular and recent feature selection algorithms with similar classifier configurations. The experimental outcome shows that our proposed model outperforms BSO in 22 out of 25 instances (88%). Moreover, experimental results also show that RSO performs the best among all the methods compared in this paper in 19 out of 25 cases (76%), establishing the superiority of our proposed method.
翻訳日:2021-07-30 14:45:17 公開日:2021-07-29
# リャプノフに基づく安全強化学習

Lyapunov-based uncertainty-aware safe reinforcement learning ( http://arxiv.org/abs/2107.13944v1 )

ライセンス: Link先を確認
Ashkan B. Jeddi, Nariman L. Dehghani, Abdollah Shafieezadeh(参考訳) 強化学習(Reinforcement Learning, RL)は、様々な逐次意思決定タスクに対して最適な政策を学ぶ上で有望な性能を示す。 しかし、多くの現実世界のRL問題では、主な目的を最適化する以外に、エージェントは一定のレベルの安全性(例えば、自動運転における衝突を避ける)を満たすことが期待されている。 RL問題は一般にマルコフ決定プロセス(MDP)として定式化されているが、安全制約はマルコフ決定プロセス(CMDP)を介して組み込まれている。 近年の安全RLの進歩により、CMDPにおける安全な政策の学習が可能になったが、これらの安全要件は、トレーニングとデプロイメントプロセスの両方において満たされるべきである。 さらに、メモリベースおよび部分的に観測可能な環境では、これらの手法が未発見の分散観測よりも安全性を維持できないことが示されている。 これらの制約に対処するため,リャプノフに基づく安全RLモデルを提案する。 導入されたモデルは、軌道に基づく制約を局所線形制約の集合に変換するリアプノフ関数を採用する。 さらに,不確実性の高い環境下でのエージェントの安全性を確保するため,制約違反の確率を推定することでリスク回避行動を識別できる不確実性定量化手法を開発した。 さらに、トランスフォーマーモデルを統合して、セルフアテンション機構を介して情報の長時間の地平線を処理するためのメモリを提供する。 提案モデルはグリッドワールドナビゲーションタスクにおいて評価され、完全かつ部分的に観測可能な環境での静的および動的障害の回避として安全性が定義されている。 これらの実験の結果, 最適性の達成と安全制約の充足の両方において, 薬剤の性能が著しく向上したことが示された。

Reinforcement learning (RL) has shown a promising performance in learning optimal policies for a variety of sequential decision-making tasks. However, in many real-world RL problems, besides optimizing the main objectives, the agent is expected to satisfy a certain level of safety (e.g., avoiding collisions in autonomous driving). While RL problems are commonly formalized as Markov decision processes (MDPs), safety constraints are incorporated via constrained Markov decision processes (CMDPs). Although recent advances in safe RL have enabled learning safe policies in CMDPs, these safety requirements should be satisfied during both training and in the deployment process. Furthermore, it is shown that in memory-based and partially observable environments, these methods fail to maintain safety over unseen out-of-distribution observations. To address these limitations, we propose a Lyapunov-based uncertainty-aware safe RL model. The introduced model adopts a Lyapunov function that converts trajectory-based constraints to a set of local linear constraints. Furthermore, to ensure the safety of the agent in highly uncertain environments, an uncertainty quantification method is developed that enables identifying risk-averse actions through estimating the probability of constraint violations. Moreover, a Transformers model is integrated to provide the agent with memory to process long time horizons of information via the self-attention mechanism. The proposed model is evaluated in grid-world navigation tasks where safety is defined as avoiding static and dynamic obstacles in fully and partially observable environments. The results of these experiments show a significant improvement in the performance of the agent both in achieving optimality and satisfying safety constraints.
翻訳日:2021-07-30 13:31:00 公開日:2021-07-29
# 楽観的な探究を通じてより多くのスキルを学ぶ

Learning more skills through optimistic exploration ( http://arxiv.org/abs/2107.14226v1 )

ライセンス: Link先を確認
DJ Strouse, Kate Baumli, David Warde-Farley, Vlad Mnih, Steven Hansen(参考訳) unsupervised skill learning objectives (gregor et al., 2016 eysenbach et al., 2018)は、エージェントが過剰な報酬がなければ、豊富な行動のレパートリーを学ぶことができる。 それらは、識別可能な潜在条件の軌跡を生成するためのポリシーを同時に訓練し、また、潜在条件の軌跡を軌跡から推論することによって識別可能性を評価するための判別器である。 エージェントがそれぞれのスキル(ラテント)を確実に異なる状態に到達させることによって、環境を探索し、マスターすることを希望する。 しかし、内在的な探索問題 リンガー: 新たな状態が実際に遭遇した場合、判別者は、正確で自信のあるスキル分類を作成するのに十分な訓練データを見ておらず、エージェントに内在的な報酬が少なくなり、目的を最大化するために必要な探索の効果的なペナルティ化につながる。 この本質的な悲観主義と探索に向けて戦うために、差別者のアンサンブルを訓練し、彼らの不一致に対する政策に報いる情報獲得補助目的を導出する。 本研究の目的は, 識別器が十分な訓練例を見ていないことから生じるてんかんの不確実性を直接推定し, 偽会計法よりも本質的な報奨を与えることである(Burda et al., 2019)。 我々はこの探索ボーナス差別を本質的な報酬(disDAIN)とは呼ばない。 我々は,テーブル型グリッド(4部屋)とアタリスイート(ピクセルから)の57ゲームの両方において,disdainがスキル学習を改善することを実証的に示す。 そこで我々は,disDAINによる悲観的治療を研究者に奨励する。

Unsupervised skill learning objectives (Gregor et al., 2016, Eysenbach et al., 2018) allow agents to learn rich repertoires of behavior in the absence of extrinsic rewards. They work by simultaneously training a policy to produce distinguishable latent-conditioned trajectories, and a discriminator to evaluate distinguishability by trying to infer latents from trajectories. The hope is for the agent to explore and master the environment by encouraging each skill (latent) to reliably reach different states. However, an inherent exploration problem lingers: when a novel state is actually encountered, the discriminator will necessarily not have seen enough training data to produce accurate and confident skill classifications, leading to low intrinsic reward for the agent and effective penalization of the sort of exploration needed to actually maximize the objective. To combat this inherent pessimism towards exploration, we derive an information gain auxiliary objective that involves training an ensemble of discriminators and rewarding the policy for their disagreement. Our objective directly estimates the epistemic uncertainty that comes from the discriminator not having seen enough training examples, thus providing an intrinsic reward more tailored to the true objective compared to pseudocount-based methods (Burda et al., 2019). We call this exploration bonus discriminator disagreement intrinsic reward, or DISDAIN. We demonstrate empirically that DISDAIN improves skill learning both in a tabular grid world (Four Rooms) and the 57 games of the Atari Suite (from pixels). Thus, we encourage researchers to treat pessimism with DISDAIN.
翻訳日:2021-07-30 13:30:32 公開日:2021-07-29
# 畳み込み変換器を用いたビデオ異常検出用二重識別器生成器

Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection ( http://arxiv.org/abs/2107.13720v1 )

ライセンス: Link先を確認
Xinyang Feng, Dongjin Song, Yuncong Chen, Zhengzhang Chen, Jingchao Ni, Haifeng Chen(参考訳) 実世界の監視ビデオにおける異常な活動の検出は、ビデオ異常に関する事前の知識が制限されるか、あるいは利用できないため、重要かつ困難な作業である。 この問題を解決するために多くのアプローチが開発されているが、通常の時空間パターンを効果的かつ効率的に捉えられるものはほとんどない。 さらに、既存の作品では、フレームレベルでの局所的一貫性と、映像列における時間的ダイナミクスのグローバルコヒーレンスを明示的に考慮することがほとんどない。 そこで本稿では,CT-D2GAN(Convolutio nal Transformer based Dual Discriminator Generative Adversarial Networks)を提案する。 具体的には,まず,将来のフレーム予測を行う畳み込みトランスを提案する。 これには、入力されたビデオクリップの空間情報をキャプチャする畳み込みエンコーダ、時間的ダイナミクスをエンコードする時間的自己保持モジュール、時空間的特徴を統合し将来のフレームを予測する畳み込みデコーダの3つのキーコンポーネントが含まれる。 次に、フレームレベルで局所的な一貫性を維持できる画像識別器と、時間的ダイナミクスのグローバルコヒーレンスを強制できる映像識別器とを併用して、将来のフレーム予測を強化する。 最後に、予測誤差を用いて異常な映像フレームを識別する。 UCSD Ped2, CUHK Avenue, Shanghai Tech Campus という3つのパブリックビデオ異常検出データセットに関する実験的研究により, 提案した対側時空間モデリングフレームワークの有効性が実証された。

Detecting abnormal activities in real-world surveillance videos is an important yet challenging task as the prior knowledge about video anomalies is usually limited or unavailable. Despite that many approaches have been developed to resolve this problem, few of them can capture the normal spatio-temporal patterns effectively and efficiently. Moreover, existing works seldom explicitly consider the local consistency at frame level and global coherence of temporal dynamics in video sequences. To this end, we propose Convolutional Transformer based Dual Discriminator Generative Adversarial Networks (CT-D2GAN) to perform unsupervised video anomaly detection. Specifically, we first present a convolutional transformer to perform future frame prediction. It contains three key components, i.e., a convolutional encoder to capture the spatial information of the input video clips, a temporal self-attention module to encode the temporal dynamics, and a convolutional decoder to integrate spatio-temporal features and predict the future frame. Next, a dual discriminator based adversarial training procedure, which jointly considers an image discriminator that can maintain the local consistency at frame-level and a video discriminator that can enforce the global coherence of temporal dynamics, is employed to enhance the future frame prediction. Finally, the prediction error is used to identify abnormal video frames. Thoroughly empirical studies on three public video anomaly detection datasets, i.e., UCSD Ped2, CUHK Avenue, and Shanghai Tech Campus, demonstrate the effectiveness of the proposed adversarial spatio-temporal modeling framework.
翻訳日:2021-07-30 13:29:28 公開日:2021-07-29
# 微細画像分類のための自己教師付き学習

Self-Supervised Learning for Fine-Grained Image Classification ( http://arxiv.org/abs/2107.13973v1 )

ライセンス: Link先を確認
Farha Al Breiki, Muhammad Ridzuan, Rushali Grandhe(参考訳) きめ細かい画像分類は、非常に微妙な識別特徴を持つクラスの異なるサブカテゴリを特定することを含む。 きめ細かいデータセットは通常、分類プロセスに役立つクラスラベルとともにバウンディングボックスアノテーションを提供する。 しかし、このようなアノテーションを使った大規模なデータセットの構築は、マンモスタスクです。 さらに、この広範なアノテーションは時間がかかり、しばしば専門知識を必要とします。 一方、自己教師付き学習(SSL)は、自由に利用可能なデータを利用してラベルとして機能する監視信号を生成する。 巨大なラベルのないデータでプリテキストタスクを実行することで学習する機能は、複数のダウンストリームタスクに非常に有用であることが証明される。 我々の考えは、モデルが微細な画像クラスの有用な表現を学習できるように、自己スーパービジョンを活用することである。 我々は3種類のモデルを実験した: Jigsaw をプレテキストタスクとして、敵学習(SRGAN)と対照的学習ベース(SimCLR)モデルである。 学習した機能は、きめ細かい画像分類などの下流タスクに使用される。 私たちのコードはhttp://github.com/ru sh2406/Self-Supervis ed-Learning-for-Fine -fine- Image-Classification で利用可能です。

Fine-grained image classification involves identifying different subcategories of a class which possess very subtle discriminatory features. Fine-grained datasets usually provide bounding box annotations along with class labels to aid the process of classification. However, building large scale datasets with such annotations is a mammoth task. Moreover, this extensive annotation is time-consuming and often requires expertise, which is a huge bottleneck in building large datasets. On the other hand, self-supervised learning (SSL) exploits the freely available data to generate supervisory signals which act as labels. The features learnt by performing some pretext tasks on huge unlabelled data proves to be very helpful for multiple downstream tasks. Our idea is to leverage self-supervision such that the model learns useful representations of fine-grained image classes. We experimented with 3 kinds of models: Jigsaw solving as pretext task, adversarial learning (SRGAN) and contrastive learning based (SimCLR) model. The learned features are used for downstream tasks such as fine-grained image classification. Our code is available at http://github.com/ru sh2406/Self-Supervis ed-Learning-for-Fine -grained-Image-Class ification
翻訳日:2021-07-30 13:28:59 公開日:2021-07-29
# 注意的独立機構を用いた単発連続学習

Few-Shot and Continual Learning with Attentive Independent Mechanisms ( http://arxiv.org/abs/2107.14053v1 )

ライセンス: Link先を確認
Eugene Lee, Cheng-Han Huang, Chen-Yi Lee(参考訳) 深層ニューラルネットワーク(dnn)は、トレーニング分布と高い類似性を持つ分布をテストするためにデプロイされるとうまく機能することが知られている。 新しいタスクへの迅速な適応と、古いタスクを壊滅的に忘れてしまうという2つの大きな課題がある。 このような困難は、少人数学習と継続的な学習に関する現在進行中の研究の道を開いた。 これらの問題に対処するために、注意的独立メカニズム(AIM)を導入する。 特徴抽出とDNNの高次概念学習の分離と合わせて,高速かつ低速な重みを用いた学習の考え方を取り入れた。 AIMは高次の概念学習のために設計されており、独立した概念を学習して新しい課題を解決しようとする専門家の混成によってモデル化されている。 AIMは、既存のディープラーニングフレームワークに挿入可能なモジュールコンポーネントである。 SIBに追加し、MiniImageNetとCIFAR-FSでトレーニングすることで、数ショット学習の能力を実証し、大幅な改善を示した。 また、AIMは、Omniglot、CIFAR-100、MiniImageNetで訓練されたANMLやOMLにも適用され、連続学習におけるその能力を示す。 コードはhttps://github.com/h uang50213/AIM-Fewsho t-Continualで公開されている。

Deep neural networks (DNNs) are known to perform well when deployed to test distributions that shares high similarity with the training distribution. Feeding DNNs with new data sequentially that were unseen in the training distribution has two major challenges -- fast adaptation to new tasks and catastrophic forgetting of old tasks. Such difficulties paved way for the on-going research on few-shot learning and continual learning. To tackle these problems, we introduce Attentive Independent Mechanisms (AIM). We incorporate the idea of learning using fast and slow weights in conjunction with the decoupling of the feature extraction and higher-order conceptual learning of a DNN. AIM is designed for higher-order conceptual learning, modeled by a mixture of experts that compete to learn independent concepts to solve a new task. AIM is a modular component that can be inserted into existing deep learning frameworks. We demonstrate its capability for few-shot learning by adding it to SIB and trained on MiniImageNet and CIFAR-FS, showing significant improvement. AIM is also applied to ANML and OML trained on Omniglot, CIFAR-100 and MiniImageNet to demonstrate its capability in continual learning. Code made publicly available at https://github.com/h uang50213/AIM-Fewsho t-Continual.
翻訳日:2021-07-30 13:28:30 公開日:2021-07-29
# ウミガメの保全とコンピュータビジョンの進歩に関する調査の必要性と現状

The Need and Status of Sea Turtle Conservation and Survey of Associated Computer Vision Advances ( http://arxiv.org/abs/2107.14061v1 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 何十億年もの間、ウミガメとその祖先は海の広大な範囲に潜んでいる。 それらは多くの進化的変化を受け、種分化と亜種分化に繋がった。 しかし、過去数十年間、遺伝的変異と人口減少を推し進める最も顕著な力は、大規模な密猟、カメの卵の採集、プラスチック廃棄物を含むゴミの海への投棄など、地球温暖化と人為的影響であった。 これはウミガメの個体群に深刻な有害な影響をもたらし、絶滅に繋がる。 この研究は、ウミガメの個体数の減少の原因となる力、その成功と失敗に伴う世界的な保全努力の必要性、そして、機械学習とコンピュータビジョンシステムを含む最近のウミガメの検出と認識の進歩を詳細に分析し、保護活動を支援することに焦点を当てている。

For over hundreds of millions of years, sea turtles and their ancestors have swum in the vast expanses of the ocean. They have undergone a number of evolutionary changes, leading to speciation and sub-speciation. However, in the past few decades, some of the most notable forces driving the genetic variance and population decline have been global warming and anthropogenic impact ranging from large-scale poaching, collecting turtle eggs for food, besides dumping trash including plastic waste into the ocean. This leads to severe detrimental effects in the sea turtle population, driving them to extinction. This research focusses on the forces causing the decline in sea turtle population, the necessity for the global conservation efforts along with its successes and failures, followed by an in-depth analysis of the modern advances in detection and recognition of sea turtles, involving Machine Learning and Computer Vision systems, aiding the conservation efforts.
翻訳日:2021-07-30 13:28:10 公開日:2021-07-29
# 生成ネットワークにおけるガイドディスタングル

Guided Disentanglement in Generative Networks ( http://arxiv.org/abs/2107.14229v1 )

ライセンス: Link先を確認
Fabio Pizzati, Pietro Cerri, Raoul de Charette(参考訳) 画像から画像への変換(i2i)ネットワークは、対象領域(咬合、霧など)における物理現象の存在下での絡み合い効果に苦しむため、翻訳品質や変動性が低下する。 本稿では,ニューラルモデルや物理モデルを用いて学習過程を指導し,その翻訳における物理特性を分離する包括的手法を提案する。 後者では,逆推定と遺伝的アルゴリズムを統合し,解離を正しく行う。 その結果,画像翻訳の難解なシナリオの多くにおいて,我々のアプローチは性能を劇的に向上させることがわかった。

Image-to-image translation (i2i) networks suffer from entanglement effects in presence of physics-related phenomena in target domain (such as occlusions, fog, etc), thus lowering the translation quality and variability. In this paper, we present a comprehensive method for disentangling physics-based traits in the translation, guiding the learning process with neural or physical models. For the latter, we integrate adversarial estimation and genetic algorithms to correctly achieve disentanglement. The results show our approach dramatically increase performances in many challenging scenarios for image translation.
翻訳日:2021-07-30 13:27:52 公開日:2021-07-29
# モデルは変わったか? 機械学習apiシフトの効率的な評価

Did the Model Change? Efficiently Assessing Machine Learning API Shifts ( http://arxiv.org/abs/2107.14203v1 )

ライセンス: Link先を確認
Lingjiao Chen, Tracy Cai, Matei Zaharia, James Zou(参考訳) 機械学習(ML)予測APIはますます広く使われている。 ML APIは、モデル更新や再トレーニングによって、時間とともに変更することができる。 このことは、MLモデルがどう変わったか、ユーザにとって明確でないことが多いため、APIの使用において重要な課題となる。 モデルシフトは、ダウンストリームアプリケーションのパフォーマンスに影響を与える可能性がある。 もし一貫性が望まれるなら) 本稿では,ML APIシフトの体系的な調査を開始する。 私たちはまず、さまざまなデータセット上で、Google、Microsoft、Amazonなどから人気のML APIの2020年から2021年までのパフォーマンスシフトを定量化します。 調査対象36例中12例に有意なモデルシフトを認めた。 興味深いことに、APIの予測が時間とともに大幅に悪化するいくつかのデータセットを見つけました。 これにより、データの分散が一定である場合、apiモデルの混乱マトリックスがどのように変化するか見積もることにより、apiシフト評価問題をよりきめ細かいレベルで定式化しました。 標準ランダムサンプリングによる混乱の監視 マトリックスシフトには大量のサンプルが必要であり、各api呼び出しに料金がかかるためコストがかかる。 本稿では,行列シフトを効率的に推定する適応サンプリングアルゴリズム MASA を提案する。 MASAは、ランダムサンプリングよりも90%少ないサンプルを用いて、商用ML APIの混乱行列シフトを正確に推定することができる。 この研究は、ML APIシフトを研究の重要な問題として確立し、そのようなシフトを監視するためのコスト効率の良いアプローチを提供する。

Machine learning (ML) prediction APIs are increasingly widely used. An ML API can change over time due to model updates or retraining. This presents a key challenge in the usage of the API because it is often not clear to the user if and how the ML model has changed. Model shifts can affect downstream application performance and also create oversight issues (e.g. if consistency is desired). In this paper, we initiate a systematic investigation of ML API shifts. We first quantify the performance shifts from 2020 to 2021 of popular ML APIs from Google, Microsoft, Amazon, and others on a variety of datasets. We identified significant model shifts in 12 out of 36 cases we investigated. Interestingly, we found several datasets where the API's predictions became significantly worse over time. This motivated us to formulate the API shift assessment problem at a more fine-grained level as estimating how the API model's confusion matrix changes over time when the data distribution is constant. Monitoring confusion matrix shifts using standard random sampling can require a large number of samples, which is expensive as each API call costs a fee. We propose a principled adaptive sampling algorithm, MASA, to efficiently estimate confusion matrix shifts. MASA can accurately estimate the confusion matrix shifts in commercial ML APIs using up to 90% fewer samples compared to random sampling. This work establishes ML API shifts as an important problem to study and provides a cost-effective approach to monitor such shifts.
翻訳日:2021-07-30 13:27:41 公開日:2021-07-29
# 完全接続型ニューラルネットワークの構造と性能:創発的複雑ネットワーク特性

Structure and Performance of Fully Connected Neural Networks: Emerging Complex Network Properties ( http://arxiv.org/abs/2107.14062v1 )

ライセンス: Link先を確認
Leonardo F. S. Scabini and Odemir M. Bruno(参考訳) ニューラルネットワークの振る舞いを理解することは、近年、ディープラーニングの普及以来、ブラックボックスアプローチが常態化しているため、この分野における主要なトピックの1つである。 このような高次元モデルは、複雑なシステムに似た不安定性と奇妙な性質を示す可能性がある。 そこで本研究では,完全連結ニューラルネットワークの構造と性能を解析するための複雑ネットワーク(CN)手法を提案する。 そのため、私たちは4万のモデルとそれぞれのCNプロパティでデータセットを構築します。 4つのビジョンベンチマークを考慮した教師付き分類設定で採用されている。 各ニューラルネットワークは、ニューロンとシナプスの重み付きおよび非方向のグラフとしてアプローチされ、トレーニング後に集中度測度が計算される。 その結果,これらの尺度はネットワーク分類性能と高い相関性を示した。 また、同様のニューロンを結合するトポロジカルシグネチャを見つけるためのcnベースのアプローチであるbag-of-neurons(bon)の概念を提案する。 その結果,対象領域とは独立して6種類の神経型が出現し,分類精度に応じて異なる分布が認められた。 また,低性能モデルにおける部分グラフ集中度の向上など,パフォーマンスに関連する特定のCN特性についても検討する。 本研究は,CN特性が完全に連結されたニューラルネットワークの性能において重要な役割を担っていることを示唆する。

Understanding the behavior of Artificial Neural Networks is one of the main topics in the field recently, as black-box approaches have become usual since the widespread of deep learning. Such high-dimensional models may manifest instabilities and weird properties that resemble complex systems. Therefore, we propose Complex Network (CN) techniques to analyze the structure and performance of fully connected neural networks. For that, we build a dataset with 4 thousand models and their respective CN properties. They are employed in a supervised classification setup considering four vision benchmarks. Each neural network is approached as a weighted and undirected graph of neurons and synapses, and centrality measures are computed after training. Results show that these measures are highly related to the network classification performance. We also propose the concept of Bag-Of-Neurons (BoN), a CN-based approach for finding topological signatures linking similar neurons. Results suggest that six neuronal types emerge in such networks, independently of the target domain, and are distributed differently according to classification accuracy. We also tackle specific CN properties related to performance, such as higher subgraph centrality on lower-performing models. Our findings suggest that CN properties play a critical role in the performance of fully connected neural networks, with topological patterns emerging independently on a wide range of models.
翻訳日:2021-07-30 13:27:22 公開日:2021-07-29
# 機械学習がインドのモニュメントとランドマークの認識と分類を支援する

Machine Learning Advances aiding Recognition and Classification of Indian Monuments and Landmarks ( http://arxiv.org/abs/2107.14070v1 )

ライセンス: Link先を確認
Aditya Jyoti Paul, Smaranjit Ghose, Kanishka Aggarwal, Niketha Nethaji, Shivam Pal, Arnab Dutta Purkayastha(参考訳) インドの観光業は、2018年のgdpの9.2%を占め、同国経済において重要な役割を担っている。 年間成長率は6.2%であり、アラブ首長国連邦のような中東諸国で見られるように、産業は経済の原動力となる大きな可能性を秘めている。 全国の地理にまたがる歴史的・文化的多様性は、世界中の人々のユニークな見世物であり、毎年数千万人もの観光客を惹きつけるのに役立っている。 伝統的に、これらの歴史遺産を研究するツアーガイドや学術専門家は、その建築や歴史的重要性に関する情報を訪問者に提供する責任を負っていた。 しかし、残念ながらこのシステムは、十分な訓練を受けた人の使用不可能、正確な情報の欠如、詳細の豊かさを魅力的な形式で伝達できないなど、大規模に検討する場合に注意すべき点がいくつかある。 近年,モニュメント画像の使用に関する機械学習手法が,遺産景観の初歩的分析に有用であることが示されている。 本稿は,インドにおける観光体験をより現代的なものにするための自動意思決定システムを構築するための洞察を提供するため,この方向で行われた研究成果のサーベイとして機能する。

Tourism in India plays a quintessential role in the country's economy with an estimated 9.2% GDP share for the year 2018. With a yearly growth rate of 6.2%, the industry holds a huge potential for being the primary driver of the economy as observed in the nations of the Middle East like the United Arab Emirates. The historical and cultural diversity exhibited throughout the geography of the nation is a unique spectacle for people around the world and therefore serves to attract tourists in tens of millions in number every year. Traditionally, tour guides or academic professionals who study these heritage monuments were responsible for providing information to the visitors regarding their architectural and historical significance. However, unfortunately this system has several caveats when considered on a large scale such as unavailability of sufficient trained people, lack of accurate information, failure to convey the richness of details in an attractive format etc. Recently, machine learning approaches revolving around the usage of monument pictures have been shown to be useful for rudimentary analysis of heritage sights. This paper serves as a survey of the research endeavors undertaken in this direction which would eventually provide insights for building an automated decision system that could be utilized to make the experience of tourism in India more modernized for visitors.
翻訳日:2021-07-30 13:27:02 公開日:2021-07-29
# FREE: 汎用ゼロショット学習のための機能強化

FREE: Feature Refinement for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2107.13807v1 )

ライセンス: Link先を確認
Shiming Chen, Wenjie Wang, Beihao Xia, Qinmu Peng, Xinge You, Feng Zheng, Ling Shao(参考訳) 汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えない偏見の問題を克服するために多くの取り組みによって大きな進歩を遂げている。 しかし、既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。 このようなバイアスは、必然的にGZSLタスクの品質の悪い視覚的特徴をもたらす。 本稿では,一般化ゼロショット学習(FREE)のための特徴改善と呼ばれる,単純で効果的なGZSL手法を提案する。 free は機能改善(fr)モジュールを採用しており、unified generative model に \textit{semantic$\rightarrow $visual} マッピングを組み込んで、目に見えないクラスサンプルの視覚的特徴を洗練している。 さらに,自己適応型マージンセンターロス(samc-loss)を提案し,意味的サイクルコンシスタンスロスと協調してfrを誘導し,クラスおよび意味的に関連した表現を学習し,frの特徴を結合して完全洗練した特徴を抽出する。 5つのベンチマークデータセットに対する大規模な実験は、ベースラインと現在の最先端メソッドよりも、FREEの大幅なパフォーマンス向上を示している。 私たちのコードはhttps://github.com/s himing-chen/freeで利用可能です。

Generalized zero-shot learning (GZSL) has achieved significant progress, with many efforts dedicated to overcoming the problems of visual-semantic domain gap and seen-unseen bias. However, most existing methods directly use feature extraction models trained on ImageNet alone, ignoring the cross-dataset bias between ImageNet and GZSL benchmarks. Such a bias inevitably results in poor-quality visual features for GZSL tasks, which potentially limits the recognition performance on both seen and unseen classes. In this paper, we propose a simple yet effective GZSL method, termed feature refinement for generalized zero-shot learning (FREE), to tackle the above problem. FREE employs a feature refinement (FR) module that incorporates \textit{semantic$\rightarrow $visual} mapping into a unified generative model to refine the visual features of seen and unseen class samples. Furthermore, we propose a self-adaptive margin center loss (SAMC-loss) that cooperates with a semantic cycle-consistency loss to guide FR to learn class- and semantically-relevan t representations, and concatenate the features in FR to extract the fully refined features. Extensive experiments on five benchmark datasets demonstrate the significant performance gain of FREE over its baseline and current state-of-the-art methods. Our codes are available at https://github.com/s himing-chen/FREE .
翻訳日:2021-07-30 13:26:41 公開日:2021-07-29
# 遠隔場面におけるカメラ内監視者再識別のためのクロスカメラ特徴予測

Cross-Camera Feature Prediction for Intra-Camera Supervised Person Re-identification across Distant Scenes ( http://arxiv.org/abs/2107.13904v1 )

ライセンス: Link先を確認
Wenhang Ge, Chunyan Pan, Ancong Wu, Hongwei Zheng, Wei-Shi Zheng(参考訳) 人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。 Re-ID手法の大半は、隣接するシーンの異なるカメラビューで歩行者が撮影される小規模監視システムに焦点を当てている。 しかし、広い範囲をカバーする大規模な監視システムでは、遠方から興味のある歩行者を追跡する必要がある(例えば、犯罪者はある都市から別の都市へ逃げ出す)。 多くの歩行者が限られた地域にいるため、同一人物のクロスカメラでトレーニングデータを収集することは困難である。 本研究では,遠隔地におけるカメラ内教師による人物再識別(ICS-DS Re-ID)について検討した。 カメラ間のペアリングデータは、既存のRe-IDメソッドでカメラ不変の機能を学ぶ上で重要な役割を果たすため、これは難しい。 クロスカメラ非ペアトレーニングデータからカメラ不変表現を学習するために,偽のクロスカメラ正の特徴対を変換し,偽のペアの距離を最小化することにより,カメラ固有の特徴分布からカメラ間自己監視情報をマイニングするクロスカメラ特徴予測手法を提案する。 さらに,変圧器による局所的な特徴の自動ローカライズと抽出を行う。 グローバルレベルおよびローカルレベル特徴の合同学習は、細粒度クロスカメラ自己監視情報をマイニングするためのグローバルローカルクロスカメラ特徴予測スキームを形成する。 最後に、カメラ間自己監視とカメラ内監視をフレームワークに集約する。 これらの実験は、マーケット-SCT、デューク-SCT、MSMT17-SCTデータセットのICS-DS設定で実施された。 その結果, Market-SCT では第2の最適手法に比べて 15.4 Rank-1 と 22.3 mAP の大幅な改善が得られた。

Person re-identification (Re-ID) aims to match person images across non-overlapping camera views. The majority of Re-ID methods focus on small-scale surveillance systems in which each pedestrian is captured in different camera views of adjacent scenes. However, in large-scale surveillance systems that cover larger areas, it is required to track a pedestrian of interest across distant scenes (e.g., a criminal suspect escapes from one city to another). Since most pedestrians appear in limited local areas, it is difficult to collect training data with cross-camera pairs of the same person. In this work, we study intra-camera supervised person re-identification across distant scenes (ICS-DS Re-ID), which uses cross-camera unpaired data with intra-camera identity labels for training. It is challenging as cross-camera paired data plays a crucial role for learning camera-invariant features in most existing Re-ID methods. To learn camera-invariant representation from cross-camera unpaired training data, we propose a cross-camera feature prediction method to mine cross-camera self supervision information from camera-specific feature distribution by transforming fake cross-camera positive feature pairs and minimize the distances of the fake pairs. Furthermore, we automatically localize and extract local-level feature by a transformer. Joint learning of global-level and local-level features forms a global-local cross-camera feature prediction scheme for mining fine-grained cross-camera self supervision information. Finally, cross-camera self supervision and intra-camera supervision are aggregated in a framework. The experiments are conducted in the ICS-DS setting on Market-SCT, Duke-SCT and MSMT17-SCT datasets. The evaluation results demonstrate the superiority of our method, which gains significant improvements of 15.4 Rank-1 and 22.3 mAP on Market-SCT as compared to the second best method.
翻訳日:2021-07-30 13:26:14 公開日:2021-07-29
# 3次元姿勢推定における相対情報符号化によるロバストさと精度の向上

Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose Estimation ( http://arxiv.org/abs/2107.13994v1 )

ライセンス: Link先を確認
Wenkang Shan, Haopeng Lu, Shanshe Wang, Xinfeng Zhang, Wen Gao(参考訳) 既存の3次元ポーズ推定手法のほとんどは、人体の全体的な軌道(グローバルモーション)ではなく、歯根関節と他のヒト関節(局所運動)との間の3次元位置関係の予測に焦点を当てている。 これらのアプローチによって達成された大きな進歩にもかかわらず、グローバルな動きには堅牢ではなく、小さな動き範囲で局所的な動きを正確に予測する能力が欠如している。 これら2つの問題を緩和するために,位置情報と時間的拡張表現を生成する相対的情報符号化法を提案する。 まず,2dポーズの相対座標を利用して位置情報をエンコードし,入力分布と出力分布の一貫性を高める。 絶対的な2次元位置が異なる同じ姿勢は、共通の表現にマッピングできる。 予測結果に対するグローバルな動きの干渉に抵抗することは有益である。 第2に、時間内に同一人物のポーズと他のポーズとの接続を確立することにより、時間情報を符号化する。 現在のポーズの前と後の動きの変化により多くの注意が払われ、小さな移動範囲を持つ局所的な動きの予測性能が向上する。 アブレーション研究は,提案する相対情報符号化手法の有効性を検証する。 さらに,多段階最適化手法をフレームワーク全体に導入し,位置および時間的拡張表現をさらに活用する。 提案手法は2つの公開データセットで最先端のメソッドよりも優れています。 コードはhttps://github.com/p aTRICK-swk/Pose3D-RI Eで入手できる。

Most of the existing 3D human pose estimation approaches mainly focus on predicting 3D positional relationships between the root joint and other human joints (local motion) instead of the overall trajectory of the human body (global motion). Despite the great progress achieved by these approaches, they are not robust to global motion, and lack the ability to accurately predict local motion with a small movement range. To alleviate these two problems, we propose a relative information encoding method that yields positional and temporal enhanced representations. Firstly, we encode positional information by utilizing relative coordinates of 2D poses to enhance the consistency between the input and output distribution. The same posture with different absolute 2D positions can be mapped to a common representation. It is beneficial to resist the interference of global motion on the prediction results. Second, we encode temporal information by establishing the connection between the current pose and other poses of the same person within a period of time. More attention will be paid to the movement changes before and after the current pose, resulting in better prediction performance on local motion with a small movement range. The ablation studies validate the effectiveness of the proposed relative information encoding method. Besides, we introduce a multi-stage optimization method to the whole framework to further exploit the positional and temporal enhanced representations. Our method outperforms state-of-the-art methods on two public datasets. Code is available at https://github.com/p aTRICK-swk/Pose3D-RI E.
翻訳日:2021-07-30 13:25:47 公開日:2021-07-29
# AutoTinyBERT:効率的な事前学習言語モデルのハイパーパラメータ自動最適化

AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models ( http://arxiv.org/abs/2107.13686v1 )

ライセンス: Link先を確認
Yichun Yin, Cheng Chen, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu(参考訳) プレトレーニング言語モデル(PLM)は自然言語処理において大きな成功を収めている。 PLMの多くは、BERT (Devlin et al., 2019) におけるアーキテクチャハイパーパラメータのデフォルト設定(例えば、隠れ次元はフィードフォワードサブネットワークにおける中間次元の4分の1)に従う。 BERTにおけるアーキテクチャハイパーパラメータの設計,特に資源制約されたデバイスへの実用的展開に不可欠な,小型のより効率的なPLMについて,いくつかの研究がなされている。 本稿では,アーキテクチャのハイパーパラメータの自動検索にNAS(One-shot Neural Architecture Search)を採用する。 具体的には,単発学習の手法と探索空間を慎重に設計し,様々な遅延制約に対する小さなPLMの適応的かつ効率的な開発方法を提供する。 提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。 実験により,本手法は,SOTA検索ベースライン(NAS-BERT)とSOTA蒸留ベースライン(DistilBERT,TinyBERT ,MiniLM,MobileBERT)のどちらよりも優れていることが示された。 また、得られたアーキテクチャに基づいて、単一のPLMの開発よりも高速な効率的な開発手法を提案する。

Pre-trained language models (PLMs) have achieved great success in natural language processing. Most of PLMs follow the default setting of architecture hyper-parameters (e.g., the hidden dimension is a quarter of the intermediate dimension in feed-forward sub-networks) in BERT (Devlin et al., 2019). Few studies have been conducted to explore the design of architecture hyper-parameters in BERT, especially for the more efficient PLMs with tiny sizes, which are essential for practical deployment on resource-constrained devices. In this paper, we adopt the one-shot Neural Architecture Search (NAS) to automatically search architecture hyper-parameters. Specifically, we carefully design the techniques of one-shot learning and the search space to provide an adaptive and efficient development way of tiny PLMs for various latency constraints. We name our method AutoTinyBERT and evaluate its effectiveness on the GLUE and SQuAD benchmarks. The extensive experiments show that our method outperforms both the SOTA search-based baseline (NAS-BERT) and the SOTA distillation-based methods (such as DistilBERT, TinyBERT, MiniLM and MobileBERT). In addition, based on the obtained architectures, we propose a more efficient development method that is even faster than the development of a single PLM.
翻訳日:2021-07-30 13:25:27 公開日:2021-07-29
# マルチモーダルコラーニング:課題,データセットへの応用,最近の進歩,今後の展開

Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future Directions ( http://arxiv.org/abs/2107.13782v1 )

ライセンス: Link先を確認
Anil Rahate, Rahee Walambe, Sheela Ramanna, Ketan Kotecha(参考訳) テキスト,画像,音声,ビデオなどの複数のモーダルを用いたマルチモーダルディープラーニングシステムは,個別のモーダル (unimodal) システムと比較すると,性能が向上している。 マルチモーダル機械学習には、表現、翻訳、アライメント、融合、コラーニングという複数の側面がある。 マルチモーダル機械学習の現在の状況では、トレーニングやテスト期間中にすべてのモダリティが存在、整列、ノイズのないことが前提となっている。 しかし、現実のタスクでは、通常、1つ以上のモダリティが欠落し、ノイズがあり、注釈付きデータが欠け、信頼できないラベルがあり、トレーニングやテストに不足している。 この課題はマルチモーダルコラーニングと呼ばれる学習パラダイムによって解決される。 モダリティのモデリングは、その表現や予測モデルを含むモダリティ間の知識の伝達を用いて、他の(リソースに富んだ)モダリティからの知識を活用することで支援される。 コラーニングは新興分野であり、コラーニングによって対処されるすべての課題に明示的にフォーカスする専用のレビューはない。 そこで,本研究では,マルチモーダル・コラーニングの新たな分野に関する総合的な調査を行い,その全体像について述べる。 ひとつ以上のコラーニング課題を克服する実装を、明示的にコラーニング課題とみなすことなくレビューする。 本稿では,マルチモーダル共学習の包括的分類法について,共学習と関連する実践の課題に基づいて述べる。 最新のものを含むために使用されるさまざまなテクニックは、アプリケーションやデータセットとともにレビューされる。 最後のゴールは、このエキサイティングな領域にフォーカスした研究コミュニティ全体に有益になることを望んでいる将来の仕事のための重要なアイデアと方向性と共に、課題と展望について話し合うことです。

Multimodal deep learning systems which employ multiple modalities like text, image, audio, video, etc., are showing better performance in comparison with individual modalities (i.e., unimodal) systems. Multimodal machine learning involves multiple aspects: representation, translation, alignment, fusion, and co-learning. In the current state of multimodal machine learning, the assumptions are that all modalities are present, aligned, and noiseless during training and testing time. However, in real-world tasks, typically, it is observed that one or more modalities are missing, noisy, lacking annotated data, have unreliable labels, and are scarce in training or testing and or both. This challenge is addressed by a learning paradigm called multimodal co-learning. The modeling of a (resource-poor) modality is aided by exploiting knowledge from another (resource-rich) modality using transfer of knowledge between modalities, including their representations and predictive models. Co-learning being an emerging area, there are no dedicated reviews explicitly focusing on all challenges addressed by co-learning. To that end, in this work, we provide a comprehensive survey on the emerging area of multimodal co-learning that has not been explored in its entirety yet. We review implementations that overcome one or more co-learning challenges without explicitly considering them as co-learning challenges. We present the comprehensive taxonomy of multimodal co-learning based on the challenges addressed by co-learning and associated implementations. The various techniques employed to include the latest ones are reviewed along with some of the applications and datasets. Our final goal is to discuss challenges and perspectives along with the important ideas and directions for future work that we hope to be beneficial for the entire research community focusing on this exciting domain.
翻訳日:2021-07-30 13:24:47 公開日:2021-07-29
# 時間的出力差による半教師付きアクティブラーニング

Semi-Supervised Active Learning with Temporal Output Discrepancy ( http://arxiv.org/abs/2107.14153v1 )

ライセンス: Link先を確認
Siyu Huang, Tianyang Wang, Haoyi Xiong, Jun Huan, Dejing Dou(参考訳) ディープラーニングは幅広いタスクで成功しますが、高価で時間を要する注釈付きデータの膨大なコレクションに大きく依存します。 データアノテーションのコストを下げるために、アクティブラーニングは、ラベルなしデータセット内の少数の情報サンプルに注釈を付けるために、オラクルに対話的に問い合わせることが提案されている。 本稿では,損失率の高いサンプルが,損失率の低いサンプルよりもモデルに有益であるという事実に触発されて,ラベルのないサンプルが損失率が高いと思われる場合に,oracleにデータアノテーションを求める新しいディープラーニング手法を提案する。 提案手法のコアとなるのは,異なる最適化ステップにおけるモデルによる出力の相違を評価することで,サンプル損失を推定する時間的出力不一致(TOD)である。 我々の理論的研究は,TODが蓄積したサンプルの損失を低く抑え,情報的未ラベルサンプルの選定に使用できることを示している。 さらに,TODに基づいて,ラベルなしデータを組み込むことでモデル性能を向上させる教師なし学習基準とともに,効果的なラベルなしデータサンプリング戦略を開発する。 TODの単純さのため、我々のアクティブな学習アプローチは効率的で柔軟性があり、タスクに依存しない。 その結果,画像分類や意味セグメンテーションタスクにおいて,最先端のアクティブラーニング手法よりも優れた性能が得られることがわかった。

While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion that enhances model performance by incorporating the unlabeled data. Due to the simplicity of TOD, our active learning approach is efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks.
翻訳日:2021-07-30 13:24:20 公開日:2021-07-29
# オープンワールドエンティティセグメンテーション

Open-World Entity Segmentation ( http://arxiv.org/abs/2107.14228v1 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Yi Wang, Jiuxiang Gu, Hengshuang Zhao, Zhe Lin, Philip Torr, Jiaya Jia(参考訳) 意味圏ラベルを考慮せずに、画像内のすべての視覚エンティティをセグメント化することを目的とした、エンティティセグメンテーション(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。 セグメンテーションマスクの品質は一般的に重要であるが、カテゴリラベルは重要ではない、画像操作/編集において多くの実用的な応用がある。 この設定では、意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。 統合されたエンティティ表現に基づいて、2つの新しいモジュールを持つセンターベースのエンティティセグメンテーションフレームワークを提案する。 実験によって、我々の新しいタスクとフレームワークは、既存の作業よりも優れた利点を示します。 特にesでは、(1)ラベルコンフリクトを解決する必要なしに、大きなトレーニングセットを形成するために複数のデータセットをマージすること、(2)1つのデータセットでトレーニングされたすべてのモデルは、見当たらないドメインを持つ他のデータセットに対して例外的にうまく一般化することができる。 私たちのコードはhttps://github.com/d vlab-research/entity で公開されています。

We introduce a new image segmentation task, termed Entity Segmentation (ES) with the aim to segment all visual entities in an image without considering semantic category labels. It has many practical applications in image manipulation/editing where the segmentation mask quality is typically crucial but category labels are less important. In this setting, all semantically-meaning ful segments are equally treated as categoryless entities and there is no thing-stuff distinction. Based on our unified entity representation, we propose a center-based entity segmentation framework with two novel modules to improve mask quality. Experimentally, both our new task and framework demonstrate superior advantages as against existing work. In particular, ES enables the following: (1) merging multiple datasets to form a large training set without the need to resolve label conflicts; (2) any model trained on one dataset can generalize exceptionally well to other datasets with unseen domains. Our code is made publicly available at https://github.com/d vlab-research/Entity .
翻訳日:2021-07-30 13:23:59 公開日:2021-07-29
# $\mathbb{S}^2$上の関数データの振幅平均

Amplitude Mean of Functional Data on $\mathbb{S}^2$ ( http://arxiv.org/abs/2107.13721v1 )

ライセンス: Link先を確認
Zhengwu Zhang and Bayan Saparbayeva(参考訳) 近年, 主流値関数型データ解析 (FDA) は, 非線型多様体上で観測される軌跡や縦方向のデータの増加による研究の活発な領域となっている。 このようなデータ分析の課題は、無限次元や非線形性、時間領域や位相変動性など、多くの側面から生じている。 本稿では,不規則な時間ゆらぎや関数の再パラメータ化に不変な$\S^2$上の多様体値関数の振幅部分について検討する。 S^2$のよい幾何を利用して、関数の時間的アライメント、測地、サンプル平均計算のための効率的で正確なツールセットを開発する。 これらのツールの核心は、注意深く導出された勾配降下アルゴリズムに依存している。 本研究は, 大規模シミュレーションと実データによる競合相手に対するこれらのツールの利点を示し, メインフォールド評価FDAの位相変動と組み合わせるのではなく, 関数の振幅部分を考えることの重要性を示した。

Mainfold-valued functional data analysis (FDA) recently becomes an active area of research motivated by the raising availability of trajectories or longitudinal data observed on non-linear manifolds. The challenges of analyzing such data comes from many aspects, including infinite dimensionality and nonlinearity, as well as time domain or phase variability. In this paper, we study the amplitude part of manifold-valued functions on $\S^2$, which is invariant to random time warping or re-parameterization of the function. Utilizing the nice geometry of $\S^2$, we develop a set of efficient and accurate tools for temporal alignment of functions, geodesic and sample mean calculation. At the heart of these tools, they rely on gradient descent algorithms with carefully derived gradients. We show the advantages of these newly developed tools over its competitors with extensive simulations and real data, and demonstrate the importance of considering the amplitude part of functions instead of mixing it with phase variability in mainfold-valued FDA.
翻訳日:2021-07-30 13:22:45 公開日:2021-07-29
# 正規化流による多変量密度の時間変化の学習

Learning the temporal evolution of multivariate densities via normalizing flows ( http://arxiv.org/abs/2107.13735v1 )

ライセンス: Link先を確認
Yubin Lu, Romit Maulik, Ting Gao, Felix Dietrich, Ioannis G. Kevrekidis, Jinqiao Duan(参考訳) 本研究では,確率微分方程式からサンプルパスデータを用いて確率分布を学習する手法を提案する。 具体的には、時間発展する確率分布を考える(例えば、局所的あるいは非局所的フォッカー・プランク方程式を積分して生じる分布)。 我々は、この進化を機械学習によって分析し、進化している分布の各インスタンスに参照分布(例えばガウス分布)を取る時間依存マッピングの構築を支援する。 基準分布がフォッカー・プランク方程式の初期条件であるなら、我々が学んだことは対応する解の時間-T写像である。 具体的には、学習されたマップは、参照密度のサポートを時間内の各密度スナップショットのサポートに変形させる正規化フローである。 このアプローチは、ブラウンおよびL'evyノイズによって駆動されるシステムに生じるような非局所フォッカー・プランク方程式の解を学習できることを実証する。 本手法を検証するために,2次元および3次元,一様および多様分布を用いた例を示す。

In this work, we propose a method to learn probability distributions using sample path data from stochastic differential equations. Specifically, we consider temporally evolving probability distributions (e.g., those produced by integrating local or nonlocal Fokker-Planck equations). We analyze this evolution through machine learning assisted construction of a time-dependent mapping that takes a reference distribution (say, a Gaussian) to each and every instance of our evolving distribution. If the reference distribution is the initial condition of a Fokker-Planck equation, what we learn is the time-T map of the corresponding solution. Specifically, the learned map is a normalizing flow that deforms the support of the reference density to the support of each and every density snapshot in time. We demonstrate that this approach can learn solutions to non-local Fokker-Planck equations, such as those arising in systems driven by both Brownian and L\'evy noise. We present examples with two- and three-dimensional, uni- and multimodal distributions to validate the method.
翻訳日:2021-07-30 13:22:27 公開日:2021-07-29
# Min Max Optimizationのためのベイズ最適化

Bayesian Optimization for Min Max Optimization ( http://arxiv.org/abs/2107.13772v1 )

ライセンス: Link先を確認
Dorina Weichert, Alexander Kister(参考訳) 望ましい条件下でのみ信頼できるソリューションは、あまり安全なソリューションではない。 Min Max Optimizationは、最悪のケース条件に対して堅牢なオプティマを返すアプローチである。 本稿では,最適化すべき関数が事前に知られておらず,従って実験によって学習されるような設定でmin max最適化を行うアルゴリズムを提案する。 したがって、最大化問題に適したベイズ最適化設定をMin Max Optimization問題に拡張する。 関連する作業が2つの獲得関数の期待改善とガウス過程の上限を延長する一方で、2つの獲得関数のエントロピー探索と知識勾配を拡張する。 これらの獲得関数は、最適な点を探すだけでなく、最適な点に関する知識を得ることができる。 私たちの評価では、これらの獲得関数は、ベンチマーク設定よりも最適なものに収束するより優れたソリューションを可能にします。

A solution that is only reliable under favourable conditions is hardly a safe solution. Min Max Optimization is an approach that returns optima that are robust against worst case conditions. We propose algorithms that perform Min Max Optimization in a setting where the function that should be optimized is not known a priori and hence has to be learned by experiments. Therefore we extend the Bayesian Optimization setting, which is tailored to maximization problems, to Min Max Optimization problems. While related work extends the two acquisition functions Expected Improvement and Gaussian Process Upper Confidence Bound; we extend the two acquisition functions Entropy Search and Knowledge Gradient. These acquisition functions are able to gain knowledge about the optimum instead of just looking for points that are supposed to be optimal. In our evaluation we show that these acquisition functions allow for better solutions - converging faster to the optimum than the benchmark settings.
翻訳日:2021-07-30 13:22:13 公開日:2021-07-29
# 3次元超音波による骨盤底部自動切開用リカレントu-net

Recurrent U-net for automatic pelvic floor muscle segmentation on 3D ultrasound ( http://arxiv.org/abs/2107.13833v1 )

ライセンス: Link先を確認
Frieda van den Noort, Beril Sirmacek, Cornelis H. Slump(参考訳) 骨盤の床問題の事前評価は、女性の人口内で高い。 経ペリン超音波(TPUS)は、これらの問題を調べるために用いられる主な画像モダリティである。 TPUSデータ分析の自動化は骨盤床問題に対する理解を深めるのに役立つだろう。 本研究では, 畳み込み長短期記憶(CLSTM)層を有するU-netライクニューラルネットワークを用いて, TPUSボリュームにおけるレバターアニ筋(LAM)の3次元セグメンテーションを自動化する。 CLSTM層はスライス間3D情報を保持するために付加される。 このセグメンテーションタスクで人間レベルのパフォーマンスに到達する。 そこで我々は,3次元TPUSデータを用いて,LAMのセグメンテーションの自動化に成功した。 これは、大規模な研究人口の文脈におけるlam力学の自動的in-vivo解析への道を開く。

The prevalance of pelvic floor problems is high within the female population. Transperineal ultrasound (TPUS) is the main imaging modality used to investigate these problems. Automating the analysis of TPUS data will help in growing our understanding of pelvic floor related problems. In this study we present a U-net like neural network with some convolutional long short term memory (CLSTM) layers to automate the 3D segmentation of the levator ani muscle (LAM) in TPUS volumes. The CLSTM layers are added to preserve the inter-slice 3D information. We reach human level performance on this segmentation task. Therefore, we conclude that we successfully automated the segmentation of the LAM on 3D TPUS data. This paves the way towards automatic in-vivo analysis of the LAM mechanics in the context of large study populations.
翻訳日:2021-07-30 13:21:58 公開日:2021-07-29
# Break, Perturb, Build: 質問分解による推論パスの自動摂動

Break, Perturb, Build: Automatic Perturbation of Reasoning Paths through Question Decomposition ( http://arxiv.org/abs/2107.13935v1 )

ライセンス: Link先を確認
Mor Geva, Tomer Wolfson, Jonathan Berant(参考訳) 自然言語理解モデルの能力をテストするチャレンジベンチマークを作成する最近の取り組みは、主に人間のアノテーションに依存している。 本研究では,質問応答対の自動摂動のためのBPB(Break, Perturb, Build)フレームワークを提案する。 BPBは、それを答えるために必要な推論ステップに分解し、象徴的に分解を妨害し、新しい質問と答えのペアを生成する。 本研究では,3つの読影理解(RC)ベンチマークの評価セットを作成することにより,BPBの有効性を示す。 評価セット上でのRCモデルの評価を行い, 生成した実例に対して, 元のデータと比較して大きな性能差を示す。 さらに、シンボリック摂動はモデルの強度と限界のきめ細かい解析を可能にする。 最後に、BPBが生成した例によるトレーニングデータの強化は、元のデータ分布を落とさずに、パフォーマンスのギャップを埋めるのに役立つ。

Recent efforts to create challenge benchmarks that test the abilities of natural language understanding models have largely depended on human annotations. In this work, we introduce the "Break, Perturb, Build" (BPB) framework for automatic reasoning-oriented perturbation of question-answer pairs. BPB represents a question by decomposing it into the reasoning steps that are required to answer it, symbolically perturbs the decomposition, and then generates new question-answer pairs. We demonstrate the effectiveness of BPB by creating evaluation sets for three reading comprehension (RC) benchmarks, generating thousands of high-quality examples without human intervention. We evaluate a range of RC models on our evaluation sets, which reveals large performance gaps on generated examples compared to the original data. Moreover, symbolic perturbations enable fine-grained analysis of the strengths and limitations of models. Last, augmenting the training data with examples generated by BPB helps close performance gaps, without any drop on the original data distribution.
翻訳日:2021-07-30 13:21:29 公開日:2021-07-29
# 再現可能な名前付きエンティティ認識評価の障壁への対処

Addressing Barriers to Reproducible Named Entity Recognition Evaluation ( http://arxiv.org/abs/2107.14154v1 )

ライセンス: Link先を確認
Chester Palen-Michel, Nolan Holley, Constantine Lignos(参考訳) 名前付きエンティティ認識タスクに対する再現不能な評価の危機であると考えるものに対処するため、再現可能な評価のためのガイドラインを提案する。 私たちが提案するガイドラインは非常に単純で、チャンクのエンコードとスコア付けに関する透明性を重視しています。 NER評価の単純さにもかかわらず、評価方法の未報告の違いは、目立った大きさで統計的に有意なスコアの変化をもたらすことを示した。 SeqScoreはオープンソースのツールキットで、レプリケーションの失敗の原因となる多くの問題に対処し、ガイドラインに従うのを簡単にします。

To address what we believe is a looming crisis of unreproducible evaluation for named entity recognition tasks, we present guidelines for reproducible evaluation. The guidelines we propose are extremely simple, focusing on transparency regarding how chunks are encoded and scored, but very few papers currently being published fully comply with them. We demonstrate that despite the apparent simplicity of NER evaluation, unreported differences in the scoring procedure can result in changes to scores that are both of noticeable magnitude and are statistically significant. We provide SeqScore, an open source toolkit that addresses many of the issues that cause replication failures and makes following our guidelines easy.
翻訳日:2021-07-30 13:21:12 公開日:2021-07-29
# 感情認識型人工知能の開発を導くための倫理的枠組み

An Ethical Framework for Guiding the Development of Affectively-Aware Artificial Intelligence ( http://arxiv.org/abs/2107.13734v1 )

ライセンス: Link先を確認
Desmond C. Ong(参考訳) 最近の人工知能の研究と展開の急速な進歩は、社会的および感情的に知的なAIの潜在的な影響について、より多くの議論を巻き起こした。 問題は、研究がそのような感情に敏感なAIを作れるかどうかではなく、いつ実現するかだ。 機械と彼らが奉仕する企業や政府が人々の心や感情を「読む」ことができれば、社会にとって何を意味するのだろうか? そのようなaiの開発者とオペレーターは何をするべきで、どうすべきでないのか? 本稿の目的は、これらの発展の潜在的な影響のいくつかを先取りし、研究者、産業専門家、政策立案者を導くために、情緒的なAIの(道徳的および倫理的な)結果を評価するための一連のガイドラインを提案することである。 我々は、AI開発者による倫理的責任を分離し、そのようなAIをデプロイするエンティティをvis-\`a-visするマルチステークホルダ分析フレームワークを提案する。 私たちの分析では、それぞれのステークホルダーの責任を明確にする2つの柱が生まれています。aiの有効性の証明に重点を置くprovable beneficenceと、そのデータによるデータの収集、使用、保管を司る responsible stewardshipです。 最後に、研究者、開発者、オペレーター、規制当局、議員への推奨を締めくくります。

The recent rapid advancements in artificial intelligence research and deployment have sparked more discussion about the potential ramifications of socially- and emotionally-intellig ent AI. The question is not if research can produce such affectively-aware AI, but when it will. What will it mean for society when machines -- and the corporations and governments they serve -- can "read" people's minds and emotions? What should developers and operators of such AI do, and what should they not do? The goal of this article is to pre-empt some of the potential implications of these developments, and propose a set of guidelines for evaluating the (moral and) ethical consequences of affectively-aware AI, in order to guide researchers, industry professionals, and policy-makers. We propose a multi-stakeholder analysis framework that separates the ethical responsibilities of AI Developers vis-\`a-vis the entities that deploy such AI -- which we term Operators. Our analysis produces two pillars that clarify the responsibilities of each of these stakeholders: Provable Beneficence, which rests on proving the effectiveness of the AI, and Responsible Stewardship, which governs responsible collection, use, and storage of data and the decisions made from such data. We end with recommendations for researchers, developers, operators, as well as regulators and law-makers.
翻訳日:2021-07-30 13:20:44 公開日:2021-07-29
# 公共飲料水貯水池における安全リスク評価のための水中音響ネットワーク

Underwater Acoustic Networks for Security Risk Assessment in Public Drinking Water Reservoirs ( http://arxiv.org/abs/2107.13977v1 )

ライセンス: Link先を確認
J\"org Stork, Philip Wenzel, Severin Landwein, Maria-Elena Algorri, Martin Zaefferer, Wolfgang Kusch, Martin Staubach, Thomas Bartz-Beielstein, Hartmut K\"ohn, Hermann Dejager, Christian Wolf(参考訳) 我々は,水中センサネットワークを用いた飲料水貯水池の監視システムを構築した。 水中イベントの検出,分類,ローカライズを行うための,革新的なaiベースのアプローチを実装した。 本稿では,センサネットワークであるハイドロフォンネットワークをベースとした,システムの技術と認知AIアーキテクチャについて述べる。 交通,ビジター,可変水環境が複雑で多様な環境を創出する貯水池におけるハイドロフォンネットワークの設置と利用の課題について論じる。 我々のAIソリューションは、分類と異常検出のための潜在符号化の教師なし学習と、音像定位のための時間遅延推定にオートエンコーダを使用する。 最後に, 実験室と貯水池で実施した実験結果について述べるとともに, システムの可能性について考察する。

We have built a novel system for the surveillance of drinking water reservoirs using underwater sensor networks. We implement an innovative AI-based approach to detect, classify and localize underwater events. In this paper, we describe the technology and cognitive AI architecture of the system based on one of the sensor networks, the hydrophone network. We discuss the challenges of installing and using the hydrophone network in a water reservoir where traffic, visitors, and variable water conditions create a complex, varying environment. Our AI solution uses an autoencoder for unsupervised learning of latent encodings for classification and anomaly detection, and time delay estimates for sound localization. Finally, we present the results of experiments carried out in a laboratory pool and the water reservoir and discuss the system's potential.
翻訳日:2021-07-30 13:20:23 公開日:2021-07-29
# 開世界認識のためのベイズ埋め込み

Bayesian Embeddings for Few-Shot Open World Recognition ( http://arxiv.org/abs/2107.13682v1 )

ライセンス: Link先を確認
John Willes, James Harrison, Ali Harakeh, Chelsea Finn, Marco Pavone, Steven Waslander(参考訳) 自律的な意思決定エージェントが狭い運用環境から非構造化の世界へと移行するにつれ、学習システムはクローズドワールドの定式化から、少量の情報から新しいクラスを継続的に学習するオープンワールドと少数のショットセッティングに移行する必要がある。 これは、一般的に既知のクラスのセットと、各クラスの多数の例で設計された現代の機械学習システムとは全く対照的である。 本研究では,組込み型少数ショット学習アルゴリズムをオープンワールド認識環境に拡張する。 ベイズ的非パラメトリッククラス事前学習と埋め込み型事前学習スキームを組み合わせることで,オープンワールド認識のための少数ショット学習(FLOWR)と呼ぶ,高度にフレキシブルなフレームワークを実現する。 当社のフレームワークは,MiniImageNetとTieredImageNetによる数ショット学習データセットのオープンワールド拡張をベンチマークする。 その結果,従来の手法と比較して高い分類精度を示し,非パラメトリックなオープンワールド・マルチショット学習手法によるH尺度(新しいクラス検出尺度)の最大12%の改善が得られた。

As autonomous decision-making agents move from narrow operating environments to unstructured worlds, learning systems must move from a closed-world formulation to an open-world and few-shot setting in which agents continuously learn new classes from small amounts of information. This stands in stark contrast to modern machine learning systems that are typically designed with a known set of classes and a large number of examples for each class. In this work we extend embedding-based few-shot learning algorithms to the open-world recognition setting. We combine Bayesian non-parametric class priors with an embedding-based pre-training scheme to yield a highly flexible framework which we refer to as few-shot learning for open world recognition (FLOWR). We benchmark our framework on open-world extensions of the common MiniImageNet and TieredImageNet few-shot learning datasets. Our results show, compared to prior methods, strong classification accuracy performance and up to a 12% improvement in H-measure (a measure of novel class detection) from our non-parametric open-world few-shot learning scheme.
翻訳日:2021-07-30 13:19:20 公開日:2021-07-29
# 融合最大化と高レベル空間注意による効率的なポーズ推定

Efficient Human Pose Estimation by Maximizing Fusion and High-Level Spatial Attention ( http://arxiv.org/abs/2107.13693v1 )

ライセンス: Link先を確認
Zhiyuan Ren, Yaohai Zhou, Yizhe Chen, Ruisong Zhou, Yayu Gao(参考訳) 本稿では,マルチレベル特徴を融合させ,HSA(High-Level Spatial Attention)という軽量な注意ブロックを追加することで,効率的な人体ポーズ推定ネットワークであるSFM(Slender fusion model)を提案する。 効率的なネットワーク上の多くの既存手法は機能融合を考慮に入れており、性能が大幅に向上している。 しかし、その性能はresnetやhrnetのような大規模ネットワークに比べて、ネットワークでの融合動作が限られているため、はるかに劣っている。 具体的には、レイヤを追加せずに2つのピラミッドフレームワーク間のブリッジを構築することで、融合操作数を拡大する。 一方,長距離依存を捉えるために,2次注目マップを演算する軽量アテンションブロック-HSAを提案する。 要約すると、SFMは限られた数の層における機能融合の数を最大化する。 HSAは空間注意マップの注意を計算して高精度な空間情報を学習する。 SFMとHSAの助けを借りて、我々のネットワークはマルチレベルの特徴を生成し、少ない計算資源で正確なグローバル空間情報を抽出することができる。 そこで本手法は,パラメータや計算コストを小さくして,比較あるいは精度の向上を図る。 我々は,PCKh@0.5で89.0,PCKh@0.1で42.0,APで71.7,AP@0.5で90.7,COCOで1.7GのFLOPと1.5Mのパラメータしか持たない。 ソースコードは近々公開される予定だ。

In this paper, we propose an efficient human pose estimation network -- SFM (slender fusion model) by fusing multi-level features and adding lightweight attention blocks -- HSA (High-Level Spatial Attention). Many existing methods on efficient network have already taken feature fusion into consideration, which largely boosts the performance. However, its performance is far inferior to large network such as ResNet and HRNet due to its limited fusion operation in the network. Specifically, we expand the number of fusion operation by building bridges between two pyramid frameworks without adding layers. Meanwhile, to capture long-range dependency, we propose a lightweight attention block -- HSA, which computes second-order attention map. In summary, SFM maximizes the number of feature fusion in a limited number of layers. HSA learns high precise spatial information by computing the attention of spatial attention map. With the help of SFM and HSA, our network is able to generate multi-level feature and extract precise global spatial information with little computing resource. Thus, our method achieve comparable or even better accuracy with less parameters and computational cost. Our SFM achieve 89.0 in PCKh@0.5, 42.0 in PCKh@0.1 on MPII validation set and 71.7 in AP, 90.7 in AP@0.5 on COCO validation with only 1.7G FLOPs and 1.5M parameters. The source code will be public soon.
翻訳日:2021-07-30 13:18:59 公開日:2021-07-29
# 階層的自己管理強化知識蒸留

Hierarchical Self-supervised Augmented Knowledge Distillation ( http://arxiv.org/abs/2107.13715v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Linhang Cai, Yongjun Xu(参考訳) 知識蒸留は、しばしば教師から学生に効果的に知識を定義し、伝達する方法を含んでいる。 近年の自己指導型コントラスト知識は最高の性能を達成しているが、ネットワークにそのような知識を学習させると、元のクラス認識タスクの表現学習が損なわれる可能性がある。 そこで,本研究では,自己教師付き拡張タスクを採用し,ネットワークを誘導し,元の認識タスクと自己教師付き補助タスクの合同分布を学習する。 正規分類能力を失うことなく表現力を向上させるための豊かな知識として示される。 さらに、従来の手法が最終層間でのみ確率的知識を伝達することは不完全である。 本稿では,階層的中間的特徴マップに複数の補助的分類器を付加し,多種多様な自己教師付き知識を生成し,学生ネットワークに徹底的に教えるための1対1の転送を行う。 提案手法は,CIFAR-100では平均2.56倍,画像ネットでは0.77倍,従来のSOTA SSKDよりも大幅に向上した。 コードはhttps://github.com/w inycg/HSAKDで入手できる。

Knowledge distillation often involves how to define and transfer knowledge from teacher to student effectively. Although recent self-supervised contrastive knowledge achieves the best performance, forcing the network to learn such knowledge may damage the representation learning of the original class recognition task. We therefore adopt an alternative self-supervised augmented task to guide the network to learn the joint distribution of the original recognition task and self-supervised auxiliary task. It is demonstrated as a richer knowledge to improve the representation power without losing the normal classification capability. Moreover, it is incomplete that previous methods only transfer the probabilistic knowledge between the final layers. We propose to append several auxiliary classifiers to hierarchical intermediate feature maps to generate diverse self-supervised knowledge and perform the one-to-one transfer to teach the student network thoroughly. Our method significantly surpasses the previous SOTA SSKD with an average improvement of 2.56\% on CIFAR-100 and an improvement of 0.77\% on ImageNet across widely used network pairs. Codes are available at https://github.com/w inycg/HSAKD.
翻訳日:2021-07-30 13:18:33 公開日:2021-07-29
# 画像画像とセマンティックスの間のギャップをスーパービジョンで埋める:サーベイ

Bridging Gap between Image Pixels and Semantics via Supervision: A Survey ( http://arxiv.org/abs/2107.13757v1 )

ライセンス: Link先を確認
Jiali Duan, C.-C. Jay Kuo(参考訳) 画像の低レベル特徴と意味的意味の間にギャップが存在するという事実は、意味的ギャップと呼ばれ、何十年も前から知られている。 意味的ギャップの解決は長期にわたる問題である。 セマンティクスギャップの問題を概観し,近年,このギャップを橋渡しする取り組みに関する調査を行った。 最も重要なのは,今日では,セマンティックギャップが主に教師付き学習によって橋渡しされている,という主張です。 1)オブジェクト検出と2)コンテンツベース画像検索(CBIR)のためのメートル法学習である。 はじめに、この論文は、監督に関する歴史的ふりかえりを提供し、現代データ駆動手法への段階的な移行を図り、よく使われるデータセットを紹介します。 次に,オブジェクト検出とメトリクス学習のコンテキストにおける意味的ギャップを橋渡しするための様々な監督手法を要約する。

The fact that there exists a gap between low-level features and semantic meanings of images, called the semantic gap, is known for decades. Resolution of the semantic gap is a long standing problem. The semantic gap problem is reviewed and a survey on recent efforts in bridging the gap is made in this work. Most importantly, we claim that the semantic gap is primarily bridged through supervised learning today. Experiences are drawn from two application domains to illustrate this point: 1) object detection and 2) metric learning for content-based image retrieval (CBIR). To begin with, this paper offers a historical retrospective on supervision, makes a gradual transition to the modern data-driven methodology and introduces commonly used datasets. Then, it summarizes various supervision methods to bridge the semantic gap in the context of object detection and metric learning.
翻訳日:2021-07-30 13:18:11 公開日:2021-07-29
# 時間モデルのための潜在経路構成を用いたテキストからの映像生成

Video Generation from Text Employing Latent Path Construction for Temporal Modeling ( http://arxiv.org/abs/2107.13766v1 )

ライセンス: Link先を確認
Amir Mazaheri, Mubarak Shah(参考訳) ビデオ生成は、機械学習とコンピュータビジョンの分野で最も困難なタスクの1つである。 本稿では,映像生成の条件付き形式であるテキストから映像生成問題に取り組む。 人間は自然言語の文を聴く/読むことができ、何が記述されているのかを想像または視覚化することができる。 ビデオ生成はコンピュータビジョンにおける比較的新しい研究分野であり、解決にはほど遠い。 最近の作品の大部分は、非常に限られた種類のオブジェクト、シーン、感情を持つ合成データセットや実際のデータセットを扱う。 私たちの知る限りでは、ActorやAction Dataset(A2D)やUCF101といった、より現実的なビデオデータセットでビデオを生成するためのテキスト(フリーフォームの文)に関する最初の作業です。 第1フレームと最後のフレームの潜在表現をレグレッションし、コンテキスト対応補間法を用いてフレーム間の潜在表現を構築することで、ビデオ生成の複雑な問題に取り組む。 本稿では,各潜在表現からRGBフレームを逐次生成し,段階的に解像度を向上する'upPooling'ブロックを提案する。 さらに,提案する判別器は,単一フレームと複数フレームに基づく映像を符号化する。 提案手法は,recurrent neural network (rnn) やdeconvolution (convolutional transpose として知られる) に基づくビデオ生成手法など,よく知られたベースラインよりも優れていることを示す。

Video generation is one of the most challenging tasks in Machine Learning and Computer Vision fields of study. In this paper, we tackle the text to video generation problem, which is a conditional form of video generation. Humans can listen/read natural language sentences, and can imagine or visualize what is being described; therefore, we believe that video generation from natural language sentences will have an important impact on Artificial Intelligence. Video generation is relatively a new field of study in Computer Vision, which is far from being solved. The majority of recent works deal with synthetic datasets or real datasets with very limited types of objects, scenes, and emotions. To the best of our knowledge, this is the very first work on the text (free-form sentences) to video generation on more realistic video datasets like Actor and Action Dataset (A2D) or UCF101. We tackle the complicated problem of video generation by regressing the latent representations of the first and last frames and employing a context-aware interpolation method to build the latent representations of in-between frames. We propose a stacking ``upPooling'' block to sequentially generate RGB frames out of each latent representation and progressively increase the resolution. Moreover, our proposed Discriminator encodes videos based on single and multiple frames. We provide quantitative and qualitative results to support our arguments and show the superiority of our method over well-known baselines like Recurrent Neural Network (RNN) and Deconvolution (as known as Convolutional Transpose) based video generation methods.
翻訳日:2021-07-30 13:17:56 公開日:2021-07-29
# 単眼3次元物体検出のための幾何不確かさ投影ネットワーク

Geometry Uncertainty Projection Network for Monocular 3D Object Detection ( http://arxiv.org/abs/2107.13774v1 )

ライセンス: Link先を確認
Yan Lu, Xinzhu Ma, Lei Yang, Tianzhu Zhang, Yating Liu, Qi Chu, Junjie Yan and Wanli Ouyang(参考訳) 幾何射影は単眼3次元物体検出における強力な深さ推定法である。 高度に依存する深さを推定し、深度モデルに数学的先行性を導入する。 しかし、プロジェクションプロセスは、推定高さの誤差を増幅し、出力深さに大きく反映する誤差増幅問題も導入する。 この性質は制御不能な深さ推定をもたらし、訓練効率を損なう。 本稿では,推論とトレーニングの両方において,誤り増幅問題に取り組むための幾何不確かさ投影ネットワーク(gup net)を提案する。 具体的には,各深さに対して高い信頼度を与えるだけでなく,奥行き学習にも有効となる,推定深さの幾何学的導出の不確かさを求めるgupモジュールを提案する。 さらに,学習段階では,誤り増幅による不安定性を低減するための階層的タスク学習戦略を提案する。 本学習アルゴリズムは、提案する指標により各タスクの学習状況を監視し、各タスクの適切な損失重みを、そのプレタスク状況に応じて適応的に割り当てる。 それに基づいて、各タスクは、事前タスクがうまく学習された場合にのみ学習を開始し、トレーニングプロセスの安定性と効率を大幅に向上させることができる。 大規模実験により提案手法の有効性が示された。 全体的なモデルでは、既存の方法よりも信頼性の高い物体深度を推定でき、KITTIベンチマークの車と歩行者のカテゴリーの3.74%と4.7%のAP40で最先端のイメージベースのモノクロ3D検出器より優れている。

Geometry Projection is a powerful depth estimation method in monocular 3D object detection. It estimates depth dependent on heights, which introduces mathematical priors into the deep model. But projection process also introduces the error amplification problem, in which the error of the estimated height will be amplified and reflected greatly at the output depth. This property leads to uncontrollable depth inferences and also damages the training efficiency. In this paper, we propose a Geometry Uncertainty Projection Network (GUP Net) to tackle the error amplification problem at both inference and training stages. Specifically, a GUP module is proposed to obtains the geometry-guided uncertainty of the inferred depth, which not only provides high reliable confidence for each depth but also benefits depth learning. Furthermore, at the training stage, we propose a Hierarchical Task Learning strategy to reduce the instability caused by error amplification. This learning algorithm monitors the learning situation of each task by a proposed indicator and adaptively assigns the proper loss weights for different tasks according to their pre-tasks situation. Based on that, each task starts learning only when its pre-tasks are learned well, which can significantly improve the stability and efficiency of the training process. Extensive experiments demonstrate the effectiveness of the proposed method. The overall model can infer more reliable object depth than existing methods and outperforms the state-of-the-art image-based monocular 3D detectors by 3.74% and 4.7% AP40 of the car and pedestrian categories on the KITTI benchmark.
翻訳日:2021-07-30 13:17:31 公開日:2021-07-29
# 外周誘導協調適応による注視推定の一般化

Generalizing Gaze Estimation with Outlier-guided Collaborative Adaptation ( http://arxiv.org/abs/2107.13780v1 )

ライセンス: Link先を確認
Yunfei Liu, Ruicong Liu, Haofei Wang, Feng Lu(参考訳) ディープニューラルネットワークは外観に基づく視線推定精度を大幅に改善した。 しかし、訓練されたモデルを新しいドメイン(例えば、見えない環境や人)に一般化する場合、まだ不十分なパフォーマンスに苦しむ。 本稿では,外乱の誘導と協調して学習するネットワークの集合体であるPnP-GAを提案する。 提案手法では対象領域の基底ラベルを必要としないため,既存の視線推定ネットワークをpnp-gaに直接接続し,アルゴリズムを新たな領域に一般化することができる。 PnP-GAは、ETH-to-MPII、ETH-to-EyeDiap、Gaze360-to-MPII、Gaze360-to-EyeDiapの4つの視線領域適応タスクでテストする。 実験の結果,pnp-gaフレームワークの性能改善は36.9%,31.6%,19.4%,11 .8%であった。 提案するフレームワークは、視線領域適応タスクにおける最先端のドメイン適応アプローチよりも優れている。 コードはhttps://github.com/D reamtaleCore/PnP-GAでリリースされた。

Deep neural networks have significantly improved appearance-based gaze estimation accuracy. However, it still suffers from unsatisfactory performance when generalizing the trained model to new domains, e.g., unseen environments or persons. In this paper, we propose a plug-and-play gaze adaptation framework (PnP-GA), which is an ensemble of networks that learn collaboratively with the guidance of outliers. Since our proposed framework does not require ground-truth labels in the target domain, the existing gaze estimation networks can be directly plugged into PnP-GA and generalize the algorithms to new domains. We test PnP-GA on four gaze domain adaptation tasks, ETH-to-MPII, ETH-to-EyeDiap, Gaze360-to-MPII, and Gaze360-to-EyeDiap. The experimental results demonstrate that the PnP-GA framework achieves considerable performance improvements of 36.9%, 31.6%, 19.4%, and 11.8% over the baseline system. The proposed framework also outperforms the state-of-the-art domain adaptation approaches on gaze domain adaptation tasks. Code has been released at https://github.com/D reamtaleCore/PnP-GA.
翻訳日:2021-07-30 13:17:06 公開日:2021-07-29
# rignet: 奥行き完了のための反復画像誘導ネットワーク

RigNet: Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2107.13802v1 )

ライセンス: Link先を確認
Zhiqiang Yan and Kun Wang and Xiang Li and Zhenyu Zhang and Baobei Xu and Jun Li and Jian Yang(参考訳) 深度完備化は、この完成を促進するために色画像がしばしば使用されるスパースマップから深度マップを復元する問題を扱う。 近年のアプローチは主に画像誘導学習に焦点をあてて密集した結果を予測している。 しかし、ぼやけた画像誘導やオブジェクト構造は依然として画像案内フレームワークのパフォーマンスを妨げている。 これらの課題に対処するため,画像案内ネットワークにおける繰り返し設計を探索し,十分な深度値の復元を行う。 具体的には、カラー画像誘導枝及び深度生成枝に繰り返しを具現化する。 前者のブランチでは、複雑な環境の高次特徴を抽出する反復型時間ガラスネットワークを設計し、深度予測のための強力なコンテキストガイダンスを提供する。 後者では,動的畳み込みに基づく反復的誘導モジュールを設計し,畳み込み因子分解を適用してその複雑性を低減し,例えば境界などの高周波構造を漸進的にモデル化する。 さらに,本モジュールでは,多段深度特徴を効果的に集約する適応融合機構を提案する。 大規模な実験により,提案手法はNYUv2データセットの最先端化を実現し,提案時のKITTIベンチマークで1位となった。

Depth completion deals with the problem of recovering dense depth maps from sparse ones, where color images are often used to facilitate this completion. Recent approaches mainly focus on image guided learning to predict dense results. However, blurry image guidance and object structures in depth still impede the performance of image guided frameworks. To tackle these problems, we explore a repetitive design in our image guided network to sufficiently and gradually recover depth values. Specifically, the repetition is embodied in a color image guidance branch and a depth generation branch. In the former branch, we design a repetitive hourglass network to extract higher-level image features of complex environments, which can provide powerful context guidance for depth prediction. In the latter branch, we design a repetitive guidance module based on dynamic convolution where the convolution factorization is applied to simultaneously reduce its complexity and progressively model high-frequency structures, e.g., boundaries. Further, in this module, we propose an adaptive fusion mechanism to effectively aggregate multi-step depth features. Extensive experiments show that our method achieves state-of-the-art result on the NYUv2 dataset and ranks 1st on the KITTI benchmark at the time of submission.
翻訳日:2021-07-30 13:16:47 公開日:2021-07-29
# VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation

VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation ( http://arxiv.org/abs/2107.13824v1 )

ライセンス: Link先を確認
Zeyu Hu, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai(参考訳) 近年,sparse voxelベースの手法は,強力な3d cnnのおかげで,室内シーンの3d意味セグメンテーションの最先端技術となっている。 それにもかかわらず、ボクセルに基づく手法は、空間的に閉じた物体のあいまいな特徴に悩まされ、測地情報の欠如により複雑で不規則な測地を扱うのに苦労する。 このことから,voxel-mesh network (vmnet)は,ユークリッド情報と測地情報の両方を活用した,voxelおよびメッシュ表現上で動作する新しい3次元深層アーキテクチャである。 直感的には、ボクセルから抽出されたユークリッド情報は、近くの物体間の相互作用を表す文脈的手がかりを提供することができ、メッシュから抽出された測地線情報は、空間的に近接するが断線面を持つ別の物体を助けることができる。 この2つの領域からの情報を組み込むため、効果的な特徴集約のためのドメイン内注意モジュールと、適応的特徴融合のためのドメイン間注意モジュールを設計する。 特に、屋内シーンの大規模セグメンテーションのための挑戦的なScanNetデータセットでは、より単純なネットワーク構造(17M対30Mと38Mのパラメータ)で最先端のSparseConvNetとMinkowskiNet(74.6%対72.5%、73.6%はmIoU)を上回っている。 コードリリース: https://github.com/h zykent/VMNet

In recent years, sparse voxel-based methods have become the state-of-the-arts for 3D semantic segmentation of indoor scenes, thanks to the powerful 3D CNNs. Nevertheless, being oblivious to the underlying geometry, voxel-based methods suffer from ambiguous features on spatially close objects and struggle with handling complex and irregular geometries due to the lack of geodesic information. In view of this, we present Voxel-Mesh Network (VMNet), a novel 3D deep architecture that operates on the voxel and mesh representations leveraging both the Euclidean and geodesic information. Intuitively, the Euclidean information extracted from voxels can offer contextual cues representing interactions between nearby objects, while the geodesic information extracted from meshes can help separate objects that are spatially close but have disconnected surfaces. To incorporate such information from the two domains, we design an intra-domain attentive module for effective feature aggregation and an inter-domain attentive module for adaptive feature fusion. Experimental results validate the effectiveness of VMNet: specifically, on the challenging ScanNet dataset for large-scale segmentation of indoor scenes, it outperforms the state-of-the-art SparseConvNet and MinkowskiNet (74.6% vs 72.5% and 73.6% in mIoU) with a simpler network structure (17M vs 30M and 38M parameters). Code release: https://github.com/h zykent/VMNet
翻訳日:2021-07-30 13:16:27 公開日:2021-07-29
# 単眼3次元物体検出のための投影モデルによる幾何学誘導深度学習

Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection ( http://arxiv.org/abs/2107.13931v1 )

ライセンス: Link先を確認
Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu(参考訳) 自動運転の重要な課題として、近年3Dオブジェクト検出は大きな進歩を遂げている。 しかし, 深さ推定が不十分なため, 単眼的3次元物体検出が課題となっている。 ほとんどの既存の単分子法は、通常、シーンの深さを直接回帰するが、深さと様々な幾何学的要素(例えば、)の間の重要な関係を無視している。 境界ボックスのサイズ、3次元オブジェクトの次元、オブジェクトのポーズ)。 本稿では,投影モデルを用いて幾何学誘導深度推定を学習し,モノクル3次元物体検出の進歩を提案する。 具体的には、単眼3次元物体検出ネットワークにおける2次元および3次元深度予測の射影モデルを用いた原理幾何学式を考案する。 さらに,ジオメトリを意識した深部表現学習を実現するため,深部推定に有効な2次元および3次元インタラクションを実現するため,提案式を実装し,組み込む。 さらに,2次元アノテーションと投影ボックスの相違に対処し,幾何学式による頑健な学習を確保することで,強力なベースラインを提供する。 kittiデータセットを用いた実験により,本手法は,中程度のテスト設定において,余分なデータを持たずに,最先端モノキュラーベース手法の検出性能を2.80%向上させた。 モデルとコードはhttps://github.com/y inminzhang/monogeoでリリースされる。

As a crucial task of autonomous driving, 3D object detection has made great progress in recent years. However, monocular 3D object detection remains a challenging problem due to the unsatisfactory performance in depth estimation. Most existing monocular methods typically directly regress the scene depth while ignoring important relationships between the depth and various geometric elements (e.g. bounding box sizes, 3D object dimensions, and object poses). In this paper, we propose to learn geometry-guided depth estimation with projective modeling to advance monocular 3D object detection. Specifically, a principled geometry formula with projective modeling of 2D and 3D depth predictions in the monocular 3D object detection network is devised. We further implement and embed the proposed formula to enable geometry-aware deep representation learning, allowing effective 2D and 3D interactions for boosting the depth estimation. Moreover, we provide a strong baseline through addressing substantial misalignment between 2D annotation and projected boxes to ensure robust learning with the proposed geometric formula. Experiments on the KITTI dataset show that our method remarkably improves the detection performance of the state-of-the-art monocular-based method without extra data by 2.80% on the moderate test setting. The model and code will be released at https://github.com/Y inminZhang/MonoGeo.
翻訳日:2021-07-30 13:15:53 公開日:2021-07-29
# 確率的・幾何学的深さ:遠近からの物体検出

Probabilistic and Geometric Depth: Detecting Objects in Perspective ( http://arxiv.org/abs/2107.14160v1 )

ライセンス: Link先を確認
Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin(参考訳) 3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。 単眼3d検出は、双眼視やlidarに依存する従来の設定と比較して経済的な解決策として近年注目が集まっているが、それでも不十分な結果をもたらす。 本稿では,まずこの問題を体系的に研究し,現状の単眼的3d検出問題をインスタンス深さ推定問題として単純化できることを示す。 しかし、近年の手法では、異なる物体間の幾何学的関係を無視しながら、孤立したインスタンスや画素に基づいて深度を直接推定する手法が提案されている。 そこで,予測対象に対して幾何関係グラフを構築し,そのグラフを用いて深度推定を行う。 この不正確な設定では、各インスタンスの事前の深さ推定が不正確なため、不確実性を捉える確率的表現が組み込まれている。 自信のある予測を識別し、さらに奥行きの伝播を導く重要な指標を提供する。 基本概念の単純さにもかかわらず,本手法はKITTIとnuScenesベンチマークの大幅な改善を実現し,リアルタイムの効率を保ちながら,すべての単眼視のみの手法から第1位を獲得している。 コードとモデルはhttps://github.com/o pen-mmlab/mmdetectio n3dでリリースされる。

3D object detection is an important capability needed in various practical applications such as driver assistance systems. Monocular 3D detection, as an economical solution compared to conventional settings relying on binocular vision or LiDAR, has drawn increasing attention recently but still yields unsatisfactory results. This paper first presents a systematic study on this problem and observes that the current monocular 3D detection problem can be simplified as an instance depth estimation problem: The inaccurate instance depth blocks all the other 3D attribute predictions from improving the overall detection performance. However, recent methods directly estimate the depth based on isolated instances or pixels while ignoring the geometric relations across different objects, which can be valuable constraints as the key information about depth is not directly manifest in the monocular image. Therefore, we construct geometric relation graphs across predicted objects and use the graph to facilitate depth estimation. As the preliminary depth estimation of each instance is usually inaccurate in this ill-posed setting, we incorporate a probabilistic representation to capture the uncertainty. It provides an important indicator to identify confident predictions and further guide the depth propagation. Despite the simplicity of the basic idea, our method obtains significant improvements on KITTI and nuScenes benchmarks, achieving the 1st place out of all monocular vision-only methods while still maintaining real-time efficiency. Code and models will be released at https://github.com/o pen-mmlab/mmdetectio n3d.
翻訳日:2021-07-30 13:15:33 公開日:2021-07-29
# 特徴量認識型トランスファーアタック

Feature Importance-aware Transferable Adversarial Attacks ( http://arxiv.org/abs/2107.14185v1 )

ライセンス: Link先を確認
Zhibo Wang, Hengchang Guo, Zhifei Zhang, Wenxin Liu, Zhan Qin, Kui Ren(参考訳) 敵の例の転送性は未知のモデルを攻撃する上で重要であり、ブラックボックス攻撃のようなより実用的なシナリオでの敵の攻撃を容易にする。 既存の転送可能な攻撃は、画像中のオブジェクトの固有の特徴を意識せずに、特徴を無差別に歪曲してソースモデルの予測精度を低下させることによって、敵の例を作る傾向にある。 このようなブルート力劣化は、モデル固有の局所最適化を敵の例に導入し、転送可能性を制限する。 対照的に、モデル決定を一貫して支配する重要なオブジェクト認識機能を妨害する特徴重要度認識攻撃(FIA)を提案する。 より具体的には、元のクリーン画像のランダム変換のバッチで計算されたソースモデルの特徴マップに対して、勾配を平均する集計勾配を導入することで、特徴量の重要性を得る。 勾配は興味のある対象と強く相関し、そのような相関は異なるモデルにまたがる不変性を示す。 さらに、ランダム変換はオブジェクトの固有の特徴を保持し、モデル固有の情報を抑制する。 最後に、特徴の重要性は、重要な特徴を破壊し、より強い伝達可能性を達成するための敵の例を探すためのガイドとなる。 広範囲な実験的評価は、提案されたFIAの有効性と優れた性能、すなわち、通常訓練されたモデルに対して8.4%、防衛モデルに対して11.7%の改善効果を示す。 コードは、https://github.com/h cguoO0/FIAで入手できる。

Transferability of adversarial examples is of central importance for attacking an unknown model, which facilitates adversarial attacks in more practical scenarios, e.g., blackbox attacks. Existing transferable attacks tend to craft adversarial examples by indiscriminately distorting features to degrade prediction accuracy in a source model without aware of intrinsic features of objects in the images. We argue that such brute-force degradation would introduce model-specific local optimum into adversarial examples, thus limiting the transferability. By contrast, we propose the Feature Importance-aware Attack (FIA), which disrupts important object-aware features that dominate model decisions consistently. More specifically, we obtain feature importance by introducing the aggregate gradient, which averages the gradients with respect to feature maps of the source model, computed on a batch of random transforms of the original clean image. The gradients will be highly correlated to objects of interest, and such correlation presents invariance across different models. Besides, the random transforms will preserve intrinsic features of objects and suppress model-specific information. Finally, the feature importance guides to search for adversarial examples towards disrupting critical features, achieving stronger transferability. Extensive experimental evaluation demonstrates the effectiveness and superior performance of the proposed FIA, i.e., improving the success rate by 8.4% against normally trained models and 11.7% against defense models as compared to the state-of-the-art transferable attacks. Code is available at: https://github.com/h cguoO0/FIA
翻訳日:2021-07-30 13:15:09 公開日:2021-07-29
# 対実解析による人間の軌道予測

Human Trajectory Prediction via Counterfactual Analysis ( http://arxiv.org/abs/2107.14202v1 )

ライセンス: Link先を確認
Guangyi Chen, Junlong Li, Jiwen Lu, Jie Zhou(参考訳) 複雑な動的環境における人間の軌道予測は、自動運転車やインテリジェントロボットにおいて重要な役割を果たす。 既存のほとんどの手法は、歴史の軌跡や環境からの相互作用の手がかりから行動の手がかりによって将来の軌跡を予測することを学ぶ。 しかしながら、トレーニングとデプロイメント環境の固有のバイアスは無視される。 そこで本研究では, 予測軌跡と入力手がかりとの因果関係を解明し, 環境バイアスによる負の影響を軽減するために, 人間の軌道予測に対する反実解析手法を提案する。 まず,歴史軌跡,未来軌跡,環境相互作用を考慮した軌跡予測のための因果グラフを構築した。 そして、軌道自体に対する反事実的介入を構築することにより、環境から軌道への推論を遮断する。 最後に,実例と反実例の軌跡を比較し,環境バイアスの影響を緩和し,軌跡の強調を行う。 反事実分析はプラグアンドプレイモジュールであり,rnn および cnn ベースの任意のベースライン予測手法に適用可能である。 提案手法は,異なる基準線に対する一貫した改善を実現し,公共歩行者軌道予測ベンチマークの最先端結果を得る。

Forecasting human trajectories in complex dynamic environments plays a critical role in autonomous vehicles and intelligent robots. Most existing methods learn to predict future trajectories by behavior clues from history trajectories and interaction clues from environments. However, the inherent bias between training and deployment environments is ignored. Hence, we propose a counterfactual analysis method for human trajectory prediction to investigate the causality between the predicted trajectories and input clues and alleviate the negative effects brought by environment bias. We first build a causal graph for trajectory forecasting with history trajectory, future trajectory, and the environment interactions. Then, we cut off the inference from environment to trajectory by constructing the counterfactual intervention on the trajectory itself. Finally, we compare the factual and counterfactual trajectory clues to alleviate the effects of environment bias and highlight the trajectory clues. Our counterfactual analysis is a plug-and-play module that can be applied to any baseline prediction methods including RNN- and CNN-based ones. We show that our method achieves consistent improvement for different baselines and obtains the state-of-the-art results on public pedestrian trajectory forecasting benchmarks.
翻訳日:2021-07-30 13:14:42 公開日:2021-07-29
# 分布識別によるパーソナライズされた軌道予測

Personalized Trajectory Prediction via Distribution Discrimination ( http://arxiv.org/abs/2107.14204v1 )

ライセンス: Link先を確認
Guangyi Chen, Junlong Li, Nuoxing Zhou, Liangliang Ren, Jiwen Lu(参考訳) 軌道予測は、多様性と精度の両方で将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。 本稿では,潜在的な分布を識別し,パーソナライズされた動作パターンを予測するDisDis(Disdis)手法を提案する。 それぞれの人の動作パターンが習慣によってパーソナライズされていることに動機づけられ、disdisは潜伏分布を学習し、異なる動きパターンを表現し、対比的な識別によって最適化する。 この分布判別により、潜伏分布はより差別的になる。 本手法は,既存のマルチモーダル確率予測モデルをプラグアンドプレイモジュールとして統合することで,より識別的な潜在分布を学習できる。 さらに, 潜在分布を評価するために, ソートされた確率の最小距離を累積計算する, 確率累積最小距離(PCMD)曲線を提案する。 ETHおよびUCYデータセットの実験結果から,本手法の有効性が示された。

Trajectory prediction is confronted with the dilemma to capture the multi-modal nature of future dynamics with both diversity and accuracy. In this paper, we present a distribution discrimination (DisDis) method to predict personalized motion patterns by distinguishing the potential distributions. Motivated by that the motion pattern of each person is personalized due to his/her habit, our DisDis learns the latent distribution to represent different motion patterns and optimize it by the contrastive discrimination. This distribution discrimination encourages latent distributions to be more discriminative. Our method can be integrated with existing multi-modal stochastic predictive models as a plug-and-play module to learn the more discriminative latent distribution. To evaluate the latent distribution, we further propose a new metric, probability cumulative minimum distance (PCMD) curve, which cumulatively calculates the minimum distance on the sorted probabilities. Experimental results on the ETH and UCY datasets show the effectiveness of our method.
翻訳日:2021-07-30 13:14:23 公開日:2021-07-29
# セマンティックセグメンテーションのための高効率ピラミッド変換器

A Unified Efficient Pyramid Transformer for Semantic Segmentation ( http://arxiv.org/abs/2107.14209v1 )

ライセンス: Link先を確認
Fangrui Zhu, Yi Zhu, Li Zhang, Chongruo Wu, Yanwei Fu, Mu Li(参考訳) セマンティクスのセグメンテーションは、複雑なシーンにおけるコンテキストモデリングの難しさと境界に沿ったクラス混乱のため、難しい問題である。 ほとんどの文献は、オープンワールドのシナリオでは一般化できない、コンテキストモデリングや境界の洗練に焦点を当てている。 本研究では,コンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトを分割する統一フレームワーク(UN-EPT)を提案する。 我々はまず,効率的なコンテキストモデリングのためのトランスフォーマーに基づくアテンション機構を組み込むために,スパースサンプリング戦略を適用した。 さらに、境界精細のための画像の詳細をキャプチャするために、別個の空間枝を導入する。 モデル全体をエンドツーエンドでトレーニングすることができる。 メモリフットプリントの少ないセマンティクスセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。 コードはまもなくリリースされる。

Semantic segmentation is a challenging problem due to difficulties in modeling context in complex scenes and class confusions along boundaries. Most literature either focuses on context modeling or boundary refinement, which is less generalizable in open-world scenarios. In this work, we advocate a unified framework(UN-EPT) to segment objects by considering both context information and boundary artifacts. We first adapt a sparse sampling strategy to incorporate the transformer-based attention mechanism for efficient context modeling. In addition, a separate spatial branch is introduced to capture image details for boundary refinement. The whole model can be trained in an end-to-end manner. We demonstrate promising performance on three popular benchmarks for semantic segmentation with low memory footprint. Code will be released soon.
翻訳日:2021-07-30 13:14:06 公開日:2021-07-29
# HAFLO: フェデレートロジスティック回帰のためのGPUベースのアクセラレーション

HAFLO: GPU-Based Acceleration for Federated Logistic Regression ( http://arxiv.org/abs/2107.13797v1 )

ライセンス: Link先を確認
Xiaodian Cheng, Wanhang Lu, Xinyang Huang, Shuihai Hu and Kai Chen(参考訳) 近年,統合学習(FL)は分散型協調学習シナリオのサポートに広く応用されている。 既存のFLモデルの中で、フェデレートロジスティック回帰(FLR)は広く使われている統計モデルであり、様々な産業で使われている。 データセキュリティとユーザのプライバシを確保するため、FLRは同型暗号化(HE)を活用して、異なる協力団体間で交換されたデータを保護する。 しかし、大きな計算オーバーヘッド(暗号化データに対するデータの暗号化/復号化と計算コスト)を導入し、最終的にはシステム全体のパフォーマンスボトルネックとなる。 本稿では,FLRの性能向上を目的としたGPUベースのHAFLOを提案する。 HAFLOの中核となる考え方は、FLRが使用する性能クリティカルなホモモルフィック演算子(HO)の集合をまとめ、ストレージ、IO、計算の最適化を通じてこれらの演算子の実行を高速化することである。 予備的な結果は、一般的なFLフレームワークであるFATE上の加速度が、異種LRの49.9$\times$スピードアップと同種LRの88.4$\times$を達成していることを示している。

In recent years, federated learning (FL) has been widely applied for supporting decentralized collaborative learning scenarios. Among existing FL models, federated logistic regression (FLR) is a widely used statistic model and has been used in various industries. To ensure data security and user privacy, FLR leverages homomorphic encryption (HE) to protect the exchanged data among different collaborative parties. However, HE introduces significant computational overhead (i.e., the cost of data encryption/decryptio n and calculation over encrypted data), which eventually becomes the performance bottleneck of the whole system. In this paper, we propose HAFLO, a GPU-based solution to improve the performance of FLR. The core idea of HAFLO is to summarize a set of performance-critical homomorphic operators (HO) used by FLR and accelerate the execution of these operators through a joint optimization of storage, IO, and computation. The preliminary results show that our acceleration on FATE, a popular FL framework, achieves a 49.9$\times$ speedup for heterogeneous LR and 88.4$\times$ for homogeneous LR.
翻訳日:2021-07-30 13:13:15 公開日:2021-07-29
# 深層学習におけるクラス不均衡と概念複雑性の複合効果について

On the combined effect of class imbalance and concept complexity in deep learning ( http://arxiv.org/abs/2107.14194v1 )

ライセンス: Link先を確認
Kushankur Ghosh, Colin Bellinger, Roberto Corizzo, Bartosz Krawczyk, Nathalie Japkowicz(参考訳) 構造的概念の複雑さ、クラス重なり、データ不足は、クラス不均衡条件下での分類器の性能に影響を与える最も重要な要素である。 これらの効果が2000年代初頭に明らかにされたとき、証明された分類器は、ディープラーニングのアプローチのカテゴリではなく、古典派に属していた。 ディープラーニングは、古典的機械学習に根ざしており、批判的な応用環境での利用が始まっているため、彼らが過去20年間、古典的機械学習と戦ってきた課題に、いかにうまく対応できるかを体系的に評価することが重要である。 本研究の目的は,従来,古典的機械学習システムにとって困難であった設定における深層学習システムの挙動を調べ,その奥行きがそのような設定の資産であるかどうかを明らかにすることである。 人工的および実世界のイメージデータセット(MNIST Fashion, CIFAR-10)の結果は、これらの設定がディープラーニングシステムでは難しいままであり、より深いアーキテクチャは構造的概念の複雑さに寄与するが、単純な人工ドメインでは重複しない。 データ不足も深いレイヤによって克服されない。 実世界の画像ドメインでは、オーバーフィッティングが人工ドメインよりも大きな関心事となるが、より深いアーキテクチャの利点は明らかではない。

Structural concept complexity, class overlap, and data scarcity are some of the most important factors influencing the performance of classifiers under class imbalance conditions. When these effects were uncovered in the early 2000s, understandably, the classifiers on which they were demonstrated belonged to the classical rather than Deep Learning categories of approaches. As Deep Learning is gaining ground over classical machine learning and is beginning to be used in critical applied settings, it is important to assess systematically how well they respond to the kind of challenges their classical counterparts have struggled with in the past two decades. The purpose of this paper is to study the behavior of deep learning systems in settings that have previously been deemed challenging to classical machine learning systems to find out whether the depth of the systems is an asset in such settings. The results in both artificial and real-world image datasets (MNIST Fashion, CIFAR-10) show that these settings remain mostly challenging for Deep Learning systems and that deeper architectures seem to help with structural concept complexity but not with overlap challenges in simple artificial domains. Data scarcity is not overcome by deeper layers, either. In the real-world image domains, where overfitting is a greater concern than in the artificial domains, the advantage of deeper architectures is less obvious: while it is observed in certain cases, it is quickly cancelled as models get deeper and perform worse than their shallower counterparts.
翻訳日:2021-07-30 13:12:54 公開日:2021-07-29
# 計算協調型ゲームai設計ツールの設計駆動要件

Design-Driven Requirements for Computationally Co-Creative Game AI Design Tools ( http://arxiv.org/abs/2107.13738v1 )

ライセンス: Link先を確認
Nathan Partlan, Erica Kleinman, Jim Howe, Sabbir Ahmad, Stacy Marsella, Magy Seif El-Nasr(参考訳) ゲームAIデザイナは、AIキャラクタ、ゲームワールド、プレイヤー間の複雑なインタラクションを管理しながら、設計ビジョンを達成する必要がある。 しかし第一に、aiとhciの研究者は要求を収集し、効果的な共同創造ツールを構築するために設計ヒューリスティックスを決定する必要がある。 本稿では,ゲームai設計者のワークフロー,目標,期待を分類し,分析する参加型デザイン研究について述べる。 我々は,ゲームai設計と共同創造ツールの設計との深いつながりを実証し,今後の共同創造ツール研究開発への示唆を示す。

Game AI designers must manage complex interactions between the AI character, the game world, and the player, while achieving their design visions. Computational co-creativity tools can aid them, but first, AI and HCI researchers must gather requirements and determine design heuristics to build effective co-creative tools. In this work, we present a participatory design study that categorizes and analyzes game AI designers' workflows, goals, and expectations for such tools. We evince deep connections between game AI design and the design of co-creative tools, and present implications for future co-creativity tool research and development.
翻訳日:2021-07-30 13:12:12 公開日:2021-07-29
# 深層埋め込みによる病理組織像の類似度測定

A Similarity Measure of Histopathology Images by Deep Embeddings ( http://arxiv.org/abs/2107.13703v1 )

ライセンス: Link先を確認
Mehdi Afshari, H.R. Tizhoosh(参考訳) 病理組織学 デジタルスキャンは、ピクセルレベルで貴重な情報を含む大きな画像である。 これらの画像のコンテンツベース比較は難しい課題である。 本研究では,高解像度ギガピクセル病理像に対するコンテントベース類似度尺度を提案する。 提案された類似度尺度は、行列に類似したコサインベクトルの拡張である。 各画像は、有意義な量の情報(つまり十分な組織を含む)を持つ同サイズのパッチに分割される。 この類似性は、4つの異なる倍率(1x, 2.5x, 5x, 10x)で事前訓練された深層モデルの最後のプール層のパッチレベルの深い埋め込みの抽出によって測定される。 さらに、より高速な測定のために、埋め込み削減について検討する。 最後に,提案手法を評価するため,画像検索手法を実装した。 その結果, スライドラベルの類似度は最大精度93.18\%であり, トップ5検索では5倍であることがわかった。

Histopathology digital scans are large-size images that contain valuable information at the pixel level. Content-based comparison of these images is a challenging task. This study proposes a content-based similarity measure for high-resolution gigapixel histopathology images. The proposed similarity measure is an expansion of cosine vector similarity to a matrix. Each image is divided into same-size patches with a meaningful amount of information (i.e., contained enough tissue). The similarity is measured by the extraction of patch-level deep embeddings of the last pooling layer of a pre-trained deep model at four different magnification levels, namely, 1x, 2.5x, 5x, and 10x magnifications. In addition, for faster measurement, embedding reduction is investigated. Finally, to assess the proposed method, an image search method is implemented. Results show that the similarity measure represents the slide labels with a maximum accuracy of 93.18\% for top-5 search at 5x magnification.
翻訳日:2021-07-30 13:11:59 公開日:2021-07-29
# 悪性・良性縦隔病変の鑑別のための3次元畳み込みニューラルネットワークを用いた内胚葉超音波像の解釈

The interpretation of endobronchial ultrasound image using 3D convolutional neural network for differentiating malignant and benign mediastinal lesions ( http://arxiv.org/abs/2107.13820v1 )

ライセンス: Link先を確認
Ching, Kai Lin, Shao, Hua Wu, Jerry Chang, Yun, Chien Cheng(参考訳) 本研究の目的は,3次元畳み込みニューラルネットワークを用いた気管支内超音波画像による悪性,良性縦隔病変の鑑別である。 前報と比較して,提案手法はノイズに耐性があり,EBUSビデオの様々な画像特徴と時空間的特徴を融合させることができる。 気管支内超音波ガイド下経気管支針吸引術(EBUS-TBNA)は胸腔内リンパ節の診断ツールである。 外科医は、手術中にグレースケールモード、ドップラーモード、エラストグラフィーを用いて病変の特徴を観察することができる。 ビデオ形式でEBUSデータを処理し、複数のイメージングモードの特徴を適切に統合するために、時系列3次元畳み込みニューラルネットワーク(3D CNN)を用いて時空間の特徴を学習し、各イメージングモードを融合させる様々なアーキテクチャを設計した。 本モデル(res3d_ude)は, トレーニングデータとしてグレースケールモード, ドップラーモード, エラストグラフィを用い, 精度82.00%, 曲線下領域(auc)0.83。 従来との比較では,術中記録した映像を直接トレーニング・検証データとして用いたが,手作業による選択は行わず,臨床応用は容易であった。 さらに、3D CNNで設計されたモデルは、時空間の特徴を効果的に学習し、精度を向上させることができる。 将来的には,検査期間中にスライス採取対象病変を迅速かつ正確に発見し,良性病変のスライス数を減少させ,検査時間を短縮するモデルが用いられるかもしれない。

The purpose of this study is to differentiate malignant and benign mediastinal lesions by using the three-dimensional convolutional neural network through the endobronchial ultrasound (EBUS) image. Compared with previous study, our proposed model is robust to noise and able to fuse various imaging features and spatiotemporal features of EBUS videos. Endobronchial ultrasound-guided transbronchial needle aspiration (EBUS-TBNA) is a diagnostic tool for intrathoracic lymph nodes. Physician can observe the characteristics of the lesion using grayscale mode, doppler mode, and elastography during the procedure. To process the EBUS data in the form of a video and appropriately integrate the features of multiple imaging modes, we used a time-series three-dimensional convolutional neural network (3D CNN) to learn the spatiotemporal features and design a variety of architectures to fuse each imaging mode. Our model (Res3D_UDE) took grayscale mode, Doppler mode, and elastography as training data and achieved an accuracy of 82.00% and area under the curve (AUC) of 0.83 on the validation set. Compared with previous study, we directly used videos recorded during procedure as training and validation data, without additional manual selection, which might be easier for clinical application. In addition, model designed with 3D CNN can also effectively learn spatiotemporal features and improve accuracy. In the future, our model may be used to guide physicians to quickly and correctly find the target lesions for slice sampling during the inspection process, reduce the number of slices of benign lesions, and shorten the inspection time.
翻訳日:2021-07-30 13:11:46 公開日:2021-07-29
# 条件付き生成逆数ネットワークを用いたディクソンMRIにおける無脂肪水分離

Swap-Free Fat-Water Separation in Dixon MRI using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2107.14175v1 )

ライセンス: Link先を確認
Nicolas Basty, Marjola Thanaj, Madeleine Cule, Elena P. Sorokin, Yi Liu, Jimmy D. Bell, E. Louise Thomas, and Brandon Whitcher(参考訳) ディクソンMRIは体組成研究に広く用いられている。 大規模な全身ボリュームに関連する現在の処理方法は、スキャナ上での脂肪-水分離中にアーチファクトに時間を要するため、分析が困難である。 最も一般的な人工物は脂肪水スワップであり、ラベルはボクセルレベルで逆転している。 研究者にとって、交換されたデータ(一般的に約10%)を捨てることが一般的であり、無駄になり、意図しない偏見につながる。 英国バイオバンクは、Dixon MRIを10万人以上の参加者で買収する。 検出されていない場合、エラーは腹部臓器のセグメンテーションなどのプロセスに伝播し、集団分析の結果を希薄化する。 脂肪と水チャネルを正確に分離する高速で堅牢な方法が必要であることは明らかである。 本稿では,条件付き生成型adversarial networkを用いたスタイル転送に基づく手法を提案する。 また、ジェネレータモデルのための新しいディクソン損失関数も導入する。 イギリスのバイオバンクDixon MRIのデータを用いて、我々のモデルは、人工物のない高度に正確な脂肪と水チャネルを予測することができる。 モデルでは, 単一入力 (相) または二重入力 (相) を用いて, 脂肪と水チャネルを分離し, 後者が改良された結果を示す。 提案手法は, 脂肪水交換による視覚的検査やデータ廃棄の必要性をなくし, ディクソンmriを用いたより高速かつ正確な体組成解析を可能にする。

Dixon MRI is widely used for body composition studies. Current processing methods associated with large whole-body volumes are time intensive and prone to artifacts during fat-water separation performed on the scanner, making the data difficult to analyse. The most common artifact are fat-water swaps, where the labels are inverted at the voxel level. It is common for researchers to discard swapped data (generally around 10%), which can be wasteful and lead to unintended biases. The UK Biobank is acquiring Dixon MRI for over 100,000 participants, and thousands of swaps will occur. If those go undetected, errors will propagate into processes such as abdominal organ segmentation and dilute the results in population-based analyses. There is a clear need for a fast and robust method to accurately separate fat and water channels. In this work we propose such a method based on style transfer using a conditional generative adversarial network. We also introduce a new Dixon loss function for the generator model. Using data from the UK Biobank Dixon MRI, our model is able to predict highly accurate fat and water channels that are free from artifacts. We show that the model separates fat and water channels using either single input (in-phase) or dual input (in-phase and opposed-phase), with the latter producing improved results. Our proposed method enables faster and more accurate downstream analysis of body composition from Dixon MRI in population studies by eliminating the need for visual inspection or discarding data due to fat-water swaps.
翻訳日:2021-07-30 13:11:18 公開日:2021-07-29
# タスク実行監視における視覚異常検出

Using Visual Anomaly Detection for Task Execution Monitoring ( http://arxiv.org/abs/2107.14206v1 )

ライセンス: Link先を確認
Santosh Thoduka and Juergen Gall and Paul G. Pl\"oger(参考訳) ロボットが障害を検出し、対応するためには、実行監視が不可欠である。 与えられたタスクのすべての障害を列挙することは不可能であるため、実行中の視覚異常を検出するためにタスクの実行を成功させることから学習する。 本手法は,カメラやロボットの身体の動きを含むタスクの実行中に発生する動作を予測することを学ぶ。 確率的u-netアーキテクチャは光流の予測に使われ、ロボットの運動学と3dモデルはカメラと体の動きのモデル化に使用される。 観測された動きと予測された動きの誤差を用いて異常スコアを算出する。 本手法は,本棚に本を置くロボットのデータセットを用いて評価し,本棚の落下,カメラの閉塞,ロボットの乱れなどの異常を含む。 カメラと体の動きのモデリングは,学習に基づく光学的フロー予測に加えて,受信機動作特性曲線0.752から0.804の領域,高精度リコール曲線0.467から0.549の領域の改善をもたらすことがわかった。

Execution monitoring is essential for robots to detect and respond to failures. Since it is impossible to enumerate all failures for a given task, we learn from successful executions of the task to detect visual anomalies during runtime. Our method learns to predict the motions that occur during the nominal execution of a task, including camera and robot body motion. A probabilistic U-Net architecture is used to learn to predict optical flow, and the robot's kinematics and 3D model are used to model camera and body motion. The errors between the observed and predicted motion are used to calculate an anomaly score. We evaluate our method on a dataset of a robot placing a book on a shelf, which includes anomalies such as falling books, camera occlusions, and robot disturbances. We find that modeling camera and body motion, in addition to the learning-based optical flow prediction, results in an improvement of the area under the receiver operating characteristic curve from 0.752 to 0.804, and the area under the precision-recall curve from 0.467 to 0.549.
翻訳日:2021-07-30 13:10:54 公開日:2021-07-29
# ロバストポイントクラウドセグメンテーションのためのノイズラベルによる学習

Learning with Noisy Labels for Robust Point Cloud Segmentation ( http://arxiv.org/abs/2107.14230v1 )

ライセンス: Link先を確認
Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao(参考訳) ポイントクラウドセグメンテーションは3Dの基本的なタスクである。 深層ネットワークのパワーによるポイントクラウドセグメンテーションの最近の進歩にもかかわらず、クリーンラベルの仮定に基づく現在のディープラーニング手法はノイズのあるラベルで失敗する可能性がある。 しかし、オブジェクトクラスのラベルはしばしば実世界のポイントクラウドデータセットで誤ってラベル付けされる。 本稿では,PNAL(Point Noise-Adaptive Learning)フレームワークを提案することにより,この問題の解決をリードする。 我々のPNALは、画像タスクにおける既存のノイズキャンバス法と比較してノイズレートブラインドであり、点群固有の空間変動ノイズレート問題に対処する。 具体的には,各点の履歴予測に基づいて,信頼度の高いラベルを得るための新しいポイントワイド信頼選択を提案する。 隣接点相関を考慮に入れた最適なラベルを生成するための投票戦略により,新しいクラスタワイズラベル補正を提案する。 我々は,PNALが合成および実世界の雑音データセットに与える影響を実証するために,広範な実験を行った。 特に60\%の対称雑音ラベルであっても、提案手法はPNALを使わずにベースラインよりもはるかに優れた結果が得られ、完全にクリーンなデータセットで訓練された理想的な上限値に匹敵する。 さらに、我々は、厳密な実験と将来の研究のために、人気のあるが騒がしい実世界のシーンデータセットScanNetV2のテストセットを完全に再ラベルした。 私たちのコードとデータは \url{https://shuquanye.co m/PNAL_website/} で公開されます。

Point cloud segmentation is a fundamental task in 3D. Despite recent progress on point cloud segmentation with the power of deep networks, current deep learning methods based on the clean label assumptions may fail with noisy labels. Yet, object class labels are often mislabeled in real-world point cloud datasets. In this work, we take the lead in solving this issue by proposing a novel Point Noise-Adaptive Learning (PNAL) framework. Compared to existing noise-robust methods on image tasks, our PNAL is noise-rate blind, to cope with the spatially variant noise rate problem specific to point clouds. Specifically, we propose a novel point-wise confidence selection to obtain reliable labels based on the historical predictions of each point. A novel cluster-wise label correction is proposed with a voting strategy to generate the best possible label taking the neighbor point correlations into consideration. We conduct extensive experiments to demonstrate the effectiveness of PNAL on both synthetic and real-world noisy datasets. In particular, even with $60\%$ symmetric noisy labels, our proposed method produces much better results than its baseline counterpart without PNAL and is comparable to the ideal upper bound trained on a completely clean dataset. Moreover, we fully re-labeled the test set of a popular but noisy real-world scene dataset ScanNetV2 to make it clean, for rigorous experiment and future research. Our code and data will be available at \url{https://shuquanye.co m/PNAL_website/}.
翻訳日:2021-07-30 13:10:34 公開日:2021-07-29
# 超アプリケーション環境における不正検出のための関係グラフニューラルネットワーク

Relational Graph Neural Networks for Fraud Detection in a Super-Appe nvironment ( http://arxiv.org/abs/2107.13673v1 )

ライセンス: Link先を確認
Jaime D. Acevedo-Viloria, Luisa Roa, Soji Adeshina, Cesar Charalla Olazo, Andr\'es Rodr\'iguez-Rey, Jose Alberto Ramos, Alejandro Correa-Bahnsen(参考訳) 大規模なデジタルプラットフォームは、さまざまなタイプのユーザインタラクションをキャプチャする環境を作成し、これらの関係は不正検出問題に対する新たな情報源を提供する。 本稿では,スーパーアプリケーションの金融サービスにおける不正行為防止のための関係グラフ畳み込みネットワーク手法の枠組みを提案する。 この目的のために,我々はこのフレームワークを,ユーザ,デバイス,クレジットカードの異なる異種グラフに適用し,最終的にグラフニューラルネットワークの解釈可能性アルゴリズムを用いて,ユーザの分類タスクに最も重要な関係性を決定する。 以上の結果から,スーパーアプリの代替データと,それらの高い接続性にあるインタラクションを利用するモデルを考えると,さらに価値が増すことが示され,より優れた意思決定や不正検出戦略に活用できることを示す。

Large digital platforms create environments where different types of user interactions are captured, these relationships offer a novel source of information for fraud detection problems. In this paper we propose a framework of relational graph convolutional networks methods for fraudulent behaviour prevention in the financial services of a Super-App. To this end, we apply the framework on different heterogeneous graphs of users, devices, and credit cards; and finally use an interpretability algorithm for graph neural networks to determine the most important relations to the classification task of the users. Our results show that there is an added value when considering models that take advantage of the alternative data of the Super-App and the interactions found in their high connectivity, further proofing how they can leverage that into better decisions and fraud detection strategies.
翻訳日:2021-07-30 13:09:37 公開日:2021-07-29
# 転送学習を用いたマルウェア分類

Malware Classification Using Transfer Learning ( http://arxiv.org/abs/2107.13743v1 )

ライセンス: Link先を確認
Hikmat Farhat and Veronica Rammouz(参考訳) インターネット上のデバイス数の増加に伴い、マルウェアは影響を受けるデバイスだけでなく、そのデバイスを使ってインターネットエコシステムへの攻撃を開始する能力にも脅威をもたらす。 マルウェアの迅速な分類は、その脅威に対処する重要なツールである。 分類において成功したアプローチの1つは、マルウェアの画像とディープラーニングに基づくものである。 多くのディープラーニングアーキテクチャは非常に正確だが、トレーニングには通常長い時間がかかる。 本研究では、トランスファー学習の文脈で、複数のよく知られた、事前学習されたディープネットワークアーキテクチャで実験を行う。 ほぼ全員が、非常に短い訓練期間でマルウェアを正確に分類している。

With the rapid growth of the number of devices on the Internet, malware poses a threat not only to the affected devices but also their ability to use said devices to launch attacks on the Internet ecosystem. Rapid malware classification is an important tools to combat that threat. One of the successful approaches to classification is based on malware images and deep learning. While many deep learning architectures are very accurate they usually take a long time to train. In this work we perform experiments on multiple well known, pre-trained, deep network architectures in the context of transfer learning. We show that almost all them classify malware accurately with a very short training period.
翻訳日:2021-07-30 13:09:25 公開日:2021-07-29
# 産業応用における予測モデル管理のための技術基盤の概念

Concept for a Technical Infrastructure for Management of Predictive Models in Industrial Applications ( http://arxiv.org/abs/2107.13821v1 )

ライセンス: Link先を確認
Florian Bachinger, Gabriel Kronberger(参考訳) 生成およびデプロイされた予測モデルと機械学習ワークフローの複雑さの増加に伴い、データサイエンティストのタスクをサポートするために、いわゆるモデル管理システムが必要です。 本稿では,このようなモデル管理システムの技術的概念について述べる。 このコンセプトには、データのバージョニングストレージ、さまざまな機械学習アルゴリズムのサポート、モデルの微調整、その後のモデルのデプロイ、デプロイ後のモデルパフォーマンスの監視が含まれる。 私たちはこの概念を、当社の業界アプリケーションケースに起因するモデルライフサイクル要件に密接に焦点を合わせながら、マシンラーニングのすべてのアプリケーションに関連する重要な機能を一般化します。

With the increasing number of created and deployed prediction models and the complexity of machine learning workflows we require so called model management systems to support data scientists in their tasks. In this work we describe our technological concept for such a model management system. This concept includes versioned storage of data, support for different machine learning algorithms, fine tuning of models, subsequent deployment of models and monitoring of model performance after deployment. We describe this concept with a close focus on model lifecycle requirements stemming from our industry application cases, but generalize key features that are relevant for all applications of machine learning.
翻訳日:2021-07-30 13:09:17 公開日:2021-07-29
# 多地点PV電力予測のための時空間グラフニューラルネットワーク

Spatio-temporal graph neural networks for multi-site PV power forecasting ( http://arxiv.org/abs/2107.13875v1 )

ライセンス: Link先を確認
Jelena Simeunovi\'c, Baptiste Schubnel, Pierre-Jean Alet and Rafael E. Carrillo(参考訳) 電力網の運転には,時間分解能と空間分解能による太陽発電の正確な予測が不可欠である。 しかし、機械学習と数値天気予報(NWP)を組み合わせた最先端のアプローチは、粗い解像度を持つ。 本稿では,グラフ信号処理の視点と多地点太陽光発電(PV)生成時系列をグラフ上の信号として捉え,その時空間依存性を把握し,空間的および時間的解像度の予測を行う。 グラフ畳み込み長短期メモリ(GCLSTM)とグラフ畳み込みトランスフォーマー(GCTrafo)モデルと呼ばれる,決定論的多地点PV予測のための2つの新しいグラフニューラルネットワークモデルを提案する。 これらの手法は生産データのみに依存し、PVシステムが仮想気象観測所の密集したネットワークを提供するという直感を利用する。 提案手法は, 1 台の実 pv システムからの生産データ, 2 台のスイスで配布された 1000 台の pv システムをシミュレートした2 台のデータセットで1年間評価した。 提案手法は6時間前の予測地平線に対する最先端のマルチサイト予測手法より優れている。 さらに,提案手法は,nwpをインプットとする最先端のシングルサイトメソッドを最大4時間先行する。

Accurate forecasting of solar power generation with fine temporal and spatial resolution is vital for the operation of the power grid. However, state-of-the-art approaches that combine machine learning with numerical weather predictions (NWP) have coarse resolution. In this paper, we take a graph signal processing perspective and model multi-site photovoltaic (PV) production time series as signals on a graph to capture their spatio-temporal dependencies and achieve higher spatial and temporal resolution forecasts. We present two novel graph neural network models for deterministic multi-site PV forecasting dubbed the graph-convolutional long short term memory (GCLSTM) and the graph-convolutional transformer (GCTrafo) models. These methods rely solely on production data and exploit the intuition that PV systems provide a dense network of virtual weather stations. The proposed methods were evaluated in two data sets for an entire year: 1) production data from 304 real PV systems, and 2) simulated production of 1000 PV systems, both distributed over Switzerland. The proposed models outperform state-of-the-art multi-site forecasting methods for prediction horizons of six hours ahead. Furthermore, the proposed models outperform state-of-the-art single-site methods with NWP as inputs on horizons up to four hours ahead.
翻訳日:2021-07-30 13:09:07 公開日:2021-07-29
# Bellamy: コンテキストを越えた分散データフロージョブのパフォーマンスモデルの使用

Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across Contexts ( http://arxiv.org/abs/2107.13921v1 )

ライセンス: Link先を確認
Dominik Scheinert, Lauritz Thamsen, Houkun Zhu, Jonathan Will, Alexander Acker, Thorsten Wittkopp, Odej Kao(参考訳) 分散データフローシステムは、スケーラブルなデータ分析にクラスタを利用することができる。 しかし、処理ジョブに適したクラスタリソースを選択するのは簡単ではないことが多い。 具体的なジョブの履歴実行に基づいてトレーニングされたパフォーマンスモデルは、このような状況では有効であるが、通常は特定のジョブ実行コンテキスト(例えば、)に縛られる。 ノードタイプ、ソフトウェアバージョン、ジョブパラメータ) 数少ない考慮された入力パラメータのため。 わずかなコンテキスト変更であっても、そのようなサポートモデルの再トレーニングが必要であり、関連するコンテキストからの過去の実行データから利益を得ることはできない。 本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。 これにより、ジョブ実行のコンテキストをキャプチャできる。 さらに、bellamyは2段階モデリングアプローチを実現している。 まず、一般的なモデルは、特定のスケーラブルな分析アルゴリズムのために利用可能なすべてのデータに基づいてトレーニングされます。 その後、具体的コンテキストの利用可能なデータに基づいて、特定の状況に対して汎用モデルを最適化する。 我々は,異なる環境で実行されるさまざまなデータフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価する。

Distributed dataflow systems enable the use of clusters for scalable data analytics. However, selecting appropriate cluster resources for a processing job is often not straightforward. Performance models trained on historical executions of a concrete job are helpful in such situations, yet they are usually bound to a specific job execution context (e.g. node type, software versions, job parameters) due to the few considered input parameters. Even in case of slight context changes, such supportive models need to be retrained and cannot benefit from historical execution data from related contexts. This paper presents Bellamy, a novel modeling approach that combines scale-outs, dataset sizes, and runtimes with additional descriptive properties of a dataflow job. It is thereby able to capture the context of a job execution. Moreover, Bellamy is realizing a two-step modeling approach. First, a general model is trained on all the available data for a specific scalable analytics algorithm, hereby incorporating data from different contexts. Subsequently, the general model is optimized for the specific situation at hand, based on the available data for the concrete context. We evaluate our approach on two publicly available datasets consisting of execution data from various dataflow jobs carried out in different environments, showing that Bellamy outperforms state-of-the-art methods.
翻訳日:2021-07-30 13:08:44 公開日:2021-07-29
# Tianshou: 高度にモジュール化された深層強化学習ライブラリ

Tianshou: a Highly Modularized Deep Reinforcement Learning Library ( http://arxiv.org/abs/2107.14171v1 )

ライセンス: Link先を確認
Jiayi Weng, Huayu Chen, Dong Yan, Kaichao You, Alexis Duburcq, Minghao Zhang, Hang Su, Jun Zhu(参考訳) 我々は,pytorchをバックエンドとする深層強化学習(drl)のための高度にモジュール化されたpythonライブラリであるtianshouを提案する。 Tianshouは、一般的なRL実験を再現するビルディングブロックを提供することを目的としており、15以上の古典的アルゴリズムを簡潔にサポートしている。 関連研究の促進とTianhouの信頼性を証明するため、TianhouのMuJoCo環境ベンチマークをリリースし、9つの古典的アルゴリズムと9/13のMujocoタスクを最先端のパフォーマンスでカバーした。 私たちはTianshouをhttps://github.com/t hu-ml/tianshou/でオープンソース化しました。

We present Tianshou, a highly modularized python library for deep reinforcement learning (DRL) that uses PyTorch as its backend. Tianshou aims to provide building blocks to replicate common RL experiments and has officially supported more than 15 classic algorithms succinctly. To facilitate related research and prove Tianshou's reliability, we release Tianshou's benchmark of MuJoCo environments, covering 9 classic algorithms and 9/13 Mujoco tasks with state-of-the-art performance. We open-sourced Tianshou at https://github.com/t hu-ml/tianshou/, which has received over 3k stars and become one of the most popular PyTorch-based DRL libraries.
翻訳日:2021-07-30 13:08:26 公開日:2021-07-29
# 機械学習を用いたソーラーオフグリッドシステムフィールドデータからのバッテリー寿命予測

Predicting battery end of life from solar off-grid system field data using machine learning ( http://arxiv.org/abs/2107.13856v1 )

ライセンス: Link先を確認
Antti Aitio and David A. Howey(参考訳) 何百万人もの人々が電気にアクセスできない。 分散型太陽熱システムは、二酸化炭素排出や大気汚染を回避しながらこれに対処する上で鍵となるが、比較的高いコストと、タイムリーな予防的維持を妨げる農村部によって妨げられている。 運用データからバッテリの正確な診断と寿命予測により、ユーザエクスペリエンスが向上し、コストが削減される。 しかし、制御された検証テストと可変データの品質の欠如は、既存のラボベースのテクニックが機能しないことを意味する。 ソーラー接続鉛酸電池1027台を400~760日、合計6億2000万行で稼働させ、健康診断にスケール可能な確率的機械学習手法を適用した。 終末期の正確な予測は73%で,8週間前であり,失敗時点では82%まで上昇した。 この研究は、"ビッグデータ"技術を用いて既存の測定値から健康を推定する機会を強調し、追加の機器を使わずに、寿命を延ばし、現実世界のアプリケーションの性能を向上させる。

Hundreds of millions of people lack access to electricity. Decentralised solar-battery systems are key for addressing this whilst avoiding carbon emissions and air pollution, but are hindered by relatively high costs and rural locations that inhibit timely preventative maintenance. Accurate diagnosis of battery health and prediction of end of life from operational data improves user experience and reduces costs. But lack of controlled validation tests and variable data quality mean existing lab-based techniques fail to work. We apply a scaleable probabilistic machine learning approach to diagnose health in 1027 solar-connected lead-acid batteries, each running for 400-760 days, totalling 620 million data rows. We demonstrate 73% accurate prediction of end of life, eight weeks in advance, rising to 82% at the point of failure. This work highlights the opportunity to estimate health from existing measurements using `big data' techniques, without additional equipment, extending lifetime and improving performance in real-world applications.
翻訳日:2021-07-30 13:08:12 公開日:2021-07-29
# (参考訳) 信頼度校正のためのエネルギーベースオープンワールド不確実性モデリング [全文訳有]

Energy-Based Open-World Uncertainty Modeling for Confidence Calibration ( http://arxiv.org/abs/2107.12628v2 )

ライセンス: CC BY 4.0
Yezhen Wang, Bo Li, Tong Che, Kaiyang Zhou, Ziwei Liu, Dongsheng Li(参考訳) 信頼性校正は、機械学習システムによる決定の信頼性において非常に重要である。 しかし、ディープニューラルネットワークに基づく識別的分類器は、分類精度の真の正しさの可能性を反映しない過信予測を生成するためにしばしば批判される。 このような不確実性をモデル化できないのは、softmaxのクローズドワールドの性質に主に起因していると主張する: クロスエントロピー損失によって訓練されたモデルは、高い確率で、入力を$k$事前定義されたカテゴリの1つに分類しなければならない。 この問題に対処するために、我々は初めてオープンワールドの不確実性のモデリングを余剰次元として組み込んだ新しい$k$+1-way softmax定式法を提案する。 従来の$K$-wayの分類課題の学習と不確実性をモデル化する余剰次元を統一するために、我々は新しいエネルギーベースの目的関数を提案し、さらに、そのような目的を最適化することが本質的に余剰次元に限界データ分布を捕捉させることを理論的に証明する。 EOW-Softmax (Energy-based Open-World Softmax) は, 従来の信頼性校正手法よりも優れていることを示す。

Confidence calibration is of great importance to the reliability of decisions made by machine learning systems. However, discriminative classifiers based on deep neural networks are often criticized for producing overconfident predictions that fail to reflect the true correctness likelihood of classification accuracy. We argue that such an inability to model uncertainty is mainly caused by the closed-world nature in softmax: a model trained by the cross-entropy loss will be forced to classify input into one of $K$ pre-defined categories with high probability. To address this problem, we for the first time propose a novel $K$+1-way softmax formulation, which incorporates the modeling of open-world uncertainty as the extra dimension. To unify the learning of the original $K$-way classification task and the extra dimension that models uncertainty, we propose a novel energy-based objective function, and moreover, theoretically prove that optimizing such an objective essentially forces the extra dimension to capture the marginal data distribution. Extensive experiments show that our approach, Energy-based Open-World Softmax (EOW-Softmax), is superior to existing state-of-the-art methods in improving confidence calibration.
翻訳日:2021-07-30 11:11:10 公開日:2021-07-29
# (参考訳) 滑らかな1-wasserstein距離の極限分布理論とその応用

Limit Distribution Theory for the Smooth 1-Wasserstein Distance with Applications ( http://arxiv.org/abs/2107.13494v2 )

ライセンス: CC BY 4.0
Ritwik Sadhu and Ziv Goldfeld and Kengo Kato(参考訳) 滑らかな 1-wasserstein distance (swd) $w_1^\sigma$ は、ワッサーシュタイン構造を維持しながら経験的近似における次元の呪いを緩和する方法として最近提案されている。 実際、SWDはパラメトリック収束率を示し、古典的なワッサーシュタイン距離の計量と位相構造を継承する。 このように動機づけられた本研究は,経験値$w_1^\sigma$,ブートストラップ一貫性,濃度不等式,ベリー・エスセン型境界に対する高次元の極限分布結果を含む,swdの詳細な統計的研究を行っている。 導出非退化極限は、古典的な経験的 w_1$ と鋭く対照的であり、同様の結果が1次元の場合のみ知られている。 また、スムージングパラメータ$\sigma$が$n$にスケールされ、十分に遅いレートで$0$に収束するときに、漸近性を調べ、極限分布を特徴づける。 サンプル分布の次元性は、事前因子(すなわち定数)を通してのみ経験的なswd収束境界に入る。 我々は,この因子がスムースなパラメータと本質的な次元に依存していることの鋭い特徴を与える。 この結果は、古典的な$W_1$の新しい経験的収束率を本質的な次元で導き出すために用いられる。 極限分布理論の応用として、$W_1^\sigma$の下で二サンプル試験と最小距離推定(MDE)について検討する。 我々はSWDテストの漸近的妥当性を確立し、MDEでは測定可能性、ほぼ確実に収束し、最適推定器と対応する$W_1^\sigma$誤差の分布を制限する。 その結果,SWDは高次元の統計的学習や推論に適していることが示唆された。

The smooth 1-Wasserstein distance (SWD) $W_1^\sigma$ was recently proposed as a means to mitigate the curse of dimensionality in empirical approximation while preserving the Wasserstein structure. Indeed, SWD exhibits parametric convergence rates and inherits the metric and topological structure of the classic Wasserstein distance. Motivated by the above, this work conducts a thorough statistical study of the SWD, including a high-dimensional limit distribution result for empirical $W_1^\sigma$, bootstrap consistency, concentration inequalities, and Berry-Esseen type bounds. The derived nondegenerate limit stands in sharp contrast with the classic empirical $W_1$, for which a similar result is known only in the one-dimensional case. We also explore asymptotics and characterize the limit distribution when the smoothing parameter $\sigma$ is scaled with $n$, converging to $0$ at a sufficiently slow rate. The dimensionality of the sampled distribution enters empirical SWD convergence bounds only through the prefactor (i.e., the constant). We provide a sharp characterization of this prefactor's dependence on the smoothing parameter and the intrinsic dimension. This result is then used to derive new empirical convergence rates for classic $W_1$ in terms of the intrinsic dimension. As applications of the limit distribution theory, we study two-sample testing and minimum distance estimation (MDE) under $W_1^\sigma$. We establish asymptotic validity of SWD testing, while for MDE, we prove measurability, almost sure convergence, and limit distributions for optimal estimators and their corresponding $W_1^\sigma$ error. Our results suggest that the SWD is well suited for high-dimensional statistical learning and inference.
翻訳日:2021-07-30 10:56:52 公開日:2021-07-29
# より深くではなくより広く行く

Go Wider Instead of Deeper ( http://arxiv.org/abs/2107.11817v2 )

ライセンス: Link先を確認
Fuzhao Xue, Ziji Shi, Futao Wei, Yuxuan Lou, Yong Liu, Yang You(参考訳) トランスフォーマーは最近、様々なタスクで素晴らしい成果を上げています。 変圧器の有効性と効率をさらに向上させるため,(1)より訓練可能なパラメータに拡大し,(2)パラメータ共有によりより浅く,あるいは深度とともにモデルを圧縮する,という2つの既存の作業が検討されている。 しかし、大きなモデルは、訓練に利用可能なトークンが少ない場合、よくスケールせず、モデルが非常に大きい場合は高度な並列性が必要となる。 小型モデルは通常、表現力の喪失によりオリジナルのトランスモデルに比べて性能が劣る。 本稿では,トレーニング可能なパラメータの少ない性能を実現するために,より深く学習可能なパラメータを効率的にデプロイするフレームワークを提案する。 特に,フィードフォワードネットワーク(FFN)をMixix-of-experts(MoE )に置き換えることで,モデル幅を拡大する。 次に、各層正規化を用いて変換器ブロック間でMoE層を共有します。 このような配置は、様々な意味表現を変換する役割を担い、モデルをよりパラメータ効率よく効果的にする。 このフレームワークを評価するために、WideNetを設計し、ImageNet-1K上で評価する。 私たちの最良のモデルはViT(Vision Transformer)を1.46\%$、0.72 \times$トレーニング可能なパラメータで上回る。 0.46 \times$と0.13 \times$パラメータを使って、WideNetはViTとViT-MoEをそれぞれ0.83\%$と2.08\%$で上回ることができる。

The transformer has recently achieved impressive results on various tasks. To further improve the effectiveness and efficiency of the transformer, there are two trains of thought among existing works: (1) going wider by scaling to more trainable parameters; (2) going shallower by parameter sharing or model compressing along with the depth. However, larger models usually do not scale well when fewer tokens are available to train, and advanced parallelisms are required when the model is extremely large. Smaller models usually achieve inferior performance compared to the original transformer model due to the loss of representation power. In this paper, to achieve better performance with fewer trainable parameters, we propose a framework to deploy trainable parameters efficiently, by going wider instead of deeper. Specially, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). We then share the MoE layers across transformer blocks using individual layer normalization. Such deployment plays the role to transform various semantic representations, which makes the model more parameter-efficient and effective. To evaluate our framework, we design WideNet and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer (ViT) by $1.46\%$ with $0.72 \times$ trainable parameters. Using $0.46 \times$ and $0.13 \times$ parameters, our WideNet can still surpass ViT and ViT-MoE by $0.83\%$ and $2.08\%$, respectively.
翻訳日:2021-07-30 10:25:14 公開日:2021-07-29
# Slate Recommendationのためのリワード信号とランク信号の組み合わせ

Combining Reward and Rank Signals for Slate Recommendation ( http://arxiv.org/abs/2107.12455v2 )

ライセンス: Link先を確認
Imad Aouali, Sergey Ivanov, Mike Gartrell, David Rohde, Flavian Vasile, Victor Zaytsev, Diego Legrand(参考訳) 提案手法では,k個の推奨項目からなるコレクションやスレートをユーザに同時に提示するスレートレコメンデーションの問題を考える。 ユーザが推奨項目を見つけた場合、ユーザーはクリックし、レコメンダシステムはいくつかのフィードバックを受け取る。 推薦システムには2つの情報がある:スレートはクリックされたか? そしてもしスレートがクリックされたら、どのアイテムがクリックされたのか? (位) 本稿では,非パーソナライズスレート推薦のための報酬信号(reward model),ランク信号(rank model),あるいはその両方(full model)を組み込んだベイズモデルをいくつか定式化する。 本実験では, フルモデルの性能向上を解析し, カタログ内の製品数の増加やスレートサイズの増加に伴い, 誤差を著しく低減することを示した。

We consider the problem of slate recommendation, where the recommender system presents a user with a collection or slate composed of K recommended items at once. If the user finds the recommended items appealing then the user may click and the recommender system receives some feedback. Two pieces of information are available to the recommender system: was the slate clicked? (the reward), and if the slate was clicked, which item was clicked? (rank). In this paper, we formulate several Bayesian models that incorporate the reward signal (Reward model), the rank signal (Rank model), or both (Full model), for non-personalized slate recommendation. In our experiments, we analyze performance gains of the Full model and show that it achieves significantly lower error as the number of products in the catalog grows or as the slate size increases.
翻訳日:2021-07-30 10:24:17 公開日:2021-07-29