このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210722となっている論文です。

PDF登録状況(公開日: 20210722)

TitleAuthorsAbstract論文公表日・翻訳日
# 簡易型マルチモーダル事前学習モデルによる多段階事前学習

Multi-stage Pre-training over Simplified Multimodal Pre-training Models ( http://arxiv.org/abs/2107.14596v1 )

ライセンス: Link先を確認
Tongtong Liu and Fangxiang Feng and Xiaojie Wang(参考訳) LXMERTのようなマルチモーダル事前学習モデルは下流タスクにおいて優れた結果を得た。 しかし、現在の事前訓練されたモデルには大量のトレーニングデータが必要であり、モデルサイズが大きいため、低リソースの状況では適用が困難である。 事前トレーニングの少ないデータとモデルサイズを小さくするという前提で、より大きなモデルよりも類似またはより優れたパフォーマンスを得る方法が重要な問題となっている。 本稿では,テキストと画像の両方において,単語,句,文の粒度が異なる情報を段階的に事前学習するために,多段階事前学習(msp)手法を提案する。 また,限られたコーパスから多様な知識を効率的に獲得するために,異なる段階の情報粒度に適した事前学習タスクを複数設計した。 単純なlxmert (lxmert- s) は、元のlxmertモデルのパラメータが45.9%であり、元の事前トレーニングデータの11.76%がmsp法のテストベッドである。 実験の結果,全ての下流タスクにおいてlxmertモデルに匹敵する性能を得られ,画像テキスト検索タスクではlxmertモデルよりも優れていた。

Multimodal pre-training models, such as LXMERT, have achieved excellent results in downstream tasks. However, current pre-trained models require large amounts of training data and have huge model sizes, which make them difficult to apply in low-resource situations. How to obtain similar or even better performance than a larger model under the premise of less pre-training data and smaller model size has become an important problem. In this paper, we propose a new Multi-stage Pre-training (MSP) method, which uses information at different granularities from word, phrase to sentence in both texts and images to pre-train the model in stages. We also design several different pre-training tasks suitable for the information granularity in different stage in order to efficiently capture the diverse knowledge from a limited corpus. We take a Simplified LXMERT (LXMERT- S), which has only 45.9% parameters of the original LXMERT model and 11.76% of the original pre-training data as the testbed of our MSP method. Experimental results show that our method achieves comparable performance to the original LXMERT model in all downstream tasks, and even outperforms the original model in Image-Text Retrieval task.
翻訳日:2021-08-08 11:05:03 公開日:2021-07-22
# (参考訳) デザイナーがデザインできるAIアシスタントを目指して [全文訳有]

Toward AI Assistants That Let Designers Design ( http://arxiv.org/abs/2107.13074v1 )

ライセンス: CC BY 4.0
Sebastiaan De Peuter (1), Antti Oulasvirta (2), Samuel Kaski (1 and 3) ((1) Department of Computer Science, Aalto University, Finland, (2) Department of Communications and Networking, Aalto University, Finland, (3) Department of Computer Science, University of Manchester, UK)(参考訳) デザイナーを支援するAIを再考する必要がある。 デザイナーの創造性と問題解決を支援し、活用することで、自動化ではなく協力することを目指している。 このようなAIの課題は、デザイナの目標を推測し、不必要に破壊的になることなく支援する方法です。 私たちは、設計者の目標、推論、能力に関する推論を可能にする生成的ユーザモデルを中心に構築された、そのようなAIを作成するためのフレームワークとして、AI支援設計を提示します。

AI for supporting designers needs to be rethought. It should aim to cooperate, not automate, by supporting and leveraging the creativity and problem-solving of designers. The challenge for such AI is how to infer designers' goals and then help them without being needlessly disruptive. We present AI-assisted design: a framework for creating such AI, built around generative user models which enable reasoning about designers' goals, reasoning, and capabilities.
翻訳日:2021-08-01 12:11:53 公開日:2021-07-22
# ストックトレンド予測のための時間関係ハイパーグラフトリアテンションネットワーク

Temporal-Relational Hypergraph Tri-Attention Networks for Stock Trend Prediction ( http://arxiv.org/abs/2107.14033v1 )

ライセンス: Link先を確認
Chaoran Cui, Xiaojie Li, Juan Du, Chunyun Zhang, Xiushan Nie, Meng Wang, Yilong Yin(参考訳) 投資家が利益を上げるために重要な役割を担っているため、将来の株価動向を予測することは難しいが興味深い問題だ。 本稿では,ストックトレンド予測のための協調的時間関係モデリングフレームワークを提案する。 ストックの時間的ダイナミクスは、まず注意に基づくリカレントニューラルネットワークによって捉えられる。 そこで, 株式間の相互相関関係に依拠する既存研究とは違い, 株式は自然に集合グループとして結びついており, ハイパーグラフ構造を導入して, 業界長期化とファンド保有のストックグループワイドな関係を共同で特徴づけている。 hgtan (hypergraph tri-attention network) は, ハイパーグラフ畳み込みネットワークを階層的に構成するために提案されている。 このようにしてhgtanは、株式間の情報伝達におけるノード、ハイパーエッジ、ハイパーグラフの重要性を適応的に決定し、株式移動間の潜在的なシナジーを十分に活用することができる。 実世界のデータに対する大規模な実験は、我々のアプローチの有効性を示している。 また, 投資シミュレーションの結果から, より望ましいリスク調整リターンが達成できることが示唆された。 私たちの仕事のデータとコードはhttps://github.com/l ixiaojieff/hgtanでリリースされています。

Predicting the future price trends of stocks is a challenging yet intriguing problem given its critical role to help investors make profitable decisions. In this paper, we present a collaborative temporal-relational modeling framework for end-to-end stock trend prediction. The temporal dynamics of stocks is firstly captured with an attention-based recurrent neural network. Then, different from existing studies relying on the pairwise correlations between stocks, we argue that stocks are naturally connected as a collective group, and introduce the hypergraph structures to jointly characterize the stock group-wise relationships of industry-belonging and fund-holding. A novel hypergraph tri-attention network (HGTAN) is proposed to augment the hypergraph convolutional networks with a hierarchical organization of intra-hyperedge, inter-hyperedge, and inter-hypergraph attention modules. In this manner, HGTAN adaptively determines the importance of nodes, hyperedges, and hypergraphs during the information propagation among stocks, so that the potential synergies between stock movements can be fully exploited. Extensive experiments on real-world data demonstrate the effectiveness of our approach. Also, the results of investment simulation show that our approach can achieve a more desirable risk-adjusted return. The data and codes of our work have been released at https://github.com/l ixiaojieff/HGTAN.
翻訳日:2021-08-01 11:05:15 公開日:2021-07-22
# (参考訳) 新規スパン測度、スパン集合とその応用 [全文訳有]

Novel Span Measure, Spanning Sets and Applications ( http://arxiv.org/abs/2107.12178v1 )

ライセンス: CC BY 4.0
Nidhika Yadav(参考訳) 自然言語処理問題領域で発生する不確実性に対処するために,ラフセットに基づくスパンニングセットが最近提案されている。 本稿では,上限近似を用いた新しいスパン測度を提案する。 この論文の重要な貢献は、スパン集合とスパン集合の別の不確実性尺度を提案することである。 まず,境界領域の代わりに上近似を用いた計算スパンの新たな定義を提案する。 これは、計算上の近似が計算境界領域よりもずっと便利である場合に有用である。 次に,新しいスパンの性質と,それ以前のスパン測度との関係について述べる。 第3に,提案するスパン測度を活用できる適用領域を提案する。

Rough Set based Spanning Sets were recently proposed to deal with uncertainties arising in the problem in domain of natural language processing problems. This paper presents a novel span measure using upper approximations. The key contribution of this paper is to propose another uncertainty measure of span and spanning sets. Firstly, this paper proposes a new definition of computing span which use upper approximation instead of boundary regions. This is useful in situations where computing upper approximations are much more convenient that computing boundary region. Secondly, properties of novel span and relation with earlier span measure are discussed. Thirdly, the paper presents application areas where the proposed span measure can be utilized.
翻訳日:2021-07-28 14:22:53 公開日:2021-07-22
# 深層学習を用いた無線信号分類器の会員推測攻撃と防御

Membership Inference Attack and Defense for Wireless Signal Classifiers with Deep Learning ( http://arxiv.org/abs/2107.12173v1 )

ライセンス: Link先を確認
Yi Shi and Yalin E. Sagduyu(参考訳) 無線信号分類器からプライベート情報を漏らすために、オーバー・ザ・エア・メンバシップ推論攻撃(MIA)が提示される。 機械学習(ML)は、PHY層認証などの無線信号を分類する強力な手段を提供する。 敵機械学習攻撃として、MIAは、ターゲット分類器の訓練データに関心の信号が使われたかどうかを推定する。 このプライベート情報には、波形、チャネル、デバイスの特徴が含まれており、もし漏洩したら、敵が基盤となるMLモデルの脆弱性(例えば、PHY層認証に侵入する)を特定するために悪用することができる。 オーバー・ザ・エアMIAの課題の1つは、受信した信号と、その結果、相手のRF指紋と意図する受信機がチャンネル条件の相違により異なることである。 そのため、相手はまずスペクトルを観察して代理分類器を構築し、次にこの分類器上でブラックボックスMIAを起動する。 MIAの結果は、敵がターゲット分類器を構築するために使用する信号(およびおそらくは無線およびチャネル情報)を確実に推測できることを示している。 そのため、影MIAモデルを構築し、敵を騙すことにより、MIAに対する積極的な防御を開発する。 この防御はMIA精度を低減し、無線信号分類器からの情報漏洩を防止する。

An over-the-air membership inference attack (MIA) is presented to leak private information from a wireless signal classifier. Machine learning (ML) provides powerful means to classify wireless signals, e.g., for PHY-layer authentication. As an adversarial machine learning attack, the MIA infers whether a signal of interest has been used in the training data of a target classifier. This private information incorporates waveform, channel, and device characteristics, and if leaked, can be exploited by an adversary to identify vulnerabilities of the underlying ML model (e.g., to infiltrate the PHY-layer authentication). One challenge for the over-the-air MIA is that the received signals and consequently the RF fingerprints at the adversary and the intended receiver differ due to the discrepancy in channel conditions. Therefore, the adversary first builds a surrogate classifier by observing the spectrum and then launches the black-box MIA on this classifier. The MIA results show that the adversary can reliably infer signals (and potentially the radio and channel information) used to build the target classifier. Therefore, a proactive defense is developed against the MIA by building a shadow MIA model and fooling the adversary. This defense can successfully reduce the MIA accuracy and prevent information leakage from the wireless signal classifier.
翻訳日:2021-07-27 15:44:04 公開日:2021-07-22
# (参考訳) vismca: 誤分類訂正と分析のためのビジュアル分析システム。 VAST Challenge 2020, Mini-Challenge 2 Award: Honorable Mention for Detailed Analysis of Patterns of Misclassification [全文訳有]

VisMCA: A Visual Analytics System for Misclassification Correction and Analysis. VAST Challenge 2020, Mini-Challenge 2 Award: Honorable Mention for Detailed Analysis of Patterns of Misclassification ( http://arxiv.org/abs/2107.11181v1 )

ライセンス: CC BY 4.0
Huyen N. Nguyen, Jake Gonzalez, Jian Guo, Ngan V.T. Nguyen, and Tommy Dang(参考訳) 本稿では、ML結果の理解を深め、誤分類の修正におけるユーザの能力を増強し、VAST Challenge 2020 Mini-Challenge 2に応答して、基盤となるパターンの分析を提供するインタラクティブビジュアル分析システムVisMCAを提案する。 VisMCAは、実績の追跡を促進し、オブジェクト検出結果の包括的なビューを提供し、再ラベルの緩和と、将来のトレーニングのための信頼性の高い修正データを生成する。 我々のソリューションは、視覚分析に関する複数の分析的な見解を実装し、基礎となるパターン発見の深い洞察を提供する。

This paper presents VisMCA, an interactive visual analytics system that supports deepening understanding in ML results, augmenting users' capabilities in correcting misclassification, and providing an analysis of underlying patterns, in response to the VAST Challenge 2020 Mini-Challenge 2. VisMCA facilitates tracking provenance and provides a comprehensive view of object detection results, easing re-labeling, and producing reliable, corrected data for future training. Our solution implements multiple analytical views on visual analysis to offer a deep insight for underlying pattern discovery.
翻訳日:2021-07-27 02:31:18 公開日:2021-07-22
# (参考訳) Federated Learning Versus Classical Machine Learning: 収束比較 [全文訳有]

Federated Learning Versus Classical Machine Learning: A Convergence Comparison ( http://arxiv.org/abs/2107.10976v1 )

ライセンス: CC BY 4.0
Muhammad Asad, Ahmed Moustafa, and Takayuki Ito(参考訳) 過去数十年間、機械学習は大規模アプリケーションのためのデータ処理に革命をもたらした。 同時に、トレンドアプリケーションにおけるプライバシーの脅威の増加は、古典的なデータトレーニングモデルの再設計につながった。 特に、古典的な機械学習は、データを収集する集中的なデータトレーニングを伴い、トレーニングプロセス全体が中央サーバで実行される。 かなりの収束にもかかわらず、このトレーニングには、セントラルクラウドサーバと共有する際に、参加者のデータに対するいくつかのプライバシーの脅威が伴う。 この目的のために、連合学習は分散データトレーニングよりも重要になっている。 特に、フェデレーション学習によって、参加者は中央クラウドサーバに機密情報を公開することなく、ローカルデータ上でローカルモデルを協調的にトレーニングすることができる。 本稿では、ロジスティック回帰MNISTデータセットと画像分類-CIFAR-10データセットの2つの公開データセット上で、古典的機械学習とフェデレーション学習の収束比較を行う。 シミュレーションの結果,フェデレーション学習は,参加者の匿名性を維持しつつ,限られたコミュニケーションラウンド内で高い収束を実現することが示された。 この研究がそのメリットを示し、連合学習が広く実施されることを願っている。

In the past few decades, machine learning has revolutionized data processing for large scale applications. Simultaneously, increasing privacy threats in trending applications led to the redesign of classical data training models. In particular, classical machine learning involves centralized data training, where the data is gathered, and the entire training process executes at the central server. Despite significant convergence, this training involves several privacy threats on participants' data when shared with the central cloud server. To this end, federated learning has achieved significant importance over distributed data training. In particular, the federated learning allows participants to collaboratively train the local models on local data without revealing their sensitive information to the central cloud server. In this paper, we perform a convergence comparison between classical machine learning and federated learning on two publicly available datasets, namely, logistic-regression- MNIST dataset and image-classification -CIFAR-10 dataset. The simulation results demonstrate that federated learning achieves higher convergence within limited communication rounds while maintaining participants' anonymity. We hope that this research will show the benefits and help federated learning to be implemented widely.
翻訳日:2021-07-27 02:27:38 公開日:2021-07-22
# (参考訳) 局所sgdは多項式時間における過パラメータニューラルネットワークを最適化する

Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time ( http://arxiv.org/abs/2107.10868v1 )

ライセンス: CC BY 4.0
Yuyang Deng, Mehrdad Mahdavi(参考訳) 本稿では,局所(S)GD (FedAvg) が多項式時間でRectified Linear Unit (ReLU) 活性化機能を持つ2層ニューラルネットワークを最適化できることを証明する。 通信効率のよい分散最適化における一般滑らかな関数の最適化に関する局所SGDの確立された収束理論にもかかわらず、非滑らかなReLUネットワークへの収束は、完全に理論的理解を欠いている。 滑らかな関数に対する多くの局所SGD解析で用いられる重要な性質は勾配リプシッツ性であり、局所モデルの勾配が平均モデルから遠く離れないようにしている。 しかし、このまともな性質は、非スムースreluアクティベーション関数を持つネットワークでは保持されない。 reluネットワークは勾配リプシッツ特性を認めていないが,局所モデルにおける勾配と平均モデルとの差は,局所sgdのダイナミクスの下ではそれほど変化しない。 我々は広範な実験を通じて理論結果を検証する。 この研究は、非滑らかな関数に対する局所SGDの収束を示す最初のものであり、ディープニューラルネットワークのフェデレートトレーニングの最適化理論に光を当てる。

In this paper we prove that Local (S)GD (or FedAvg) can optimize two-layer neural networks with Rectified Linear Unit (ReLU) activation function in polynomial time. Despite the established convergence theory of Local SGD on optimizing general smooth functions in communication-effici ent distributed optimization, its convergence on non-smooth ReLU networks still eludes full theoretical understanding. The key property used in many Local SGD analysis on smooth function is gradient Lipschitzness, so that the gradient on local models will not drift far away from that on averaged model. However, this decent property does not hold in networks with non-smooth ReLU activation function. We show that, even though ReLU network does not admit gradient Lipschitzness property, the difference between gradients on local models and average model will not change too much, under the dynamics of Local SGD. We validate our theoretical results via extensive experiments. This work is the first to show the convergence of Local SGD on non-smooth functions, and will shed lights on the optimization theory of federated training of deep neural networks.
翻訳日:2021-07-27 02:19:14 公開日:2021-07-22
# (参考訳) multiclass vs binary differentially private pac learning [全文訳有]

Multiclass versus Binary Differentially Private PAC Learning ( http://arxiv.org/abs/2107.10870v1 )

ライセンス: CC BY 4.0
Mark Bun, Marco Gaboardi, Satchit Sivakumar(参考訳) 多クラス差分プライベートPAC学習からバイナリプライベートPAC学習への一般化について述べる。 この変換を最近提案したバイナリプライベートPAC学習者に適用し,多クラスLittlestone次元への多項式依存とクラス数への多対数依存を有するサンプル複雑性を持つプライベートマルチクラス学習者を得る。 これにより、以前の研究からの学習者に対する両方のパラメータへの依存が指数関数的に改善される。 我々の証明はベンダビッドらの仕事で定義される$\Psi$-dimensionの概念を拡張している。 JCSS '95]をオンライン設定に適用し、その汎用性を探求する。

We show a generic reduction from multiclass differentially private PAC learning to binary private PAC learning. We apply this transformation to a recently proposed binary private PAC learner to obtain a private multiclass learner with sample complexity that has a polynomial dependence on the multiclass Littlestone dimension and a poly-logarithmic dependence on the number of classes. This yields an exponential improvement in the dependence on both parameters over learners from previous work. Our proof extends the notion of $\Psi$-dimension defined in work of Ben-David et al. [JCSS '95] to the online setting and explores its general properties.
翻訳日:2021-07-27 02:17:37 公開日:2021-07-22
# (参考訳) 部分観測によるスパース解釈力学の発見 [全文訳有]

Discovering Sparse Interpretable Dynamics from Partial Observations ( http://arxiv.org/abs/2107.10879v1 )

ライセンス: CC BY 4.0
Peter Y. Lu, Joan Ari\~no, Marin Solja\v{c}i\'c(参考訳) 非線形力学系の制御方程式を同定することは、システムの物理的特徴を理解することと、利用可能なデータを超えてよく一般化された力学の正確なモデルを構築するために重要である。 状態再構成のためのエンコーダをスパースシンボルモデルと組み合わせ,部分的な観測のみを用いてこれらの支配方程式を発見する機械学習フレームワークを提案する。 実験の結果,本手法はシステム全体の再構築に成功し,様々なODEおよびPDEシステムの基盤となるダイナミクスを同定できることがわかった。

Identifying the governing equations of a nonlinear dynamical system is key to both understanding the physical features of the system and constructing an accurate model of the dynamics that generalizes well beyond the available data. We propose a machine learning framework for discovering these governing equations using only partial observations, combining an encoder for state reconstruction with a sparse symbolic model. Our tests show that this method can successfully reconstruct the full system state and identify the underlying dynamics for a variety of ODE and PDE systems.
翻訳日:2021-07-27 01:38:29 公開日:2021-07-22
# (参考訳) サイズは問題ではない:数十の分子に基づく物理・生化学的特性の予測 [全文訳有]

Size doesn't matter: predicting physico- or biochemical properties based on dozens of molecules ( http://arxiv.org/abs/2107.10882v1 )

ライセンス: CC BY 4.0
Kirill Karpov (1 and 2), Artem Mitrofanov (1 and 2), Vadim Korolev (1 and 2), Valery Tkachenko (2) ((1) Lomonosov Moscow State University, Department of Chemistry, Leninskie gory, 1 bld. 3, Moscow, Russia, (2) Science Data Software, LLC, 14909 Forest Landing Cir, Rockville, USA)(参考訳) 化学における機械学習の利用は一般的に行われている。 同時に、現代の機械学習手法の成功にもかかわらず、データの欠如は彼らの使用を制限する。 転送学習手法を使用することで、この問題が解決できる。 この方法論は、十分な量のデータに基づいて構築されたモデルが、訓練された化合物構造の一般的な特徴を捉え、データ不足でデータセット上でこれらの機能のさらなる再利用が、新しいモデルの品質を大幅に向上させると仮定する。 本稿では,グラフ畳み込みニューラルネットワークを用いた伝達学習を実現する,小さな有機分子に対するこのアプローチを開発した。 本論文は,データ不足を伴う対象特性のモデルの性能を著しく改善したことを示す。 また,データセット構成がモデル品質およびモデルの適用性ドメインに与える影響についても考察した。

The use of machine learning in chemistry has become a common practice. At the same time, despite the success of modern machine learning methods, the lack of data limits their use. Using a transfer learning methodology can help solve this problem. This methodology assumes that a model built on a sufficient amount of data captures general features of the chemical compound structure on which it was trained and that the further reuse of these features on a dataset with a lack of data will greatly improve the quality of the new model. In this paper, we develop this approach for small organic molecules, implementing transfer learning with graph convolutional neural networks. The paper shows a significant improvement in the performance of models for target properties with a lack of data. The effects of the dataset composition on model quality and the applicability domain of the resulting models are also considered.
翻訳日:2021-07-27 01:24:33 公開日:2021-07-22
# (参考訳) 自然勾配降下による構造的二階法 [全文訳有]

Structured second-order methods via natural gradient descent ( http://arxiv.org/abs/2107.10884v1 )

ライセンス: CC BY 4.0
Wu Lin, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 本稿では,構造化パラメータ空間上で自然勾配降下を行う新しい構造的二階法と構造的適応勾配法を提案する。 自然勾配降下は、勾配のない、適応勾配の、二階法といった多くの設定で新しいアルゴリズムを設計するための魅力的なアプローチである。 構造的手法は構造的不変性だけでなく、単純な表現も持つ。 最後に,決定論的非凸問題と深層学習問題の両方に対する提案手法の有効性を検証した。

In this paper, we propose new structured second-order methods and structured adaptive-gradient methods obtained by performing natural-gradient descent on structured parameter spaces. Natural-gradient descent is an attractive approach to design new algorithms in many settings such as gradient-free, adaptive-gradient, and second-order methods. Our structured methods not only enjoy a structural invariance but also admit a simple expression. Finally, we test the efficiency of our proposed methods on both deterministic non-convex problems and deep learning problems.
翻訳日:2021-07-27 01:13:54 公開日:2021-07-22
# (参考訳) 深層学習を用いたリモートイメージングによる発電所の分類 [全文訳有]

Power Plant Classification from Remote Imaging with Deep Learning ( http://arxiv.org/abs/2107.10894v1 )

ライセンス: CC BY 4.0
Michael Mommert, Linus Scheibenreif, Jo\"elle Hanna, Damian Borth(参考訳) 衛星リモートイメージングは、地球規模での土地利用パターンの詳細な研究を可能にする。 中高分解能リモートセンシング画像から産業用地の特徴を特定することにより、従来の土地利用分類の情報内容を改善する可能性を検討する。 本研究では,Sentinel-2画像データから異なるタイプの発電所を分類することに焦点を当てる。 ResNet-50ディープラーニングモデルを用いて、10種類の発電所タイプとバックグラウンドクラスを区別して平均精度90.0%を達成することができる。 さらに,火力発電プラントで使用される冷却機構を87.5%の精度で識別できる。 本研究では,Sentinel-2画像データからのエネルギー混合を質的に検討し,衛星画像から世界規模で産業現場の分類が可能であることを実証した。

Satellite remote imaging enables the detailed study of land use patterns on a global scale. We investigate the possibility to improve the information content of traditional land use classification by identifying the nature of industrial sites from medium-resolution remote sensing images. In this work, we focus on classifying different types of power plants from Sentinel-2 imaging data. Using a ResNet-50 deep learning model, we are able to achieve a mean accuracy of 90.0% in distinguishing 10 different power plant types and a background class. Furthermore, we are able to identify the cooling mechanisms utilized in thermal power plants with a mean accuracy of 87.5%. Our results enable us to qualitatively investigate the energy mix from Sentinel-2 imaging data, and prove the feasibility to classify industrial sites on a global scale from freely available satellite imagery.
翻訳日:2021-07-27 01:05:23 公開日:2021-07-22
# (参考訳) サブカテゴリ認識形状を用いたステレオ画像からの車両のポーズ推定と3次元再構成 [全文訳有]

Pose Estimation and 3D Reconstruction of Vehicles from Stereo-Images Using a Subcategory-Aware Shape Prior ( http://arxiv.org/abs/2107.10898v1 )

ライセンス: CC BY 4.0
Max Coenen and Franz Rottensteiner(参考訳) 物体の3d再構築は、移動ロボットや自律運転といったコンピュータビジョンの多くの重要な応用の前提条件である。 2次元投影から3次元オブジェクトを再構成する逆問題に対処するため、従来のオブジェクト知識を3次元モデルを確立し、2次元画像平面に整列させることで再構築アプローチに組み込むことが一般的な戦略である。 しかし,現在のアプローチは,3次元モデルと信頼性の高いアライメントのために,不適切な形状の先行と導出画像の不十分さによって制限されている。 本研究の目的は,画像から推定される異なる観察型を組み合わせることで,より洗練された形状から3次元物体の復元がいかに利益をもたらすかを示すことである。 本稿では,車両形状のより適切な規則化のために,車両種別予測を用いたサブカテゴリ認識型変形車両モデルを提案する。 車両のタイプと方向の予測を導出するためにマルチブランチcnnが提示される。 この情報は、モデルフィッティングの事前情報としても紹介される。 さらに、cnnは、モデルから画像への関連付けやモデルフィッティングに適した車両用キーポイントとワイヤフレームを抽出する。 ポーズ推定と再構成のタスクは、多目的確率モデルによって対処される。 先進的な形状の利点を示す2つの挑戦的な実世界のデータセットを用いて大規模な実験を行う。 車両ポーズ推定の最先端手法との比較により,提案手法がほぼ同等かそれ以上に機能し,車体復元のための形状先行モデルと確率モデルとの適合性を確認した。

The 3D reconstruction of objects is a prerequisite for many highly relevant applications of computer vision such as mobile robotics or autonomous driving. To deal with the inverse problem of reconstructing 3D objects from their 2D projections, a common strategy is to incorporate prior object knowledge into the reconstruction approach by establishing a 3D model and aligning it to the 2D image plane. However, current approaches are limited due to inadequate shape priors and the insufficiency of the derived image observations for a reliable alignment with the 3D model. The goal of this paper is to show how 3D object reconstruction can profit from a more sophisticated shape prior and from a combined incorporation of different observation types inferred from the images. We introduce a subcategory-aware deformable vehicle model that makes use of a prediction of the vehicle type for a more appropriate regularisation of the vehicle shape. A multi-branch CNN is presented to derive predictions of the vehicle type and orientation. This information is also introduced as prior information for model fitting. Furthermore, the CNN extracts vehicle keypoints and wireframes, which are well-suited for model-to-image association and model fitting. The task of pose estimation and reconstruction is addressed by a versatile probabilistic model. Extensive experiments are conducted using two challenging real-world data sets on both of which the benefit of the developed shape prior can be shown. A comparison to state-of-the-art methods for vehicle pose estimation shows that the proposed approach performs on par or better, confirming the suitability of the developed shape prior and probabilistic model for vehicle reconstruction.
翻訳日:2021-07-27 00:59:34 公開日:2021-07-22
# (参考訳) 変分ベイズ推論による条件およびラベルシフト下の領域一般化 [全文訳有]

Domain Generalization under Conditional and Label Shifts via Variational Bayesian Inference ( http://arxiv.org/abs/2107.10931v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Bo Hu, Linghao Jin, Xu Han, Fangxu Xing, Jinsong Ouyang, Jun Lu, Georges EL Fakhri, Jonghye Woo(参考訳) 本稿では,いくつかのラベル付きソースドメインを学習し,トレーニングでアクセス不能な対象ドメインに知識を転送するための,dg(domain generalization)アプローチを提案する。 固有条件とラベルのシフトを考えると、$p(x|y)$と$p(y)$のアライメントが期待できる。 しかし、広く使われているドメイン不変特徴学習(IFL)法は、限界概念シフト w.r.t の整合に依存する。 $p(x)$ は、$p(y)$ が領域間で不変であるという非現実的な仮定に基づいている。 そこで我々は条件分布アライメントw.r.tを強制する新しい変分ベイズ推論フレームワークを提案する。 $p(x|y)$ は、潜在空間における事前分布マッチングを経由し、辺ラベルシフト w.r.t を取る。 後方アライメントを考慮に入れると、$p(y)$になります。 各種ベンチマーク実験により,本フレームワークはラベルシフトに対して頑健であり,ドメイン間精度が大幅に向上し,従来のIRFよりも優れた性能が得られた。

In this work, we propose a domain generalization (DG) approach to learn on several labeled source domains and transfer knowledge to a target domain that is inaccessible in training. Considering the inherent conditional and label shifts, we would expect the alignment of $p(x|y)$ and $p(y)$. However, the widely used domain invariant feature learning (IFL) methods relies on aligning the marginal concept shift w.r.t. $p(x)$, which rests on an unrealistic assumption that $p(y)$ is invariant across domains. We thereby propose a novel variational Bayesian inference framework to enforce the conditional distribution alignment w.r.t. $p(x|y)$ via the prior distribution matching in a latent space, which also takes the marginal label shift w.r.t. $p(y)$ into consideration with the posterior alignment. Extensive experiments on various benchmarks demonstrate that our framework is robust to the label shift and the cross-domain accuracy is significantly improved, thereby achieving superior performance over the conventional IFL counterparts.
翻訳日:2021-07-26 23:00:47 公開日:2021-07-22
# (参考訳) FNetAR:自動回帰フーリエ変換によるトークンの混合 [全文訳有]

FNetAR: Mixing Tokens with Autoregressive Fourier Transforms ( http://arxiv.org/abs/2107.10932v1 )

ライセンス: CC BY 4.0
Tim Lou, Michael Park, Mohammad Ramezanali, Vincent Tang(参考訳) 本稿では、fnetアルゴリズムの自己回帰的一般化について検討し、標準トランスフォーマーアーキテクチャからの自己アテンション層をフーリエ変換に基づく自明なスパース一様サンプリング手順に置き換える。 wikitext-103ベンチマークを用いて、fnetarは、transformer-xlベースライン(24.2 ppl)に匹敵する因果的言語モデリングのタスクにおいて、最先端のパフォーマンス(25.8 ppl)を維持していることを実証した。 自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルでパラメータ還元に使用される可能性がある。

In this note we examine the autoregressive generalization of the FNet algorithm, in which self-attention layers from the standard Transformer architecture are substituted with a trivial sparse-uniformsampli ng procedure based on Fourier transforms. Using the Wikitext-103 benchmark, we demonstratethat FNetAR retains state-of-the-art performance (25.8 ppl) on the task of causal language modelingcompared to a Transformer-XL baseline (24.2 ppl) with only half the number self-attention layers,thus providing further evidence for the superfluity of deep neural networks with heavily compoundedattention mechanisms. The autoregressive Fourier transform could likely be used for parameterreduction on most Transformer-based time-series prediction models.
翻訳日:2021-07-26 22:45:09 公開日:2021-07-22
# (参考訳) 何を最適化していますか。 人的価値を考慮したレコメンダシステム [全文訳有]

What are you optimizing for? Aligning Recommender Systems with Human Values ( http://arxiv.org/abs/2107.10939v1 )

ライセンス: CC BY 4.0
Jonathan Stray, Ivan Vendrov, Jeremy Nixon, Steven Adler, Dylan Hadfield-Menell(参考訳) 本稿では,多様性,公平性,幸福感,無駄遣い,事実的正確性など,さまざまな人的価値を提供するために,真のレコメンデータシステムが修正された事例について述べる。 このことから、価値工学の現在の実践を識別する: 価値に基づくラベルを持つ人間が作成したデータから分類器を作成する。 これは様々な問題に対して実際に機能するが、問題は一度に一つに解決され、ユーザーや他の利害関係者が関与することはほとんどない。 代わりに、利害関係者から直接複雑な価値を学習できるアプローチのためのAIアライメント作業を検討し、アライメントの有用な測定方法、参加型設計と運用、インタラクティブな価値学習、情報に基づく熟考的判断の4つの主要な方向を特定します。

We describe cases where real recommender systems were modified in the service of various human values such as diversity, fairness, well-being, time well spent, and factual accuracy. From this we identify the current practice of values engineering: the creation of classifiers from human-created data with value-based labels. This has worked in practice for a variety of issues, but problems are addressed one at a time, and users and other stakeholders have seldom been involved. Instead, we look to AI alignment work for approaches that could learn complex values directly from stakeholders, and identify four major directions: useful measures of alignment, participatory design and operation, interactive value learning, and informed deliberative judgments.
翻訳日:2021-07-26 22:38:45 公開日:2021-07-22
# (参考訳) Ego-GNN: グラフニューラルネットワークにおけるエゴ構造の爆発 [全文訳有]

Ego-GNNs: Exploiting Ego Structures in Graph Neural Networks ( http://arxiv.org/abs/2107.10957v1 )

ライセンス: CC BY-SA 4.0
Dylan Sandfelder, Priyesh Vijayan, William L. Hamilton(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのディープラーニングフレームワークとして、目覚ましい成功を収めている。 しかしながら、GNNは木構造的帰納バイアスによって基本的に制限されている: WL-サブツリーのカーネルの定式化はGNNの表現能力の境界であり、多項式時間GNNはグラフ内の三角形を認識できない。 本稿では,egoグラフ上に定義された情報(すなわち各ノードを囲む誘導サブグラフ)を用いて,GNNメッセージパッシング操作を強化することを提案する。 我々はこれらのアプローチをEgo-GNNと呼び、Ego-GNNは標準のメッセージパスGNNよりも明らかに強力であることを示す。 特に、Ego-GNNは、実世界のグラフにおける推移性の優位性を考えると、閉三角形を認識することができることを示す。 また,多重グラフ畳み込みの一形態として,グラフ信号処理の観点からのアプローチを動機付けている。 合成データと実データを用いたノード分類の実験結果は,この手法による実現可能な性能向上を強調する。

Graph neural networks (GNNs) have achieved remarkable success as a framework for deep learning on graph-structured data. However, GNNs are fundamentally limited by their tree-structured inductive bias: the WL-subtree kernel formulation bounds the representational capacity of GNNs, and polynomial-time GNNs are provably incapable of recognizing triangles in a graph. In this work, we propose to augment the GNN message-passing operations with information defined on ego graphs (i.e., the induced subgraph surrounding each node). We term these approaches Ego-GNNs and show that Ego-GNNs are provably more powerful than standard message-passing GNNs. In particular, we show that Ego-GNNs are capable of recognizing closed triangles, which is essential given the prominence of transitivity in real-world graphs. We also motivate our approach from the perspective of graph signal processing as a form of multiplex graph convolution. Experimental results on node classification using synthetic and real data highlight the achievable performance gains using this approach.
翻訳日:2021-07-26 22:27:11 公開日:2021-07-22
# (参考訳) 高次元検閲分位回帰の推論

Inference for High Dimensional Censored Quantile Regression ( http://arxiv.org/abs/2107.10959v1 )

ライセンス: CC BY 4.0
Zhe Fei, Qi Zheng, Hyokyoung G. Hong, Yi Li(参考訳) 高次元の遺伝的バイオマーカーが利用可能であることから、これらの予測因子が患者生存に与える影響と適切な統計的推測を同定することに興味がある。 補償量子レグレッションは、共変量の不均一な効果が生存結果に与える影響を検出する強力なツールとして登場した。 我々の知る限り、検閲された量子レグレッションに対する高次元予測器の効果を推測する作業はほとんどない。 本稿では,数個の離散値ではなく,分位レベルの間隔における共変量-応答関係を調べる大域的検閲分位回帰(global censored quantile regression)の枠組みにおける全ての予測因子の推論手法を提案する。 提案手法は,マルチサンプル分割と変数選択に基づく低次元モデル推定の列を組み合わせたものである。 いくつかの正規性条件の下では、推定子は一貫性があり、漸近的に量子量レベルによってインデックスづけされたガウス過程に従う。 シミュレーション研究は,高次元環境において推定の不確かさを適切に定量化できることを示す。 肺癌の分子機構に関する疫学研究であるboston lung cancer survival cohortを用いて,肺癌経路に存在するsnpが患者の生存に及ぼす影響を解析した。

With the availability of high dimensional genetic biomarkers, it is of interest to identify heterogeneous effects of these predictors on patients' survival, along with proper statistical inference. Censored quantile regression has emerged as a powerful tool for detecting heterogeneous effects of covariates on survival outcomes. To our knowledge, there is little work available to draw inference on the effects of high dimensional predictors for censored quantile regression. This paper proposes a novel procedure to draw inference on all predictors within the framework of global censored quantile regression, which investigates covariate-response associations over an interval of quantile levels, instead of a few discrete values. The proposed estimator combines a sequence of low dimensional model estimates that are based on multi-sample splittings and variable selection. We show that, under some regularity conditions, the estimator is consistent and asymptotically follows a Gaussian process indexed by the quantile level. Simulation studies indicate that our procedure can properly quantify the uncertainty of the estimates in high dimensional settings. We apply our method to analyze the heterogeneous effects of SNPs residing in lung cancer pathways on patients' survival, using the Boston Lung Cancer Survival Cohort, a cancer epidemiology study on the molecular mechanism of lung cancer.
翻訳日:2021-07-26 22:18:22 公開日:2021-07-22
# 回帰・分類課題に対するパラメータ空間削減への局所的アプローチ

A local approach to parameter space reduction for regression and classification tasks ( http://arxiv.org/abs/2107.10867v1 )

ライセンス: Link先を確認
Francesco Romor and Marco Tezzele and Gianluigi Rozza(参考訳) しばしば、形状設計や代理モデルの定義を含む他の用途のために選択されるパラメータ空間は、目的の関数が非常に規則的またはよく振る舞うサブドメインを提示する。 したがって、これらのサブドメインに制限され、個別に研究すれば、より正確に近似することができる。 このアプローチの欠点は、いくつかのアプリケーションにおけるデータの不足の可能性にあるが、パラメータ空間次元と目的関数の複雑さを考慮したデータ量が適度に豊富である場合、分割または局所的な研究が有用である。 本研究では, 高精度な応答面設計のためのパラメータ空間のより効率的な次元削減を実現するために, 教師付きクラスタリング手法を用いて, アクティブ部分空間のシナジーを探索する, ローカルアクティブ部分空間 (LAS) と呼ばれる新しい手法を提案する。 また,局所活性部分空間情報を分類タスクに活用する手法を開発した。 この手法をパラメータ空間への前処理ステップ、あるいはベクトル出力の場合の出力空間として用いると、サロゲートモデリングの目的のために顕著な結果が得られる。

Frequently, the parameter space, chosen for shape design or other applications that involve the definition of a surrogate model, present subdomains where the objective function of interest is highly regular or well behaved. So, it could be approximated more accurately if restricted to those subdomains and studied separately. The drawback of this approach is the possible scarcity of data in some applications, but in those, where a quantity of data, moderately abundant considering the parameter space dimension and the complexity of the objective function, is available, partitioned or local studies are beneficial. In this work we propose a new method called local active subspaces (LAS), which explores the synergies of active subspaces with supervised clustering techniques in order to perform a more efficient dimension reduction in the parameter space for the design of accurate response surfaces. We also developed a procedure to exploit the local active subspace information for classification tasks. Using this technique as a preprocessing step onto the parameter space, or output space in case of vectorial outputs, brings remarkable results for the purpose of surrogate modelling.
翻訳日:2021-07-26 14:15:22 公開日:2021-07-22
# 積分定理について:モンテカルロ推定器と最適関数

On Integral Theorems: Monte Carlo Estimators and Optimal Functions ( http://arxiv.org/abs/2107.10947v1 )

ライセンス: Link先を確認
Nhat Ho and Stephen G. Walker(参考訳) 我々は、巡回関数とリーマン和近似積分定理に基づく積分定理のクラスを導入する。 フーリエ積分定理は、変換と逆変換の組み合わせとして導出され、特別な場合として現れる。 積分定理はモンテカルロ積分を通じて密度関数の自然な推定子を与える。 密度推定器の品質評価は、二乗積分を最小化する最適巡回関数を得るために用いられる。 この証明手法は、常微分方程式における変分的アプローチと複素解析におけるコーシー剰余定理に依存する。

We introduce a class of integral theorems based on cyclic functions and Riemann sums approximating integrals theorem. The Fourier integral theorem, derived as a combination of a transform and inverse transform, arises as a special case. The integral theorems provide natural estimators of density functions via Monte Carlo integration. Assessments of the quality of the density estimators can be used to obtain optimal cyclic functions which minimize square integrals. Our proof techniques rely on a variational approach in ordinary differential equations and the Cauchy residue theorem in complex analysis.
翻訳日:2021-07-26 14:15:03 公開日:2021-07-22
# 空間的・時間的不確実性を考慮した安定予測のためのバギング最適化動的モード分解(BOP-DMD)

Bagging, optimized dynamic mode decomposition (BOP-DMD) for robust, stable forecasting with spatial and temporal uncertainty-quantifi cation ( http://arxiv.org/abs/2107.10878v1 )

ライセンス: Link先を確認
Diya Sashidhar and J. Nathan Kutz(参考訳) 動的モード分解(DMD)は、時空間または時空間データのスナップショット上で最適な線形力学モデルを適応的に学習するための回帰フレームワークを提供する。 解が指数関数である線形モデル近似を生成するための様々な回帰手法が開発されている。 時空間データに対して、DMDは、その指数的/振動的挙動とともに、支配的なモーダル構造の形で低ランクかつ解釈可能なモデルを提供する。 しかし、DMDアルゴリズムの大多数は、ノイズの多いダイナミックスの測定からバイアス誤差を生じやすいため、モデル適合性の低下と不安定な予測能力に繋がる。 最適化されたdmdアルゴリズムは、可変射影最適化によりモデルバイアスを最小化し、予測能力の安定化に繋がる。 ここでは,一組のスナップショットを用いて最適化DMDモデルのアンサンブルを生成する統計的バッジ法を用いて,最適化DMDアルゴリズムを改良する。 これらのモデルの出力は、バッグング最適化された動的モード分解(BOP-DMD)を生成するために平均化される。 BOP-DMDは性能を向上するだけでなく、モデルを堅牢化し、空間的および時間的不確実性定量化(UQ)を提供する。 したがって、現在利用可能なDMDアルゴリズムとは異なり、BOP-DMDは確率的またはベイズ予測のための安定かつ堅牢なモデルを提供する。

Dynamic mode decomposition (DMD) provides a regression framework for adaptively learning a best-fit linear dynamics model over snapshots of temporal, or spatio-temporal, data. A diversity of regression techniques have been developed for producing the linear model approximation whose solutions are exponentials in time. For spatio-temporal data, DMD provides low-rank and interpretable models in the form of dominant modal structures along with their exponential/oscillat ory behavior in time. The majority of DMD algorithms, however, are prone to bias errors from noisy measurements of the dynamics, leading to poor model fits and unstable forecasting capabilities. The optimized DMD algorithm minimizes the model bias with a variable projection optimization, thus leading to stabilized forecasting capabilities. Here, the optimized DMD algorithm is improved by using statistical bagging methods whereby a single set of snapshots is used to produce an ensemble of optimized DMD models. The outputs of these models are averaged to produce a bagging, optimized dynamic mode decomposition (BOP-DMD). BOP-DMD not only improves performance, it also robustifies the model and provides both spatial and temporal uncertainty quantification (UQ). Thus unlike currently available DMD algorithms, BOP-DMD provides a stable and robust model for probabilistic, or Bayesian forecasting with comprehensive UQ metrics.
翻訳日:2021-07-26 14:13:03 公開日:2021-07-22
# 組立モデルとそれ以上の証明されたロバスト性について

On the Certified Robustness for Ensemble Models and Beyond ( http://arxiv.org/abs/2107.10873v1 )

ライセンス: Link先を確認
Zhuolin Yang, Linyi Li, Xiaojun Xu, Bhavya Kailkhura, Tao Xie, Bo Li(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)は敵の例に弱いことが示されている。 このような攻撃に対して防御するために、単一のMLモデルに対して経験的および理論的防御アプローチが広く研究されている。 本研究は、異なるアンサンブルプロトコルのロバスト性に関する十分かつ必要な条件とともに、アンサンブルmlモデルの認定ロバスト性を分析し、提供することを目的としている。 アンサンブルモデルは1つのモデルよりも頑丈に示されるが、驚くべきことに、標準的なアンサンブルモデルは1つのモデルに比べて限界的な改善しか得られない。 そこで,確率的に頑健なアンサンブルMLモデルを提供することを保証する条件を検討するために,モデルの平滑性仮定の下では,多角化勾配と大きな信頼率が十分かつ必要条件であることを示す。 次に,提案手法に基づく境界モデル・スムースネス解析を行う。 また,温和な条件下では,アンサンブルモデルが単一ベースモデルよりも高い信頼性のロバスト性が得られることも証明した。 理論的な知見にインスパイアされた本研究では,頑健なアンサンブルMLモデルを訓練するための軽量な多様性正規化訓練(DRT)を提案する。 我々のDRT拡張アンサンブルは、既存のシングルおよびアンサンブルMLモデルよりも高い信頼性のロバスト性を達成することができ、MNIST、CIFAR-10、ImageNetデータセット上で、最先端の認定L2-ロバスト性を示す。

Recent studies show that deep neural networks (DNN) are vulnerable to adversarial examples, which aim to mislead DNNs by adding perturbations with small magnitude. To defend against such attacks, both empirical and theoretical defense approaches have been extensively studied for a single ML model. In this work, we aim to analyze and provide the certified robustness for ensemble ML models, together with the sufficient and necessary conditions of robustness for different ensemble protocols. Although ensemble models are shown more robust than a single model empirically; surprisingly, we find that in terms of the certified robustness the standard ensemble models only achieve marginal improvement compared to a single model. Thus, to explore the conditions that guarantee to provide certifiably robust ensemble ML models, we first prove that diversified gradient and large confidence margin are sufficient and necessary conditions for certifiably robust ensemble models under the model-smoothness assumption. We then provide the bounded model-smoothness analysis based on the proposed Ensemble-before-Smoo thing strategy. We also prove that an ensemble model can always achieve higher certified robustness than a single base model under mild conditions. Inspired by the theoretical findings, we propose the lightweight Diversity Regularized Training (DRT) to train certifiably robust ensemble ML models. Extensive experiments show that our DRT enhanced ensembles can consistently achieve higher certified robustness than existing single and ensemble ML models, demonstrating the state-of-the-art certified L2-robustness on MNIST, CIFAR-10, and ImageNet datasets.
翻訳日:2021-07-26 14:04:24 公開日:2021-07-22
# ゲノム選択における資源配分への強化学習アプローチ

A reinforcement learning approach to resource allocation in genomic selection ( http://arxiv.org/abs/2107.10901v1 )

ライセンス: Link先を確認
Saba Moeinizade, Guiping Hu, Lizhi Wang(参考訳) ゲノミカル・セレクション(英: genomic selection、gs)は、植物育種者が新しい世代の種を交配し生産するために使用する技術である。 リソースの割り当てはGSの重要な要素である。 各選抜サイクルにおいて、ブリーダーは交配と次世代の育児親を生産するために予算配分の選択に直面している。 ai問題に対する強化学習の最近の進歩に触発されて,様々な世代にわたる限られた資源の割り当てを自動学習する強化学習ベースのアルゴリズムを開発した。 状態空間と行動空間を定義することにより,マルコフ決定過程(MDP)の枠組みにおける問題を数学的に定式化する。 状態空間の爆発を避けるため、資源と時間の間のトレードオフを定量化する整数線形プログラムが提案されている。 最後に, 行動-価値関数を推定する値関数近似法を提案し, 最適資源を求めるための欲望政策改善手法を考案する。 本研究では,実データを用いたケーススタディを用いて,遺伝的ゲイン向上における提案手法の有効性を実証する。

Genomic selection (GS) is a technique that plant breeders use to select individuals to mate and produce new generations of species. Allocation of resources is a key factor in GS. At each selection cycle, breeders are facing the choice of budget allocation to make crosses and produce the next generation of breeding parents. Inspired by recent advances in reinforcement learning for AI problems, we develop a reinforcement learning-based algorithm to automatically learn to allocate limited resources across different generations of breeding. We mathematically formulate the problem in the framework of Markov Decision Process (MDP) by defining state and action spaces. To avoid the explosion of the state space, an integer linear program is proposed that quantifies the trade-off between resources and time. Finally, we propose a value function approximation method to estimate the action-value function and then develop a greedy policy improvement technique to find the optimal resources. We demonstrate the effectiveness of the proposed method in enhancing genetic gain using a case study with realistic data.
翻訳日:2021-07-26 14:00:23 公開日:2021-07-22
# LARGE: GANセマンティックスによる潜伏型回帰

LARGE: Latent-Based Regression through GAN Semantics ( http://arxiv.org/abs/2107.11186v1 )

ライセンス: Link先を確認
Yotam Nitzan, Rinon Gal, Ofir Brenner, Daniel Cohen-Or(参考訳) 本稿では,少数ショットや弱ビジョンを用いた回帰課題の解法を提案する。 提案手法の核心は,ganが潜在空間内において,完全に教師なしの設定であっても,意味情報のエンコーディングに驚くほど成功しているという基本的な観察である。 現代の生成フレームワークでは、このセマンティックエンコーディングは、画像属性に不連続な方法で影響を及ぼす滑らかで直線的な方向として現れます。 これらの方向は、GANベースの画像編集に広く用いられている。 これらの方向が線形であるだけでなく,各属性によって引き起こされる変化の大きさが,沿線を走行する距離に対してほぼ線形であることを示す。 本手法は, 事前学習したGANを2つのラベル付きサンプルを用いて回帰モデルに変換する。 これにより、品質管理が難しいデータセットや属性での回帰タスクの解決が可能になる。 また,同じ潜在距離を,明示的な監督がなくても,与えられた属性の強さによって画像のソートに使用できることを示す。 大規模実験により,本手法は多分野にまたがって適用可能であり,複数の遅延方向探索フレームワークを活用でき,また,単一タスクに対処する手法と比較しても,数ショット・低ビジョン設定における最新結果が得られることが示された。

We propose a novel method for solving regression tasks using few-shot or weak supervision. At the core of our method is the fundamental observation that GANs are incredibly successful at encoding semantic information within their latent space, even in a completely unsupervised setting. For modern generative frameworks, this semantic encoding manifests as smooth, linear directions which affect image attributes in a disentangled manner. These directions have been widely used in GAN-based image editing. We show that such directions are not only linear, but that the magnitude of change induced on the respective attribute is approximately linear with respect to the distance traveled along them. By leveraging this observation, our method turns a pre-trained GAN into a regression model, using as few as two labeled samples. This enables solving regression tasks on datasets and attributes which are difficult to produce quality supervision for. Additionally, we show that the same latent-distances can be used to sort collections of images by the strength of given attributes, even in the absence of explicit supervision. Extensive experimental evaluations demonstrate that our method can be applied across a wide range of domains, leverage multiple latent direction discovery frameworks, and achieve state-of-the-art results in few-shot and low-supervision settings, even when compared to methods designed to tackle a single task.
翻訳日:2021-07-26 13:58:53 公開日:2021-07-22
# 生成機械学習モデルによる逆問題正規化

Regularising Inverse Problems with Generative Machine Learning Models ( http://arxiv.org/abs/2107.11191v1 )

ライセンス: Link先を確認
Margaret Duff, Neill D. F. Campbell, Matthias J. Ehrhardt(参考訳) 逆画像問題に対するディープニューラルネットワークのアプローチは、ここ数年で驚くべき成果を上げている。 本稿では,逆問題に対する変分正規化アプローチにおける生成モデルの利用について考察する。 正規化される画像は、トレーニングデータセットに似た画像を生成することを学習した生成モデルの範囲からは程遠いペナルティを課される。 この族を \textit{generative regularisers} と呼ぶ。 生成正規化器の成功は生成モデルの品質に依存するため,モデルの評価と今後の研究の指導に望ましい基準のセットを提案する。 数値実験では,3つの共通生成モデルであるautoencoder, variational autoencoder,generati ve adversarial networkを所望の基準に対して評価した。 また,デブロアリング,デコンボリューション,トモグラフィーの逆問題に対して,3つの異なる生成正規化器を試験した。 生成器の範囲内に存在する解は生成モデルの能力に大きく依存するが,生成器範囲からの小さな偏差を許容することで,より一貫した結果が得られることを示す。

Deep neural network approaches to inverse imaging problems have produced impressive results in the last few years. In this paper, we consider the use of generative models in a variational regularisation approach to inverse problems. The considered regularisers penalise images that are far from the range of a generative model that has learned to produce images similar to a training dataset. We name this family \textit{generative regularisers}. The success of generative regularisers depends on the quality of the generative model and so we propose a set of desired criteria to assess models and guide future research. In our numerical experiments, we evaluate three common generative models, autoencoders, variational autoencoders and generative adversarial networks, against our desired criteria. We also test three different generative regularisers on the inverse problems of deblurring, deconvolution, and tomography. We show that the success of solutions restricted to lie exactly in the range of the generator is highly dependent on the ability of the generative model but that allowing small deviations from the range of the generator produces more consistent results.
翻訳日:2021-07-26 13:58:35 公開日:2021-07-22
# 線形多木構造方程式モデル:構造学習と逆相関推定

Linear Polytree Structural Equation Models: Structural Learning and Inverse Correlation Estimation ( http://arxiv.org/abs/2107.10955v1 )

ライセンス: Link先を確認
Xingmei Lou, Yu Hu, Xiaodong Li(参考訳) 我々は、線形構造方程式モデル(SEM)からデータを生成し、因果構造がポリツリーによって特徴づけられる場合に、有向非巡回グラフ(DAG)を学習する問題に興味を持っている。 特に、ガウスモデルとガウスモデルの両方において、よく知られたChow-Liuアルゴリズムのサンプルサイズ条件を調べ、CPDAGで一意に表現されるポリツリーの同値クラスを正確に復元する。 また,そのようなモデルに基づく逆相関行列の推定における誤差率についても検討した。 本理論は包括的数値シミュレーションによって示され,ベンチマークデータを用いた実験により,基礎的真理のグラフィカル構造が多木で近似できる場合にもロバスト性を示す。

We are interested in the problem of learning the directed acyclic graph (DAG) when data are generated from a linear structural equation model (SEM) and the causal structure can be characterized by a polytree. Specially, under both Gaussian and sub-Gaussian models, we study the sample size conditions for the well-known Chow-Liu algorithm to exactly recover the equivalence class of the polytree, which is uniquely represented by a CPDAG. We also study the error rate for the estimation of the inverse correlation matrix under such models. Our theoretical findings are illustrated by comprehensive numerical simulations, and experiments on benchmark data also demonstrate the robustness of the method when the ground truth graphical structure can only be approximated by a polytree.
翻訳日:2021-07-26 13:58:19 公開日:2021-07-22
# 猫はコーヒーを飲みましたか。 一般化イベント知識を用いたカオス変換器

Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge ( http://arxiv.org/abs/2107.10922v1 )

ライセンス: Link先を確認
Paolo Pedinotti, Giulia Rambelli, Emmanuele Chersoni, Enrico Santus, Alessandro Lenci, Philippe Blache(参考訳) 先行研究は、与えられた述語に適合する単語の意味を予測できる計算モデルの能力を調査した。 動詞と引数の典型関係を分離してモデル化する研究が数多く行われているが,本稿では,言語(汎用イベント知識)で記述された事象や状況の典型性に関する情報にコンピュータアプローチがどの程度アクセスできるかを,より広い視点から評価する。 最近のtransformers language model (tlms)の成功を踏まえて、私たちはそれらを \textit{dynamic estimation of thematic fit} のベンチマークでテストすることにしました。 文の意味表現にイベントを統合するためのフレームワークであるSDMと比較して,これらのモデルの評価を行い,その動作にどのような要因が影響するかを詳細に分析した。 以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。 しかし、追加分析により、TLMは事象の知識の重要な側面を捉えておらず、その予測はしばしば、頻繁な単語、コロケーション、構文パターンなどの表面言語的特徴に依存しており、それによって準最適一般化能力を示すことが示唆される。

Prior research has explored the ability of computational models to predict a word semantic fit with a given predicate. While much work has been devoted to modeling the typicality relation between verbs and arguments in isolation, in this paper we take a broader perspective by assessing whether and to what extent computational approaches have access to the information about the typicality of entire events and situations described in language (Generalized Event Knowledge). Given the recent success of Transformers Language Models (TLMs), we decided to test them on a benchmark for the \textit{dynamic estimation of thematic fit}. The evaluation of these models was performed in comparison with SDM, a framework specifically designed to integrate events in sentence meaning representations, and we conducted a detailed error analysis to investigate which factors affect their behavior. Our results show that TLMs can reach performances that are comparable to those achieved by SDM. However, additional analysis consistently suggests that TLMs do not capture important aspects of event knowledge, and their predictions often depend on surface linguistic features, such as frequent words, collocations and syntactic patterns, thereby showing sub-optimal generalization abilities.
翻訳日:2021-07-26 13:57:45 公開日:2021-07-22
# スケーラブル手法による作物畑の前クラスター化点雲

Pre-Clustering Point Clouds of Crop Fields Using Scalable Methods ( http://arxiv.org/abs/2107.10950v1 )

ライセンス: Link先を確認
Henry J. Nelson and Nikolaos Papanikolopoulos(参考訳) 自動化された植物表現型と機械学習の最近の成功を大規模に適用するために、効率的で汎用的なアルゴリズムは、作物の畑をインテリジェントに分割して、より複雑なアルゴリズムで処理できるように設計されなければならない。 本稿では,この問題に対する現状と,一般的な密度に基づくクラスタリングアルゴリズムであるquickshiftとの類似性について述べる。 この類似性を生かして,汎用的でスケーラブルなプラントセグメンテーションアルゴリズムの構築を目標とした,新規なアプリケーション固有アルゴリズムを提案する。 本研究で提案する新しいアルゴリズムは、入力パラメータに対する感度が低く、同じアルゴリズムの時間複雑性を維持しながら、現在の最先端技術よりも定量的に優れた結果を生み出すことが示されている。 フィールドスケールの表現型システムに組み込む場合、提案アルゴリズムは、性能とスケーラビリティを損なうことなく、結果の精度を大幅に向上できる代替として機能するべきである。

In order to apply the recent successes of automated plant phenotyping and machine learning on a large scale, efficient and general algorithms must be designed to intelligently split crop fields into small, yet actionable, portions that can then be processed by more complex algorithms. In this paper we notice a similarity between the current state-of-the-art for this problem and a commonly used density-based clustering algorithm, Quickshift. Exploiting this similarity we propose a number of novel, application specific algorithms with the goal of producing a general and scalable plant segmentation algorithm. The novel algorithms proposed in this work are shown to produce quantitatively better results than the current state-of-the-art while being less sensitive to input parameters and maintaining the same algorithmic time complexity. When incorporated into field-scale phenotyping systems, the proposed algorithms should work as a drop in replacement that can greatly improve the accuracy of results while ensuring that performance and scalability remain undiminished.
翻訳日:2021-07-26 13:56:38 公開日:2021-07-22
# テキスト・リレーショナルデータを用いたストックムーブメント予測のためのグラフベース学習

Graph-Based Learning for Stock Movement Prediction with Textual and Relational Data ( http://arxiv.org/abs/2107.10941v1 )

ライセンス: Link先を確認
Qinkai Chen and Christian-Yann Robert(参考訳) テキスト情報から株価を予測することは、市場の不確実性や自然言語を機械の視点から理解することの難しさから難しい課題である。 これまでの研究では、主に単一ニュースに基づく感情抽出に焦点が当てられている。 しかし、金融市場の株価は高い相関関係があり、一方の株価に関するニュースは他の株の価格に素早く影響を及ぼす可能性がある。 この効果を考慮するために, MGRN (Multi-Graph Recurrent Network for Stock Forecasting) という新しいストックムーブメント予測フレームワークを提案する。 このアーキテクチャは、財務ニュースからのテキストの感情と、他の財務データから抽出された複数の関係情報を組み合わせることができる。 精度テストとSTOXX Europe 600指数の株価のトレーディングシミュレーションを通じて、我々のモデルが他のベンチマークよりも優れた性能を示した。

Predicting stock prices from textual information is a challenging task due to the uncertainty of the market and the difficulty understanding the natural language from a machine's perspective. Previous researches focus mostly on sentiment extraction based on single news. However, the stocks on the financial market can be highly correlated, one news regarding one stock can quickly impact the prices of other stocks. To take this effect into account, we propose a new stock movement prediction framework: Multi-Graph Recurrent Network for Stock Forecasting (MGRN). This architecture allows to combine the textual sentiment from financial news and multiple relational information extracted from other financial data. Through an accuracy test and a trading simulation on the stocks in the STOXX Europe 600 index, we demonstrate a better performance from our model than other benchmarks.
翻訳日:2021-07-26 13:52:15 公開日:2021-07-22
# DeepTitle -- BERTを活用して検索エンジン最適化見出しを生成する

DeepTitle -- Leveraging BERT to generate Search Engine Optimized Headlines ( http://arxiv.org/abs/2107.10935v1 )

ライセンス: Link先を確認
Cristian Anastasiu and Hanna Behnke and Sarah L\"uck and Viktor Malesevic and Aamna Najmi and Javier Poveda-Panter(参考訳) オンラインニュース記事の自動見出し生成は、簡単な作業ではない。機械生成されたタイトルは、文法的に正確で、情報的であり、注意を引き、"クリックベイト"や"フェイクニュース"を使わずに検索トラフィックを生成する必要がある。 本稿では,事前学習した言語モデルを用いて,ドイツ語の抽象的なニュース見出し生成手法を提案する。 抽象的なテキスト要約,すなわち,アートの微調整技術が組み込まれている。 前者が事前トレーニングされ、後者がスクラッチからトレーニングされるエンコーダとデコーダには、異なる最適化器を使用します。 見出し生成を改良し、検索エンジンの最適化に関係のある頻繁なキーワードを組み込む。 ドイツのニュースデータセット上で実験を行い, ROUGE-L-gram Fスコア40.02を達成する。 さらに,文類似度指標と人格評価を導入することで,テキスト要約の質を測定するルージュの限界にも対処する。

Automated headline generation for online news articles is not a trivial task - machine generated titles need to be grammatically correct, informative, capture attention and generate search traffic without being "click baits" or "fake news". In this paper we showcase how a pre-trained language model can be leveraged to create an abstractive news headline generator for German language. We incorporate state of the art fine-tuning techniques for abstractive text summarization, i.e. we use different optimizers for the encoder and decoder where the former is pre-trained and the latter is trained from scratch. We modify the headline generation to incorporate frequently sought keywords relevant for search engine optimization. We conduct experiments on a German news data set and achieve a ROUGE-L-gram F-score of 40.02. Furthermore, we address the limitations of ROUGE for measuring the quality of text summarization by introducing a sentence similarity metric and human evaluation.
翻訳日:2021-07-26 13:52:03 公開日:2021-07-22
# tsformer: 観光需要予測のための時系列トランスフォーマー

Tsformer: Time series Transformer for tourism demand forecasting ( http://arxiv.org/abs/2107.10977v1 )

ライセンス: Link先を確認
Siyuan Yi, Xing Chen, Chuanming Tang(参考訳) AIに基づく手法は、観光需要予測に広く応用されている。 しかし、現在のAIベースのメソッドは長期的な依存関係を処理する能力に欠けており、そのほとんどが解釈性に欠けています。 機械翻訳に最初に使われたTransformerは、長期依存処理の素晴らしい能力を示している。 本研究では,Transformerに基づいて,観光需要予測のためのEncoder-Decoderアーキテクチャを備えた時系列Transformer(Tsformer )を提案する。 The proposed Tsformer encodes a long-term dependency with encoder, captures short-term dependency with decoder, and Simplify the attention interaction under the purpose of the purpose of the priority attentioning mechanism through a series attention masking mechanism。 これらの改良により、マルチヘッドアテンション機構は、時間関係に応じて入力シーケンスを処理し、より良い解釈可能性をもたらす。 さらに、Encoder-Decoderアーキテクチャのコンテキスト処理能力により、予測パフォーマンスを向上させるために、日中のカレンダーを採用することができる。 ジズハイゴウ渓谷とシグニャング山地の観光需要データセットと他の9つのベースライン手法による実験は、提案されたTsformerが短期・長期観光需要予測タスクにおいて全てのベースラインモデルを上回ったことを示している。 さらに,予測すべき日のカレンダーの採用が,提案したTsformerの予測性能に寄与することを示す。 より良い解釈性を得るために、注目重量行列可視化を行う。 tsformerは、短期予測で予測される季節的特徴と日に近い日に集中していることを示している。

AI-based methods have been widely applied to tourism demand forecasting. However, current AI-based methods are short of the ability to process long-term dependency, and most of them lack interpretability. The Transformer used initially for machine translation shows an incredible ability to long-term dependency processing. Based on the Transformer, we proposed a time series Transformer (Tsformer) with Encoder-Decoder architecture for tourism demand forecasting. The proposed Tsformer encodes long-term dependency with encoder, captures short-term dependency with decoder, and simplifies the attention interactions under the premise of highlighting dominant attention through a series of attention masking mechanisms. These improvements make the multi-head attention mechanism process the input sequence according to the time relationship, contributing to better interpretability. What's more, the context processing ability of the Encoder-Decoder architecture allows adopting the calendar of days to be forecasted to enhance the forecasting performance. Experiments conducted on the Jiuzhaigou valley and Siguniang mountain tourism demand datasets with other nine baseline methods indicate that the proposed Tsformer outperformed all baseline models in the short-term and long-term tourism demand forecasting tasks. Moreover, ablation studies demonstrate that the adoption of the calendar of days to be forecasted contributes to the forecasting performance of the proposed Tsformer. For better interpretability, the attention weight matrix visualization is performed. It indicates that the Tsformer concentrates on seasonal features and days close to days to be forecast in short-term forecasting.
翻訳日:2021-07-26 13:51:48 公開日:2021-07-22
# SAGE: 効率的なエンドツーエンド自律走行制御のための分割構造手法

SAGE: A Split-Architecture Methodology for Efficient End-to-End Autonomous Vehicle Control ( http://arxiv.org/abs/2107.10895v1 )

ライセンス: Link先を確認
Arnav Malawade, Mohanad Odema, Sebastien Lajeunesse-DeGroot, Mohammad Abdullah Al Faruque(参考訳) 自動運転車(AV)は交通に革命をもたらし、道路安全を大幅に改善すると予想されている。 avsは大規模なディープラーニング(dl)モデルと強力なハードウェアプラットフォームをリアルタイムに確実に運用し、数百ワットから1キロワットの電力を必要とする。 この電力消費は車の走行距離を劇的に減らし、排出に影響を与える。 この問題に対処するため,我々は,DLアーキテクチャの主要なエネルギー消費モジュールをクラウドに選択的にオフロードする手法であるSAGEを提案し,リアルタイムレイテンシ制約を満たしながらエッジエネルギーの利用を最適化する。 さらに,HND(Head Network Distillation)を利用して,DLアーキテクチャ内の効率的なボトルネックを導入し,モデルの性能をほとんど損なうことなく,オフロードのネットワークオーバーヘッドコストを最小限に抑える。 我々は、Nvidia Jetson TX2と業界標準のNvidia Drive PX2をAVエッジデバイスとしてSAGEを評価し、3G、4G LTE、WiFi技術上の広範囲のDLモデルとインターネット接続帯域において、我々のオフロード戦略が実用的であることを示した。 エッジのみの計算と比較して、SAGEは低解像度カメラ1台、高解像度カメラ1台、高解像度カメラ3台で平均36.13%、47.07%、および55.66%のエネルギー消費を減少させる。 SAGEはまた、ダイレクトカメラのオフロードと比較して、アップロードデータサイズを最大98.40%削減する。

Autonomous vehicles (AV) are expected to revolutionize transportation and improve road safety significantly. However, these benefits do not come without cost; AVs require large Deep-Learning (DL) models and powerful hardware platforms to operate reliably in real-time, requiring between several hundred watts to one kilowatt of power. This power consumption can dramatically reduce vehicles' driving range and affect emissions. To address this problem, we propose SAGE: a methodology for selectively offloading the key energy-consuming modules of DL architectures to the cloud to optimize edge energy usage while meeting real-time latency constraints. Furthermore, we leverage Head Network Distillation (HND) to introduce efficient bottlenecks within the DL architecture in order to minimize the network overhead costs of offloading with almost no degradation in the model's performance. We evaluate SAGE using an Nvidia Jetson TX2 and an industry-standard Nvidia Drive PX2 as the AV edge devices and demonstrate that our offloading strategy is practical for a wide range of DL models and internet connection bandwidths on 3G, 4G LTE, and WiFi technologies. Compared to edge-only computation, SAGE reduces energy consumption by an average of 36.13%, 47.07%, and 55.66% for an AV with one low-resolution camera, one high-resolution camera, and three high-resolution cameras, respectively. SAGE also reduces upload data size by up to 98.40% compared to direct camera offloading.
翻訳日:2021-07-26 13:48:04 公開日:2021-07-22
# 深層学習に基づく医用画像解析における説明可能な人工知能(XAI)

Explainable artificial intelligence (XAI) in deep learning-based medical image analysis ( http://arxiv.org/abs/2107.10912v1 )

ライセンス: Link先を確認
Bas H.M. van der Velden, Hugo J. Kuijf, Kenneth G.A. Gilhuijs, Max A. Viergever(参考訳) 深層学習に基づく手法の増加に伴い,特に医用画像分析などの高リスク意思決定領域において,その説明可能性を求める声が高まる。 本調査では,深層学習に基づく医用画像解析に使用されるeXplainable Artificial Intelligence(XAI)の概要について述べる。 深層学習に基づく医用画像解析手法を分類するために,XAI基準の枠組みを導入する。 医用画像解析におけるxai技術に関する論文は、その枠組みと解剖学的位置に応じて調査・分類される。 医療画像解析におけるXAIの今後の可能性について考察した。

With an increase in deep learning-based methods, the call for explainability of such methods grows, especially in high-stakes decision making areas such as medical image analysis. This survey presents an overview of eXplainable Artificial Intelligence (XAI) used in deep learning-based medical image analysis. A framework of XAI criteria is introduced to classify deep learning-based medical image analysis methods. Papers on XAI techniques in medical image analysis are then surveyed and categorized according to the framework and according to anatomical location. The paper concludes with an outlook of future opportunities for XAI in medical image analysis.
翻訳日:2021-07-26 13:47:39 公開日:2021-07-22
# 確率的文脈線形バンディット実験の設計

Design of Experiments for Stochastic Contextual Linear Bandits ( http://arxiv.org/abs/2107.09912v2 )

ライセンス: Link先を確認
Andrea Zanette, Kefan Dong, Jonathan Lee, Emma Brunskill(参考訳) 確率線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。 実際には、これらのアルゴリズムをデプロイする上で、特にデータセットが分散形式で収集された場合や、異なるポリシーを実装するためにループ内の人間が必要な場合には、大きなエンジニアリングオーバーヘッドが発生する可能性がある。 このような場合、単一の非反応ポリシーで探索することは有益である。 いくつかのバッチコンテキストが利用可能であると仮定すると、我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一の確率的ポリシーを設計する。 合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。

In the stochastic linear contextual bandit setting there exist several minimax procedures for exploration with policies that are reactive to the data being acquired. In practice, there can be a significant engineering overhead to deploy these algorithms, especially when the dataset is collected in a distributed fashion or when a human in the loop is needed to implement a different policy. Exploring with a single non-reactive policy is beneficial in such cases. Assuming some batch contexts are available, we design a single stochastic policy to collect a good dataset from which a near-optimal policy can be extracted. We present a theoretical analysis as well as numerical experiments on both synthetic and real-world datasets.
翻訳日:2021-07-26 11:02:47 公開日:2021-07-22
# 混合整数プログラムのための大規模近傍探索アルゴリズムの学習

Learning a Large Neighborhood Search Algorithm for Mixed Integer Programs ( http://arxiv.org/abs/2107.10201v2 )

ライセンス: Link先を確認
Nicolas Sonnerat, Pengming Wang, Ira Ktena, Sergey Bartunov, Vinod Nair(参考訳) large neighborhood search (lns) は組合せ最適化ヒューリスティックであり、最適化される変数の値の割り当てから始まり、現在の割り当ての周りに大きな近傍を探索することで反復的に改善する。 本稿では、混合整数プログラム(MIP)に対する学習に基づくLSSアプローチを検討する。 ニューラル・ディバイディング・モデルを用いて代入よりも確率分布を表現し、既製のMIPソルバとともに初期代入を生成する。 その後の探索ステップをマルコフ決定プロセスとして定式化し、神経近傍選択ポリシーを訓練し、各ステップで探索近傍を選択し、mipソルバを用いて探索して次の課題を見つける。 政策ネットワークは模倣学習を用いて訓練される。 我々は,十分な計算資源が与えられた場合,任意の大きさの近傍に対して,最適な次の割り当てを含む近傍を選択することを保証した,模倣のためのターゲットポリシーを提案する。 当社のアプローチは,Googleの2つの実運用アプリケーションを含む,さまざまなアプリケーションからの大規模インスタンスを備えた,5つの実世界のMIPデータセットのベースラインをすべて一致あるいは上回るものです。 2\times$から37.8\times$ 平均主観的ギャップは、大規模な実行時に3つのデータセットの最高のベースラインよりも高い。

Large Neighborhood Search (LNS) is a combinatorial optimization heuristic that starts with an assignment of values for the variables to be optimized, and iteratively improves it by searching a large neighborhood around the current assignment. In this paper we consider a learning-based LNS approach for mixed integer programs (MIPs). We train a Neural Diving model to represent a probability distribution over assignments, which, together with an off-the-shelf MIP solver, generates an initial assignment. Formulating the subsequent search steps as a Markov Decision Process, we train a Neural Neighborhood Selection policy to select a search neighborhood at each step, which is searched using a MIP solver to find the next assignment. The policy network is trained using imitation learning. We propose a target policy for imitation that, given enough compute resources, is guaranteed to select the neighborhood containing the optimal next assignment amongst all possible choices for the neighborhood of a specified size. Our approach matches or outperforms all the baselines on five real-world MIP datasets with large-scale instances from diverse applications, including two production applications at Google. It achieves $2\times$ to $37.8\times$ better average primal gap than the best baseline on three of the datasets at large running times.
翻訳日:2021-07-26 11:02:38 公開日:2021-07-22
# (参考訳) 単語埋め込みの理論的基礎と限界: どのような意味を捉えられるのか?

Theoretical foundations and limits of word embeddings: what types of meaning can they capture? ( http://arxiv.org/abs/2107.10413v1 )

ライセンス: CC BY 4.0
Alina Arseniev-Koehler(参考訳) 意味を測定することは文化社会学における中心的な問題であり、単語埋め込みは強力な新しいツールを提供するかもしれない。 しかし、他のツールと同様に、彼らは理論的な仮定を構築し、実行します。 本稿では,単語埋め込みが意味の構造的言語理論の中核となる3つの前提をモデル化する方法を理論的に論じる。 ある意味では、単語の埋め込み方法は同じに脆弱であり、これらの前提に対する批判に耐えられる。 言い換えれば、これらの批判に対する新しい解決策を提供する。 より広範に、単語埋め込みによる意味の研究を形式化することは、意味の一貫性のような文化的社会学における中核的な概念と議論を明らかにする理論的機会を与える。 ネットワーク分析が社会関係の曖昧な概念を規定したように(Borgatti et al)。 2009年) 埋め込みメソッドで意味を定式化すれば、意味そのものを特定・再想像できる。

Measuring meaning is a central problem in cultural sociology and word embeddings may offer powerful new tools to do so. But like any tool, they build on and exert theoretical assumptions. In this paper I theorize the ways in which word embeddings model three core premises of a structural linguistic theory of meaning: that meaning is relational, coherent, and may be analyzed as a static system. In certain ways, word embedding methods are vulnerable to the same, enduring critiques of these premises. In other ways, they offer novel solutions to these critiques. More broadly, formalizing the study of meaning with word embeddings offers theoretical opportunities to clarify core concepts and debates in cultural sociology, such as the coherence of meaning. Just as network analysis specified the once vague notion of social relations (Borgatti et al. 2009), formalizing meaning with embedding methods can push us to specify and reimagine meaning itself.
翻訳日:2021-07-23 23:22:32 公開日:2021-07-22
# (参考訳) ニューラルマシン翻訳のための信頼度対応型スケジュールサンプリング [全文訳有]

Confidence-Aware Scheduled Sampling for Neural Machine Translation ( http://arxiv.org/abs/2107.10427v1 )

ライセンス: CC BY 4.0
Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) スケジューリングサンプリングは、ニューラルネットワーク翻訳の露光バイアス問題を緩和する有効な方法である。 トレーニング中に、接地対象の入力トークンを予測トークンにランダムに置き換えることで、推論シーンをシミュレートする。 その成功にもかかわらず、重要なスケジュール戦略は単にトレーニングステップに基づいており、その潜在的な性能と収束速度を制限するリアルタイムモデルの能力を無視している。 この問題に対処するため,信頼性を考慮したスケジュールサンプリングを提案する。 具体的には、きめ細かいスケジュール戦略をデザインしたモデル予測の信頼度によって、リアルタイムモデル能力の定量化を行う。 このようにして、モデルが正確に高信頼位置の予測トークンと低信頼位置の地上トークンに晒される。 さらに,多くの予測トークンが接地トラストークンと同一であるため,バニラのスケジュールサンプリング障害が元の教師強制モードに退避することを確認する。 したがって、上記の信頼度認識戦略の下では、高信頼度トークン位置に対する予測トークンではなく、よりノイズの多いトークン(例えば、単語順や不正確な単語順)を露出する。 我々は、トランスフォーマーのアプローチを評価し、大規模なwmt 2014英語ドイツ語、wmt 2014英語フランス語、wmt 2019中国語英語の実験を行った。 その結果,本手法は翻訳品質と収束速度の両方でトランスフォーマーとバニラスケジュールサンプリングを著しく上回ることがわかった。

Scheduled sampling is an effective method to alleviate the exposure bias problem of neural machine translation. It simulates the inference scene by randomly replacing ground-truth target input tokens with predicted ones during training. Despite its success, its critical schedule strategies are merely based on training steps, ignoring the real-time model competence, which limits its potential performance and convergence speed. To address this issue, we propose confidence-aware scheduled sampling. Specifically, we quantify real-time model competence by the confidence of model predictions, based on which we design fine-grained schedule strategies. In this way, the model is exactly exposed to predicted tokens for high-confidence positions and still ground-truth tokens for low-confidence positions. Moreover, we observe vanilla scheduled sampling suffers from degenerating into the original teacher forcing mode since most predicted tokens are the same as ground-truth tokens. Therefore, under the above confidence-aware strategy, we further expose more noisy tokens (e.g., wordy and incorrect word order) instead of predicted ones for high-confidence token positions. We evaluate our approach on the Transformer and conduct experiments on large-scale WMT 2014 English-German, WMT 2014 English-French, and WMT 2019 Chinese-English. Results show that our approach significantly outperforms the Transformer and vanilla scheduled sampling on both translation quality and convergence speed.
翻訳日:2021-07-23 23:21:38 公開日:2021-07-22
# (参考訳) 不確実性定量化のためのミニデータ駆動ディープ任意多項式カオス展開

Mini-data-driven Deep Arbitrary Polynomial Chaos Expansion for Uncertainty Quantification ( http://arxiv.org/abs/2107.10428v1 )

ライセンス: CC0 1.0
Xiaohu Zheng, Jun Zhang, Ning Wang, Guijian Tang, Wen Yao(参考訳) 近年,代理モデルに基づく不確実性定量化手法が注目されている。 多項式カオス展開(PCE)と深層学習(DL)はどちらも代理モデルを構築するための強力な方法である。 しかし、pceは、拡張係数を解決するためにより多くのラベル付きデータを引き起こすサーロゲートモデルの精度を向上させるために拡張順序を増加させる必要があり、dlはまた、ニューラルネットワークモデルをトレーニングするために多くのラベル付きデータを必要とする。 本稿では,代理モデル精度とトレーニングデータコストのバランスを改善するために,深い任意多項式カオス展開(deep apce)法を提案する。 一方、多層パーセプトロン(MLP)モデルを用いて任意の多項式カオス展開の適応膨張係数を解くことにより、より低い展開順序でDeep aPCEモデルの精度を向上させることができる。 一方、適応的な任意の多項式カオス展開特性を用いて、少量のラベル付きデータと大規模なラベルなしデータのみに基づいて、MPPトレーニングコスト関数を構築することにより、トレーニングデータコストを大幅に削減することができる。 4つの数値例と実際の工学的問題を用いて,Deep aPCE法の有効性を検証する。

The surrogate model-based uncertainty quantification method has drawn a lot of attention in recent years. Both the polynomial chaos expansion (PCE) and the deep learning (DL) are powerful methods for building a surrogate model. However, the PCE needs to increase the expansion order to improve the accuracy of the surrogate model, which causes more labeled data to solve the expansion coefficients, and the DL also needs a lot of labeled data to train the neural network model. This paper proposes a deep arbitrary polynomial chaos expansion (Deep aPCE) method to improve the balance between surrogate model accuracy and training data cost. On the one hand, the multilayer perceptron (MLP) model is used to solve the adaptive expansion coefficients of arbitrary polynomial chaos expansion, which can improve the Deep aPCE model accuracy with lower expansion order. On the other hand, the adaptive arbitrary polynomial chaos expansion's properties are used to construct the MLP training cost function based on only a small amount of labeled data and a large scale of non-labeled data, which can significantly reduce the training data cost. Four numerical examples and an actual engineering problem are used to verify the effectiveness of the Deep aPCE method.
翻訳日:2021-07-23 23:17:16 公開日:2021-07-22
# (参考訳) 人工知能で光に光を当てる [全文訳有]

Shedding some light on Light Up with Artificial Intelligence ( http://arxiv.org/abs/2107.10429v1 )

ライセンス: CC BY 4.0
Libo Sun, James Browning, Roberto Perera(参考訳) カカリパズルとしても知られるライトアップパズルは、現代の人工知能(AI)手法で解決されたことはない。 現在、解を自律的に開発するための最も広く使われている計算技術は進化論のアルゴリズムである。 このプロジェクトは、ライトアップパズルを高速かつ計算効率良く解くために、新しいai技術を適用するための取り組みです。 最適解を生成するために探索されたアルゴリズムは、ヒルクライミング、シミュレートアニーリング、フィードフォワードニューラルネットワーク(fnn)、畳み込みニューラルネットワーク(cnn)である。 2つのアルゴリズムがヒルクライミング用に開発され、2つのアクション(電球の追加と削除)と3つのアクション(電球を別のセルに追加、削除、移動)を使ってアニーリングをシミュレートした。 ヒルクライミングとシミュレートされたアニーリングアルゴリズムはいずれも3アクションの場合に高い精度を示した。 シミュレーションアニーリングにより,30の独特なボード構成において,ヒルクライミング,FNN,CNN,進化論的アルゴリズムの精度が100%向上した。 最後に、FNNとCNNのアルゴリズムは精度が低いが、残りのアルゴリズムに比べて計算時間は大幅に速かった。 このプロジェクトのGitHubリポジトリはhttps://github.com/r perera12/AKARI-Light Up-GameSolver-with-D eepNeuralNetworks-an d-HillClimb-or-Simul atedAnnealingにある。

The Light-Up puzzle, also known as the AKARI puzzle, has never been solved using modern artificial intelligence (AI) methods. Currently, the most widely used computational technique to autonomously develop solutions involve evolution theory algorithms. This project is an effort to apply new AI techniques for solving the Light-up puzzle faster and more computationally efficient. The algorithms explored for producing optimal solutions include hill climbing, simulated annealing, feed-forward neural network (FNN), and convolutional neural network (CNN). Two algorithms were developed for hill climbing and simulated annealing using 2 actions (add and remove light bulb) versus 3 actions(add, remove, or move light-bulb to a different cell). Both hill climbing and simulated annealing algorithms showed a higher accuracy for the case of 3 actions. The simulated annealing showed to significantly outperform hill climbing, FNN, CNN, and an evolutionary theory algorithm achieving 100% accuracy in 30 unique board configurations. Lastly, while FNN and CNN algorithms showed low accuracies, computational times were significantly faster compared to the remaining algorithms. The GitHub repository for this project can be found at https://github.com/r perera12/AKARI-Light Up-GameSolver-with-D eepNeuralNetworks-an d-HillClimb-or-Simul atedAnnealing.
翻訳日:2021-07-23 23:15:48 公開日:2021-07-22
# (参考訳) 複数の評価資料の統合による書籍影響の包括的評価に向けて

Impacts Towards a comprehensive assessment of the book impact by integrating multiple evaluation sources ( http://arxiv.org/abs/2107.10434v1 )

ライセンス: CC BY 4.0
Qingqing Zhou, Chengzhi Zhang(参考訳) 出版される書籍数の増加は、手作業による評価方法の効率的な評価を困難にしている。 書籍の引用と代替評価指標を使用することで、手作業による評価を支援し、評価コストを削減できる。 しかし、既存の評価研究のほとんどは、粗粒度分析を用いた単一評価源に基づいており、不包括的あるいは一方的な書籍影響評価結果が得られる可能性がある。 一方、書籍評価のための単一の資源に依存することは、評価データが不足していること、特に新刊書籍では評価結果が得られないリスクにつながる可能性がある。 そこで本論文では,複数の評価源を統合した評価システムを用いて,本書の影響を測定した。 具体的には,本書の内部評価資源や外部評価資源を含む複数の評価資料について,きめ細かいマイニングを行った。 様々な技術(例) トピック抽出,感情分析,テキスト分類)を用いて,内部および外部評価資源から対応する評価指標を抽出した。 次に,評価指標の統合と書籍影響評価システムの構築に,分析階層プロセスと組み合わせた専門家評価を用いた。 そして, 専門家評価結果と比較し, 評価システムの信頼性を検証するとともに, 詳細な評価結果, 多様化評価結果を得た。 実験結果から, 異なる次元から異なる評価資源が書籍に与える影響を計測でき, 複数評価データの統合により, 書籍をより包括的に評価できることがわかった。 一方、書籍影響評価システムは、ユーザの評価目的に応じてパーソナライズされた評価結果を提供できる。 また,本書の影響評価には,学際的差異を考慮する必要がある。

The surge in the number of books published makes the manual evaluation methods difficult to efficiently evaluate books. The use of books' citations and alternative evaluation metrics can assist manual evaluation and reduce the cost of evaluation. However, most existing evaluation research was based on a single evaluation source with coarse-grained analysis, which may obtain incomprehensive or one-sided evaluation results of book impact. Meanwhile, relying on a single resource for book assessment may lead to the risk that the evaluation results cannot be obtained due to the lack of the evaluation data, especially for newly published books. Hence, this paper measured book impact based on an evaluation system constructed by integrating multiple evaluation sources. Specifically, we conducted finer-grained mining on the multiple evaluation sources, including books' internal evaluation resources and external evaluation resources. Various technologies (e.g. topic extraction, sentiment analysis, text classification) were used to extract corresponding evaluation metrics from the internal and external evaluation resources. Then, Expert evaluation combined with analytic hierarchy process was used to integrate the evaluation metrics and construct a book impact evaluation system. Finally, the reliability of the evaluation system was verified by comparing with the results of expert evaluation, detailed and diversified evaluation results were then obtained. The experimental results reveal that differential evaluation resources can measure the books' impacts from different dimensions, and the integration of multiple evaluation data can assess books more comprehensively. Meanwhile, the book impact evaluation system can provide personalized evaluation results according to the users' evaluation purposes. In addition, the disciplinary differences should be considered for assessing books' impacts.
翻訳日:2021-07-23 23:05:40 公開日:2021-07-22
# (参考訳) 生成的拡張による群衆からの学習の改善 [全文訳有]

Improve Learning from Crowds via Generative Augmentation ( http://arxiv.org/abs/2107.10449v1 )

ライセンス: CC BY 4.0
Zhendong Chu, Hongning Wang(参考訳) クラウドソーシングは、教師付き機械学習のための効率的なラベルコレクションスキーマを提供する。 しかし、アノテーションのコストを制御するために、クラウドソースされたデータの各インスタンスは通常、少数のアノテーションによって注釈付けされる。 これにより、余分な問題が発生し、そのようなデータでトレーニングされた機械学習モデルの品質が制限される。 本稿では,データ拡張を用いたクラウドソースデータの分散処理について検討する。 具体的には、生のスパースアノテーションを拡大することにより、分類器を直接学習することを提案する。 1) 生成したアノテーションは,識別器によって測定される真のアノテーションの分布に従わなければならない; 2) 生成したアノテーションは,補助ネットワークによって測定される接地構造ラベルと高い相互情報を持つべきである。 実世界の3つのデータセットに対する群集手法による一連の最先端学習との比較実験により,データ拡張フレームワークの有効性が実証された。 これは、低予算のクラウドソーシング全般に対するアルゴリズムの可能性を示しています。

Crowdsourcing provides an efficient label collection schema for supervised machine learning. However, to control annotation cost, each instance in the crowdsourced data is typically annotated by a small number of annotators. This creates a sparsity issue and limits the quality of machine learning models trained on such data. In this paper, we study how to handle sparsity in crowdsourced data using data augmentation. Specifically, we propose to directly learn a classifier by augmenting the raw sparse annotations. We implement two principles of high-quality augmentation using Generative Adversarial Networks: 1) the generated annotations should follow the distribution of authentic ones, which is measured by a discriminator; 2) the generated annotations should have high mutual information with the ground-truth labels, which is measured by an auxiliary network. Extensive experiments and comparisons against an array of state-of-the-art learning from crowds methods on three real-world datasets proved the effectiveness of our data augmentation framework. It shows the potential of our algorithm for low-budget crowdsourcing in general.
翻訳日:2021-07-23 23:04:34 公開日:2021-07-22
# (参考訳) ばらばらな固定構造ガウスベイズネットワークの学習 [全文訳有]

Learning Sparse Fixed-Structure Gaussian Bayesian Networks ( http://arxiv.org/abs/2107.10450v1 )

ライセンス: CC BY 4.0
Arnab Bhattacharyya, Davin Choo, Rishikesh Gajjala, Sutanu Gayen, Yuhao Wang(参考訳) ガウス・ベイズネットワーク(gaussian bayesian networks)。 線形ガウス構造方程式モデル)は連続変数間の因果相互作用をモデル化するために広く用いられている。 本研究では,全変動距離の有界誤差まで,固定構造ガウスベイズネットワークを学習する問題について検討する。 一般に使われているノード最小二乗回帰(LeastSquares)を分析し、ほぼ最適サンプルの複雑さがあることを証明する。 BatchAvgLeastSquares は、各ノードにおける最小二乗解のバッチ数の平均を計算し、バッチサイズとバッチ数とを補間できるようにします。 BatchAvgLeastSquares は、ほぼ最適なサンプルの複雑さも示しています。 - CauchyEstは、各ノードにおける複数の線形システムのバッチに対するソリューションの中央値を取る。 ポリツリーに特化したアルゴリズムであるCauchyEstTreeは、ほぼ最適サンプル複雑性を有することを示す。 実験により,未汚染で実現可能なデータに対しては,LeastSquaresアルゴリズムが最適であるが,汚染やDAGの誤用がある場合には,CauchyEst/CauchyEst Tree と BatchAvgLeastSquares がそれぞれよい性能を示した。

Gaussian Bayesian networks (a.k.a. linear Gaussian structural equation models) are widely used to model causal interactions among continuous variables. In this work, we study the problem of learning a fixed-structure Gaussian Bayesian network up to a bounded error in total variation distance. We analyze the commonly used node-wise least squares regression (LeastSquares) and prove that it has a near-optimal sample complexity. We also study a couple of new algorithms for the problem: - BatchAvgLeastSquares takes the average of several batches of least squares solutions at each node, so that one can interpolate between the batch size and the number of batches. We show that BatchAvgLeastSquares also has near-optimal sample complexity. - CauchyEst takes the median of solutions to several batches of linear systems at each node. We show that the algorithm specialized to polytrees, CauchyEstTree, has near-optimal sample complexity. Experimentally, we show that for uncontaminated, realizable data, the LeastSquares algorithm performs best, but in the presence of contamination or DAG misspecification, CauchyEst/CauchyEstT ree and BatchAvgLeastSquares respectively perform better.
翻訳日:2021-07-23 22:49:56 公開日:2021-07-22
# (参考訳) CogSense:認知にインスパイアされた知覚適応フレームワーク [全文訳有]

CogSense: A Cognitively Inspired Framework for Perception Adaptation ( http://arxiv.org/abs/2107.10456v1 )

ライセンス: CC BY 4.0
Hyukseong Kwon, Amir Rahimi, Kevin G. Lee, Amit Agarwal, Rajan Bhattacharyya(参考訳) 本稿では,確率論的信号時間論理を用いた知覚誤り検出と知覚パラメータ適応を行うために,哺乳類の脳における感覚認識と知覚に触発されたCogSenseシステムを提案する。 特定の応用として、コントラストに基づく知覚適応法を示し、検証する。 提案手法は,検出対象から計算した不均一なプローブ関数を用いて知覚誤差を評価し,コントラスト最適化問題を解く。 CogSenseプローブ関数は、物体の幾何学的特徴、ダイナミクス、検出されたブロブ画像の品質を利用して確率的信号時間論理の枠組みで公理を開発する。 これらの公理を評価することにより、検出が有効かどうかを正式に検証できる。 さらに、CagSenseの公理を用いて確率的信号時間論理に基づく制約を生成し、コントラストに基づく最適化問題を最終的に解決し、偽陽性と偽陰性を減らす。

This paper proposes the CogSense system, which is inspired by sense-making cognition and perception in the mammalian brain to perform perception error detection and perception parameter adaptation using probabilistic signal temporal logic. As a specific application, a contrast-based perception adaption method is presented and validated. The proposed method evaluates perception errors using heterogeneous probe functions computed from the detected objects and subsequently solves a contrast optimization problem to correct perception errors. The CogSense probe functions utilize the characteristics of geometry, dynamics, and detected blob image quality of the objects to develop axioms in a probabilistic signal temporal logic framework. By evaluating these axioms, we can formally verify whether the detections are valid or erroneous. Further, using the CogSense axioms, we generate the probabilistic signal temporal logic-based constraints to finally solve the contrast-based optimization problem to reduce false positives and false negatives.
翻訳日:2021-07-23 21:52:48 公開日:2021-07-22
# (参考訳) PoseDet: Pose Embedding を用いた高速マルチパーソンポーズ推定 [全文訳有]

PoseDet: Fast Multi-Person Pose Estimation Using Pose Embedding ( http://arxiv.org/abs/2107.10466v1 )

ライセンス: CC BY 4.0
Chenyu Tian, Ran Yu, Xinyuan Zhao, Weihao Xia, Yujiu Yang, Haoqian Wang(参考訳) 多人数ポーズ推定の現在の方法は、典型的には、局所化と身体関節の関連を別々に扱う。 これは便利だが非効率であり、さらなる計算と時間の浪費につながる。 しかし,本稿では,身体関節の局所化と結合を高い推算速度で同時に行うための新しい枠組みであるポスデット(位置推定によるポーズ推定)を提案する。 さらに,キーポイントの位置の観点でオブジェクトを表現するために,キーポイント対応のポーズ埋め込みを提案する。 提案するポーズ埋め込みは意味的および幾何学的情報を含み,識別的および情報的特徴を効率的に利用できる。 PoseDetの候補分類や身体の関節局在に利用され、様々なポーズの堅牢な予測に繋がる。 この単純なフレームワークは、最先端の手法と比較してCOCOベンチマークで前例のないスピードと競争精度を達成する。 crowdposeベンチマークに関する広範な実験は、群衆のシーンにおける堅牢性を示している。 ソースコードは利用可能である。

Current methods of multi-person pose estimation typically treat the localization and the association of body joints separately. It is convenient but inefficient, leading to additional computation and a waste of time. This paper, however, presents a novel framework PoseDet (Estimating Pose by Detection) to localize and associate body joints simultaneously at higher inference speed. Moreover, we propose the keypoint-aware pose embedding to represent an object in terms of the locations of its keypoints. The proposed pose embedding contains semantic and geometric information, allowing us to access discriminative and informative features efficiently. It is utilized for candidate classification and body joint localization in PoseDet, leading to robust predictions of various poses. This simple framework achieves an unprecedented speed and a competitive accuracy on the COCO benchmark compared with state-of-the-art methods. Extensive experiments on the CrowdPose benchmark show the robustness in the crowd scenes. Source code is available.
翻訳日:2021-07-23 21:41:22 公開日:2021-07-22
# (参考訳) 音響イベントの定位と検出が困難になる理由 エラー分析からの洞察 [全文訳有]

What Makes Sound Event Localization and Detection Difficult? Insights from Error Analysis ( http://arxiv.org/abs/2107.10469v1 )

ライセンス: CC BY 4.0
Thi Ngoc Tho Nguyen and Karn N. Watcharasupat and Zhen Jian Lee and Ngoc Khanh Nguyen and Douglas L. Jones and Woon Seng Gan(参考訳) sound event localization and detection(seld)は、音のイベント検出と方向推定のタスクを統合することを目的とした、新たな研究テーマである。 その結果、seddはノイズ、残響、干渉、ポリフォニー、音源の非定常性といった両方の課題を継承している。 さらに、suldは、検出された音響クラスと複数の重なり合う音イベントへの到着方向との間の正しい対応を割り当てるという追加の課題に直面することが多い。 以前の研究では、残響環境における未知の干渉がsldシステムの性能に大きな劣化を引き起こすことが示されている。 我々は,SELDタスクの課題をさらに理解するため,2020年と2021年の2つのSELDシステムにおいて,DCASE SELDチャレンジのチームカテゴリで2位,2021年の1位にランクインした2つのSELDシステムの詳細なエラー解析を行った。 実験の結果,ポリフォニーがSELDの主要な課題であることが明らかとなった。 さらに、SELDシステムでは、トレーニングセットで支配的なポリフォニックシナリオのエラーが少なくなる傾向がある。

Sound event localization and detection (SELD) is an emerging research topic that aims to unify the tasks of sound event detection and direction-of-arrival estimation. As a result, SELD inherits the challenges of both tasks, such as noise, reverberation, interference, polyphony, and non-stationarity of sound sources. Furthermore, SELD often faces an additional challenge of assigning correct correspondences between the detected sound classes and directions of arrival to multiple overlapping sound events. Previous studies have shown that unknown interferences in reverberant environments often cause major degradation in the performance of SELD systems. To further understand the challenges of the SELD task, we performed a detailed error analysis on two of our SELD systems, which both ranked second in the team category of DCASE SELD Challenge, one in 2020 and one in 2021. Experimental results indicate polyphony as the main challenge in SELD, due to the difficulty in detecting all sound events of interest. In addition, the SELD systems tend to make fewer errors for the polyphonic scenario that is dominant in the training set.
翻訳日:2021-07-23 21:24:40 公開日:2021-07-22
# (参考訳) s{\o>rensen-dice係数損失と転送学習による多チャンネル録音におけるポリフォニック音響イベント検出の改善 [全文訳有]

Improving Polyphonic Sound Event Detection on Multichannel Recordings with the S{\o}rensen-Dice Coefficient Loss and Transfer Learning ( http://arxiv.org/abs/2107.10471v1 )

ライセンス: CC BY 4.0
Karn N. Watcharasupat and Thi Ngoc Tho Nguyen and Ngoc Khanh Nguyen and Zhen Jian Lee and Douglas L. Jones and Woon Seng Gan(参考訳) s{\o>rensen-dice係数は,最近,意味セグメンテーションや自然言語処理,音声イベント検出などの正のサンプル数を大幅に上回るタスクにおいて,その頑健さから,損失関数(サイスロスとも呼ばれる)として人気が高まっている。 二重エントロピー損失を有するポリフォニック音事象検出システムの従来の訓練は、負のサンプルからの更新に圧倒されることが多いため、しばしば準最適検出性能をもたらす。 本稿では,多チャンネル入力を用いた多音質音声イベント検出システムの性能に及ぼすDice損失,モーダル内およびモーダル間移動学習,データ拡張,記録形式の影響について検討した。 分析の結果,Diceの損失を訓練したポリフォニック音声イベント検出システムは,F1スコアと誤り率の点で,異なるトレーニング設定と記録フォーマットで訓練した話者よりも一貫して優れていた。 我々は、転送学習と異なるデータ拡張手法を適切に組み合わせることで、さらなるパフォーマンス向上を実現した。

The S{\o}rensen--Dice Coefficient has recently seen rising popularity as a loss function (also known as Dice loss) due to its robustness in tasks where the number of negative samples significantly exceeds that of positive samples, such as semantic segmentation, natural language processing, and sound event detection. Conventional training of polyphonic sound event detection systems with binary cross-entropy loss often results in suboptimal detection performance as the training is often overwhelmed by updates from negative samples. In this paper, we investigated the effect of the Dice loss, intra- and inter-modal transfer learning, data augmentation, and recording formats, on the performance of polyphonic sound event detection systems with multichannel inputs. Our analysis showed that polyphonic sound event detection systems trained with Dice loss consistently outperformed those trained with cross-entropy loss across different training settings and recording formats in terms of F1 score and error rate. We achieved further performance gains via the use of transfer learning and an appropriate combination of different data augmentation techniques.
翻訳日:2021-07-23 21:14:20 公開日:2021-07-22
# (参考訳) 光コヒーレンス断層画像のための大規模ベンチマークデータセットを用いた深層学習に基づく品質評価・セグメンテーションシステム [全文訳有]

A Deep Learning-based Quality Assessment and Segmentation System with a Large-scale Benchmark Dataset for Optical Coherence Tomographic Angiography Image ( http://arxiv.org/abs/2107.10476v1 )

ライセンス: CC BY 4.0
Yufei Wang and Yiqing Shen and Meng Yuan and Jing Xu and Bin Yang and Chi Liu and Wenjia Cai and Weijing Cheng and Wei Wang(参考訳) 光コヒーレンス・トモグラフィー(OCTA)は、生体内における網膜と視神経の微小血管の可視化を提供する非侵襲的、非接触イメージング技術である。 OCTAの適切な画質は、その後の網膜微小血管の定量化に必須である。 伝統的に、信号強度に基づく画質スコアは低品質の識別に用いられる。 しかし、専門知識に依存し、面倒で時間を要する手動識別を必要とする動きやオフセントレーションなどの人工物を特定するには不十分である。 OCTA分析における最も大きな問題の1つは、網膜の胎児血管ゾーン(FAZ)領域を分類することである。 しかし、OCTAの視覚的品質の変化は、下流におけるディープラーニングの性能にわずかに影響を及ぼす。 さらに、低品質のOCTA画像をフィルタリングすることは、労働集約的かつ時間を要する。 これらの課題に対処するため,深層ニューラルネットワークを用いた自動OCTA画像処理システムを開発し,眼科医の臨床診断・研究を支援する。 このシステムは、様々なフォーマットのOCTA画像を処理して品質を評価し、FAZ領域を分割する補助ツールとなる。 ソースコードはhttps://github.com/s hanzha09/COIPS.gitで無料で入手できる。 もうひとつの大きな貢献は大規模なOCTAデータセットであるOCTA-25K-IQA-SEGである。 4つのサブセット(sOCTA-3$\times$3-10 k、sOCTA-6$\times$6-14k 、sOCTA-3$\times$3-1.1 k-seg、dOCTA-6$\times$6-1.1 k-seg、合計25,665枚)で構成されている。 大規模なOCTAデータセットはhttps://doi.org/10.5 281/zenodo.5111975, https://doi.org/10.5 281/zenodo.5111972で入手できる。

Optical Coherence Tomography Angiography (OCTA) is a non-invasive and non-contacting imaging technique providing visualization of microvasculature of retina and optic nerve head in human eyes in vivo. The adequate image quality of OCTA is the prerequisite for the subsequent quantification of retinal microvasculature. Traditionally, the image quality score based on signal strength is used for discriminating low quality. However, it is insufficient for identifying artefacts such as motion and off-centration, which rely specialized knowledge and need tedious and time-consuming manual identification. One of the most primary issues in OCTA analysis is to sort out the foveal avascular zone (FAZ) region in the retina, which highly correlates with any visual acuity disease. However, the variations in OCTA visual quality affect the performance of deep learning in any downstream marginally. Moreover, filtering the low-quality OCTA images out is both labor-intensive and time-consuming. To address these issues, we develop an automated computer-aided OCTA image processing system using deep neural networks as the classifier and segmentor to help ophthalmologists in clinical diagnosis and research. This system can be an assistive tool as it can process OCTA images of different formats to assess the quality and segment the FAZ area. The source code is freely available at https://github.com/s hanzha09/COIPS.git. Another major contribution is the large-scale OCTA dataset, namely OCTA-25K-IQA-SEG we publicize for performance evaluation. It is comprised of four subsets, namely sOCTA-3$\times$3-10k , sOCTA-6$\times$6-14k , sOCTA-3$\times$3-1.1 k-seg, and dOCTA-6$\times$6-1.1 k-seg, which contains a total number of 25,665 images. The large-scale OCTA dataset is available at https://doi.org/10.5 281/zenodo.5111975, https://doi.org/10.5 281/zenodo.5111972.
翻訳日:2021-07-23 21:02:57 公開日:2021-07-22
# (参考訳) 人間の視点推定のための適応的拡張畳み込み [全文訳有]

Adaptive Dilated Convolution For Human Pose Estimation ( http://arxiv.org/abs/2107.10477v1 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Zhicheng Wang, Yan Huang, Liang Wang, Tieniu Tan and Erjin Zhou(参考訳) 既存のヒトのポーズ推定(HPE)手法は、4つの異なる空間サイズの特徴マップを融合してマルチスケール情報を利用する場合、i:1/4$、1/8$、1/16$、1/32$。 この戦略には2つの欠点がある: 1) 異なる空間サイズの特徴写像は、空間的に不整合であり、キーポイント位置の精度を損なう可能性がある; 2) それらのスケールは固定され、柔軟であり、様々な人間のサイズに対する一般化能力を制限する可能性がある。 これらの課題に対して,適応拡張畳み込み(ADC)を提案する。 異なるチャネルに対して異なるダイレーションレートを設定することで、同じ空間サイズのマルチスケール特徴を生成し、融合することができる。 さらに重要なのは、これらの拡張率は回帰モジュールによって生成されることだ。 これにより、ADCは融合スケールを適応的に調整できるため、ADCは様々な人間のサイズに最適化できる。 ADCはエンドツーエンドでトレーニングでき、既存のメソッドに簡単にプラグインできる。 大規模な実験により、ADCは様々なHPE法に一貫した改善をもたらすことが示されている。 ソースコードは、さらなる研究のためにリリースされます。

Most existing human pose estimation (HPE) methods exploit multi-scale information by fusing feature maps of four different spatial sizes, \ie $1/4$, $1/8$, $1/16$, and $1/32$ of the input image. There are two drawbacks of this strategy: 1) feature maps of different spatial sizes may be not well aligned spatially, which potentially hurts the accuracy of keypoint location; 2) these scales are fixed and inflexible, which may restrict the generalization ability over various human sizes. Towards these issues, we propose an adaptive dilated convolution (ADC). It can generate and fuse multi-scale features of the same spatial sizes by setting different dilation rates for different channels. More importantly, these dilation rates are generated by a regression module. It enables ADC to adaptively adjust the fused scales and thus ADC may generalize better to various human sizes. ADC can be end-to-end trained and easily plugged into existing methods. Extensive experiments show that ADC can bring consistent improvements to various HPE methods. The source codes will be released for further research.
翻訳日:2021-07-23 20:36:45 公開日:2021-07-22
# (参考訳) モデル説明による逆例の教師なし検出 [全文訳有]

Unsupervised Detection of Adversarial Examples with Model Explanations ( http://arxiv.org/abs/2107.10480v1 )

ライセンス: CC BY 4.0
Gihyuk Ko, Gyumin Lim(参考訳) Deep Neural Networks(DNN)は、さまざまな機械学習アプリケーションで顕著なパフォーマンスを示している。 しかし、DNNは単純な逆転摂動に弱いことが広く知られており、入力を誤って分類する原因となっている。 本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出する方法を提案する。 私たちの重要な観察は、小さな、人間に知覚できない摂動がモデル説明の劇的な変化を招き、異常な形式や不規則な説明を生じさせることである。 そこで本研究では,良性例のモデル説明のみに基づいて学習した再構成ネットワークを用いて,非教師なしの逆例検出を提案する。 mnist手書きデータセットを用いた評価の結果,最先端アルゴリズムが生成する逆例を高い信頼度で検出できることがわかった。 我々の知る限り、この研究はモデル説明を用いた教師なし防御手法を提案する最初のものである。

Deep Neural Networks (DNNs) have shown remarkable performance in a diverse range of machine learning applications. However, it is widely known that DNNs are vulnerable to simple adversarial perturbations, which causes the model to incorrectly classify inputs. In this paper, we propose a simple yet effective method to detect adversarial examples, using methods developed to explain the model's behavior. Our key observation is that adding small, humanly imperceptible perturbations can lead to drastic changes in the model explanations, resulting in unusual or irregular forms of explanations. From this insight, we propose an unsupervised detection of adversarial examples using reconstructor networks trained only on model explanations of benign examples. Our evaluations with MNIST handwritten dataset show that our method is capable of detecting adversarial examples generated by the state-of-the-art algorithms with high confidence. To the best of our knowledge, this work is the first in suggesting unsupervised defense method using model explanations.
翻訳日:2021-07-23 20:26:01 公開日:2021-07-22
# (参考訳) 非循環性制約のない効率的な神経因果発見

Efficient Neural Causal Discovery without Acyclicity Constraints ( http://arxiv.org/abs/2107.10483v1 )

ライセンス: CC BY 4.0
Phillip Lippe, Taco Cohen, Efstratios Gavves(参考訳) 観察データと介入データの両方を用いて因果的グラフィカルモデルの構造を学ぶことは、多くの科学分野において根本的な問題である。 有望な方向は、データ駆動方式で効率的に因果グラフを学習するスコアベース手法の連続最適化である。 しかし、これまでこれらの手法は非巡回性や収束保証の欠如を強制するために制約付き最適化が必要であった。 本稿では,観測データと介入データを利用した指向性非循環因果グラフの効率的な構造学習手法であるENCOを提案する。 enco はグラフ探索を独立したエッジ確率の最適化として定式化し、エッジ方向を別のパラメータとしてモデル化する。 その結果, スコア関数を非周期性に制約することなく, 軽度条件下でのENCOの収束保証を行うことができた。 実験では、ENCOは決定論的変数や潜在的共同設立者を扱いながら、数百のノードでグラフを効率よく回収できることを示した。

Learning the structure of a causal graphical model using both observational and interventional data is a fundamental problem in many scientific fields. A promising direction is continuous optimization for score-based methods, which efficiently learn the causal graph in a data-driven manner. However, to date, those methods require constrained optimization to enforce acyclicity or lack convergence guarantees. In this paper, we present ENCO, an efficient structure learning method for directed, acyclic causal graphs leveraging observational and interventional data. ENCO formulates the graph search as an optimization of independent edge likelihoods, with the edge orientation being modeled as a separate parameter. Consequently, we can provide convergence guarantees of ENCO under mild conditions without constraining the score function with respect to acyclicity. In experiments, we show that ENCO can efficiently recover graphs with hundreds of nodes, an order of magnitude larger than what was previously possible, while handling deterministic variables and latent confounders.
翻訳日:2021-07-23 20:18:35 公開日:2021-07-22
# (参考訳) Bandit Quickest Changepoint Detection [全文訳有]

Bandit Quickest Changepoint Detection ( http://arxiv.org/abs/2107.10492v1 )

ライセンス: CC BY 4.0
Aditya Gopalan, Venkatesh Saligrama and Braghadeesh Lakshminarayanan(参考訳) 時間的行動パターンの急激な変化を検出することは、多くの産業およびセキュリティアプリケーションにおいて興味深い。 急激な変化はしばしば局所的に観測可能であり、主によく整列された感知動作(例えば視野が狭いカメラ)によって観測される。 リソースの制約のため、すべてのセンサの継続的な監視は実用的ではない。 本稿では,センサコストと検出遅延のバランスをとる手段として,最短変更点検出フレームワークを提案する。 この枠組みでは、センサアクション(またはセンサー)が順次選択され、選択されたアクションに対応する測定のみが観察される。 有限パラメータ化確率分布の一般クラスにおける検出遅延に関する情報理論的下界を導出する。 そこで我々は,異なる検知オプションの探索と質問行動の活用をシームレスにバランスさせる,計算効率のよいオンラインセンシング手法を提案する。 我々は,提案手法の遅延境界を導出し,提案手法の最適性を確立するために,情報理論下限を低い誤警報率で一致させることを示す。 次に,提案手法の有効性を示す合成データと実データについて実験を行った。

Detecting abrupt changes in temporal behavior patterns is of interest in many industrial and security applications. Abrupt changes are often local and observable primarily through a well-aligned sensing action (e.g., a camera with a narrow field-of-view). Due to resource constraints, continuous monitoring of all of the sensors is impractical. We propose the bandit quickest changepoint detection framework as a means of balancing sensing cost with detection delay. In this framework, sensing actions (or sensors) are sequentially chosen, and only measurements corresponding to chosen actions are observed. We derive an information-theoreti c lower bound on the detection delay for a general class of finitely parameterized probability distributions. We then propose a computationally efficient online sensing scheme, which seamlessly balances the need for exploration of different sensing options with exploitation of querying informative actions. We derive expected delay bounds for the proposed scheme and show that these bounds match our information-theoreti c lower bounds at low false alarm rates, establishing optimality of the proposed method. We then perform a number of experiments on synthetic and real datasets demonstrating the efficacy of our proposed method.
翻訳日:2021-07-23 20:17:35 公開日:2021-07-22
# (参考訳) 前向きソナー画像におけるターゲットの低ショット学習のための外部記憶ネットワーク [全文訳有]

External-Memory Networks for Low-Shot Learning of Targets in Forward-Looking-Sona r Imagery ( http://arxiv.org/abs/2107.10504v1 )

ライセンス: CC BY 4.0
Isaac J. Sledge, Christopher D. Toole, Joseph A. Maestri, and Jose C. Principe(参考訳) 本稿では,前向きソナー(FLS)画像におけるリアルタイム・データ効率の高いターゲット分析のためのメモリベースフレームワークを提案する。 我々のフレームワークは、DenseNetにインスパイアされた小さなネットワークを用いて、画像から識別不能な詳細を最初に除去することに依存している。 これにより、続く分析を単純化し、ラベル付き例から一般化することができる。 次に,フィルタ画像から新しいニューラルRAMベースの畳み込みマッチングネットワークであるNEMNにカスケードして,ローショットターゲット認識を行う。 我々は,小規模フローネットlfnを用いて,局所的な時間スケールでfls画像の調整と登録を行う。 LFNは画像間での目標ラベルのコンセンサス投票を可能にし、一般的にターゲットの検出と認識率を改善する。 本研究では,多種多様なクラスを対象とする実世界のFLS画像を用いたフレームワークの評価を行った。 10から30のクラス特化外見を持つ数ショットの学習は、クラス毎に数百のサンプルでトレーニングされた教師付きディープネットワークと同じようなパフォーマンスを示す。 効果的なゼロショット学習も可能である。 NRMNのインダクティブ・トランスファー特性から、イントラクタ素子の除去時に高い性能を実現する。

We propose a memory-based framework for real-time, data-efficient target analysis in forward-looking-sona r (FLS) imagery. Our framework relies on first removing non-discriminative details from the imagery using a small-scale DenseNet-inspired network. Doing so simplifies ensuing analyses and permits generalizing from few labeled examples. We then cascade the filtered imagery into a novel NeuralRAM-based convolutional matching network, NRMN, for low-shot target recognition. We employ a small-scale FlowNet, LFN to align and register FLS imagery across local temporal scales. LFN enables target label consensus voting across images and generally improves target detection and recognition rates. We evaluate our framework using real-world FLS imagery with multiple broad target classes that have high intra-class variability and rich sub-class structure. We show that few-shot learning, with anywhere from ten to thirty class-specific exemplars, performs similarly to supervised deep networks trained on hundreds of samples per class. Effective zero-shot learning is also possible. High performance is realized from the inductive-transfer properties of NRMNs when distractor elements are removed.
翻訳日:2021-07-23 19:35:33 公開日:2021-07-22
# (参考訳) 古典・量子計算のハイブリッドアプローチによる多重クエリ最適化 [全文訳有]

Multiple Query Optimization using a Hybrid Approach of Classical and Quantum Computing ( http://arxiv.org/abs/2107.10508v1 )

ライセンス: CC BY 4.0
Tobias Fankhauser, Marc E. Sol\`er, Rudolf M. F\"uchslin, Kurt Stockinger(参考訳) 量子コンピューティングは、従来のコンピュータよりも化学、物理学、数学の難しい最適化問題をより効率的に解くことを約束しているが、数百万キュービットのフォールトトレラント量子コンピュータを必要とする。 現在の量子コンピュータがもたらした誤りを克服するために、古典的コンピュータと量子コンピュータを組み合わせたハイブリッドアルゴリズムが用いられる。 本稿では、データ集約問題領域において重要なNPハード問題である多重クエリ最適化問題(MQO)に取り組む。 ゲート型量子コンピュータ上でMQOを解くために,新しい古典量子アルゴリズムを提案する。 我々は,提案アルゴリズムの詳細な実験評価を行い,その性能を,他のタイプの量子コンピュータを用いた競合するアプローチと比較する。 実験の結果,量子アニーリングに基づく量子コンピュータと比較してゲートベースの量子コンピュータで利用可能な量子ビット数が限られているため,現在,我々のアルゴリズムは小さな問題しか扱えないことがわかった。 しかし,本アルゴリズムでは, クビット効率が99%に近づき, ほぼ2倍に向上した。 最後に,我々のアルゴリズムがより大きな問題サイズでどのようにスケールするかを分析し,短期量子コンピュータに有望な結果をもたらすと結論づける。

Quantum computing promises to solve difficult optimization problems in chemistry, physics and mathematics more efficiently than classical computers, but requires fault-tolerant quantum computers with millions of qubits. To overcome errors introduced by today's quantum computers, hybrid algorithms combining classical and quantum computers are used. In this paper we tackle the multiple query optimization problem (MQO) which is an important NP-hard problem in the area of data-intensive problems. We propose a novel hybrid classical-quantum algorithm to solve the MQO on a gate-based quantum computer. We perform a detailed experimental evaluation of our algorithm and compare its performance against a competing approach that employs a quantum annealer -- another type of quantum computer. Our experimental results demonstrate that our algorithm currently can only handle small problem sizes due to the limited number of qubits available on a gate-based quantum computer compared to a quantum computer based on quantum annealing. However, our algorithm shows a qubit efficiency of close to 99% which is almost a factor of 2 higher compared to the state of the art implementation. Finally, we analyze how our algorithm scales with larger problem sizes and conclude that our approach shows promising results for near-term quantum computers.
翻訳日:2021-07-23 18:04:36 公開日:2021-07-22
# (参考訳) 影の外:アノニマスが2020年のブラック・ライフ・マターの抗議活動でtwitterの復活を分析 [全文訳有]

Out of the Shadows: Analyzing Anonymous' Twitter Resurgence during the 2020 Black Lives Matter Protests ( http://arxiv.org/abs/2107.10554v1 )

ライセンス: CC BY 4.0
Keenan Jones, Jason R. C. Nurse, Shujun Li(参考訳) 最近、かつて著名なハックティビスト集団であるAnonymousからの注目すべき活動はほとんどなかった。 主要企業や政府に対する活動家によるサイバー攻撃を担当した同団体は、2013年に主要メンバーが逮捕された後、分断したようだ。 しかし、ジョージ・フロイド殺害後に起こった大規模なブラック・ライブス・マター(BLM)の抗議に反応して、グループは復帰したと報告された。 本研究は,Twitter上でアノニマス・アフィリエートを大規模に調査するものである。 この目的のために、まず機械学習を使用して、33,000以上の匿名アカウントの重要なネットワークを識別します。 これらのアカウントから収集されたつぶやきのトピックモデリングを通じて、BLMに関連するトピックに対する継続的な関心の証拠を見出す。 次に、これらのトピックに焦点を当てたツイートに対する感情分析を使い、グループ間の統一的なアプローチの証拠を見つけ、ポジティブなツイートは一般的にblmへの支持を表明するために使われ、ネガティブなツイートは警察の行動を批判するために使われる。 最後に,ネットワークにおける自動化の存在を調べ,匿名アカウントの多数にまたがるボット的行動の兆候を同定する。 これらの結果は、このグループは抗議活動中に復活を見たが、ボットの活動は、この復活の程度を誇張する責任があることを示している。

Recently, there had been little notable activity from the once prominent hacktivist group, Anonymous. The group, responsible for activist-based cyber attacks on major businesses and governments, appeared to have fragmented after key members were arrested in 2013. In response to the major Black Lives Matter (BLM) protests that occurred after the killing of George Floyd, however, reports indicated that the group was back. To examine this apparent resurgence, we conduct a large-scale study of Anonymous affiliates on Twitter. To this end, we first use machine learning to identify a significant network of more than 33,000 Anonymous accounts. Through topic modelling of tweets collected from these accounts, we find evidence of sustained interest in topics related to BLM. We then use sentiment analysis on tweets focused on these topics, finding evidence of a united approach amongst the group, with positive tweets typically being used to express support towards BLM, and negative tweets typically being used to criticize police actions. Finally, we examine the presence of automation in the network, identifying indications of bot-like behavior across the majority of Anonymous accounts. These findings show that whilst the group has seen a resurgence during the protests, bot activity may be responsible for exaggerating the extent of this resurgence.
翻訳日:2021-07-23 16:34:26 公開日:2021-07-22
# (参考訳) ニューラルネットワークにおける逆例の解説に向けて [全文訳有]

Towards Explaining Adversarial Examples Phenomenon in Artificial Neural Networks ( http://arxiv.org/abs/2107.10599v1 )

ライセンス: CC BY 4.0
Ramin Barati, Reza Safabakhsh, Mohammad Rahmati(参考訳) 本稿では,収束の観点からの対向例の存在と対向訓練について検討し,annにおける点収束がこれらの観察を説明できることを示す。 本提案の主な貢献は, 学習理論ですでに定義されている概念を用いて, 回避攻撃と対人訓練の目的を関連づけることである。 また、文献中の他の提案のいくつかを拡張し、統一し、これらの提案でなされた観察について代替的な説明を提供する。 異なる実験を通じて,この枠組みが現象の研究に有用であり,実世界問題に適用できることを示す。

In this paper, we study the adversarial examples existence and adversarial training from the standpoint of convergence and provide evidence that pointwise convergence in ANNs can explain these observations. The main contribution of our proposal is that it relates the objective of the evasion attacks and adversarial training with concepts already defined in learning theory. Also, we extend and unify some of the other proposals in the literature and provide alternative explanations on the observations made in those proposals. Through different experiments, we demonstrate that the framework is valuable in the study of the phenomenon and is applicable to real-world problems.
翻訳日:2021-07-23 16:15:21 公開日:2021-07-22
# (参考訳) cCorrGAN:Elliptopeにおける経験的条件分布学習のための条件相関GAN [全文訳有]

cCorrGAN: Conditional Correlation GAN for Learning Empirical Conditional Distributions in the Elliptope ( http://arxiv.org/abs/2107.10606v1 )

ライセンス: CC BY 4.0
Gautier Marti, Victor Goubet, Frank Nielsen(参考訳) 本稿では,条件生成逆ネットワークに基づく相関行列の楕円の条件分布を近似する手法を提案する。 モンテカルロシミュレーション(モンテカルロシュミレーション)は、リスクベースのポートフォリオ構築法を比較するための相関リターンのシミュレーションである。 最後に,現在の限界について議論し,結果を改善するための楕円幾何学のさらなる探索を提唱する。

We propose a methodology to approximate conditional distributions in the elliptope of correlation matrices based on conditional generative adversarial networks. We illustrate the methodology with an application from quantitative finance: Monte Carlo simulations of correlated returns to compare risk-based portfolio construction methods. Finally, we discuss about current limitations and advocate for further exploration of the elliptope geometry to improve results.
翻訳日:2021-07-23 16:06:44 公開日:2021-07-22
# (参考訳) HARP-Net: Hyper-Autoencoded Reconstruction Propagation\\for Scalable Neural Audio Coding

HARP-Net: Hyper-Autoencoded Reconstruction Propagation\\for Scalable Neural Audio Coding ( http://arxiv.org/abs/2107.10843v1 )

ライセンス: CC BY 4.0
Darius Petermann, Seungkwon Beack, Minje Kim(参考訳) オートエンコーダベースのコーデックは、そのボトルネック層の活性化をビットストリングに変換するために量子化を利用する。 この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。 ミラー化された自己エンコーダトポロジーでは、デコーダ層はその対応するエンコーダ層の中間特徴表現を再構成する。 これにより、対応するエンコーダ層から直接伝播する付加情報が復元に役立つ。 我々はこのようなスキップ接続を追加のオートエンコーダで実装し、それぞれがペアのエンコーダ-デコーダ層間の大量のデータ転送を圧縮する小さなコーデックである。 提案するハイパーオートコーディングアーキテクチャは,通常のオートエンコーダベースラインに比べて知覚音質の向上を実証的に検証する。

An autoencoder-based codec employs quantization to turn its bottleneck layer activation into bitstrings, a process that hinders information flow between the encoder and decoder parts. To circumvent this issue, we employ additional skip connections between the corresponding pair of encoder-decoder layers. The assumption is that, in a mirrored autoencoder topology, a decoder layer reconstructs the intermediate feature representation of its corresponding encoder layer. Hence, any additional information directly propagated from the corresponding encoder layer helps the reconstruction. We implement this kind of skip connections in the form of additional autoencoders, each of which is a small codec that compresses the massive data transfer between the paired encoder-decoder layers. We empirically verify that the proposed hyper-autoencoded architecture improves perceptual audio quality compared to an ordinary autoencoder baseline.
翻訳日:2021-07-23 16:00:05 公開日:2021-07-22
# (参考訳) 量子NAS:ロバスト量子回路の雑音適応探索 [全文訳有]

QuantumNAS: Noise-Adaptive Search for Robust Quantum Circuits ( http://arxiv.org/abs/2107.10845v1 )

ライセンス: CC BY 4.0
Hanrui Wang and Yongshan Ding and Jiaqi Gu and Yujun Lin and David Z. Pan and Frederic T. Chong and Song Han(参考訳) 量子ノイズは、ノイズの多い中間スケール量子(nisq)コンピュータにおける鍵となる課題である。 限られた研究努力により、量子回路をノイズに耐性を持たせることにより、より高いレベルの最適化が研究されている。 可変回路と量子ビットマッピングのノイズ適応型共探索のための最初の包括的フレームワークであるquantumnasを提案し,実験的に実装する。 変分量子回路は、量子シミュレーションのための機械学習と変分アンサーゼのための量子ニューラルネットワークを構築するための有望なアプローチである。 しかし、最高の変分回路とその最適パラメータを見つけることは、高次元ヒルベルト空間において困難である。 本稿では,新しいゲート共有スーパーサーキットを導入することにより,パラメータトレーニングと回路探索を分離する。 SuperCircuitはSubCircuitsのサンプリングと更新によってトレーニングされ、スクラッチからトレーニングしたSubCircuitのパフォーマンスを正確に推定する。 次に,SubCircuitとその量子ビットマッピングの進化的共同研究を行う。 SubCircuitの性能はSuperCircuitから継承されたパラメータで推定され、実際のデバイスノイズモデルでシミュレートされる。 最後に,冗長なゲートをさらに細粒度に除去するために,反復ゲートプルーニングと微調整を行う。 10の量子コンピュータで12のqmlとvqeベンチマークで広範囲に評価され、quantumnasはノイズ対応検索、人間およびランダムベースラインを大きく上回っている。 QMLタスクでは、QuantumNASは95%以上の2クラス、85%の4クラス、実際の量子コンピュータ上での10クラスの分類精度を初めて示した。 また、UCCSDベースラインと比較して、H2, H2O, LiH, CH4, BeH2上のVQEタスクの最小固有値も達成している。 我々はまた、パラメータ化量子回路の高速なトレーニングのためのQuantumEngine(https: //github.com/mit-han -lab/pytorch-quantum )をオープンソース化し、将来の研究を促進する。

Quantum noise is the key challenge in Noisy Intermediate-Scale Quantum (NISQ) computers. Limited research efforts have explored a higher level of optimization by making the quantum circuit resilient to noise. We propose and experimentally implement QuantumNAS, the first comprehensive framework for noise-adaptive co-search of variational circuit and qubit mapping. Variational quantum circuits are a promising approach for constructing quantum neural networks for machine learning and variational ansatzes for quantum simulation. However, finding the best variational circuit and its optimal parameters is challenging in a high-dimensional Hilbert space. We propose to decouple the parameter training and circuit search by introducing a novel gate-sharing SuperCircuit. The SuperCircuit is trained by sampling and updating the SubCircuits in it and provides an accurate estimation of SubCircuit performance trained from scratch. Then we perform an evolutionary co-search of SubCircuit and its qubit mapping. The SubCircuit performance is estimated with parameters inherited from SuperCircuit and simulated with real device noise models. Finally, we perform iterative gate pruning and finetuning to further remove the redundant gates in a fine-grained manner. Extensively evaluated with 12 QML and VQE benchmarks on 10 quantum computers, QuantumNAS significantly outperforms noise-unaware search, human and random baselines. For QML tasks, QuantumNAS is the first to demonstrate over 95% 2-class, 85% 4-class, and 32% 10-class classification accuracy on real quantum computers. It also achieves the lowest eigenvalue for VQE tasks on H2, H2O, LiH, CH4, BeH2 compared with UCCSD baselines. We also open-source QuantumEngine (https://github.com/ mit-han-lab/pytorch- quantum) for fast training of parameterized quantum circuits to facilitate future research.
翻訳日:2021-07-23 15:55:42 公開日:2021-07-22
# 時間ネットワークにおける損失・欠落情報の復元

Recovering lost and absent information in temporal networks ( http://arxiv.org/abs/2107.10835v1 )

ライセンス: Link先を確認
James P. Bagrow and Sune Lehmann(参考訳) 時間的ネットワーク内の活動の全範囲は、そのエッジアクティビティデータ -- ネットワークの各エッジのタイ強度やオンオフダイナミクスをエンコードする時系列データに記録される。 しかし、多くの実用的なアプリケーションでは、エッジレベルのデータは利用できないため、ネットワーク分析はエッジアクティビティデータを集約するノードのアクティビティデータに頼らなければならない。 静的ネットワークを使用して、ノードアクティビティからよりリッチなエッジアクティビティを復元することは可能ですか? ここでは,情報の損失量を考えると,しばしば驚くほどの精度でリカバリが可能であり,回収されたデータはその後のネットワーク解析タスクに有用であることを示す。 回復は、トポロジカルあるいは動的にネットワーク密度が増加するとより困難になるが、動的およびトポロジカルな間隔を利用すると、回復問題に対する効果的な解が得られる。 そこで本研究では,リカバリ問題の難易度を理論的および経験的特徴付けし,リカバリエラーが境界づけられる条件を証明し,条件が満たされていない場合でも良質な解を導出できることを示す。 複雑なシステムのより深い科学的研究を可能にするため、効果的なリカバリにはpromiseとperilの両方があるが、社会システムのコンテキストでは、複数のデータソースにまたがってソーシャル情報が集約される場合、プライバシの懸念も高まる。

The full range of activity in a temporal network is captured in its edge activity data -- time series encoding the tie strengths or on-off dynamics of each edge in the network. However, in many practical applications, edge-level data are unavailable, and the network analyses must rely instead on node activity data which aggregates the edge-activity data and thus is less informative. This raises the question: Is it possible to use the static network to recover the richer edge activities from the node activities? Here we show that recovery is possible, often with a surprising degree of accuracy given how much information is lost, and that the recovered data are useful for subsequent network analysis tasks. Recovery is more difficult when network density increases, either topologically or dynamically, but exploiting dynamical and topological sparsity enables effective solutions to the recovery problem. We formally characterize the difficulty of the recovery problem both theoretically and empirically, proving the conditions under which recovery errors can be bounded and showing that, even when these conditions are not met, good quality solutions can still be derived. Effective recovery carries both promise and peril, as it enables deeper scientific study of complex systems but in the context of social systems also raises privacy concerns when social information can be aggregated across multiple data sources.
翻訳日:2021-07-23 15:25:08 公開日:2021-07-22
# トップ$kの学習性能予測のための三分岐畳み込みニューラルネットワーク

Tri-Branch Convolutional Neural Networks for Top-$k$ Focused Academic Performance Prediction ( http://arxiv.org/abs/2107.10424v1 )

ライセンス: Link先を確認
Chaoran Cui, Jian Zong, Yuling Ma, Xinhua Wang, Lei Guo, Meng Chen, Yilong Yin(参考訳) アカデミックパフォーマンス予測(academic performance prediction)は、学生関連の情報を活用して将来の学術成果を予測することを目的としている。 本稿では,キャンパスのスマートカード記録を用いて包括的に追跡できる学生の日常行動軌跡を分析し,この問題に対処する。 従来の研究と異なり, 縦方向, 縦方向, 縦方向, 奥行き方向の畳み込みと注意操作を備え, 生徒の行動の持続性, 規則性, 時間的分布をそれぞれエンドツーエンドで把握する, 新たなトリブランチcnnアーキテクチャを提案する。 また,アカデミック・パフォーマンスの予測を上位$k$のランキング問題として位置づけ,上位$k$の集中的損失を導入することで,アカデミック・アリスクの学生を識別する精度を確保する。 大規模実世界のデータセット上で大規模な実験を行い,近年提案する学術的性能予測手法を実質的に上回っていることを示す。 再現性のために、我々のコードはhttps://github.com/Z ongJ1111/Academic-Pe rformance-Prediction .comでリリースされた。

Academic performance prediction aims to leverage student-related information to predict their future academic outcomes, which is beneficial to numerous educational applications, such as personalized teaching and academic early warning. In this paper, we address the problem by analyzing students' daily behavior trajectories, which can be comprehensively tracked with campus smartcard records. Different from previous studies, we propose a novel Tri-Branch CNN architecture, which is equipped with row-wise, column-wise, and depth-wise convolution and attention operations, to capture the characteristics of persistence, regularity, and temporal distribution of student behavior in an end-to-end manner, respectively. Also, we cast academic performance prediction as a top-$k$ ranking problem, and introduce a top-$k$ focused loss to ensure the accuracy of identifying academically at-risk students. Extensive experiments were carried out on a large-scale real-world dataset, and we show that our approach substantially outperforms recently proposed methods for academic performance prediction. For the sake of reproducibility, our codes have been released at https://github.com/Z ongJ1111/Academic-Pe rformance-Prediction .
翻訳日:2021-07-23 15:24:06 公開日:2021-07-22
# 内蔵型モーションセンサを用いたカメラプロトコルによる認証の改善:ディープラーニングソリューション

Improving the Authentication with Built-in Camera ProtocolUsing Built-in Motion Sensors: A Deep Learning Solution ( http://arxiv.org/abs/2107.10536v1 )

ライセンス: Link先を確認
Cezara Benegui, Radu Tudor Ionescu(参考訳) 組込みカメラ(ABC)プロトコルの強化版として,組込みモーションセンサを用いた深層学習ソリューションを提案する。 標準ABCプロトコルは、QRコードに基づくメタ情報も考慮しながら、カメラセンサの光応答非均一性(PRNU)に基づいてモバイルデバイスを識別する。 認証の間、ユーザーは画面に2つのQRコードを含む2つの写真を撮る必要がある。 提示されたqrコード画像は、プロトコルによって生成されたカメラ指紋に似たユニークなプローブ信号も含む。 検証中、サーバは受信した写真の指紋を算出し、(i)プローブ信号が存在する場合、(ii)QRコードに埋め込まれたメタデータが正しく、(iii)カメラ指紋が正しく識別されている場合、ユーザを認証する。 しかし、このプロトコルは、攻撃者が外部写真からカメラの指紋を計算できる場合の偽造攻撃に対して脆弱である。 本稿では,動きセンサデータに基づくabcプロトコルの付加的および受動的認証層としての拡張を提案する。 スマートフォンは、写真とは異なり、ソーシャルメディアプラットフォーム上ではユーザーによって投稿されないモーションセンサーデータによって識別できるため、写真のみを使用するよりも安全である。 この目的のために、我々は動き信号をディープニューラルネットワークが生成する埋め込みベクトルに変換し、スマートフォン識別タスクにサポートベクターマシンを適用する。 abcプロトコルの変更により、前回の作業で提案された攻撃に対する偽の受け入れ率を0.07%まで低下させるマルチモーダルプロトコルが実現しました。

We propose an enhanced version of the Authentication with Built-in Camera (ABC) protocol by employing a deep learning solution based on built-in motion sensors. The standard ABC protocol identifies mobile devices based on the photo-response non-uniformity (PRNU) of the camera sensor, while also considering QR-code-based meta-information. During authentication, the user is required to take two photos that contain two QR codes presented on a screen. The presented QR code images also contain a unique probe signal, similar to a camera fingerprint, generated by the protocol. During verification, the server computes the fingerprint of the received photos and authenticates the user if (i) the probe signal is present, (ii) the metadata embedded in the QR codes is correct and (iii) the camera fingerprint is identified correctly. However, the protocol is vulnerable to forgery attacks when the attacker can compute the camera fingerprint from external photos, as shown in our preliminary work. In this context, we propose an enhancement for the ABC protocol based on motion sensor data, as an additional and passive authentication layer. Smartphones can be identified through their motion sensor data, which, unlike photos, is never posted by users on social media platforms, thus being more secure than using photographs alone. To this end, we transform motion signals into embedding vectors produced by deep neural networks, applying Support Vector Machines for the smartphone identification task. Our change to the ABC protocol results in a multi-modal protocol that lowers the false acceptance rate for the attack proposed in our previous work to a percentage as low as 0.07%.
翻訳日:2021-07-23 15:23:43 公開日:2021-07-22
# エッジにおけるデータ合成のためのアクティブ管理方式

A Proactive Management Scheme for Data Synopses at the Edge ( http://arxiv.org/abs/2107.10558v1 )

ライセンス: Link先を確認
Kostas Kolomvatsos, Christos Anagnostopoulos(参考訳) IoT(Internet of Things)が提供するインフラストラクチャとエッジコンピューティング(EC)エコシステムに存在する多数の処理ノードを組み合わせることで、インテリジェントアプリケーションをサポートするための新たなパスが開かれる。 このようなアプリケーションは、ネットワークを介してエッジノードに転送されるIoTデバイスによって収集された大量のデータに対して提供される。 議論されたデータ上でさまざまな処理アクティビティを実行することができ、ECノード間の複数の協調的な機会は、望ましいタスクの実行を容易にします。 エッジノード間の効果的なインタラクションをサポートするために、地理的に分散したデータに関する知識を共有すべきである。 明らかに、大量のデータのマイグレーションは、ネットワークの安定性とそのパフォーマンスの安定性を損なう。 本稿では、類似データを持つピアノードについて必要な知識を提供するために、ECノード間の実際のデータよりもデータシナプスの交換を推奨する。 この知識は、データ/サービスマイグレーションやタスクのオフロードといった決定を考えるときに有用です。 本稿では,利用可能なデータセットの時間的類似度マップを構築し,ピア内のデータの進化をノードに理解させる連続的推論モデルについて述べる。 本研究では,教師なし機械学習モデルに基づくインテリジェントな類似度抽出手法により,提案する意思決定機構をサポートし,それと同時に,いわゆる不一致量子の傾向を表す統計的尺度と組み合わせる。 我々のモデルは、交換されたシナプスの違いを明らかにし、望ましい処理活動を支援するための適切な知識基盤となるデータセット類似性マップを提供する。 そこで本研究では,この問題を考察し,その解決策を提案すると同時に,その利点と欠点を多数の実験を通じて明らかにする。

The combination of the infrastructure provided by the Internet of Things (IoT) with numerous processing nodes present at the Edge Computing (EC) ecosystem opens up new pathways to support intelligent applications. Such applications can be provided upon humongous volumes of data collected by IoT devices being transferred to the edge nodes through the network. Various processing activities can be performed on the discussed data and multiple collaborative opportunities between EC nodes can facilitate the execution of the desired tasks. In order to support an effective interaction between edge nodes, the knowledge about the geographically distributed data should be shared. Obviously, the migration of large amounts of data will harm the stability of the network stability and its performance. In this paper, we recommend the exchange of data synopses than real data between EC nodes to provide them with the necessary knowledge about peer nodes owning similar data. This knowledge can be valuable when considering decisions such as data/service migration and tasks offloading. We describe an continuous reasoning model that builds a temporal similarity map of the available datasets to get nodes understanding the evolution of data in their peers. We support the proposed decision making mechanism through an intelligent similarity extraction scheme based on an unsupervised machine learning model, and, at the same time, combine it with a statistical measure that represents the trend of the so-called discrepancy quantum. Our model can reveal the differences in the exchanged synopses and provide a datasets similarity map which becomes the appropriate knowledge base to support the desired processing activities. We present the problem under consideration and suggest a solution for that, while, at the same time, we reveal its advantages and disadvantages through a large number of experiments.
翻訳日:2021-07-23 15:23:17 公開日:2021-07-22
# MobileCharger:ロバストで安全な充電のための逆デルタアクチュエータを備えた自律移動ロボット

MobileCharger: an Autonomus Mobile Robot with Inverted Delta Actuator for Robust and Safe Robot Charging ( http://arxiv.org/abs/2107.10585v1 )

ライセンス: Link先を確認
Iaroslav Okunevich, Daria Trinitatova, Pavel Kopanev, and Dzmitry Tsetserukou(参考訳) MobileChargerは、2つの移動ロボット間の安全で堅牢なエネルギー伝達のための逆デルタアクチュエータを備えた、新しいモバイル充電ロボットである。 rgb-dカメラベースのコンピュータビジョンシステムは、畳み込みニューラルネットワーク(cnn)を使用してターゲット移動ロボットの電極を検出することができる。 埋込高密度触覚センサを適用して、接触面の圧力データに基づいて、充電器機構上の電極とCNNを用いたメインロボット上の電極とのずれを推定する。 これにより、アクチュエータの終端エフェクタの正確な位置決めが可能となり、2つのロボットの電極間の信頼性の高い接続が保証される。 実験の結果,CNNを用いた電極検出では,高い平均精度 (84.2%) を示した。 cnnベースの電極探索アルゴリズムの試験成功率は83%に達し、平均実行時間は60秒であった。

MobileCharger is a novel mobile charging robot with an Inverted Delta actuator for safe and robust energy transfer between two mobile robots. The RGB-D camera-based computer vision system allows to detect the electrodes on the target mobile robot using a convolutional neural network (CNN). The embedded high-fidelity tactile sensors are applied to estimate the misalignment between the electrodes on the charger mechanism and the electrodes on the main robot using CNN based on pressure data on the contact surfaces. Thus, the developed vision-tactile perception system allows precise positioning of the end effector of the actuator and ensures a reliable connection between the electrodes of the two robots. The experimental results showed high average precision (84.2%) for electrode detection using CNN. The percentage of successful trials of the CNN-based electrode search algorithm reached 83% and the average execution time accounted for 60 s. MobileCharger could introduce a new level of charging systems and increase the prevalence of autonomous mobile robots.
翻訳日:2021-07-23 15:22:54 公開日:2021-07-22
# シンボリック回帰のための遺伝的プログラミングにおけるハッシュベース木類似性と単純化

Hash-Based Tree Similarity and Simplification in Genetic Programming for Symbolic Regression ( http://arxiv.org/abs/2107.10640v1 )

ライセンス: Link先を確認
Bogdan Burlacu, Lukas Kammerer, Michael Affenzeller, Gabriel Kronberger(参考訳) 本稿では,同型部分木同定のための実行時効率のよい木ハッシュアルゴリズムを導入し,遺伝的プログラミングのシンボル回帰に対する2つの重要な応用として,集団の多様性の高速オンライン計算と記号表現木の代数的単純化について紹介する。 このハッシュ手法に基づいて,シンボル回帰ベンチマーク問題の集合に関する有望な結果を得た簡易な多様性保存機構を提案する。

We introduce in this paper a runtime-efficient tree hashing algorithm for the identification of isomorphic subtrees, with two important applications in genetic programming for symbolic regression: fast, online calculation of population diversity and algebraic simplification of symbolic expression trees. Based on this hashing approach, we propose a simple diversity-preservati on mechanism with promising results on a collection of symbolic regression benchmark problems.
翻訳日:2021-07-23 15:22:40 公開日:2021-07-22
# デルタチャージャー:精密3次元位置決めのための逆デルタ機構とCNN駆動の高忠実触覚知覚を用いた充電ロボット

DeltaCharger: Charging Robot with Inverted Delta Mechanism and CNN-driven High Fidelity Tactile Perception for Precise 3D Positioning ( http://arxiv.org/abs/2107.10710v1 )

ライセンス: Link先を確認
Iaroslav Okunevich, Daria Trinitatova, Pavel Kopanev, Dzmitry Tsetserukou(参考訳) deltachargerは、電極の3d位置決めのための逆デルタ構造を持つ新しい充電ロボットで、2つの移動ロボット間のロバストで安全な移動エネルギーを実現する。 組込み高忠実触覚センサは、充電器機構上の電極とターゲットロボット上の電極との間の角、垂直、水平のずれを接触面上の圧力データを用いて推定することができる。 これはショート回路の防止に不可欠である。 本稿では,開発したプロトタイプのメカニズムと,異なる機械学習モデルの誤用予測のための評価研究について述べる。 実験の結果,本システムは畳み込みニューラルネットワーク(cnn)を用いて,95.46%,98.2%,86.9%の精度で圧力データから視差の角度,垂直値,水平値を測定することができた。 DeltaChargerは、新しいレベルの充電システムを導入し、モバイル自律ロボットの普及を促進する可能性がある。

DeltaCharger is a novel charging robot with an Inverted Delta structure for 3D positioning of electrodes to achieve robust and safe transferring energy between two mobile robots. The embedded high-fidelity tactile sensors allow to estimate the angular, vertical and horizontal misalignments between electrodes on the charger mechanism and electrodes on the target robot using pressure data on the contact surfaces. This is crucial for preventing a short circuit. In this paper, the mechanism of the developed prototype and evaluation study of different machine learning models for misalignment prediction are presented. The experimental results showed that the proposed system can measure the angle, vertical and horizontal values of misalignment from pressure data with an accuracy of 95.46%, 98.2%, and 86.9%, respectively, using a Convolutional Neural Network (CNN). DeltaCharger can potentially bring a new level of charging systems and improve the prevalence of mobile autonomous robots.
翻訳日:2021-07-23 15:21:59 公開日:2021-07-22
# 強化学習による二次最適化の高速化

Accelerating Quadratic Optimization with Reinforcement Learning ( http://arxiv.org/abs/2107.10847v1 )

ライセンス: Link先を確認
Jeffrey Ichnowski, Paras Jain, Bartolomeo Stellato, Goran Banjac, Michael Luo, Francesco Borrelli, Joseph E. Gonzalez, Ion Stoica, Ken Goldberg(参考訳) OSQPのような二次最適化の一階法は大規模機械学習や組込み最適制御に広く用いられている。 これらの手法は、手動のハイパーパラメータチューニングと高精度解への収束時間という2つの永続的な課題に直面している。 これらの課題に対処するために,RL(Reinforcement Learning)がパラメータをチューニングして収束を加速するためのポリシを学習する方法を検討する。 有名なQPベンチマークによる実験では、我々のRLポリシであるRLQPが最先端のQPソルバを最大3倍に上回ることがわかった。 RLQP は、QPLIB、Netlib LP、Maros-Meszaros 問題など、様々なアプリケーションから異なる次元と構造を持つ未確認問題に対して驚くほどよく一般化する。 rlqpのコードはhttps://github.com/b erkeleyautomation/rl qpで入手できる。

First-order methods for quadratic optimization such as OSQP are widely used for large-scale machine learning and embedded optimal control, where many related problems must be rapidly solved. These methods face two persistent challenges: manual hyperparameter tuning and convergence time to high-accuracy solutions. To address these, we explore how Reinforcement Learning (RL) can learn a policy to tune parameters to accelerate convergence. In experiments with well-known QP benchmarks we find that our RL policy, RLQP, significantly outperforms state-of-the-art QP solvers by up to 3x. RLQP generalizes surprisingly well to previously unseen problems with varying dimension and structure from different applications, including the QPLIB, Netlib LP and Maros-Meszaros problems. Code for RLQP is available at https://github.com/b erkeleyautomation/rl qp.
翻訳日:2021-07-23 15:21:32 公開日:2021-07-22
# 新たな脅威をリコメンダーシステムに適用する準備が整ったか? グラフ畳み込みに基づく生成シリング攻撃

Ready for Emerging Threats to Recommender Systems? A Graph Convolution-based Generative Shilling Attack ( http://arxiv.org/abs/2107.10457v1 )

ライセンス: Link先を確認
Fan Wu, Min Gao, Junliang Yu, Zongwei Wang, Kecheng Liu and Xu Wange(参考訳) 推薦システムの堅牢性を探るため、研究者は様々なシリング攻撃モデルを提案し、その悪影響を分析した。 プリミティブアタックは極めて実現可能だが、単純で手作りのルールのため効果が低く、アップグレードされたアタックはより強力だが、レコメンデーションからより多くの知識を必要とするため、デプロイが困難である。 本稿では,グラフcOnvolutionに基づく生成シリングアタック(GOAT)と呼ばれる新たなシリング攻撃を探索し,攻撃の実現可能性と効果のバランスをとる。 GOATは、サンプリングによって偽ユーザに対してアイテムを割り当てるプリミティブアタックのパラダイムと、ディープラーニングモデルによる偽のレーティングを生成するアップグレードアタックのパラダイムを採用する。 GAN(Generative Adversarial Network)をデプロイし、実際のレーティング分布を学習して偽のレーティングを生成する。 さらに、調整されたグラフ畳み込み構造を組み合わせて、共同評価項目間の相関を利用して、偽のレーティングをスムーズにし、真正性を高める。 2つの公開データセットに関する広範な実験は、GOATのパフォーマンスを複数の観点から評価している。 本研究は、より強力でインテリジェントな攻撃モデルを構築するための技術的実現可能性を示し、そのような攻撃の脅威を分析し、必要な予防策を調査するための指針を提供する。

To explore the robustness of recommender systems, researchers have proposed various shilling attack models and analyzed their adverse effects. Primitive attacks are highly feasible but less effective due to simplistic handcrafted rules, while upgraded attacks are more powerful but costly and difficult to deploy because they require more knowledge from recommendations. In this paper, we explore a novel shilling attack called Graph cOnvolution-based generative shilling ATtack (GOAT) to balance the attacks' feasibility and effectiveness. GOAT adopts the primitive attacks' paradigm that assigns items for fake users by sampling and the upgraded attacks' paradigm that generates fake ratings by a deep learning-based model. It deploys a generative adversarial network (GAN) that learns the real rating distribution to generate fake ratings. Additionally, the generator combines a tailored graph convolution structure that leverages the correlations between co-rated items to smoothen the fake ratings and enhance their authenticity. The extensive experiments on two public datasets evaluate GOAT's performance from multiple perspectives. Our study of the GOAT demonstrates technical feasibility for building a more powerful and intelligent attack model with a much-reduced cost, enables analysis the threat of such an attack and guides for investigating necessary prevention measures.
翻訳日:2021-07-23 15:19:49 公開日:2021-07-22
# 機械学習による有限要素メッシュの品質評価

Evaluating the Quality of Finite Element Meshes with Machine Learning ( http://arxiv.org/abs/2107.10507v1 )

ライセンス: Link先を確認
Joachim Sprave, Christian Drescher(参考訳) 本稿では,有限要素メッシュの品質を構造力学シミュレーションのために評価する問題に対処する。 専門家評価から収集したデータに基づいて学習した機械学習モデルの応用を提案する。 このタスクは分類問題として特徴づけられ、メッシュ内の各要素の品質は、その特性と隣接構造によって決定される。 既製の機械学習手法を適用できるように,ドメイン固有だがシンプルな表現を提案する。 産業の実践からの実験データは有望な結果を示している。

This paper addresses the problem of evaluating the quality of finite element meshes for the purpose of structural mechanic simulations. It proposes the application of a machine learning model trained on data collected from expert evaluations. The task is characterised as a classification problem, where quality of each individual element in a mesh is determined by its own properties and adjacency structures. A domain-specific, yet simple representation is proposed such that off-the-shelf machine learning methods can be applied. Experimental data from industry practice demonstrates promising results.
翻訳日:2021-07-23 15:19:24 公開日:2021-07-22
# リッジレバレッジスコアサンプリングによる高速低ランクテンソル分解

Fast Low-Rank Tensor Decomposition by Ridge Leverage Score Sampling ( http://arxiv.org/abs/2107.10654v1 )

ライセンス: Link先を確認
Matthew Fahrbach, Mehrdad Ghadiri, Thomas Fu(参考訳) 低ランクテンソル分解は低ランク行列近似を一般化し、高次元データにおいて低次元構造を発見するための強力な技術である。 本稿では,タッカー分解とリッジレバレッジスコアと呼ばれるランダム化された数値線形代数のツールを用いて,多用な交互最小二乗アルゴリズムのコアテンソル更新ステップを高速化する。 ALSの深刻なボトルネックであるコアテンソルの更新は、設計行列が係数行列のクロネッカー積である高度に構造化されたリッジ回帰問題である。 近似リッジレバレッジ・スコアを用いて任意のリッジ回帰問題に対するスケッチ付きインスタンスを構築する方法を示し,その解ベクトルが元のインスタンスに対して$(1+\varepsilon)$-approx imationであることを示す。 さらに,古典レバレッジのスコアが近似として十分であることを示し,それによってクロネッカー構造を活用し,ランクやスケッチパラメータ(入力テンソルのサイズにおける部分線型)に依存する時間内のコアテンソルを更新できることを示した。 また、行が設計行列から除去されるときのリッジレバレッジスコアの上限(例えば、テンソルがエントリを欠いている場合)を与え、合成データと実世界のデータの両方において、大小のタッカー分解に対する近似リッジ回帰アルゴリズムの有効性を実証する。

Low-rank tensor decomposition generalizes low-rank matrix approximation and is a powerful technique for discovering low-dimensional structure in high-dimensional data. In this paper, we study Tucker decompositions and use tools from randomized numerical linear algebra called ridge leverage scores to accelerate the core tensor update step in the widely-used alternating least squares (ALS) algorithm. Updating the core tensor, a severe bottleneck in ALS, is a highly-structured ridge regression problem where the design matrix is a Kronecker product of the factor matrices. We show how to use approximate ridge leverage scores to construct a sketched instance for any ridge regression problem such that the solution vector for the sketched problem is a $(1+\varepsilon)$-approx imation to the original instance. Moreover, we show that classical leverage scores suffice as an approximation, which then allows us to exploit the Kronecker structure and update the core tensor in time that depends predominantly on the rank and the sketching parameters (i.e., sublinear in the size of the input tensor). We also give upper bounds for ridge leverage scores as rows are removed from the design matrix (e.g., if the tensor has missing entries), and we demonstrate the effectiveness of our approximate ridge regressioni algorithm for large, low-rank Tucker decompositions on both synthetic and real-world data.
翻訳日:2021-07-23 15:19:17 公開日:2021-07-22
# 類似性を考慮した分散saddle-point問題

Distributed Saddle-Point Problems Under Similarity ( http://arxiv.org/abs/2107.10706v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Gesualdo Scutari, Alexander Rogozin, Alexander Gasnikov(参考訳) 本研究では,2種類のマスタ/ワーカ(集中型)アーキテクチャとメッシュ(分散型)ネットワークのネットワーク上での(強い)凸(強結合型)サドルポイント問題(SPP)の解法について検討する。 各ノードの局所関数は、統計データの類似性などにより類似していると仮定される。 SPPを解くアルゴリズムの比較的一般的なクラスに対して、より低い複雑性境界を確立する。 与えられたサブ最適度 $\epsilon>0$ は$\Omega\big (\Delta\cdot \delta/\mu\cdot \log (1/\varepsilon)\big) $ 通信のラウンドであり、$\delta>0$ は局所関数の類似度を測り、$\mu$ は強凸定数であり、$\Delta$ はネットワークの直径であることを示す。 メッシュネットワーク上の低い通信複雑性は$\Omega\big(1/{\sqrt{\rho}} \cdot {\delta}/{\mu}\cdot\log (1/\varepsilon)\big) $, ここで$\rho$は、近隣ノード間の通信に使用されるゴシップ行列の(正規化された)固有ギャップである。 次に、いずれかのネットワーク(ログファクタまで)の下位境界に一致するアルゴリズムを提案する。 本研究ではロバストロジスティック回帰問題に対する提案アルゴリズムの有効性を評価する。

We study solution methods for (strongly-)convex-(s trongly)-concave Saddle-Point Problems (SPPs) over networks of two type - master/workers (thus centralized) architectures and meshed (thus decentralized) networks. The local functions at each node are assumed to be similar, due to statistical data similarity or otherwise. We establish lower complexity bounds for a fairly general class of algorithms solving the SPP. We show that a given suboptimality $\epsilon>0$ is achieved over master/workers networks in $\Omega\big(\Delta\c dot \delta/\mu\cdot \log (1/\varepsilon)\big) $ rounds of communications, where $\delta>0$ measures the degree of similarity of the local functions, $\mu$ is their strong convexity constant, and $\Delta$ is the diameter of the network. The lower communication complexity bound over meshed networks reads $\Omega\big(1/{\sqrt{\rho}} \cdot {\delta}/{\mu}\cdot\log (1/\varepsilon)\big) $, where $\rho$ is the (normalized) eigengap of the gossip matrix used for the communication between neighbouring nodes. We then propose algorithms matching the lower bounds over either types of networks (up to log-factors). We assess the effectiveness of the proposed algorithms on a robust logistic regression problem.
翻訳日:2021-07-23 15:18:51 公開日:2021-07-22
# レイノルズ平均化 Navier$\unicode{x2013}$Stokes 方程式を解く物理インフォームドニューラルネットワーク

Physics-informed neural networks for solving Reynolds-averaged Navier$\unicode{x2013}$Stokes equations ( http://arxiv.org/abs/2107.10711v1 )

ライセンス: Link先を確認
Hamidreza Eivazi, Mojtaba Tahani, Philipp Schlatter, Ricardo Vinuesa(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の解法と同定のための機械学習手法として成功している。 我々は,特定のモデルや乱流の仮定を伴わない非圧縮性乱流に対するレイノルズ平均navier$\unicode{x2013}$stokes(rans)方程式の解法と,領域境界のデータのみを取り込むことにより,pinsを用いた。 まず、Navier$\unicode{x2013}$Skan境界層を解くことで、ラミナーフローに対するNavier$\unicode{x2013}$Stokes方程式を解くためのPINNの適用性を示す。 次に,非圧力勾配境界層,非圧力勾配境界層,およびNACA4412翼と周期的な丘上の乱流の4つの流れのシミュレーションにPINNを適用した。 その結果, 圧力勾配が強い層流に対するPINNの優れた適用性を示し, 1%以下の誤差で予測できることがわかった。 乱流については,レイノルズ応力成分においてもシミュレーション結果の精度が極めて良好である。

Physics-informed neural networks (PINNs) are successful machine-learning methods for the solution and identification of partial differential equations (PDEs). We employ PINNs for solving the Reynolds-averaged Navier$\unicode{x2013}$Stokes (RANS) equations for incompressible turbulent flows without any specific model or assumption for turbulence, and by taking only the data on the domain boundaries. We first show the applicability of PINNs for solving the Navier$\unicode{x2013}$Stokes equations for laminar flows by solving the Falkner$\unicode{x2013}$Skan boundary layer. We then apply PINNs for the simulation of four turbulent-flow cases, i.e., zero-pressure-gradie nt boundary layer, adverse-pressure-gra dient boundary layer, and turbulent flows over a NACA4412 airfoil and the periodic hill. Our results show the excellent applicability of PINNs for laminar flows with strong pressure gradients, where predictions with less than 1% error can be obtained. For turbulent flows, we also obtain very good accuracy on simulation results even for the Reynolds-stress components.
翻訳日:2021-07-23 15:18:16 公開日:2021-07-22
# (参考訳) fristograms: 光電界の内部の解明と活用 [全文訳有]

Fristograms: Revealing and Exploiting Light Field Internals ( http://arxiv.org/abs/2107.10563v1 )

ライセンス: CC BY 4.0
Thorsten Herfet, Kelvin Chelli, Tobias Lange and Robin Kremer(参考訳) 近年では、光電界(lf)の捕捉と処理がメディア生産の不可欠な部分となっている。 LFで利用可能な情報の豊かさにより、キャプチャ後の深度編集、3D再構成、セグメンテーションとマッティング、サリエンシ検出、オブジェクトの検出と認識、混合現実といった新しい応用が可能になった。 そのようなアプリケーションの有効性は、しばしば無視される特定の基礎となる要件に依存する。 例えば、ノイズ低減やハイパーファンフィルタのような操作は、シーンポイントのランベルト放射器でのみ可能である。 障害物の除去やオブジェクトの後方を見るといった他の操作は、必要なシーンポイントをキャプチャする少なくとも1つの光線が存在する場合にのみ可能である。 したがって、あるシーンポイントを表す線分布は、処理可能性を評価する上で重要な特性である。 本論文の主な考え方は, 撮像装置とLFの光線の関係を確立することである。 この目的のために、我々はビューフラスタムを識別する。 伝統的に、ビューフラスタムの均一な離散化は、一定の間隔の3次元グリッド上の単一のサンプルを表すボクセル(voxel)をもたらす。 代わりに、フロスタム型ボクセル(フロスタム型ボクセル)を使用し、ビューフロスタムの深さとキャプチャーセットアップ依存性の離散化を用いている。 このような離散化に基づいて、捕獲装置(s)上の同じ画素にマッピングされる線数をカウントする。 この計数により、フレクセル(フレストグラム)の上にレイカウントのヒストグラムを提案する。 fristogramsは、シーンポイント由来の線数やこれらの線の色分布など、基礎となるlfの興味深い側面を分析し、明らかにするためのツールとして使用できる。 例えば、非ランベルト領域や部分的に遮蔽領域の現実的なレンダリングを維持しながらノイズ低減を可能にする線数を大幅に削減することで、その能力を示す。

In recent years, light field (LF) capture and processing has become an integral part of media production. The richness of information available in LFs has enabled novel applications like post-capture depth-of-field editing, 3D reconstruction, segmentation and matting, saliency detection, object detection and recognition, and mixed reality. The efficacy of such applications depends on certain underlying requirements, which are often ignored. For example, some operations such as noise-reduction, or hyperfan-filtering are only possible if a scene point Lambertian radiator. Some other operations such as the removal of obstacles or looking behind objects are only possible if there is at least one ray capturing the required scene point. Consequently, the ray distribution representing a certain scene point is an important characteristic for evaluating processing possibilities. The primary idea in this paper is to establish a relation between the capturing setup and the rays of the LF. To this end, we discretize the view frustum. Traditionally, a uniform discretization of the view frustum results in voxels that represents a single sample on a regularly spaced, 3-D grid. Instead, we use frustum-shaped voxels (froxels), by using depth and capturing-setup dependent discretization of the view frustum. Based on such discretization, we count the number of rays mapping to the same pixel on the capturing device(s). By means of this count, we propose histograms of ray-counts over the froxels (fristograms). Fristograms can be used as a tool to analyze and reveal interesting aspects of the underlying LF, like the number of rays originating from a scene point and the color distribution of these rays. As an example, we show its ability by significantly reducing the number of rays which enables noise reduction while maintaining the realistic rendering of non-Lambertian or partially occluded regions.
翻訳日:2021-07-23 15:14:28 公開日:2021-07-22
# (参考訳) CNNに基づく共分散行列予測 [全文訳有]

CNN-based Realized Covariance Matrix Forecasting ( http://arxiv.org/abs/2107.10602v1 )

ライセンス: CC BY 4.0
Yanwen Fang, Philip L. H. Yu, Yaohua Tang(参考訳) 資産リターンの共分散行列のモデル化と予測が金融の分野で重要な役割を果たすことはよく知られている。 高周波日内データの可用性により、実現された共分散行列を直接モデル化することができる。 しかし、文献で利用可能なモデルのほとんどは強い構造的仮定に依存しており、しばしば次元の呪いに悩まされる。 本稿では,CNN と Convolutional LSTM (ConvLSTM) 上に構築されたエンドツーエンドのトレーニング可能なモデルを提案する。 提案モデルは局所構造と時空間相関に焦点をあてる。 歴史的に実現された共分散行列と将来の行列をつなぐ非線形写像を学ぶ。 人工および実世界のデータセットに関する実証研究は、いくつかの高度なボラティリティモデルと比較して優れた予測能力を示している。

It is well known that modeling and forecasting realized covariance matrices of asset returns play a crucial role in the field of finance. The availability of high frequency intraday data enables the modeling of the realized covariance matrices directly. However, most of the models available in the literature depend on strong structural assumptions and they often suffer from the curse of dimensionality. We propose an end-to-end trainable model built on the CNN and Convolutional LSTM (ConvLSTM) which does not require to make any distributional or structural assumption but could handle high-dimensional realized covariance matrices consistently. The proposed model focuses on local structures and spatiotemporal correlations. It learns a nonlinear mapping that connect the historical realized covariance matrices to the future one. Our empirical studies on synthetic and real-world datasets demonstrate its excellent forecasting ability compared with several advanced volatility models.
翻訳日:2021-07-23 15:02:14 公開日:2021-07-22
# (参考訳) 低リソース言語における文脈埋め込みの評価

Evaluation of contextual embeddings on less-resourced languages ( http://arxiv.org/abs/2107.10614v1 )

ライセンス: CC BY-SA 4.0
Matej Ul\v{c}ar and Ale\v{s} \v{Z}agar and Carlos S. Armendariz and Andra\v{z} Repar and Senja Pollak and Matthew Purver and Marko Robnik-\v{S}ikonja(参考訳) 自然言語処理におけるディープニューラルネットワークの現在の優位性は、ELMo、BERT、BERT誘導体などのコンテキスト埋め込みに基づいている。 対照的に、我々は9つの言語で14のタスクを用いて、2つのエルモと複数の単言語および多言語bertモデルの最初の多言語経験比較を行っている。 単言語設定では、単言語BERTモデルが一般的に支配的であり、依存解析タスクなどいくつかの例外があるが、大規模なコーパスで訓練されたELMoモデルと競合しない。 言語横断的な設定では、BERTモデルは少数の言語でのみ訓練され、非常に多言語なBERTモデルと密接に関連している。

The current dominance of deep neural networks in natural language processing is based on contextual embeddings such as ELMo, BERT, and BERT derivatives. Most existing work focuses on English; in contrast, we present here the first multilingual empirical comparison of two ELMo and several monolingual and multilingual BERT models using 14 tasks in nine languages. In monolingual settings, our analysis shows that monolingual BERT models generally dominate, with a few exceptions such as the dependency parsing task, where they are not competitive with ELMo models trained on large corpora. In cross-lingual settings, BERT models trained on only a few languages mostly do best, closely followed by massively multilingual BERT models.
翻訳日:2021-07-23 14:48:56 公開日:2021-07-22
# (参考訳) 対話オブジェクト検索 [全文訳有]

Dialogue Object Search ( http://arxiv.org/abs/2107.10653v1 )

ライセンス: CC BY 4.0
Monica Roy, Kaiyu Zheng, Jason Liu, Stefanie Tellex(参考訳) 我々は、人間とシームレスに連携しコミュニケーションできるロボットを想定する。 このようなロボットは、人間と対話しながら、何を言おうと、どのように振る舞うかを決める必要がある。 この目的のために,対話対象探索という新たなタスクを導入する。ロボットは対象物(例えば,ロボット)を探索する。 フォーク) 人間環境(例えばキッチン)において、ターゲットの位置について追加的だが不正確な知識を持つリモートの人間と「ビデオ通話」を行う。 つまりロボットは、装着したカメラからの画像を共有しながら、人間と音声による対話を行う。 このタスクは、データ収集からアルゴリズムやシステム開発、評価まで、さまざまなレベルで課題があります。 このような課題にもかかわらず、そのようなタスクはよりインテリジェントで協調的なロボットへの道を妨げていると信じています。 この拡張要約では,対話対象探索タスクを動機付け,導入し,パイロット研究から収集した事例を分析する。 次に次のステップについて議論し、フィードバックを期待するいくつかの課題を結論付けます。

We envision robots that can collaborate and communicate seamlessly with humans. It is necessary for such robots to decide both what to say and how to act, while interacting with humans. To this end, we introduce a new task, dialogue object search: A robot is tasked to search for a target object (e.g. fork) in a human environment (e.g., kitchen), while engaging in a "video call" with a remote human who has additional but inexact knowledge about the target's location. That is, the robot conducts speech-based dialogue with the human, while sharing the image from its mounted camera. This task is challenging at multiple levels, from data collection, algorithm and system development,to evaluation. Despite these challenges, we believe such a task blocks the path towards more intelligent and collaborative robots. In this extended abstract, we motivate and introduce the dialogue object search task and analyze examples collected from a pilot study. We then discuss our next steps and conclude with several challenges on which we hope to receive feedback.
翻訳日:2021-07-23 14:48:01 公開日:2021-07-22
# (参考訳) 不均衡時系列予測のためのフレームワーク [全文訳有]

A Framework for Imbalanced Time-series Forecasting ( http://arxiv.org/abs/2107.10709v1 )

ライセンス: CC BY 4.0
Luis P. Silvestrin, Leonardos Pantiskas, Mark Hoogendoorn(参考訳) 時系列予測は多くの領域で重要な役割を果たす。 ディープラーニングアルゴリズムの進歩によって強化され、例えば、風力発電、株式市場の変動、またはモーター過熱の予測に使用されている。 これらのタスクのいくつかでは、データセットでしばしば過小表示される特定のモーメントを正確に予測することに関心があり、その結果、不均衡回帰として知られる問題が発生する。 文献では,課題として認識されているものの,実際的な課題の扱いに限定的な注意が払われてきた。 本稿では,不均衡を抑えるために,過小なモーメントに着目した時系列予測問題を解析するための一般的なアプローチを提案する。 当社のアプローチは, 大企業におけるケーススタディに基づいて開発され, アプローチの実証に利用されている。

Time-series forecasting plays an important role in many domains. Boosted by the advances in Deep Learning algorithms, it has for instance been used to predict wind power for eolic energy production, stock market fluctuations, or motor overheating. In some of these tasks, we are interested in predicting accurately some particular moments which often are underrepresented in the dataset, resulting in a problem known as imbalanced regression. In the literature, while recognized as a challenging problem, limited attention has been devoted on how to handle the problem in a practical setting. In this paper, we put forward a general approach to analyze time-series forecasting problems focusing on those underrepresented moments to reduce imbalances. Our approach has been developed based on a case study in a large industrial company, which we use to exemplify the approach.
翻訳日:2021-07-23 14:40:58 公開日:2021-07-22
# (参考訳) 自己評価型うつ病尺度の顔面ビデオ記録によるうつ病診断のための深部3d-cnn [全文訳有]

Deep 3D-CNN for Depression Diagnosis with Facial Video Recording of Self-Rating Depression Scale Questionnaire ( http://arxiv.org/abs/2107.10712v1 )

ライセンス: CC BY 4.0
Wanqing Xie, Lizhong Liang, Yao Lu, Hui Luo, Xiaofeng Liu(参考訳) SDS (Self-Rating Depression Scale) は, うつ病早期スクリーニングに広く用いられている。 一方, 管理不能な自己管理尺度は, 不適切な反応や不正直な反応の影響を受けやすいため, 臨床医の診断と異なる結果が得られた。 顔面表情(FE)と行動は,臨床医による評価では重要であるが,自己管理的評価では不十分である。 本研究は,200名の参加者による新しいデータセットを用いて,自己評価アンケートの妥当性と質問毎のビデオ記録の妥当性を実証する。 本研究では,SDS 評価と関連ビデオから,質問応答と応答時間に基づいて設定した顔映像記録をエンドツーエンドで処理し,悲しみを自動的に解釈するシステムを提案する。 時間的特徴抽出のための3d-cnnを改良し,様々な時相モデリング手法を比較した。 本システムの性能は,sdsスコアと顔映像記録を組み合わせることで,より正確な自己診断が可能であった。

The Self-Rating Depression Scale (SDS) questionnaire is commonly utilized for effective depression preliminary screening. The uncontrolled self-administered measure, on the other hand, maybe readily influenced by insouciant or dishonest responses, yielding different findings from the clinician-administer ed diagnostic. Facial expression (FE) and behaviors are important in clinician-administer ed assessments, but they are underappreciated in self-administered evaluations. We use a new dataset of 200 participants to demonstrate the validity of self-rating questionnaires and their accompanying question-by-question video recordings in this study. We offer an end-to-end system to handle the face video recording that is conditioned on the questionnaire answers and the responding time to automatically interpret sadness from the SDS assessment and the associated video. We modified a 3D-CNN for temporal feature extraction and compared various state-of-the-art temporal modeling techniques. The superior performance of our system shows the validity of combining facial video recording with the SDS score for more accurate self-diagnose.
翻訳日:2021-07-23 14:32:01 公開日:2021-07-22
# (参考訳) イヌMRIからのSaab変換を用いた逐次サブスペース学習による心臓構造の分離 [全文訳有]

Segmentation of Cardiac Structures via Successive Subspace Learning with Saab Transform from Cine MRI ( http://arxiv.org/abs/2107.10718v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Hanna K. Gaggin, Weichung Wang, C.-C. Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 心臓血管疾患 (CVD) とシネMRI (MRI) を併用し, 詳細な心構造と機能について非侵襲的に評価した。 CVDの早期診断と予後にはシネMRIによる心臓構造の正確なセグメンテーションが不可欠であり,畳み込みニューラルネットワーク(CNN)により大幅に改善されている。 しかし、cnnモデルでは、解釈可能性や複雑さの制限など、いくつかの制限があるため、臨床での使用は制限されている。 本研究では,この制限に対処するために,適応バイアス(Saab)変換を用いた部分空間近似を用いた逐次サブスペース学習を用いた軽量かつ解釈可能な機械学習モデルを提案する。 具体的には,(1)異なる解像度での近距離近傍の逐次展開,(2)教師なし次元減少のためのsaab変換を用いたチャネル単位の部分空間近似,(3)教師あり次元低減のためのクラス単位のエントロピー誘導特徴選択,(4)特徴の連結,および勾配ブーストによる画素単位の分類,(5)後処理のための条件付きランダムフィールドである。 acdc 2017のセグメンテーション・データベースにおける実験の結果は、左室、右心室、心筋の配置において200$\times$のパラメータを持つ最先端のu-netモデルよりも優れた性能を示し、臨床応用の可能性を示した。

Assessment of cardiovascular disease (CVD) with cine magnetic resonance imaging (MRI) has been used to non-invasively evaluate detailed cardiac structure and function. Accurate segmentation of cardiac structures from cine MRI is a crucial step for early diagnosis and prognosis of CVD, and has been greatly improved with convolutional neural networks (CNN). There, however, are a number of limitations identified in CNN models, such as limited interpretability and high complexity, thus limiting their use in clinical practice. In this work, to address the limitations, we propose a lightweight and interpretable machine learning model, successive subspace learning with the subspace approximation with adjusted bias (Saab) transform, for accurate and efficient segmentation from cine MRI. Specifically, our segmentation framework is comprised of the following steps: (1) sequential expansion of near-to-far neighborhood at different resolutions; (2) channel-wise subspace approximation using the Saab transform for unsupervised dimension reduction; (3) class-wise entropy guided feature selection for supervised dimension reduction; (4) concatenation of features and pixel-wise classification with gradient boost; and (5) conditional random field for post-processing. Experimental results on the ACDC 2017 segmentation database, showed that our framework performed better than state-of-the-art U-Net models with 200$\times$ fewer parameters in delineating the left ventricle, right ventricle, and myocardium, thus showing its potential to be used in clinical practice.
翻訳日:2021-07-23 14:24:15 公開日:2021-07-22
# (参考訳) ニューラル変量勾配の老化 [全文訳有]

Neural Variational Gradient Descent ( http://arxiv.org/abs/2107.10731v1 )

ライセンス: CC BY 4.0
Lauro Langosco di Langosco, Vincent Fortuin, Heiko Strathmann(参考訳) Stein Variational Gradient Descent (SVGD) のような粒子ベースの近似ベイズ推論アプローチは、サンプリング法の柔軟性と収束保証と、変分推論の計算上の利点を組み合わせたものである。 実際には、SVGDは適切なカーネル関数の選択に依存しており、ターゲットの分散をモデル化する能力に影響を与える。 そこで本研究では,ニューラル変分勾配降下法(nvgd)を提案する。これは,推定に並行してパラメータを学習し,任意のカーネル選択の必要性を緩和する深層ニューラルネットワークによって,スタインの不一致の証人関数をパラメータ化することに基づく。 一般合成推論問題,実世界ベイズ線形回帰法,ベイズニューラルネットワーク推論法について実験的検討を行った。

Particle-based approximate Bayesian inference approaches such as Stein Variational Gradient Descent (SVGD) combine the flexibility and convergence guarantees of sampling methods with the computational benefits of variational inference. In practice, SVGD relies on the choice of an appropriate kernel function, which impacts its ability to model the target distribution -- a challenging problem with only heuristic solutions. We propose Neural Variational Gradient Descent (NVGD), which is based on parameterizing the witness function of the Stein discrepancy by a deep neural network whose parameters are learned in parallel to the inference, mitigating the necessity to make any kernel choices whatsoever. We empirically evaluate our method on popular synthetic inference problems, real-world Bayesian linear regression, and Bayesian neural network inference.
翻訳日:2021-07-23 14:15:10 公開日:2021-07-22
# (参考訳) 転校への学習:葉のついた理論

Learning to Transfer: A Foliated Theory ( http://arxiv.org/abs/2107.10763v1 )

ライセンス: CC BY 4.0
Janith Petangoda, Marc Peter Deisenroth and Nicholas A. M. Monk(参考訳) learning to transferは、関連する知識を既知のタスクソリューションから新しい関連するタスクに移すことができるように、タスクへの学習ソリューションを考える。 これは、一般的な学習だけでなく、学習プロセスの効率向上にも重要である。 移動学習技術は実験的に研究されているが、関連するタスクが何であるか、どのようにタスク間の関係を構築的に活用できるかを明らかにするための基礎的な説明はいまだに欠けている。 本稿では,そのような基礎を提供する葉の微分幾何学的理論を用いた枠組みを提案する。

Learning to transfer considers learning solutions to tasks in a such way that relevant knowledge can be transferred from known task solutions to new, related tasks. This is important for general learning, as well as for improving the efficiency of the learning process. While techniques for learning to transfer have been studied experimentally, we still lack a foundational description of the problem that exposes what related tasks are, and how relationships between tasks can be exploited constructively. In this work, we introduce a framework using the differential geometric theory of foliations that provides such a foundation.
翻訳日:2021-07-23 14:04:20 公開日:2021-07-22
# (参考訳) 専門家の論理 [全文訳有]

A Logic of Expertise ( http://arxiv.org/abs/2107.10832v1 )

ライセンス: CC BY 4.0
Joseph Singleton(参考訳) 本稿では,情報ソースの専門知識を推論するための単純なモーダル論理フレームワークを提案する。 このフレームワークでは、任意の可能な世界において$p$の真理値を正しく決定できるなら、ソースは$p$の命題の専門家である。 また、情報源の専門知識の欠如を考慮し、情報がどのように虚偽であるかを考察する。 これは、情報ソースが専門分野を超えて主張を行う状況のモデル化に関係している。 我々は、特定のクロージャ特性を持つ専門知識セットに基づいて、言語に非標準意味論を用いる。 セマンティクスとS5の認識論理の間には密接な関係があることが判明し、あらゆる可能な状態における知識の観点で専門知識を表現できることが判明した。 この接続を使って、音と完全な公理化を得る。

In this paper we introduce a simple modal logic framework to reason about the expertise of an information source. In the framework, a source is an expert on a proposition $p$ if they are able to correctly determine the truth value of $p$ in any possible world. We also consider how information may be false, but true after accounting for the lack of expertise of the source. This is relevant for modelling situations in which information sources make claims beyond their domain of expertise. We use non-standard semantics for the language based on an expertise set with certain closure properties. It turns out there is a close connection between our semantics and S5 epistemic logic, so that expertise can be expressed in terms of knowledge at all possible states. We use this connection to obtain a sound and complete axiomatisation.
翻訳日:2021-07-23 14:03:28 公開日:2021-07-22
# (参考訳) ビデオで変形可能な3Dオブジェクトを学習するDOVE [全文訳有]

DOVE: Learning Deformable 3D Objects by Watching Videos ( http://arxiv.org/abs/2107.10844v1 )

ライセンス: CC BY 4.0
Shangzhe Wu, Tomas Jakab, Christian Rupprecht, Andrea Vedaldi(参考訳) 2D画像から変形可能な3Dオブジェクトを学習することは、非常に不適切な問題である。 既存の手法は、テンプレート形状モデルやキーポイントアノテーションのようなマルチビュー対応を確立するための明示的な監督に依存しており、"野生の"オブジェクトへの適用性を制限している。 本稿では,時間にまたがる対応を自然に提供し,明示的なキーポイントやテンプレート形状を使わずに変形可能な物体カテゴリの3次元形状を学習できる単眼映像の利用を提案する。 具体的には,鳥の1つの2次元画像から3次元の正準形状,変形,視点,テクスチャを予測し,鳥のビデオコレクションに加え,自動的に得られるシルエットや光学フローをトレーニングデータとして提供する。 本手法は時間的に一貫した3次元形状と変形を再構成し,一画像から任意の視点から鳥をアニメーションし再レンダリングする。

Learning deformable 3D objects from 2D images is an extremely ill-posed problem. Existing methods rely on explicit supervision to establish multi-view correspondences, such as template shape models and keypoint annotations, which restricts their applicability on objects "in the wild". In this paper, we propose to use monocular videos, which naturally provide correspondences across time, allowing us to learn 3D shapes of deformable object categories without explicit keypoints or template shapes. Specifically, we present DOVE, which learns to predict 3D canonical shape, deformation, viewpoint and texture from a single 2D image of a bird, given a bird video collection as well as automatically obtained silhouettes and optical flows as training data. Our method reconstructs temporally consistent 3D shape and deformation, which allows us to animate and re-render the bird from arbitrary viewpoints from a single image.
翻訳日:2021-07-23 13:47:58 公開日:2021-07-22
# (参考訳) セマンティックテキスト対顔GAN-ST^2FG [全文訳有]

Semantic Text-to-Face GAN -ST^2FG ( http://arxiv.org/abs/2107.10756v1 )

ライセンス: CC BY 4.0
Manan Oza, Sukalpa Chanda and David Doermann(参考訳) generative adversarial networks (gans) を用いて生成された顔は、前例のない現実主義に到達している。 ディープフェイクス」とも呼ばれるこれらの顔は、ピクセルレベルの歪みがほとんどない現実的な写真として現れる。 対象の特定の特性を発生させるモデルのトレーニングを可能にした研究もあるが、自然言語記述に基づく顔画像の生成は十分に検討されていない。 セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するganベースのシステムを提供する能力は非常に有用です。 本稿では,意味的テキスト記述から顔画像を生成する新しい手法を提案する。 学習されたモデルは、テキスト記述と、モデルが特徴のスケッチに使用する顔のタイプの概要を提供する。 我々のモデルはAffine Combination Module (ACM) 機構を用いて訓練され、BERT と GAN の潜在空間からの埋め込みを自己認識行列を用いて組み合わせる。 これは、テキストの埋め込みと潜伏ベクトルが単純に結合された場合に起こりうる、不適切な"注意"による機能の喪失を回避する。 提案手法では,顔の詳細な特徴を多数備えた顔のテキスト記述に極めて正確に一致した画像を生成し,良好な画像を生成することができる。 提案手法は、追加のテキスト記述や文が提供される場合、予め生成した画像に漸進的な変更を加えることもできる。

Faces generated using generative adversarial networks (GANs) have reached unprecedented realism. These faces, also known as "Deep Fakes", appear as realistic photographs with very little pixel-level distortions. While some work has enabled the training of models that lead to the generation of specific properties of the subject, generating a facial image based on a natural language description has not been fully explored. For security and criminal identification, the ability to provide a GAN-based system that works like a sketch artist would be incredibly useful. In this paper, we present a novel approach to generate facial images from semantic text descriptions. The learned model is provided with a text description and an outline of the type of face, which the model uses to sketch the features. Our models are trained using an Affine Combination Module (ACM) mechanism to combine the text embedding from BERT and the GAN latent space using a self-attention matrix. This avoids the loss of features due to inadequate "attention", which may happen if text embedding and latent vector are simply concatenated. Our approach is capable of generating images that are very accurately aligned to the exhaustive textual descriptions of faces with many fine detail features of the face and helps in generating better images. The proposed method is also capable of making incremental changes to a previously generated image if it is provided with additional textual descriptions or sentences.
翻訳日:2021-07-23 13:22:59 公開日:2021-07-22
# 型付け仮定は因果発見における識別を改善する

Typing assumptions improve identification in causal discovery ( http://arxiv.org/abs/2107.10703v1 )

ライセンス: Link先を確認
Philippe Brouillard, Perouz Taslakian, Alexandre Lacoste, Sebastien Lachapelle, Alexandre Drouin(参考訳) 観測データからの因果発見は、厳密な解を常に特定できない困難なタスクである。 データ生成過程に関する仮定の下では、因果グラフはしばしば同値クラスまで識別することができる。 このような同値類を包含する新しい現実的な仮定の提案は、活発な研究分野である。 本研究では,変数の性質に基づいて因果関係を制約する仮定を新たに提案する。 そこで我々は,因果関係の妥当性を決定するために,変数型を用いた有向非巡回グラフを導入する。 提案する仮定が因果グラフの同定において有意な利益をもたらすことを理論的および実証的に証明する。

Causal discovery from observational data is a challenging task to which an exact solution cannot always be identified. Under assumptions about the data-generative process, the causal graph can often be identified up to an equivalence class. Proposing new realistic assumptions to circumscribe such equivalence classes is an active field of research. In this work, we propose a new set of assumptions that constrain possible causal relationships based on the nature of the variables. We thus introduce typed directed acyclic graphs, in which variable types are used to determine the validity of causal relationships. We demonstrate, both theoretically and empirically, that the proposed assumptions can result in significant gains in the identification of the causal graph.
翻訳日:2021-07-23 13:02:00 公開日:2021-07-22
# 論理誘導生成による抽象推論

Abstract Reasoning via Logic-guided Generation ( http://arxiv.org/abs/2107.10493v1 )

ライセンス: Link先を確認
Sihyun Yu, Sangwoo Mo, Sungsoo Ahn, Jinwoo Shin(参考訳) 抽象的推論、すなわち、与えられた観測から複雑なパターンを推測することは、人工知能の中心的な構成要素である。 人間は、間違った候補を取り除くか、最初に答えを構築することで答えを見つけるが、事前のディープニューラルネットワーク(DNN)ベースの方法は、以前の差別的アプローチに焦点を当てている。 本稿では,後者のアプローチの枠組みをデザインし,人工知能とヒューマンインテリジェンスのギャップを埋めることを目的とする。 そこで本研究では,提案論理の最適化問題として抽象的推論を低減させる新しいDNNフレームワークであるLoGeを提案する。 LoGeは3つのステップで構成されている。画像から命題変数を抽出し、論理層で回答変数を推論し、変数から回答イメージを再構成する。 RAVENベンチマークでは,様々な属性の正しいルールを観測から取得して回答を再構築するなど,抽象的推論のためのブラックボックスDNNフレームワークよりも優れていた。

Abstract reasoning, i.e., inferring complicated patterns from given observations, is a central building block of artificial general intelligence. While humans find the answer by either eliminating wrong candidates or first constructing the answer, prior deep neural network (DNN)-based methods focus on the former discriminative approach. This paper aims to design a framework for the latter approach and bridge the gap between artificial and human intelligence. To this end, we propose logic-guided generation (LoGe), a novel generative DNN framework that reduces abstract reasoning as an optimization problem in propositional logic. LoGe is composed of three steps: extract propositional variables from images, reason the answer variables with a logic layer, and reconstruct the answer image from the variables. We demonstrate that LoGe outperforms the black box DNN frameworks for generative abstract reasoning under the RAVEN benchmark, i.e., reconstructing answers based on capturing correct rules of various attributes from observations.
翻訳日:2021-07-23 13:01:49 公開日:2021-07-22
# MFGNet:RGB-T追跡のための動的モーダルアウェアフィルタ生成

MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking ( http://arxiv.org/abs/2107.10433v1 )

ライセンス: Link先を確認
Xiao Wang, Xiujun Shu, Shiliang Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) 多くのRGB-Tトラッカーは適応重み付け方式(アテンション機構)を利用してロバストな特徴表現を試みている。 これらの作業とは違って,様々な入力画像に対する畳み込みカーネルを適応的に調整することにより,可視・熱データ間のメッセージ通信を促進できる動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。 入力としてイメージペアを考えると、まずその機能をbackboneネットワークでエンコードします。 次に、これらの特徴マップを結合し、2つの独立したネットワークで動的モダリティ対応フィルタを生成する。 可視および熱フィルタは、それぞれ対応する入力特徴マップ上で動的畳み込み操作を行うために使用される。 残差接続に着想を得て、生成された可視性と熱的特徴マップの両方を入力特徴マップにまとめる。 拡張されたフィーチャーマップはRoIアライメントモジュールに入力され、その後の分類のためのインスタンスレベルの機能を生成する。 重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を利用して,共同で局所・グローバル検索を行うことを提案する。 空間的および時間的リカレントニューラルネットワークは、正確なグローバル注意予測のために方向認識コンテキストをキャプチャするために使用される。 3つの大規模RGB-T追跡ベンチマークデータセットの大規模な実験により,提案アルゴリズムの有効性が検証された。 この論文のプロジェクトページはhttps://sites.google .com/view/mfgrgbttra ck/で閲覧できます。

Many RGB-T trackers attempt to attain robust feature representation by utilizing an adaptive weighting scheme (or attention mechanism). Different from these works, we propose a new dynamic modality-aware filter generation module (named MFGNet) to boost the message communication between visible and thermal data by adaptively adjusting the convolutional kernels for various input images in practical tracking. Given the image pairs as input, we first encode their features with the backbone network. Then, we concatenate these feature maps and generate dynamic modality-aware filters with two independent networks. The visible and thermal filters will be used to conduct a dynamic convolutional operation on their corresponding input feature maps respectively. Inspired by residual connection, both the generated visible and thermal feature maps will be summarized with input feature maps. The augmented feature maps will be fed into the RoI align module to generate instance-level features for subsequent classification. To address issues caused by heavy occlusion, fast motion, and out-of-view, we propose to conduct a joint local and global search by exploiting a new direction-aware target-driven attention mechanism. The spatial and temporal recurrent neural network is used to capture the direction-aware context for accurate global attention prediction. Extensive experiments on three large-scale RGB-T tracking benchmark datasets validated the effectiveness of our proposed algorithm. The project page of this paper is available at https://sites.google .com/view/mfgrgbttra ck/.
翻訳日:2021-07-23 13:01:18 公開日:2021-07-22
# ReID用ポースを用いたコピー・ペースト法

Copy and Paste method based on Pose for ReID ( http://arxiv.org/abs/2107.10479v1 )

ライセンス: Link先を確認
Cheng Yang(参考訳) ReID(Re-identificati on)は、異なる視点で監視カメラ内のオブジェクトをマッチングすることを目的としている。 非常に高速に開発されていますが、この段階では複数のシナリオでReIDタスクの処理方法はありません。 しかし、この用量は、セキュリティシナリオなど、実生活において常に発生する。 本稿では,視点,背景,ポーズ(歩行やサイクリング)が異なる再同定の新しいシナリオについて検討する。 もちろん、通常のReID処理方法は、このシナリオをうまく扱えない。 私たちは皆、このscanarioに画像データセットを導入することが最善の方法だと考えていますが、これは非常に高価です。 そこで本稿では,新たなシナリオにおいて,ポーズ(cpp)に基づくコピー&ペースト法という,簡易かつ効果的な画像生成手法を提案する。 CPPは、2つの異なるセマンティックイメージデータセットに新しいセマンティックイメージデータセットを合成するために、コピーとペーストを使用したキーポイント検出に基づく手法である。 例えば、歩行者や自転車を使って、同じ人が異なる自転車に乗っていることを示す画像を生成することができます。 cppは新しいシナリオでのreidタスクに適しており、オリジナルのreidタスクのオリジナルのデータセットの最先端を上回っている。 具体的には、サードパーティの公開データセットの一般化パフォーマンスも向上する。 CPPで合成されたコードとデータセットは将来的に利用可能になる。

Re-identification(Re ID) aims at matching objects in surveillance cameras with different viewpoints. It's developing very fast, but there is no processing method for the ReID task in multiple scenarios at this stage. However, this dose happen all the time in real life, such as the security scenarios. This paper explores a new scenario of Re-identification, which differs in perspective, background, and pose(walking or cycling). Obviously, ordinary ReID processing methods cannot handle this scenario well. As we all konw, the best way to deal with that it is to introduce image datasets in this scanario, But this one is very expensive. To solve this problem, this paper proposes a simple and effective way to generate images in some new scenario, which is named Copy and Paste method based on Pose(CPP). The CPP is a method based on key point detection, using copy and paste, to composite a new semantic image dataset in two different semantic image datasets. Such as, we can use pedestrians and bicycles to generate some images that shows the same person rides on different bicycles. The CPP is suitable for ReID tasks in new scenarios and it outperforms state-of-the-art on the original datasets in original ReID tasks. Specifically, it can also have better generalization performance for third-party public datasets. Code and Datasets which composited by the CPP will be available in the future.
翻訳日:2021-07-23 13:00:50 公開日:2021-07-22
# back-tranulated task adaptive pretraining: improved accuracy and robustness on text classification

Back-Translated Task Adaptive Pretraining: Improving Accuracy and Robustness on Text Classification ( http://arxiv.org/abs/2107.10474v1 )

ライセンス: Link先を確認
Junghoon Lee, Jounghee Kim, Pilsung Kang(参考訳) 大きなテキストコーパスで事前学習され、下流のテキストコーパスで微調整され、下流のタスクで微調整された言語モデル(lms)は、いくつかの自然言語処理(nlp)タスクのデファクトトレーニング戦略となる。 近年,タスク関連データを用いた事前学習型言語モデルの適応型事前学習手法により,性能が大幅に向上した。 しかし,現在の適応型事前学習法は,比較的少ないデータ量でタスク分布の過小評価に悩まされている。 適応型事前学習の概念を完全に活用するため,本手法では,タスクデータをバックトランスレーションを用いて拡張し,タスクを対象のタスク領域に一般化することにより,LM再学習のためのタスク固有データ量を増やす。 実験結果から,BT-TAPTは従来の適応型事前学習法よりも低リソースデータと高リソースデータの分類精度が向上し,ノイズに対する堅牢性が向上することがわかった。

Language models (LMs) pretrained on a large text corpus and fine-tuned on a downstream text corpus and fine-tuned on a downstream task becomes a de facto training strategy for several natural language processing (NLP) tasks. Recently, an adaptive pretraining method retraining the pretrained language model with task-relevant data has shown significant performance improvements. However, current adaptive pretraining methods suffer from underfitting on the task distribution owing to a relatively small amount of data to re-pretrain the LM. To completely use the concept of adaptive pretraining, we propose a back-translated task-adaptive pretraining (BT-TAPT) method that increases the amount of task-specific data for LM re-pretraining by augmenting the task data using back-translation to generalize the LM to the target task domain. The experimental results show that the proposed BT-TAPT yields improved classification accuracy on both low- and high-resource data and better robustness to noise than the conventional adaptive pretraining method.
翻訳日:2021-07-23 12:59:45 公開日:2021-07-22
# 女性のための身体活動チャットボット開発のための対人カウンセリング戦略の評価

Evaluation of In-Person Counseling Strategies To Develop Physical Activity Chatbot for Women ( http://arxiv.org/abs/2107.10410v1 )

ライセンス: Link先を確認
Kai-Hui Liang, Patrick Lange, Yoo Jung Oh, Jingwen Zhang, Yoshimi Fukuoka, Zhou Yu(参考訳) 人工知能チャットボットは、人々の行動を変えるための技術に基づく介入の先駆者です。 介入チャットボットを開発するための第一歩は、人間の会話における自然言語会話戦略を理解することである。 本研究は,女性の身体活動介入プログラムから収集した介入会話データセットを紹介する。 我々は4次元の包括的なアノテーションスキーム(ドメイン、戦略、社会的交換、タスク中心の交換)を設計し、ダイアログのサブセットを注釈付けした。 このアノテーションに基づいて,トレーナーと参加者の両方から戦略を検出するために,文脈情報を用いた戦略分類器を構築した。 人間の介入が効果的な行動変化をいかに引き起こすかを理解するために,介入戦略と障壁の変化,身体活動に対する社会的支援との関係を分析した。 また,参加者の基準体重が,対応する戦略の発生量とどのように相関するかを解析した。 この研究は、パーソナライズされた身体活動介入ボットの開発の基礎を築いた。 データセットとコードはhttps://github.com/k aihuiliang/physical- activity-counselingで入手できる。

Artificial intelligence chatbots are the vanguard in technology-based intervention to change people's behavior. To develop intervention chatbots, the first step is to understand natural language conversation strategies in human conversation. This work introduces an intervention conversation dataset collected from a real-world physical activity intervention program for women. We designed comprehensive annotation schemes in four dimensions (domain, strategy, social exchange, and task-focused exchange) and annotated a subset of dialogs. We built a strategy classifier with context information to detect strategies from both trainers and participants based on the annotation. To understand how human intervention induces effective behavior changes, we analyzed the relationships between the intervention strategies and the participants' changes in the barrier and social support for physical activity. We also analyzed how participant's baseline weight correlates to the amount of occurrence of the corresponding strategy. This work lays the foundation for developing a personalized physical activity intervention bot. The dataset and code are available at https://github.com/K aihuiLiang/physical- activity-counseling
翻訳日:2021-07-23 12:59:23 公開日:2021-07-22
# 進化的部分空間クラスタリングのための神経常微分方程式モデルとその応用

Neural Ordinary Differential Equation Model for Evolutionary Subspace Clustering and Its Applications ( http://arxiv.org/abs/2107.10484v1 )

ライセンス: Link先を確認
Mingyuan Bai, S.T. Boris Choy, Junping Zhang, Junbin Gao(参考訳) ニューラル常微分方程式(neural ODE)モデルは、不規則な時間ステップを処理する能力、すなわち、等間隔の時間間隔でデータが観測されないために、時系列解析において注目を集めている。 多次元時系列解析では、その発展する低次元部分空間構造に従って時間データをクラスタリングすることを目的として、進化的部分空間クラスタリングを行う。 既存の方法の多くは定期的な時間ステップでしか時系列を処理できないが、データ不足など多くの状況で時系列が不均等にサンプリングされている。 本稿では,この制限を克服するために,進化的部分空間クラスタリングのためのニューラルodeモデルを提案する。 本手法は,進化的部分空間クラスタリングタスクの任意の時間ステップでデータを補間できるだけでなく,他の最先端進化的部分空間クラスタリング手法よりも高い精度が得られることを示す。 提案手法の有効性を示すために, 合成データと実世界のデータの両方を用いる。

The neural ordinary differential equation (neural ODE) model has attracted increasing attention in time series analysis for its capability to process irregular time steps, i.e., data are not observed over equally-spaced time intervals. In multi-dimensional time series analysis, a task is to conduct evolutionary subspace clustering, aiming at clustering temporal data according to their evolving low-dimensional subspace structures. Many existing methods can only process time series with regular time steps while time series are unevenly sampled in many situations such as missing data. In this paper, we propose a neural ODE model for evolutionary subspace clustering to overcome this limitation and a new objective function with subspace self-expressiveness constraint is introduced. We demonstrate that this method can not only interpolate data at any time step for the evolutionary subspace clustering task, but also achieve higher accuracy than other state-of-the-art evolutionary subspace clustering methods. Both synthetic and real-world data are used to illustrate the efficacy of our proposed method.
翻訳日:2021-07-23 12:59:06 公開日:2021-07-22
# AIディープラーニングフレームワークにおけるトンネルCCTVによる事故検出における遠距離制限の克服

An overcome of far-distance limitation on tunnel CCTV-based accident detection in AI deep-learning frameworks ( http://arxiv.org/abs/2107.10567v1 )

ライセンス: Link先を確認
Kyu-Beom Lee and Hyu-Soung Shin(参考訳) トンネルCCTVは低い高さと長距離に設置されている。 しかし, 設置高さの制限により, 距離に対する遠近性の影響が強く, 既存のトンネルCCTVによる事故検出システムにおいて, CCTVから遠く離れた場所から車両を検出することはほぼ不可能である(Pflugfelder 2005)。 この制限を克服するため、関心領域(ROI)を再設定することにより、逆視点変換に基づいて物体検出アルゴリズムを介して車両物体を検出する。 CCTVから遠く離れた車両を検出することができる。 このプロセスを検証するために,CCTVのオリジナル画像とワープ画像に基づいて,画像とバウンディングボックスからなる各データセットを作成し,その2つのデータセットでトレーニングしたディープラーニングオブジェクト検出モデルの性能を比較した。 その結果、歪んだイメージを訓練したモデルは、元のイメージを訓練したモデルと比較して、CCTVから離れた位置でより正確に車両物体を検出することができた。

Tunnel CCTVs are installed to low height and long-distance interval. However, because of the limitation of installation height, severe perspective effect in distance occurs, and it is almost impossible to detect vehicles in far distance from the CCTV in the existing tunnel CCTV-based accident detection system (Pflugfelder 2005). To overcome the limitation, a vehicle object is detected through an object detection algorithm based on an inverse perspective transform by re-setting the region of interest (ROI). It can detect vehicles that are far away from the CCTV. To verify this process, this paper creates each dataset consisting of images and bounding boxes based on the original and warped images of the CCTV at the same time, and then compares performance of the deep learning object detection models trained with the two datasets. As a result, the model that trained the warped image was able to detect vehicle objects more accurately at the position far from the CCTV compared to the model that trained the original image.
翻訳日:2021-07-23 12:58:48 公開日:2021-07-22
# メタバックドアを用いたスピン列列列モデル

Spinning Sequence-to-Sequence Models with Meta-Backdoors ( http://arxiv.org/abs/2107.10443v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan and Vitaly Shmatikov(参考訳) 本研究は,ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について考察する。 例えば、要約モデルは、ある個人や組織の名前に言及しているあらゆるテキストのポジティブな要約を出力する。 モデルスピン攻撃を説明する「メタバックドア」の概念を紹介する。 これらの攻撃は、アウトプットが有効なモデルを生成し、コンテキストを保持しながら、敵によって選択されたメタタスク(例えばポジティブな感情)を満たす。 これまで研究されてきた言語モデルのバックドアは、感情ラベルをひっくり返したり、文脈によらず単語を置き換えたりするだけでした。 出力はトリガーによる入力では正しくない。 一方、メタバックドアは、seq2seqモデルに対してデプロイ可能な最初のバックドアクラスであり、(a)出力に敵対的なチョンセンスピンを導入し、(b)標準精度メトリクスを維持できる。 モデル回転の実現可能性を示すため,新しいバックドア技術を開発した。 相手のメタタスク(感情分析など)をSeq2seqモデルに積み重ね、"pseudo-words"と呼ばれる単語埋め込み空間のポイントに所望のメタタスク出力(例えば、ポジティブな感情)をバックプロパゲートし、seq2seqモデルの全出力分布を擬似語でシフトさせる。 ポピュラーであまり人気がなく、全く新しい固有名詞をトリガーとして使用することにより、このテクニックをbart要約モデルで評価し、感情を著しく変化させながら、アウトプットのルージュスコアを維持していることを示す。 モデル紡績がAIによる偽情報における危険な手法である理由を説明し、これらの攻撃を緩和する方法について議論する。

We investigate a new threat to neural sequence-to-sequence (seq2seq) models: training-time attacks that cause models to "spin" their output and support a certain sentiment when the input contains adversary-chosen trigger words. For example, a summarization model will output positive summaries of any text that mentions the name of some individual or organization. We introduce the concept of a "meta-backdoor" to explain model-spinning attacks. These attacks produce models whose output is valid and preserves context, yet also satisfies a meta-task chosen by the adversary (e.g., positive sentiment). Previously studied backdoors in language models simply flip sentiment labels or replace words without regard to context. Their outputs are incorrect on inputs with the trigger. Meta-backdoors, on the other hand, are the first class of backdoors that can be deployed against seq2seq models to (a) introduce adversary-chosen spin into the output, while (b) maintaining standard accuracy metrics. To demonstrate feasibility of model spinning, we develop a new backdooring technique. It stacks the adversarial meta-task (e.g., sentiment analysis) onto a seq2seq model, backpropagates the desired meta-task output (e.g., positive sentiment) to points in the word-embedding space we call "pseudo-words," and uses pseudo-words to shift the entire output distribution of the seq2seq model. Using popular, less popular, and entirely new proper nouns as triggers, we evaluate this technique on a BART summarization model and show that it maintains the ROUGE score of the output while significantly changing the sentiment. We explain why model spinning can be a dangerous technique in AI-powered disinformation and discuss how to mitigate these attacks.
翻訳日:2021-07-23 12:58:20 公開日:2021-07-22
# 格子型インシシシット関数を用いた3次元形状生成

3D Shape Generation with Grid-based Implicit Functions ( http://arxiv.org/abs/2107.10607v1 )

ライセンス: Link先を確認
Moritz Ibing, Isaak Lim, Leif Kobbelt(参考訳) オートエンコーダ(AE)の潜伏空間にGANを3D設定して形状を生成するための従来のアプローチ。 これは説得力のある結果をもたらすが、2つの大きな欠点がある。 GANは、AEがトレーニングしたデータセットの再生に限られているので、トレーニングされたAEを新しいデータに再利用することはできない。 さらに、AEがグローバルな表現しか与えないため、生成プロセスに空間的監督を加えることは困難である。 これらの問題を解決するため、グリッド上でGANを訓練することを提案する。 各細胞は形の一部を覆っている)。 この表現では、各セルは、AEによって提供される潜伏ベクトルを備える。 この局所化表現は、より表現力(細胞ベースの潜伏ベクトルを新しい方法で組み合わせることができるため)と生成過程の空間的制御を可能にする。 バウンディングボックス経由で)。 本手法は,gansの生成能力を定量的に評価するために提案する,確立された評価手法のすべてにおいて,現在の技術を上回るものである。 本稿では,これらの対策の限界を示すとともに,統計的分析によるロバストな基準の適応を代替として提案する。

Previous approaches to generate shapes in a 3D setting train a GAN on the latent space of an autoencoder (AE). Even though this produces convincing results, it has two major shortcomings. As the GAN is limited to reproduce the dataset the AE was trained on, we cannot reuse a trained AE for novel data. Furthermore, it is difficult to add spatial supervision into the generation process, as the AE only gives us a global representation. To remedy these issues, we propose to train the GAN on grids (i.e. each cell covers a part of a shape). In this representation each cell is equipped with a latent vector provided by an AE. This localized representation enables more expressiveness (since the cell-based latent vectors can be combined in novel ways) as well as spatial control of the generation process (e.g. via bounding boxes). Our method outperforms the current state of the art on all established evaluation measures, proposed for quantitatively evaluating the generative capabilities of GANs. We show limitations of these measures and propose the adaptation of a robust criterion from statistical analysis as an alternative.
翻訳日:2021-07-23 12:56:42 公開日:2021-07-22
# ゼロソース名前付きエンティティ認識のためのターゲット指向微調整

Target-Oriented Fine-tuning for Zero-Resource Named Entity Recognition ( http://arxiv.org/abs/2107.10523v1 )

ライセンス: Link先を確認
Ying Zhang, Fandong Meng, Yufeng Chen, Jinan Xu, and Jie Zhou(参考訳) ゼロリソースのエンティティ認識(NER)は、特定のドメインや言語のデータの不足に苦しむ。 各種補助タスクの微調整による各種データからのゼロリソースNER転送知識に関する研究がほとんどである。 しかし、トレーニングデータと微調整タスクを適切に選択する方法はまだ未解決の問題である。 本稿では,ドメイン,言語,タスクの3つの側面から知識を伝達し,それらの相互関係を強化することで,この問題に対処する。 具体的には,知識伝達とタスク微調整をガイドする4つの実践的ガイドラインを提案する。 これらのガイドラインに基づいて、我々は3つの側面から様々なデータを統一的な訓練方法で活用するターゲット指向微調整(TOF)フレームワークを設計する。 6つのベンチマーク実験の結果,クロスドメインシナリオとクロスリンガルシナリオの両方において,ベースラインに対して一貫した改善が得られた。 特に,5つのベンチマークで最先端性能を実現する。

Zero-resource named entity recognition (NER) severely suffers from data scarcity in a specific domain or language. Most studies on zero-resource NER transfer knowledge from various data by fine-tuning on different auxiliary tasks. However, how to properly select training data and fine-tuning tasks is still an open problem. In this paper, we tackle the problem by transferring knowledge from three aspects, i.e., domain, language and task, and strengthening connections among them. Specifically, we propose four practical guidelines to guide knowledge transfer and task fine-tuning. Based on these guidelines, we design a target-oriented fine-tuning (TOF) framework to exploit various data from three aspects in a unified training manner. Experimental results on six benchmarks show that our method yields consistent improvements over baselines in both cross-domain and cross-lingual scenarios. Particularly, we achieve new state-of-the-art performance on five benchmarks.
翻訳日:2021-07-23 12:56:09 公開日:2021-07-22
# 出荷または出荷しない:機械翻訳のための自動測定値の広範囲な評価

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation ( http://arxiv.org/abs/2107.10821v1 )

ライセンス: Link先を確認
Tom Kocmi and Christian Federmann and Roman Grundkiewicz and Marcin Junczys-Dowmunt and Hitokazu Matsushita and Arul Menezes(参考訳) 自動メトリクスは、ある機械翻訳システムの品質が他の機械よりも優れていることを宣言するための専用ツールとして一般的に使用される。 自動メトリクスのコミュニティ選択は、どのモデルが良いと見なされるかを決めることによって、研究の方向性と産業の発展を導く。 メトリクス相関の評価は、人間の判断のごく一部に限られている。 本稿では,人間の判断の最大集合である人間の判断とは対照的に,指標がどの程度信頼できるのかを考察する。 実測値の使用状況に最も近い金の基準として人間の判断を採り入れ,システムレベルの品質ランキングを作成する上で,どの指標が最も正確かを検討する。 さらに,様々な言語対とドメインにおける各種メトリクスの性能評価を行った。 最後に,bleu の単独使用が過去の改良モデル開発に悪影響を与えていることを示す。 我々は、4380のシステムと2.3Mの注釈付き文による人間の判断の収集を公開し、さらなる分析と複製を行う。

Automatic metrics are commonly used as the exclusive tool for declaring the superiority of one machine translation system's quality over another. The community choice of automatic metric guides research directions and industrial developments by deciding which models are deemed better. Evaluating metrics correlations has been limited to a small collection of human judgements. In this paper, we corroborate how reliable metrics are in contrast to human judgements on - to the best of our knowledge - the largest collection of human judgements. We investigate which metrics have the highest accuracy to make system-level quality rankings for pairs of systems, taking human judgement as a gold standard, which is the closest scenario to the real metric usage. Furthermore, we evaluate the performance of various metrics across different language pairs and domains. Lastly, we show that the sole use of BLEU negatively affected the past development of improved models. We release the collection of human judgements of 4380 systems, and 2.3 M annotated sentences for further analysis and replication of our work.
翻訳日:2021-07-23 12:55:55 公開日:2021-07-22
# 共感的倫理的人工知能の哲学的仕様

Philosophical Specification of Empathetic Ethical Artificial Intelligence ( http://arxiv.org/abs/2107.10715v1 )

ライセンス: Link先を確認
Michael Timothy Bennett, Yoshihiro Maruyama(参考訳) 倫理的人工知能(AI)を構築するには、2つの複雑な問題を克服しなければならない。 第一に、人間は、何が倫理的でないかに一貫して同意しない。 第二に、現代のAIと機械学習の手法は、事前定義されたルールの範囲内のソリューションを探索する鈍い道具である傾向がある。 倫理的AIは、無意味なルールを推論し、ニュアンスと文脈を解釈し、意図を推測し、その行動だけでなくその意図も説明できなければならない。 本研究は,記号と記号との任意の関係だけでなく,その意味を感覚運動系の知覚状態から学習するエージェントを,エラクティビズム,記号体系,記号出現法を用いて定義する。 その後、文の意味を学習し、自身の経験から他人の意図を推測することができる。 それは、記号の意味が学習するにつれて変化し、その意図が目的として象徴されるからである。 このようにして、人間の集団の大多数から倫理的と見なされるであろうものの概念を学ぶことができ、それが目標として使われる可能性がある。 抽象記号の意味は、生の感覚運動刺激の知覚記号を用いて、(オッカムのカミソリと矛盾しない)必要かつ十分な概念として表現される。 これらの抽象シンボルは状況と応答の両方で同じであるため、アクションの実行や観察において同じシンボルが使用される。 これは人間の脳のニューロンをミラーするのに似ている。 鏡のシンボルは、エージェント自身の経験がシンボルと関連付けられており、シンボルが表す何かを経験する別のエージェントの観察と関連しているため、エージェントに共感を許すかもしれない。

In order to construct an ethical artificial intelligence (AI) two complex problems must be overcome. Firstly, humans do not consistently agree on what is or is not ethical. Second, contemporary AI and machine learning methods tend to be blunt instruments which either search for solutions within the bounds of predefined rules, or mimic behaviour. An ethical AI must be capable of inferring unspoken rules, interpreting nuance and context, possess and be able to infer intent, and explain not just its actions but its intent. Using enactivism, semiotics, perceptual symbol systems and symbol emergence, we specify an agent that learns not just arbitrary relations between signs but their meaning in terms of the perceptual states of its sensorimotor system. Subsequently it can learn what is meant by a sentence and infer the intent of others in terms of its own experiences. It has malleable intent because the meaning of symbols changes as it learns, and its intent is represented symbolically as a goal. As such it may learn a concept of what is most likely to be considered ethical by the majority within a population of humans, which may then be used as a goal. The meaning of abstract symbols is expressed using perceptual symbols of raw sensorimotor stimuli as the weakest (consistent with Ockham's Razor) necessary and sufficient concept, an intensional definition learned from an ostensive definition, from which the extensional definition or category of all ethical decisions may be obtained. Because these abstract symbols are the same for both situation and response, the same symbol is used when either performing or observing an action. This is akin to mirror neurons in the human brain. Mirror symbols may allow the agent to empathise, because its own experiences are associated with the symbol, which is also associated with the observation of another agent experiencing something that symbol represents.
翻訳日:2021-07-23 12:55:19 公開日:2021-07-22
# deepscale: マルチオブジェクトトラッキングを高速化するオンラインフレームサイズ適応フレームワーク

DeepScale: An Online Frame Size Adaptation Framework to Accelerate Visual Multi-object Tracking ( http://arxiv.org/abs/2107.10404v1 )

ライセンス: Link先を確認
Keivan Nalaie, Rong Zheng(参考訳) 監視・捜索・救助アプリケーションでは、ローエンドデバイス上でリアルタイムにマルチターゲットトラッキング(MOT)を実行することが重要である。 今日のmotソリューションでは、計算の複雑さが高いディープニューラルネットワークが使用されている。 フレームサイズがトラッキング性能に与える影響を認識し,既存の完全畳み込みネットワークベースのトラッカー上で動作し,トラッキングスループットを高速化するモデルに依存しないフレームサイズ選択手法であるDeepScaleを提案する。 トレーニング段階では,検出可能性スコアをワンショットトラッカアーキテクチャに組み込んで,deepscaleがフレームサイズの異なる表現推定を自己教師付きで学習できるようにする。 ユーザ制御パラメータに基づいた推論では,実行時にフレームサイズを適応することにより,トラッキング精度と速度のトレードオフを適切に検出することができる。 MOTデータセットに関する大規模な実験とベンチマークテストは、DeepScaleの有効性と柔軟性を示している。 最先端のトラッカーであるDeepScale++と比較して、DeepScaleの亜種であるDeepScaleは、1つの構成でMOT15データセット上での精度の追跡において、適度な劣化(~2.4)で1.57Xアクセラレーションを達成している。

In surveillance and search and rescue applications, it is important to perform multi-target tracking (MOT) in real-time on low-end devices. Today's MOT solutions employ deep neural networks, which tend to have high computation complexity. Recognizing the effects of frame sizes on tracking performance, we propose DeepScale, a model agnostic frame size selection approach that operates on top of existing fully convolutional network-based trackers to accelerate tracking throughput. In the training stage, we incorporate detectability scores into a one-shot tracker architecture so that DeepScale can learn representation estimations for different frame sizes in a self-supervised manner. During inference, based on user-controlled parameters, it can find a suitable trade-off between tracking accuracy and speed by adapting frame sizes at run time. Extensive experiments and benchmark tests on MOT datasets demonstrate the effectiveness and flexibility of DeepScale. Compared to a state-of-the-art tracker, DeepScale++, a variant of DeepScale achieves 1.57X accelerated with only moderate degradation (~ 2.4) in tracking accuracy on the MOT15 dataset in one configuration.
翻訳日:2021-07-23 12:54:33 公開日:2021-07-22
# tripletは、教師なしのビジュアル表現学習のためのランダムマッピング

Triplet is All You Need with Random Mappings for Unsupervised Visual Representation Learning ( http://arxiv.org/abs/2107.10419v1 )

ライセンス: Link先を確認
Wenbin Li, Xuesong Yang, Meihao Kong, Lei Wang, Jing Huo, Yang Gao and Jiebo Luo(参考訳) コントラスト型自己教師学習(SSL)は、同じ画像の2つの拡張ビュー(正ペア)の類似性を最大化し、他の異なる画像(負ペア)を同時に比較することにより、教師なしの視覚表現学習において大きな成功を収めた。 しかし、SimCLRやMoCoのようなこの種の手法は、多くの負のペアに大きく依存しているため、大きなバッチかメモリバンクを必要とする。 対照的に、BYOLやSimSiamのような最近の非競合的なSSLメソッドでは、非対称性を導入して負のペアを破棄し、顕著な性能を示す。 残念ながら、負のペアを使わずに崩壊した解を避けるために、これらの方法は洗練された非対称性設計を必要とする。 この論文では、負対は依然として必要であるが、一つは十分である、すなわち三重項が全てである。 単純な三重項に基づく損失は、大きなバッチや非対称性を必要とせずに驚くほど優れた性能を達成することができる。 さらに,教師なし視覚表現学習がランダム性から著しく向上することが観察された。 そこで本研究では,サンプルを他の空間にランダムにマッピングし,これらのランダムに投影したサンプルを同じ相関条件を満たすためのシンプルなプラグインRandOm MApping(ROMA)戦略を提案する。 提案したROMA戦略は、三重項に基づく損失とともに最先端のパフォーマンスを達成するだけでなく、他のSSLメソッドをさらに効果的に強化することができる。

Contrastive self-supervised learning (SSL) has achieved great success in unsupervised visual representation learning by maximizing the similarity between two augmented views of the same image (positive pairs) and simultaneously contrasting other different images (negative pairs). However, this type of methods, such as SimCLR and MoCo, relies heavily on a large number of negative pairs and thus requires either large batches or memory banks. In contrast, some recent non-contrastive SSL methods, such as BYOL and SimSiam, attempt to discard negative pairs by introducing asymmetry and show remarkable performance. Unfortunately, to avoid collapsed solutions caused by not using negative pairs, these methods require sophisticated asymmetry designs. In this paper, we argue that negative pairs are still necessary but one is sufficient, i.e., triplet is all you need. A simple triplet-based loss can achieve surprisingly good performance without requiring large batches or asymmetry. Moreover, we observe that unsupervised visual representation learning can gain significantly from randomness. Based on this observation, we propose a simple plug-in RandOm MApping (ROMA) strategy by randomly mapping samples into other spaces and enforcing these randomly projected samples to satisfy the same correlation requirement. The proposed ROMA strategy not only achieves the state-of-the-art performance in conjunction with the triplet-based loss, but also can further effectively boost other SSL methods.
翻訳日:2021-07-23 12:54:11 公開日:2021-07-22
# 特徴マップアンサンブルに基づく幾何学的データ拡張

Geometric Data Augmentation Based on Feature Map Ensemble ( http://arxiv.org/abs/2107.10524v1 )

ライセンス: Link先を確認
Takashi Shibata, Masayuki Tanaka, Masatoshi Okutomi(参考訳) 深層畳み込みネットワークはコンピュータビジョンアプリケーションで主流となっている。 CNNは多くのコンピュータビジョンタスクで成功したが、欠点はない。 CNNの性能は、大きな回転のような幾何変換によって劇的に劣化する。 本稿では,CNNの既存のバックボーンを変更することなく,幾何変換に対する堅牢性を向上させる新しいCNNアーキテクチャを提案する。 鍵となるのは、既存のバックボーンを幾何学変換(および対応する逆変換)と特徴写像アンサンブルで囲むことである。 提案手法はこれまでに提示された既存のCNNの強みを継承することができる。 さらに,提案手法を最先端データ拡張アルゴリズムと組み合わせることで,その性能を向上させることができる。 CIFAR, CUB-200, Mnist-rot-12kなどの標準データセットを用いて提案手法の有効性を示す。

Deep convolutional networks have become the mainstream in computer vision applications. Although CNNs have been successful in many computer vision tasks, it is not free from drawbacks. The performance of CNN is dramatically degraded by geometric transformation, such as large rotations. In this paper, we propose a novel CNN architecture that can improve the robustness against geometric transformations without modifying the existing backbones of their CNNs. The key is to enclose the existing backbone with a geometric transformation (and the corresponding reverse transformation) and a feature map ensemble. The proposed method can inherit the strengths of existing CNNs that have been presented so far. Furthermore, the proposed method can be employed in combination with state-of-the-art data augmentation algorithms to improve their performance. We demonstrate the effectiveness of the proposed method using standard datasets such as CIFAR, CUB-200, and Mnist-rot-12k.
翻訳日:2021-07-23 12:53:44 公開日:2021-07-22
# フェース・アンチ・スプーフィングのための構造破壊とコンテンツ結合

Structure Destruction and Content Combination for Face Anti-Spoofing ( http://arxiv.org/abs/2107.10628v1 )

ライセンス: Link先を確認
Ke-Yue Zhang, Taiping Yao, Jian Zhang, Shice Liu, Bangjie Yin, Shouhong Ding, Jilin Li(参考訳) 顔認証システムの統合を追求するために、先行顔防汚研究は、オリジナル画像の隠れた手がかりを発掘し、補助監督の助けを借りて、実人と多様な攻撃タイプを識別する。 しかし, 訓練過程では, 1) 顔の完全な構造を1つの画像で表現すること, という2つの内在的な障害に制限されている。 2) データセット全体の暗黙のサブドメイン これらのメソッドは、トレーニングデータセット全体の記憶に固執し、非ホモログなドメイン分布に対する感受性を示す。 本稿では,これら2つの模倣に個別に対処する構造分解モジュールとコンテンツ結合モジュールを提案する。 前者のメカニズムはイメージを非構造的な入力を構成するためにパッチに分解し、後者のメカニズムは異なるサブドメインやクラスからのパッチをミックスアップ構造に再結合する。 この分割・スプライシング操作に基づいて,パッチ間の2次関係をモデル化するために,局所関係モデリングモジュールがさらに提案されている。 本手法は,広範な公開データセット上で評価し,その信頼性を実証するために実験結果が期待できる。

In pursuit of consolidating the face verification systems, prior face anti-spoofing studies excavate the hidden cues in original images to discriminate real persons and diverse attack types with the assistance of auxiliary supervision. However, limited by the following two inherent disturbances in their training process: 1) Complete facial structure in a single image. 2) Implicit subdomains in the whole dataset, these methods are prone to stick on memorization of the entire training dataset and show sensitivity to nonhomologous domain distribution. In this paper, we propose Structure Destruction Module and Content Combination Module to address these two imitations separately. The former mechanism destroys images into patches to construct a non-structural input, while the latter mechanism recombines patches from different subdomains or classes into a mixup construct. Based on this splitting-and-splici ng operation, Local Relation Modeling Module is further proposed to model the second-order relationship between patches. We evaluate our method on extensive public datasets and promising experimental results to demonstrate the reliability of our method against state-of-the-art competitors.
翻訳日:2021-07-23 12:53:31 公開日:2021-07-22
# AnonySIGN:手話ビデオ匿名化のための新しい人間の外観合成

AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video Anonymisation ( http://arxiv.org/abs/2107.10685v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 手話データの視覚的匿名化は、大規模なデータセット収集によって引き起こされるプライバシー問題に対処するための重要なタスクである。 従来の匿名化技術は、手話理解に大きく影響したか、あるいは手作業、労働集約的な作業を必要とした。 本稿では,手話映像の視覚的外観を匿名化するための自動的手法として手話映像匿名化(slva)の課題を,手話映像の本来の意味を保ちながら正式に紹介する。 SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。 まず、元のシグナの外観を除去するために、ソースビデオからポーズ情報を抽出する。 次に、条件付き可変オートエンコーダフレームワークにおける画像から画像への変換手法を用いて、ポーズシーケンスから新しい外観の写実的な手話ビデオを生成する。 近い後部スタイルの分布を学習し、新しい人間の外観を合成するためにサンプリングすることができる。 さらに,匿名化した手話ビデオにおけるスタイル一貫性を保証する,新しい \textit{style loss}を提案する。 SLVAタスクにおける AnonySign を定量的および定性的な実験により評価し,新しい人間の外見合成の現実性と匿名性を強調した。 さらに、SLVAタスクの評価基準として匿名知覚研究を定式化し、AnonySignを用いたビデオ匿名化が元の手話の内容を保持することを示す。

The visual anonymisation of sign language data is an essential task to address privacy concerns raised by large-scale dataset collection. Previous anonymisation techniques have either significantly affected sign comprehension or required manual, labour-intensive work. In this paper, we formally introduce the task of Sign Language Video Anonymisation (SLVA) as an automatic method to anonymise the visual appearance of a sign language video whilst retaining the meaning of the original sign language sequence. To tackle SLVA, we propose AnonySign, a novel automatic approach for visual anonymisation of sign language data. We first extract pose information from the source video to remove the original signer appearance. We next generate a photo-realistic sign language video of a novel appearance from the pose sequence, using image-to-image translation methods in a conditional variational autoencoder framework. An approximate posterior style distribution is learnt, which can be sampled from to synthesise novel human appearances. In addition, we propose a novel \textit{style loss} that ensures style consistency in the anonymised sign language videos. We evaluate AnonySign for the SLVA task with extensive quantitative and qualitative experiments highlighting both realism and anonymity of our novel human appearance synthesis. In addition, we formalise an anonymity perceptual study as an evaluation criteria for the SLVA task and showcase that video anonymisation using AnonySign retains the original sign language content.
翻訳日:2021-07-23 12:52:57 公開日:2021-07-22
# EAN: 行動認識のためのイベント適応型ネットワーク

EAN: Event Adaptive Network for Enhanced Action Recognition ( http://arxiv.org/abs/2107.10771v1 )

ライセンス: Link先を確認
Yuan Tian, Yichao Yan, Xiongkuo Min, Guo Lu, Guangtao Zhai, Guodong Guo, and Zhiyong Gao(参考訳) 映像中の空間-時間情報の効率的なモデリングは行動認識に不可欠である。 この目的を達成するために、最先端の手法は典型的には畳み込み演算子と非局所ブロックのような密接な相互作用モジュールを用いる。 しかし、これらの手法はビデオ内の多様な事象に正確に適合しない。 一方、採用されている畳み込みは一定のスケールで行われており、様々なスケールのイベントに苦しめられている。 一方、密接な相互作用モデリングパラダイムは、動作非関連部品が最終的な予測に付加的なノイズをもたらすため、準最適性能を達成するのみである。 本稿では,映像コンテンツの動的性質を,以下の設計を取り入れた一貫した行動認識フレームワークを提案する。 まず、局所的な手がかりを抽出する際に、動的スケールの空間-時間的核を生成し、多様な事象に適応的に適合させる。 第2に、これらの手がかりをグローバルビデオ表現に正確に集約するために、いくつかの選択された前景オブジェクト間のインタラクションのみをトランスフォーマーによってマイニングすることを提案する。 提案するフレームワークをイベント適応ネットワーク(Event Adaptive Network, EAN)と呼ぶ。 本稿では,局所セグメント内の短期動作を利用するために,新しい効率的な潜在動作コード(lmc)モジュールを提案し,フレームワークの性能をさらに向上させる。 いくつかの大規模ビデオデータセット(例えば、Somes-to-Something V1&V2, Kinetics, Diving48)に対する大規模な実験により、私たちのモデルは、低いFLOPで最先端または競争的なパフォーマンスを達成することを検証した。 コードはhttps://github.com/t ianyuan168326/ean-py torch。

Efficiently modeling spatial-temporal information in videos is crucial for action recognition. To achieve this goal, state-of-the-art methods typically employ the convolution operator and the dense interaction modules such as non-local blocks. However, these methods cannot accurately fit the diverse events in videos. On the one hand, the adopted convolutions are with fixed scales, thus struggling with events of various scales. On the other hand, the dense interaction modeling paradigm only achieves sub-optimal performance as action-irrelevant parts bring additional noises for the final prediction. In this paper, we propose a unified action recognition framework to investigate the dynamic nature of video content by introducing the following designs. First, when extracting local cues, we generate the spatial-temporal kernels of dynamic-scale to adaptively fit the diverse events. Second, to accurately aggregate these cues into a global video representation, we propose to mine the interactions only among a few selected foreground objects by a Transformer, which yields a sparse paradigm. We call the proposed framework as Event Adaptive Network (EAN) because both key designs are adaptive to the input video content. To exploit the short-term motions within local segments, we propose a novel and efficient Latent Motion Code (LMC) module, further improving the performance of the framework. Extensive experiments on several large-scale video datasets, e.g., Something-to-Somethi ng V1&V2, Kinetics, and Diving48, verify that our models achieve state-of-the-art or competitive performances at low FLOPs. Codes are available at: https://github.com/t ianyuan168326/EAN-Py torch.
翻訳日:2021-07-23 12:52:33 公開日:2021-07-22
# Query2Label: マルチラベル分類の簡単な変換方法

Query2Label: A Simple Transformer Way to Multi-Label Classification ( http://arxiv.org/abs/2107.10834v1 )

ライセンス: Link先を確認
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu(参考訳) 本稿では,多ラベル分類問題に対する単純かつ効果的なアプローチを提案する。 提案手法はTransformerデコーダを用いてクラスラベルの存在を問い合わせる。 トランスの使用は、異なるラベルに対して適応的に局所的な識別特徴を抽出する必要性に根ざしており、これは1つの画像に複数のオブジェクトが存在するため、強く望まれる特性である。 Transformerデコーダのビルトインのクロスアテンションモジュールは、後続のバイナリ分類のために視覚バックボーンによって計算された特徴マップからクラス関連の機能を探索してプールするためのクエリとしてラベル埋め込みを使用する効果的な方法を提供する。 従来の作業と比較すると、新しいフレームワークはシンプルで、標準的なトランスフォーマーとビジョンバックボーンを使用し、MS-COCO、PASCAL VOC、NAS-WIDE、Visual Genomeを含む5つのマルチラベル分類データセットにおいて、従来よりも一貫してパフォーマンスが向上している。 特に,MS-COCO 上では 91.3 %$ mAP を確立する。 我々は,そのコンパクトな構造,シンプルな実装,優れた性能が,多ラベル分類タスクや今後の研究の強力なベースラインとなることを願っている。 コードは近くhttps://github.com/s longliu/query2labels で入手できる。

This paper presents a simple and effective approach to solving the multi-label classification problem. The proposed approach leverages Transformer decoders to query the existence of a class label. The use of Transformer is rooted in the need of extracting local discriminative features adaptively for different labels, which is a strongly desired property due to the existence of multiple objects in one image. The built-in cross-attention module in the Transformer decoder offers an effective way to use label embeddings as queries to probe and pool class-related features from a feature map computed by a vision backbone for subsequent binary classifications. Compared with prior works, the new framework is simple, using standard Transformers and vision backbones, and effective, consistently outperforming all previous works on five multi-label classification data sets, including MS-COCO, PASCAL VOC, NUS-WIDE, and Visual Genome. Particularly, we establish $91.3\%$ mAP on MS-COCO. We hope its compact structure, simple implementation, and superior performance serve as a strong baseline for multi-label classification tasks and future studies. The code will be available soon at https://github.com/S longLiu/query2labels .
翻訳日:2021-07-23 12:52:04 公開日:2021-07-22
# インドにおけるアジアゾウの生息環境適合性の経年的・経年的変動--ランダム森林モデルに基づく分析

Inter and Intra-Annual Spatio-Temporal Variability of Habitat Suitability for Asian Elephants in India: A Random Forest Model-based Analysis ( http://arxiv.org/abs/2107.10478v1 )

ライセンス: Link先を確認
P. Anjali, Deepak N. Subramani(参考訳) 本研究では,インドにおけるアジアゾウの種分布を推定するランダムフォレストモデルを構築し,それらの生息環境の日内および年内時空間変動について検討した。 気候、地形変数および衛星由来の土地利用・土地被覆(LULC)、ネットプライマリ生産性(NPP)、リーフエリア指数(LAI)、正規化分化植生指数(NDVI)を予測指標とし、グローバル生物多様性情報保護区のアジアゾウの種追跡データを用いてランダムフォレストモデルを開発した。 注意深いハイパーパラメータチューニングとトレーニングバリデーションテストサイクルが完了し、重要な予測器を特定し、0.78と0.77の精度とリコールを与える最終モデルを開発する。 このモデルを用いて、適切な生息地の空間的および時間的変動を推定する。 適切な生息地での季節的減少は,アジアゾウの移動パターンとヒト-エレファント紛争の増加を説明できる可能性がある。 さらに、利用可能な総生息面積が減少していることが観測され、この問題が悪化する。 この機械学習モデルは、AIによる意思決定支援ツールの一部として構築しているエージェントベースモデルへの入力として機能することを目的としています。

We develop a Random Forest model to estimate the species distribution of Asian elephants in India and study the inter and intra-annual spatiotemporal variability of habitats suitable for them. Climatic, topographic variables and satellite-derived Land Use/Land Cover (LULC), Net Primary Productivity (NPP), Leaf Area Index (LAI), and Normalized Difference Vegetation Index (NDVI) are used as predictors, and the species sighting data of Asian elephants from Global Biodiversity Information Reserve is used to develop the Random Forest model. A careful hyper-parameter tuning and training-validation- testing cycle are completed to identify the significant predictors and develop a final model that gives precision and recall of 0.78 and 0.77. The model is applied to estimate the spatial and temporal variability of suitable habitats. We observe that seasonal reduction in the suitable habitat may explain the migration patterns of Asian elephants and the increasing human-elephant conflict. Further, the total available suitable habitat area is observed to have reduced, which exacerbates the problem. This machine learning model is intended to serve as an input to the Agent-Based Model that we are building as part of our Artificial Intelligence-driven decision support tool to reduce human-wildlife conflict.
翻訳日:2021-07-23 12:51:29 公開日:2021-07-22
# 医療クレームを用いた疾患予測のためのオートMLフレームワークのベンチマーク

Benchmarking AutoML Frameworks for Disease Prediction Using Medical Claims ( http://arxiv.org/abs/2107.10495v1 )

ライセンス: Link先を確認
Roland Albert A. Romero, Mariefel Nicole Y. Deypalan, Suchit Mehrotra, John Titus Jungao, Natalie E. Sheils, Elisabetta Manduchi and Jason H. Moore(参考訳) 大規模で高度にバランスの取れない医療データセットにおけるautomlツールのパフォーマンスを確認し比較する。 2019年以前の4つのタイムウィンドウに,人口統計情報や疾病コードに関するフラグなど,過去の管理上の主張を使って,大規模なデータセットを作成しました。 そして、このデータセット上で3つのAutoMLツールをトレーニングし、2019年の6つの異なる疾患結果を予測するとともに、いくつかのメトリクスでモデルパフォーマンスを評価しました。 AutoMLツールでは、ベースラインのランダムフォレストモデルから改善が見られたが、大きな違いはなかった。 全てのモデルは精度・リコール曲線の下で低面積を記録し, 正の正の予測に失敗した。 モデルのパフォーマンスは、流行に直接関係していなかった。 医学的応用において重要な考慮事項である真正と偽正の正の比率の最良のバランスを与えるしきい値の選択方法を説明するための具体的なユースケースを提供する。 ヘルスケアデータセットは、大きなサンプルサイズ、高い不均衡、利用可能な機能タイプの制限など、AutoMLツールにいくつかの課題を提示している。 スケーラビリティの向上、不均衡学習リサンプリングとアンサンブルアプローチの組み合わせ、そして、改善された機能選択が次のステップで実現され、パフォーマンスが向上する。 調査対象の3つの中で、予測パフォーマンスという点では、AutoMLツールが他のツールよりも一貫して優れています。 本研究におけるモデルの性能は,医療請求データの取り扱いに改善の余地がある可能性が示唆された。 最後に、最適な予測しきい値の選択は、特定の実用的応用によって導かれるべきである。

We ascertain and compare the performances of AutoML tools on large, highly imbalanced healthcare datasets. We generated a large dataset using historical administrative claims including demographic information and flags for disease codes in four different time windows prior to 2019. We then trained three AutoML tools on this dataset to predict six different disease outcomes in 2019 and evaluated model performances on several metrics. The AutoML tools showed improvement from the baseline random forest model but did not differ significantly from each other. All models recorded low area under the precision-recall curve and failed to predict true positives while keeping the true negative rate high. Model performance was not directly related to prevalence. We provide a specific use-case to illustrate how to select a threshold that gives the best balance between true and false positive rates, as this is an important consideration in medical applications. Healthcare datasets present several challenges for AutoML tools, including large sample size, high imbalance, and limitations in the available features types. Improvements in scalability, combinations of imbalance-learning resampling and ensemble approaches, and curated feature selection are possible next steps to achieve better performance. Among the three explored, no AutoML tool consistently outperforms the rest in terms of predictive performance. The performances of the models in this study suggest that there may be room for improvement in handling medical claims data. Finally, selection of the optimal prediction threshold should be guided by the specific practical application.
翻訳日:2021-07-23 12:51:04 公開日:2021-07-22
# サプライチェーンネットワークのためのグラフ表現学習におけるデータ考察

Data Considerations in Graph Representation Learning for Supply Chain Networks ( http://arxiv.org/abs/2107.10609v1 )

ライセンス: Link先を確認
Ajmal Aziz, Edward Elson Kosasih, Ryan-Rhys Griffiths, Alexandra Brintrup(参考訳) サプライチェーンネットワークデータは、倫理的プロファイル、サプライのセキュリティ、効率性を理解したい企業にとって貴重な資産である。 しかし、データセットだけでは、不完全な情報のために実行可能な決定を可能にするには十分ではない。 本稿では,focal社では認識できないような隠れた依存関係リンクを明らかにするためのグラフ表現学習手法を提案する。 私たちの知る限りでは、学習可能な埋め込みを持つ異種知識グラフとしてサプライチェーンを表現するのは、私たちの仕事が初めてです。 本稿では,リレーショナルグラフ畳み込みネットワークを用いたグローバルな自動車サプライチェーンネットワークのリンク予測における最先端の性能向上を実証する。 本手法は,不正な組織とのリンクを遮断し,供給不全のリスクを軽減したい企業に直接適用することが期待されている。 より抽象的に,本手法は,リンク予測を超えた下流タスクにおけるサプライチェーンネットワークの表現学習に有用であることが期待される。

Supply chain network data is a valuable asset for businesses wishing to understand their ethical profile, security of supply, and efficiency. Possession of a dataset alone however is not a sufficient enabler of actionable decisions due to incomplete information. In this paper, we present a graph representation learning approach to uncover hidden dependency links that focal companies may not be aware of. To the best of our knowledge, our work is the first to represent a supply chain as a heterogeneous knowledge graph with learnable embeddings. We demonstrate that our representation facilitates state-of-the-art performance on link prediction of a global automotive supply chain network using a relational graph convolutional network. It is anticipated that our method will be directly applicable to businesses wishing to sever links with nefarious entities and mitigate risk of supply failure. More abstractly, it is anticipated that our method will be useful to inform representation learning of supply chain networks for downstream tasks beyond link prediction.
翻訳日:2021-07-23 12:50:40 公開日:2021-07-22
# 擬似ラベルクラスタリング

Selective Pseudo-label Clustering ( http://arxiv.org/abs/2107.10692v1 )

ライセンス: Link先を確認
Louis Mahon, Thomas Lukasiewicz(参考訳) ディープニューラルネットワーク(DNN)は、高次元データをクラスタリングする困難なタスクに対処する手段を提供する。 dnnは有用な特徴を抽出し、より低い次元の表現を生成することができる。 クラスタリングは通常、トレーニングラベルが使用できない純粋に教師なしの環境で実行されるため、DNN機能抽出器をどのようにトレーニングできるかという疑問が生じる。 最も正確な既存のアプローチは、DNNのトレーニングとクラスタリングの目標を組み合わせることで、クラスタリングプロセスからの情報を使用して、DNNを更新してクラスタリングのためのより良い機能を生成することができる。 このアプローチの1つの問題は、クラスタリングアルゴリズムによって生成されたこれらの ``pseudo-labels'' がノイズであり、それらを含むエラーがDNNのトレーニングを損なうことである。 本稿では,DNNの学習に最も確実な擬似ラベルのみを用いる選択的擬似ラベルクラスタリングを提案する。 我々は一定の条件下で性能向上を正式に証明する。 画像クラスタリングのタスクに適用すると、新しいアプローチは3つの人気のある画像データセットで最先端のパフォーマンスを実現する。 コードはhttps://github.com/l ou1sm/clusteringで入手できる。

Deep neural networks (DNNs) offer a means of addressing the challenging task of clustering high-dimensional data. DNNs can extract useful features, and so produce a lower dimensional representation, which is more amenable to clustering techniques. As clustering is typically performed in a purely unsupervised setting, where no training labels are available, the question then arises as to how the DNN feature extractor can be trained. The most accurate existing approaches combine the training of the DNN with the clustering objective, so that information from the clustering process can be used to update the DNN to produce better features for clustering. One problem with this approach is that these ``pseudo-labels'' produced by the clustering algorithm are noisy, and any errors that they contain will hurt the training of the DNN. In this paper, we propose selective pseudo-label clustering, which uses only the most confident pseudo-labels for training the~DNN. We formally prove the performance gains under certain conditions. Applied to the task of image clustering, the new approach achieves a state-of-the-art performance on three popular image datasets. Code is available at https://github.com/L ou1sM/clustering.
翻訳日:2021-07-23 12:49:58 公開日:2021-07-22
# 不完全ラベル多重インスタンス多重ラベル学習におけるアクティブラーニング

Active Learning in Incomplete Label Multiple Instance Multiple Label Learning ( http://arxiv.org/abs/2107.10804v1 )

ライセンス: Link先を確認
Tam Nguyen and Raviv Raich(参考訳) 複数インスタンスのラベル学習では、各サンプル、バッグは複数のインスタンスで構成される。 ラベル付けの複雑さを軽減するため、各サンプルはバッグ内のインスタンスをラベル付けせずに残したバッグレベルのラベルのセットに関連付けられている。 この設定はより便利で、複数の意味を持つ複雑なオブジェクトを表現するのに自然である。 単一のインスタンスラベリングと比較して、このアプローチはより大きなデータセットを同等のラベリングコストでラベル付けすることができる。 しかし、十分に大きなデータセットの場合、すべてのバッグのラベル付けは違法にコストがかかる可能性がある。 アクティブラーニングは、少数のラベル付きサンプルを用いて合理的な分類性能を提供するために、反復ラベリングと再訓練アプローチを用いる。 私たちの知る限り、MIML設定でのアクティブラーニングの分野での作業はごくわずかです。 これらのアプローチはラベリングコストを削減するための実用的な解決策を提供するが、その効果は未だ不明である。 本稿では,MIML設定におけるアクティブラーニングのための新しいバッグクラスペア方式を提案する。 バッグレベルのラベルが部分的に利用可能であることから,提案したアクティブラーニングアプローチのための不完全ラベルMIML設定に着目する。 我々のアプローチは、効率的かつ正確な推論を伴う識別グラフィカルモデルに基づいている。 クエリプロセスでは,新しいバッグクラスのペア選択戦略にアクティブな学習基準を適用する。 さらに,各問合せの後に効率的なモデル更新を行うオンライン確率勾配降下アルゴリズムを提案する。 ベンチマークデータセットにおける数値実験は,提案手法のロバスト性を示す。

In multiple instance multiple label learning, each sample, a bag, consists of multiple instances. To alleviate labeling complexity, each sample is associated with a set of bag-level labels leaving instances within the bag unlabeled. This setting is more convenient and natural for representing complicated objects, which have multiple semantic meanings. Compared to single instance labeling, this approach allows for labeling larger datasets at an equivalent labeling cost. However, for sufficiently large datasets, labeling all bags may become prohibitively costly. Active learning uses an iterative labeling and retraining approach aiming to provide reasonable classification performance using a small number of labeled samples. To our knowledge, only a few works in the area of active learning in the MIML setting are available. These approaches can provide practical solutions to reduce labeling cost but their efficacy remains unclear. In this paper, we propose a novel bag-class pair based approach for active learning in the MIML setting. Due to the partial availability of bag-level labels, we focus on the incomplete-label MIML setting for the proposed active learning approach. Our approach is based on a discriminative graphical model with efficient and exact inference. For the query process, we adapt active learning criteria to the novel bag-class pair selection strategy. Additionally, we introduce an online stochastic gradient descent algorithm to provide an efficient model update after each query. Numerical experiments on benchmark datasets illustrate the robustness of the proposed approach.
翻訳日:2021-07-23 12:49:38 公開日:2021-07-22
# パッチによる自己伝達学習:バイパラメトリックMRIに基づく前立腺癌トリアージアプローチ

Self-transfer learning via patches: A prostate cancer triage approach based on bi-parametric MRI ( http://arxiv.org/abs/2107.10806v1 )

ライセンス: Link先を確認
Alvaro Fernandez-Quilez, Trygve Eftest{\o}l, Morten Goodwin, Svein Reidar Kjosavik, Ketil Oppedal(参考訳) 前立腺癌(PCa)は世界で2番目に多いがんである。 現在のPCa診断経路は、過剰診断のコストが高く、不必要な治療とさらなる検査につながる。 臨床的に有意な(cS)と非有意な(ncS)前立腺病変を鑑別するためのトリアージテストとして,ADCとT2重み付き(T2w)配列に基づくバイパラメトリックMRIが提案されている。 しかし、シーケンスの分析は専門知識に依存し、専門的なトレーニングを必要とし、サーバ間のばらつきに悩まされる。 深層学習(DL)技術は、分類や検出といったタスクにおいて有望である。 それでも、医療分野では一般的ではない大量の注釈付きデータに依存している。 このような問題を緩和するために、既存の研究は転送学習(TL)とImageNet事前学習に依存しており、医療画像領域のサブ最適であることが証明されている。 本稿では、パッチされたソースドメインの関心領域(ROI)を利用して、転送学習(TL)を用いてアノテーションを必要としないフルスライス対象ドメインの分類器を効率的に訓練する、cSとncSの病変を区別するパッチベースの事前学習戦略を提案する。 我々は、ベースラインとして提示される複数のcnnsアーキテクチャと異なる設定を包括的に比較する。 さらに,mriモダリティを活用し,単一のモダリティ結果を改善するクロスドメインtlについても検討した。 最後に、我々のアプローチが標準アプローチよりかなり優れていることを示す。

Prostate cancer (PCa) is the second most common cancer diagnosed among men worldwide. The current PCa diagnostic pathway comes at the cost of substantial overdiagnosis, leading to unnecessary treatment and further testing. Bi-parametric magnetic resonance imaging (bp-MRI) based on apparent diffusion coefficient maps (ADC) and T2-weighted (T2w) sequences has been proposed as a triage test to differentiate between clinically significant (cS) and non-clinically significant (ncS) prostate lesions. However, analysis of the sequences relies on expertise, requires specialized training, and suffers from inter-observer variability. Deep learning (DL) techniques hold promise in tasks such as classification and detection. Nevertheless, they rely on large amounts of annotated data which is not common in the medical field. In order to palliate such issues, existing works rely on transfer learning (TL) and ImageNet pre-training, which has been proven to be sub-optimal for the medical imaging domain. In this paper, we present a patch-based pre-training strategy to distinguish between cS and ncS lesions which exploit the region of interest (ROI) of the patched source domain to efficiently train a classifier in the full-slice target domain which does not require annotations by making use of transfer learning (TL). We provide a comprehensive comparison between several CNNs architectures and different settings which are presented as a baseline. Moreover, we explore cross-domain TL which exploits both MRI modalities and improves single modality results. Finally, we show how our approaches outperform the standard approaches by a considerable margin
翻訳日:2021-07-23 12:49:21 公開日:2021-07-22
# Real-ESRGAN:純合成データによる実世界ブラインド超解法の訓練

Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data ( http://arxiv.org/abs/2107.10833v1 )

ライセンス: Link先を確認
Xintao Wang, Liangbin Xie, Chao Dong, Ying Shan(参考訳) 未知の、複雑な劣化を伴う低解像度画像の復元には多くの試みがなされているが、一般的な現実世界の劣化画像には程遠い。 本研究では,強力なESRGANを,純粋な合成データを用いてトレーニングした実用的復元アプリケーション(Real-ESRGAN)に拡張する。 具体的には、複雑な現実世界の劣化をシミュレートするために、高次劣化モデリングプロセスを導入する。 また,合成過程における共通リンギングおよびオーバーシュートアーティファクトについても考察する。 さらに,スペクトル正規化を持つu-net判別器を用いて識別能力を高め,トレーニングダイナミクスを安定化する。 大規模な比較では、様々な実際のデータセットに関する先行研究よりも優れた視覚性能を示している。 また、リアルタイムでトレーニングペアを合成する効率的な実装も提供します。

Though many attempts have been made in blind super-resolution to restore low-resolution images with unknown and complex degradations, they are still far from addressing general real-world degraded images. In this work, we extend the powerful ESRGAN to a practical restoration application (namely, Real-ESRGAN), which is trained with pure synthetic data. Specifically, a high-order degradation modeling process is introduced to better simulate complex real-world degradations. We also consider the common ringing and overshoot artifacts in the synthesis process. In addition, we employ a U-Net discriminator with spectral normalization to increase discriminator capability and stabilize the training dynamics. Extensive comparisons have shown its superior visual performance than prior works on various real datasets. We also provide efficient implementations to synthesize training pairs on the fly.
翻訳日:2021-07-23 12:48:49 公開日:2021-07-22
# (参考訳) 外部負担を伴わない強化学習におけるAltruistic Behavioursの学習 [全文訳有]

Learning Altruistic Behaviours in Reinforcement Learning without External Rewards ( http://arxiv.org/abs/2107.09598v2 )

ライセンス: CC BY 4.0
Tim Franzmeyer, Mateusz Malinowski and Jo\~ao F. Henriques(参考訳) 人工エージェントは、その目標が何であるかを知らずに、他の人の目標達成を支援することができるのか? ジェネリック強化学習エージェントは、利他的な行動、すなわち与えられた状況において他のエージェントに利益を与えることで、他人に対して利他的な行動をとるように訓練することができる。 このようなアプローチは、他のエージェントの目標が知られ、利他的なエージェントがその目標を達成するために協力できると仮定する。 しかし、他のエージェントの目標を明確に把握することはしばしば困難である。 そのような知識が与えられたとしても、利他的エージェントの訓練は、新しい環境ごとに手動で調整された外部報酬を必要とする。 したがって、外部の監督に依存しず、タスク非依存の方法で利他的行動を学ぶことができるエージェントを開発することは有益である。 他のエージェントが合理的に目標を追求すると仮定すると、より多くの選択肢を与えることで、それらの目標をよりよく追求できると仮定します。 具体的な例としては、他人の扉を開けたり、干渉せずに目的を追求するために彼らを保護することが挙げられる。 我々は、この概念を定式化し、他のエージェントが将来到達できる状態の数を最大化することで、他のエージェントが持つ選択を増やすことを学ぶ利他的エージェントを提案する。 我々は,他エージェントの成功が利他的エージェントの行動に依存する3つの異なるマルチエージェント環境に対するアプローチを評価する。 最後に,監視されていないエージェントは,協調的に働くように明示的に訓練されたエージェントと互換性があることを示す。 エージェントが監督されたエージェントよりも優れている場合もあります。

Can artificial agents learn to assist others in achieving their goals without knowing what those goals are? Generic reinforcement learning agents could be trained to behave altruistically towards others by rewarding them for altruistic behaviour, i.e., rewarding them for benefiting other agents in a given situation. Such an approach assumes that other agents' goals are known so that the altruistic agent can cooperate in achieving those goals. However, explicit knowledge of other agents' goals is often difficult to acquire. Even assuming such knowledge to be given, training of altruistic agents would require manually-tuned external rewards for each new environment. Thus, it is beneficial to develop agents that do not depend on external supervision and can learn altruistic behaviour in a task-agnostic manner. Assuming that other agents rationally pursue their goals, we hypothesize that giving them more choices will allow them to pursue those goals better. Some concrete examples include opening a door for others or safeguarding them to pursue their objectives without interference. We formalize this concept and propose an altruistic agent that learns to increase the choices another agent has by maximizing the number of states that the other agent can reach in its future. We evaluate our approach on three different multi-agent environments where another agent's success depends on the altruistic agent's behaviour. Finally, we show that our unsupervised agents can perform comparably to agents explicitly trained to work cooperatively. In some cases, our agents can even outperform the supervised ones.
翻訳日:2021-07-23 11:45:00 公開日:2021-07-22
# (参考訳) 慢性リンパ性白血病のフローサイトメトリー自動診断への機械学習アプローチ [全文訳有]

Machine Learning Approaches to Automated Flow Cytometry Diagnosis of Chronic Lymphocytic Leukemia ( http://arxiv.org/abs/2107.09728v2 )

ライセンス: CC BY 4.0
Akum S. Kang, Loveleen C. Kang, Stephen M. Mastorides, Philip R. Foulis, Lauren A. DeLand, Robert P. Seifert, Andrew A. Borkowski(参考訳) フローサイトメトリー(英: Flow cytometry)は、励起光源を介して単一のファイルを流れる個々の細胞から複数の蛍光と光散乱関連パラメータを測定する技術である。 これらの細胞は様々な抗原を検出する抗体でラベル付けされ、蛍光信号は抗原の発現を反映する。 マルチパラメータフローサイトメトリーデータの解釈は、手間がかかり、時間がかかり、高価である。 高度に訓練された医療技術者や病理学者による2次元プロット上の細胞分布とパターン認識を手動で解釈する。 各種機械学習アルゴリズムを用いて,正常および慢性リンパ性白血病を自動分類する臨床フローサイトメトリー症例の自動解析法の開発を試みた。 Gradient Boostingで最高の成功を収めました。 XGBoost分類器は1.00の特異性と感度0.67の正の予測値0.75の正の予測値1.00の正の予測値0.83の総合的精度を達成した。

Flow cytometry is a technique that measures multiple fluorescence and light scatter-associated parameters from individual cells as they flow a single file through an excitation light source. These cells are labeled with antibodies to detect various antigens and the fluorescence signals reflect antigen expression. Interpretation of the multiparameter flow cytometry data is laborious, time-consuming, and expensive. It involves manual interpretation of cell distribution and pattern recognition on two-dimensional plots by highly trained medical technologists and pathologists. Using various machine learning algorithms, we attempted to develop an automated analysis for clinical flow cytometry cases that would automatically classify normal and chronic lymphocytic leukemia cases. We achieved the best success with the Gradient Boosting. The XGBoost classifier achieved a specificity of 1.00 and a sensitivity of 0.67, a negative predictive value of 0.75, a positive predictive value of 1.00, and an overall accuracy of 0.83 in prospectively classifying cases with malignancies.
翻訳日:2021-07-23 11:22:42 公開日:2021-07-22
# (参考訳) Bayesian Controller Fusion:ロボットの深部強化学習における制御の活用 [全文訳有]

Bayesian Controller Fusion: Leveraging Control Priors in Deep Reinforcement Learning for Robotics ( http://arxiv.org/abs/2107.09822v2 )

ライセンス: CC BY 4.0
Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, Michael Milford and Niko S\"underhauf(参考訳) 本稿では,従来の手作りコントローラの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略であるBayesian Controller Fusion(BCF)を紹介する。 BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全でデータ非効率である。 各システムからの不確実性を認識した分布出力を融合することにより、BCFはそれらの間の制御を調停し、それぞれの強みを利用する。 我々は,広大かつ長期にわたる環境下でのナビゲーションと,マニピュラビリティの最大化を伴う複雑な到達タスクの2つの実世界のロボティクスタスクについてBCFを研究する。 どちらの領域においても、手持ちのタスクをリスク回避的な方法で解くことができる単純な手作りのコントローラが存在するが、必ずしも分析モデリングやコントローラのミスキャリブレーション、タスクのばらつきといった制限が与えられた最適解を示すわけではない。 訓練の初期段階における事前の指導が自然に行われるため、BCFは学習を加速し、政策がより経験を積むにつれて、事前の制御性能よりも大幅に改善する。 さらに重要なことは、コントロールの事前のリスクの多様性を考えると、BCFは安全な探索と展開を保証する。 また,BCF のゼロショット sim-to-real 設定への適用性と,実世界の分布外状態を扱う能力についても述べる。 BCFは、深いRLと従来のロボット制御の相補的な強みを組み合わせるための、有望なアプローチである。 コードと追加ビデオはhttps://krishanrana. github.io/bcfで公開されている。

We present Bayesian Controller Fusion (BCF): a hybrid control strategy that combines the strengths of traditional hand-crafted controllers and model-free deep reinforcement learning (RL). BCF thrives in the robotics domain, where reliable but suboptimal control priors exist for many tasks, but RL from scratch remains unsafe and data-inefficient. By fusing uncertainty-aware distributional outputs from each system, BCF arbitrates control between them, exploiting their respective strengths. We study BCF on two real-world robotics tasks involving navigation in a vast and long-horizon environment, and a complex reaching task that involves manipulability maximisation. For both these domains, there exist simple handcrafted controllers that can solve the task at hand in a risk-averse manner but do not necessarily exhibit the optimal solution given limitations in analytical modelling, controller miscalibration and task variation. As exploration is naturally guided by the prior in the early stages of training, BCF accelerates learning, while substantially improving beyond the performance of the control prior, as the policy gains more experience. More importantly, given the risk-aversity of the control prior, BCF ensures safe exploration and deployment, where the control prior naturally dominates the action distribution in states unknown to the policy. We additionally show BCF's applicability to the zero-shot sim-to-real setting and its ability to deal with out-of-distribution states in the real-world. BCF is a promising approach for combining the complementary strengths of deep RL and traditional robotic control, surpassing what either can achieve independently. The code and supplementary video material are made publicly available at https://krishanrana. github.io/bcf.
翻訳日:2021-07-23 11:16:09 公開日:2021-07-22
# (参考訳) 単語埋め込みからバイアスを除去する逆行性デバイアス [全文訳有]

Using Adversarial Debiasing to Remove Bias from Word Embeddings ( http://arxiv.org/abs/2107.10251v2 )

ライセンス: CC BY-SA 4.0
Dana Kenna(参考訳) 単語埋め込みは、元のコーパスに存在する社会バイアスを含むことが示されている。 この問題に対処する既存の方法は、表面バイアスだけを取り除くことが示されている。 敵対的デバイアスの方法も同様に表面的であると推定されたが、これは以前の作品では確認されていない。 他の方法で浅く除去した実験を用いて, 逆バイアスの除去にadversarial debiasingの方が有効であることを示唆し, 逆バイアスの効用に関するさらなる調査の動機となった。

Word Embeddings have been shown to contain the societal biases present in the original corpora. Existing methods to deal with this problem have been shown to only remove superficial biases. The method of Adversarial Debiasing was presumed to be similarly superficial, but this is was not verified in previous works. Using the experiments that demonstrated the shallow removal in other methods, I show results that suggest Adversarial Debiasing is more effective at removing bias and thus motivate further investigation on the utility of Adversarial Debiasing.
翻訳日:2021-07-23 10:41:46 公開日:2021-07-22
# ディープニューラルネットワークにおける記憶:損失関数は重要か?

Memorization in Deep Neural Networks: Does the Loss Function matter? ( http://arxiv.org/abs/2107.09957v2 )

ライセンス: Link先を確認
Deep Patel and P.S. Sastry(参考訳) 深部ニューラルネットワークは、しばしば過パラメータ化のため、ランダムにラベル付けされたデータを正確に記憶することができる。 実証的な研究により、標準正規化技術はいずれも過剰適合を緩和するものではないことが示されている。 損失関数の選択がこの記憶に影響を及ぼすかどうかを検討する。 ベンチマークデータセット mnist と cifar-10 では、クロスエントロピーあるいは二乗誤差損失とは対照的に対称損失関数が、ネットワークがそのような過剰適合に抵抗する能力を大幅に改善することを示した。 次に,記憶に対するロバスト性に関する形式的定義と,対称損失がこのロバスト性をもたらす理由に関する理論的説明を与える。 本研究の結果から, この記憶現象において, 損失関数のみが果たす役割が明らかとなった。

Deep Neural Networks, often owing to the overparameterization , are shown to be capable of exactly memorizing even randomly labelled data. Empirical studies have also shown that none of the standard regularization techniques mitigate such overfitting. We investigate whether the choice of the loss function can affect this memorization. We empirically show, with benchmark data sets MNIST and CIFAR-10, that a symmetric loss function, as opposed to either cross-entropy or squared error loss, results in significant improvement in the ability of the network to resist such overfitting. We then provide a formal definition for robustness to memorization and provide a theoretical explanation as to why the symmetric losses provide this robustness. Our results clearly bring out the role loss functions alone can play in this phenomenon of memorization.
翻訳日:2021-07-23 10:32:53 公開日:2021-07-22
# DSP: Unsupervised Domain Adaptive Semantic Segmentation のためのデュアルソフトペースト

DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2107.09600v2 )

ライセンス: Link先を確認
Li Gao, Jing Zhang, Lefei Zhang, Dacheng Tao(参考訳) セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。 既存のメソッドは、特に初期トレーニングフェーズにおいて、不一致の特徴を正確に整えるのを困難にする大きなドメイン間ギャップに苦しめながら、ドメイン不変な特徴を学習しようとする。 この問題に対処するために,本稿では,新しいDual Soft-Paste (DSP)法を提案する。 具体的には、dspは、ロングテールクラスファーストサンプリング戦略を用いてソースドメインイメージからいくつかのクラスを選択し、対応するイメージパッチをソースとターゲットのトレーニングイメージの両方に、融合重みでソフトペーストする。 技術的には、平均教師フレームワークをドメイン適応に適用し、ペーストされたソースとターゲットイメージが生徒ネットワークを経由し、元のターゲットイメージが教師ネットワークを経由する。 重み付きクロスエントロピー損失を用いて、両方のネットワークからターゲット融合画像の確率マップを調整して出力レベルアライメントを行う。 さらに、重み付き最大平均誤差損失を用いて、学生ネットワークからソースとターゲット画像の特徴マップを整列させて特徴レベルのアライメントを行う。 DSPは、中間ドメインからモデル学習ドメイン不変の機能を促進し、より高速な収束とより良いパフォーマンスをもたらす。 2つの挑戦的なベンチマークの実験は、最先端の手法よりもDSPの方が優れていることを示した。 コードは \url{https://github.com/G aoLii/DSP} で入手できる。

Unsupervised domain adaptation (UDA) for semantic segmentation aims to adapt a segmentation model trained on the labeled source domain to the unlabeled target domain. Existing methods try to learn domain invariant features while suffering from large domain gaps that make it difficult to correctly align discrepant features, especially in the initial training phase. To address this issue, we propose a novel Dual Soft-Paste (DSP) method in this paper. Specifically, DSP selects some classes from a source domain image using a long-tail class first sampling strategy and softly pastes the corresponding image patch on both the source and target training images with a fusion weight. Technically, we adopt the mean teacher framework for domain adaptation, where the pasted source and target images go through the student network while the original target image goes through the teacher network. Output-level alignment is carried out by aligning the probability maps of the target fused image from both networks using a weighted cross-entropy loss. In addition, feature-level alignment is carried out by aligning the feature maps of the source and target images from student network using a weighted maximum mean discrepancy loss. DSP facilitates the model learning domain-invariant features from the intermediate domains, leading to faster convergence and better performance. Experiments on two challenging benchmarks demonstrate the superiority of DSP over state-of-the-art methods. Code is available at \url{https://github.com/G aoLii/DSP}.
翻訳日:2021-07-23 10:32:40 公開日:2021-07-22
# 補助識別分類器付きcGAN

cGANs with Auxiliary Discriminative Classifier ( http://arxiv.org/abs/2107.10060v2 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Huawei Shen, Xueqi Cheng(参考訳) 条件付き生成モデルの目的は、データとラベルの結合分布を学習し、条件付き生成を実現することである。 それらのうち, 補助的分類器生成敵ネットワーク (ac-gan) は広く用いられてきたが, 生成試料におけるクラス内多様性の低さに苦しめられている。 本稿では,AC-GANの分類器がジェネレータに依存しないため,対象の関節分布を推定するための情報的ガイダンスが得られず,条件エントロピーの最小化によるクラス内多様性の低下を招いたことを指摘する。 そこで本研究では,AC-GANの問題に対処するために,ADC-GANを用いた新しいcGANを提案する。 具体的には、ラベルを認識しながら実データと偽データとを区別することにより、補助判別分類器が生成者対応となる。 次に, 副分類器と原判別器を併用した生成器を最適化し, 生成した試料と実試料との結合分布と辺縁分布を一致させる。 提案したADC-GANが競合するcGANよりも優れていることを示すために,合成および実世界のデータセットに関する理論的解析および実証的証拠を提供する。

Conditional generative models aim to learn the underlying joint distribution of data and labels, and thus realize conditional generation. Among them, auxiliary classifier generative adversarial networks (AC-GAN) have been widely used, but suffer from the issue of low intra-class diversity on generated samples. In this paper, we point out that the fundamental reason is that the classifier of AC-GAN is generator-agnostic, and thus cannot provide informative guidance to the generator to approximate the target joint distribution, leading to a minimization of conditional entropy that decreases the intra-class diversity. Based on this finding, we propose novel cGANs with auxiliary discriminative classifier (ADC-GAN) to address the issue of AC-GAN. Specifically, the auxiliary discriminative classifier becomes generator-aware by distinguishing between the real and fake data while recognizing their labels. We then optimize the generator based on the auxiliary classifier along with the original discriminator to match the joint and marginal distributions of the generated samples with those of the real samples. We provide theoretical analysis and empirical evidence on synthetic and real-world datasets to demonstrate the superiority of the proposed ADC-GAN compared to competitive cGANs.
翻訳日:2021-07-23 10:32:14 公開日:2021-07-22
# 多言語単語埋め込みの嫌悪:3つのインド語を事例として

Debiasing Multilingual Word Embeddings: A Case Study of Three Indian Languages ( http://arxiv.org/abs/2107.10181v2 )

ライセンス: Link先を確認
Srijan Bansal, Vishal Garimella, Ayush Suhane, Animesh Mukherjee(参考訳) 本稿では, 単言語単語の埋め込みを, 多言語環境でうまく一般化するために, 最先端の手法を推し進める。 単言語および多言語設定に対する偏りと偏りの異なるアプローチの定量化について検討する。 下流NLPアプリケーションにおけるバイアス緩和手法の重要性を示す。 提案手法は,ヒンディー語,ベンガル語,テルグ語に加えて,ヒンディー語,ベンガル語,テルグ語という3つの言語に対する多言語埋め込みを嫌悪する手法である。 私たちは、使用した単語の埋め込みの品質に本質的に依存する、非バイアスのない下流のNLPアプリケーションを構築する新たな機会を、我々の作業が開くと信じています。

In this paper, we advance the current state-of-the-art method for debiasing monolingual word embeddings so as to generalize well in a multilingual setting. We consider different methods to quantify bias and different debiasing approaches for monolingual as well as multilingual settings. We demonstrate the significance of our bias-mitigation approach on downstream NLP applications. Our proposed methods establish the state-of-the-art performance for debiasing multilingual embeddings for three Indian languages - Hindi, Bengali, and Telugu in addition to English. We believe that our work will open up new opportunities in building unbiased downstream NLP applications that are inherently dependent on the quality of the word embeddings used.
翻訳日:2021-07-23 10:31:53 公開日:2021-07-22
# Recursive Neural Tensor Networks を用いた自然言語要求からの細粒度因果抽出

Fine-Grained Causality Extraction From Natural Language Requirements Using Recursive Neural Tensor Networks ( http://arxiv.org/abs/2107.09980v2 )

ライセンス: Link先を確認
Jannik Fischbach, Tobias Springer, Julian Frattini, Henning Femmer, Andreas Vogelsang, and Daniel Mendez(参考訳) [コンテキスト:] 因果関係(例えば、A ならば B)は、機能的要求において一般的である。 AI4REの様々な応用、例えば、適切なテストケースを要件から自動的に導出し、そのような因果的ステートメントを自動的に抽出することが基本的な必要性である。 [problem:] きめ細かな形で自然言語要件から因果関係を抽出することのできるアプローチに欠けています。 具体的には、既存のアプローチは原因と効果の組合せを考慮していない。 また、原因や効果をより粒度の細かいテキスト断片(変数や条件など)に分割することはできず、抽出された関係は自動テストケースの導出には適さない。 目的とコントリビューション:] この研究ギャップに対処し、以下の貢献をする。 まず、完全なラベル付きバイナリパースツリーの最初のコーパスであるCausality Treebankを紹介します。 次に,再帰型ニューラルテンソルネットワークに基づく微粒化因果抽出器を提案する。 提案手法は,自然言語で記述した因果文の合成を復元し,因果木バンクの評価においてF1スコアが74 %に達する。 第3に,オープンデータセットとコードを公開し,reコミュニティにおける因果関係の自動抽出に関する議論を促進する。

[Context:] Causal relations (e.g., If A, then B) are prevalent in functional requirements. For various applications of AI4RE, e.g., the automatic derivation of suitable test cases from requirements, automatically extracting such causal statements are a basic necessity. [Problem:] We lack an approach that is able to extract causal relations from natural language requirements in fine-grained form. Specifically, existing approaches do not consider the combinatorics between causes and effects. They also do not allow to split causes and effects into more granular text fragments (e.g., variable and condition), making the extracted relations unsuitable for automatic test case derivation. [Objective & Contributions:] We address this research gap and make the following contributions: First, we present the Causality Treebank, which is the first corpus of fully labeled binary parse trees representing the composition of 1,571 causal requirements. Second, we propose a fine-grained causality extractor based on Recursive Neural Tensor Networks. Our approach is capable of recovering the composition of causal statements written in natural language and achieves a F1 score of 74 % in the evaluation on the Causality Treebank. Third, we disclose our open data sets as well as our code to foster the discourse on the automatic extraction of causality in the RE community.
翻訳日:2021-07-23 10:31:41 公開日:2021-07-22
# CATE: 自然言語要求からの因果木エクストラクタ

CATE: CAusality Tree Extractor from Natural Language Requirements ( http://arxiv.org/abs/2107.10023v2 )

ライセンス: Link先を確認
Noah Jadallah, Jannik Fischbach, Julian Frattini, and Andreas Vogelsang(参考訳) 因果関係(A ならば B)は要求アーティファクトでよく見られる。 要件から因果関係を自動的に抽出することは、様々なRE活動(例えば、適切なテストケースの自動導出)において大きな可能性を秘めている。 しかし,自然言語からの因果関係を合理的な性能で抽出できる手法が欠如している。 本稿では,木構造としての因果関係の構成を解析できるツールCATE(CAusality Tree Extractor)を提案する。 CATEは、文における原因と効果の概要を提供するだけでなく、因果関係を二分木に翻訳することで意味的一貫性を明らかにする。 私たちは同僚の研究者や実践者が https://causalitytre eextractor.com/ で CATE を使用するように勧めています。

Causal relations (If A, then B) are prevalent in requirements artifacts. Automatically extracting causal relations from requirements holds great potential for various RE activities (e.g., automatic derivation of suitable test cases). However, we lack an approach capable of extracting causal relations from natural language with reasonable performance. In this paper, we present our tool CATE (CAusality Tree Extractor), which is able to parse the composition of a causal relation as a tree structure. CATE does not only provide an overview of causes and effects in a sentence, but also reveals their semantic coherence by translating the causal relation into a binary tree. We encourage fellow researchers and practitioners to use CATE at https://causalitytre eextractor.com/
翻訳日:2021-07-23 10:31:18 公開日:2021-07-22
# オフラインの選好に基づく見習い学習

Offline Preference-Based Apprenticeship Learning ( http://arxiv.org/abs/2107.09251v2 )

ライセンス: Link先を確認
Daniel Shin, Daniel S. Brown(参考訳) 我々は,(1)人間の意図を識別し,(2)自律システムの振る舞いを安全に最適化して,この推定意図を達成するために,自律システムが学習し,適応し,協力するために直面する2つの課題に,事前(おそらくランダムな)経験のオフラインデータセットを用いて対処する方法について検討する。 まず、オフラインデータセットを使用して、プールベースのアクティブな好み学習を通じて、人間の報酬関数を効率的に推測する。 第2に,この学習報酬関数により,推定された人間の意図に基づく方針を最適化するためにオフライン強化学習を行う。 重要なこととして,提案手法は,報酬学習と政策最適化のいずれにおいても,実際の物理的なロールアウトや正確なシミュレータを必要としない。 我々は、オフライン報酬学習に適した既存のオフラインRLベンチマークのサブセットに対するアプローチを特定し評価するとともに、よりオープンな振る舞いを可能にするこれらのベンチマークの拡張を評価する。 実験の結果,オフラインの嗜好に基づく報奨学習とオフラインの強化学習は,少数の嗜好クエリしか必要とせず,効率的かつ高パフォーマンスなポリシーを実現することがわかった。 ビデオはhttps://sites.google .com/view/offline-pr efsで閲覧できる。

We study how an offline dataset of prior (possibly random) experience can be used to address two challenges that autonomous systems face when they endeavor to learn from, adapt to, and collaborate with humans : (1) identifying the human's intent and (2) safely optimizing the autonomous system's behavior to achieve this inferred intent. First, we use the offline dataset to efficiently infer the human's reward function via pool-based active preference learning. Second, given this learned reward function, we perform offline reinforcement learning to optimize a policy based on the inferred human intent. Crucially, our proposed approach does not require actual physical rollouts or an accurate simulator for either the reward learning or policy optimization steps, enabling both safe and efficient apprenticeship learning. We identify and evaluate our approach on a subset of existing offline RL benchmarks that are well suited for offline reward learning and also evaluate extensions of these benchmarks which allow more open-ended behaviors. Our experiments show that offline preference-based reward learning followed by offline reinforcement learning enables efficient and high-performing policies, while only requiring small numbers of preference queries. Videos available at https://sites.google .com/view/offline-pr efs.
翻訳日:2021-07-23 10:31:06 公開日:2021-07-22
# 動的配車における配車のための待ち行列理論の枠組み [in japanese]

A Queueing-Theoretic Framework for Vehicle Dispatching in Dynamic Car-Hailing [technical report] ( http://arxiv.org/abs/2107.08662v2 )

ライセンス: Link先を確認
Peng Cheng, Jiabao Jin, Lei Chen, Xuemin Lin, Libin Zheng(参考訳) スマートモバイルデバイスの急速な開発に伴い、自動車配車プラットフォーム(例えばUberやLyft)は、学術と産業の両方から多くの注目を集めている。 本稿では,利用者の要求が動的に到着し,プラットフォーム全体の収益が最大化されるよう,ドライバーが可能な限り多くの乗客にサービスを提供する必要がある,重要な動的自動車配車問題,すなわち「textit{maximum revenue vehicle dispatching}」(MRVD)について考察する。 MRVD問題はNPハードで難解であることを示す。 さらに、ダイナミックカー配車プラットフォームは将来のライダーに関する情報を持っていないため、問題をさらに難しくする。 MRVD問題に対処するため,まず既存の機械学習アルゴリズムを用いて各領域の将来の車両需要を予測し,各領域の待ち時間モデルを用いてドライバーのアイドル時間を推定する,待ち時間に基づく配車フレームワークを提案する。 予測された車両要求情報と運転者のアイドル時間推定情報を用いて,各バッチ処理毎にプラットフォーム全体の収益を最大化するように,最適なドライバーを乗客に効率的に割り当てる2つのバッチ型車両派遣アルゴリズムを提案する。 広範にわたる実験を通じて,実データと合成データの両方に対する提案手法の有効性と有効性を示す。

With the rapid development of smart mobile devices, the car-hailing platforms (e.g., Uber or Lyft) have attracted much attention from both the academia and the industry. In this paper, we consider an important dynamic car-hailing problem, namely \textit{maximum revenue vehicle dispatching} (MRVD), in which rider requests dynamically arrive and drivers need to serve as many riders as possible such that the entire revenue of the platform is maximized. We prove that the MRVD problem is NP-hard and intractable. In addition, the dynamic car-hailing platforms have no information of the future riders, which makes the problem even harder. To handle the MRVD problem, we propose a queueing-based vehicle dispatching framework, which first uses existing machine learning algorithms to predict the future vehicle demand of each region, then estimates the idle time periods of drivers through a queueing model for each region. With the information of the predicted vehicle demands and estimated idle time periods of drivers, we propose two batch-based vehicle dispatching algorithms to efficiently assign suitable drivers to riders such that the expected overall revenue of the platform is maximized during each batch processing. Through extensive experiments, we demonstrate the efficiency and effectiveness of our proposed approaches over both real and synthetic datasets.
翻訳日:2021-07-23 10:30:44 公開日:2021-07-22