このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210907となっている論文です。

PDF登録状況(公開日: 20210907)

TitleAuthorsAbstract論文公表日・翻訳日
# 低資源のindic言語の機械翻訳のための注意に基づくシーケンス学習--サンスクリットからヒンディー語への事例-

Attention based Sequence to Sequence Learning for Machine Translation of Low Resourced Indic Languages -- A case of Sanskrit to Hindi ( http://arxiv.org/abs/2110.00435v1 )

ライセンス: Link先を確認
Vishvajit Bakarola and Jitendra Nasriwala(参考訳) ディープラーニングのテクニックは、特定の問題のセットで人間を模倣するのに強力です。 彼らは複雑な学習タスクで顕著なパフォーマンスを達成した。 deep learning inspired neural machine translation (nmt)は、従来の機械翻訳よりも優れた技術である。 Indic言語での機械支援翻訳の実行は、多様で多様な文法を考えると、常に困難な作業であった。 ニューラルマシン翻訳は、従来の機械翻訳手法に比べて品質が向上している。 完全な自動機械翻訳は、特にサンスクリットにおいて、低リソース言語に関して問題となる。 本稿では,翻訳中の言語文の特定部分に選択的に焦点を合わせ,注意機構に基づくニューラルマシン翻訳を提案する。 この研究は、およそ10kのサンプルと178,000のトークンを持つヒンズー語二言語並列コーパスへのサンスクリットの構築を示している。 注意機構を備えた神経翻訳モデルはサンスクリットからヒンディー語平行コーパスで訓練されている。 このアプローチは、主に低リソースのIndic言語に関連する長期的な依存関係を克服する注意機構の重要性を示している。 本稿は,ソース単語と翻訳単語のアライメントを示すために,テストデータに対する注意プロットを示す。 翻訳文の評価には,マニュアルスコアに基づく人的評価と自動評価基準に基づく手法が採用されている。 注意機構に基づく神経翻訳は、人間の評価において88%の精度を達成し、サンスクリットからヒンディー語への翻訳におけるBLEUスコアは0.92である。

Deep Learning techniques are powerful in mimicking humans in a particular set of problems. They have achieved a remarkable performance in complex learning tasks. Deep learning inspired Neural Machine Translation (NMT) is a proficient technique that outperforms traditional machine translation. Performing machine-aided translation on Indic languages has always been a challenging task considering their rich and diverse grammar. The neural machine translation has shown quality results compared to the traditional machine translation approaches. The fully automatic machine translation becomes problematic when it comes to low-resourced languages, especially with Sanskrit. This paper presents attention mechanism based neural machine translation by selectively focusing on a particular part of language sentences during translation. The work shows the construction of Sanskrit to Hindi bilingual parallel corpus with nearly 10K samples and having 178,000 tokens. The neural translation model equipped with an attention mechanism has been trained on Sanskrit to Hindi parallel corpus. The approach has shown the significance of attention mechanisms to overcome long-term dependencies, primarily associated with low resources Indic languages. The paper shows the attention plots on testing data to demonstrate the alignment between source and translated words. For the evaluation of the translated sentences, manual score based human evaluation and automatic evaluation metric based techniques have been adopted. The attention mechanism based neural translation has achieved 88% accuracy in human evaluation and a BLEU score of 0.92 on Sanskrit to Hindi translation.
翻訳日:2021-10-10 11:43:28 公開日:2021-09-07
# (参考訳) 画像分類ネットワークのための世代別ニューラルネットワーク監視 [全文訳有]

Generatively Augmented Neural Network Watchdog for Image Classification Networks ( http://arxiv.org/abs/2109.06168v1 )

ライセンス: CC BY 4.0
Justin M. Bui, Glauco A. Amigo, Robert J. Marks II(参考訳) 配信外データの識別は、分類ネットワークの展開に不可欠である。 例えば、犬と猫のイメージを区別するために訓練された汎用ニューラルネットワークは、入力を犬または猫として分類することができる。 車やクムコートの写真がこの分類器に供給されると、その結果は犬か猫のどちらかになる。 これを軽減するために、ニューラルネットワークウォッチドッグのような技術が開発されている。 オートエンコーダの潜在層に入力された画像の圧縮は、画像空間における内分布領域を定義する。 この入力データの分布内集合は、画像空間に対応する境界を有する。 監視グループは、入力がこのバウンダリ内または外部にあるかどうかを評価する。 本稿では,この境界線を生成的ネットワークトレーニングデータにより強化し,ウォッチドッグの識別と全体的な性能を向上させる方法について述べる。

The identification of out-of-distribution data is vital to the deployment of classification networks. For example, a generic neural network that has been trained to differentiate between images of dogs and cats can only classify an input as either a dog or a cat. If a picture of a car or a kumquat were to be supplied to this classifier, the result would still be either a dog or a cat. In order to mitigate this, techniques such as the neural network watchdog have been developed. The compression of the image input into the latent layer of the autoencoder defines the region of in-distribution in the image space. This in-distribution set of input data has a corresponding boundary in the image space. The watchdog assesses whether inputs are in inside or outside this boundary. This paper demonstrates how to sharpen this boundary using generative network training data augmentation thereby bettering the discrimination and overall performance of the watchdog.
翻訳日:2021-09-19 15:00:14 公開日:2021-09-07
# 複数のデータソースを用いたオンライン授業における学生のパフォーマンス予測

Predicting students' performance in online courses using multiple data sources ( http://arxiv.org/abs/2109.07903v1 )

ライセンス: Link先を確認
M\'elina Verger and Hugo Jair Escalante(参考訳) データ駆動意思決定は教育を提供し、変革する。 我々は,オンラインコースから得られた複数のデータソースを用いて,学習者のパフォーマンスを予測する問題にアプローチした。 実験結果から,どのデータをタスクとして考慮すべきかという予備的な結論が得られた。

Data-driven decision making is serving and transforming education. We approached the problem of predicting students' performance by using multiple data sources which came from online courses, including one we created. Experimental results show preliminary conclusions towards which data are to be considered for the task.
翻訳日:2021-09-19 13:44:07 公開日:2021-09-07
# (参考訳) 敏感なサンプル:制約解を用いたニューラルネットワーク攻撃の検出 [全文訳有]

Sensitive Samples Revisited: Detecting Neural Network Attacks Using Constraint Solvers ( http://arxiv.org/abs/2109.03966v1 )

ライセンス: CC BY 4.0
Amel Nestor Docena (Northeastern University), Thomas Wahl (Northeastern University), Trevor Pearce (Northeastern University), Yunsi Fei (Northeastern University)(参考訳) ニューラルネットワークは現在、多くのセキュリティおよび安全関連ドメインで使用されており、ネットワークパラメータを操作することで、分類能力を低下させる一般的な攻撃対象となっている。 以前の作業では、パラメータの変更に非常に敏感な入力であるセンシティブなサンプルを導入して、そのような操作を検出し、それらを計算するための勾配に基づくアプローチを提案した。 本稿では,シンボリック制約解法を用いた代替案を提案する。 我々は,ネットワークをモデル化し,解答者の言語におけるセンシティブなサンプルの正式な仕様を作成し,解を求める。 このアプローチは、例えば特定のタイプの攻撃の存在に対応する、リッチなクエリクラスをサポートする。 従来の手法とは異なり,提案手法は凸探索領域や検索開始点の適合性に依存しない。 本稿では,探索空間を分割し,探索の完全性を維持したバランスの取れたスケジュールに従って分割を探索することにより,制約解決器の性能限界に対処する。 本稿では,ニューラルネットワークに対するトロイの木馬攻撃検出のためのケーススタディを用いて,機能と探索効率の観点から,解法の利用が与える影響を実証する。

Neural Networks are used today in numerous security- and safety-relevant domains and are, as such, a popular target of attacks that subvert their classification capabilities, by manipulating the network parameters. Prior work has introduced sensitive samples -- inputs highly sensitive to parameter changes -- to detect such manipulations, and proposed a gradient ascent-based approach to compute them. In this paper we offer an alternative, using symbolic constraint solvers. We model the network and a formal specification of a sensitive sample in the language of the solver and ask for a solution. This approach supports a rich class of queries, corresponding, for instance, to the presence of certain types of attacks. Unlike earlier techniques, our approach does not depend on convex search domains, or on the suitability of a starting point for the search. We address the performance limitations of constraint solvers by partitioning the search space for the solver, and exploring the partitions according to a balanced schedule that still retains completeness of the search. We demonstrate the impact of the use of solvers in terms of functionality and search efficiency, using a case study for the detection of Trojan attacks on Neural Networks.
翻訳日:2021-09-11 12:15:48 公開日:2021-09-07
# (参考訳) 長期記憶ネットワークを用いた最適貯留層操作 [全文訳有]

Optimal Reservoir Operations using Long Short-Term Memory Network ( http://arxiv.org/abs/2109.04255v1 )

ライセンス: CC BY 4.0
Asha Devi Singh, Anurag Singh(参考訳) 貯水池への流入の信頼性の高い予測は,貯水池の最適運転の重要な要因である。 流入の予測に基づく貯水池のリアルタイム運用は、実質的な経済利益につながる可能性がある。 しかし、気候変動と水文学の変化の影響を組み込む必要があるため、流入予測は複雑な作業である。 そこで本研究の目的は,流入量予測のためのlong short-term memory (lstm) に基づく新しい手法を開発することである。 言い換えれば、貯水池での毎日の流入予測は、水資源の効率的な運用に役立つ。 また、リリースの日々の変動を効率的に監視でき、操作の信頼性が向上する。 本研究では,LSTMに基づく簡易な異常検出アルゴリズムを提案する。 言い換えれば、ディープラーニングベースの予測モデルにおいて、洪水や干ばつを予測するための強力なベースラインである。 このアプローチの実用性は、インドのバークラダムから過去20年間の観測データを用いて実証されている。 シミュレーションの結果は,従来の予測手法よりもLSTMアプローチが優位であることを明確に示している。 実験はインドのバクラダム貯水池のデータに基づいて行われるが、LSTMモデルと異常検出アルゴリズムは汎用的であり、最小限の変更で任意の流域に適用できる。 ここで提示されるLSTM法の明確な実用上の利点は、歴史的データの非定常性と非線形性を適切にシミュレートできることである。

A reliable forecast of inflows to the reservoir is a key factor in the optimal operation of reservoirs. Real-time operation of the reservoir based on forecasts of inflows can lead to substantial economic gains. However, the forecast of inflow is an intricate task as it has to incorporate the impacts of climate and hydrological changes. Therefore, the major objective of the present work is to develop a novel approach based on long short-term memory (LSTM) for the forecast of inflows. Real-time inflow forecast, in other words, daily inflow at the reservoir helps in efficient operation of water resources. Also, daily variations in the release can be monitored efficiently and the reliability of operation is improved. This work proposes a naive anomaly detection algorithm baseline based on LSTM. In other words, a strong baseline to forecast flood and drought for any deep learning-based prediction model. The practicality of the approach has been demonstrated using the observed daily data of the past 20 years from Bhakra Dam in India. The results of the simulations conducted herein clearly indicate the supremacy of the LSTM approach over the traditional methods of forecasting. Although, experiments are run on data from Bhakra Dam Reservoir in India, LSTM model, and anomaly detection algorithm are general purpose and can be applied to any basin with minimal changes. A distinct practical advantage of the LSTM method presented herein is that it can adequately simulate non-stationarity and non-linearity in the historical data.
翻訳日:2021-09-11 11:59:52 公開日:2021-09-07
# (参考訳) 協調型マルチプレイヤーマルチアーマッドバンドのオンライン学習 [全文訳有]

Online Learning for Cooperative Multi-Player Multi-Armed Bandits ( http://arxiv.org/abs/2109.03818v1 )

ライセンス: CC BY 4.0
William Chang, Mehdi Jafarnia-Jahromi, Rahul Jain(参考訳) 複数の協力者によるマルチアームバンディット(MAB)のための分散オンライン学習フレームワークを提案する。 各ラウンドのプレイヤーが獲得した報酬は、すべてのプレイヤーが獲得した行動に依存する。 チーム設定であり、目的は共通しています。 情報非対称性は、問題を面白くて難しいものにする。 プレイヤーの行動が観察できない場合の行動情報非対称性,他のプレイヤーの行動が観察可能である場合の報酬情報非対称性,受信した報酬が同一分布のIDである場合の報酬情報非対称性,アクション情報と報酬情報の両方が非対称性である。 まず,その報酬がIIDかマルコフ的かに関わらず,$O(\log T)$後悔する UCB-inspired アルゴリズムを提案する。 第2節では,最初の設定で与えられたアルゴリズムが線形後悔を与えるような環境を提供する。 3つ目の設定では、‘explore then commit’アルゴリズムのバリエーションがほとんど対数後悔を実現することを示す。

We introduce a framework for decentralized online learning for multi-armed bandits (MAB) with multiple cooperative players. The reward obtained by the players in each round depends on the actions taken by all the players. It's a team setting, and the objective is common. Information asymmetry is what makes the problem interesting and challenging. We consider three types of information asymmetry: action information asymmetry when the actions of the players can't be observed but the rewards received are common; reward information asymmetry when the actions of the other players are observable but rewards received are IID from the same distribution; and when we have both action and reward information asymmetry. For the first setting, we propose a UCB-inspired algorithm that achieves $O(\log T)$ regret whether the rewards are IID or Markovian. For the second section, we offer an environment such that the algorithm given for the first setting gives linear regret. For the third setting, we show that a variation of the `explore then commit' algorithm achieves almost log regret.
翻訳日:2021-09-11 11:47:40 公開日:2021-09-07
# ドメイン適応的知識伝達による感性分析による比較分類

Powering Comparative Classification with Sentiment Analysis via Domain Adaptive Knowledge Transfer ( http://arxiv.org/abs/2109.03819v1 )

ライセンス: Link先を確認
Zeyu Li, Yilong Qin, Zihan Liu, Wei Wang(参考訳) 比較選好分類 (cpc) について検討し, 与えられた文中の2つのエンティティ間の選好比較が存在するか, いずれのエンティティが他方よりも好まれるかを予測することを目的とした。 高品質なCPCモデルは、比較質問応答やレビューベースのレコメンデーションのようなアプリケーションに大きく貢献する。 既存の手法では,非深度学習法は性能が劣る。 state-of-the-art graph neural network-based ed-gat (ma et al., 2020) は、重要な意味関係や比較対象に対する感情を無視しながら、構文情報のみを考察している。 そこで我々は,CPCの精度を向上する感情分析強化ネットワーク (SAECON) を提案し,ドメイン適応的知識伝達を通じて個人に対する感情を学習する感情分析装置を開発した。 CompSent-19(Panchenk o et al., 2019)データセットの実験では、既存のCPCアプローチよりもF1スコアが大幅に改善された。

We study Comparative Preference Classification (CPC) which aims at predicting whether a preference comparison exists between two entities in a given sentence and, if so, which entity is preferred over the other. High-quality CPC models can significantly benefit applications such as comparative question answering and review-based recommendations. Among the existing approaches, non-deep learning methods suffer from inferior performances. The state-of-the-art graph neural network-based ED-GAT (Ma et al., 2020) only considers syntactic information while ignoring the critical semantic relations and the sentiments to the compared entities. We proposed sentiment Analysis Enhanced COmparative Network (SAECON) which improves CPC ac-curacy with a sentiment analyzer that learns sentiments to individual entities via domain adaptive knowledge transfer. Experiments on the CompSent-19 (Panchenko et al., 2019) dataset present a significant improvement on the F1 scores over the best existing CPC approaches.
翻訳日:2021-09-10 14:31:37 公開日:2021-09-07
# Tom: より高速な収束のための観測された勾配の活用トレンド

Tom: Leveraging trend of the observed gradients for faster convergence ( http://arxiv.org/abs/2109.03820v1 )

ライセンス: Link先を確認
Anirudh Maiya, Inumella Sricharan, Anshuman Pandey, Srinivas K. S(参考訳) ディープラーニングの成功は、計算能力の増加、大規模データセット、深層畳み込みニューラルネットワーク、オプティマイザなど、さまざまな要因に起因する可能性がある。 特にオプティマイザの選択は一般化、収束率、トレーニング安定性に影響する。 Stochastic Gradient Descent (SGD) は、全てのパラメータに対して勾配を均一に更新する一階反復最適化器である。 この均一な更新はトレーニングフェーズ全体では適さないかもしれない。 これに対する初歩的な解決策は、反復関数としての学習率を減少させる微調整学習率スケジューラを使用することである。 学習速度スケジューラの依存性を排除するために、AdaGrad、AdaDelta、RMSPropといった適応的な勾配最適化器は、勾配自体の関数である学習率のパラメータワイズスケーリング項を用いる。 本稿では,ニューラルネットワークによる損失景観の勾配を考慮に入れたAdamの新たな変種であるTom(Trend over Momentum)オプティマイザを提案する。 提案したトム最適化器では、最適化の過程で観測される傾向に対処するため、さらなる平滑化方程式が導入された。 このトレンドに導入されたスムージングパラメータはチューニングを必要とせず、デフォルト値で使用できる。 CIFAR-10、CIFAR-100、CINIC-10画像データセットなどの分類データセットの実験結果から、TomはAdagrad、Adadelta、RMSProp、Adamよりも精度が高く、収束が速い。 ソースコードはhttps://github.com/A nirudhMaiya/Tomで公開されている。

The success of deep learning can be attributed to various factors such as increase in computational power, large datasets, deep convolutional neural networks, optimizers etc. Particularly, the choice of optimizer affects the generalization, convergence rate, and training stability. Stochastic Gradient Descent (SGD) is a first order iterative optimizer that updates the gradient uniformly for all parameters. This uniform update may not be suitable across the entire training phase. A rudimentary solution for this is to employ a fine-tuned learning rate scheduler which decreases learning rate as a function of iteration. To eliminate the dependency of learning rate schedulers, adaptive gradient optimizers such as AdaGrad, AdaDelta, RMSProp, Adam employ a parameter-wise scaling term for learning rate which is a function of the gradient itself. We propose Tom (Trend over Momentum) optimizer, which is a novel variant of Adam that takes into account of the trend which is observed for the gradients in the loss landscape traversed by the neural network. In the proposed Tom optimizer, an additional smoothing equation is introduced to address the trend observed during the process of optimization. The smoothing parameter introduced for the trend requires no tuning and can be used with default values. Experimental results for classification datasets such as CIFAR-10, CIFAR-100 and CINIC-10 image datasets show that Tom outperforms Adagrad, Adadelta, RMSProp and Adam in terms of both accuracy and has a faster convergence. The source code is publicly made available at https://github.com/A nirudhMaiya/Tom
翻訳日:2021-09-10 14:11:39 公開日:2021-09-07
# 理由を推薦する:教師なしアスペクト強調共抽出の力を解き放つ

Recommend for a Reason: Unlocking the Power of Unsupervised Aspect-Sentiment Co-Extraction ( http://arxiv.org/abs/2109.03821v1 )

ライセンス: Link先を確認
Zeyu Li, Wei Cheng, Reema Kshetramade, John Houser, Haifeng Chen, Wei Wang(参考訳) レビューにおける補完や関心は、特定の項目の特定の側面に関して、ユーザのショッピング関心や意見を理解するのに有用である。 既存のレビューベースのレコメンデータは、潜在的かつ解釈不能なテキスト表現のみを学習できる大規模で複雑な言語エンコーダを好んでいる。 明確なユーザの注意とアイテムプロパティのモデリングが欠如しているため、アイテムを推薦する能力以上の貴重な情報を提供できる。 そこで本稿では,ASPE(Aspect-Sentime nt Pair Extractor)とAPRE(Atention-Proper ty-Aware Rating Estimator)という2段階の密結合型アプローチを提案する。 監督されていないASPEは、アスペクト・センティメントペア(ASペア)とAPREを具体的なアスペクトレベルの証拠としてASペアを用いて評価する。 7つの実世界のAmazon Reviewデータセットに関する大規模な実験は、ASPEがASペアを効果的に抽出し、APREが主要なベースラインよりも優れた精度を提供できることを示した。

Compliments and concerns in reviews are valuable for understanding users' shopping interests and their opinions with respect to specific aspects of certain items. Existing review-based recommenders favor large and complex language encoders that can only learn latent and uninterpretable text representations. They lack explicit user attention and item property modeling, which however could provide valuable information beyond the ability to recommend items. Therefore, we propose a tightly coupled two-stage approach, including an Aspect-Sentiment Pair Extractor (ASPE) and an Attention-Property-a ware Rating Estimator (APRE). Unsupervised ASPE mines Aspect-Sentiment pairs (AS-pairs) and APRE predicts ratings using AS-pairs as concrete aspect-level evidence. Extensive experiments on seven real-world Amazon Review Datasets demonstrate that ASPE can effectively extract AS-pairs which enable APRE to deliver superior accuracy over the leading baselines.
翻訳日:2021-09-10 14:03:14 公開日:2021-09-07
# (参考訳) 概念・テスト・証明:理論探索の概観 [全文訳有]

Conjectures, Tests and Proofs: An Overview of Theory Exploration ( http://arxiv.org/abs/2109.03721v1 )

ライセンス: CC BY 4.0
Moa Johansson (Chalmers University of Technology), Nicholas Smallbone (Chalmers University of Technology)(参考訳) 数学的推論の重要な要素は、問題の領域について興味深い予想を定式化する能力である。 本稿では,与えられた関数集合に関する興味深い予想を自動的に発見できるquickspecと呼ばれる理論探索システムの概要を示す。 QuickSpecは、候補予想を形成するためにランダムテストで項生成をインターリーブすることで機能する。 これは、小さいサイズから始まり、既に発見されている予想について既約である項のみが考慮されることで、扱いやすい。 quickspec は自動帰納的定理証明のための補題の生成や関数型プログラムの仕様の作成に成功している。 我々は、QuickSpecの典型的なユースケースの概要と、ユーザの選択の定理証明者に簡単に接続する方法を示す。

A key component of mathematical reasoning is the ability to formulate interesting conjectures about a problem domain at hand. In this paper, we give a brief overview of a theory exploration system called QuickSpec, which is able to automatically discover interesting conjectures about a given set of functions. QuickSpec works by interleaving term generation with random testing to form candidate conjectures. This is made tractable by starting from small sizes and ensuring that only terms that are irreducible with respect to already discovered conjectures are considered. QuickSpec has been successfully applied to generate lemmas for automated inductive theorem proving as well as to generate specifications of functional programs. We give an overview of typical use-cases of QuickSpec, as well as demonstrating how to easily connect it to a theorem prover of the user's choice.
翻訳日:2021-09-10 09:00:33 公開日:2021-09-07
# (参考訳) CRNNTL:QSARモデリングのための畳み込みリカレントニューラルネットワークと伝達学習 [全文訳有]

CRNNTL: convolutional recurrent neural network and transfer learning for QSAR modelling ( http://arxiv.org/abs/2109.03309v1 )

ライセンス: CC BY 4.0
Yaqin Li, Yongjin Xu and Yi Yu(参考訳) 本研究では,QSARモデリングのための畳み込みリカレントニューラルネットワークと伝達学習(CRNNTL)を提案する。 この方法は多声音検出と心電図分類の応用に着想を得た。 我々の戦略は、特徴抽出のための畳み込みニューラルネットワークと繰り返しニューラルネットワークの両方の利点と、データ拡張手法を生かしている。 ここで、CRNNTLはベースライン法と比較して20のベンチマークデータセットで評価される。 さらに、ある異性体ベースのデータセットは、局所的特徴抽出とグローバル特徴抽出の両方の能力を明らかにするために使用される。 次に、CRNNTLの知識伝達性能、特に小さな生物活動データセットについて検証する。 最後に,他のタイプのaeと異なる潜在表現を用いて,モデルの汎用性の研究を行った。 その結果,異なる潜在表現を用いたCRNNTLの有効性が示された。 さらに、異なるターゲット間の結合部位の類似性を考慮したデータ不足を克服するために、効率的な知識伝達を実現する。

In this study, we propose the convolutional recurrent neural network and transfer learning (CRNNTL) for QSAR modelling. The method was inspired by the applications of polyphonic sound detection and electrocardiogram classification. Our strategy takes advantages of both convolutional and recurrent neural networks for feature extraction, as well as the data augmentation method. Herein, CRNNTL is evaluated on 20 benchmark datasets in comparison with baseline methods. In addition, one isomers based dataset is used to elucidate its ability for both local and global feature extraction. Then, knowledge transfer performance of CRNNTL is tested, especially for small biological activity datasets. Finally, different latent representations from other type of AEs were used for versatility study of our model. The results show the effectiveness of CRNNTL using different latent representation. Moreover, efficient knowledge transfer is achieved to overcome data scarcity considering binding site similarity between different targets.
翻訳日:2021-09-10 08:26:58 公開日:2021-09-07
# (参考訳) Melatect:皮膚成長における悪性黒色腫の同定のための機械学習モデルアプローチ [全文訳有]

Melatect: A Machine Learning Model Approach For Identifying Malignant Melanoma in Skin Growths ( http://arxiv.org/abs/2109.03310v1 )

ライセンス: CC BY 4.0
Vidushi Meel and Asritha Bodepudi(参考訳) 悪性黒色腫(英: Malignant melanoma)は、転移前に悪性黒色腫が元の部位から離れた臓器で発生する皮膚がんである。 悪性黒色腫は転移のリスクが高いため、未治療の皮膚癌としては最も危険である。 本稿では悪性黒色腫を同定する機械学習モデルであるMelatectを提案する。 再帰的なコンピュータ画像解析アルゴリズムを使用して、おそらくメラノーマを検出することができる機械学習モデルを作成した。 国際皮膚画像コラボレーション(ISIC)アーカイブから得られた良性病変と悪性病変の生画像20,000枚を用いて比較を行った。 ISIC画像のサブセットを用いたアルゴリズムのテストでは、病変を95%以上の悪性または良性と正確に分類し、明らかなバイアスや過剰適合を伴わないことが示唆されている。 Melatect iOSアプリは後に作成され(未公開)、機械学習モデルが埋め込まれた。 このアプリでは、ユーザーはアプリを使って皮膚病変(moles)の写真を撮ることができ、それを機械学習モデルで処理し、その病変が異常であるかどうかをユーザーに通知する。 Melatectは、病変に対する無料のアドバイスを得るための便利な方法を提供し、時間をかけてこれらの病変を追跡する。

Malignant melanoma is a common skin cancer that is mostly curable before metastasis, where melanoma growths spawn in organs away from the original site. Melanoma is the most dangerous type of skin cancer if left untreated due to the high chance of metastasis. This paper presents Melatect, a machine learning model that identifies potential malignant melanoma. A recursive computer image analysis algorithm was used to create a machine learning model which is capable of detecting likely melanoma. The comparison is performed using 20,000 raw images of benign and malignant lesions from the International Skin Imaging Collaboration (ISIC) archive that were augmented to 60,000 images. Tests of the algorithm using subsets of the ISIC images suggest it accurately classifies lesions as malignant or benign over 95% of the time with no apparent bias or overfitting. The Melatect iOS app was later created (unpublished), in which the machine learning model was embedded. With the app, users have the ability to take pictures of skin lesions (moles) using the app, which are then processed through the machine learning model, and users are notified whether their lesion could be abnormal or not. Melatect provides a convenient way to get free advice on lesions and track these lesions over time.
翻訳日:2021-09-10 08:11:19 公開日:2021-09-07
# (参考訳) マルチホップ推論における構成説明評価の課題:妥当性,完全性,専門家評価 [全文訳有]

On the Challenges of Evaluating Compositional Explanations in Multi-Hop Inference: Relevance, Completeness, and Expert Ratings ( http://arxiv.org/abs/2109.03334v1 )

ライセンス: CC BY-SA 4.0
Peter Jansen, Kelly Smith, Dan Moreno and Huitzilin Ortiz(参考訳) 構成的説明を構築するには、質問に対する答えが正しい理由を説明する2つ以上の事実を結合する必要がある。 通常、これらの「マルチホップ」の説明は1つの(または少数の)金の説明と比較して評価される。 本研究は,本モデルが金の説明と異なる有効な説明を定期的に発見・生成するため,包含事実の関連性およびモデル生成説明の完全性の両方の観点から,モデル性能を著しく過小評価するものである。 そこで本研究では,126kのドメインエキスパート(理科教員)関連格付けの大規模なコーパスを構築し,標準化された理科試験問題に対する説明コーパスを増強し,ゴールドと評価されない80k以上の関連事実を発見する。 異なる方法論(世代、ランキング、スキーマ)に基づいた3つの強力なモデルを構築し、経験的に、専門家による評価が説明品質のより良い見積もりを提供する一方で、原型(金)と専門家による自動評価は、完全な手動の専門家判断と比較した場合、パフォーマンスを最大36%過小評価し、異なるモデルが不釣り合いに影響を受けていることを示している。 これは、構成的推論モデルによって生成された説明を正確に評価するために重要な方法論的課題をもたらす。

Building compositional explanations requires models to combine two or more facts that, together, describe why the answer to a question is correct. Typically, these "multi-hop" explanations are evaluated relative to one (or a small number of) gold explanations. In this work, we show these evaluations substantially underestimate model performance, both in terms of the relevance of included facts, as well as the completeness of model-generated explanations, because models regularly discover and produce valid explanations that are different than gold explanations. To address this, we construct a large corpus of 126k domain-expert (science teacher) relevance ratings that augment a corpus of explanations to standardized science exam questions, discovering 80k additional relevant facts not rated as gold. We build three strong models based on different methodologies (generation, ranking, and schemas), and empirically show that while expert-augmented ratings provide better estimates of explanation quality, both original (gold) and expert-augmented automatic evaluations still substantially underestimate performance by up to 36% when compared with full manual expert judgements, with different models being disproportionately affected. This poses a significant methodological challenge to accurately evaluating explanations produced by compositional reasoning models.
翻訳日:2021-09-10 08:01:52 公開日:2021-09-07
# (参考訳) C-MinHash:$K$の置換を2つに厳格に削減 [全文訳有]

C-MinHash: Rigorously Reducing $K$ Permutations to Two ( http://arxiv.org/abs/2109.03337v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) minhash (minwise hashing) は、大規模バイナリ (0/1) データの jaccard (resemance) 類似性を近似するためにランダムハッシュを生成するための重要かつ実用的なアルゴリズムである。 MinHashの基本理論は、大規模な学習モデルの構築や、大規模データの近傍の探索の信頼性を得るために、データセットの各データベクトルに数百から数千の独立したランダムな置換を適用することを必要とする。 本稿では, {\bf circulant minhash (c-minhash)} を提案し,その理論的な結果について述べる。 C-MinHashの場合、まずデータベクトルに初期置換を行い、次に第2の置換を使ってハッシュ値を生成する。 基本的に、第2の置換は循環シフトによって$K$倍に再使用される。 古典的なMinHashとは異なり、これらの$K$ハッシュは明らかに相関性があるが、それでもジャカード類似性の偏りのない推定値が得られるという厳密な証明を与えることができ、理論的な分散は古典的なMinHashのものと独立な置換の$K$よりも均一に小さい。 C-MinHashの理論的な証明は、いくつかの非自明な努力を必要とする。 理論を正当化し,C-MinHashの有効性を示す数値実験を行った。

Minwise hashing (MinHash) is an important and practical algorithm for generating random hashes to approximate the Jaccard (resemblance) similarity in massive binary (0/1) data. The basic theory of MinHash requires applying hundreds or even thousands of independent random permutations to each data vector in the dataset, in order to obtain reliable results for (e.g.,) building large-scale learning models or approximate near neighbor search in massive data. In this paper, we propose {\bf Circulant MinHash (C-MinHash)} and provide the surprising theoretical results that we just need \textbf{two} independent random permutations. For C-MinHash, we first conduct an initial permutation on the data vector, then we use a second permutation to generate hash values. Basically, the second permutation is re-used $K$ times via circulant shifting to produce $K$ hashes. Unlike classical MinHash, these $K$ hashes are obviously correlated, but we are able to provide rigorous proofs that we still obtain an unbiased estimate of the Jaccard similarity and the theoretical variance is uniformly smaller than that of the classical MinHash with $K$ independent permutations. The theoretical proofs of C-MinHash require some non-trivial efforts. Numerical experiments are conducted to justify the theory and demonstrate the effectiveness of C-MinHash.
翻訳日:2021-09-10 07:42:27 公開日:2021-09-07
# (参考訳) 証明可能な外乱幾何学的知覚:厳密な半定緩和とスケーラブルグローバル最適化 [全文訳有]

Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization ( http://arxiv.org/abs/2109.03349v1 )

ライセンス: CC BY 4.0
Heng Yang, Luca Carlone(参考訳) 本稿では,外接点の存在下でのロバストな幾何学的知覚のための認証アルゴリズムを設計するための,最初の汎用的でスケーラブルなフレームワークを提案する。 最初の貢献は、最小二乗法(tls)、最大コンセンサス、geman-mcclure、tukey's biweightなど、一般的なロバストなコストを用いた推定を多項式最適化問題(pops)として再構成できることを示すことである。 2つ目の貢献は、TLSコストに焦点をあてて、POPの空間性を利用して、標準ラッサール階層よりもはるかに小さいスパース半定値プログラミング(SDP)緩和を提案することであり、すなわち、SDPは最適性証明によって非凸POPの最適化を回復する。 第3の貢献は、非凸POP上の高速局所探索と凸SDP上のグローバル降下をブレンドするSTRIDEを提示することにより、前例のないスケールでSDP緩和を解くことである。 第4の貢献は,シングルおよびマルチローテーション平均化,ポイントクラウドとメッシュ登録,絶対ポーズ推定,カテゴリーレベルの物体ポーズと形状推定を含む6つの幾何学的知覚問題に関するフレームワークの評価である。 Our experiments demonstrate that (i) our sparse SDP relaxation is exact with up to 60%-90% outliers across applications; (ii) while still being far from real-time, STRIDE is up to 100 times faster than existing SDP solvers on medium-scale problems, and is the only solver that can solve large-scale SDPs with hundreds of thousands of constraints to high accuracy; (iii) STRIDE provides a safeguard to existing fast heuristics for robust estimation (e.g., RANSAC or Graduated Non-Convexity), i.e., it certifies global optimality if the heuristic estimates are optimal, or detects and allows escaping local optima when the heuristic estimates are suboptimal.

We propose the first general and scalable framework to design certifiable algorithms for robust geometric perception in the presence of outliers. Our first contribution is to show that estimation using common robust costs, such as truncated least squares (TLS), maximum consensus, Geman-McClure, Tukey's biweight, among others, can be reformulated as polynomial optimization problems (POPs). By focusing on the TLS cost, our second contribution is to exploit sparsity in the POP and propose a sparse semidefinite programming (SDP) relaxation that is much smaller than the standard Lasserre's hierarchy while preserving exactness, i.e., the SDP recovers the optimizer of the nonconvex POP with an optimality certificate. Our third contribution is to solve the SDP relaxations at an unprecedented scale and accuracy by presenting STRIDE, a solver that blends global descent on the convex SDP with fast local search on the nonconvex POP. Our fourth contribution is an evaluation of the proposed framework on six geometric perception problems including single and multiple rotation averaging, point cloud and mesh registration, absolute pose estimation, and category-level object pose and shape estimation. Our experiments demonstrate that (i) our sparse SDP relaxation is exact with up to 60%-90% outliers across applications; (ii) while still being far from real-time, STRIDE is up to 100 times faster than existing SDP solvers on medium-scale problems, and is the only solver that can solve large-scale SDPs with hundreds of thousands of constraints to high accuracy; (iii) STRIDE provides a safeguard to existing fast heuristics for robust estimation (e.g., RANSAC or Graduated Non-Convexity), i.e., it certifies global optimality if the heuristic estimates are optimal, or detects and allows escaping local optima when the heuristic estimates are suboptimal.
翻訳日:2021-09-10 06:50:38 公開日:2021-09-07
# (参考訳) フィードフォワードニューラルネットワークの係数空間について [全文訳有]

On the space of coefficients of a Feed Forward Neural Network ( http://arxiv.org/abs/2109.03362v1 )

ライセンス: CC BY 4.0
Dinesh Valluri and Rory Campbell(参考訳) 重み,バイアス,しきい値関数の異なる'等価ニューラルネットワーク'ニューラルネットワーク'の条件を定義し,その条件を定式化する。 分割線形活性化を持つニューラルネットワーク $\mathcal{n}$ が与えられると、すべての等価ニューラルネットワークを記述する係数の空間は半代数集合によって与えられる。 この結果は、タルスキ=セイデンベルクの定理を用いて与えられた分割線型関数の異なる表現を研究することによって得られる。

We define and establish the conditions for `equivalent neural networks' - neural networks with different weights, biases, and threshold functions that result in the same associated function. We prove that given a neural network $\mathcal{N}$ with piece-wise linear activation, the space of coefficients describing all equivalent neural networks is given by a semialgebraic set. This result is obtained by studying different representations of a given piece-wise linear function using the Tarski-Seidenberg theorem.
翻訳日:2021-09-10 05:43:22 公開日:2021-09-07
# 指導的実証学習による動的店舗の効果的かつ解釈可能な派遣ルール

Effective and interpretable dispatching rules for dynamic job shops via guided empirical learning ( http://arxiv.org/abs/2109.03323v1 )

ライセンス: Link先を確認
Cristiane Ferreira, Gon\c{c}alo Figueira and Pedro Amorim(参考訳) industry 4.0の出現により、生産システムはより柔軟でダイナミックになった。 これらの設定では、スケジュールはルールをディスパッチすることでリアルタイムに適応する必要がある。 90年代までかなりの進展があったが、これらのルールのパフォーマンスは依然としてかなり限られている。 機械学習の文献は、それらを改善するための様々な方法を開発しているが、結果のルールは解釈が難しく、幅広い設定でうまく一般化できない。 本稿では、スケジューリングのための機械学習とドメイン問題推論を組み合わせる最初の試みである。 このアイデアは、後者で得られた洞察を使って、前者の経験的な探索を導くものである。 我々の仮説は、このガイドされた経験的学習プロセスは、有効で解釈可能なルールを、異なるインスタンスクラスによく一般化する結果をもたらすべきであるというものである。 我々は,最もよく研究されているスケジューリング問題の1つであるターダネスを最小化する古典的な動的ジョブショップスケジューリング問題において,このアプローチをテストする。 いずれにせよ, 提案手法は, 既往の文献を, ゆるやかさ, 利用条件の低さ, 混雑店など, 圧倒的に上回った, 最先端のルールを見出すことができたことが示唆された。 平均的な改善率は19%である。 さらに、ルールはコンパクトで解釈可能で、極端な、目に見えないシナリオによく一般化される。

The emergence of Industry 4.0 is making production systems more flexible and also more dynamic. In these settings, schedules often need to be adapted in real-time by dispatching rules. Although substantial progress was made until the '90s, the performance of these rules is still rather limited. The machine learning literature is developing a variety of methods to improve them, but the resulting rules are difficult to interpret and do not generalise well for a wide range of settings. This paper is the first major attempt at combining machine learning with domain problem reasoning for scheduling. The idea consists of using the insights obtained with the latter to guide the empirical search of the former. Our hypothesis is that this guided empirical learning process should result in dispatching rules that are effective and interpretable and which generalise well to different instance classes. We test our approach in the classical dynamic job shop scheduling problem minimising tardiness, which is one of the most well-studied scheduling problems. Nonetheless, results suggest that our approach was able to find new state-of-the-art rules, which significantly outperform the existing literature in the vast majority of settings, from loose to tight due dates and from low utilisation conditions to congested shops. Overall, the average improvement is 19%. Moreover, the rules are compact, interpretable, and generalise well to extreme, unseen scenarios.
翻訳日:2021-09-09 13:59:43 公開日:2021-09-07
# テキストなし韻律認識生成音声言語モデリング

Text-Free Prosody-Aware Generative Spoken Language Modeling ( http://arxiv.org/abs/2109.03264v1 )

ライセンス: Link先を確認
Eugene Kharitonov, Ann Lee, Adam Polyak, Yossi Adi, Jade Copet, Kushal Lakhotia, Tu-Anh Nguyen, Morgane Rivi\`ere, Abdelrahman Mohamed, Emmanuel Dupoux, Wei-Ning Hsu(参考訳) 音声事前学習は,主に分類作業において有効であることを示す一方で,GPT-2でコヒーレントな段落を生成できるような,新しい音声を生成する能力はほとんど研究されていない。 生成的音声言語モデリング(gslm) (lakhotia et al., 2021) は、言語モデリングのために、発見済みの電話のような単位にテキストを置き換え、意味のある新文を生成する能力を示す、音声前訓練の生成的側面に対処する唯一の先行研究である。 残念ながら、テキストの必要性を排除したにもかかわらず、GSLMで使用されるユニットは、ほとんどの韻律情報を捨てた。 したがって、GSLMはより理解しやすい韻律の活用に失敗し、表現力のある音声を生成できない。 本稿では, prosody-aware generative spoken language model (pgslm) を提案する。 音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。 プロソディモデリングと生成のための一連のメトリクスを考案し、コンテンツモデリングのためにGSLMからメトリクスを再利用する。 実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。 オーディオサンプルはhttps://speechbot.gi thub.io/pgslmで見ることができる。

Speech pre-training has primarily demonstrated efficacy on classification tasks, while its capability of generating novel speech, similar to how GPT-2 can generate coherent paragraphs, has barely been explored. Generative Spoken Language Modeling (GSLM) (Lakhotia et al., 2021) is the only prior work addressing the generative aspects of speech pre-training, which replaces text with discovered phone-like units for language modeling and shows the ability to generate meaningful novel sentences. Unfortunately, despite eliminating the need of text, the units used in GSLM discard most of the prosodic information. Hence, GSLM fails to leverage prosody for better comprehension, and does not generate expressive speech. In this work, we present a prosody-aware generative spoken language model (pGSLM). It is composed of a multi-stream transformer language model (MS-TLM) of speech, represented as discovered unit and prosodic feature streams, and an adapted HiFi-GAN model converting MS-TLM outputs to waveforms. We devise a series of metrics for prosody modeling and generation, and re-use metrics from GSLM for content modeling. Experimental results show that the pGSLM can utilize prosody to improve both prosody and content modeling, and also generate natural, meaningful, and coherent speech given a spoken prompt. Audio samples can be found at https://speechbot.gi thub.io/pgslm.
翻訳日:2021-09-09 13:56:24 公開日:2021-09-07
# cygil: エミュレートされたネットワークシステム上で自律エージェントを訓練するサイバージム

CyGIL: A Cyber Gym for Training Autonomous Agents over Emulated Network Systems ( http://arxiv.org/abs/2109.03331v1 )

ライセンス: Link先を確認
Li Li, Raed Fayad, Adrian Taylor(参考訳) 各種分野における強化学習(RL)の成功を踏まえ,知的かつ自律的なサイバーエージェントの開発にその手法を適用することを約束している。 この開発を実現するには、代表的なRLトレーニング環境が必要です。 この目的のために、ネットワークサイバー操作のためのシミュレーションRLトレーニング環境の実験的なテストベッドであるCyGILを提示する。 CyGILはステートレス環境アーキテクチャを使用し、MITRE ATT&CKフレームワークを組み込んで高忠実度トレーニング環境を確立し、RLトレーニングを実現するのに十分なインターフェースを提供する。 その包括的なアクションスペースとフレキシブルなゲームデザインにより、エージェントトレーニングは特定の高度な永続脅威(APT)プロファイルに集中でき、幅広い潜在的な脅威と脆弱性を組み込むことができる。 忠実性とシンプルさのバランスを取ることで、最先端のrlアルゴリズムを現実世界のサイバー防衛に適用することを目指している。

Given the success of reinforcement learning (RL) in various domains, it is promising to explore the application of its methods to the development of intelligent and autonomous cyber agents. Enabling this development requires a representative RL training environment. To that end, this work presents CyGIL: an experimental testbed of an emulated RL training environment for network cyber operations. CyGIL uses a stateless environment architecture and incorporates the MITRE ATT&CK framework to establish a high fidelity training environment, while presenting a sufficiently abstracted interface to enable RL training. Its comprehensive action space and flexible game design allow the agent training to focus on particular advanced persistent threat (APT) profiles, and to incorporate a broad range of potential threats and vulnerabilities. By striking a balance between fidelity and simplicity, it aims to leverage state of the art RL algorithms for application to real-world cyber defence.
翻訳日:2021-09-09 13:55:49 公開日:2021-09-07
# ニューラルodeを用いた簡易映像生成

Simple Video Generation using Neural ODEs ( http://arxiv.org/abs/2109.03292v1 )

ライセンス: Link先を確認
David Kanaa and Vikram Voleti and Samira Ebrahimi Kahou and Christopher Pal(参考訳) かなり研究されてきたが、フレームのシーケンスやビデオの条件付き生成という課題は依然として極めて困難である。 この課題を解決するための重要なステップは、映像信号における空間情報と時間情報の両方を正確にモデル化することにある、という共通の信念である。 期待できる方向性は、最近の文献で示唆されているように、潜在空間の将来を予測し、ピクセルに投影する潜在変数モデルを学ぶことである。 先行研究であるNeural ODEで導入されたモデルの族の上に構築されたこの一連の研究の後、時間に関する微分方程式を持つ連続潜在空間上の時間連続力学をモデル化するアプローチについて検討する。 このアプローチの背景にある直感は、潜在空間におけるこれらの軌跡を外挿して、モデルが訓練される時間段階を超えてビデオフレームを生成することである。 提案手法は,1桁と2桁の移動mnistデータセットにおける将来のフレーム予測のタスクに有望な結果をもたらすことを示す。

Despite having been studied to a great extent, the task of conditional generation of sequences of frames, or videos, remains extremely challenging. It is a common belief that a key step towards solving this task resides in modelling accurately both spatial and temporal information in video signals. A promising direction to do so has been to learn latent variable models that predict the future in latent space and project back to pixels, as suggested in recent literature. Following this line of work and building on top of a family of models introduced in prior work, Neural ODE, we investigate an approach that models time-continuous dynamics over a continuous latent space with a differential equation with respect to time. The intuition behind this approach is that these trajectories in latent space could then be extrapolated to generate video frames beyond the time steps for which the model is trained. We show that our approach yields promising results in the task of future frame prediction on the Moving MNIST dataset with 1 and 2 digits.
翻訳日:2021-09-09 13:54:59 公開日:2021-09-07
# こんにちは、私の名はMartha: 生成的対話モデルにおけるバイアスの測定と緩和に名前を使う

Hi, my name is Martha: Using names to measure and mitigate bias in generative dialogue models ( http://arxiv.org/abs/2109.03300v1 )

ライセンス: Link先を確認
Eric Michael Smith, Adina Williams(参考訳) すべてのaiモデルは、トレーニング対象のデータバイアスの学習に影響を受けやすい。 生成的対話モデルでは、不均衡な性別と人種/民族の参照を含む実際の人間の会話を訓練することにより、学習バイアスを表示するモデルが導かれる可能性がある。 対話モデルの2つのコピー間で人工的な会話を生成し、ある会話パートナーに特定の性別および/または人種/民族性に共通する名前を述べるように条件づけることで、バイアスの強さを測定する。 より大きな能力モデルでは、ジェンダーバイアスが増加し、職業のステレオタイプが増加しがちである。 本稿では,これらの対話モデル,特に名前のスクランブル,制御された生成,およびそれと異なり,下流の会話タスクを含む会話のバイアスを軽減するために有効であることを示す。 名前のスクランブルは、パートナーが異なる性別や人種/民族に関連付けられた名前を持つ会話におけるトークンの使用方法の違いを減らすのにも有効である。

All AI models are susceptible to learning biases in data that they are trained on. For generative dialogue models, being trained on real human conversations containing unbalanced gender and race/ethnicity references can lead to models that display learned biases, which we define here broadly as any measurable differences in the distributions of words or semantic content of conversations based on demographic groups. We measure the strength of such biases by producing artificial conversations between two copies of a dialogue model, conditioning one conversational partner to state a name commonly associated with a certain gender and/or race/ethnicity. We find that larger capacity models tend to exhibit more gender bias and greater stereotyping of occupations by gender. We show that several methods of tuning these dialogue models, specifically name scrambling, controlled generation, and unlikelihood training, are effective in reducing bias in conversation, including on a downstream conversational task. Name scrambling is also effective in lowering differences in token usage across conversations where partners have names associated with different genders or races/ethnicities.
翻訳日:2021-09-09 13:52:27 公開日:2021-09-07
# コーパスに基づくオープンドメインイベント型インダクション

Corpus-based Open-Domain Event Type Induction ( http://arxiv.org/abs/2109.03322v1 )

ライセンス: Link先を確認
Jiaming Shen, Yunyi Zhang, Heng Ji, Jiawei Han(参考訳) 従来のイベント抽出メソッドでは、イベント抽出子を学ぶために、事前定義されたイベントタイプとそのアノテーションが必要である。 これらの前提条件はしばしば実世界のアプリケーションでは満足できない。 本稿では、与えられたコーパスからイベントタイプの集合を自動的に発見するコーパスベースのオープンドメインイベント型誘導手法を提案する。 同じタイプのイベントを複数の方法で表現できるので、各イベントタイプを<predicate sense, object head>ペアのクラスタとして表現することを提案する。 具体的には,(1)有能な述語とオブジェクトヘッドを選択し,(2)動詞センス辞書のみを用いて述語感覚を曖昧にし,(3)潜在球面空間において<述語感覚,オブジェクトヘッド>ペアを共同で埋め込み,クラスタリングすることによってイベントタイプを取得する。 提案手法は,異なる領域の3つのデータセットを用いて,自動評価と人間評価の両方により,高度かつ高品質なイベントタイプを発見できることを示す。

Traditional event extraction methods require predefined event types and their corresponding annotations to learn event extractors. These prerequisites are often hard to be satisfied in real-world applications. This work presents a corpus-based open-domain event type induction method that automatically discovers a set of event types from a given corpus. As events of the same type could be expressed in multiple ways, we propose to represent each event type as a cluster of <predicate sense, object head> pairs. Specifically, our method (1) selects salient predicates and object heads, (2) disambiguates predicate senses using only a verb sense dictionary, and (3) obtains event types by jointly embedding and clustering <predicate sense, object head> pairs in a latent spherical space. Our experiments, on three datasets from different domains, show our method can discover salient and high-quality event types, according to both automatic and human evaluations.
翻訳日:2021-09-09 13:52:10 公開日:2021-09-07
# 顔表情認識のための多分岐深達度基底関数ネットワーク

Multi-Branch Deep Radial Basis Function Networks for Facial Emotion Recognition ( http://arxiv.org/abs/2109.03336v1 )

ライセンス: Link先を確認
Fernanda Hern\'andez-Luquin and Hugo Jair Escalante(参考訳) 顔画像からの感情認識(ER)は、過去10年間で大きな発展を遂げた情緒的コンピューティングにおける目覚ましい課題の1つである。 初期のERの取り組みは、顔画像の特徴付けと標準的な予測モデルへのフィードに使用される手作りの機能に依存していた。 最近の手法は、特徴と予測モデルの両方を同時に学習するエンドツーエンドの訓練可能なディープラーニング手法で構成されている。 おそらく最も成功したモデルは畳み込みニューラルネットワーク(CNN)に基づいている。 これらのモデルは、このタスクに優れていますが、学習プロセスに現れる可能性のあるローカルパターンを捉えることには失敗しています。 これらのパターンを局所的な重み付け学習に基づく変種によって捉えることができると仮定する。 具体的には,学習の最終段階におけるローカル情報を活用することを目的とした,放射基底関数(RBF)ユニットによって複数の分岐が形成されたCNNベースのアーキテクチャを提案する。 直感的には、これらのRBFユニットは、中間表現を使用して類似インスタンスが共有する局所パターンをキャプチャし、RBFの出力をソフトマックス層に供給し、この情報を利用してモデルの予測性能を向上させる。 この特徴は、文化と民族の違いが地域単位によって識別される可能性があるため、ERにおいて特に有利である。 提案手法を複数のERデータセットで評価し,事前学習したVGG-Faceモデルをバックボーンとして採用しても,提案手法が最先端を実現することを示す。 提案するモデルを競争力のあるものにするのは,地域情報の導入であることを示す。

Emotion recognition (ER) from facial images is one of the landmark tasks in affective computing with major developments in the last decade. Initial efforts on ER relied on handcrafted features that were used to characterize facial images and then feed to standard predictive models. Recent methodologies comprise end-to-end trainable deep learning methods that simultaneously learn both, features and predictive model. Perhaps the most successful models are based on convolutional neural networks (CNNs). While these models have excelled at this task, they still fail at capturing local patterns that could emerge in the learning process. We hypothesize these patterns could be captured by variants based on locally weighted learning. Specifically, in this paper we propose a CNN based architecture enhanced with multiple branches formed by radial basis function (RBF) units that aims at exploiting local information at the final stage of the learning process. Intuitively, these RBF units capture local patterns shared by similar instances using an intermediate representation, then the outputs of the RBFs are feed to a softmax layer that exploits this information to improve the predictive performance of the model. This feature could be particularly advantageous in ER as cultural / ethnicity differences may be identified by the local units. We evaluate the proposed method in several ER datasets and show the proposed methodology achieves state-of-the-art in some of them, even when we adopt a pre-trained VGG-Face model as backbone. We show it is the incorporation of local information what makes the proposed model competitive.
翻訳日:2021-09-09 13:49:49 公開日:2021-09-07
# Amazon SageMaker Clarify: クラウドにおける機械学習バイアスの検出と説明可能性

Amazon SageMaker Clarify: Machine Learning Bias Detection and Explainability in the Cloud ( http://arxiv.org/abs/2109.03285v1 )

ライセンス: Link先を確認
Michaela Hardt, Xiaoguang Chen, Xiaoyi Cheng, Michele Donini, Jason Gelman, Satish Gollaprolu, John He, Pedro Larroy, Xinyu Liu, Nick McCarthy, Ashish Rathi, Scott Rees, Ankit Siva, ErhYuan Tsai, Keerthan Vasist, Pinar Yilmaz, Muhammad Bilal Zafar, Sanjiv Das, Kevin Haas, Tyler Hill, Krishnaram Kenthapadi(参考訳) 機械学習(ml)モデルによる予測とその潜在的なバイアスを理解することは、アプリケーション、データセット、および特定のモデルに依存する困難で労働集約的なタスクである。 我々は、2020年12月にローンチしたamazon sagemakerの説明可能性機能であるamazon sagemaker clearを紹介し、バイアスを特定して予測を説明することにより、データとmlモデルに関する洞察を提供する。 完全にマネージドなサービスであるAmazon SageMakerに深く統合されており、データサイエンティストや開発者が任意のスケールでMLモデルを構築し、トレーニングし、デプロイすることができる。 mlライフサイクル全体、データ準備、モデル評価、デプロイ後の監視において、バイアス検出と機能の重要性の計算をサポートする。 本稿では,顧客入力から派生したデシデラタ,モジュールアーキテクチャ,バイアスおよび説明計算の方法論について概説する。 さらに、遭遇した技術的課題と、必要なトレードオフについても説明します。 実例では2つのユースケースについて論じる。 定性的な顧客フィードバックと定量的評価を含むデプロイメント結果を提示する。 最後に,学んだ教訓を要約し,フェアネスの導入を成功させるためのベストプラクティスと,実践上の説明ツールについて論じる。

Understanding the predictions made by machine learning (ML) models and their potential biases remains a challenging and labor-intensive task that depends on the application, the dataset, and the specific model. We present Amazon SageMaker Clarify, an explainability feature for Amazon SageMaker that launched in December 2020, providing insights into data and ML models by identifying biases and explaining predictions. It is deeply integrated into Amazon SageMaker, a fully managed service that enables data scientists and developers to build, train, and deploy ML models at any scale. Clarify supports bias detection and feature importance computation across the ML lifecycle, during data preparation, model evaluation, and post-deployment monitoring. We outline the desiderata derived from customer input, the modular architecture, and the methodology for bias and explanation computations. Further, we describe the technical challenges encountered and the tradeoffs we had to make. For illustration, we discuss two customer use cases. We present our deployment results including qualitative customer feedback and a quantitative evaluation. Finally, we summarize lessons learned, and discuss best practices for the successful adoption of fairness and explanation tools in practice.
翻訳日:2021-09-09 13:44:32 公開日:2021-09-07
# 分散コードグラフ表現によるディープラーニングによるソフトウェア脆弱性検出

Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation ( http://arxiv.org/abs/2109.03341v1 )

ライセンス: Link先を確認
Yufan Zhuang, Sahil Suneja, Veronika Thost, Giacomo Domeniconi, Alessandro Morari, Jim Laredo(参考訳) 脆弱性のあるコードを特定することは、ソフトウェアのセキュリティ侵害に対処するための予防措置である。 静的アナライザの構築には、厳格な専門家の努力が費やされている。 この研究は、コードコーパスから安全でないパターンを自動的に学習するディープラーニングアプローチを探求する。 コードは自然にグラフ構造を解析するので、予測性能を向上させるためにプログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(gnn)を開発した。 汎用的なGNNと比較して、プログラムのパースされたグラフから学習した複数の表現の合成や、ラベル付けの粒度を生かした新しいトレーニング損失メトリクスが含まれる。 我々のモデルは、実世界の2つのデータセットで、複数のテキスト、画像、グラフベースのアプローチより優れています。

Identifying vulnerable code is a precautionary measure to counter software security breaches. Tedious expert effort has been spent to build static analyzers, yet insecure patterns are barely fully enumerated. This work explores a deep learning approach to automatically learn the insecure patterns from code corpora. Because code naturally admits graph structures with parsing, we develop a novel graph neural network (GNN) to exploit both the semantic context and structural regularity of a program, in order to improve prediction performance. Compared with a generic GNN, our enhancements include a synthesis of multiple representations learned from the several parsed graphs of a program, and a new training loss metric that leverages the fine granularity of labeling. Our model outperforms multiple text, image and graph-based approaches, across two real-world datasets.
翻訳日:2021-09-09 13:40:53 公開日:2021-09-07
# 形式的概念解析を用いた2モードデータネットワークにおける流入ノードの同定

Identifying Influential Nodes in Two-mode Data Networks using Formal Concept Analysis ( http://arxiv.org/abs/2109.03372v1 )

ライセンス: Link先を確認
Mohamed-Hamza Ibrahim, Rokia Missaoui and Jean Vaillancourt(参考訳) 2モードネットワークで重要なアクター(あるいはノード)を特定することは、現実世界のネットワークを採掘、分析、解釈する上で重要な課題である。 従来の二部集中度指標は、ネットワーク情報フローに影響を与えるキーノードを認識するためにしばしば使用されるが、複雑な局所構造を持つ大規模ネットワークや、ネットワークトポロジと特定の特性に関する完全な知識の欠如といった複雑な状況において、しばしば悪い結果をもたらす。 本稿では,2モードネットワークにおける重要なノードを識別するバイパーティイト集中度測定手法であるBi-face (BF)を提案する。 形式的概念解析の強力な数学的フォーマリズムを用いて、BF測度は概念意図の顔を利用して、バイクリッド接続に影響を及ぼし、無関係な橋に存在しないノードを特定する。 オフ・ザ・シェルフ・セントラル性指標とは異なり、非インフルエンサー・ブリッジの欠如によってネットワーク・コア・ペリペラルな指標には存在しないにもかかわらず、ノードが隣接ノードに対してどのように凝集構造の影響があるかを定量化する。 実世界および合成ネットワークを用いた実験により,既存の2成分集中性指標である近接性,固有ベクトル,投票率に対するbfの有効性が示された。

Identifying important actors (or nodes) in a two-mode network often remains a crucial challenge in mining, analyzing, and interpreting real-world networks. While traditional bipartite centrality indices are often used to recognize key nodes that influence the network information flow, they frequently produce poor results in intricate situations such as massive networks with complex local structures or a lack of complete knowledge about the network topology and certain properties. In this paper, we introduce Bi-face (BF), a new bipartite centrality measurement for identifying important nodes in two-mode networks. Using the powerful mathematical formalism of Formal Concept Analysis, the BF measure exploits the faces of concept intents to identify nodes that have influential bicliques connectivity and are not located in irrelevant bridges. Unlike off-the shelf centrality indices, it quantifies how a node has a cohesive-substructur e influence on its neighbour nodes via bicliques while not being in network core-peripheral ones through its absence from non-influential bridges. Our experiments on several real-world and synthetic networks show the efficiency of BF over existing prominent bipartite centrality measures such as betweenness, closeness, eigenvector, and vote-rank among others.
翻訳日:2021-09-09 13:40:42 公開日:2021-09-07
# 深部エネルギーモデルを用いたMRI再構成

MRI Reconstruction Using Deep Energy-Based Model ( http://arxiv.org/abs/2109.03237v1 )

ライセンス: Link先を確認
Yu Guan, Zongjiang Tu, Shanshan Wang, Qiegen Liu, Yuhao Wang, Dong Liang(参考訳) 目的: 近年の深部エネルギーに基づく生成モデル (ebms) は, 画像生成課題の多くにおいて有意な結果を示しているが, 深部ebmsにおける自己相反共振を利用した磁気共鳴画像法 (mri) の再構成が望まれている。 方法: 広範囲にわたるMRI再構成におけるディープラーニングの応用が成功し, 生成モデルの空間における最適化に基づく再構築手法の定式化が本研究の成果である。 これを利用して,本論文では,深層エネルギーモデルにおける自己相反共振を利用した新しい正規化戦略を導入する。 より正確には、画像として表現される深いエネルギーに基づく情報を得るために、より強力なエネルギーベースモデルから、最大確率推定による代替学習を提唱する。 同時にランゲヴィン力学による暗黙の推論は再構成のユニークな性質である。 再構成のための他の生成モデルとは対照的に,提案手法では,再構成前の画像として深部エネルギー情報を用いて画像の品質を向上させる。 結果: 提案手法は, 最先端の手法と競合し, モード崩壊に苦しむことなく, 高い再現精度で優れた性能が得られることを示す実験結果を得た。 結論: アルゴリズム的には, EBMトレーニングをエネルギーネットワークの勾配で強化するための反復的アプローチが提示された。 アルゴリズムの堅牢性と再現性も実験的に検証された。 さらに重要なことは、ほとんどのMRI再構成シナリオに対して提案された再構成フレームワークを一般化することができることである。

Purpose: Although recent deep energy-based generative models (EBMs) have shown encouraging results in many image generation tasks, how to take advantage of the self-adversarial cogitation in deep EBMs to boost the performance of Magnetic Resonance Imaging (MRI) reconstruction is still desired. Methods: With the successful application of deep learning in a wide range of MRI reconstruction, a line of emerging research involves formulating an optimization-based reconstruction method in the space of a generative model. Leveraging this, a novel regularization strategy is introduced in this article which takes advantage of self-adversarial cogitation of the deep energy-based model. More precisely, we advocate for alternative learning a more powerful energy-based model with maximum likelihood estimation to obtain the deep energy-based information, represented as image prior. Simultaneously, implicit inference with Langevin dynamics is a unique property of re-construction. In contrast to other generative models for reconstruction, the proposed method utilizes deep energy-based information as the image prior in reconstruction to improve the quality of image. Results: Experiment results that imply the proposed technique can obtain remarkable performance in terms of high reconstruction accuracy that is competitive with state-of-the-art methods, and does not suffer from mode collapse. Conclusion: Algorithmically, an iterative approach was presented to strengthen EBM training with the gradient of energy network. The robustness and the reproducibility of the algorithm were also experimentally validated. More importantly, the proposed reconstruction framework can be generalized for most MRI reconstruction scenarios.
翻訳日:2021-09-09 13:39:26 公開日:2021-09-07
# デジタル病理における視野拡張を用いた自己教師付き表現学習

Self-Supervised Representation Learning using Visual Field Expansion on Digital Pathology ( http://arxiv.org/abs/2109.03299v1 )

ライセンス: Link先を確認
Joseph Boyd, Mykola Liashuha, Eric Deutsch, Nikos Paragios, Stergios Christodoulidis, Maria Vakalopoulou(参考訳) 病理組織像の検査は、がん患者の診断と成層化のための金の基準と考えられている。 このような画像の分析における重要な課題は、その大きさであり、ギガピクセルに収まることができ、臨床医による退屈なスクリーニングを必要とする。 近年の計算医学の進歩により,臨床医の日常的実践を支援する自動ツールが提案されている。 このようなツールは通常、これらの大きな画像をタイルにスライスして処理し、それをエンコードして異なる臨床モデルに利用する。 本研究では,このようなタイルの強力な表現を学習し,視界を確実に拡張する新しい生成フレームワークを提案する。 特に,視野拡大を目的とした,段階的に成長する生成モデルを開発した。 このようにトレーニングされたモデルでは,異なる組織タイプを細部で生成すると同時に,異なる臨床エンドポイントに使用可能な強力な表現を,すべて自己管理的に学習する。 CAMELYON17およびCRCベンチマークデータセットの分類実験を行い、デジタル病理学で一般的に用いられている他の自己監督型・事前訓練型戦略と比較した。 私たちのコードはhttps://github.com/j cboyd/cdpath21-ganで利用可能です。

The examination of histopathology images is considered to be the gold standard for the diagnosis and stratification of cancer patients. A key challenge in the analysis of such images is their size, which can run into the gigapixels and can require tedious screening by clinicians. With the recent advances in computational medicine, automatic tools have been proposed to assist clinicians in their everyday practice. Such tools typically process these large images by slicing them into tiles that can then be encoded and utilized for different clinical models. In this study, we propose a novel generative framework that can learn powerful representations for such tiles by learning to plausibly expand their visual field. In particular, we developed a progressively grown generative model with the objective of visual field expansion. Thus trained, our model learns to generate different tissue types with fine details, while simultaneously learning powerful representations that can be used for different clinical endpoints, all in a self-supervised way. To evaluate the performance of our model, we conducted classification experiments on CAMELYON17 and CRC benchmark datasets, comparing favorably to other self-supervised and pre-trained strategies that are commonly used in digital pathology. Our code is available at https://github.com/j cboyd/cdpath21-gan.
翻訳日:2021-09-09 13:39:00 公開日:2021-09-07
# ニューラルネットワークによる視覚オブジェクトのキャプチャ

Capturing the objects of vision with neural networks ( http://arxiv.org/abs/2109.03351v1 )

ライセンス: Link先を確認
Benjamin Peters, Nikolaus Kriegeskorte(参考訳) 人間の視覚知覚は、その物理的関節でシーンを彫り、世界を選択的に出席し、追跡し、周囲の環境に関わりながら予測する物体に分解する。 物体表現は感覚入力から知覚を推定し,視覚的でないものを念頭に置き,行動や象徴的認知の基礎として知覚的コンテンツを使用する。 人間の行動研究は、グルーピング、アモーダルコンプリート、プロトオブジェクト、およびオブジェクトファイルを通じてオブジェクト表現がどのように出現するかを文書化している。 対照的に、視覚的物体認識のディープニューラルネットワーク(DNN)モデルは、オブジェクトのラベル付けにおいて人間レベルのパフォーマンスを達成したにもかかわらず、感覚入力と大きく結びついている。 本稿では,両分野の関連研究を概観し,これらの分野が相互にどのように役立つかを検討する。 認知文学は、人間の物体知覚のメカニズムを明らかにし、物体を物体認識に組み込むディープニューラルネットワークモデルの開発を促進するベンチマークとして機能する新しい実験タスクの開発の出発点を提供する。

Human visual perception carves a scene at its physical joints, decomposing the world into objects, which are selectively attended, tracked, and predicted as we engage our surroundings. Object representations emancipate perception from the sensory input, enabling us to keep in mind that which is out of sight and to use perceptual content as a basis for action and symbolic cognition. Human behavioral studies have documented how object representations emerge through grouping, amodal completion, proto-objects, and object files. Deep neural network (DNN) models of visual object recognition, by contrast, remain largely tethered to the sensory input, despite achieving human-level performance at labeling objects. Here, we review related work in both fields and examine how these fields can help each other. The cognitive literature provides a starting point for the development of new experimental tasks that reveal mechanisms of human object perception and serve as benchmarks driving development of deep neural network models that will put the object into object recognition.
翻訳日:2021-09-09 13:38:42 公開日:2021-09-07
# 意思決定を中断し、MARSをとる:多値アクション推論システム

Have a break from making decisions, have a MARS: The Multi-valued Action Reasoning System ( http://arxiv.org/abs/2109.03283v1 )

ライセンス: Link先を確認
Cosmin Badea(参考訳) 多値行動推論システム(英: Multi-valued Action Reasoning System、MARS)は、AIのための価値に基づく倫理的意思決定モデルである。 利用可能な一連の行動と基礎となる道徳的パラダイムが与えられると、火星を採用することで倫理的に望ましい行動を特定することができる。 異なる倫理理論、異なる道徳パラダイム、そしてそのような組み合わせを、自動化された実践的推論と規範的決定分析の文脈で実装しモデル化するのに使うことができる。 道徳的ジレンマをモデル化し、望まれる結果をもたらす道徳的パラダイムを発見するためにも使用できる。 本稿では,MARSの凝縮した説明を行い,その使用法を説明し,既存の文献に比較検討する。

The Multi-valued Action Reasoning System (MARS) is an automated value-based ethical decision-making model for artificial agents (AI). Given a set of available actions and an underlying moral paradigm, by employing MARS one can identify the ethically preferred action. It can be used to implement and model different ethical theories, different moral paradigms, as well as combinations of such, in the context of automated practical reasoning and normative decision analysis. It can also be used to model moral dilemmas and discover the moral paradigms that result in the desired outcomes therein. In this paper, we give a condensed description of MARS, explain its uses, and comparatively place it in the existing literature.
翻訳日:2021-09-09 13:35:35 公開日:2021-09-07
# 星を越えたフェデレーション学習:グローバルクラスタサンプリングによるローカルD2Dモデル合意

Federated Learning Beyond the Star: Local D2D Model Consensus with Global Cluster Sampling ( http://arxiv.org/abs/2109.03350v1 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Sheikh Shams Azam, Christopher G. Brinton, and Nicol\`o Michelusi(参考訳) フェデレートラーニングは、ネットワークエッジにモデルトレーニングを分散する一般的なテクニックとして登場した。 その学習アーキテクチャは、通常、デバイスと中央サーバーの間の星のトポロジーである。 本稿では,デバイス間通信(d2d)を介して,より分散したトポロジへ移行する2つの時間スケールハイブリッド連合学習(tt-hf)を提案する。 tt-hfでは、連続する勾配反復によってデバイスで局所モデルトレーニングが行われ、同期処理は2つのタイムスケールで行われる: (i) グローバルアグリゲーションがデバイスサーバ間インタラクションによって実行されるマクロスケール、 (ii) マイクロスケールでは、異なるデバイスクラスタでd2d協調コンセンサス形成を介して局所アグリゲーションが行われる。 理論解析により,デバイス,クラスタ,ネットワークレベルのパラメータがTT-HFの収束にどのように影響するかが明らかとなり,O(1/t)の収束率が保証される条件の集合が導かれる。 実験結果は,tt-hfが最先端のフェデレート学習ベースラインに対して得られる収束と利用の改善を示す。

Federated learning has emerged as a popular technique for distributing model training across the network edge. Its learning architecture is conventionally a star topology between the devices and a central server. In this paper, we propose two timescale hybrid federated learning (TT-HF), which migrates to a more distributed topology via device-to-device (D2D) communications. In TT-HF, local model training occurs at devices via successive gradient iterations, and the synchronization process occurs at two timescales: (i) macro-scale, where global aggregations are carried out via device-server interactions, and (ii) micro-scale, where local aggregations are carried out via D2D cooperative consensus formation in different device clusters. Our theoretical analysis reveals how device, cluster, and network-level parameters affect the convergence of TT-HF, and leads to a set of conditions under which a convergence rate of O(1/t) is guaranteed. Experimental results demonstrate the improvements in convergence and utilization that can be obtained by TT-HF over state-of-the-art federated learning baselines.
翻訳日:2021-09-09 13:34:41 公開日:2021-09-07
# hciにおける前方および逆モデル:3d指ポーズ推定のための物理シミュレーションとディープラーニング

Forward and Inverse models in HCI:Physical simulation and deep learning for inferring 3D finger pose ( http://arxiv.org/abs/2109.03366v1 )

ライセンス: Link先を確認
Roderick Murray-Smith, John H. Williamson, Andrew Ramsay, Francesco Tonolini, Simon Rogers, Antoine Loriette(参考訳) 人-コンピュータインタラクションシステムの設計における前方・逆モデリング手法の役割について概説する。 因果的フォワードモデルは指定やシミュレートが容易であるが、HCIは逆問題の解を必要とする。 我々は3D位置を$(x,y,z)$で推定し、画面上5cmまでの指を感知できる容量センサーを使って、モバイルデバイスでポーズ(ピッチとヨー)を行う。 1. ロボットによるデータ, 2. 静電シミュレータによるデータ, 3. 人間が生成したデータに基づいて,位置,ポーズ,センサの読み込みを推測するデータ駆動モデルを開発する。 機械学習エミュレーションは、静電シミュレーションの性能を数百万倍に加速するために用いられる。 条件付き変分オートエンコーダとドメインの専門知識/モデルを実験的に収集したデータを組み合わせる。 指のポーズの直接推定における前方モデルと逆モデルの比較を行った。 この組み合わせは、モバイルデバイス上の静電容量センサーで3d位置とポーズを推測する最も正確な結果を与える。

We outline the role of forward and inverse modelling approaches in the design of human--computer interaction systems. Causal, forward models tend to be easier to specify and simulate, but HCI requires solutions of the inverse problem. We infer finger 3D position $(x,y,z)$ and pose (pitch and yaw) on a mobile device using capacitive sensors which can sense the finger up to 5cm above the screen. We use machine learning to develop data-driven models to infer position, pose and sensor readings, based on training data from: 1. data generated by robots, 2. data from electrostatic simulators 3. human-generated data. Machine learned emulation is used to accelerate the electrostatic simulation performance by a factor of millions. We combine a Conditional Variational Autoencoder with domain expertise/models experimentally collected data. We compare forward and inverse model approaches to direct inference of finger pose. The combination gives the most accurate reported results on inferring 3D position and pose with a capacitive sensor on a mobile device.
翻訳日:2021-09-09 13:34:19 公開日:2021-09-07
# (参考訳) 言語間情報検索における単語レベルの知識を活用した混合注意トランスフォーマ [全文訳有]

Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural Cross-Lingual Information Retrieval ( http://arxiv.org/abs/2109.02789v1 )

ライセンス: CC BY 4.0
Zhiqi Huang, Hamed Bonab, Sheikh Muhammad Sarwar, Razieh Rahimi, and James Allan(参考訳) 事前制約された文脈化表現は、文書ランキングを含む多くの下流タスクで大きな成功を収めます。 このような事前学習された表現の多言語バージョンは、同じモデルで複数の言語を共同学習する可能性を提供する。 このようなジョイントトレーニングで大きく向上することが期待されているが、クロスリンガル情報検索(CLIR)の場合、多言語設定のモデルはモノリンガル設定のモデルと同等の性能を達成できない。 パフォーマンス低下はクエリとドキュメント間の翻訳ギャップによるものだと仮定した。 モノリンガル検索タスクでは、同じ語彙入力のため、文書内で発生したクエリ項をモデルで識別することがより容易である。 しかし、異なる言語の単語が同じハイパースペースに投影される多言語事前訓練モデルでは、このモデルは、クエリ項を類似した文脈に現れる用語や、ターゲット言語の同義語に加えて、場合によっては、関連する用語に変換する傾向にある。 この特性は、クエリとドキュメントの両方で共起する用語をモデルが接続することが困難になっている。 この問題に対処するために,辞書や翻訳表などの外部語レベルの知識を取り入れた新しいMAT(Mixed Attention Transformer)を提案する。 MATを最近のトランスフォーマーベースのディープニューラルモデルに組み込むために、サンドイッチのようなアーキテクチャを設計する。 翻訳知識を注目行列に符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語に集中することができる。 実験により,CLIRタスクにおける外部知識の有効性とMAT組み込みニューラルリグレードモデルの大幅な改善が示された。

Pretrained contextualized representations offer great success for many downstream tasks, including document ranking. The multilingual versions of such pretrained representations provide a possibility of jointly learning many languages with the same model. Although it is expected to gain big with such joint training, in the case of cross lingual information retrieval (CLIR), the models under a multilingual setting are not achieving the same level of performance as those under a monolingual setting. We hypothesize that the performance drop is due to the translation gap between query and documents. In the monolingual retrieval task, because of the same lexical inputs, it is easier for model to identify the query terms that occurred in documents. However, in the multilingual pretrained models that the words in different languages are projected into the same hyperspace, the model tends to translate query terms into related terms, i.e., terms that appear in a similar context, in addition to or sometimes rather than synonyms in the target language. This property is creating difficulties for the model to connect terms that cooccur in both query and document. To address this issue, we propose a novel Mixed Attention Transformer (MAT) that incorporates external word level knowledge, such as a dictionary or translation table. We design a sandwich like architecture to embed MAT into the recent transformer based deep neural models. By encoding the translation knowledge into an attention matrix, the model with MAT is able to focus on the mutually translated words in the input sequence. Experimental results demonstrate the effectiveness of the external knowledge and the significant improvement of MAT embedded neural reranking model on CLIR task.
翻訳日:2021-09-09 00:55:48 公開日:2021-09-07
# (参考訳) 検索や人間知識のないパズル解法:不自然な言語的アプローチ [全文訳有]

Puzzle Solving without Search or Human Knowledge: An Unnatural Language Approach ( http://arxiv.org/abs/2109.02797v1 )

ライセンス: CC BY 4.0
David Noever and Ryerson Burdick(参考訳) Generative Pre-trained Transformer (GPT-2) のテキスト構造化ゲーム表記学習への応用は、スパース報酬ゲームプレイを探索するためのモデル環境を提供する。 トランスフォーマーアーキテクチャは、maze、rubikのキューブ、sudokuソルバを記述した、解決されたテキストアーカイブのトレーニングに適している。 この方法は、トランスフォーマーアーキテクチャを微調整することで、人間のヒューリスティックやドメインの専門知識から派生した、もっともらしい戦略を視覚化する。 ゲームに対する大きな検索スペース(>10^{19}$)は、パズル環境を提供し、ソリューションには中間的な報酬がほとんどなく、最後の動きは課題を解決する。

The application of Generative Pre-trained Transformer (GPT-2) to learn text-archived game notation provides a model environment for exploring sparse reward gameplay. The transformer architecture proves amenable to training on solved text archives describing mazes, Rubik's Cube, and Sudoku solvers. The method benefits from fine-tuning the transformer architecture to visualize plausible strategies derived outside any guidance from human heuristics or domain expertise. The large search space ($>10^{19}$) for the games provides a puzzle environment in which the solution has few intermediate rewards and a final move that solves the challenge.
翻訳日:2021-09-09 00:37:00 公開日:2021-09-07
# (参考訳) ArGoT:arXivから抽出された用語の用語集 [全文訳有]

ArGoT: A Glossary of Terms extracted from the arXiv ( http://arxiv.org/abs/2109.02801v1 )

ライセンス: CC BY 4.0
Luis Berlioz (University of Pittsburgh)(参考訳) arxivのウェブサイトでホストされている論文から抽出された数学用語のデータセットであるargotを紹介する。 用語は、ある論文で定義された数学的概念である。 論文のソースコードと他の人気のある数学ウェブサイトの例を用いて、arXivデータに全ての用語をマイニングし、数学的用語の包括的な語彙をコンパイルする。 各用語は、その用語の定義とarXivのメタデータを使用して、依存グラフにまとめることができる。 双曲的単語埋め込みと標準単語埋め込みの両方を用いて、この構造がテキストのベクトル表現にどのように反映され、数学的概念における関係を捉えるかを示す。 このデータセットは、自然数理テキストを、公式に証明された文の既存の対話的定理 Prover Libraries (ITP) と整合させる取り組みの一環である。

We introduce ArGoT, a data set of mathematical terms extracted from the articles hosted on the arXiv website. A term is any mathematical concept defined in an article. Using labels in the article's source code and examples from other popular math websites, we mine all the terms in the arXiv data and compile a comprehensive vocabulary of mathematical terms. Each term can be then organized in a dependency graph by using the term's definitions and the arXiv's metadata. Using both hyperbolic and standard word embeddings, we demonstrate how this structure is reflected in the text's vector representation and how they capture relations of entailment in mathematical concepts. This data set is part of an ongoing effort to align natural mathematical text with existing Interactive Theorem Prover Libraries (ITPs) of formally verified statements.
翻訳日:2021-09-09 00:26:31 公開日:2021-09-07
# (参考訳) 教師なし関係推定のための深層協調多モード学習 [全文訳有]

Deep Collaborative Multi-Modal Learning for Unsupervised Kinship Estimation ( http://arxiv.org/abs/2109.02804v1 )

ライセンス: CC BY 4.0
Guan-Nan Dong, Chi-Man Pun, Zheng Zhang(参考訳) キンシップ検証はコンピュータビジョンにおける長年の研究課題である。 顔に呈示される視覚差は,キンシップシステムの認識能力に有意な影響を与えている。 我々は、複数の視覚的知識を集約することで、被験者の特徴をより正確に識別できると主張している。 通常、年齢不変の特徴はより自然な顔の詳細を表現することができる。 このような年齢関連変換は、老化の生物学的影響のために顔認識に必須である。 しかし,既存の手法では,特徴学習段階において,人種や年齢といったより意味のある視覚的特徴を直接無視するのに対して,特徴識別に単一視点画像特徴を用いることに重点を置いている。 そこで本研究では, 顔特性に表される基礎情報を適応的に統合し, 効果的な教師なし親和性検証のための顔の細部を強化するための, ディープ・コラボレーティブ・マルチモーダル・ラーニング(DCML)を提案する。 具体的には,異なる視覚視点から相補的特性を協調的に活用し,複合的特徴を創造し,空間的特徴マップの最も有意義な要素に注目する,よく設計された適応的特徴融合機構を構築する。 特に,チャネル内の情報冗長性を自己適応的に低減することにより,異なる特性間の依存性を高める新たな注意機構に基づいて,適応重み付け戦略を開発した。 提案手法の有効性を検証するために,広範に使用されている4つのデータセットを対象とした広範囲な実験評価を行った。

Kinship verification is a long-standing research challenge in computer vision. The visual differences presented to the face have a significant effect on the recognition capabilities of the kinship systems. We argue that aggregating multiple visual knowledge can better describe the characteristics of the subject for precise kinship identification. Typically, the age-invariant features can represent more natural facial details. Such age-related transformations are essential for face recognition due to the biological effects of aging. However, the existing methods mainly focus on employing the single-view image features for kinship identification, while more meaningful visual properties such as race and age are directly ignored in the feature learning step. To this end, we propose a novel deep collaborative multi-modal learning (DCML) to integrate the underlying information presented in facial properties in an adaptive manner to strengthen the facial details for effective unsupervised kinship verification. Specifically, we construct a well-designed adaptive feature fusion mechanism, which can jointly leverage the complementary properties from different visual perspectives to produce composite features and draw greater attention to the most informative components of spatial feature maps. Particularly, an adaptive weighting strategy is developed based on a novel attention mechanism, which can enhance the dependencies between different properties by decreasing the information redundancy in channels in a self-adaptive manner. To validate the effectiveness of the proposed method, extensive experimental evaluations conducted on four widely-used datasets show that our DCML method is always superior to some state-of-the-art kinship verification methods.
翻訳日:2021-09-09 00:17:03 公開日:2021-09-07
# (参考訳) ソフトウェア科学におけるシンボリック計算:私の見解 [全文訳有]

Symbolic Computation in Software Science: My Personal View ( http://arxiv.org/abs/2109.02806v1 )

ライセンス: CC BY 4.0
Bruno Buchberger (Research Institute for Symbolic Computation (RISC), Johannes Kepler University, Linz / Schloss Hagenberg, Austria)(参考訳) 本稿では,ソフトウェア科学におけるシンボリック計算のスコープと妥当性について,個人的な見解を述べる。 そこで本稿では,記号計算,ソフトウェア科学,自動プログラミング,数学的知識管理,人工知能,アルゴリズム知能,数値計算,機械学習の相互作用と差異について論じる。 これらの概念の議論において、私は、これらの分野の早い段階でこれらの分野についての見解を述べた私の論文(1982年、1985年、2001年、2003年、2013年)にも言及することを許します。

In this note, I develop my personal view on the scope and relevance of symbolic computation in software science. For this, I discuss the interaction and differences between symbolic computation, software science, automatic programming, mathematical knowledge management, artificial intelligence, algorithmic intelligence, numerical computation, and machine learning. In the discussion of these notions, I allow myself to refer also to papers (1982, 1985, 2001, 2003, 2013) of mine in which I expressed my views on these areas at early stages of some of these fields.
翻訳日:2021-09-08 23:52:16 公開日:2021-09-07
# (参考訳) クロスジェネレーション機能インタラクション学習に基づくキンシップ検証 [全文訳有]

Kinship Verification Based on Cross-Generation Feature Interaction Learning ( http://arxiv.org/abs/2109.02809v1 )

ライセンス: CC BY 4.0
Guan-Nan Dong, Chi-Man Pun, Zheng Zhang(参考訳) 顔画像からの血縁検証は、多くの潜在的なコンピュータビジョンアプリケーションにおいて、新しいが困難な技術として認識されている。 本稿では,ロバストな親和性検証のための新しい世代間インタラクション学習(cfil)フレームワークを提案する。 特に,親と子の両方のイメージペアの特徴をコーポレートに抽出することで,世代間関係の特徴を探るため,効果的な協調重み付け戦略を構築した。 具体的には,親子をまとめて,局所的・非局所的特徴を抽出する。 距離によって類似度を測定する従来の作品とは異なり、内部補助重みとして類似度計算をディープcnnアーキテクチャに補うことで、全体と自然な特徴を学習する。 これらの類似度重みは、対応する単一点だけでなく、局所的特徴と非局所的特徴をこれらの2種類の距離測定を用いて計算する複数の関係点を掘削する。 重要なことは、類似性計算と特徴抽出を別々に行うのではなく、類似性学習と特徴抽出を一つの統合学習プロセスに統合することである。 局所的特徴と非局所的特徴から導出される統合表現は、画像に埋め込まれた情報的意味を包括的に表現し、画像ペアから豊富な相関知識を保持することができる。 広範囲な実験により提案モデルの有効性と優位性を示す。

Kinship verification from facial images has been recognized as an emerging yet challenging technique in many potential computer vision applications. In this paper, we propose a novel cross-generation feature interaction learning (CFIL) framework for robust kinship verification. Particularly, an effective collaborative weighting strategy is constructed to explore the characteristics of cross-generation relations by corporately extracting features of both parents and children image pairs. Specifically, we take parents and children as a whole to extract the expressive local and non-local features. Different from the traditional works measuring similarity by distance, we interpolate the similarity calculations as the interior auxiliary weights into the deep CNN architecture to learn the whole and natural features. These similarity weights not only involve corresponding single points but also excavate the multiple relationships cross points, where local and non-local features are calculated by using these two kinds of distance measurements. Importantly, instead of separately conducting similarity computation and feature extraction, we integrate similarity learning and feature extraction into one unified learning process. The integrated representations deduced from local and non-local features can comprehensively express the informative semantics embedded in images and preserve abundant correlation knowledge from image pairs. Extensive experiments demonstrate the efficiency and superiority of the proposed model compared to some state-of-the-art kinship verification methods.
翻訳日:2021-09-08 23:38:08 公開日:2021-09-07
# (参考訳) ロボット音声解釈:音声制御ロボットの視覚音声表現学習 [全文訳有]

Robot Sound Interpretation: Learning Visual-Audio Representations for Voice-Controlled Robots ( http://arxiv.org/abs/2109.02823v1 )

ライセンス: CC BY 4.0
Peixin Chang, Shuijing Liu, Katherine Driggs-Campbell(参考訳) 本稿では,音声制御ロボットのための新しいパイプラインを提案する。 これまでの仕事は、音と画像の明示的なラベルと、極端な報酬関数に依存している。 このようなアプローチは、人間の感覚運動の発達にはほとんど似ていないだけでなく、手作業による報酬や広範な人間の労働も必要である。 これらの問題に対処するために、画像と音声コマンドを最小限の監督で関連付ける表現を学習する。 この表現を用いて、強化学習を用いてロボットタスクを学習する本質的な報酬関数を生成する。 我々は,TurtleBot3,Kuka-IIW Aアーム,Kinova Gen3ロボットの3つのロボットプラットフォームに対して,コマンドワードを聴き,関連する対象を識別し,ターゲットに近づくための正確な制御を行う。 提案手法は, 様々な音響タイプやロボット作業において, 従来よりも優れていることを示す。 我々はシミュレータで学んだポリシーを現実世界のKinova Gen3に展開することに成功しました。

Inspired by sensorimotor theory, we propose a novel pipeline for voice-controlled robots. Previous work relies on explicit labels of sounds and images as well as extrinsic reward functions. Not only do such approaches have little resemblance to human sensorimotor development, but also require hand-tuning rewards and extensive human labor. To address these problems, we learn a representation that associates images and sound commands with minimal supervision. Using this representation, we generate an intrinsic reward function to learn robotic tasks with reinforcement learning. We demonstrate our approach on three robot platforms, a TurtleBot3, a Kuka-IIWA arm, and a Kinova Gen3 robot, which hear a command word, identify the associated target object, and perform precise control to approach the target. We show that our method outperforms previous work across various sound types and robotic tasks empirically. We successfully deploy the policy learned in simulator to a real-world Kinova Gen3.
翻訳日:2021-09-08 23:15:26 公開日:2021-09-07
# (参考訳) DNN重みのトロイの木信号

Trojan Signatures in DNN Weights ( http://arxiv.org/abs/2109.02836v1 )

ライセンス: CC BY 4.0
Greg Fields, Mohammad Samragh, Mojan Javaheripi, Farinaz Koushanfar, Tara Javidi(参考訳) 深層ニューラルネットワークはバックドアやトロイの木馬に弱いことが示されており、敵がトレーニング時にネットワークにトリガーを埋め込んだ場合、モデルはすべての標準入力を正しく分類するが、トリガーを含む任意の入力に対してターゲットの不正な分類を生成する。 本稿では、トレーニング/テストデータへのアクセスを必要とせず、高価な計算を含まず、トロイの木馬トリガーの性質を仮定しない、初の超軽量かつ高効率なトロイの木馬検出手法を提案する。 本手法は,ネットワークの最終線形層の重み解析に重点を置いている。 トロイの木馬ネットワークで頻繁に発生する重みのいくつかの特徴を実証的に示すが、良性ネットワークでは示さない。 特に、トロイの木馬の標的クラスに関連する重みの分布は、他のクラスに関連する重みと明確に区別可能であることを示す。 そこで本研究では,提案手法が,様々なアーキテクチャ,データセット,トリガタイプにまたがる最先端攻撃に対して有効であることを示す。

Deep neural networks have been shown to be vulnerable to backdoor, or trojan, attacks where an adversary has embedded a trigger in the network at training time such that the model correctly classifies all standard inputs, but generates a targeted, incorrect classification on any input which contains the trigger. In this paper, we present the first ultra light-weight and highly effective trojan detection method that does not require access to the training/test data, does not involve any expensive computations, and makes no assumptions on the nature of the trojan trigger. Our approach focuses on analysis of the weights of the final, linear layer of the network. We empirically demonstrate several characteristics of these weights that occur frequently in trojaned networks, but not in benign networks. In particular, we show that the distribution of the weights associated with the trojan target class is clearly distinguishable from the weights associated with other classes. Using this, we demonstrate the effectiveness of our proposed detection method against state-of-the-art attacks across a variety of architectures, datasets, and trigger types.
翻訳日:2021-09-08 22:57:37 公開日:2021-09-07
# (参考訳) CIM:Few-Shot分類のためのクラス関連マッピング [全文訳有]

CIM: Class-Irrelevant Mapping for Few-Shot Classification ( http://arxiv.org/abs/2109.02840v1 )

ライセンス: CC BY 4.0
Shuai Shao and Lei Xing and Yixin Chen and Yan-Jiang Wang and Bao-Di Liu and Yicong Zhou(参考訳) FSC(Few-shot Classification)は近年のホットな問題の一つである。 一般的な設定は、(1)基本データを持つ特徴抽出モデル(fem)を事前学習する(大量のラベル付きサンプルを持つ)。 2) FEMを用いて新しいデータの特徴を抽出し(ラベル付きサンプルがほとんどなく,基本データとは全く異なるカテゴリ),それらを分類する。 事前学習されたFEMの新規データへの適応性は、新しい特徴の精度を決定し、最終的な分類性能に影響を与える。 この目的のために、事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。 従来のクラスアクティベートマッピング(CAM)ベースのメソッドは、重み付けされたフィーチャーマップをオーバーレイすることでこれを実現できるようです。 しかし、FSCの特異性(例えば、事前訓練されたFEMを使って新しい特徴を抽出する際のバックプロパゲーションがない)のため、新しいクラスで特徴マップを活性化することはできない。 この課題に対処するため,クラス関連マッピング(CIM)と呼ばれるシンプルで柔軟な手法を提案する。 具体的には,まず辞書学習理論を導入し,特徴地図のチャネルを辞書のベースとして見る。 次に,特徴マップを用いて画像の特徴ベクトルを適合させ,対応するチャネル重み付けを実現する。 最後に,重み付き特徴マップを重ね合わせて可視化し,新しいデータに対して事前学習したfemの能力を評価する。 異なるモデルの評価におけるCIMの公正な利用のために,FLA(Feature Localization Accuracy)と呼ばれる新しい測定指標を提案する。 実験では、まずCIMとCAMを通常のタスクで比較し、優れた性能を達成する。 次に、CIMを用いて、分類結果を考慮せずにいくつかの古典的FSCフレームワークを評価し、議論する。

Few-shot classification (FSC) is one of the most concerned hot issues in recent years. The general setting consists of two phases: (1) Pre-train a feature extraction model (FEM) with base data (has large amounts of labeled samples). (2) Use the FEM to extract the features of novel data (with few labeled samples and totally different categories from base data), then classify them with the to-be-designed classifier. The adaptability of pre-trained FEM to novel data determines the accuracy of novel features, thereby affecting the final classification performances. To this end, how to appraise the pre-trained FEM is the most crucial focus in the FSC community. It sounds like traditional Class Activate Mapping (CAM) based methods can achieve this by overlaying weighted feature maps. However, due to the particularity of FSC (e.g., there is no backpropagation when using the pre-trained FEM to extract novel features), we cannot activate the feature map with the novel classes. To address this challenge, we propose a simple, flexible method, dubbed as Class-Irrelevant Mapping (CIM). Specifically, first, we introduce dictionary learning theory and view the channels of the feature map as the bases in a dictionary. Then we utilize the feature map to fit the feature vector of an image to achieve the corresponding channel weights. Finally, we overlap the weighted feature map for visualization to appraise the ability of pre-trained FEM on novel data. For fair use of CIM in evaluating different models, we propose a new measurement index, called Feature Localization Accuracy (FLA). In experiments, we first compare our CIM with CAM in regular tasks and achieve outstanding performances. Next, we use our CIM to appraise several classical FSC frameworks without considering the classification results and discuss them.
翻訳日:2021-09-08 22:56:39 公開日:2021-09-07
# (参考訳) Datasets: 自然言語処理のためのコミュニティライブラリ [全文訳有]

Datasets: A Community Library for Natural Language Processing ( http://arxiv.org/abs/2109.02846v1 )

ライセンス: CC BY 4.0
Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame, Julien Plu, Lewis Tunstall, Joe Davison, Mario \v{S}a\v{s}ko, Gunjan Chhablani, Bhavitvya Malik, Simon Brandeis, Teven Le Scao, Victor Sanh, Canwen Xu, Nicolas Patry, Angelina McMillan-Major, Philipp Schmid, Sylvain Gugger, Cl\'ement Delangue, Th\'eo Matussi\`ere, Lysandre Debut, Stas Bekman, Pierric Cistac, Thibault Goehringer, Victor Mustar, Fran\c{c}ois Lagunas, Alexander M. Rush, and Thomas Wolf(参考訳) 研究者が新しいタスク、より大きなモデル、新しいベンチマークを提案するにつれ、公開可能なNLPデータセットの規模、多様性、量が急速に増加している。 Datasetsは、このエコシステムをサポートするように設計された、現代のNLPのためのコミュニティライブラリである。 Datasetsは、エンドユーザインターフェース、バージョニング、ドキュメントの標準化を目標とし、インターネット規模のコーパスと同じように小さなデータセットで同じように動作する軽量なフロントエンドを提供する。 ライブラリの設計には、データセットの追加とドキュメント利用のための分散コミュニティ主導のアプローチが含まれている。 1年の開発を経て、このライブラリには650以上のユニークなデータセットが含まれ、250以上のコントリビュータがいて、新しいクロスデータセット研究プロジェクトや共有タスクのサポートを支援している。 このライブラリはhttps://github.com/h uggingface/datasetsで入手できる。

The scale, variety, and quantity of publicly-available NLP datasets has grown rapidly as researchers propose new tasks, larger models, and novel benchmarks. Datasets is a community library for contemporary NLP designed to support this ecosystem. Datasets aims to standardize end-user interfaces, versioning, and documentation, while providing a lightweight front-end that behaves similarly for small datasets as for internet-scale corpora. The design of the library incorporates a distributed, community-driven approach to adding datasets and documenting usage. After a year of development, the library now includes more than 650 unique datasets, has more than 250 contributors, and has helped support a variety of novel cross-dataset research projects and shared tasks. The library is available at https://github.com/h uggingface/datasets.
翻訳日:2021-09-08 22:43:28 公開日:2021-09-07
# (参考訳) ニュース画像のキャプションに注意するジャーナリズムガイドライン [全文訳有]

Journalistic Guidelines Aware News Image Captioning ( http://arxiv.org/abs/2109.02865v1 )

ライセンス: CC0 1.0
Xuewen Yang, Svebor Karaman, Joel Tetreault, Alex Jaimes(参考訳) ニュース記事画像キャプションの課題は、ニュース記事画像の記述的および情報的キャプションの作成である。 一般的な言葉で画像の内容を記述する従来の画像キャプションとは異なり、ニュース画像キャプションはジャーナリストのガイドラインに従い、画像コンテンツを記述するために名前付きエンティティに強く依存し、しばしば関連する記事全体からコンテキストを描く。 本研究は,ジャーナリストが従うキャプションガイドラインに動機づけられた,この課題に対する新たなアプローチを提案する。 我々のアプローチは,ニュース画像キャプション(joganic)を認識し,キャプションの構造を活用して生成品質を改善し,表現デザインを導く。 2つの大規模公開データセットに関する詳細なアブレーション研究を含む実験結果は、JoGANICがキャプション生成と名前付きエンティティ関連メトリクスの両方で最先端の手法を大幅に上回っていることを示している。

The task of news article image captioning aims to generate descriptive and informative captions for news article images. Unlike conventional image captions that simply describe the content of the image in general terms, news image captions follow journalistic guidelines and rely heavily on named entities to describe the image content, often drawing context from the whole article they are associated with. In this work, we propose a new approach to this task, motivated by caption guidelines that journalists follow. Our approach, Journalistic Guidelines Aware News Image Captioning (JoGANIC), leverages the structure of captions to improve the generation quality and guide our representation design. Experimental results, including detailed ablation studies, on two large-scale publicly available datasets show that JoGANIC substantially outperforms state-of-the-art methods both on caption generation and named entity related metrics.
翻訳日:2021-09-08 22:29:40 公開日:2021-09-07
# (参考訳) DFAによる正規表現とニューラルネットワークの統合 [全文訳有]

Integrating Regular Expressions with Neural Networks via DFA ( http://arxiv.org/abs/2109.02882v1 )

ライセンス: CC BY 4.0
Shaobo Li, Qun Liu, Xin Jiang, Yichun Yin, Chengjie Sun, Bingquan Liu, Zhenzhou Ji, Lifeng Shang(参考訳) 人間設計のルールは、業界アプリケーションを構築するために広く使われている。 しかし、何千もの手作りのルールを維持することは不可能である。 したがって、より優れたパフォーマンスを実現するハイブリッドモデルを構築するために、ルール知識をニューラルネットワークに統合することが非常に重要です。 具体的には、人間によって設計された規則を正規表現(REs)として定式化し、そこから等価な最小決定性有限オートマトン(MDFA)を構築する。 本稿では、MDFAを中間モデルとして、一致したREパターンを各入力文のルールベースの特徴として捉え、これらの追加機能をニューラルネットワークに導入することを提案する。 提案手法をATIS意図分類タスクで評価する。 実験の結果,学習データセットが比較的小さい場合,ニューラルネットワークやresとニューラルネットワークを組み合わせた他の4つの手法と比較して,提案手法が最適な性能を発揮することがわかった。

Human-designed rules are widely used to build industry applications. However, it is infeasible to maintain thousands of such hand-crafted rules. So it is very important to integrate the rule knowledge into neural networks to build a hybrid model that achieves better performance. Specifically, the human-designed rules are formulated as Regular Expressions (REs), from which the equivalent Minimal Deterministic Finite Automatons (MDFAs) are constructed. We propose to use the MDFA as an intermediate model to capture the matched RE patterns as rule-based features for each input sentence and introduce these additional features into neural networks. We evaluate the proposed method on the ATIS intent classification task. The experiment results show that the proposed method achieves the best performance compared to neural networks and four other methods that combine REs and neural networks when the training dataset is relatively small.
翻訳日:2021-09-08 22:26:19 公開日:2021-09-07
# (参考訳) オントロジーによるブロックチェーン: \ONT{} (Extended Version)におけるEthereum ERC721標準のケーススタディ [全文訳有]

Blockchains through ontologies: the case study of the Ethereum ERC721 standard in \ONT{} (Extended Version) ( http://arxiv.org/abs/2109.02899v1 )

ライセンス: CC BY 4.0
Giampaolo Bella, Domenico Cantone, Cristiano Longo, Marianna Nicolosi-Asmundo, Daniele Francesco Santamaria(参考訳) ブロックチェーンは、特にトークンと呼ばれるブロックチェーンで保護されたデジタル証明書を通じて資産を取引する分野において、業界や人々が興味を持ち、勢いを増している。 その結果、ブロックチェーン上で実行されるアクティビティについて明確な曖昧さのない説明を提供することが重要になってきており、少なくともトレーディングでは、その記述を達成するための緊急性を感じています。 本稿では,ブロックチェーン上に格納されたスマートコントラクトをソフトウェアエージェントとして意味表現する一般的な手段として,‘emph{Ontology for Agents, Systems, and Integration of Services}’("\ONT{}")を利用する方法について報告する。 ERC721標準による管理をケーススタディとして提示したNFT(Non-fungible tokens)に特に注意が払われる。

Blockchains are gaining momentum due to the interest of industries and people in \emph{decentralized applications} (Dapps), particularly in those for trading assets through digital certificates secured on blockchain, called tokens. As a consequence, providing a clear unambiguous description of any activities carried out on blockchains has become crucial, and we feel the urgency to achieve that description at least for trading. This paper reports on how to leverage the \emph{Ontology for Agents, Systems, and Integration of Services} ("\ONT{}") as a general means for the semantic representation of smart contracts stored on blockchain as software agents. Special attention is paid to non-fungible tokens (NFTs), whose management through the ERC721 standard is presented as a case study.
翻訳日:2021-09-08 22:19:57 公開日:2021-09-07
# (参考訳) indicbart: indic languageの自然言語生成のための事前学習モデル [全文訳有]

IndicBART: A Pre-trained Model for Natural Language Generation of Indic Languages ( http://arxiv.org/abs/2109.02903v1 )

ライセンス: CC BY-SA 4.0
Raj Dabre and Himani Shrotriya and Anoop Kunchukuttan and Ratish Puduppully and Mitesh M. Khapra and Pratyush Kumar(参考訳) 本稿では,11の言語と英語に注目した多言語・シーケンス・ツー・シーケンス事前学習モデルindicbartを提案する。 既存の事前学習モデルとは異なり、IndicBARTはIndicスクリプト間の正書法的な類似性を利用して、類似したIndic言語間の転写学習を改善する。 IndicBARTをニューラルネットワーク変換(NMT)と極端な要約という2つのNLGタスクで評価する。 IndicBARTはmBART50よりはるかに少ないパラメータを含むにもかかわらず,12言語対のNMTと,多言語微調整を用いた7言語に対する極端な要約実験により,mBART50と競合するか否かが示された。 分析では,スクリプトの統一(デバナガリへの),コーパスサイズ,多言語化が最終的なパフォーマンスに与える影響について検討した。 IndicBARTモデルはMITライセンスでhttps://indicnlp.ai4 bharat.org/indic-bar tで利用可能である。

In this paper we present IndicBART, a multilingual, sequence-to-sequence pre-trained model focusing on 11 Indic languages and English. Different from existing pre-trained models, IndicBART utilizes the orthographic similarity between Indic scripts to improve transfer learning between similar Indic languages. We evaluate IndicBART on two NLG tasks: Neural Machine Translation (NMT) and extreme summarization. Our experiments on NMT for 12 language pairs and extreme summarization for 7 languages using multilingual fine-tuning show that IndicBART is competitive with or better than mBART50 despite containing significantly fewer parameters. Our analyses focus on identifying the impact of script unification (to Devanagari), corpora size as well as multilingualism on the final performance. The IndicBART model is available under the MIT license at https://indicnlp.ai4 bharat.org/indic-bar t .
翻訳日:2021-09-08 22:09:03 公開日:2021-09-07
# (参考訳) マルチホップ科学質問応答における推論連鎖の活用 [全文訳有]

Exploiting Reasoning Chains for Multi-hop Science Question Answering ( http://arxiv.org/abs/2109.02905v1 )

ライセンス: CC BY 4.0
Weiwen Xu, Yang Deng, Huihui Zhang, Deng Cai and Wai Lam(参考訳) 本稿では,マルチホップ理科質問応答のための推論チェーンをモデル化する新しいチェインガイドレトリバー・リーダー({\tt CGR})フレームワークを提案する。 我々のフレームワークは、接地推論チェーンや人間の注釈付きエンティティ参照など、コーパス固有のアノテーションを必要とせずに説明可能な推論を行うことができる。 具体的には,検索された証拠の抽象的意味表現によって構築された意味グラフから推論チェインを生成する。 局所的および大域的連鎖情報に関する \textit{chain-aware loss} は、生成された連鎖がレトリバーを訓練するための遠隔監督信号として機能するように設計されており、強化学習は推論連鎖の有用性を最大化するためにも採用されている。 このフレームワークは,2つの難しいマルチホップ理科QAタスク,すなわち OpenBookQA と ARC-Challenge に有効であるだけでなく,説明可能性も好んでいる。

We propose a novel Chain Guided Retriever-reader ({\tt CGR}) framework to model the reasoning chain for multi-hop Science Question Answering. Our framework is capable of performing explainable reasoning without the need of any corpus-specific annotations, such as the ground-truth reasoning chain, or human-annotated entity mentions. Specifically, we first generate reasoning chains from a semantic graph constructed by Abstract Meaning Representation of retrieved evidence facts. A \textit{Chain-aware loss}, concerning both local and global chain information, is also designed to enable the generated chains to serve as distant supervision signals for training the retriever, where reinforcement learning is also adopted to maximize the utility of the reasoning chains. Our framework allows the retriever to capture step-by-step clues of the entire reasoning process, which is not only shown to be effective on two challenging multi-hop Science QA tasks, namely OpenBookQA and ARC-Challenge, but also favors explainability.
翻訳日:2021-09-08 21:52:36 公開日:2021-09-07
# (参考訳) BioNetExplorer:ウェアラブル向けバイオシグナル処理ディープニューラルネットワークのアーキテクチャ空間探索 [全文訳有]

BioNetExplorer: Architecture-Space Exploration of Bio-Signal Processing Deep Neural Networks for Wearables ( http://arxiv.org/abs/2109.02909v1 )

ライセンス: CC BY 4.0
Bharath Srinivas Prabakaran, Asima Akhtar, Semeen Rehman, Osman Hasan, Muhammad Shafique(参考訳) 本研究では,ウェアラブルにおける生体信号処理のための複数のDNNアーキテクチャを体系的に生成し,探索するBioNetExplorerフレームワークを提案する。 我々のフレームワークは、ハードウェアオーバーヘッドの少ない組み込みDNNを探すために、重要なニューラルネットワークパラメータを適用し、ウェアラブルエッジデバイスに展開して生体信号データを分析し、不整脈や発作などの関連情報を抽出することができる。 また,ユーザの要求やハードウェア制約(ストレージ,FLOPなど)を考慮し,遺伝的アルゴリズムを用いたハードウェア対応のDNNアーキテクチャ検索を可能にする。 探索段階では、探索するネットワークの数を制限した。 さらに、BioNetExplorerは、ユーザーが要求する出力クラスに基づいてDNNを検索するためにも使用できる。 遺伝的アルゴリズムを用いることで、徹底的な探索に比べて平均して9倍の探索時間が短縮される。 我々は,DNNのストレージオーバーヘッドを約30MB削減し,品質損失が0.5%未満であるパレート最適設計の同定に成功した。 低コストの組み込みDNNを実現するため、BioNetExplorerは異なるモデル圧縮技術を使用して、ネットワークのストレージオーバーヘッドを最大53倍減らし、品質損失が0.2%になる。

In this work, we propose the BioNetExplorer framework to systematically generate and explore multiple DNN architectures for bio-signal processing in wearables. Our framework adapts key neural architecture parameters to search for an embedded DNN with a low hardware overhead, which can be deployed in wearable edge devices to analyse the bio-signal data and to extract the relevant information, such as arrhythmia and seizure. Our framework also enables hardware-aware DNN architecture search using genetic algorithms by imposing user requirements and hardware constraints (storage, FLOPs, etc.) during the exploration stage, thereby limiting the number of networks explored. Moreover, BioNetExplorer can also be used to search for DNNs based on the user-required output classes; for instance, a user might require a specific output class due to genetic predisposition or a pre-existing heart condition. The use of genetic algorithms reduces the exploration time, on average, by 9x, compared to exhaustive exploration. We are successful in identifying Pareto-optimal designs, which can reduce the storage overhead of the DNN by ~30MB for a quality loss of less than 0.5%. To enable low-cost embedded DNNs, BioNetExplorer also employs different model compression techniques to further reduce the storage overhead of the network by up to 53x for a quality loss of <0.2%.
翻訳日:2021-09-08 21:34:36 公開日:2021-09-07
# (参考訳) fishr: 分散一般化のための不変勾配分散

Fishr: Invariant Gradient Variances for Out-of-distribution Generalization ( http://arxiv.org/abs/2109.02934v1 )

ライセンス: CC BY 4.0
Alexandre Rame, Corentin Dancette, Matthieu Cord(参考訳) 実世界のアプリケーションでは、データ分散の変化によってよく一般化されるロバストなモデルを学習することが重要です。 この目的のために、複数のトレーニングドメインから同時に学ぶことへの関心が高まっています。 しかし、既存のアプローチはすべて、公正な評価プロトコルの下で体系的な利点を示さない。 本稿では,損失関数の勾配空間における領域不変性(domain invariance)を強制する新しい学習手法を提案する。 批判的に、我々の戦略であるfishrは、フィッシャー情報と損失のヘシアンと密接な関係を示している。 学習手順中にドメインレベルの勾配の共分散を強制すると、最終的にドメインレベルの損失のランドスケープが最終重みの周りで局所的に整列することを示す。 大規模な実験は、分布外一般化におけるフィッシャーの有効性を示す。 特に、FishrはDomainBedベンチマークのテクニックの状態を改善し、経験的リスク最小化よりも大幅にパフォーマンスが向上する。 コードはhttps://github.com/a lexrame/fishrでリリースされている。

Learning robust models that generalize well under changes in the data distribution is critical for real-world applications. To this end, there has been a growing surge of interest to learn simultaneously from multiple training domains - while enforcing different types of invariance across those domains. Yet, all existing approaches fail to show systematic benefits under fair evaluation protocols. In this paper, we propose a new learning scheme to enforce domain invariance in the space of the gradients of the loss function: specifically, we introduce a regularization term that matches the domain-level variances of gradients across training domains. Critically, our strategy, named Fishr, exhibits close relations with the Fisher Information and the Hessian of the loss. We show that forcing domain-level gradient covariances to be similar during the learning procedure eventually aligns the domain-level loss landscapes locally around the final weights. Extensive experiments demonstrate the effectiveness of Fishr for out-of-distribution generalization. In particular, Fishr improves the state of the art on the DomainBed benchmark and performs significantly better than Empirical Risk Minimization. The code is released at https://github.com/a lexrame/fishr.
翻訳日:2021-09-08 21:05:32 公開日:2021-09-07
# (参考訳) オンラインヘイトスピーチのカウンセリング:NLPの視点から [全文訳有]

Countering Online Hate Speech: An NLP Perspective ( http://arxiv.org/abs/2109.02941v1 )

ライセンス: CC BY 4.0
Mudit Chaudhary, Chandni Saxena, Helen Meng(参考訳) オンラインヘイトスピーチは、新型コロナウイルス(COVID-19)のパンデミックや米国の選挙、世界的な抗議活動に関連するニュースから、誰もが注目を集めている。 オンライン有害性 オンラインヘイトフル行動を意味する包括的用語は、オンラインヘイトスピーチのような形で現れる。 ヘイトスピーチ(英: Hate speech)とは、対象の個人や集団に対して意図的な攻撃である。 ソーシャルメディアを通じた大量コミュニケーションの増加は、オンラインヘイトスピーチの有害な結果をさらに悪化させる。 自然言語処理(NLP)を用いたヘイトスピーチ識別に関する研究は盛んに行われているが、オンラインヘイトスピーチの予防と介入にNLPを活用する研究は比較的不十分である。 本稿では、ヘイトスピーチにおけるNLP対応手法に関する総合的な概念的枠組みと、オンラインヘイトスピーチ対策におけるNLPの現在の動向に関する詳細な調査について述べる。 それは、その行動時間に基づいてカウンターテクニックを分類し、このトピックに関する将来の研究領域を特定する。

Online hate speech has caught everyone's attention from the news related to the COVID-19 pandemic, US elections, and worldwide protests. Online toxicity - an umbrella term for online hateful behavior, manifests itself in forms such as online hate speech. Hate speech is a deliberate attack directed towards an individual or a group motivated by the targeted entity's identity or opinions. The rising mass communication through social media further exacerbates the harmful consequences of online hate speech. While there has been significant research on hate-speech identification using Natural Language Processing (NLP), the work on utilizing NLP for prevention and intervention of online hate speech lacks relatively. This paper presents a holistic conceptual framework on hate-speech NLP countering methods along with a thorough survey on the current progress of NLP for countering online hate speech. It classifies the countering techniques based on their time of action, and identifies potential future research areas on this topic.
翻訳日:2021-09-08 21:04:34 公開日:2021-09-07
# (参考訳) オランダの快適性: 自治体登録によるaiガバナンスの限界 [全文訳有]

Dutch Comfort: The limits of AI governance through municipal registers ( http://arxiv.org/abs/2109.02944v1 )

ライセンス: CC BY 4.0
Corinne Cath (1) and Fieke Jansen (2) ((1) Oxford Internet Institute University of Oxford, (2) Data Justice Lab Cardiff University)(参考訳) この注釈書では、ルチアーノ・フロリディ教授の最近の編集書簡「AI as a public service: Learning from Amsterdam and Helsinki」に回答する。 ここでフロリディは、アムステルダム市とヘルシンキ市が使用する限られた数のアルゴリズムシステムを収集するこれらの都市aiレジスターのポジティブな影響を考察している。 私たちが疑問に思う自動システムのガバナンスモデルとして、aiレジスタに関する多くの仮定があります。 デジタル福祉国家の文脈でこれらのシステムを使うことの危険性が証明されたことから、私たちが「倫理劇場」と呼ぶものを奨励するフラッドな政治プロジェクトである。 市町村管理におけるAIシステムの役割について,これらの登録簿から多くを学ぶことができるとFloridi氏に同意する。 しかし、デジタルウェルフェイル状態との広範な民族誌的関与に基づいて、私たちが学んだ教訓は、明らかに楽観的ではない。

In this commentary, we respond to a recent editorial letter by Professor Luciano Floridi entitled 'AI as a public service: Learning from Amsterdam and Helsinki'. Here, Floridi considers the positive impact of these municipal AI registers, which collect a limited number of algorithmic systems used by the city of Amsterdam and Helsinki. There are a number of assumptions about AI registers as a governance model for automated systems that we seek to question. Starting with recent attempts to normalize AI by decontextualizing and depoliticizing it, which is a fraught political project that encourages what we call 'ethics theater' given the proven dangers of using these systems in the context of the digital welfare state. We agree with Floridi that much can be learned from these registers about the role of AI systems in municipal city management. Yet, the lessons we draw, on the basis of our extensive ethnographic engagement with digital well-fare states are distinctly less optimistic.
翻訳日:2021-09-08 20:49:57 公開日:2021-09-07
# (参考訳) 教師なし機械翻訳としてのパラフレーズ生成 [全文訳有]

Paraphrase Generation as Unsupervised Machine Translation ( http://arxiv.org/abs/2109.02950v1 )

ライセンス: CC BY 4.0
Chun Fan, Yufei Tian, Yuxian Meng, Nanyun Peng, Xiaofei Sun, Fei Wu and Jiwei Li(参考訳) 本稿では,大規模無ラベル単言語コーパスに同じ意味を表わす文対が存在するという仮定に基づいて,タスクを教師なし機械翻訳(UMT)として扱うことで,フレーズ生成のための新しいパラダイムを提案する。 提案手法は,まず大規模未ラベルコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。 次に、これらのumtモデルによって生成されたパラフレーゼペアに基づいて、統一されたサロゲートモデルが最終的なseq2seqモデルとして機能するように訓練して、教師なしのセットアップで直接テストしたり、教師なしのセットアップでラベル付きデータセットに微調整したりできるパラフレーゼを生成することができる。 提案手法は,バイリンガル文対への依存を避けるため,機械翻訳に基づくパラフレーズ生成法よりもメリットがある。 また、モデルに人間が介入することで、より多様なパラフレーズを異なるフィルタリング基準で生成することができる。 教師付きおよび教師なしのセットアップのための既存のパラフレーズデータセットに関する大規模な実験は、提案したパラダイムの有効性を示す。

In this paper, we propose a new paradigm for paraphrase generation by treating the task as unsupervised machine translation (UMT) based on the assumption that there must be pairs of sentences expressing the same meaning in a large-scale unlabeled monolingual corpus. The proposed paradigm first splits a large unlabeled corpus into multiple clusters, and trains multiple UMT models using pairs of these clusters. Then based on the paraphrase pairs produced by these UMT models, a unified surrogate model can be trained to serve as the final Seq2Seq model to generate paraphrases, which can be directly used for test in the unsupervised setup, or be finetuned on labeled datasets in the supervised setup. The proposed method offers merits over machine-translation- based paraphrase generation methods, as it avoids reliance on bilingual sentence pairs. It also allows human intervene with the model so that more diverse paraphrases can be generated using different filtering criteria. Extensive experiments on existing paraphrase dataset for both the supervised and unsupervised setups demonstrate the effectiveness the proposed paradigm.
翻訳日:2021-09-08 20:39:39 公開日:2021-09-07
# (参考訳) ダイナミックモードアテンションによるセンサ強化エゴセントリックビデオキャプション [全文訳有]

Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention ( http://arxiv.org/abs/2109.02955v1 )

ライセンス: CC BY 4.0
Katsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada(参考訳) マルチメディア分野では、ビデオや字幕を自動的に記述する手法が広く研究されている。 本稿では,センサ強化型エゴセントリックビデオキャプション,MMACキャプションと呼ばれる新たなデータセット,および映像・モーションセンサのマルチモーダルデータ,慣性計測ユニット(IMU)を効果的に活用するタスクを提案する。 従来のビデオキャプションタスクは、固定カメラの視野が限られているため、人間の活動の詳細な説明を扱うのが難しいが、より深い視点に基づいて、人間の活動のきめ細かい記述を生成するために、自我中心の視覚が用いられる可能性が大きい。 さらに,ウェアラブルセンサデータを補助情報として活用し,運動のぼやけや自己遮蔽,カメラ外活動など,自己中心的視覚における本質的問題を緩和する。 本研究では,映像データと組み合わせてセンサデータを有効に活用する手法を提案し,文脈情報を考慮して,より注意を要するモーダリティを動的に決定する注意機構を提案する。 提案手法をmmacキャプションデータセットの強いベースラインと比較し,エゴセンタビデオデータに対する補足情報としてセンサデータを用いることが有用であり,提案手法が強力なベースラインよりも優れており,提案手法の有効性が実証された。

Automatically describing video, or video captioning, has been widely studied in the multimedia field. This paper proposes a new task of sensor-augmented egocentric-video captioning, a newly constructed dataset for it called MMAC Captions, and a method for the newly proposed task that effectively utilizes multi-modal data of video and motion sensors, or inertial measurement units (IMUs). While conventional video captioning tasks have difficulty in dealing with detailed descriptions of human activities due to the limited view of a fixed camera, egocentric vision has greater potential to be used for generating the finer-grained descriptions of human activities on the basis of a much closer view. In addition, we utilize wearable-sensor data as auxiliary information to mitigate the inherent problems in egocentric vision: motion blur, self-occlusion, and out-of-camera-range activities. We propose a method for effectively utilizing the sensor data in combination with the video data on the basis of an attention mechanism that dynamically determines the modality that requires more attention, taking the contextual information into account. We compared the proposed sensor-fusion method with strong baselines on the MMAC Captions dataset and found that using sensor data as supplementary information to the egocentric-video data was beneficial, and that our proposed method outperformed the strong baselines, demonstrating the effectiveness of the proposed method.
翻訳日:2021-09-08 20:20:21 公開日:2021-09-07
# (参考訳) 法に忠実なスマート自動車技術:(De)自律システム開発・検証・安全のための道路ルールの構築

Smart Automotive Technology Adherence to the Law: (De)Constructing Road Rules for Autonomous System Development, Verification and Safety ( http://arxiv.org/abs/2109.02956v1 )

ライセンス: CC BY 4.0
Scott McLachlan, Martin Neil, Kudakwashe Dube, Ronny Bogani, Norman Fenton, and Burkhard Schaffer(参考訳) 運転は直感的な作業であり、予期しない出来事に対するスキル、絶え間なく警告、警戒を必要とする。 運転作業には、長い時間タスク全体に焦点を当てた長時間集中作業や、野生動物を含む他の道路利用者との高度な交渉スキルも必要となる。 これらの要件は、交差点に近づき、乗り越え、道を譲り、合併し、曲がりくねり、道路ルールを固執するときに特に重要である。 現代の自動車には、運転タスクのほとんど、ほとんど、あるいは限られた場合に、いくつかのスマートアシストおよび自律運転システムが含まれている。 英国運輸省は、自動車線維持システムの安全使用に対する対応として、これらのシステムは関連する交通規則に従ってテストされていることを提案している。 これらのスマート自動車システムを構築するには、高度に技術的なソフトウェアエンジニアリングスキルを持つソフトウェア開発者が必要である。 これらのスキルは、システムが法律に従属しながら安全にタスクを遂行できることを保証するために必要である。 本稿では,交通法の複雑な法学を解体し,その要件と流れを表現するためのアプローチを提案する。 このアプローチ(de)は、法律用語で道路ルールを構築し、自動化のためのブール論理(Boolean logic)として表現される構造化英語論理と視覚化のための法則を規定する。 我々は,これらのツールを用いてベイズネットワークモデルの構築と検証を行う例を示す。 われわれは、これらのツールがプログラマや一般大衆にアプローチ可能であり、自動運転車のスマートシステムを支える人工知能の開発や、これらのシステムが決定を下す際の法的な考慮を確実にするための検証に利用できると強く信じている。

Driving is an intuitive task that requires skills, constant alertness and vigilance for unexpected events. The driving task also requires long concentration spans focusing on the entire task for prolonged periods, and sophisticated negotiation skills with other road users, including wild animals. These requirements are particularly important when approaching intersections, overtaking, giving way, merging, turning and while adhering to the vast body of road rules. Modern motor vehicles now include an array of smart assistive and autonomous driving systems capable of subsuming some, most, or in limited cases, all of the driving task. The UK Department of Transport's response to the Safe Use of Automated Lane Keeping System consultation proposes that these systems are tested for compliance with relevant traffic rules. Building these smart automotive systems requires software developers with highly technical software engineering skills, and now a lawyer's in-depth knowledge of traffic legislation as well. These skills are required to ensure the systems are able to safely perform their tasks while being observant of the law. This paper presents an approach for deconstructing the complicated legalese of traffic law and representing its requirements and flow. The approach (de)constructs road rules in legal terminology and specifies them in structured English logic that is expressed as Boolean logic for automation and Lawmaps for visualisation. We demonstrate an example using these tools leading to the construction and validation of a Bayesian Network model. We strongly believe these tools to be approachable by programmers and the general public, and capable of use in developing Artificial Intelligence to underpin motor vehicle smart systems, and in validation to ensure these systems are considerate of the law when making decisions.
翻訳日:2021-09-08 20:03:24 公開日:2021-09-07
# (参考訳) covariancenet:条件付き生成モデルによる人間の運動予測の正確な共分散予測 [全文訳有]

CovarianceNet: Conditional Generative Model for Correct Covariance Prediction in Human Motion Prediction ( http://arxiv.org/abs/2109.02965v1 )

ライセンス: CC BY 4.0
Aleksey Postnikov, Aleksander Gamayunov, Gonzalo Ferrer(参考訳) 人間の動きを予測する際の不確実性の正確な評価は、この予測の精度と同じくらい重要である。 本稿では,将来の軌道分布の予測に係わる不確実性を正確に予測する新しい手法を提案する。 提案手法であるCovariaceNetは,二変量ガウス分布のパラメータを予測するために,ガウス潜在変数を持つ条件生成モデルに基づいている。 共分散ネットと運動予測モデルの組み合わせは、一様分布を出力するハイブリッドアプローチをもたらす。 我々は、不確実性を予測する際に、動き予測におけるいくつかの技術手法が、不確実性を予測する際に、どのように自信過剰になるかを示す。 covariancenetは不確実性を正しく予測するので、予測分布(例えば、計画や意思決定)を使用するアプリケーションに適している。

The correct characterization of uncertainty when predicting human motion is equally important as the accuracy of this prediction. We present a new method to correctly predict the uncertainty associated with the predicted distribution of future trajectories. Our approach, CovariaceNet, is based on a Conditional Generative Model with Gaussian latent variables in order to predict the parameters of a bi-variate Gaussian distribution. The combination of CovarianceNet with a motion prediction model results in a hybrid approach that outputs a uni-modal distribution. We will show how some state of the art methods in motion prediction become overconfident when predicting uncertainty, according to our proposed metric and validated in the ETH data-set \cite{pellegrini2009you}. CovarianceNet correctly predicts uncertainty, which makes our method suitable for applications that use predicted distributions, e.g., planning or decision making.
翻訳日:2021-09-08 20:02:09 公開日:2021-09-07
# (参考訳) 遠くに行かないで:神経詩の翻訳に関する実証的研究 [全文訳有]

Don't Go Far Off: An Empirical Study on Neural Poetry Translation ( http://arxiv.org/abs/2109.02972v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Arkadiy Saakyan and Smaranda Muresan(参考訳) 機械翻訳の質が常に改善されているにもかかわらず、自動詩翻訳は、オープンソースの平行詩のコーパスの欠如や、詩の意味論、スタイル、図形的な性質の保存に関わる本質的な複雑さのために、依然として困難な問題である。 1)ゼロショット設定を含む訓練データのサイズとスタイル(ポティック対非ポティック)、2)バイリンガル対多言語学習、3)言語族固有のモデルと混合多言語モデルである。 これを実現するために,複数言語対の詩翻訳の並列データセットをコントリビュートする。 その結果、詩文の多言語微調整は、自動尺度(BLEU, BERTScore)と、忠実度(意味と詩的スタイル)などの人的評価指標の両方において、35倍の大きさの非詩文の多言語微調整よりも優れていた。 さらに、詩データにおける多言語的微調整は、詩的データにおける \emph{bilingual} の微調整よりも優れている。

Despite constant improvements in machine translation quality, automatic poetry translation remains a challenging problem due to the lack of open-sourced parallel poetic corpora, and to the intrinsic complexities involved in preserving the semantics, style, and figurative nature of poetry. We present an empirical investigation for poetry translation along several dimensions: 1) size and style of training data (poetic vs. non-poetic), including a zero-shot setup; 2) bilingual vs. multilingual learning; and 3) language-family-spec ific models vs. mixed-multilingual models. To accomplish this, we contribute a parallel dataset of poetry translations for several language pairs. Our results show that multilingual fine-tuning on poetic text significantly outperforms multilingual fine-tuning on non-poetic text that is 35X larger in size, both in terms of automatic metrics (BLEU, BERTScore) and human evaluation metrics such as faithfulness (meaning and poetic style). Moreover, multilingual fine-tuning on poetic data outperforms \emph{bilingual} fine-tuning on poetic data.
翻訳日:2021-09-08 19:49:34 公開日:2021-09-07
# (参考訳) Hypernetwork-Guided Multitask Learning による患者予後とゼロショット診断 [全文訳有]

Patient Outcome and Zero-shot Diagnosis Prediction with Hypernetwork-guided Multitask Learning ( http://arxiv.org/abs/2109.03062v1 )

ライセンス: CC BY 4.0
Shaoxiong Ji and Pekka Marttinen(参考訳) マルチタスク深層学習は、テキストからの患者結果予測に応用され、臨床ノートを入力とし、複数のタスクの関節損失関数を持つディープニューラルネットワークを訓練している。 しかし、マルチタスク学習の合同学習はタスク間干渉に苦しめられ、複数のタスク間の診断予測では、まれな疾患や見当たらない診断による一般化可能性が問題となる。 これらの課題を解決するために,マルチタスク予測ヘッドのタスク条件パラメータと係数を生成し,タスク固有の予測を学習し,マルチタスク学習のバランスをとるハイパーネットワークベースの手法を提案する。 また,タスク条件付きマルチタスクモデルの一般化性を向上させるために,意味的タスク情報も組み込んだ。 実世界のMIMICデータベースから抽出した早期および退院ノートを用いた実験では,ほとんどの症例において強い基準値よりもマルチタスク患者の予後予測に優れた性能が得られた。 さらに,本手法は限られた情報でシナリオを効果的に処理し,未知の診断カテゴリのゼロショット予測を改善する。

Multitask deep learning has been applied to patient outcome prediction from text, taking clinical notes as input and training deep neural networks with a joint loss function of multiple tasks. However, the joint training scheme of multitask learning suffers from inter-task interference, and diagnosis prediction among the multiple tasks has the generalizability issue due to rare diseases or unseen diagnoses. To solve these challenges, we propose a hypernetwork-based approach that generates task-conditioned parameters and coefficients of multitask prediction heads to learn task-specific prediction and balance the multitask learning. We also incorporate semantic task information to improves the generalizability of our task-conditioned multitask model. Experiments on early and discharge notes extracted from the real-world MIMIC database show our method can achieve better performance on multitask patient outcome prediction than strong baselines in most cases. Besides, our method can effectively handle the scenario with limited information and improve zero-shot prediction on unseen diagnosis categories.
翻訳日:2021-09-08 19:29:29 公開日:2021-09-07
# (参考訳) gold:データ拡張を用いた対話におけるスコープ外検出の改善 [全文訳有]

GOLD: Improving Out-of-Scope Detection in Dialogues using Data Augmentation ( http://arxiv.org/abs/2109.03079v1 )

ライセンス: CC BY 4.0
Derek Chen, Zhou Yu(参考訳) 実際の対話システムは、会話の故障や関連する障害モードを避けるために、スコープ外発話(OOS)を検出する堅牢な方法を必要とする。 ラベル付きOOSサンプルでモデルを直接トレーニングすると、適切なパフォーマンスが得られるが、そのようなデータを取得することはリソース集約的なプロセスである。 この限定データ問題に対処するために、従来の手法はインスコープ(INS)の分布をより良くモデル化することに焦点を当てていた。 GOLDは,低データ状態下で動作している優れたOOS検出器をトレーニングするために,既存のデータを増強する直交技術として導入する。 GOLDは補助データセットからサンプルを使用して擬似ラベル付き候補を生成し、新しいフィルタリング機構を通じてトレーニングの最も有益な候補のみを保持する。 3つのターゲットベンチマークでの実験では、トップゴールドモデルはすべての主要なメトリクスで既存のメソッドを上回り、平均的なベースラインパフォーマンスに対して52.4%、48.9%、50.3%の相対的な向上を達成している。 また,OOSデータの特徴を分析し,提案手法を最適に適用するための重要な要素を同定する。

Practical dialogue systems require robust methods of detecting out-of-scope (OOS) utterances to avoid conversational breakdowns and related failure modes. Directly training a model with labeled OOS examples yields reasonable performance, but obtaining such data is a resource-intensive process. To tackle this limited-data problem, previous methods focus on better modeling the distribution of in-scope (INS) examples. We introduce GOLD as an orthogonal technique that augments existing data to train better OOS detectors operating in low-data regimes. GOLD generates pseudo-labeled candidates using samples from an auxiliary dataset and keeps only the most beneficial candidates for training through a novel filtering mechanism. In experiments across three target benchmarks, the top GOLD model outperforms all existing methods on all key metrics, achieving relative gains of 52.4%, 48.9% and 50.3% against median baseline performance. We also analyze the unique properties of OOS data to identify key factors for optimally applying our proposed method.
翻訳日:2021-09-08 18:53:00 公開日:2021-09-07
# (参考訳) モデル非依存なランダム部分空間アンサンブルの最適化 [全文訳有]

Optimizing model-agnostic Random Subspace ensembles ( http://arxiv.org/abs/2109.03099v1 )

ライセンス: CC BY 4.0
V\^an Anh Huynh-Thu and Pierre Geurts(参考訳) 本稿では,教師付き学習のためのモデル非依存アンサンブル手法を提案する。 提案手法は,(1)ランダム部分空間アプローチのパラメトリックバージョンを用いてモデルのアンサンブルを学習すること,(2)ベルヌーイ分布に従って特徴部分集合をサンプリングすること,(2)アンサンブルモデルの一般化誤差を最小化するベルヌーイ分布のパラメータを同定することとを代替する。 パラメータ最適化は、新しいモデルを学ぶことなく、任意のパラメータセットに対して期待されるモデル出力を推定できる重要サンプリングアプローチを用いて、抽出可能である。 ランダム化の度合いは標準ランダム部分空間のハイパーパラメータによって制御されるが、パラメトリックバージョンで自動的に調整される利点がある。 さらに、モデル非依存の特徴重要度スコアは、訓練されたアンサンブルモデルから容易に導出することができる。 シミュレーションおよび実世界のデータセット上で,予測と特徴ランキングの両面で,提案手法の優れた性能を示す。 また,本手法が遺伝子制御ネットワークの再構築に有効であることを示す。

This paper presents a model-agnostic ensemble approach for supervised learning. The proposed approach alternates between (1) learning an ensemble of models using a parametric version of the Random Subspace approach, in which feature subsets are sampled according to Bernoulli distributions, and (2) identifying the parameters of the Bernoulli distributions that minimize the generalization error of the ensemble model. Parameter optimization is rendered tractable by using an importance sampling approach able to estimate the expected model output for any given parameter set, without the need to learn new models. While the degree of randomization is controlled by a hyper-parameter in standard Random Subspace, it has the advantage to be automatically tuned in our parametric version. Furthermore, model-agnostic feature importance scores can be easily derived from the trained ensemble model. We show the good performance of the proposed approach, both in terms of prediction and feature ranking, on simulated and real-world datasets. We also show that our approach can be successfully used for the reconstruction of gene regulatory networks.
翻訳日:2021-09-08 18:32:42 公開日:2021-09-07
# (参考訳) 機能接続の長距離時空間ダイナミクスを用いた表現型予測の改善 [全文訳有]

Improving Phenotype Prediction using Long-Range Spatio-Temporal Dynamics of Functional Connectivity ( http://arxiv.org/abs/2109.03115v1 )

ライセンス: CC BY 4.0
Simon Dahan, Logan Z. J. Williams, Daniel Rueckert, Emma C. Robinson(参考訳) 機能的脳接続(FC)の研究は、多くの精神疾患の基礎となるメカニズムを理解する上で重要である。 近年の多くの解析では、機能的相関状態間の非線形相互作用を研究するためにグラフ畳み込みネットワークが採用されている。 しかし、脳の活性化パターンは空間と時間の両方で階層的に組織化されていることが知られているが、多くの手法は強力な時空間的特徴を抽出できなかった。 これらの課題を克服し、長距離機能ダイナミクスの理解を深めるために、我々は、空間と時間間の相互作用をモデル化するスケルトンベースの行動認識の領域からアプローチを翻訳する。 このアプローチをhcp(human connectome project)データセットを用いて評価し,性分類と流体知能予測について検討した。 機能組織の主題地形変動を考慮し,マルチレゾリューション型(サブジェクト固有)icaノードを用いた機能コネクトームをモデル化した。 その結果、性別分類の予測精度は94.4%(他の方法と比較して6.2%増)であり、空間と時間を別々に符号化するベースラインモデルと比較して、流体知能との相関が0.325対0.144で向上した。 その結果,脳機能活動の時空間的ダイナミックスを明示的に符号化することで,行動や認知の表現型を予測する精度が向上する可能性が示唆された。

The study of functional brain connectivity (FC) is important for understanding the underlying mechanisms of many psychiatric disorders. Many recent analyses adopt graph convolutional networks, to study non-linear interactions between functionally-correla ted states. However, although patterns of brain activation are known to be hierarchically organised in both space and time, many methods have failed to extract powerful spatio-temporal features. To overcome those challenges, and improve understanding of long-range functional dynamics, we translate an approach, from the domain of skeleton-based action recognition, designed to model interactions across space and time. We evaluate this approach using the Human Connectome Project (HCP) dataset on sex classification and fluid intelligence prediction. To account for subject topographic variability of functional organisation, we modelled functional connectomes using multi-resolution dual-regressed (subject-specific) ICA nodes. Results show a prediction accuracy of 94.4% for sex classification (an increase of 6.2% compared to other methods), and an improvement of correlation with fluid intelligence of 0.325 vs 0.144, relative to a baseline model that encodes space and time separately. Results suggest that explicit encoding of spatio-temporal dynamics of brain functional activity may improve the precision with which behavioural and cognitive phenotypes may be predicted in the future.
翻訳日:2021-09-08 18:30:41 公開日:2021-09-07
# (参考訳) 言語モデルによるモノトニック注意への将来の情報注入 [全文訳有]

Infusing Future Information into Monotonic Attention Through Language Models ( http://arxiv.org/abs/2109.03121v1 )

ライセンス: CC BY-SA 4.0
Mohd Abbas Zaidi, Sathish Indurthi, Beomseok Lee, Nikhil Kumar Lakumarapu, Sangha Kim(参考訳) 同時ニューラルマシン翻訳(snmt)モデルは、ソースシーケンスを処理する前にターゲットシーケンスを出力し始める。 SNMTの最近の適応ポリシーでは、部分的ソースとターゲットシーケンスに基づいて読み書き決定を行うために単調な注意を用いる。 十分な情報が不足すると、単調な注意が読み書きの決定を下すことになり、SNMTモデルの性能に悪影響を及ぼす可能性がある。 On the other hand, human translators make better read/write decisions since they can anticipate the immediate future words using linguistic information and domain knowledge.Motivated by human translators, in this work, we propose a framework to aid monotonic attention with an external language model to improve its decisions.We conduct experiments on the MuST-C English-German and English-French speech-to-text translation tasks to show the effectiveness of the proposed framework.The proposed SNMT method improves the quality-latency trade-off over the state-of-the-art monotonic multihead attention.

Simultaneous neural machine translation(SNMT) models start emitting the target sequence before they have processed the source sequence. The recent adaptive policies for SNMT use monotonic attention to perform read/write decisions based on the partial source and target sequences. The lack of sufficient information might cause the monotonic attention to take poor read/write decisions, which in turn negatively affects the performance of the SNMT model. On the other hand, human translators make better read/write decisions since they can anticipate the immediate future words using linguistic information and domain knowledge.Motivated by human translators, in this work, we propose a framework to aid monotonic attention with an external language model to improve its decisions.We conduct experiments on the MuST-C English-German and English-French speech-to-text translation tasks to show the effectiveness of the proposed framework.The proposed SNMT method improves the quality-latency trade-off over the state-of-the-art monotonic multihead attention.
翻訳日:2021-09-08 18:19:38 公開日:2021-09-07
# (参考訳) Fair Comparison: きめ細かい視覚分類結果のばらつきの定量化 [全文訳有]

Fair Comparison: Quantifying Variance in Resultsfor Fine-grained Visual Categorization ( http://arxiv.org/abs/2109.03156v1 )

ライセンス: CC BY 4.0
Matthew Gwilliam (1 and 2), Adam Teuscher (1), Connor Anderson (1), Ryan Farrell (1) ((1) Brigham Young University, (2) University of Maryland)(参考訳) 画像分類の課題として、研究者は次の最先端(SOTA)モデルの開発に熱心に取り組んでおり、各ベンチは前任者やその仲間に対して自身のパフォーマンスを示す。 残念ながら、モデルのパフォーマンス、平均的な分類精度を記述するために最も頻繁に使用されるメトリクスは、しばしば孤立して使用される。 細粒度視覚分類(FGVC)などのクラス数が増加するにつれて、平均精度だけで伝達される情報の量は減少する。 最も明らかな弱点は、クラスごとにモデルのパフォーマンスを記述できないことだが、平均的な精度は、同じアーキテクチャのトレーニングされたモデル、同じデータセットから、(クラスごとに平均して)別のモデルまで、パフォーマンスがどう変化するかの記述に失敗している。 まず,データ属性に基づくモデル間およびクラス分布間の変動の大きさを,長期分布や少数ショットサブセットを含む,異なる視覚領域およびクラスごとのイメージ分布による結果と比較した。 次に、FGVC法が全体およびクラスごとの分散に与える影響を分析する。 本分析から,FGVC結果のばらつきを緩和する手法を指摘するとともに,総合的精度以上の情報に基づく手法の報告と比較の重要性を強調した。

For the task of image classification, researchers work arduously to develop the next state-of-the-art (SOTA) model, each bench-marking their own performance against that of their predecessors and of their peers. Unfortunately, the metric used most frequently to describe a model's performance, average categorization accuracy, is often used in isolation. As the number of classes increases, such as in fine-grained visual categorization (FGVC), the amount of information conveyed by average accuracy alone dwindles. While its most glaring weakness is its failure to describe the model's performance on a class-by-class basis, average accuracy also fails to describe how performance may vary from one trained model of the same architecture, on the same dataset, to another (both averaged across all categories and at the per-class level). We first demonstrate the magnitude of these variations across models and across class distributions based on attributes of the data, comparing results on different visual domains and different per-class image distributions, including long-tailed distributions and few-shot subsets. We then analyze the impact various FGVC methods have on overall and per-class variance. From this analysis, we both highlight the importance of reporting and comparing methods based on information beyond overall accuracy, as well as point out techniques that mitigate variance in FGVC results.
翻訳日:2021-09-08 18:07:04 公開日:2021-09-07
# (参考訳) Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers Reveals Distinctive yet Consistent individual Styles [全文訳有]

Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers Reveals Distinctive yet Consistent Individual Styles ( http://arxiv.org/abs/2109.03158v1 )

ライセンス: CC BY 4.0
Jian Zhu and David Jurgens(参考訳) 個人の書き方の変化は、しばしば社会的属性と個人属性の両方の機能である。 構造的な社会的変動(例えば性別に基づく変動)は広く研究されてきたが、その特異な性質から個々のスタイルを特徴づける方法については、あまり知られていない。 我々は,文体の特徴を特定し,エンコードするために,多種間比較によるイディオレクトの研究手法を提案する。 このニューラルモデルは、短いテキストの著者シップ識別やアナロジーに基づく検索タスクにおいて強力なパフォーマンスを達成し、学習された表現が、定性的かつ定量的な慣用的スタイルの変化を符号化する驚くべき正規性を示すことを示した。 テキストの摂動を通じて、異なる言語要素の慣用的変化に対する相対的貢献を定量化する。 さらに,著者間および著者内変動を計測することにより,慣用句の変動はしばしば識別されるが一貫性があることを示す。

An individual's variation in writing style is often a function of both social and personal attributes. While structured social variation has been extensively studied, e.g., gender based variation, far less is known about how to characterize individual styles due to their idiosyncratic nature. We introduce a new approach to studying idiolects through a massive cross-author comparison to identify and encode stylistic features. The neural model achieves strong performance at authorship identification on short texts and through an analogy-based probing task, showing that the learned representations exhibit surprising regularities that encode qualitative and quantitative shifts of idiolectal styles. Through text perturbation, we quantify the relative contributions of different linguistic elements to idiolectal variation. Furthermore, we provide a description of idiolects through measuring inter- and intra-author variation, showing that variation in idiolects is often distinctive yet consistent.
翻訳日:2021-09-08 17:52:29 公開日:2021-09-07
# (参考訳) バナッハ空間における正規化学習 [全文訳有]

Regularized Learning in Banach Spaces ( http://arxiv.org/abs/2109.03159v1 )

ライセンス: CC0 1.0
Liren Huang and Qi Ye(参考訳) 本稿では、表現定理や収束定理を含む一般化されたデータに対する正規化学習の理論を研究する別の方法を示す。 一般化されたデータは、局所モデルの離散情報を表す線形汎関数と実スカラーからなる。 古典的機械学習の拡張により、経験的リスクは一般化されたデータと損失関数によって計算される。 正則化の手法によれば、大域解はバナッハ空間上の正則化経験的リスクを最小化することによって近似される。 バナッハ空間は、弱*位相によって近似解の存在と収束が保証されるようなコンパクト性を持つ一般化された入力データを与えるために適応的に選択される。

This article presents a different way to study the theory of regularized learning for generalized data including representer theorems and convergence theorems. The generalized data are composed of linear functionals and real scalars to represent the discrete information of the local models. By the extension of the classical machine learning, the empirical risks are computed by the generalized data and the loss functions. According to the techniques of regularization, the global solutions are approximated by minimizing the regularized empirical risks over the Banach spaces. The Banach spaces are adaptively chosen to endow the generalized input data with compactness such that the existence and convergence of the approximate solutions are guaranteed by the weak* topology.
翻訳日:2021-09-08 17:30:44 公開日:2021-09-07
# (参考訳) the pyglaf argumentation reasoner (iccma2021) [全文訳有]

The pyglaf argumentation reasoner (ICCMA2021) ( http://arxiv.org/abs/2109.03162v1 )

ライセンス: CC BY 4.0
Mario Alviano(参考訳) The pyglaf reasoner takes advantage of circumscription to solve computer problem of abstract argumentation framework。 実際、これらの問題の多くは線形符号化(英語版)によって囲い込みに還元され、その他は囲い込みのためのオラクルへの一連の呼び出しによって解決される。 pyglaf内では、Pythonがエンコーディングを構築し、SATソルバのグルコースを拡張し、不満足なコア分析とインクリメンタル計算を利用するアルゴリズムを実装する外部サーキュレーションソルバの実行を制御するために使用される。

The pyglaf reasoner takes advantage of circumscription to solve computational problems of abstract argumentation frameworks. In fact, many of these problems are reduced to circumscription by means of linear encodings, and a few others are solved by means of a sequence of calls to an oracle for circumscription. Within pyglaf, Python is used to build the encodings and to control the execution of the external circumscription solver, which extends the SAT solver glucose and implements algorithms taking advantage of unsatisfiable core analysis and incremental computation.
翻訳日:2021-09-08 16:46:29 公開日:2021-09-07
# (参考訳) アスペクトコントロール可能な意見要約 [全文訳有]

Aspect-Controllable Opinion Summarization ( http://arxiv.org/abs/2109.03171v1 )

ライセンス: CC BY 4.0
Reinald Kim Amplayo, Stefanos Angelidis, Mirella Lapata(参考訳) 意見要約に関する最近の研究は、一連の入力レビューとそれらに表される意見の人気に基づいて一般的な要約を生み出している。 本稿では、アスペクトクエリ(ホテルの位置と部屋を記述するなど)に基づいてカスタマイズした要約を生成する手法を提案する。 レビューコーパスを用いて、異なるレベルの粒度で文書のアスペクトを予測するマルチインスタンス学習モデルによって誘導されるアスペクトコントローラに富んだ(レビュー、要約)ペアの合成トレーニングデータセットを作成する。 合成データセットを用いて事前学習したモデルを微調整し、アスペクトコントローラを変更することでアスペクト固有の要約を生成する。 2つのベンチマークによる実験では,本モデルが先行技術よりも優れており,議論されるアスペクトの数を制御して,パーソナライズされた要約を生成することが示された。

Recent work on opinion summarization produces general summaries based on a set of input reviews and the popularity of opinions expressed in them. In this paper, we propose an approach that allows the generation of customized summaries based on aspect queries (e.g., describing the location and room of a hotel). Using a review corpus, we create a synthetic training dataset of (review, summary) pairs enriched with aspect controllers which are induced by a multi-instance learning model that predicts the aspects of a document at different levels of granularity. We fine-tune a pretrained model using our synthetic dataset and generate aspect-specific summaries by modifying the aspect controllers. Experiments on two benchmarks show that our model outperforms the previous state of the art and generates personalized summaries by controlling the number of aspects discussed in them.
翻訳日:2021-09-08 16:41:00 公開日:2021-09-07
# (参考訳) ディファレンシャル・プライバシがNLPと出会うとき:悪魔は細部にある [全文訳有]

When differential privacy meets NLP: The devil is in the detail ( http://arxiv.org/abs/2109.03175v1 )

ライセンス: CC BY-SA 4.0
Ivan Habernal(参考訳) 差別プライバシーは個人のプライバシーに対する正式なアプローチを提供する。 ユーザの発話を保護するなどの様々なシナリオにおける差分プライバシーの適用は、特定の数学的特性を満たす必要がある。 我々の貢献は、テキスト書き換えのための微分プライベート自動エンコーダであるADePTの形式解析である(Krishna et al, 2021)。 ADePTは、厳しいプライバシー保証を提供しながら、下流タスクで有望な結果を達成する。 以上の結果から,ADePTは差分プライベートではないことが明らかとなった。 また、そのプライベートメカニズムにおける誤差の影響を定量化し、非常に小さなエンコーダ次元の楽観的な場合において、真の感度が少なくとも第6因子より高くなり、民営化されていない発話の量がデータセット全体の100%に達することを示した。 我々の意図は、著者や査読プロセスを批判することではなく、NLPの差分プライバシーアプリケーションが正式な保証に依存している場合、これらを概説し、詳細な精査を受けるべきだと指摘している。

Differential privacy provides a formal approach to privacy of individuals. Applications of differential privacy in various scenarios, such as protecting users' original utterances, must satisfy certain mathematical properties. Our contribution is a formal analysis of ADePT, a differentially private auto-encoder for text rewriting (Krishna et al, 2021). ADePT achieves promising results on downstream tasks while providing tight privacy guarantees. Our proof reveals that ADePT is not differentially private, thus rendering the experimental results unsubstantiated. We also quantify the impact of the error in its private mechanism, showing that the true sensitivity is higher by at least factor 6 in an optimistic case of a very small encoder's dimension and that the amount of utterances that are not privatized could easily reach 100% of the entire dataset. Our intention is neither to criticize the authors, nor the peer-reviewing process, but rather point out that if differential privacy applications in NLP rely on formal guarantees, these should be outlined in full and put under detailed scrutiny.
翻訳日:2021-09-08 16:18:04 公開日:2021-09-07
# (参考訳) 分散適応勾配法の収束性について

On the Convergence of Decentralized Adaptive Gradient Methods ( http://arxiv.org/abs/2109.03194v1 )

ライセンス: CC BY 4.0
Xiangyi Chen, Belhal Karimi, Weijie Zhao, Ping Li(参考訳) Adam、AdaGrad、およびそれらの変種を含む適応的な勾配法は、ニューラルネットワークのようなディープラーニングモデルのトレーニングに成功している。 一方、分散コンピューティングの必要性から、分散最適化アルゴリズムは急速に焦点となっている。 コンピューティング能力の増大とモバイルデバイスでの機械学習モデルの使用の必要性により、分散トレーニングアルゴリズムの通信コストは慎重に考慮する必要がある。 本稿では,新しい収束型分散適応勾配法を提案し,適応勾配法を分散学習手順に厳格に組み込む。 具体的には,既存の適応勾配法を分散化法に変換する汎用アルゴリズムフレームワークを提案する。 さらに,提案したアルゴリズムフレームワークの収束挙動を網羅的に解析し,与えられた適応勾配法が特定の条件下で収束した場合,その分散した手法も収束することを示す。 本稿では,AMSGradというプロトタイプ手法による汎用分散フレームワークの利点を理論的にも数値的にも説明する。

Adaptive gradient methods including Adam, AdaGrad, and their variants have been very successful for training deep learning models, such as neural networks. Meanwhile, given the need for distributed computing, distributed optimization algorithms are rapidly becoming a focal point. With the growth of computing power and the need for using machine learning models on mobile devices, the communication cost of distributed training algorithms needs careful consideration. In this paper, we introduce novel convergent decentralized adaptive gradient methods and rigorously incorporate adaptive gradient methods into decentralized training procedures. Specifically, we propose a general algorithmic framework that can convert existing adaptive gradient methods to their decentralized counterparts. In addition, we thoroughly analyze the convergence behavior of the proposed algorithmic framework and show that if a given adaptive gradient method converges, under some specific conditions, then its decentralized counterpart is also convergent. We illustrate the benefit of our generic decentralized framework on a prototype method, i.e., AMSGrad, both theoretically and numerically.
翻訳日:2021-09-08 16:05:45 公開日:2021-09-07
# (参考訳) 共同学習による教師なし会話の絡み合い [全文訳有]

Unsupervised Conversation Disentanglement through Co-Training ( http://arxiv.org/abs/2109.03199v1 )

ライセンス: CC BY 4.0
Hui Liu, Zhan Shi and Xiaodan Zhu(参考訳) 会話の絡み合い(conversation disentanglement)は、対話したメッセージを分離したセッションに分離することを目的としている。 会話の絡み合いに関する既存の研究は、人間が注釈付けしたデータセットに大きく依存している。 本研究では,人間のアノテーションを参考にすることなく,会話の絡み合うモデルを訓練する。 本手法は,メッセージペア分類器とセッション分類器の2つのニューラルネットワークからなる,深い共学習アルゴリズムに基づいている。 前者は2つのメッセージ間のローカルな関係を検索し、後者はコンテキスト認識情報を取り込んでセッションにメッセージを分類する。 どちらのネットワークも、アノテーションのないコーパスから構築された擬似データで初期化される。 深いコトレーニングプロセスでは、セッション分類器を強化学習コンポーネントとして使用し、メッセージペア分類器が与えるローカル報酬を最大化することにより、セッション割り当てポリシーを学習する。 メッセージペア分類器では,セッション分類器によって予測される不整合セッションから高い信頼度でメッセージペアを抽出することにより,トレーニングデータを充実させる。 大規模な映画対話データセットの実験結果から,提案手法は従来の教師付き手法と比較して競争性能が向上することを示した。 さらなる実験により、予測された不一致の会話は、マルチパーティ応答選択の下流タスクのパフォーマンスを促進できることが示されている。

Conversation disentanglement aims to separate intermingled messages into detached sessions, which is a fundamental task in understanding multi-party conversations. Existing work on conversation disentanglement relies heavily upon human-annotated datasets, which are expensive to obtain in practice. In this work, we explore to train a conversation disentanglement model without referencing any human annotations. Our method is built upon a deep co-training algorithm, which consists of two neural networks: a message-pair classifier and a session classifier. The former is responsible for retrieving local relations between two messages while the latter categorizes a message to a session by capturing context-aware information. Both networks are initialized respectively with pseudo data built from an unannotated corpus. During the deep co-training process, we use the session classifier as a reinforcement learning component to learn a session assigning policy by maximizing the local rewards given by the message-pair classifier. For the message-pair classifier, we enrich its training data by retrieving message pairs with high confidence from the disentangled sessions predicted by the session classifier. Experimental results on the large Movie Dialogue Dataset demonstrate that our proposed approach achieves competitive performance compared to the previous supervised methods. Further experiments show that the predicted disentangled conversations can promote the performance on the downstream task of multi-party response selection.
翻訳日:2021-09-08 16:04:34 公開日:2021-09-07
# (参考訳) ExCode-Mixed:BERTモデルを用いたコードミキシングデータの知覚分析への説明可能なアプローチ [全文訳有]

ExCode-Mixed: Explainable Approaches towards Sentiment Analysis on Code-Mixed Data using BERT models ( http://arxiv.org/abs/2109.03200v1 )

ライセンス: CC BY 4.0
Aman Priyanshu, Aleti Vardhan, Sudarshan Sivakumar, Supriti Vijay, Nipuna Chhabra(参考訳) インドのような国でソーシャルメディアサイトの利用が増加すると、大量のコード混合データが生まれている。 このデータの感性分析は、人々の視点や意見に不可欠な洞察を与えることができる。 モデルが予測をする理由を説明するロバストな説明可能性技術の開発が不可欠である。 本稿では,コード混合感情分析に説明可能なアプローチを統合するための適切な手法を提案する。

The increasing use of social media sites in countries like India has given rise to large volumes of code-mixed data. Sentiment analysis of this data can provide integral insights into people's perspectives and opinions. Developing robust explainability techniques which explain why models make their predictions becomes essential. In this paper, we propose an adequate methodology to integrate explainable approaches into code-mixed sentiment analysis.
翻訳日:2021-09-08 15:48:25 公開日:2021-09-07
# (参考訳) nnformer:ボリュームセグメンテーション用インターリーブトランス [全文訳有]

nnFormer: Interleaved Transformer for Volumetric Segmentation ( http://arxiv.org/abs/2109.03201v1 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Jiansen Guo, Yinghao Zhang, Lequan Yu, Liansheng Wang, Yizhou Yu(参考訳) 自然言語処理におけるデフォルトのモデルであるトランスフォーマーは、医療画像コミュニティからほとんど注目を集めていない。 長期的な依存関係を利用する能力を考えると、トランスフォーマーは非定型畳み込みニューラルネットワーク(convnets)が空間誘導バイアスの固有の欠点を克服するのに役立つことを約束している。 しかし、最近提案されたトランスフォーマーベースのセグメンテーションアプローチのほとんどは、トランスフォーマーを単純なモジュールとして扱い、グローバルコンテキストを畳み込み表現に符号化するのに役立つ。 この問題に対処するために,本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormer(Not-aNother TransFormer)を紹介する。 実際、nnformerは3dローカルボリュームからボリューム表現を学ぶ。 ナイーブなvoxelレベルの自己アテンション実装と比較して、このようなボリュームベースの操作は、synapseとadcdcデータセットの計算複雑性を98%、99.5%削減するのに役立ちます。 以前のネットワーク構成と比較すると、nnformerはsynapseとadcという2つの一般的なデータセットで、以前のトランスフォーマティブベースの方法よりも大幅に改善されている。 例えば、nnFormerはSynapseでSwin-UNetを7%以上上回っている。 現在最高の完全畳み込み医療セグメンテーションネットワークであるnnUNetと比較しても、nnFormerはSynapseとACDCで若干パフォーマンスが向上している。

Transformers, the default model of choices in natural language processing, have drawn scant attention from the medical imaging community. Given the ability to exploit long-term dependencies, transformers are promising to help atypical convolutional neural networks (convnets) to overcome its inherent shortcomings of spatial inductive bias. However, most of recently proposed transformer-based segmentation approaches simply treated transformers as assisted modules to help encode global context into convolutional representations without investigating how to optimally combine self-attention (i.e., the core of transformers) with convolution. To address this issue, in this paper, we introduce nnFormer (i.e., Not-aNother transFormer), a powerful segmentation model with an interleaved architecture based on empirical combination of self-attention and convolution. In practice, nnFormer learns volumetric representations from 3D local volumes. Compared to the naive voxel-level self-attention implementation, such volume-based operations help to reduce the computational complexity by approximate 98% and 99.5% on Synapse and ACDC datasets, respectively. In comparison to prior-art network configurations, nnFormer achieves tremendous improvements over previous transformer-based methods on two commonly used datasets Synapse and ACDC. For instance, nnFormer outperforms Swin-UNet by over 7 percents on Synapse. Even when compared to nnUNet, currently the best performing fully-convolutional medical segmentation network, nnFormer still provides slightly better performance on Synapse and ACDC.
翻訳日:2021-09-08 15:45:34 公開日:2021-09-07
# (参考訳) 適応変分ベイズ:最適性、計算および応用

Adaptive variational Bayes: Optimality, computation and applications ( http://arxiv.org/abs/2109.03204v1 )

ライセンス: CC BY 4.0
Ilsang Ohn, Lizhen Lin(参考訳) 本稿では,変分ベイズに基づく適応推論について検討する。 変動後方の収縮特性を解析するために多くの研究が行われてきたが、変動後方の最適収縮を達成するための汎用的かつ計算可能な変分ベイズ法がいまだ欠如している。 本稿では,次元や構造の異なるモデルの集合上で動作可能な,適応型変分ベイズと呼ばれる新しい変分ベイズフレームワークを提案する。 提案手法は,個々のモデル上の変動後部と一定の重みを結合し,モデル全体の変動後部を求める。 この組み合わせにより、Kulback-Leibler の元々の後方分布への発散を最小限に抑えることが判明した。 提案した変分後部は,非常に一般的な条件下で適応的に最適収縮率を達成し,真のモデル構造が存在する場合のモデル選択整合性を実現する。 適応変分ベイズに対して得られた一般的な結果を、ディープラーニングモデルを含むいくつかの例に適用し、新しい適応的推論結果を導出する。 さらに,フレームワークにおける準類似性についても検討する。 準類似性に関する条件を定式化し、適応最適性を確保し、確率的ブロックモデルや非パラメトリック回帰に対するサブガウシアン誤差の具体的応用について論じる。

In this paper, we explore adaptive inference based on variational Bayes. Although a number of studies have been conducted to analyze contraction properties of variational posteriors, there is still a lack of a general and computationally tractable variational Bayes method that can achieve adaptive optimal contraction of the variational posterior. We propose a novel variational Bayes framework, called adaptive variational Bayes, which can operate on a collection of models with varying dimensions and structures. The proposed framework combines variational posteriors over individual models with certain weights to obtain a variational posterior over the entire model. It turns out that this combined variational posterior minimizes the Kullback-Leibler divergence to the original posterior distribution. We show that the proposed variational posterior achieves optimal contraction rates adaptively under very general conditions and attains model selection consistency when the true model structure exists. We apply the general results obtained for the adaptive variational Bayes to several examples including deep learning models and derive some new and adaptive inference results. Moreover, we consider the use of quasi-likelihood in our framework. We formulate conditions on the quasi-likelihood to ensure the adaptive optimality and discuss specific applications to stochastic block models and nonparametric regression with sub-Gaussian errors.
翻訳日:2021-09-08 15:26:55 公開日:2021-09-07
# (参考訳) ロバスト予測制御 [全文訳有]

Robust Predictable Control ( http://arxiv.org/abs/2109.03214v1 )

ライセンス: CC BY 4.0
Benjamin Eysenbach, Ruslan Salakhutdinov and Sergey Levine(参考訳) 今日の強化学習(RL)アルゴリズムに直面する多くの課題、例えばロバストネス、一般化、転送、計算効率は、圧縮と密接に関連している。 以前の研究は、情報最小化が教師付き学習設定において有用である理由を説得力強く主張してきたが、標準rlアルゴリズムには圧縮の明確なメカニズムが欠けている。 RL の設定は,(1) エージェントが過去の情報を利用して将来の観測を回避できる点,(2) エージェントは意思決定に必要なビット数が少ない状態を好むように,その振る舞いを最適化できる点に特徴がある。 これらの特性を利用して、簡単なポリシーを学習するための方法(RPC)を提案する。 この手法は、情報ボトルネック、モデルベースのRL、ビットバックコーディングのアイデアをシンプルで理論的に最適化されたアルゴリズムにまとめる。 提案手法は,モデルが不正確な状態を避けるために,自己整合性を持つ潜在空間モデルとポリシーを協調的に最適化する。 本手法は,従来の手法よりも圧縮性が強く,標準情報ボトルネックよりも最大5倍高い報酬が得られることを示す。 また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。

Many of the challenges facing today's reinforcement learning (RL) algorithms, such as robustness, generalization, transfer, and computational efficiency are closely related to compression. Prior work has convincingly argued why minimizing information is useful in the supervised learning setting, but standard RL algorithms lack an explicit mechanism for compression. The RL setting is unique because (1) its sequential nature allows an agent to use past information to avoid looking at future observations and (2) the agent can optimize its behavior to prefer states where decision making requires few bits. We take advantage of these properties to propose a method (RPC) for learning simple policies. This method brings together ideas from information bottlenecks, model-based RL, and bits-back coding into a simple and theoretically-justif ied algorithm. Our method jointly optimizes a latent-space model and policy to be self-consistent, such that the policy avoids states where the model is inaccurate. We demonstrate that our method achieves much tighter compression than prior methods, achieving up to 5x higher reward than a standard information bottleneck. We also demonstrate that our method learns policies that are more robust and generalize better to new tasks.
翻訳日:2021-09-08 15:25:24 公開日:2021-09-07
# (参考訳) 顔認証データセットにおける顔面バイアス軽減のための共通仮定の再考

Rethinking Common Assumptions to Mitigate Racial Bias in Face Recognition Datasets ( http://arxiv.org/abs/2109.03229v1 )

ライセンス: CC BY 4.0
Matthew Gwilliam (1), Srinidhi Hegde (1), Lade Tinubu (1 and 2), Alex Hanson (1) ((1) University of Maryland, (2) University of Chicago)(参考訳) 既存の作品の多くは、顔認識における人種的偏見を減らそうとしている。 しかしながら、これらの手法のほとんどは、トレーニング中にモデルに現れるバイアスを、データセット自体のバイアスの主なソースに直接対処するのではなく、修正しようとします。 例外はBUPT-Balancedface/RF WとFairfaceだが、これらの研究は、主に単一人種でのトレーニング、あるいは人種的にバランスの取れていないデータセットは本質的に不利であると仮定している。 これらの仮定が必ずしも有効ではないことを示す。 私たちの実験では、アフリカの顔のみを訓練することは、アフリカの顔を含むように歪んだ顔と分布のバランスのとれた分布のトレーニングよりもバイアスが少なく、より公平なモデルを生み出しました。 さらに、新しいアイデンティティを追加する代わりに、既存のアイデンティティのイメージをデータセットに追加することで、人種別カテゴリの精度が向上する可能性があることに気付きました。 私たちのコードはhttps://github.com/j -alex-hanson/rethink ing-race-face-datase tsで利用可能です。

Many existing works have made great strides towards reducing racial bias in face recognition. However, most of these methods attempt to rectify bias that manifests in models during training instead of directly addressing a major source of the bias, the dataset itself. Exceptions to this are BUPT-Balancedface/RF W and Fairface, but these works assume that primarily training on a single race or not racially balancing the dataset are inherently disadvantageous. We demonstrate that these assumptions are not necessarily valid. In our experiments, training on only African faces induced less bias than training on a balanced distribution of faces and distributions skewed to include more African faces produced more equitable models. We additionally notice that adding more images of existing identities to a dataset in place of adding new identities can lead to accuracy boosts across racial categories. Our code is available at https://github.com/j -alex-hanson/rethink ing-race-face-datase ts
翻訳日:2021-09-08 14:55:21 公開日:2021-09-07
# ポーズ:ポジティブ、アニールなしの文埋め込み

PAUSE: Positive and Annealed Unlabeled Sentence Embedding ( http://arxiv.org/abs/2109.03155v1 )

ライセンス: Link先を確認
Lele Cao, Emil Larsson, Vilhelm von Ehrenheim, Dhiana Deva Cavalcanti Rocha, Anna Martin, Sonja Horn(参考訳) 文埋め込みとは、自然言語処理(NLP)の幅広い用途で使用できる、原文を数値ベクトル表現に変換するための、効果的で汎用的な技法のセットである。 これらの技術の大部分は教師なしまたは教師なしである。 教師なし手法と比較して、教師なし手法は最適化目標に対する仮定を少なくし、通常はより良い結果を得る。 しかし、訓練には大量のラベル付き文ペアが必要であり、多くの産業シナリオでは利用できない。 そこで本研究では,部分ラベル付きデータセットから高品質な文埋め込みを学習可能な,汎用的でエンドツーエンドなポーズ(ポジティブでアニールされていない文埋め込み)手法を提案する。 PAUSEは,様々なベンチマークタスクにおいて,少数のラベル付き文ペアのみを用いて,最先端の成果を達成し,時には上回ることを示す。 ラベル付きサンプルが不足している実際の産業ユースケースに適用した場合、PAUSEは広範な手作業によるアノテーション作業の責任なしにデータセットを拡張することを推奨します。

Sentence embedding refers to a set of effective and versatile techniques for converting raw text into numerical vector representations that can be used in a wide range of natural language processing (NLP) applications. The majority of these techniques are either supervised or unsupervised. Compared to the unsupervised methods, the supervised ones make less assumptions about optimization objectives and usually achieve better results. However, the training requires a large amount of labeled sentence pairs, which is not available in many industrial scenarios. To that end, we propose a generic and end-to-end approach -- PAUSE (Positive and Annealed Unlabeled Sentence Embedding), capable of learning high-quality sentence embeddings from a partially labeled dataset. We experimentally show that PAUSE achieves, and sometimes surpasses, state-of-the-art results using only a small fraction of labeled sentence pairs on various benchmark tasks. When applied to a real industrial use case where labeled samples are scarce, PAUSE encourages us to extend our dataset without the liability of extensive manual annotation work.
翻訳日:2021-09-08 14:54:10 公開日:2021-09-07
# 保存精度を超えたBERT圧縮のロイヤリティとロバスト性の評価

Beyond Preserved Accuracy: Evaluating Loyalty and Robustness of BERT Compression ( http://arxiv.org/abs/2109.03228v1 )

ライセンス: Link先を確認
Canwen Xu and Wangchunshu Zhou and Tao Ge and Ke Xu and Julian McAuley and Furu Wei(参考訳) 事前訓練された言語モデルの圧縮に関する最近の研究(例えばBERT)は、通常、評価のためのメートル法として保存された精度を使用する。 本稿では,圧縮モデル(すなわち学生)が原型モデル(すなわち教師)をいかに密接に模倣しているかを測定する,ラベルロイヤリティと確率ロイヤリティという2つの新しい指標を提案する。 また,攻撃時のロバスト性に対する圧縮の影響についても検討する。 我々は, 量子化, プルーニング, 知識蒸留, プログレッシブモジュールを忠実性と堅牢性に置き換えた。 複数の圧縮技術を組み合わせることで、精度、忠誠心、堅牢性を向上する実用的な戦略を提供する。

Recent studies on compression of pretrained language models (e.g., BERT) usually use preserved accuracy as the metric for evaluation. In this paper, we propose two new metrics, label loyalty and probability loyalty that measure how closely a compressed model (i.e., student) mimics the original model (i.e., teacher). We also explore the effect of compression with regard to robustness under adversarial attacks. We benchmark quantization, pruning, knowledge distillation and progressive module replacing with loyalty and robustness. By combining multiple compression techniques, we provide a practical strategy to achieve better accuracy, loyalty and robustness.
翻訳日:2021-09-08 14:53:47 公開日:2021-09-07
# 依存性の最大化とインスタンス識別分析による少数ショット学習

Few-shot Learning via Dependency Maximization and Instance Discriminant Analysis ( http://arxiv.org/abs/2109.02820v1 )

ライセンス: Link先を確認
Zejiang Hou, Sun-Yuan Kung(参考訳) 本研究では,各カテゴリごとにラベル付きトレーニングデータが少なく,新たなオブジェクトの認識を学習するFSL問題について検討する。 従来のFSLアプローチのほとんどはメタラーニングパラダイムを採用しており、モデルが多くのトレーニングタスクを学習することで帰納的バイアスを蓄積し、新しい目に見えない数発のタスクを解決する。 対照的に,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。 まず,共分散演算子のHilbert-Schmidtノルムに基づく依存性の最大化手法を提案する。これは,ラベル付きデータの埋め込み特徴とラベル予測との統計的依存性を最大化し,サポートセットに対する教師付き損失を最大化する。 次に得られたモデルを用いて、ラベルのないデータに対する擬似ラベルを推測する。 さらに,各疑似ラベル付きサンプルの信頼性を評価するためのインスタンス識別分析を提案し,信頼度の高いものを拡張サポートセットに選択し,第1ステップでモデルを再トレーニングする。 ラベルなしデータの擬似ラベルが安定するまで、上記のプロセスを繰り返す。 実験の結果,提案手法は, mini-ImageNet, tiered-ImageNet, CUB, CIFARFS など,広く使用されている4つのベンチマークにおいて,従来の最先端の手法よりも優れていた。

We study the few-shot learning (FSL) problem, where a model learns to recognize new objects with extremely few labeled training data per category. Most of previous FSL approaches resort to the meta-learning paradigm, where the model accumulates inductive bias through learning many training tasks so as to solve a new unseen few-shot task. In contrast, we propose a simple approach to exploit unlabeled data accompanying the few-shot task for improving few-shot performance. Firstly, we propose a Dependency Maximization method based on the Hilbert-Schmidt norm of the cross-covariance operator, which maximizes the statistical dependency between the embedded feature of those unlabeled data and their label predictions, together with the supervised loss over the support set. We then use the obtained model to infer the pseudo-labels for those unlabeled data. Furthermore, we propose anInstance Discriminant Analysis to evaluate the credibility of each pseudo-labeled example and select the most faithful ones into an augmented support set to retrain the model as in the first step. We iterate the above process until the pseudo-labels for the unlabeled data becomes stable. Following the standard transductive and semi-supervised FSL setting, our experiments show that the proposed method out-performs previous state-of-the-art methods on four widely used benchmarks, including mini-ImageNet, tiered-ImageNet, CUB, and CIFARFS.
翻訳日:2021-09-08 14:53:06 公開日:2021-09-07
# 臨床試験コホート最適化のためのスケーラブルAIアプローチ

A Scalable AI Approach for Clinical Trial Cohort Optimization ( http://arxiv.org/abs/2109.02808v1 )

ライセンス: Link先を確認
Xiong Liu, Cheng Shi, Uday Deore, Yingbo Wang, Myah Tran, Iya Khalil, Murthy Devarakonda(参考訳) 米食品医薬品局(FDA)は、資格基準を拡充することで臨床試験人口の多様性を高めるための入学慣行を推進してきた。 しかし、どうやって資格を拡大するかは重要な課題である。 本稿では,自然言語処理による適性基準の変換によるコホート最適化(aico)へのaiアプローチと,実世界データを用いた基準の評価を提案する。 本手法は,多種多様な臨床試験から共通適性基準変数を抽出し,実世界の患者に対する治験設計の一般化可能性を測定する。 既存の手動メソッドのスケーラビリティの限界を克服し、関心のある疾患に対する適性基準設計の迅速なシミュレーションを可能にする。 乳がん治験設計のケーススタディは、臨床試験の一般化性を改善する方法の有用性を示している。

FDA has been promoting enrollment practices that could enhance the diversity of clinical trial populations, through broadening eligibility criteria. However, how to broaden eligibility remains a significant challenge. We propose an AI approach to Cohort Optimization (AICO) through transformer-based natural language processing of the eligibility criteria and evaluation of the criteria using real-world data. The method can extract common eligibility criteria variables from a large set of relevant trials and measure the generalizability of trial designs to real-world patients. It overcomes the scalability limits of existing manual methods and enables rapid simulation of eligibility criteria design for a disease of interest. A case study on breast cancer trial design demonstrates the utility of the method in improving trial generalizability.
翻訳日:2021-09-08 14:52:41 公開日:2021-09-07
# BERTを用いたタスク指向対話における自然言語生成の自然性評価

Naturalness Evaluation of Natural Language Generation in Task-oriented Dialogues using BERT ( http://arxiv.org/abs/2109.02938v1 )

ライセンス: Link先を確認
Ye Liu, Wolfgang Maier, Wolfgang Minker and Stefan Ultes(参考訳) 本稿では,対話システムにおける自然言語生成の自然性を評価する自動手法を提案する。 このタスクは以前,費用と時間のかかる人的労働によって行われたが,生成言語の自動自然度評価という新たな課題を提示する。 BERTモデルの微調整により,提案手法は頑健な結果を示し,サポートベクトルマシン,双方向LSTM,BLEURTなどのベースラインよりも優れた性能を示す。 また、品質と情報性に関する言語知識の伝達学習により、自然性モデルの学習速度と評価性能を向上させる。

This paper presents an automatic method to evaluate the naturalness of natural language generation in dialogue systems. While this task was previously rendered through expensive and time-consuming human labor, we present this novel task of automatic naturalness evaluation of generated language. By fine-tuning the BERT model, our proposed naturalness evaluation method shows robust results and outperforms the baselines: support vector machines, bi-directional LSTMs, and BLEURT. In addition, the training speed and evaluation performance of naturalness model are improved by transfer learning from quality and informativeness linguistic knowledge.
翻訳日:2021-09-08 14:52:31 公開日:2021-09-07
# 事前学習RoBERTa-GPT2を用いた共感対話生成と外部知識

Empathetic Dialogue Generation with Pre-trained RoBERTa-GPT2 and External Knowledge ( http://arxiv.org/abs/2109.03004v1 )

ライセンス: Link先を確認
Ye Liu, Wolfgang Maier, Wolfgang Minker and Stefan Ultes(参考訳) 対話エージェントにとっての課題は、会話相手の感情を認識し、それに応じて応答することである。 本研究では,RoBERTa-GPT2をエンコーダとして,事前学習した自動エンコードRoBERTaをデコーダとして,共感的対話生成のために提案する。 事前学習したRoBERTaとGPT-2を組み合わせることで,新しい感情の精度を実現する。 ロベルタgpt2モデルの共感能力を実現するために、gpt-2デコーダに対して対話コンテキストの共通認識と感情概念を抽出する、常識知識と感情概念抽出器を提案する。 実験の結果, エンコーダ・デコーダアーキテクチャと外部知識の両面から, 共感的対話生成の利点が示された。

One challenge for dialogue agents is to recognize feelings of the conversation partner and respond accordingly. In this work, RoBERTa-GPT2 is proposed for empathetic dialogue generation, where the pre-trained auto-encoding RoBERTa is utilised as encoder and the pre-trained auto-regressive GPT-2 as decoder. With the combination of the pre-trained RoBERTa and GPT-2, our model realizes a new state-of-the-art emotion accuracy. To enable the empathetic ability of RoBERTa-GPT2 model, we propose a commonsense knowledge and emotional concepts extractor, in which the commonsensible and emotional concepts of dialogue context are extracted for the GPT-2 decoder. The experiment results demonstrate that the empathetic dialogue generation benefits from both pre-trained encoder-decoder architecture and external knowledge.
翻訳日:2021-09-08 14:52:20 公開日:2021-09-07
# 自然言語処理のための逐次注意モジュール

Sequential Attention Module for Natural Language Processing ( http://arxiv.org/abs/2109.03009v1 )

ライセンス: Link先を確認
Mengyuan Zhou, Jian Ma, Haiqin Yang, Lianxin Jiang, Yang Mo(参考訳) 近年,多くの下流自然言語処理(nlp)アプリケーションにおいて,事前学習された大規模ニューラルネットワークモデルが,微調整によって著しく性能向上している。 本稿では,言語モデルにおけるトークン表現をさらに改善する方法について検討する。 そこで我々は,事前学習した言語モデルから学習したトークンの埋め込みに基づいて,シンプルな,効果的なプラグアンドプレイモジュール Sequential Attention Module (SAM) を提案する。 提案するSAMは,FAM(Feature-wise Attention Module)とTAM(Token-wise Attention Module)の2つの主要な注意モジュールから構成される。 より具体的には、FAMは各次元における特徴の重要性を効果的に識別し、下流のNLPアプリケーションに対するオリジナルのトークン埋め込みに対するドット積による効果を促進することができる。 一方、TAMはトークンレベルで機能を再重み付けすることができる。 さらに,FAMの適応フィルタを提案し,騒音の影響を防止し,情報吸収を増加させる。 最後に,提案するSAMの利点と特性を実証するための広範な実験を行った。 まず,SemEval'21タスク7の2つのサブタスクのチャンピオンソリューションにおいてSAMが果たす役割について述べる。 その後、感情分析と3つのNLPタスクにSAMを適用し、SAMが最先端のベースラインを一貫して上回ることを示す。

Recently, large pre-trained neural language models have attained remarkable performance on many downstream natural language processing (NLP) applications via fine-tuning. In this paper, we target at how to further improve the token representations on the language models. We, therefore, propose a simple yet effective plug-and-play module, Sequential Attention Module (SAM), on the token embeddings learned from a pre-trained language model. Our proposed SAM consists of two main attention modules deployed sequentially: Feature-wise Attention Module (FAM) and Token-wise Attention Module (TAM). More specifically, FAM can effectively identify the importance of features at each dimension and promote the effect via dot-product on the original token embeddings for downstream NLP applications. Meanwhile, TAM can further re-weight the features at the token-wise level. Moreover, we propose an adaptive filter on FAM to prevent noise impact and increase information absorption. Finally, we conduct extensive experiments to demonstrate the advantages and properties of our proposed SAM. We first show how SAM plays a primary role in the champion solution of two subtasks of SemEval'21 Task 7. After that, we apply SAM on sentiment analysis and three popular NLP tasks and demonstrate that SAM consistently outperforms the state-of-the-art baselines.
翻訳日:2021-09-08 14:52:04 公開日:2021-09-07
# Generate & Rank: 数学語問題のためのマルチタスクフレームワーク

Generate & Rank: A Multi-task Framework for Math Word Problems ( http://arxiv.org/abs/2109.03034v1 )

ライセンス: Link先を確認
Jianhao Shen, Yichun Yin, Lin Li, Lifeng Shang, Xin Jiang, Ming Zhang, Qun Liu(参考訳) 数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。 近年の多くの研究はMWPを生成タスクとして定式化し、問題記述を数学的表現に変換するためにシーケンス・ツー・シーケンスモデルを採用した。 しかし、数学的表現は小さな誤りを生じやすいが、生成対象はこれらの誤りを明示的に処理しない。 この制限に対処するため、MWPの新しいランキングタスクを考案し、生成事前学習言語モデルに基づくマルチタスクフレームワークであるGenerate & Rankを提案する。 生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。 一方、MWP用に特別に設計された木に基づく乱れと、ランク付けを強化するためのオンライン更新を行う。 提案手法の有効性をベンチマークで示し,本手法が全データセットのベースラインを一貫して上回っていることを示す。 特に古典的Math23kでは、我々の手法は最先端よりも7%(78.4%$\rightarrow $85.4%)高い。

Math word problem (MWP) is a challenging and critical task in natural language processing. Many recent studies formalize MWP as a generation task and have adopted sequence-to-sequence models to transform problem descriptions to mathematical expressions. However, mathematical expressions are prone to minor mistakes while the generation objective does not explicitly handle such mistakes. To address this limitation, we devise a new ranking task for MWP and propose Generate & Rank, a multi-task framework based on a generative pre-trained language model. By joint training with generation and ranking, the model learns from its own mistakes and is able to distinguish between correct and incorrect expressions. Meanwhile, we perform tree-based disturbance specially designed for MWP and an online update to boost the ranker. We demonstrate the effectiveness of our proposed method on the benchmark and the results show that our method consistently outperforms baselines in all datasets. Particularly, in the classical Math23k, our method is 7% (78.4% $\rightarrow$ 85.4%) higher than the state-of-the-art.
翻訳日:2021-09-08 14:51:42 公開日:2021-09-07
# 類似性グラフを用いた接語意味表現の学習

Learning grounded word meaning representations on similarity graphs ( http://arxiv.org/abs/2109.03084v1 )

ライセンス: Link先を確認
Mariella Dimiccoli, Herwig Wendt, Pau Batlle(参考訳) 本稿では,下層グラフ階層上で単語の視覚的接地表現を低次元ノード埋め込みとして学習する新しい手法を提案する。 階層階層の下位レベルは、専用だが通信するグラフを通してモダリティ固有の単語表現をモデル化し、上位レベルはこれらの表現を単一のグラフにまとめ、両方のモダリティから共同で表現を学ぶ。 各グラフのトポロジーは、単語間の類似性関係をモデル化し、グラフ埋め込みと共同で推定される。 このモデルに基づく仮定は、類似した意味を共有する単語は、低次元空間における下層の類似性グラフのコミュニティに対応するというものである。 階層型マルチモーダル類似グラフ埋め込み (HM-SGE) と命名した。 HM-SGEのヒトの類似性判定と概念分類をシミュレートする能力を検証する実験結果が得られた。

This paper introduces a novel approach to learn visually grounded meaning representations of words as low-dimensional node embeddings on an underlying graph hierarchy. The lower level of the hierarchy models modality-specific word representations through dedicated but communicating graphs, while the higher level puts these representations together on a single graph to learn a representation jointly from both modalities. The topology of each graph models similarity relations among words, and is estimated jointly with the graph embedding. The assumption underlying this model is that words sharing similar meaning correspond to communities in an underlying similarity graph in a low-dimensional space. We named this model Hierarchical Multi-Modal Similarity Graph Embedding (HM-SGE). Experimental results validate the ability of HM-SGE to simulate human similarity judgements and concept categorization, outperforming the state of the art.
翻訳日:2021-09-08 14:51:27 公開日:2021-09-07
# GCsT: 行動認識のためのグラフ畳み込み骨格変換器

GCsT: Graph Convolutional Skeleton Transformer for Action Recognition ( http://arxiv.org/abs/2109.02860v1 )

ライセンス: Link先を確認
Ruwen Bai, Min Li, Bo Meng, Fengfa Li, Junxing Ren, Miao Jiang, Degang Sun(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。 しかし、ほとんどのGCNベースの手法では、空間時間グラフの畳み込みはグラフトポロジによって厳格に制限されているが、短期時間文脈のみを捉えており、特徴抽出の柔軟性に欠ける。 本稿では, グラフ畳み込みトランスフォーマー (graph convolutional skeleton transformer, gcst) という新しいアーキテクチャを提案する。 当社のGCsTはTransformerのすべてのメリット(すなわち)を採用しています。 動的注意とグローバルコンテキスト)GCNの利点を維持しながら(すなわち) 階層構造と局所トポロジー構造)。 GCsTでは、空間時空間GCNは局所依存のキャプチャを強制し、Transformerはグローバル空間時空間関係を動的に抽出する。 さらに, 提案したGCsTは, スケルトン配列に存在する付加情報を追加することで, より強力な表現能力を示す。 Transformerを組み込むことで、ほとんど努力せずにモデルに情報を導入することができる。 NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセットの最先端性能を実現するため, 広範な実験を行い, 提案したGCsTを検証する。

Graph convolutional networks (GCNs) achieve promising performance for skeleton-based action recognition. However, in most GCN-based methods, the spatial-temporal graph convolution is strictly restricted by the graph topology while only captures the short-term temporal context, thus lacking the flexibility of feature extraction. In this work, we present a novel architecture, named Graph Convolutional skeleton Transformer (GCsT), which addresses limitations in GCNs by introducing Transformer. Our GCsT employs all the benefits of Transformer (i.e. dynamical attention and global context) while keeps the advantages of GCNs (i.e. hierarchy and local topology structure). In GCsT, the spatial-temporal GCN forces the capture of local dependencies while Transformer dynamically extracts global spatial-temporal relationships. Furthermore, the proposed GCsT shows stronger expressive capability by adding additional information present in skeleton sequences. Incorporating the Transformer allows that information to be introduced into the model almost effortlessly. We validate the proposed GCsT by conducting extensive experiments, which achieves the state-of-the-art performance on NTU RGB+D, NTU RGB+D 120 and Northwestern-UCLA datasets.
翻訳日:2021-09-08 14:51:03 公開日:2021-09-07
# NumGPT: 生成事前学習モデルの栄養能力向上

NumGPT: Improving Numeracy Ability of Generative Pre-trained Models ( http://arxiv.org/abs/2109.03137v1 )

ライセンス: Link先を確認
Zhihua Jin, Xin Jiang, Xingbo Wang, Qun Liu, Yong Wang, Xiaozhe Ren, Huamin Qu(参考訳) 既存の生成事前学習言語モデル(GPTなど)は、一般的なテキストの言語構造と意味論のモデリングに重点を置いている。 しかし、これらのモデルは数の数値的性質を考慮せず、数値推論タスク(例えば、数学用語の問題や測定推定など)で頑健に実行できない。 本稿では,テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。 具体的には、プロトタイプベースの数字埋め込みを利用して、数字のマンティッサをエンコードし、数字の指数をエンコードする。 numgpt の事前学習目標に numeral-aware loss function を組み込むように設計されている。 我々は,NumGPTの数値化能力を評価するために,4つの異なるデータセットについて広範な実験を行った。 実験の結果,NumGPTは,測度推定,数の比較,数語問題,等級分類などの数値推論タスクにおいて,ベースラインモデル(例えば,GPTやGPT with DICE)よりも優れていた。 予備訓練とモデルハイパーパラメータが性能に与える影響を評価するためのアブレーション研究も行われている。

Existing generative pre-trained language models (e.g., GPT) focus on modeling the language structure and semantics of general texts. However, those models do not consider the numerical properties of numbers and cannot perform robustly on numerical reasoning tasks (e.g., math word problems and measurement estimation). In this paper, we propose NumGPT, a generative pre-trained model that explicitly models the numerical properties of numbers in texts. Specifically, it leverages a prototype-based numeral embedding to encode the mantissa of the number and an individual embedding to encode the exponent of the number. A numeral-aware loss function is designed to integrate numerals into the pre-training objective of NumGPT. We conduct extensive experiments on four different datasets to evaluate the numeracy ability of NumGPT. The experiment results show that NumGPT outperforms baseline models (e.g., GPT and GPT with DICE) on a range of numerical reasoning tasks such as measurement estimation, number comparison, math word problems, and magnitude classification. Ablation studies are also conducted to evaluate the impact of pre-training and model hyperparameters on the performance.
翻訳日:2021-09-08 14:50:24 公開日:2021-09-07
# POSSCORE:音声ラベリングによる会話検索の簡易かつ効果的な評価

POSSCORE: A Simple Yet Effective Evaluation of Conversational Search with Part of Speech Labelling ( http://arxiv.org/abs/2109.03039v1 )

ライセンス: Link先を確認
Zeyang Liu, Ke Zhou, Jiaxin Mao, Max L. Wilson(参考訳) Google AssistantやMicrosoft Cortanaのような会話型検索システムは、ユーザーが自然言語対話を通じて検索システムとの通信を許可する新しい検索パラダイムを提供する。 検索結果が自然言語文の形式で提示されるので,このようなシステムの評価は非常に難しい。 可能なレスポンスの無制限数を考えると、可能なすべてのレスポンスに対する関連性評価の収集は不可能である。 本稿では,会話検索のための簡易かつ効果的な自動評価手法POSSCOREを提案する。 提案する埋め込みベースメトリクスは、応答中の用語の一部(pos)の影響を考慮に入れている。 本研究は,対話型検索評価において,POSラベルなどの統語的情報を活用することの重要性を初めて体系的に示すものである。 実験の結果,人間の好みと相関する指標が得られ,最先端のベースライン指標よりも大幅な改善が得られた。

Conversational search systems, such as Google Assistant and Microsoft Cortana, provide a new search paradigm where users are allowed, via natural language dialogues, to communicate with search systems. Evaluating such systems is very challenging since search results are presented in the format of natural language sentences. Given the unlimited number of possible responses, collecting relevance assessments for all the possible responses is infeasible. In this paper, we propose POSSCORE, a simple yet effective automatic evaluation method for conversational search. The proposed embedding-based metric takes the influence of part of speech (POS) of the terms in the response into account. To the best knowledge, our work is the first to systematically demonstrate the importance of incorporating syntactic information, such as POS labels, for conversational search evaluation. Experimental results demonstrate that our metrics can correlate with human preference, achieving significant improvements over state-of-the-art baseline metrics.
翻訳日:2021-09-08 14:50:04 公開日:2021-09-07
# 資源制約下での規範的プロセス監視:因果推論アプローチ

Prescriptive Process Monitoring Under Resource Constraints: A Causal Inference Approach ( http://arxiv.org/abs/2109.02894v1 )

ライセンス: Link先を確認
Mahmoud Shoush, Marlon Dumas(参考訳) 規範的なプロセス監視は、実行時に介入をトリガーすることによってビジネスプロセスのパフォーマンスを最適化する一連のテクニックである。 既存の規範的なプロセス監視技術は、トリガーされる可能性のある介入の数が無制限であると仮定する。 しかし実際には、特定の介入は資源を有限の能力で消費する。 例えば、ローン起業プロセスにおいて、介入は、申請者のローンを受ける機会を増やすための代替ローンオファーを準備することから成り得る。 この介入は、クレジットオフィサーから一定の時間を必要とするため、すべてのケースにおいてこの介入をトリガーすることは不可能である。 本稿では,リソース制約下でコスト関数を最適化するための介入をトリガーする規範的プロセス監視手法を提案する。 提案手法は, 因果推論と組み合わせて, 結果に対する介入の効果を推定するために, ネガティブな結果につながる可能性のある症例を特定するために, 予測モデルに頼っている。 これらの出力は、コスト関数を最大化するために介入にリソースを割り当てるために使用される。 予備的な評価から,提案手法は純予測ベースライン(非コーサルベースライン)よりも高い純利得が得られることが示唆された。

Prescriptive process monitoring is a family of techniques to optimize the performance of a business process by triggering interventions at runtime. Existing prescriptive process monitoring techniques assume that the number of interventions that may be triggered is unbounded. In practice, though, specific interventions consume resources with finite capacity. For example, in a loan origination process, an intervention may consist of preparing an alternative loan offer to increase the applicant's chances of taking a loan. This intervention requires a certain amount of time from a credit officer, and thus, it is not possible to trigger this intervention in all cases. This paper proposes a prescriptive process monitoring technique that triggers interventions to optimize a cost function under fixed resource constraints. The proposed technique relies on predictive modeling to identify cases that are likely to lead to a negative outcome, in combination with causal inference to estimate the effect of an intervention on the outcome of the case. These outputs are then used to allocate resources to interventions to maximize a cost function. A preliminary empirical evaluation suggests that the proposed approach produces a higher net gain than a purely predictive (non-causal) baseline.
翻訳日:2021-09-08 14:49:50 公開日:2021-09-07
# 変圧器とオントロジー表現を用いた逐次診断予測

Sequential Diagnosis Prediction with Transformer and Ontological Representation ( http://arxiv.org/abs/2109.03069v1 )

ライセンス: Link先を確認
Xueping Peng, Guodong Long, Tao Shen, Sen Wang, Jing Jiang(参考訳) 電子健康記録(ehr)上での逐次診断予測は、医療領域における予測分析に不可欠であることが証明されている。 EHRデータは、患者の医療システムとの相互作用のシーケンシャルな記録であり、時間性、不規則性、データ不足の多くの特性を持っている。 近年のいくつかの研究は、EHRデータにシーケンシャルな情報を利用することで、医療予測モデルを訓練しているが、病院からの入院/退院状態と不十分なデータを含む、不規則で一時的なEHRデータに対して脆弱である。 そこで本研究では,神経常微分方程式(neural ordinary differential equation,ニューラル常微分方程式)を用いて,訪問時間と滞在時間の長さの不規則な間隔をそれぞれ処理し,医療用オントロジーの統合によるデータ不足の軽減と,多層トランスフォーマブロックを用いた患者の訪問間の依存関係の把握を行う,エンドツーエンドのロバストトランスフォーマモデルを提案する。 2つの実世界の医療データセットで実施された実験では、SETORのシーケンシャル診断予測モデルは、十分なトレーニングデータや不十分なトレーニングデータに関係なく、従来の最先端のアプローチよりも優れた予測結果を達成するだけでなく、医療コードのより解釈可能な埋め込みも導き出している。 実験的なコードはgithubリポジトリで入手できる(https://github.com/ xueping/setor)。

Sequential diagnosis prediction on the Electronic Health Record (EHR) has been proven crucial for predictive analytics in the medical domain. EHR data, sequential records of a patient's interactions with healthcare systems, has numerous inherent characteristics of temporality, irregularity and data insufficiency. Some recent works train healthcare predictive models by making use of sequential information in EHR data, but they are vulnerable to irregular, temporal EHR data with the states of admission/discharge from hospital, and insufficient data. To mitigate this, we propose an end-to-end robust transformer-based model called SETOR, which exploits neural ordinary differential equation to handle both irregular intervals between a patient's visits with admitted timestamps and length of stay in each visit, to alleviate the limitation of insufficient data by integrating medical ontology, and to capture the dependencies between the patient's visits by employing multi-layer transformer blocks. Experiments conducted on two real-world healthcare datasets show that, our sequential diagnoses prediction model SETOR not only achieves better predictive results than previous state-of-the-art approaches, irrespective of sufficient or insufficient training data, but also derives more interpretable embeddings of medical codes. The experimental codes are available at the GitHub repository (https://github.com/ Xueping/SETOR).
翻訳日:2021-09-08 14:49:31 公開日:2021-09-07
# 畳み込み残留ネットワークを用いた低次元多様体上のBesov関数近似とバイナリ分類

Besov Function Approximation and Binary Classification on Low-Dimensional Manifolds Using Convolutional Residual Networks ( http://arxiv.org/abs/2109.02832v1 )

ライセンス: Link先を確認
Hao Liu, Minshuo Chen, Tuo Zhao, Wenjing Liao(参考訳) ディープニューラルネットワークに関する既存の統計理論の多くは、データ次元によって呪われたサンプルの複雑さを持っているため、高次元データに対するディープラーニングの実証的な成功を十分に説明できない。 このギャップを埋めるため,実世界のデータセットの低次元幾何構造を利用する。 畳み込み残余ネットワーク(ConvResNet)の理論的保証を関数近似および二項分類の統計的推定の観点から確立する。 具体的には、$d$-次元多様体上のデータが$\mathbb{R}^D$に等尺的に埋め込まれていることを考えると、ネットワークアーキテクチャが適切に選択された場合、ConvResNetsは(1)任意の精度で多様体上のベソフ関数を近似し、(2)経験的ロジスティックリスクを最小化して分類器を学ぶことができ、$n^{-\frac{s}{2s+2(s\vee d)}}$の順序で過剰なリスクを与える。 これはサンプルの複雑さがデータ次元$d$ではなく本質次元$d$に依存することを意味する。 その結果,ConvResNetsはデータセットの低次元構造に適応していることがわかった。

Most of existing statistical theories on deep neural networks have sample complexities cursed by the data dimension and therefore cannot well explain the empirical success of deep learning on high-dimensional data. To bridge this gap, we propose to exploit low-dimensional geometric structures of the real world data sets. We establish theoretical guarantees of convolutional residual networks (ConvResNet) in terms of function approximation and statistical estimation for binary classification. Specifically, given the data lying on a $d$-dimensional manifold isometrically embedded in $\mathbb{R}^D$, we prove that if the network architecture is properly chosen, ConvResNets can (1) approximate Besov functions on manifolds with arbitrary accuracy, and (2) learn a classifier by minimizing the empirical logistic risk, which gives an excess risk in the order of $n^{-\frac{s}{2s+2(s\vee d)}}$, where $s$ is a smoothness parameter. This implies that the sample complexity depends on the intrinsic dimension $d$, instead of the data dimension $D$. Our results demonstrate that ConvResNets are adaptive to low-dimensional structures of data sets.
翻訳日:2021-09-08 14:49:07 公開日:2021-09-07
# 構造因果モデルによるインスタンス依存ラベルノイズ学習

Instance-dependent Label-noise Learning under a Structural Causal Model ( http://arxiv.org/abs/2109.02986v1 )

ライセンス: Link先を確認
Yu Yao, Tongliang Liu, Mingming Gong, Bo Han, Gang Niu, Kun Zhang(参考訳) ラベルノイズは、ディープニューラルネットワークがラベルエラーをオーバーフィットするため、ディープラーニングアルゴリズムのパフォーマンスを低下させる。 X と Y はそれぞれインスタンスとクリーンラベルを表す。 Y が X の原因であるとき、SVHN や CIFAR など多くのデータセットが構築されているため、P(X) と P(Y|X) の分布は絡み合っている。 これは、教師なしインスタンスが分類器の学習に役立ち、ラベルノイズの副作用を低減することを意味する。 しかしながら、ラベルノイズ問題に対処するために因果情報をどのように利用するかは、いまだに不明である。 本稿では,構造的因果モデルを用いて,インスタンス依存ラベル雑音学習のための新しい生成手法を提案する。 特に、インスタンスを適切にモデル化することで、ラベルノイズ遷移行列の識別性が向上し、より優れた分類が可能となることを示す。 実験により,本手法は,合成および実世界のラベルノイズデータセットにおいて,最先端の手法よりも優れていた。

Label noise will degenerate the performance of deep learning algorithms because deep neural networks easily overfit label errors. Let X and Y denote the instance and clean label, respectively. When Y is a cause of X, according to which many datasets have been constructed, e.g., SVHN and CIFAR, the distributions of P(X) and P(Y|X) are entangled. This means that the unsupervised instances are helpful to learn the classifier and thus reduce the side effect of label noise. However, it remains elusive on how to exploit the causal information to handle the label noise problem. In this paper, by leveraging a structural causal model, we propose a novel generative approach for instance-dependent label-noise learning. In particular, we show that properly modeling the instances will contribute to the identifiability of the label noise transition matrix and thus lead to a better classifier. Empirically, our method outperforms all state-of-the-art methods on both synthetic and real-world label-noise datasets.
翻訳日:2021-09-08 14:48:44 公開日:2021-09-07
# 半パラメトリックベイズネットワーク

Semiparametric Bayesian Networks ( http://arxiv.org/abs/2109.03008v1 )

ライセンス: Link先を確認
David Atienza, Concha Bielza and Pedro Larra\~naga(参考訳) パラメトリックおよび非パラメトリック条件付き確率分布を組み合わせた半パラメトリックベイズネットワークを提案する。 彼らの目標は、パラメトリックモデルの有界複雑性と非パラメトリックモデルの柔軟性の両方の利点を統合することである。 半パラメトリックベイズネットワークは,gaussian bayesian networkとkernel density estimation bayesian networksの2種類のベイズネットワークを一般化する。 この目的のために、半パラメトリックベイズネットワークに必要な2つの異なる条件付き確率分布を考える。 さらに,よく知られた2つのアルゴリズム (greedy hill-climbing と pc) の修正を行い,データから半パラメトリックベイズネットワークの構造を学ぶ。 これを実現するために,クロスバリデーションに基づくスコア関数を用いる。 さらに、検証データセットを使用して、オーバーフィッティングを避けるために、早期停止基準を適用します。 提案アルゴリズムの適用性を評価するため,線形関数と非線形関数を混合した合成データ,ガウスベイジアンネットワークからサンプリングした正規データ,UCIレポジトリからの実データ,劣化データを用いた総合的な実験を行った。 本実験の結果,提案アルゴリズムはパラメータ成分と非パラメトリック成分の組み合わせを精度良く学習し,最先端手法に匹敵する性能を実現していることがわかった。

We introduce semiparametric Bayesian networks that combine parametric and nonparametric conditional probability distributions. Their aim is to incorporate the advantages of both components: the bounded complexity of parametric models and the flexibility of nonparametric ones. We demonstrate that semiparametric Bayesian networks generalize two well-known types of Bayesian networks: Gaussian Bayesian networks and kernel density estimation Bayesian networks. For this purpose, we consider two different conditional probability distributions required in a semiparametric Bayesian network. In addition, we present modifications of two well-known algorithms (greedy hill-climbing and PC) to learn the structure of a semiparametric Bayesian network from data. To realize this, we employ a score function based on cross-validation. In addition, using a validation dataset, we apply an early-stopping criterion to avoid overfitting. To evaluate the applicability of the proposed algorithm, we conduct an exhaustive experiment on synthetic data sampled by mixing linear and nonlinear functions, multivariate normal data sampled from Gaussian Bayesian networks, real data from the UCI repository, and bearings degradation data. As a result of this experiment, we conclude that the proposed algorithm accurately learns the combination of parametric and nonparametric components, while achieving a performance comparable with those provided by state-of-the-art methods.
翻訳日:2021-09-08 14:48:29 公開日:2021-09-07
# ICCAD 特別セッション:画像分類のための量子古典ハイブリッド機械学習

ICCAD Special Session Paper: Quantum-Classical Hybrid Machine Learning for Image Classification ( http://arxiv.org/abs/2109.02862v1 )

ライセンス: Link先を確認
Mahabubul Alam, Satwik Kundu, Rasit Onur Topaloglu, Swaroop Ghosh(参考訳) 画像分類は従来のディープラーニング(DL)における主要な応用分野である。 量子機械学習(QML)は、画像分類に革命をもたらす可能性がある。 典型的なDLベースの画像分類では、畳み込みニューラルネットワーク(CNN)を用いて画像と多層パーセプトロンネットワーク(MLP)から特徴を抽出し、実際の決定境界を作成する。 一方、qmlモデルはこれらの両方のタスクで有用である。 パラメータ化量子回路(Quanvolution)との畳み込みは、画像からリッチな特徴を抽出することができる。 一方、量子ニューラルネットワーク(QNN)モデルは複雑な決定境界を作ることができる。 したがって、QuanvolutionとQNNは、画像分類のためのエンドツーエンドQMLモデルを作成するために使用できる。 あるいは、PCA(Principal Components Analysis)やCAE(Convolutional Autoencoder)といった古典的な次元削減技術を用いて、画像の特徴を別々に抽出し、抽出した特徴を用いてQNNを訓練することができる。 画像分類のための量子古典的ハイブリッドMLモデル、すなわちクオン進化ニューラルネットワークと古典的アルゴリズムとQNNを用いた次元削減に関する2つの提案をレビューする。 特に、画像データセットのQuanvolutionにおけるトレーニング可能なフィルタとCAEに基づく特徴抽出(PCAのような線形変換を用いて次元を縮小する代わりに)を例に挙げる。 我々は,これらのモデルの多様な設計選択,可能性,欠点について論じる。 また、さまざまな設計選択でこれらのハイブリッドモデルを作成し、探求するためのPythonベースのフレームワークもリリースしています。

Image classification is a major application domain for conventional deep learning (DL). Quantum machine learning (QML) has the potential to revolutionize image classification. In any typical DL-based image classification, we use convolutional neural network (CNN) to extract features from the image and multi-layer perceptron network (MLP) to create the actual decision boundaries. On one hand, QML models can be useful in both of these tasks. Convolution with parameterized quantum circuits (Quanvolution) can extract rich features from the images. On the other hand, quantum neural network (QNN) models can create complex decision boundaries. Therefore, Quanvolution and QNN can be used to create an end-to-end QML model for image classification. Alternatively, we can extract image features separately using classical dimension reduction techniques such as, Principal Components Analysis (PCA) or Convolutional Autoencoder (CAE) and use the extracted features to train a QNN. We review two proposals on quantum-classical hybrid ML models for image classification namely, Quanvolutional Neural Network and dimension reduction using a classical algorithm followed by QNN. Particularly, we make a case for trainable filters in Quanvolution and CAE-based feature extraction for image datasets (instead of dimension reduction using linear transformations such as, PCA). We discuss various design choices, potential opportunities, and drawbacks of these models. We also release a Python-based framework to create and explore these hybrid models with a variety of design choices.
翻訳日:2021-09-08 14:47:23 公開日:2021-09-07
# ジェネレーティブ・ディバイサル・ネットワークを用いたeコマース商品のブランドラベルアルベド抽出

Brand Label Albedo Extraction of eCommerce Products using Generative Adversarial Network ( http://arxiv.org/abs/2109.02929v1 )

ライセンス: Link先を確認
Suman Sapkota, Manish Juneja, Laurynas Keleras, Pranav Kotwal, Binod Bhattarai(参考訳) 本稿では,eコマース製品のブランドラベルからアルベドを抽出する手法を提案する。 そこで我々は,アルベド抽出のための大規模写真リアリスティック合成データセットを生成し,様々な照明条件の画像をアルベドに変換する生成モデルを訓練した。 本手法の一般化をテストするために,本手法を広範に評価した。 実験結果から,未認識のレンダリング画像と野生画像の両方において,既存の手法と比較して解の一般化が良好であることを確認した。

In this paper we present our solution to extract albedo of branded labels for e-commerce products. To this end, we generate a large-scale photo-realistic synthetic data set for albedo extraction followed by training a generative model to translate images with diverse lighting conditions to albedo. We performed an extensive evaluation to test the generalisation of our method to in-the-wild images. From the experimental results, we observe that our solution generalises well compared to the existing method both in the unseen rendered images as well as in the wild image.
翻訳日:2021-09-08 14:47:02 公開日:2021-09-07
# 畳み込みスパース符号化のための効率的なADMMアルゴリズム

Efficient ADMM-based Algorithms for Convolutional Sparse Coding ( http://arxiv.org/abs/2109.02969v1 )

ライセンス: Link先を確認
Farshad G. Veshki and Sergiy A. Vorobyov(参考訳) 畳み込みスパース符号は、大域シフト不変モデルを取り込むことで標準スパース近似を改善する。 最も効率的な畳み込み符号化法は、乗算器の交互方向法と畳み込み定理に基づいている。 これらの方法の唯一の大きな違いは、畳み込み最小二乗のサブプロブレムへのアプローチである。 この手紙は、最先端のアルゴリズムの効率を向上させるサブプロブレムの解を示す。 また,効率的な畳み込み辞書学習手法の開発にも同様のアプローチを用いる。 さらに,近似誤差に制約のある畳み込みスパース符号化のための新しいアルゴリズムを提案する。

Convolutional sparse coding improves on the standard sparse approximation by incorporating a global shift-invariant model. The most efficient convolutional sparse coding methods are based on the alternating direction method of multipliers and the convolution theorem. The only major difference between these methods is how they approach a convolutional least-squares fitting subproblem. This letter presents a solution to this subproblem, which improves the efficiency of the state-of-the-art algorithms. We also use the same approach for developing an efficient convolutional dictionary learning method. Furthermore, we propose a novel algorithm for convolutional sparse coding with a constraint on the approximation error.
翻訳日:2021-09-08 14:46:51 公開日:2021-09-07
# 逆データのない高速サンプル再重み付け学習

Learning Fast Sample Re-weighting Without Reward Data ( http://arxiv.org/abs/2109.03216v1 )

ライセンス: Link先を確認
Zizhao Zhang and Tomas Pfister(参考訳) トレーニングサンプルの再重み付けは、不均衡ラベルや破損ラベルなどのデータバイアスに対処するための効果的なアプローチである。 近年の手法では、強化学習とメタ学習の枠組みに基づくモデルトレーニングと組み合わせてサンプル再重み付け戦略を学習する学習アルゴリズムが開発されている。 しかし、追加の偏りのない報酬データによって、一般適用性が制限されている。 さらに、既存の学習ベースのサンプル再重み付け手法では、モデルと重み付けパラメータのネスト最適化が必要となる。 本稿では,これら2つの問題に対処し,新たな学習ベース高速サンプル再重み付け法(fsr)を提案する。 この方法は、履歴から学習してプロキシ報酬データを構築し、最適化コストを削減する機能共有という2つの主要なアイデアに基づいている。 実験により,提案手法はラベル雑音の頑健性や長い尾の認識に関する技術と競合する結果が得られ,訓練効率は大幅に向上した。 ソースコードはhttps://github.com/g oogle-research/googl e-research/tree/mast er/iegで公開されている。

Training sample re-weighting is an effective approach for tackling data biases such as imbalanced and corrupted labels. Recent methods develop learning-based algorithms to learn sample re-weighting strategies jointly with model training based on the frameworks of reinforcement learning and meta learning. However, depending on additional unbiased reward data is limiting their general applicability. Furthermore, existing learning-based sample re-weighting methods require nested optimizations of models and weighting parameters, which requires expensive second-order computation. This paper addresses these two problems and presents a novel learning-based fast sample re-weighting (FSR) method that does not require additional reward data. The method is based on two key ideas: learning from history to build proxy reward data and feature sharing to reduce the optimization cost. Our experiments show the proposed method achieves competitive results compared to state of the arts on label noise robustness and long-tailed recognition, and does so while achieving significantly improved training efficiency. The source code is publicly available at https://github.com/g oogle-research/googl e-research/tree/mast er/ieg.
翻訳日:2021-09-08 14:46:42 公開日:2021-09-07
# メタパス部分グラフ学習に基づくHMSGの不均一グラフニューラルネットワーク

HMSG: Heterogeneous Graph Neural Network based on Metapath Subgraph Learning ( http://arxiv.org/abs/2109.02868v1 )

ライセンス: Link先を確認
Xinjun Cai, Jiaxing Shang, Fei Hao, Dajiang Liu, Linjiang Zheng(参考訳) 多くの実世界のデータは、異なる種類のノードと接続を持つ異種グラフとして表現することができる。 ヘテロジニアスグラフニューラルネットワークモデルは、ノード分類やリンク予測などのダウンストリームタスクのために、低次元ベクトル空間にノードやサブグラフを埋め込むことを目的としている。 最近ではいくつかのモデルが提案されているが、それらは同じ種類の隣人からの情報のみを集約するか、同じ方法で同質で異質な隣人を扱うだけである。 そこで本研究では,ヘテロジニアスとヘテロジニアスの両方から構造的,意味的,属性情報を包括的に取得する,hmsgと呼ばれる新しいヘテロジニアスグラフニューラルネットワークモデルを提案する。 具体的には、まず、ヘテロジニアスグラフを複数のメタパスベースの均質およびヘテロジニアスサブグラフに分解し、各サブグラフが特定の意味的および構造的情報を関連付ける。 次に、各サブグラフに独立してメッセージ集約手法を適用し、よりターゲティングで効率的な方法で情報を学習できるようにする。 タイプ固有の属性変換を通じて、ノード属性を異なる種類のノード間で転送することもできる。 最後に、サブグラフからの情報を融合して完全な表現を得る。 ノード分類、ノードクラスタリング、リンク予測タスクのためのいくつかのデータセットに対する大規模な実験は、HMSGが最先端のベースラインよりもすべての評価指標で最高のパフォーマンスを達成することを示している。

Many real-world data can be represented as heterogeneous graphs with different types of nodes and connections. Heterogeneous graph neural network model aims to embed nodes or subgraphs into low-dimensional vector space for various downstream tasks such as node classification, link prediction, etc. Although several models were proposed recently, they either only aggregate information from the same type of neighbors, or just indiscriminately treat homogeneous and heterogeneous neighbors in the same way. Based on these observations, we propose a new heterogeneous graph neural network model named HMSG to comprehensively capture structural, semantic and attribute information from both homogeneous and heterogeneous neighbors. Specifically, we first decompose the heterogeneous graph into multiple metapath-based homogeneous and heterogeneous subgraphs, and each subgraph associates specific semantic and structural information. Then message aggregation methods are applied to each subgraph independently, so that information can be learned in a more targeted and efficient manner. Through a type-specific attribute transformation, node attributes can also be transferred among different types of nodes. Finally, we fuse information from subgraphs together to get the complete representation. Extensive experiments on several datasets for node classification, node clustering and link prediction tasks show that HMSG achieves the best performance in all evaluation metrics than state-of-the-art baselines.
翻訳日:2021-09-08 14:46:25 公開日:2021-09-07
# OdoNet:ハードウェア駆動型オドメーターを使わずに車載ナビゲーションを支援する

OdoNet: Untethered Speed Aiding for Vehicle Navigation Without Hardware Wheeled Odometer ( http://arxiv.org/abs/2109.03091v1 )

ライセンス: Link先を確認
Hailiang Tang, Xiaoji Niu, Tisheng Zhang, You Li and Jingnan Liu(参考訳) オドメーターは、グローバルナビゲーション衛星システム/慣性ナビゲーションシステム(GNSS/INS)の統合車両ナビゲーションの精度を大幅に向上することが証明されている。 しかし、オドメーターは多くのアプリケーション、特にアフターマーケットデバイスではアクセスできない。 ハードウェア駆動型オドメータを使わずに前進速度支援を行うために,単慣性測定ユニット(IMU)から一次元畳み込みニューラルネットワーク(CNN)を用いた擬似オドメータモデル学習を行うOdoNetを提案する。 OdoNetの有効性と堅牢性を検証するために、詳細な実験が行われた。 その結果、IMUの個人性、車両の負荷、道路条件がOdoNetの堅牢性や精度にはほとんど影響を与えず、一方IMUのバイアスや取付角度はOdoNetを著しく損なう可能性が示唆された。 これにより、IMUバイアスと取付角度の影響を効果的に緩和するデータクリーニング手順が加えられる。 非ホロノミック制約(NHC)のみを用いるプロセスと比較して、擬似オドメーターを使用した場合、位置決め誤差は約68%減少し、ハードウェアホイール付きオドメーターでは約74%減少する。 結論として,提案するOdoNetは車両航法用擬似ドメータとして使用することができ,GNSSの環境における位置決めの精度と信頼性を効率よく向上することができる。

Odometer has been proven to significantly improve the accuracy of the Global Navigation Satellite System / Inertial Navigation System (GNSS/INS) integrated vehicle navigation in GNSS-challenged environments. However, the odometer is inaccessible in many applications, especially for aftermarket devices. To apply forward speed aiding without hardware wheeled odometer, we propose OdoNet, an untethered one-dimensional Convolution Neural Network (CNN)-based pseudo-odometer model learning from a single Inertial Measurement Unit (IMU), which can act as an alternative to the wheeled odometer. Dedicated experiments have been conducted to verify the feasibility and robustness of the OdoNet. The results indicate that the IMU individuality, the vehicle loads, and the road conditions have little impact on the robustness and precision of the OdoNet, while the IMU biases and the mounting angles may notably ruin the OdoNet. Thus, a data-cleaning procedure is added to effectively mitigate the impacts of the IMU biases and the mounting angles. Compared to the process using only non-holonomic constraint (NHC), after employing the pseudo-odometer, the positioning error is reduced by around 68%, while the percentage is around 74% for the hardware wheeled odometer. In conclusion, the proposed OdoNet can be employed as an untethered pseudo-odometer for vehicle navigation, which can efficiently improve the accuracy and reliability of the positioning in GNSS-denied environments.
翻訳日:2021-09-08 14:46:02 公開日:2021-09-07
# ganser:脳波に基づく感情認識のための自己教師付きデータ拡張フレームワーク

GANSER: A Self-supervised Data Augmentation Framework for EEG-based Emotion Recognition ( http://arxiv.org/abs/2109.03124v1 )

ライセンス: Link先を確認
Ahi Zhang and Sheng-hua Zhong and Yan Liu(参考訳) 脳波(EEG)に基づく感情計算におけるデータ不足問題は、特にディープラーニングモデルを用いた高精度で安定な効率的なモデルを構築するのに困難をもたらす。 データ拡張は最近、精度の向上、安定性の向上、過剰フィッティングの削減といった、ディープラーニングモデルのパフォーマンス向上を達成している。 本稿では,GANSER(Generative Adversarial Network-based Self-supervised Data Augmentation)という新しいデータ拡張フレームワークを提案する。 脳波に基づく感情認識のための自己教師型学習と対向学習を組み合わせた最初の試みとして、提案フレームワークは高品質で高多様性の模擬脳波サンプルを生成することができる。 特に,脳波発生器を学習し,生成された脳波信号に実サンプルの分布を近似させ,拡張標本の品質を確保するために,敵対的訓練を利用する。 変換関数を用いて脳波信号の一部を隠蔽し、生成元に残りの部分に基づいて潜在的な脳波信号を合成させ、幅広いサンプルを生成する。 変換時のマスキング可能性を事前知識として導入し、脳波信号の識別可能な特徴を抽出し、分類器を拡張標本空間に一般化する。 最後に,提案手法の広範な実験により,感情認識によるパフォーマンス向上と最先端の成果の達成が期待できる。

The data scarcity problem in Electroencephalograp hy (EEG) based affective computing results into difficulty in building an effective model with high accuracy and stability using machine learning algorithms especially deep learning models. Data augmentation has recently achieved considerable performance improvement for deep learning models: increased accuracy, stability, and reduced over-fitting. In this paper, we propose a novel data augmentation framework, namely Generative Adversarial Network-based Self-supervised Data Augmentation (GANSER). As the first to combine adversarial training with self-supervised learning for EEG-based emotion recognition, the proposed framework can generate high-quality and high-diversity simulated EEG samples. In particular, we utilize adversarial training to learn an EEG generator and force the generated EEG signals to approximate the distribution of real samples, ensuring the quality of augmented samples. A transformation function is employed to mask parts of EEG signals and force the generator to synthesize potential EEG signals based on the remaining parts, to produce a wide variety of samples. The masking possibility during transformation is introduced as prior knowledge to guide to extract distinguishable features for simulated EEG signals and generalize the classifier to the augmented sample space. Finally, extensive experiments demonstrate our proposed method can help emotion recognition for performance gain and achieve state-of-the-art results.
翻訳日:2021-09-08 14:45:36 公開日:2021-09-07
# 衛星画像と機械学習を使って、電気アクセスの寿命への影響を推定する

Using Satellite Imagery and Machine Learning to Estimate the Livelihood Impact of Electricity Access ( http://arxiv.org/abs/2109.02890v1 )

ライセンス: Link先を確認
Nathan Ratledge, Gabe Cadamuro, Brandon de la Cuesta, Matthieu Stigler, Marshall Burke(参考訳) 世界の多くの地域では、主要な経済成果に関するデータは乏しく、公共政策の発展、ターゲティング、評価を阻害している。 衛星画像と機械学習の進歩は、これらのデータと推論の課題を改善するのにどのように役立つかを実証する。 ウガンダを横断する電力網の拡大の文脈において,衛星画像とコンピュータビジョンを組み合わせることで,生活に対する電気アクセスの因果的影響を推定するための局所的生活水準測定を開発できることを示す。 次に、これらのデータに適用した場合、MLベースの推論技術が従来の代替手段よりも、電化の因果的影響の信頼性の高い推定方法を示す。 グリッドアクセスはウガンダの農村部における村レベルの資産富を0.17の標準偏差で改善し,未処理地域と比較して調査期間の成長率を2倍に上回っていると推定した。 本研究は,主要なインフラ投資の影響に関する国内規模の証拠を提供し,データ分散環境における今後の政策評価に対する低コストで一般化可能なアプローチを提供する。

In many regions of the world, sparse data on key economic outcomes inhibits the development, targeting, and evaluation of public policy. We demonstrate how advancements in satellite imagery and machine learning can help ameliorate these data and inference challenges. In the context of an expansion of the electrical grid across Uganda, we show how a combination of satellite imagery and computer vision can be used to develop local-level livelihood measurements appropriate for inferring the causal impact of electricity access on livelihoods. We then show how ML-based inference techniques deliver more reliable estimates of the causal impact of electrification than traditional alternatives when applied to these data. We estimate that grid access improves village-level asset wealth in rural Uganda by 0.17 standard deviations, more than doubling the growth rate over our study period relative to untreated areas. Our results provide country-scale evidence on the impact of a key infrastructure investment, and provide a low-cost, generalizable approach to future policy evaluation in data sparse environments.
翻訳日:2021-09-08 14:44:57 公開日:2021-09-07
# 事前学習モデルによる一般化可能なコモンセンス推論の探索

Exploring Strategies for Generalizable Commonsense Reasoning with Pre-trained Models ( http://arxiv.org/abs/2109.02837v1 )

ライセンス: Link先を確認
Kaixin Ma, Filip Ilievski, Jonathan Francis, Satoru Ozaki, Eric Nyberg, Alessandro Oltramari(参考訳) 常識推論ベンチマークは、微調整言語モデルによって大きく解決されている。 欠点は、微調整によってモデルがタスク固有のデータに過度に適合し、トレーニング前の知識を忘れてしまう可能性があることだ。 最近の研究は、モデルが過去の経験から既に有用な知識を持っている可能性があるため、軽量なモデル更新を提案するだけであるが、どの部分と、与えられたタスクのためにモデルが洗練されるべき程度を理解することが課題である。 本稿では,コモンセンス推論データセットから学習するモデルについて検討する。 モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。 2つのモデルを用いた実験により、微調整は、内容とタスクの構造の両方を学習することで、最高のパフォーマンスを示すが、過剰な適合と新しい回答への一般化に苦しむ。 プレフィックスチューニングのような代替適応手法は、同等の精度を持つが、解を認識できないほど一般化し、逆の分割に対してより頑健である。

Commonsense reasoning benchmarks have been largely solved by fine-tuning language models. The downside is that fine-tuning may cause models to overfit to task-specific data and thereby forget their knowledge gained during pre-training. Recent works only propose lightweight model updates as models may already possess useful knowledge from past experience, but a challenge remains in understanding what parts and to what extent models should be refined for a given task. In this paper, we investigate what models learn from commonsense reasoning datasets. We measure the impact of three different adaptation methods on the generalization and accuracy of models. Our experiments with two models show that fine-tuning performs best, by learning both the content and the structure of the task, but suffers from overfitting and limited generalization to novel answers. We observe that alternative adaptation methods like prefix-tuning have comparable accuracy, but generalize better to unseen answers and are more robust to adversarial splits.
翻訳日:2021-09-08 14:43:45 公開日:2021-09-07
# 統計的・自然言語処理技術を用いた金融分野向けデータ駆動コンテンツ作成

Data Driven Content Creation using Statistical and Natural Language Processing Techniques for Financial Domain ( http://arxiv.org/abs/2109.02935v1 )

ライセンス: Link先を確認
Ankush Chopra, Prateek Nagwanshi, Sohom Ghosh(参考訳) 長年にわたり、顧客が情報を瞬時に取得するという期待は、仮想アシスタントのようなチャネルの利用の増加をもたらしてきた。 典型的には、顧客はまず検索やバーチャルアシスタントのような低タッチのチャンネルから質問に答えようとするが、その後チャットエージェントや電話の担当者と連絡を取る。 これらの低タッチシステムの高利用は、顧客が遅れずにサービスを提供しながら、低コストのサービスを実現することができるため、顧客と組織の両方にとって勝利です。 本稿では,第1部では通話,検索,チャットといった異なるインタラクションチャネルからの情報を結合する手法を記述した2部構成を提案する。 ユーザインテントのような短い検索クエリにコールやチャットなどの高タッチインタラクションチャネルデータを(積み重ねたBi-LSTMネットワークを使用して)要約し、対話データ(階層的集約クラスタリングを使用)から組織的に成長した意図的な分類を作成する。 フレームワークの第2部では、インタラクションデータソースの分析による顧客の質問の抽出に重点を置いている。 TF-IDFとBERT(Devlin et al., 2019)を用いて類似点を計算する。 また、これらの特定された質問を、構文的および意味的類似性を用いてフレームワークの最初の部分の出力にマッピングする。

Over the years customers' expectation of getting information instantaneously has given rise to the increased usage of channels like virtual assistants. Typically, customers try to get their questions answered by low-touch channels like search and virtual assistant first, before getting in touch with a live chat agent or the phone representative. Higher usage of these low-touch systems is a win-win for both customers and the organization since it enables organizations to attain a low cost of service while customers get served without delay. In this paper, we propose a two-part framework where the first part describes methods to combine the information from different interaction channels like call, search, and chat. We do this by summarizing (using a stacked Bi-LSTM network) the high-touch interaction channel data such as call and chat into short searchquery like customer intents and then creating an organically grown intent taxonomy from interaction data (using Hierarchical Agglomerative Clustering). The second part of the framework focuses on extracting customer questions by analyzing interaction data sources. It calculates similarity scores using TF-IDF and BERT(Devlin et al., 2019). It also maps these identified questions to the output of the first part of the framework using syntactic and semantic similarity.
翻訳日:2021-09-08 14:43:28 公開日:2021-09-07
# FH-SWF SG at GermEval 2021: Using Transformer-based Language Models to Identification Toxic, Engaging, and Fact-Claiming Comments

FH-SWF SG at GermEval 2021: Using Transformer-Based Language Models to Identify Toxic, Engaging, & Fact-Claiming Comments ( http://arxiv.org/abs/2109.02966v1 )

ライセンス: Link先を確認
Christian Gawron, Sebastian Schmidt(参考訳) 本稿では,2021年病原体研究会への提出に用いた手法について,有害性,関与性,事実を訴えるコメントの同定に関するタスクについて述べる。 3つのサブタスクすべてに対して、Hugingfaceモデルハブから利用可能なトランスフォーマーベースのモデルを微調整しました。 ハイパーパラメータの異なるトレーニングデータの80%を微調整した後,様々な事前学習モデルの性能を評価し,得られた2つの最良モデルの予測を行った。 このアプローチはサブタスク3で一番うまくいき、F1スコアの0.736を達成しました。

In this paper we describe the methods we used for our submissions to the GermEval 2021 shared task on the identification of toxic, engaging, and fact-claiming comments. For all three subtasks we fine-tuned freely available transformer-based models from the Huggingface model hub. We evaluated the performance of various pre-trained models after fine-tuning on 80% of the training data with different hyperparameters and submitted predictions of the two best performing resulting models. We found that this approach worked best for subtask 3, for which we achieved an F1-score of 0.736.
翻訳日:2021-09-08 14:43:09 公開日:2021-09-07
# 文脈認識機械翻訳における文脈選択の再検討

Revisiting Context Choices for Context-aware Machine Translation ( http://arxiv.org/abs/2109.02995v1 )

ライセンス: Link先を確認
Mat\=iss Rikters and Toshiaki Nakazawa(参考訳) 文脈対応機械翻訳(MT)の最も一般的な方法の1つは、ソース文とコンテキストを1つのターゲット文の複数のソースとして分離したエンコーダを使用することである。 最近の研究は、これらのモデルがコンテキストから有用なシグナルを実際に学習しているか、それとも副作用だけで自動評価指標を改善するのかを疑問視している。 コンテクストとして提供される空き線であっても,マルチソーストランスフォーマーモデルは標準トランスフォーマーベースモデルよりもMTを改善するが,適切なコンテキストが十分に提供されると,翻訳品質が大幅に向上する(1.51~2.65BLEU)。 また、ドメイン内コンテキストをランダムにシャッフルすることでベースラインよりも改善できるが、正しいコンテキストは翻訳品質をさらに改善し、ドメイン外コンテキストがさらに劣化することを示した。

One of the most popular methods for context-aware machine translation (MT) is to use separate encoders for the source sentence and context as multiple sources for one target sentence. Recent work has cast doubt on whether these models actually learn useful signals from the context or are improvements in automatic evaluation metrics just a side-effect. We show that multi-source transformer models improve MT over standard transformer-base models even with empty lines provided as context, but the translation quality improves significantly (1.51 - 2.65 BLEU) when a sufficient amount of correct context is provided. We also show that even though randomly shuffling in-domain context can also improve over baselines, the correct context further improves translation quality and random out-of-domain context further degrades it.
翻訳日:2021-09-08 14:42:56 公開日:2021-09-07
# FHAC at GermEval 2021: アンサンブル学習によるドイツの有毒、エンゲージメント、事実を識別する

FHAC at GermEval 2021: Identifying German toxic, engaging, and fact-claiming comments with ensemble learning ( http://arxiv.org/abs/2109.03094v1 )

ライセンス: Link先を確認
Tobias Bornheim, Niklas Grieger, Stephan Bialonski(参考訳) 大規模なトレーニング済みニューラルネットワークモデル(BERTやELECTRAなど)によって学習された言語表現の可用性は、近年、下流の自然言語処理タスクの改善につながっている。 事前訓練されたモデルは、通常、トレーニング対象、アーキテクチャ、トレーニング対象のデータセットが異なる。 この貢献により,ドイツのbertモデルとドイツのelectraモデルを微調整し,gergeval 2021コンペティションが提供するfacebookデータから有毒(subtask 1),関与(subtask 2),事実獲得コメント(subtask3)を同定した。 我々はこれらのモデルのアンサンブルを作成し、アンサンブルメンバーの数とその構成に依存する分類性能について検討した。 サンプル外データでは,サブタスク1,2,3では,マクロf1スコアが0.73点,f1スコアが0.72点,0.70点,0.76点をそれぞれ達成した。

The availability of language representations learned by large pretrained neural network models (such as BERT and ELECTRA) has led to improvements in many downstream Natural Language Processing tasks in recent years. Pretrained models usually differ in pretraining objectives, architectures, and datasets they are trained on which can affect downstream performance. In this contribution, we fine-tuned German BERT and German ELECTRA models to identify toxic (subtask 1), engaging (subtask 2), and fact-claiming comments (subtask 3) in Facebook data provided by the GermEval 2021 competition. We created ensembles of these models and investigated whether and how classification performance depends on the number of ensemble members and their composition. On out-of-sample data, our best ensemble achieved a macro-F1 score of 0.73 (for all subtasks), and F1 scores of 0.72, 0.70, and 0.76 for subtasks 1, 2, and 3, respectively.
翻訳日:2021-09-08 14:42:40 公開日:2021-09-07
# まれな言葉はすべての単語を縮退させる

Rare Words Degenerate All Words ( http://arxiv.org/abs/2109.03127v1 )

ライセンス: Link先を確認
Sangwon Yu, Jongyoon Song, Heeseung Kim, Seong-min Lee, Woo-Jong Ryu, Sungroh Yoon(参考訳) ニューラルネットワーク言語モデルの進歩にもかかわらず、埋め込みの表現退化問題は依然として難しい。 近年の研究では、学習した出力埋め込みが狭い円錐分布に分解され、各埋め込み間の類似性が正となることが示されている。 彼らは、ほとんどの埋め込みに共通する変性問題の原因を分析した。 しかし,このデジェネレーション問題は,特にレアワードの埋め込みの訓練が原因であることが判明した。 本研究では, 負の対数様損失関数に関する勾配に関して, 希少な単語埋め込みの退化の固有機構を解析した。 さらに,レアワード埋め込みの劣化が非レアワード埋め込みの劣化を引き起こし,レアワード埋め込みの劣化を防止し,全体的なデジェネレーション問題を緩和できることを理論的かつ実証的に実証した。 そこで本研究では,このデジェネレーション問題に対処するための新しい手法である適応勾配部分スケーリング(AGPS)を提案する。 実験により,提案手法の有効性を質的,定量的に検証した。

Despite advances in neural network language model, the representation degeneration problem of embeddings is still challenging. Recent studies have found that the learned output embeddings are degenerated into a narrow-cone distribution which makes the similarity between each embeddings positive. They analyzed the cause of the degeneration problem has been demonstrated as common to most embeddings. However, we found that the degeneration problem is especially originated from the training of embeddings of rare words. In this study, we analyze the intrinsic mechanism of the degeneration of rare word embeddings with respect of their gradient about the negative log-likelihood loss function. Furthermore, we theoretically and empirically demonstrate that the degeneration of rare word embeddings causes the degeneration of non-rare word embeddings, and that the overall degeneration problem can be alleviated by preventing the degeneration of rare word embeddings. Based on our analyses, we propose a novel method, Adaptive Gradient Partial Scaling(AGPS), to address the degeneration problem. Experimental results demonstrate the effectiveness of the proposed method qualitatively and quantitatively.
翻訳日:2021-09-08 14:42:20 公開日:2021-09-07
# 言語モデルが構文を学ぶために必要な事前学習データ量はどのくらいか?

How much pretraining data do language models need to learn syntax? ( http://arxiv.org/abs/2109.03160v1 )

ライセンス: Link先を確認
Laura P\'erez-Mayos, Miguel Ballesteros, Leo Wanner(参考訳) トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。 しかし、事前学習は非常に便利であるが、時間と資源の面では高価である。 これにより、モデルの知識に対する事前トレーニングデータサイズの影響についての研究が求められる。 原文データのインクリメンタルサイズに基づいて学習したモデルを用いて,RoBERTaの構文的機能に与える影響について検討する。 まず,より多くのデータに事前トレーニングされたモデルが高い構文情報をエンコードするかどうかを,構文構造プローブを用いて判定する。 第2に,事前学習データサイズがモデルの構文一般化性能に与える影響を解析するために,目標構文評価を行う。 第3に、音声タグ付け、依存性解析、パラフレーズ識別という、3つの下流アプリケーションにおける異なるモデルの性能を比較した。 我々は、このようなモデルのトレーニングのコスト対効果のトレードオフを分析して研究を補完する。 私たちの実験では、より多くのデータに事前トレーニングされたモデルは、より多くの構文知識をエンコードし、下流のアプリケーションでより良く機能するが、それらは必ずしも異なる構文現象にまたがって優れたパフォーマンスを提供し、高い財務コストと環境コストをもたらすとは限らない。

Transformers-based pretrained language models achieve outstanding results in many well-known NLU benchmarks. However, while pretraining methods are very convenient, they are expensive in terms of time and resources. This calls for a study of the impact of pretraining data size on the knowledge of the models. We explore this impact on the syntactic capabilities of RoBERTa, using models trained on incremental sizes of raw text data. First, we use syntactic structural probes to determine whether models pretrained on more data encode a higher amount of syntactic information. Second, we perform a targeted syntactic evaluation to analyze the impact of pretraining data size on the syntactic generalization performance of the models. Third, we compare the performance of the different models on three downstream applications: part-of-speech tagging, dependency parsing and paraphrase identification. We complement our study with an analysis of the cost-benefit trade-off of training such models. Our experiments show that while models pretrained on more data encode more syntactic knowledge and perform better on downstream applications, they do not always offer a better performance across the different syntactic phenomena and come at a higher financial and environmental cost.
翻訳日:2021-09-08 14:42:07 公開日:2021-09-07
# 意図と実体認識のための結合モデル

Joint model for intent and entity recognition ( http://arxiv.org/abs/2109.03221v1 )

ライセンス: Link先を確認
Petr Lorenc(参考訳) 自然対話の意味理解は、いくつかの部分からなる。 インテント分類やエンティティ検出など,ユーザ入力を処理するための次のステップを決定する上で重要な役割を担っているものもあります。 個々のタスクを個々の問題として扱うことは、トレーニングリソースを無駄にし、各タスクは互いに恩恵を受けることができる。 本稿ではこれらの問題を1つとして扱う。 意図とエンティティ認識を1つのシステムに統合した新しいモデルは、各タスクを個別に解決するよりも、低いトレーニング要件で両方のタスクでより良いメトリクスを達成しています。 また、入力に基づいてモデルを最適化する。

The semantic understanding of natural dialogues composes of several parts. Some of them, like intent classification and entity detection, have a crucial role in deciding the next steps in handling user input. Handling each task as an individual problem can be wasting of training resources, and also each problem can benefit from each other. This paper tackles these problems as one. Our new model, which combine intent and entity recognition into one system, is achieving better metrics in both tasks with lower training requirements than solving each task separately. We also optimize the model based on the inputs.
翻訳日:2021-09-08 14:41:49 公開日:2021-09-07
# ジョブショップスケジューリング問題に対する新しい近隣構造

A new neighborhood structure for job shop scheduling problems ( http://arxiv.org/abs/2109.02843v1 )

ライセンス: Link先を確認
Jin Xie, Xinyu Li, Liang Gao, Lin Gui(参考訳) ジョブショップスケジューリング問題(JSP)はNP完全組合せ最適化問題として広く研究されている。 近隣構造はJSPの解決に重要な役割を果たしている。 現在、最先端の3つの近傍構造、すなわちN5、N6、N7が存在する。 いくつかの有名なベンチマークの上界を改善することは、これらの近傍構造の役割とは区別できない。 しかし、これらの既存の近傍構造は臨界ブロック内の臨界演算の移動のみを考慮する。 また,本実験では,クリティカルブロックの外にクリティカル操作を移動させることにより,スケジューリング方式の整合性を向上させることができる。 そこで本研究では,臨界ブロック内における臨界操作の移動と臨界ブロック外における臨界操作の移動を考慮した新しいN8地区構造を提案する。 また,不正な動きを回避し,計算時間を短縮する近傍クリッピング法を考案した。 Tabu Search(TS)は、近隣構造と組み合わせたアルゴリズムフレームワークである。 本稿では,N8近傍構造とN5,N6,N7近傍構造を4つの有名なベンチマークで比較する。 実験の結果, n8近傍構造は他の最先端の近傍構造よりも効率的にjspを解くことが確認された。

Job shop scheduling problem (JSP) is a widely studied NP-complete combinatorial optimization problem. Neighborhood structures play a critical role in solving JSP. At present, there are three state-of-the-art neighborhood structures, i.e., N5, N6, and N7. Improving the upper bounds of some famous benchmarks is inseparable from the role of these neighborhood structures. However, these existing neighborhood structures only consider the movement of critical operations within a critical block. According to our experiments, it is also possible to improve the makespan of a scheduling scheme by moving a critical operation outside its critical block. According to the above finding, this paper proposes a new N8 neighborhood structure considering the movement of critical operations within a critical block and the movement of critical operations outside the critical block. Besides, a neighborhood clipping method is designed to avoid invalid movement, reducing the computational time. Tabu search (TS) is a commonly used algorithm framework combined with neighborhood structures. This paper uses this framework to compare the N8 neighborhood structure with N5, N6, and N7 neighborhood structures on four famous benchmarks. The experimental results verify that the N8 neighborhood structure is more effective and efficient in solving JSP than the other state-of-the-art neighborhood structures.
翻訳日:2021-09-08 14:41:28 公開日:2021-09-07
# 医療AIのための医学生の準備:AI倫理教育を組み込む必要がある

Readying Medical Students for Medical AI: The Need to Embed AI Ethics Education ( http://arxiv.org/abs/2109.02866v1 )

ライセンス: Link先を確認
Thomas P Quinn, Simon Coghlan(参考訳) 医学生は、キャリアの早い段階で、強力な医療AIシステムに遭遇しがちだ。 しかし、現代医学教育は、これらのツールを安全かつ効果的に使用するために必要な医療AIの基本的臨床能力に学生に十分な装備を与えていない。 教育改革は緊急に必要だが、ほとんどが既に詰め込まれた医学的カリキュラムのため、簡単には実施できない。 本稿では,組込みAI倫理教育フレームワーク(Embeded AI Ethics Education Framework)と呼ぶ,効果的かつ効率的な教育改革フレームワークを提案する。 より急進的なAI教育に対応する教育改革を求める他の呼びかけとは異なり、私たちのフレームワークは穏やかで漸進的です。 既存の生命倫理学や医療倫理学のカリキュラムを活用して、医療AIに関連する倫理的問題、特に医療の心臓におけるリスク・利益分析に影響を及ぼすテクノロジーの誤用、乱用、悪用に関するコンテンツを開発し提供します。 そうすることで、フレームワークは“何”を超えるためのシンプルなツールを提供します。 と「なぜ? 医療AI倫理教育において,「どのように」に答える 「大学、コースディレクター、および/または教授に、学生に医療aiに必要な臨床習熟度を与えるための広い道程を与える。」

Medical students will almost inevitably encounter powerful medical AI systems early in their careers. Yet, contemporary medical education does not adequately equip students with the basic clinical proficiency in medical AI needed to use these tools safely and effectively. Education reform is urgently needed, but not easily implemented, largely due to an already jam-packed medical curricula. In this article, we propose an education reform framework as an effective and efficient solution, which we call the Embedded AI Ethics Education Framework. Unlike other calls for education reform to accommodate AI teaching that are more radical in scope, our framework is modest and incremental. It leverages existing bioethics or medical ethics curricula to develop and deliver content on the ethical issues associated with medical AI, especially the harms of technology misuse, disuse, and abuse that affect the risk-benefit analyses at the heart of healthcare. In doing so, the framework provides a simple tool for going beyond the "What?" and the "Why?" of medical AI ethics education, to answer the "How?", giving universities, course directors, and/or professors a broad road-map for equipping their students with the necessary clinical proficiency in medical AI.
翻訳日:2021-09-08 14:41:12 公開日:2021-09-07
# Fudge:SAT還元に基づく抽象的議論のための軽量解法

Fudge: A light-weight solver for abstract argumentation based on SAT reductions ( http://arxiv.org/abs/2109.03106v1 )

ライセンス: Link先を確認
Matthias Thimm and Federico Cerutti and Mauro Vallati(参考訳) 本稿では,一連の抽象的議論問題を解くために,満足度解決技術を密に統合した抽象的議論解法Fudgeを提案する。 Fudgeが使用するエンコーディングのほとんどは標準的な翻訳手法に由来するが、Fudgeは疑わしい推論問題を解くために全く新しいエンコーディングを利用している。 望ましい意味論と問題 wrt。 理想的な意味論

We present Fudge, an abstract argumentation solver that tightly integrates satisfiability solving technology to solve a series of abstract argumentation problems. While most of the encodings used by Fudge derive from standard translation approaches, Fudge makes use of completely novel encodings to solve the skeptical reasoning problem wrt. preferred semantics and problems wrt. ideal semantics.
翻訳日:2021-09-08 14:40:54 公開日:2021-09-07
# Aspartix-V21

Aspartix-V21 ( http://arxiv.org/abs/2109.03166v1 )

ライセンス: Link先を確認
Wolfgang Dvo\v{r}\'ak, Matthias K\"onig, Johannes P. Wallner, Stefan Woltran(参考訳) この解法記述では、ASPARTIX-Vを2021年版で紹介し、ICCMA(International Competition on Computational Models of Argumentation)2021に参加する。 ASPARTIX-V は ICCMA'21 のすべての古典的(静的)推論タスクを解くことができ、ASPARTIX システムスイートを最近のASP言語構造(例)を組み込むことで拡張する。 条件付きリテラル、ASP内のドメインヒューリスティック、マルチショットメソッド。 このライトでは、ASPARTIX-Vは、ASPARTIXのモノリシックなアプローチ(すなわち、単一のASPエンコーディングによるワンショット解決)に伝統的な焦点を逸脱し、パフォーマンスをさらに向上させる。

In this solver description we present ASPARTIX-V, in its 2021 edition, which participates in the International Competition on Computational Models of Argumentation (ICCMA) 2021. ASPARTIX-V is capable of solving all classical (static) reasoning tasks part of ICCMA'21 and extends the ASPARTIX system suite by incorporation of recent ASP language constructs (e.g. conditional literals), domain heuristics within ASP, and multi-shot methods. In this light ASPARTIX-V deviates from the traditional focus of ASPARTIX on monolithic approaches (i.e., one-shot solving via a single ASP encoding) to further enhance performance.
翻訳日:2021-09-08 14:40:47 公開日:2021-09-07
# 資源管理における強化学習エージェントのMDP設計の影響について

On the impact of MDP design for Reinforcement Learning agents in Resource Management ( http://arxiv.org/abs/2109.03202v1 )

ライセンス: Link先を確認
Renato Luiz de Freitas Cunha, Luiz Chaimowicz(参考訳) リソース管理への強化学習アプリケーションの最近の進歩は、設計決定がエージェントのパフォーマンスに与える影響を深く分析することなくmdpを提供する。 本稿では,4種類のMDP変動を比較比較・比較し,その計算条件とエージェント性能への影響を経験的分析により検討する。 実験の結果,マルチレイヤ・パーセプトロンを近似関数として使用する場合,環境間のエージェントの移動が可能であり,移動エージェントの性能は良好であり,テストシナリオの80%において,再トレーニングを伴わずに特殊エージェントよりも優れていた。

The recent progress in Reinforcement Learning applications to Resource Management presents MDPs without a deeper analysis of the impacts of design decisions on agent performance. In this paper, we compare and contrast four different MDP variations, discussing their computational requirements and impacts on agent performance by means of an empirical analysis. We conclude by showing that, in our experiments, when using Multi-Layer Perceptrons as approximation function, a compact state representation allows transfer of agents between environments, and that transferred agents have good performance and outperform specialized agents in 80\% of the tested scenarios, even without retraining.
翻訳日:2021-09-08 14:40:31 公開日:2021-09-07
# 多視点ハンド衛生におけるきめ細かい手指認識

Fine-grained Hand Gesture Recognition in Multi-viewpoint Hand Hygiene ( http://arxiv.org/abs/2109.02917v1 )

ライセンス: Link先を確認
Huy Q.Vo, Tuong Do, Vi C.Pham, Duy Nguyen, An T.Duong and Quang D.Tran(参考訳) 本稿では「MFH」という手指のジェスチャー認識のための高品質なデータセットを提案する。 一般的に、現在のデータセットは、: (i) きめ細かなアクション、および (ii) 現実的な設定で利用可能な異なる視点間でのデータミスマッチ。 上記の問題に対処するため、MFHデータセットには、異なるカメラビューから得られた合計731147のサンプルを6つの非重複領域に含めることが提案されている。 さらに、各サンプルは世界保健機関(WHO)が導入した7つのステップのうちの1つである。 微粒化画像認識と分布適応の進歩に触発された小さな貢献として,本稿では,従来の問題に対処するための自己教師付き学習法を推奨する。 ベンチマークMFHデータセットに関する広範な実験により、提案手法が精度とマクロF1スコアの両方で競合性能を発揮することが示された。 コードとmfhデータセットはhttps://github.com/w illogy-team/hand-ges ture-recognition-smc 2021で入手できる。

This paper contributes a new high-quality dataset for hand gesture recognition in hand hygiene systems, named "MFH". Generally, current datasets are not focused on: (i) fine-grained actions; and (ii) data mismatch between different viewpoints, which are available under realistic settings. To address the aforementioned issues, the MFH dataset is proposed to contain a total of 731147 samples obtained by different camera views in 6 non-overlapping locations. Additionally, each sample belongs to one of seven steps introduced by the World Health Organization (WHO). As a minor contribution, inspired by advances in fine-grained image recognition and distribution adaptation, this paper recommends using the self-supervised learning method to handle these preceding problems. The extensive experiments on the benchmarking MFH dataset show that the introduced method yields competitive performance in both the Accuracy and the Macro F1-score. The code and the MFH dataset are available at https://github.com/w illogy-team/hand-ges ture-recognition-smc 2021.
翻訳日:2021-09-08 14:38:20 公開日:2021-09-07
# 時間的モーメント定位のための言語とビデオのモダリティを組み合わせる学習

Learning to Combine the Modalities of Language and Video for Temporal Moment Localization ( http://arxiv.org/abs/2109.02925v1 )

ライセンス: Link先を確認
Jungkyoo Shin and Jinyoung Moon(参考訳) 時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。 既存の手法は視覚的および意味的な埋め込みを独立に生成し、それら間の長期的な時間的関係を十分に考慮せずにそれらを融合する。 これらの欠点に対処するために,問合せの一部に関連する映像セグメントの部分に焦点を当てた時間的モーメントを局所化する人間の認知過程を模倣して,新たなリカレントユニットであるクロスモーダル・ロング・短期記憶(cm-lstm)を導入し,映像全体にわたって文脈情報を蓄積する。 また,入力クエリによって映像特徴量と未対応機能の両方に対する2ストリームの注意機構を考案し,必要な視覚情報が無視されるのを防止する。 より正確な境界を得るために,CM-LSTMを用いて局所的に生成する統合文脈特徴からグローバルに得られた2次元の2次元提案マップを,境界スコアシーケンスから生成し,終端から終端までの2次元マップに結合する2ストリーム注意型クロスモーダル・インタラクション・ネットワーク(TACI)を提案する。 TMLベンチマークデータセットであるActivityNet-Captions では、TACIは、それぞれ45.50%のR@1とIoU@0.5とIoU@0.7の27.23%で最先端のTMLメソッドを上回っている。 さらに,従来のLSTMをCM-LSTMに置き換えることで,改良された最先端手法が性能向上を実現することを示す。

Temporal moment localization aims to retrieve the best video segment matching a moment specified by a query. The existing methods generate the visual and semantic embeddings independently and fuse them without full consideration of the long-term temporal relationship between them. To address these shortcomings, we introduce a novel recurrent unit, cross-modal long short-term memory (CM-LSTM), by mimicking the human cognitive process of localizing temporal moments that focuses on the part of a video segment related to the part of a query, and accumulates the contextual information across the entire video recurrently. In addition, we devise a two-stream attention mechanism for both attended and unattended video features by the input query to prevent necessary visual information from being neglected. To obtain more precise boundaries, we propose a two-stream attentive cross-modal interaction network (TACI) that generates two 2D proposal maps obtained globally from the integrated contextual features, which are generated by using CM-LSTM, and locally from boundary score sequences and then combines them into a final 2D map in an end-to-end manner. On the TML benchmark dataset, ActivityNet-Captions , the TACI outperform state-of-the-art TML methods with R@1 of 45.50% and 27.23% for IoU@0.5 and IoU@0.7, respectively. In addition, we show that the revised state-of-the-arts methods by replacing the original LSTM with our CM-LSTM achieve performance gains.
翻訳日:2021-09-08 14:38:03 公開日:2021-09-07
# 雨空間コントラスト制約付き単一画像レーダに対する非ペア逆学習

Unpaired Adversarial Learning for Single Image Deraining with Rain-Space Contrastive Constraints ( http://arxiv.org/abs/2109.02973v1 )

ライセンス: Link先を確認
Xiang Chen, Jinshan Pan, Kui Jiang, Yufeng Huang, Caihua Kong, Longgang Dai, Yufeng Li(参考訳) SID(Deep Learning-based Single Image deraining)は、ペア化された合成データに依存することで、現実のアプリケーションにおける汎用性とスケーラビリティが制限されるため、重要な情報である。 しかし,非対向学習とSIDタスクにおけるサイクル整合性制約の直接適用は,雨天画像と雨天画像のドメイン知識が非対称であるため,雨天入力からクリーンアウトプットへの基礎的関係を学習するには不十分であることがわかった。 このような制限に対処するために,cdr-gan と呼ばれるgan フレームワークにおいて,非ペア型エクセプラーの相互特性を対照的な学習方法で探索する効果的な非ペア型 sid 法を開発した。 提案手法は主に双方向翻訳分枝(btb)とコントラスト誘導分枝(cgb)の2つの協調分枝からなる。 特に、btbは相反一貫性の循環的アーキテクチャを最大限に活用し、2つのドメイン間の潜在特徴分布とガイド伝達能力を双方向マッピングで活用している。 同時に、CGBは、降雨の除去や画像の復元に役立てるために、類似した特徴分布をもっと遠くに押し上げながら、雨空間に異なる例の埋め込みを暗黙的に制限する。 トレーニング中、提案するCDR-GANをさらに制約するために、いくつかの損失関数を探索する。 大規模な実験により, 提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の未完成なデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れていた。

Deep learning-based single image deraining (SID) with unpaired information is of immense importance, as relying on paired synthetic data often limits their generality and scalability in real-world applications. However, we noticed that direct employ of unpaired adversarial learning and cycle-consistency constraints in the SID task is insufficient to learn the underlying relationship from rainy input to clean outputs, since the domain knowledge between rainy and rain-free images is asymmetrical. To address such limitation, we develop an effective unpaired SID method which explores mutual properties of the unpaired exemplars by a contrastive learning manner in a GAN framework, named as CDR-GAN. The proposed method mainly consists of two cooperative branches: Bidirectional Translation Branch (BTB) and Contrastive Guidance Branch (CGB). Specifically, BTB takes full advantage of the circulatory architecture of adversarial consistency to exploit latent feature distributions and guide transfer ability between two domains by equipping it with bidirectional mapping. Simultaneously, CGB implicitly constrains the embeddings of different exemplars in rain space by encouraging the similar feature distributions closer while pushing the dissimilar further away, in order to better help rain removal and image restoration. During training, we explore several loss functions to further constrain the proposed CDR-GAN. Extensive experiments show that our method performs favorably against existing unpaired deraining approaches on both synthetic and real-world datasets, even outperforms several fully-supervised or semi-supervised models.
翻訳日:2021-09-08 14:37:31 公開日:2021-09-07
# FuseFormer:ビデオインペインティング用トランスフォーマーの微細な情報を利用する

FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting ( http://arxiv.org/abs/2109.02974v1 )

ライセンス: Link先を確認
Rui Liu, Hanming Deng, Yangyi Huang, Xiaoyu Shi, Lewei Lu, Wenxiu Sun, Xiaogang Wang, Jifeng Dai, Hongsheng Li(参考訳) 長距離関係をモデル化するための強固で柔軟なアーキテクチャであるtransformerは、視覚タスクで広く研究されている。 しかし, 細粒度表現を必要とする映像インペインティングでは, 硬いパッチ分割により, ディテールのぼやけたエッジを生じることが問題となる。 本稿では,新しいソフトスプリットとソフトコンポジション操作をベースとした微細な機能融合による映像インポーティングのためのトランスフォーマーモデルであるFuseFormerを提案する。 ソフトスプリットは、所定の重複間隔でフィーチャーマップを多くのパッチに分割する。 それとは逆に、ソフトな構成は、異なるパッチを重なり合う領域のピクセルをまとめる特徴マップ全体に縫合することで機能する。 この2つのモジュールは、Transformerレイヤの前にトークン化され、Transformerレイヤの後に非トークン化され、トークンと機能の効果的なマッピングに使用される。 したがって、サブパッチレベルの情報相互作用は、隣接するパッチ間のより効果的な特徴伝搬を可能にし、ビデオ内のホール領域の鮮やかな内容の合成をもたらす。 さらに, fuseformerでは, ソフトな組成とソフトスプリットをフィードフォワードネットワークに精巧に挿入し, 1次元線形層が2次元構造をモデル化する能力を有するようにした。 そして、サブパッチレベルの特徴融合能力をさらに強化する。 定量的評価と定性評価の両方において,提案するfuseformerは最先端手法を上回っている。 また、その優越性を詳細に分析する。

Transformer, as a strong and flexible architecture for modelling long-range relations, has been widely explored in vision tasks. However, when used in video inpainting that requires fine-grained representation, existed method still suffers from yielding blurry edges in detail due to the hard patch splitting. Here we aim to tackle this problem by proposing FuseFormer, a Transformer model designed for video inpainting via fine-grained feature fusion based on novel Soft Split and Soft Composition operations. The soft split divides feature map into many patches with given overlapping interval. On the contrary, the soft composition operates by stitching different patches into a whole feature map where pixels in overlapping regions are summed up. These two modules are first used in tokenization before Transformer layers and de-tokenization after Transformer layers, for effective mapping between tokens and features. Therefore, sub-patch level information interaction is enabled for more effective feature propagation between neighboring patches, resulting in synthesizing vivid content for hole regions in videos. Moreover, in FuseFormer, we elaborately insert the soft composition and soft split into the feed-forward network, enabling the 1D linear layers to have the capability of modelling 2D structure. And, the sub-patch level feature fusion ability is further enhanced. In both quantitative and qualitative evaluations, our proposed FuseFormer surpasses state-of-the-art methods. We also conduct detailed analysis to examine its superiority.
翻訳日:2021-09-08 14:36:59 公開日:2021-09-07
# grassmannian graph-attentional landmark selection for domain adaptation

Grassmannian Graph-attentional Landmark Selection for Domain Adaptation ( http://arxiv.org/abs/2109.02990v1 )

ライセンス: Link先を確認
Bin Sun and Shaofan Wang and Dehui Kong and Jinghua Li and Baocai Yin(参考訳) ドメイン適応は、ソースドメインの情報を活用して、ターゲットドメインの分類性能を改善することを目的としています。 主にサンプル再加重と特徴マッチングの2つのスキームを利用する。 第1のスキームは個々のサンプルに異なる重みを割り当てるが、第2のスキームは大域構造統計を用いて2つの領域の特徴に一致する。 2つのスキームは互いに補完的であり、堅牢な領域適応のために共同で働くことが期待されている。 いくつかの手法が2つのスキームを組み合わせているが、サンプルの階層性やサンプル間の幾何学的性質の欠如により、サンプルの基盤となる関係は十分に分析されていない。 2つのスキームの利点をうまく組み合わせるために、ドメイン適応のためのグラスマングラフ意図的ランドマーク選択(GGLS)フレームワークを提案する。 GGLSは、サンプルのグラフィカルな構造の注意誘導近傍を用いてランドマーク選択スキームを示し、グラスマン多様体上の分布適応と知識適応を行う。 前者は各サンプルのランドマークを異なる扱いをし、後者は特徴的歪みを避け、より優れた幾何学的性質を達成する。 異なる実世界のクロスドメイン視覚認識タスクにおける実験結果は、gglsが最先端のドメイン適応法よりも優れた分類精度を提供することを示している。

Domain adaptation aims to leverage information from the source domain to improve the classification performance in the target domain. It mainly utilizes two schemes: sample reweighting and feature matching. While the first scheme allocates different weights to individual samples, the second scheme matches the feature of two domains using global structural statistics. The two schemes are complementary with each other, which are expected to jointly work for robust domain adaptation. Several methods combine the two schemes, but the underlying relationship of samples is insufficiently analyzed due to the neglect of the hierarchy of samples and the geometric properties between samples. To better combine the advantages of the two schemes, we propose a Grassmannian graph-attentional landmark selection (GGLS) framework for domain adaptation. GGLS presents a landmark selection scheme using attention-induced neighbors of the graphical structure of samples and performs distribution adaptation and knowledge adaptation over Grassmann manifold. the former treats the landmarks of each sample differently, and the latter avoids feature distortion and achieves better geometric properties. Experimental results on different real-world cross-domain visual recognition tasks demonstrate that GGLS provides better classification accuracies compared with state-of-the-art domain adaptation methods.
翻訳日:2021-09-08 14:36:35 公開日:2021-09-07
# 階層的自己スーパービジョン増強分布を用いた知識蒸留

Knowledge Distillation Using Hierarchical Self-Supervision Augmented Distribution ( http://arxiv.org/abs/2109.03075v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Linhang Cai, and Yongjun Xu(参考訳) 知識蒸留(KD)は、大きな教師から小さな学生に意味のある情報を伝達することを目的とした効果的な枠組みである。 一般に、kdは知識の定義や伝達の仕方を伴います。 以前のKD手法は、例えばフィーチャーマップや洗練された情報など、様々な種類の知識のマイニングに重点を置いていた。 しかし、知識は主監督タスクから派生しており、タスク固有のものである。 自己教師あり表現学習の最近の成功に動機づけられ,ネットワークがより有意義な特徴を学ぶための補助的自己教師あり拡張タスクを提案する。 したがって,このタスクからソフト自己スーパービジョン拡張分布をより豊かな暗黒知識として導出することができる。 従来の知識とは異なり、この分布は、教師付きおよび自己教師型特徴学習からの共同知識を符号化する。 知識探索以外にも、提案する知識を効果的に学習し、蒸留する方法も重要な側面です。 階層的特徴マップを十分に活用するために,様々な隠れレイヤに複数の補助ブランチを追加することを提案する。 各補助分枝は、教師から生徒への自己超越的増分課題を学習し、この分布を蒸留する。 そこで我々はKD法を階層的自己スーパービジョン拡張知識蒸留(HSSAKD)と呼ぶ。 標準画像分類の実験では、オフラインとオンラインのHSSAKDの両方がKDの分野で最先端のパフォーマンスを達成した。 オブジェクト検出に関するさらなる転送実験により、hssakdはネットワークにより良い特徴を学ぶためのガイドとなり、補助的な自己スーパービジョン拡張タスクを効果的に学習し蒸留することができる。

Knowledge distillation (KD) is an effective framework that aims to transfer meaningful information from a large teacher to a smaller student. Generally, KD often involves how to define and transfer knowledge. Previous KD methods often focus on mining various forms of knowledge, for example, feature maps and refined information. However, the knowledge is derived from the primary supervised task and thus is highly task-specific. Motivated by the recent success of self-supervised representation learning, we propose an auxiliary self-supervision augmented task to guide networks to learn more meaningful features. Therefore, we can derive soft self-supervision augmented distributions as richer dark knowledge from this task for KD. Unlike previous knowledge, this distribution encodes joint knowledge from supervised and self-supervised feature learning. Beyond knowledge exploration, another crucial aspect is how to learn and distill our proposed knowledge effectively. To fully take advantage of hierarchical feature maps, we propose to append several auxiliary branches at various hidden layers. Each auxiliary branch is guided to learn self-supervision augmented task and distill this distribution from teacher to student. Thus we call our KD method as Hierarchical Self-Supervision Augmented Knowledge Distillation (HSSAKD). Experiments on standard image classification show that both offline and online HSSAKD achieves state-of-the-art performance in the field of KD. Further transfer experiments on object detection further verify that HSSAKD can guide the network to learn better features, which can be attributed to learn and distill an auxiliary self-supervision augmented task effectively.
翻訳日:2021-09-08 14:36:14 公開日:2021-09-07
# 手書き文字認識支援ベクターマシン

Support Vector Machine for Handwritten Character Recognition ( http://arxiv.org/abs/2109.03081v1 )

ライセンス: Link先を確認
Jomy John(参考訳) 手書き認識は画像処理やパターン認識の分野で最も興味深く挑戦的な研究分野の一つである。 自動化プロセスの改善に大きく貢献します。 本稿では,制約のないマラヤラム文字の認識システムを提案する。 本研究では,44文字の基本文字の10,000文字サンプルのデータベースを用いている。 64の局所的特徴集合と4つのグローバル特徴集合がSVM分類器の訓練とテストに使用され、92.24%の精度を達成した。

Handwriting recognition has been one of the most fascinating and challenging research areas in field of image processing and pattern recognition. It contributes enormously to the improvement of automation process. In this paper, a system for recognition of unconstrained handwritten Malayalam characters is proposed. A database of 10,000 character samples of 44 basic Malayalam characters is used in this work. A discriminate feature set of 64 local and 4 global features are used to train and test SVM classifier and achieved 92.24% accuracy
翻訳日:2021-09-08 14:35:50 公開日:2021-09-07
# コンピュータビジョンとエッジコンピューティングを用いたスマート交通監視システム

Smart Traffic Monitoring System using Computer Vision and Edge Computing ( http://arxiv.org/abs/2109.03141v1 )

ライセンス: Link先を確認
Guanxiong Liu, Hang Shi, Abbas Kiani, Abdallah Khreishah, Jo Young Lee, Nirwan Ansari, Chengjun Liu, Mustafa Yousef(参考訳) 交通管理システムは、膨大なビデオデータをキャプチャし、ビデオ処理の進歩を利用してトラフィックインシデントを検出し監視する。 収集したデータは、従来は交通管理センター(TMC)に転送され、詳細な分析を行うため、TMCへのネットワークパスが悪化する可能性がある。 このようなボトルネックを軽減するため、我々は、コンピューティングリソースを持つカメラに近いエッジノードを装備することでエッジコンピューティングを活用することを提案する。 cloudlets (複数形 cloudlets) tmcに比べてコンピューティングリソースが限られているcloudletは、ビデオ処理機能に制限がある。 本稿では,渋滞検出と速度検出という2つの一般的なトラヒック監視タスクに着目し,クラウドレットの限られたコンピューティング能力とtmcの不安定なネットワーク条件の両方を考慮した2層エッジコンピューティングモデルを提案する。 提案手法では,各タスクに対して,エッジに実装したアルゴリズムと,異なる計算資源を考慮した設計したMCCに実装したアルゴリズムの2つを利用する。 TMCは強力な計算能力を提供するが、受信する映像の質は基礎となるネットワーク条件に依存する。 一方edgeは、非常に高品質なビデオを処理するが、コンピューティングリソースは限られている。 私たちのモデルはこのトレードオフを捉えます。 提案する2層モデルと,異なる気象条件およびネットワーク条件下でのテストベッド実験によるトラヒックモニタリングアルゴリズムの性能評価を行い,提案手法がクラウドのみおよびエッジのみのソリューションよりも優れていることを示す。

Traffic management systems capture tremendous video data and leverage advances in video processing to detect and monitor traffic incidents. The collected data are traditionally forwarded to the traffic management center (TMC) for in-depth analysis and may thus exacerbate the network paths to the TMC. To alleviate such bottlenecks, we propose to utilize edge computing by equipping edge nodes that are close to cameras with computing resources (e.g. cloudlets). A cloudlet, with limited computing resources as compared to TMC, provides limited video processing capabilities. In this paper, we focus on two common traffic monitoring tasks, congestion detection, and speed detection, and propose a two-tier edge computing based model that takes into account of both the limited computing capability in cloudlets and the unstable network condition to the TMC. Our solution utilizes two algorithms for each task, one implemented at the edge and the other one at the TMC, which are designed with the consideration of different computing resources. While the TMC provides strong computation power, the video quality it receives depends on the underlying network conditions. On the other hand, the edge processes very high-quality video but with limited computing resources. Our model captures this trade-off. We evaluate the performance of the proposed two-tier model as well as the traffic monitoring algorithms via test-bed experiments under different weather as well as network conditions and show that our proposed hybrid edge-cloud solution outperforms both the cloud-only and edge-only solutions.
翻訳日:2021-09-08 14:35:43 公開日:2021-09-07
# PP-OCRv2:超軽量OCR用トリックの袋

PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System ( http://arxiv.org/abs/2109.03144v1 )

ライセンス: Link先を確認
Yuning Du, Chenxia Li, Ruoyu Guo, Cheng Cui, Weiwei Liu, Jun Zhou, Bin Lu, Yehua Yang, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma(参考訳) 光文字認識(OCR)システムは様々な応用シナリオで広く利用されている。 OCRシステムの設計は依然として難しい課題です。 前報では, 精度と効率のバランスをとるための実用的超軽量OCRシステム(PP-OCR)を提案した。 本稿では,PP-OCRの精度を改善し,高い効率を維持するために,より堅牢なOCRシステムを提案する。 PP-OCRv2。 我々は,CML(Collaborative Mutual Learning), CopyPaste(CopyPaste) , Lightweight CPUNetwork(LCNet), Unified-Deep Mutual Learning(U-DML), Enhanced CTCLossなど,優れたテキスト検出器とテキスト認識器をトレーニングするためのトリックを数多く導入する。 実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことがわかった。 また、ResNetシリーズをバックボーンとして使用するPP-OCRのサーバモデルに匹敵する。 上記のモデルはすべてオープンソースで、コードは、PaddlePaddleを使用したGitHubリポジトリPaddleOCRで利用可能である。

Optical Character Recognition (OCR) systems have been widely used in various of application scenarios. Designing an OCR system is still a challenging task. In previous work, we proposed a practical ultra lightweight OCR system (PP-OCR) to balance the accuracy against the efficiency. In order to improve the accuracy of PP-OCR and keep high efficiency, in this paper, we propose a more robust OCR system, i.e. PP-OCRv2. We introduce bag of tricks to train a better text detector and a better text recognizer, which include Collaborative Mutual Learning (CML), CopyPaste, Lightweight CPUNetwork (LCNet), Unified-Deep Mutual Learning (U-DML) and Enhanced CTCLoss. Experiments on real data show that the precision of PP-OCRv2 is 7% higher than PP-OCR under the same inference cost. It is also comparable to the server models of the PP-OCR which uses ResNet series as backbones. All of the above mentioned models are open-sourced and the code is available in the GitHub repository PaddleOCR which is powered by PaddlePaddle.
翻訳日:2021-09-08 14:35:18 公開日:2021-09-07
# rendezvous : 内視鏡ビデオにおける手術動作の三重項認識のための注意機構

Rendezvous: Attention Mechanisms for the Recognition of Surgical Action Triplets in Endoscopic Videos ( http://arxiv.org/abs/2109.03223v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Tong Yu, Cristians Gonzalez, Barbara Seeliger, Pietro Mascagni, Didier Mutter, Jacques Marescaux, Nicolas Padoy(参考訳) 内視鏡ビデオにおける手術ワークフロー分析のための既存のフレームワークの中で、アクショントリプレット認識は、手術活動に関する真に詳細に包括的な情報を提供することを目的とした唯一のフレームワークである。 この情報は,<instrument, verb, target> combinationsとして提示され,正確に識別することは極めて困難である。 このタスクでは、3つの三重項成分すべてに対して同時に認識を行うだけでなく、それらの間のデータ関連性を正しく確立する必要がある。 この課題を達成するために,2つの異なるレベルの注意を生かして,手術ビデオから直接三脚を認識する新しいモデルであるRendezvous(RDV)を紹介した。 まず、シーン内の個々のアクショントリプレットコンポーネントをキャプチャする新しいタイプの空間的注意機構、class activation guided attention mechanism(cagam)を導入する。 この技術は、楽器によるアクティベーションを用いた動詞とターゲットの認識に焦点を当てている。 関連問題を解決するため、RDVモデルはトランスフォーマーネットワークにインスパイアされた新しい意味的注意を付加する。 クロスアテンションとセルフアテンションの複数の頭を用いて、RDVは楽器、動詞、ターゲット間の関係を効果的に捉えることができる。 また,各フレームに100個のトリプレットクラスのラベルを付記した50本の内視鏡映像のデータセットである cholect50 も紹介する。 提案したRDVモデルは,このデータセットの最先端手法と比較して,3重項予測mAPを9%以上改善する。

Out of all existing frameworks for surgical workflow analysis in endoscopic videos, action triplet recognition stands out as the only one aiming to provide truly fine-grained and comprehensive information on surgical activities. This information, presented as <instrument, verb, target> combinations, is highly challenging to be accurately identified. Triplet components can be difficult to recognize individually; in this task, it requires not only performing recognition simultaneously for all three triplet components, but also correctly establishing the data association between them. To achieve this task, we introduce our new model, the Rendezvous (RDV), which recognizes triplets directly from surgical videos by leveraging attention at two different levels. We first introduce a new form of spatial attention to capture individual action triplet components in a scene; called the Class Activation Guided Attention Mechanism (CAGAM). This technique focuses on the recognition of verbs and targets using activations resulting from instruments. To solve the association problem, our RDV model adds a new form of semantic attention inspired by Transformer networks. Using multiple heads of cross and self attentions, RDV is able to effectively capture relationships between instruments, verbs, and targets. We also introduce CholecT50 - a dataset of 50 endoscopic videos in which every frame has been annotated with labels from 100 triplet classes. Our proposed RDV model significantly improves the triplet prediction mAP by over 9% compared to the state-of-the-art methods on this dataset.
翻訳日:2021-09-08 14:34:56 公開日:2021-09-07
# 層分解を介する自己教師付き腫瘍分画

Self-supervised Tumor Segmentation through Layer Decomposition ( http://arxiv.org/abs/2109.03230v1 )

ライセンス: Link先を確認
Xiaoman Zhang, Weidi Xie, Chaoqin Huang, Ya Zhang, and Yanfeng Wang(参考訳) 本稿では,腫瘍のセグメンテーションに対する自己監督的アプローチを提案する。 具体的には,手動アノテーションをまったく使わずに,自己教師付き学習のモデルを下流タスクに直接適用するゼロショット設定を提唱する。 私たちは以下の貢献をします。 まず,既存の自己教師付き学習手法を慎重に検討した結果,適切なデータ拡張を前提として,スクラッチから学習したモデルが,自己教師付き学習で事前学習したモデルと同等の性能を達成できることが判明した。 第2に,腫瘍は文脈と独立して特徴付けられる傾向にあるという事実に着想を得て,合成腫瘍データを生成するスケーラブルなパイプラインを提案し,下流タスクとの一般化ギャップを最小化する自己教師付きモデルを訓練する。 第3に,脳腫瘍分画用brats2018,肝腫瘍分画用lits2017など,下流別データセットの広範なアブレーション研究を行った。 ゼロショットセグメンテーションの極端な事例を含む低アノテーション体制下での腫瘍セグメンテーションのモデル伝達性を評価する一方で、提案手法は最先端の性能を示し、既存の自己教師型アプローチを実質的に上回り、実践シナリオにおける自己教師型学習の使用を開放する。

In this paper, we propose a self-supervised approach for tumor segmentation. Specifically, we advocate a zero-shot setting, where models from self-supervised learning should be directly applicable for the downstream task, without using any manual annotations whatsoever. We make the following contributions. First, with careful examination on existing self-supervised learning approaches, we reveal the surprising result that, given suitable data augmentation, models trained from scratch in fact achieve comparable performance to those pre-trained with self-supervised learning. Second, inspired by the fact that tumors tend to be characterized independently to the contexts, we propose a scalable pipeline for generating synthetic tumor data, and train a self-supervised model that minimises the generalisation gap with the downstream task. Third, we conduct extensive ablation studies on different downstream datasets, BraTS2018 for brain tumor segmentation and LiTS2017 for liver tumor segmentation. While evaluating the model transferability for tumor segmentation under a low-annotation regime, including an extreme case of zero-shot segmentation, the proposed approach demonstrates state-of-the-art performance, substantially outperforming all existing self-supervised approaches, and opening up the usage of self-supervised learning in practical scenarios.
翻訳日:2021-09-08 14:34:30 公開日:2021-09-07
# 多段階リスク最小化による逆パラメータ防御

Adversarial Parameter Defense by Multi-Step Risk Minimization ( http://arxiv.org/abs/2109.02889v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Ruixuan Luo, Xuancheng Ren, Qi Su, Liangyou Li, Xu Sun(参考訳) 以前の研究では、dnnsの敵の例に対する脆弱性が示されており、敵の訓練は敵の例に対する防御を確立することができる。 さらに、最近の研究では、ディープニューラルネットワークはパラメータ破壊の脆弱性も示している。 モデルパラメータの脆弱性は、モデル堅牢性と一般化の研究にとって重要な価値である。 本研究では,パラメータ劣化の概念を導入し,損失流域の平坦度とニューラルネットワークパラメータのパラメータロバスト性を測定するために,損失変化指標を活用することを提案する。 そこで本研究では,パラメータの破損を分析し,多段階逆汚職アルゴリズムを提案する。 ニューラルネットワークを強化するために,複数のパラメータ破壊のリスクを最小化する,逆パラメータ防御アルゴリズムを提案する。 実験の結果,提案手法はニューラルネットワークのパラメータロバスト性と精度を両立できることがわかった。

Previous studies demonstrate DNNs' vulnerability to adversarial examples and adversarial training can establish a defense to adversarial examples. In addition, recent studies show that deep neural networks also exhibit vulnerability to parameter corruptions. The vulnerability of model parameters is of crucial value to the study of model robustness and generalization. In this work, we introduce the concept of parameter corruption and propose to leverage the loss change indicators for measuring the flatness of the loss basin and the parameter robustness of neural network parameters. On such basis, we analyze parameter corruptions and propose the multi-step adversarial corruption algorithm. To enhance neural networks, we propose the adversarial parameter defense algorithm that minimizes the average risk of multiple adversarial parameter corruptions. Experimental results show that the proposed algorithm can improve both the parameter robustness and accuracy of neural networks.
翻訳日:2021-09-08 14:32:35 公開日:2021-09-07
# 適応型サンプルペア形成を有するシームズニューラルネットワークを用いた自発音声の感情認識におけるFew-shot Learning

Few-shot Learning in Emotion Recognition of Spontaneous Speech Using a Siamese Neural Network with Adaptive Sample Pair Formation ( http://arxiv.org/abs/2109.02915v1 )

ライセンス: Link先を確認
Kexin Feng and Theodora Chaspari(参考訳) 音声ベースの機械学習(ML)は、感情の変化を示す実生活における韻律的パターンとスペクトル的パターンを追跡するための有望なソリューションとして認識され、認知的および精神状態への貴重な窓を提供する。 しかし、増幅実験におけるラベル付きデータの不足は、通常「データハングリー」分布に基づく学習に依存するMLモデルの信頼性の高いトレーニングを妨げている。 本稿では,行動感情からのラベル付き音声データの豊富さを活かし,少数のラベル付きサンプルから自発音声の感情を自動認識する数発学習手法を提案する。 少数ショット学習は、各感情の対応する分布の絶対的なパターンを学習するよりも、サンプル間の相対的距離をモデル化する、シャムニューラルネットワークによるメトリック学習アプローチによって実装される。 その結果, 少量のラベル付きサンプルであっても, 4つのデータセットにおける自発音声からの感情認識において, 提案手法の有効性が示唆された。 さらに,ネットワークファインチューニングや対向学習など,一般的な適応手法と比較して,提案手法の優れた性能を示す。 この研究から得られた知見は、心の健康劣化の実際の評価に寄与する自然発話における人間の感情の増幅的追跡の基礎となる。

Speech-based machine learning (ML) has been heralded as a promising solution for tracking prosodic and spectrotemporal patterns in real-life that are indicative of emotional changes, providing a valuable window into one's cognitive and mental state. Yet, the scarcity of labelled data in ambulatory studies prevents the reliable training of ML models, which usually rely on "data-hungry" distribution-based learning. Leveraging the abundance of labelled speech data from acted emotions, this paper proposes a few-shot learning approach for automatically recognizing emotion in spontaneous speech from a small number of labelled samples. Few-shot learning is implemented via a metric learning approach through a siamese neural network, which models the relative distance between samples rather than relying on learning absolute patterns of the corresponding distributions of each emotion. Results indicate the feasibility of the proposed metric learning in recognizing emotions from spontaneous speech in four datasets, even with a small amount of labelled samples. They further demonstrate superior performance of the proposed metric learning compared to commonly used adaptation methods, including network fine-tuning and adversarial learning. Findings from this work provide a foundation for the ambulatory tracking of human emotion in spontaneous speech contributing to the real-life assessment of mental health degradation.
翻訳日:2021-09-08 14:32:23 公開日:2021-09-07
# BERTを用いたTwitter上の噂の分類システム

BERT based classification system for detecting rumours on Twitter ( http://arxiv.org/abs/2109.02975v1 )

ライセンス: Link先を確認
Rini Anggrainingsih, Ghulam Mubashar Hassan, Amitava Datta(参考訳) 意見形成におけるソーシャルメディアの役割は、社会のあらゆる領域に広く影響している。 ソーシャルメディアはニュースやビューを表現できるプラットフォームを提供しているが、TwitterやFacebookなどのプラットフォームに大量の投稿があるため、投稿の質をコントロールするのは難しい。 誤報や噂は、人々の意見に影響を及ぼしがちであり、不合理に行動する動機となるため、社会に持続する。 したがって、これらのプラットフォームから噂を検出し、取り除くことが非常に重要である。 噂の拡散を防ぐ唯一の方法は、ソーシャルメディア投稿の自動検出と分類である。 この論文の焦点はTwitterのソーシャルメディアであり、Twitterからデータを集めることは比較的容易である。 これまでの研究の大半は、教師付き学習アプローチを使って、Twitterで噂を分類していた。 これらのアプローチは、噂と非噂を区別するために、ツイートのテキストからコンテンツとコンテキストの特徴の両方を取得する機能抽出に依存する。 しかし、手動で機能を抽出することは、ツイートの量を考えるのに時間がかかる。 本稿では,従来の特徴抽出手法ではなく,BERTを用いた文埋め込みを利用してTwitter上の噂を識別する手法を提案する。 BERTを用いた文埋め込みを用いて、ツイートの文脈的意味に応じて各ツイートの文をベクトルに表現する。 様々な教師付き学習手法を用いて,これらのベクトルを噂や非噂に分類する。 BERTベースのモデルでは,従来の手法に比べて約10%精度が向上した。

The role of social media in opinion formation has far-reaching implications in all spheres of society. Though social media provide platforms for expressing news and views, it is hard to control the quality of posts due to the sheer volumes of posts on platforms like Twitter and Facebook. Misinformation and rumours have lasting effects on society, as they tend to influence people's opinions and also may motivate people to act irrationally. It is therefore very important to detect and remove rumours from these platforms. The only way to prevent the spread of rumours is through automatic detection and classification of social media posts. Our focus in this paper is the Twitter social medium, as it is relatively easy to collect data from Twitter. The majority of previous studies used supervised learning approaches to classify rumours on Twitter. These approaches rely on feature extraction to obtain both content and context features from the text of tweets to distinguish rumours and non-rumours. Manually extracting features however is time-consuming considering the volume of tweets. We propose a novel approach to deal with this problem by utilising sentence embedding using BERT to identify rumours on Twitter, rather than the usual feature extraction techniques. We use sentence embedding using BERT to represent each tweet's sentences into a vector according to the contextual meaning of the tweet. We classify those vectors into rumours or non-rumours by using various supervised learning techniques. Our BERT based models improved the accuracy by approximately 10% as compared to previous methods.
翻訳日:2021-09-08 14:32:01 公開日:2021-09-07
# マルチモーダル動的注意融合ネットワークを用いた遠隔映像による気分障害症状の予測

Predicting Mood Disorder Symptoms with Remotely Collected Videos Using an Interpretable Multimodal Dynamic Attention Fusion Network ( http://arxiv.org/abs/2109.03029v1 )

ライセンス: Link先を確認
Tathagata Banerjee, Matthew Kollada, Pablo Gersberg, Oscar Rodriguez, Jane Tiller, Andrew E Jaffe, John Reynders(参考訳) 気分障害の症状を識別するための新しい解釈可能なマルチモーダル分類法vizを開発した。 スマートフォンアプリケーションから収集した音声、ビデオ、テキストを使用した抑うつ、不安、不安。 我々はCNNをベースとしたユニモーダルエンコーダを用いて各モードの動的埋め込みを学習し,それらをトランスエンコーダで組み合わせた。 これらの手法を,スマートフォンアプリケーションによって収集された新たなデータセットに,最大3回の録画セッションで3002名の参加者に適用した。 静的埋め込みを用いた既存手法と比較して, マルチモーダル分類性能が向上した。 最後に、私たちはSHAP(SHapley Additive exPlanations)を使用して、潜在的なデジタルマーカーとして機能するモデルの重要な機能を優先順位付けしました。

We developed a novel, interpretable multimodal classification method to identify symptoms of mood disorders viz. depression, anxiety and anhedonia using audio, video and text collected from a smartphone application. We used CNN-based unimodal encoders to learn dynamic embeddings for each modality and then combined these through a transformer encoder. We applied these methods to a novel dataset - collected by a smartphone application - on 3002 participants across up to three recording sessions. Our method demonstrated better multimodal classification performance compared to existing methods that employed static embeddings. Lastly, we used SHapley Additive exPlanations (SHAP) to prioritize important features in our model that could serve as potential digital markers.
翻訳日:2021-09-08 14:31:42 公開日:2021-09-07
# 深層ニューラルネットワーク学習のための再帰的最小方形の再検討

Revisiting Recursive Least Squares for Training Deep Neural Networks ( http://arxiv.org/abs/2109.03220v1 )

ライセンス: Link先を確認
Chunyuan Zhang, Qi Song, Hui Zhou, Yigui Ou, Hongyao Deng, Laurence Tianruo Yang(参考訳) 再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。 しかし、従来のRSSアルゴリズムは計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。 本稿では,これらの欠点を克服するために,線形最小二乗損失関数の線形出力に対する等価勾配とともに,誤差バックプロパゲーションと平均近似RSS法を用いて,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワーク(長い短期記憶ネットワークを含む)をトレーニングするための3つの新しいRSS最適化アルゴリズムを提案する。 従来のRSS最適化アルゴリズムと比較すると,アルゴリズムは単純でエレガントである。 これらは、各層の逆自己相関行列を適応学習率として利用する改良された確率勾配降下(SGD)アルゴリズムと見なすことができる。 彼らの時間と空間の複雑さは、SGDのわずか数倍である。 損失関数は平均二乗誤差であり、出力層の活性化関数は可逆である必要がある。 実際、我々のアルゴリズムは、これら2つの前提条件を必要とせずに、他の一階最適化アルゴリズムと組み合わせて使うことができる。 さらに,アルゴリズムの2つの改良手法を提案する。 最後に,MNIST, CIFAR-10, IMDBデータセットにおけるAdamアルゴリズムとの比較を行い, ハイパーパラメータの影響を実験的に検討した。

Recursive least squares (RLS) algorithms were once widely used for training small-scale neural networks, due to their fast convergence. However, previous RLS algorithms are unsuitable for training deep neural networks (DNNs), since they have high computational complexity and too many preconditions. In this paper, to overcome these drawbacks, we propose three novel RLS optimization algorithms for training feedforward neural networks, convolutional neural networks and recurrent neural networks (including long short-term memory networks), by using the error backpropagation and our average-approximatio n RLS method, together with the equivalent gradients of the linear least squares loss function with respect to the linear outputs of hidden layers. Compared with previous RLS optimization algorithms, our algorithms are simple and elegant. They can be viewed as an improved stochastic gradient descent (SGD) algorithm, which uses the inverse autocorrelation matrix of each layer as the adaptive learning rate. Their time and space complexities are only several times those of SGD. They only require the loss function to be the mean squared error and the activation function of the output layer to be invertible. In fact, our algorithms can be also used in combination with other first-order optimization algorithms without requiring these two preconditions. In addition, we present two improved methods for our algorithms. Finally, we demonstrate their effectiveness compared to the Adam algorithm on MNIST, CIFAR-10 and IMDB datasets, and investigate the influences of their hyperparameters experimentally.
翻訳日:2021-09-08 14:31:20 公開日:2021-09-07
# 異種多人数チームにおけるスケジュール間依存タスクの分散配置とスケジューリング

Distributed Allocation and Scheduling of Tasks with Cross-Schedule Dependencies for Heterogeneous Multi-Robot Teams ( http://arxiv.org/abs/2109.03089v1 )

ライセンス: Link先を確認
Barbara Arbanas Ferreira, Tamara Petrovi\'c, Matko Orsag, J. Ramiro Mart\'inez-de-Dios, Stjepan Bogdan(参考訳) 日常生活におけるマルチロボットシステムの安全かつ効率的な利用を可能にするためには,行動調整のための堅牢で迅速な手法を開発する必要がある。 本稿では,異なるロボットのタスクが時間的・優先的な制約に強く結びついているミッションのための分散タスク割り当てとスケジューリングアルゴリズムを提案する。 提案手法は,車両経路問題の変種としてこの問題を表現し,進化計算(CBM-pop)に基づく分散メタヒューリスティックアルゴリズムを用いて解を求める。 このようなアプローチは高速で最適に近い割り当てを可能にするため、タスクの変更時にオンライン再計画に使用できる。 シミュレーションの結果,現状の分散手法と比較して,最適性を損なうことなく計算速度とスケーラビリティが向上した。 マルチロボットシステムによって維持される温室の実用的利用事例への計画手順の適用について述べる。

To enable safe and efficient use of multi-robot systems in everyday life, a robust and fast method for coordinating their actions must be developed. In this paper, we present a distributed task allocation and scheduling algorithm for missions where the tasks of different robots are tightly coupled with temporal and precedence constraints. The approach is based on representing the problem as a variant of the vehicle routing problem, and the solution is found using a distributed metaheuristic algorithm based on evolutionary computation (CBM-pop). Such an approach allows a fast and near-optimal allocation and can therefore be used for online replanning in case of task changes. Simulation results show that the approach has better computational speed and scalability without loss of optimality compared to the state-of-the-art distributed methods. An application of the planning procedure to a practical use case of a greenhouse maintained by a multi-robot system is given.
翻訳日:2021-09-08 14:30:55 公開日:2021-09-07
# IEEE BigData 2021 Cup: スケールでのソフトセンシング

IEEE BigData 2021 Cup: Soft Sensing at Scale ( http://arxiv.org/abs/2109.03181v1 )

ライセンス: Link先を確認
Sergei Petrov, Chao Zhang, Jaswanth Yella, Yu Huang, Xiaoye Qian, Sthitie Bom(参考訳) IEEE BigData 2021 Cup: Soft Sensing at Scaleは、Seagate TechnologyがIEEE BigData 2021カンファレンスで主催したデータマイニングコンペティションである。 この課題のスコープは、ソフトセンシングデータを機械学習技術で分類する作業に取り組むことである。 本稿では,課題の詳細を説明し,参加者に提供されるデータセットについて述べる。 興味の指標を定義し、ベースラインモデルを定義し、さらに分析の出発点となる有意義なアプローチを記述します。 我々のアプローチで得られた結果について議論し、参加者が直面する可能性のある課題について洞察を与えます。 学生、研究者、そして大きな産業問題に取り組むことに興味のある人は、この挑戦に参加することを歓迎します!

IEEE BigData 2021 Cup: Soft Sensing at Scale is a data mining competition organized by Seagate Technology, in association with the IEEE BigData 2021 conference. The scope of this challenge is to tackle the task of classifying soft sensing data with machine learning techniques. In this paper we go into the details of the challenge and describe the data set provided to participants. We define the metrics of interest, baseline models, and describe approaches we found meaningful which may be a good starting point for further analysis. We discuss the results obtained with our approaches and give insights on what potential challenges participants may run into. Students, researchers, and anyone interested in working on a major industrial problem are welcome to participate in the challenge!
翻訳日:2021-09-08 14:30:43 公開日:2021-09-07
# データ同化と機械学習を組み合わせて対流スケールモデルのパラメータを推定する

Combining data assimilation and machine learning to estimate parameters of a convective-scale model ( http://arxiv.org/abs/2109.02953v1 )

ライセンス: Link先を確認
Stefanie Legler, Tijana Janjic(参考訳) 対流パーミット数値気象予測モデルにおける雲表現の誤差は、異なる情報源によって引き起こされる。 これらは、強制と境界条件、オーログラフィーの表現、湿度と温度の進化を決定する数値スキームの精度であるが、これは微小物理学のパラメトリゼーションと表面および境界層におけるプロセスのパラメトリゼーションによる大きな貢献である。 これらのスキームは典型的には、物理的でも粗悪でも知られていないいくつかの調整可能なパラメータを含み、モデルエラーにつながる。 伝統的に、これらのモデルパラメータの数値は手動モデルチューニングによって選択される。 より客観的に、データ同化中の拡張状態アプローチによる観測から推定することができる。 本研究では,2種類のニューラルネットワーク(anns)を訓練し,大気状態の観測や解析の関数として1次元修正浅層水モデルのパラメータを推定することにより,人工知能レンズによるパラメータ推定の問題を検討する。 完全モデル実験により、ベイズニューラルネットワーク(BNN)とベイズニューラルネットワーク(NN)の近似がモデルパラメータとその関連する統計を推定できることが示されている。 状態に対するデータ同化と組み合わせたパラメータの推定は、スパースやノイズの観測を同化しても初期状態エラーを減少させる。 また、アンサンブル部材数、観測範囲、ニューラルネットワークサイズに対する感度を示す。 さらに,層間相関伝播の手法を用いて,アンがどのように学習しているかを把握し,自然に強い風と雨の影響を受けるいくつかの格子点のみを選択し,選択したパラメータの予測を行うことを発見した。

Errors in the representation of clouds in convection-permittin g numerical weather prediction models can be introduced by different sources. These can be the forcing and boundary conditions, the representation of orography, the accuracy of the numerical schemes determining the evolution of humidity and temperature, but large contributions are due to the parametrization of microphysics and the parametrization of processes in the surface and boundary layers. These schemes typically contain several tunable parameters that are either not physical or only crudely known, leading to model errors. Traditionally, the numerical values of these model parameters are chosen by manual model tuning. More objectively, they can be estimated from observations by the augmented state approach during the data assimilation. Alternatively, in this work, we look at the problem of parameter estimation through an artificial intelligence lens by training two types of artificial neural networks (ANNs) to estimate several parameters of the one-dimensional modified shallow-water model as a function of the observations or analysis of the atmospheric state. Through perfect model experiments, we show that Bayesian neural networks (BNNs) and Bayesian approximations of point estimate neural networks (NNs) are able to estimate model parameters and their relevant statistics. The estimation of parameters combined with data assimilation for the state decreases the initial state errors even when assimilating sparse and noisy observations. The sensitivity to the number of ensemble members, observation coverage, and neural network size is shown. Additionally, we use the method of layer-wise relevance propagation to gain insight into how the ANNs are learning and discover that they naturally select only a few gridpoints that are subject to strong winds and rain to make their predictions of chosen parameters.
翻訳日:2021-09-08 14:29:27 公開日:2021-09-07
# DeepFakes: 機械学習による偽造・合成メディアコンテンツの検出

DeepFakes: Detecting Forged and Synthetic Media Content Using Machine Learning ( http://arxiv.org/abs/2109.02874v1 )

ライセンス: Link先を確認
Sm Zobaed, Md Fazle Rabby, Md Istiaq Hossain, Ekram Hossain, Sazib Hasan, Asif Karim, Khan Md. Hasib(参考訳) ディープラーニングの急速な進歩は、本物の顔画像とビデオクリップの区別を前例のないほど難しくする。 ディープフェイク(DeepFake)は、多数の悪意ある顔操作アプリケーションを宣伝することによって、最近登場した。 その後、デジタルビジュアルコンテンツの完全性を評価する他の手法の必要性は、DeepFakeの作成の影響を減らすには不確実である。 ディープフェイクの作成と検出を行う大規模な研究は、お互いを現在の状態を超えて押し合うスコープを生み出します。 本研究は,DeepFakeの創出・発見技術に関する課題,研究動向,方向性について,DeepFakeドメインの注目すべき研究をレビューし,今後より進んだDeepFakeに対処可能な,より堅牢なアプローチの開発を促進する。

The rapid advancement in deep learning makes the differentiation of authentic and manipulated facial images and video clips unprecedentedly harder. The underlying technology of manipulating facial appearances through deep generative approaches, enunciated as DeepFake that have emerged recently by promoting a vast number of malicious face manipulation applications. Subsequently, the need of other sort of techniques that can assess the integrity of digital visual content is indisputable to reduce the impact of the creations of DeepFake. A large body of research that are performed on DeepFake creation and detection create a scope of pushing each other beyond the current status. This study presents challenges, research trends, and directions related to DeepFake creation and detection techniques by reviewing the notable research in the DeepFake domain to facilitate the development of more robust approaches that could deal with the more advance DeepFake in the future.
翻訳日:2021-09-08 14:28:59 公開日:2021-09-07
# FDA:ロバストなエアウェイセグメンテーションのための特徴分解と凝集

FDA: Feature Decomposition and Aggregation for Robust Airway Segmentation ( http://arxiv.org/abs/2109.02920v1 )

ライセンス: Link先を確認
Minghui Zhang, Xin Yu, Hanxiao Zhang, Hao Zheng, Weihao Yu, Hong Pan, Xiangran Cai and Yun Gu(参考訳) 3次元畳み込みニューラルネットワーク(CNN)は、気道セグメンテーションに広く採用されている。 3D CNNの性能はデータセットに大きく影響され、パブリックな気道データセットは主に粗いアノテーションによるクリーンなCTスキャンであり、ノイズの多いCTスキャンに一般化することは困難である。 COVID-19 CT)。 本研究では, クリーンドメインとノイズ領域の変動に対処する新しいデュアルストリームネットワークを提案し, クリーンCTスキャンと少量のラベル付きノイズCTスキャンを用いて気道セグメンテーションを行った。 トランスファー可能なクリーンな特徴とノイズの多い特徴を別々に抽出する2つの異なるエンコーダを設計した。 さらに、転送可能な特徴は、チャネルワイドの特徴補正と署名距離マップ(SDM)回帰によって洗練される。 特徴緩和モジュールは重要な特徴を強調し、SDMは、粗いラベルに頑健な転写可能なトポロジカル特徴の抽出に有用であるブロンチにより多くの注意を払っている。 実験の結果,提案手法による明らかな改善が示された。 術中移動学習法と比較し, ノイズCTでは, ブロンチを正確に区分けした。

3D Convolutional Neural Networks (CNNs) have been widely adopted for airway segmentation. The performance of 3D CNNs is greatly influenced by the dataset while the public airway datasets are mainly clean CT scans with coarse annotation, thus difficult to be generalized to noisy CT scans (e.g. COVID-19 CT scans). In this work, we proposed a new dual-stream network to address the variability between the clean domain and noisy domain, which utilizes the clean CT scans and a small amount of labeled noisy CT scans for airway segmentation. We designed two different encoders to extract the transferable clean features and the unique noisy features separately, followed by two independent decoders. Further on, the transferable features are refined by the channel-wise feature recalibration and Signed Distance Map (SDM) regression. The feature recalibration module emphasizes critical features and the SDM pays more attention to the bronchi, which is beneficial to extracting the transferable topological features robust to the coarse labels. Extensive experimental results demonstrated the obvious improvement brought by our proposed method. Compared to other state-of-the-art transfer learning methods, our method accurately segmented more bronchi in the noisy CT scans.
翻訳日:2021-09-08 14:28:43 公開日:2021-09-07
# 繰り返し条件付きganによる知覚ビデオ圧縮

Perceptual Video Compression with Recurrent Conditional GAN ( http://arxiv.org/abs/2109.03082v1 )

ライセンス: Link先を確認
Ren Yang, Luc Van Gool, Radu Timofte(参考訳) 本稿では,条件付き生成対向ネットワークを用いたPLVC(Perceptual Learned Video Compression)アプローチを提案する。 本手法では,再帰的なオートエンコーダを用いた生成器を用いて,圧縮映像の時間的相関を十分に検討することを学ぶ。 さらに重要なことは、リカレントセルにおける潜時表現、時間運動、隠れ状態を含む空間的および時間的情報に基づいて生・圧縮された映像を判定するリカレント条件判別器を提案することである。 このようにして、敵対的なトレーニングにおいて、生成されたビデオは、空間的に写実的であるだけでなく、映像フレーム間の接地性やコヒーレントと時間的に整合する。 そこで,提案したPLVCモデルは,低ビットレートで高い知覚品質の映像を圧縮することを学ぶ。 実験の結果,PLVCのアプローチは,従来の手法や学習手法よりも,知覚品質の指標が優れていることがわかった。 ユーザ研究は、最新の学習ビデオ圧縮アプローチや公式hevcテストモデル(hm 16.20)と比較して、plvcの優れた知覚性能をさらに検証する。 コードはhttps://github.com/r enyang-home/plvcでリリースされる。

This paper proposes a Perceptual Learned Video Compression (PLVC) approach with recurrent conditional generative adversarial network. In our approach, the recurrent auto-encoder-based generator learns to fully explore the temporal correlation for compressing video. More importantly, we propose a recurrent conditional discriminator, which judges raw and compressed video conditioned on both spatial and temporal information, including the latent representation, temporal motion and hidden states in recurrent cells. This way, in the adversarial training, it pushes the generated video to be not only spatially photo-realistic but also temporally consistent with groundtruth and coherent among video frames. Therefore, the proposed PLVC model learns to compress video towards good perceptual quality at low bit-rate. The experimental results show that our PLVC approach outperforms the previous traditional and learned approaches on several perceptual quality metrics. The user study further validates the outstanding perceptual performance of PLVC in comparison with the latest learned video compression approaches and the official HEVC test model (HM 16.20). The codes will be released at https://github.com/R enYang-home/PLVC.
翻訳日:2021-09-08 14:28:21 公開日:2021-09-07
# マルチビヘイビア勧告のためのハイパーメタパスコントラスト学習

Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation ( http://arxiv.org/abs/2109.02859v1 )

ライセンス: Link先を確認
Haoran Yang, Hongxu Chen, Lin Li, Philip S. Yu, Guandong Xu(参考訳) マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。 グラフニューラルネットワーク(GNN)やマルチタスク学習の利点を活用することで、さまざまな方法が提案されている。 しかし、既存の作業の多くは、ユーザのさまざまな振る舞い間の複雑な依存関係を考慮していない。 彼らは、近隣情報集約やベクトルの数学的計算のような単純で固定的なスキームを使用して、異なるユーザの振る舞いの埋め込みを融合させ、下流の推奨タスクで使用されるユーザの行動パターンを表現する統一的な埋め込みを得る。 本稿では,まずハイパーメタパスの概念を提案し,ハイパーメタパスやハイパーメタグラフを構築し,ユーザの行動間の依存関係を明確に記述する。 ハイパーメタパスからユーザへの統一的な埋め込みを取得し、前述の制限を同時に回避する方法が重要である。 グラフコントラスト学習の成功のおかげで、異なる行動間の依存関係を理解するために固定されたスキームを割り当てる代わりに、ユーザー行動パターンの埋め込みを適応的に学ぶことができます。 ハイパーメタパス(HMG-CR)との結合により,グラフの対比学習に基づく新しいフレームワークを提案する。

User purchasing prediction with multi-behavior information remains a challenging problem for current recommendation systems. Various methods have been proposed to address it via leveraging the advantages of graph neural networks (GNNs) or multi-task learning. However, most existing works do not take the complex dependencies among different behaviors of users into consideration. They utilize simple and fixed schemes, like neighborhood information aggregation or mathematical calculation of vectors, to fuse the embeddings of different user behaviors to obtain a unified embedding to represent a user's behavioral patterns which will be used in downstream recommendation tasks. To tackle the challenge, in this paper, we first propose the concept of hyper meta-path to construct hyper meta-paths or hyper meta-graphs to explicitly illustrate the dependencies among different behaviors of a user. How to obtain a unified embedding for a user from hyper meta-paths and avoid the previously mentioned limitations simultaneously is critical. Thanks to the recent success of graph contrastive learning, we leverage it to learn embeddings of user behavior patterns adaptively instead of assigning a fixed scheme to understand the dependencies among different behaviors. A new graph contrastive learning based framework is proposed by coupling with hyper meta-paths, namely HMG-CR, which consistently and significantly outperforms all baselines in extensive comparison experiments.
翻訳日:2021-09-08 14:27:38 公開日:2021-09-07
# コンテクストファーストプライスオークションの入札方法を学ぶ

Learning to Bid in Contextual First Price Auctions ( http://arxiv.org/abs/2109.03173v1 )

ライセンス: Link先を確認
Ashwinkumar Badanidiyuru and Zhe Feng and Guru Guruganesh(参考訳) 本稿では,コンテクストプライスオークションを繰り返す際の入札問題について検討する。 1人の入札者(learner)は、最初の価格オークションで繰り返し入札を行う。 $t$ のたびに、学習者はコンテキスト $x_t\in \mathbb{r}^d$ を観察し、履歴情報と$x_t$ に基づいて入札を決定する。 m_t = \alpha_0\cdot x_t + z_t$, where $\alpha_0\in \mathbb{R}^d$ is unknown to the learner and $z_t$ is randomly sampleed from a noise distribution $\mathcal{F}$ with log-concave density function $f$。 学習者は、学習者が勝利するかどうかのみを観察できる)と、学習者(学習者)は、各時点の最後に$t$で、_emph{full information feedback}($m_t$を観測できる)の両方を考える。 二元フィードバックのために、$\mathcal{f}$ のノイズ分布が知られているとき、最大確率推定 (mle) 法を用いて最大$\widetilde{o}(\sqrt{\log(d) t})$ regret を達成するための入札アルゴリズムを提案する。 さらに,このアルゴリズムを二元フィードバックによる設定に一般化し,ノイズ分布は未知であるがパラメータ化された分布に属する。 emph{unknown}ノイズ分布を持つ全情報フィードバックのために、最大$\widetilde{o}(\sqrt{dt})$で後悔を実現するアルゴリズムを提供する。 提案手法では, 対数凹密度関数の推定器とMLE法を組み合わせて, 雑音分布$\mathcal{F}$と線形重み$\alpha_0$を同時に学習する。 また、幅広いクラスにおける入札ポリシーは、学習者が完全な情報フィードバックを受け取り、$\mathcal{f}$が知られている場合でも、少なくとも$\omega(\sqrt{t})$を後悔しなければならないという低限の結果を提供する。

In this paper, we investigate the problem about how to bid in repeated contextual first price auctions. We consider a single bidder (learner) who repeatedly bids in the first price auctions: at each time $t$, the learner observes a context $x_t\in \mathbb{R}^d$ and decides the bid based on historical information and $x_t$. We assume a structured linear model of the maximum bid of all the others $m_t = \alpha_0\cdot x_t + z_t$, where $\alpha_0\in \mathbb{R}^d$ is unknown to the learner and $z_t$ is randomly sampled from a noise distribution $\mathcal{F}$ with log-concave density function $f$. We consider both \emph{binary feedback} (the learner can only observe whether she wins or not) and \emph{full information feedback} (the learner can observe $m_t$) at the end of each time $t$. For binary feedback, when the noise distribution $\mathcal{F}$ is known, we propose a bidding algorithm, by using maximum likelihood estimation (MLE) method to achieve at most $\widetilde{O}(\sqrt{\log(d) T})$ regret. Moreover, we generalize this algorithm to the setting with binary feedback and the noise distribution is unknown but belongs to a parametrized family of distributions. For the full information feedback with \emph{unknown} noise distribution, we provide an algorithm that achieves regret at most $\widetilde{O}(\sqrt{dT})$. Our approach combines an estimator for log-concave density functions and then MLE method to learn the noise distribution $\mathcal{F}$ and linear weight $\alpha_0$ simultaneously. We also provide a lower bound result such that any bidding policy in a broad class must achieve regret at least $\Omega(\sqrt{T})$, even when the learner receives the full information feedback and $\mathcal{F}$ is known.
翻訳日:2021-09-08 14:26:59 公開日:2021-09-07
# 深部強化学習による量子変分回路の最適化

Optimizing Quantum Variational Circuits with Deep Reinforcement Learning ( http://arxiv.org/abs/2109.03188v1 )

ライセンス: Link先を確認
Owen Lockwood(参考訳) 量子機械学習(QML)は、近未来の量子デバイスの最も有望な応用の1つと考えられている。 しかし、量子機械学習モデルの最適化は、ハードウェアの不完全性や、指数関数的にスケールするヒルベルト空間をナビゲートする際の根本的な障害から生じる多くの課題を示す。 本研究では,量子変分回路における勾配に基づく最適化ルーチンを強化するために,深層強化学習における現代手法の可能性を評価する。 強化学習強化最適化器は雑音環境下での勾配降下よりも一貫して優れていた。 結果の複製や、https://github.com/l ockwo/rl_qvc_optでモデルのデプロイには、すべてのコードとトレーニング済みのウェイトが利用できる。

Quantum Machine Learning (QML) is considered to be one of the most promising applications of near term quantum devices. However, the optimization of quantum machine learning models presents numerous challenges arising from the imperfections of hardware and the fundamental obstacles in navigating an exponentially scaling Hilbert space. In this work, we evaluate the potential of contemporary methods in deep reinforcement learning to augment gradient based optimization routines in quantum variational circuits. We find that reinforcement learning augmented optimizers consistently outperform gradient descent in noisy environments. All code and pretrained weights are available to replicate the results or deploy the models at https://github.com/l ockwo/rl_qvc_opt.
翻訳日:2021-09-08 14:26:19 公開日:2021-09-07
# COCOデノイザ:確率凸最適化における共係数を用いた可変化

COCO Denoiser: Using Co-Coercivity for Variance Reduction in Stochastic Convex Optimization ( http://arxiv.org/abs/2109.03207v1 )

ライセンス: Link先を確認
Manuel Madeira, Renato Negrinho, Jo\~ao Xavier and Pedro M. Q. Aguiar(参考訳) 確率的最適化のための一階法には、機械学習において重要な役割があるため、否定できない関連性がある。 これらのアルゴリズムのばらつき低減は重要な研究トピックとなっている。 目的関数の大域的モデルを利用する一般的なアプローチとは対照的に、凸性やL-滑らかさを利用して確率勾配オラクルによって出力される雑音の推定を改善する。 ココ・デノイザー (coco denoiser) という手法は, 共保磁力制約を受けることにより, 騒音観測による関数勾配の最大値推定法である。 結果の見積もりは、凸二次制約付き二次問題の解である。 この問題はインテリアポイント法で解くには高価であるが、高速化された1次アルゴリズムであるFast Dual Proximal Gradient法を適用するためにその構造を利用する。 提案する推定値の解析的特徴付けに加えて,クエリ点の数と近接度の増加が勾配推定精度の向上に寄与することを示す。 SGDやAdam,STRSAGAといった既存のアルゴリズムにCOCOをプラグインすることで,モデリングの前提が一致していない場合においても,そのバニラバージョンよりも優れています。

First-order methods for stochastic optimization have undeniable relevance, in part due to their pivotal role in machine learning. Variance reduction for these algorithms has become an important research topic. In contrast to common approaches, which rarely leverage global models of the objective function, we exploit convexity and L-smoothness to improve the noisy estimates outputted by the stochastic gradient oracle. Our method, named COCO denoiser, is the joint maximum likelihood estimator of multiple function gradients from their noisy observations, subject to co-coercivity constraints between them. The resulting estimate is the solution of a convex Quadratically Constrained Quadratic Problem. Although this problem is expensive to solve by interior point methods, we exploit its structure to apply an accelerated first-order algorithm, the Fast Dual Proximal Gradient method. Besides analytically characterizing the proposed estimator, we show empirically that increasing the number and proximity of the queried points leads to better gradient estimates. We also apply COCO in stochastic settings by plugging it in existing algorithms, such as SGD, Adam or STRSAGA, outperforming their vanilla versions, even in scenarios where our modelling assumptions are mismatched.
翻訳日:2021-09-08 14:26:05 公開日:2021-09-07
# ユニモーダルおよびマルチモーダル検出器を用いたオーディオビデオマルチモーダルディープフェイクデータセットの評価

Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal and Multimodal Detectors ( http://arxiv.org/abs/2109.02993v1 )

ライセンス: Link先を確認
Hasam Khalid and Minha Kim and Shahroz Tariq and Simon S. Woo(参考訳) ディープフェイクの世代における重要な進歩は、セキュリティとプライバシの問題を引き起こした。 攻撃者は、顔を相手の顔に置き換えることで、画像中の人物の身元を容易に偽装することができる。 さらに、ディープラーニング技術を用いた人間の声のクローン化の新しい領域も出現している。 現在、攻撃者はターゲットの音声を数秒で生成して、人間の現実的なクローン音声を生成することができる。 ディープフェイクの危険性が高まっているため、研究者はディープフェイク検出法を提案している。 しかし、それらは単一のモダリティ、すなわちビデオまたはオーディオを検出することのみに焦点を当てている。 一方で、ディープフェイク生成の最近の進歩に対応可能な優れたディープフェイク検出器を開発するには、複数のモード、例えばビデオやオーディオのディープフェイクを検出するための検出器が必要である。 このような検出器を構築するには、ビデオと各オーディオディープフェイクを含むデータセットが必要です。 私たちは、最新のディープフェイクデータセットであるAudio-Video Multimodal Deepfake Detection Dataset (FakeAVCeleb)を見つけました。 このマルチモーダルなディープフェイクデータセットを用いて,最先端のユニモーダル,アンサンブルベース,マルチモーダル検出法を用いて,詳細なベースライン実験を行った。 我々は,単一モダリティ,ビデオ,音声のみを扱うユニモーダルが,アンサンブル方式に比べてよく機能しないという詳細な実験を通じて結論づける。 純粋にマルチモーダルベースのベースラインは最悪のパフォーマンスを提供する。

Significant advancements made in the generation of deepfakes have caused security and privacy issues. Attackers can easily impersonate a person's identity in an image by replacing his face with the target person's face. Moreover, a new domain of cloning human voices using deep-learning technologies is also emerging. Now, an attacker can generate realistic cloned voices of humans using only a few seconds of audio of the target person. With the emerging threat of potential harm deepfakes can cause, researchers have proposed deepfake detection methods. However, they only focus on detecting a single modality, i.e., either video or audio. On the other hand, to develop a good deepfake detector that can cope with the recent advancements in deepfake generation, we need to have a detector that can detect deepfakes of multiple modalities, i.e., videos and audios. To build such a detector, we need a dataset that contains video and respective audio deepfakes. We were able to find a most recent deepfake dataset, Audio-Video Multimodal Deepfake Detection Dataset (FakeAVCeleb), that contains not only deepfake videos but synthesized fake audios as well. We used this multimodal deepfake dataset and performed detailed baseline experiments using state-of-the-art unimodal, ensemble-based, and multimodal detection methods to evaluate it. We conclude through detailed experimentation that unimodals, addressing only a single modality, video or audio, do not perform well compared to ensemble-based methods. Whereas purely multimodal-based baselines provide the worst performance.
翻訳日:2021-09-08 14:25:03 公開日:2021-09-07
# ガウス過程と制御バリア関数による時間論理を用いた安全臨界モジュール深層強化学習

Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic through Gaussian Processes and Control Barrier Functions ( http://arxiv.org/abs/2109.02791v1 )

ライセンス: Link先を確認
Mingyu Cai, Cristian-Ioan Vasile(参考訳) 強化学習(rl)は、未知のモデルや測定の不確実性を持つロボットシステムを制御する上で、安全な探索や適切な活用を促進することが課題となるため、実世界のアプリケーションでの成功を限定した有望なアプローチである。 このような学習問題は、連続空間(状態空間とアクション空間)上の複雑なタスクにとってさらに難解になる。 In this paper, we propose a learning-based control framework consisting of several aspects: (1) linear temporal logic (LTL) is leveraged to facilitate complex tasks over an infinite horizons which can be translated to a novel automaton structure; (2) we propose an innovative reward scheme for RL-agent with the formal guarantee such that global optimal policies maximize the probability of satisfying the LTL specifications; (3) based on a reward shaping technique, we develop a modular policy-gradient architecture utilizing the benefits of automaton structures to decompose overall tasks and facilitate the performance of learned controllers; (4) by incorporating Gaussian Processes (GPs) to estimate the uncertain dynamic systems, we synthesize a model-based safeguard using Exponential Control Barrier Functions (ECBFs) to address problems with high-order relative degrees. さらに,LTLオートマトンとECBFの特性を利用して,探索の効率化を図るための指針プロセスを構築した。 最後に,いくつかのロボット環境を通して,フレームワークの有効性を示す。 また,このようなecbfに基づくモジュール型深層rlアルゴリズムは,訓練中に高い確率信頼度で,ほぼ完璧に近い成功率とガード安全性を実現する。

Reinforcement learning (RL) is a promising approach and has limited success towards real-world applications, because ensuring safe exploration or facilitating adequate exploitation is a challenges for controlling robotic systems with unknown models and measurement uncertainties. Such a learning problem becomes even more intractable for complex tasks over continuous space (state-space and action-space). In this paper, we propose a learning-based control framework consisting of several aspects: (1) linear temporal logic (LTL) is leveraged to facilitate complex tasks over an infinite horizons which can be translated to a novel automaton structure; (2) we propose an innovative reward scheme for RL-agent with the formal guarantee such that global optimal policies maximize the probability of satisfying the LTL specifications; (3) based on a reward shaping technique, we develop a modular policy-gradient architecture utilizing the benefits of automaton structures to decompose overall tasks and facilitate the performance of learned controllers; (4) by incorporating Gaussian Processes (GPs) to estimate the uncertain dynamic systems, we synthesize a model-based safeguard using Exponential Control Barrier Functions (ECBFs) to address problems with high-order relative degrees. In addition, we utilize the properties of LTL automatons and ECBFs to construct a guiding process to further improve the efficiency of exploration. Finally, we demonstrate the effectiveness of the framework via several robotic environments. And we show such an ECBF-based modular deep RL algorithm achieves near-perfect success rates and guard safety with a high probability confidence during training.
翻訳日:2021-09-08 14:23:23 公開日:2021-09-07
# 自己適応型ディープニューラルネットワーク:関数とPDEへの数値近似

Self-adaptive deep neural network: Numerical approximation to functions and PDEs ( http://arxiv.org/abs/2109.02839v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 与えられたタスクに最適なディープニューラルネットワークを設計することは、多くの機械学習アプリケーションにおいて重要かつ困難である。 この問題に対処するために, 適応型ネットワーク拡張(ANE)方式を, フォームトレインのループとして記述し, 推定, 拡張する自己適応型アルゴリズムを提案する。 小さな2層ニューラルネットワーク(NN)から始めると、ステップトレインは現在のNNで最適化問題を解くこと、ステップ推定は現在のNNでソリューションを使用して後部推定器/指標を計算すること、ステップエンハンスメントは現在のNNに新しいニューロンを追加することである。 本稿では,新しいニューロンの数と,新しい層を現在のnnに追加すべき時期を決定するために,計算推定器/インジケータに基づく新しいネットワーク強化戦略を開発した。 ane法は、現在のnnのトレーニングにおいて適切な初期化を得るための自然なプロセスを提供し、さらに、新しく追加されたニューロンをより良い近似のために初期化する方法に関する高度な手順を導入する。 ane法は, 急な遷移層を示す関数や双曲偏微分方程式の不連続解を学習するために, ほぼ最小限のnnを自動設計できることを実証する。

Designing an optimal deep neural network for a given task is important and challenging in many machine learning applications. To address this issue, we introduce a self-adaptive algorithm: the adaptive network enhancement (ANE) method, written as loops of the form train, estimate and enhance. Starting with a small two-layer neural network (NN), the step train is to solve the optimization problem at the current NN; the step estimate is to compute a posteriori estimator/indicators using the solution at the current NN; the step enhance is to add new neurons to the current NN. Novel network enhancement strategies based on the computed estimator/indicators are developed in this paper to determine how many new neurons and when a new layer should be added to the current NN. The ANE method provides a natural process for obtaining a good initialization in training the current NN; in addition, we introduce an advanced procedure on how to initialize newly added neurons for a better approximation. We demonstrate that the ANE method can automatically design a nearly minimal NN for learning functions exhibiting sharp transitional layers as well as discontinuous solutions of hyperbolic partial differential equations.
翻訳日:2021-09-08 14:23:02 公開日:2021-09-07
# hottopixxの微細化とその後処理

Refinement of Hottopixx and its Postprocessing ( http://arxiv.org/abs/2109.02863v1 )

ライセンス: Link先を確認
Tomohiko Mizutani(参考訳) Hottopixx - Bittorfらによって提案された。 NIPS 2012は、非負行列分解(NMF)問題を分離性仮定で解くアルゴリズムである。 分離可能なNMFは、文書からのトピック抽出やハイパースペクトル画像のアンミックスなど、重要な応用がある。 このようなアプリケーションでは、ノイズに対するアルゴリズムの堅牢性が成功の鍵となる。 Hottopixxはノイズに対して堅牢であることが示されており、その堅牢性は後処理によってさらに強化される。 しかし、欠点がある。 Hottopixxとその後処理では、入力データの一部として使用するため、実行前に分解したい行列に関連するノイズレベルを推定する必要があります。 ノイズレベルの推定は簡単な作業ではありません。 本稿では,この欠点を克服する。 ノイズレベルを事前に知ることなく,hottopixxの改良とその後処理について述べる。 本手法は,従来のアルゴリズムとほぼ同一の頑健性を有することを示す。

Hottopixx, proposed by Bittorf et al. at NIPS 2012, is an algorithm for solving nonnegative matrix factorization (NMF) problems under the separability assumption. Separable NMFs have important applications, such as topic extraction from documents and unmixing of hyperspectral images. In such applications, the robustness of the algorithm to noise is the key to the success. Hottopixx has been shown to be robust to noise, and its robustness can be further enhanced through postprocessing. However, there is a drawback. Hottopixx and its postprocessing require us to estimate the noise level involved in the matrix we want to factorize before running, since they use it as part of the input data. The noise-level estimation is not an easy task. In this paper, we overcome this drawback. We present a refinement of Hottopixx and its postprocessing that runs without prior knowledge of the noise level. We show that the refinement has almost the same robustness to noise as the original algorithm.
翻訳日:2021-09-08 14:22:43 公開日:2021-09-07
# 機械学習のスケール不変表現

Scale-invariant representation of machine learning ( http://arxiv.org/abs/2109.02914v1 )

ライセンス: Link先を確認
Sungyeop Lee and Junghyo Jo(参考訳) 機械学習の成功は、その構造化データ表現に由来する。 類似したデータには、分類のための圧縮コードやクラスタリングのためのラベルとして密接な表現がある。 内部表現の頻度は教師なし学習と教師なし学習の両方においてパワー法則に従うことが観察される。 スケール不変分布は、機械学習が典型データを頻繁に圧縮すると同時に、多くの非定型データを外れ値として区別することを意味する。 本研究では,機械学習におけるパワー則の自然発生について考察する。 情報理論の観点では、スケール不変表現は、事前特定された学習精度を保証する可能な表現の間で最大不確定なデータグループ化に対応する。

The success of machine learning stems from its structured data representation. Similar data have close representation as compressed codes for classification or emerged labels for clustering. We observe that the frequency of the internal representation follows power laws in both supervised and unsupervised learning. The scale-invariant distribution implies that machine learning largely compresses frequent typical data, and at the same time, differentiates many atypical data as outliers. In this study, we derive how the power laws can naturally arise in machine learning. In terms of information theory, the scale-invariant representation corresponds to a maximally uncertain data grouping among possible representations that guarantee pre-specified learning accuracy.
翻訳日:2021-09-08 14:22:29 公開日:2021-09-07
# 大セルネットワークにおけるモデルドリフトの理解

Understanding Model Drift in a Large Cellular Network ( http://arxiv.org/abs/2109.03011v1 )

ライセンス: Link先を確認
Shinan Liu, Francesco Bronzino, Paul Schmitt, Nick Feamster, Ricardo Borges, Hector Garcia Crespo, Brian Ward(参考訳) 運用ネットワークでは、異常の検出、アプリケーションパフォーマンスの推測、需要予測など、さまざまなタスクに機械学習モデルの利用が増えている。 正確なモデルは重要であるが、概念のドリフトによって時間とともに精度が低下し、データの変化の特徴(データドリフト)や特徴と目標予測値の関係(モデルドリフト)が時間とともに変化する(モデルドリフト)。 基礎となるデータの性質の変化やターゲット予測との関係がモデルの再トレーニングを必要とする可能性があるため、ドリフトは検出に重要である。 コンセプトドリフトは、ソフトウェアアップグレードから季節性、ユーザの振る舞いの変化など、さまざまな理由で運用ネットワークで発生します。 しかし,ネットワーク内のドリフトの発生状況にも拘わらず,その範囲と予測精度への影響は広く研究されていない。 本稿では,米国における大規模携帯電話ネットワークにおける需要予測の文脈において,大都市圏のコンセプトドリフトを最初に検討する。 コンセプトドリフトは主としてデータドリフトによって発生し、さまざまなキーパフォーマンスインジケータ(kpi)、モデル、トレーニングセットサイズ、時間間隔にまたがって現れることが分かりました。 我々は、ダウンリンクボリュームを予測する特定の問題に対する概念ドリフトの源を同定する。 週と季節のパターンは、高頻度と低頻度の両方のモデルドリフトをもたらし、災害とアップグレードは外因性ショックによる突然のドリフトをもたらす。 人口密度の高い地域、交通量が少ない地域、より高速な地域もコンセプトドリフトと相関する傾向にある。 コンセプトドリフトに最も貢献する機能は、ユーザ機器(UE)ダウンリンクパケット、UEアップリンクパケット、RTP(Real-time Transport Protocol)トータル受信パケットである。

Operational networks are increasingly using machine learning models for a variety of tasks, including detecting anomalies, inferring application performance, and forecasting demand. Accurate models are important, yet accuracy can degrade over time due to concept drift, whereby either the characteristics of the data change over time (data drift) or the relationship between the features and the target predictor change over time (model drift). Drift is important to detect because changes in properties of the underlying data or relationships to the target prediction can require model retraining, which can be time-consuming and expensive. Concept drift occurs in operational networks for a variety of reasons, ranging from software upgrades to seasonality to changes in user behavior. Yet, despite the prevalence of drift in networks, its extent and effects on prediction accuracy have not been extensively studied. This paper presents an initial exploration into concept drift in a large cellular network in the United States for a major metropolitan area in the context of demand forecasting. We find that concept drift arises largely due to data drift, and it appears across different key performance indicators (KPIs), models, training set sizes, and time intervals. We identify the sources of concept drift for the particular problem of forecasting downlink volume. Weekly and seasonal patterns introduce both high and low-frequency model drift, while disasters and upgrades result in sudden drift due to exogenous shocks. Regions with high population density, lower traffic volumes, and higher speeds also tend to correlate with more concept drift. The features that contribute most significantly to concept drift are User Equipment (UE) downlink packets, UE uplink packets, and Real-time Transport Protocol (RTP) total received packets.
翻訳日:2021-09-08 14:22:20 公開日:2021-09-07
# (参考訳) 深い単調双対ネットワークによる因果関係の確率の推定 [全文訳有]

Estimating the probabilities of causation via deep monotonic twin networks ( http://arxiv.org/abs/2109.01904v2 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Bernhard Kainz, Ciaran M. Gilligan-Lee(参考訳) 因果的クエリに機械学習を使って答える作業は、近年数多く行われている。 ほとんどは、条件付き平均治療効果のような介入的問合せに焦点を当てている。 しかし、Pearl氏が指摘するように、介入クエリは因果クエリのより大きな階層の一部に過ぎず、反ファクトが上部にある。 それにもかかわらず、私たちのコミュニティは、偽のクエリに機械学習ツールを適用することには成功していません。 この研究は、反事実クエリを推定するためのディープラーニングを用いて、アブダクション、アクション、予測の代替であるツインネットワークの反事実推論(twin network counterfactual inference)の実装方法を示すことによって、この課題に対処します。 我々は、ツインネットワークのグラフィカルな性質によって、特にディープラーニングに順応しやすくなり、訓練された場合、反実的推論が可能な単純なニューラルネットワークアーキテクチャが得られることを示す。 重要なことは、トレーニング中に既知の識別可能性の制約をどのように強制するかを示し、各カウンターファクトクエリに対する応答が一意に決定されるようにすることである。 合成データと実データの両方において、ある事象が他の事象の必要または十分な原因である程度を定量化する重要な反事実クエリーである因果関係の確率を正確に推定することで、このアプローチを実証する。

There has been much recent work using machine learning to answer causal queries. Most focus on interventional queries, such as the conditional average treatment effect. However, as noted by Pearl, interventional queries only form part of a larger hierarchy of causal queries, with counterfactuals sitting at the top. Despite this, our community has not fully succeeded in adapting machine learning tools to answer counterfactual queries. This work addresses this challenge by showing how to implement twin network counterfactual inference -- an alternative to abduction, action, & prediction counterfactual inference -- with deep learning to estimate counterfactual queries. We show how the graphical nature of twin networks makes them particularly amenable to deep learning, yielding simple neural network architectures that, when trained, are capable of counterfactual inference. Importantly, we show how to enforce known identifiability constraints during training, ensuring the answer to each counterfactual query is uniquely determined. We demonstrate our approach by using it to accurately estimate the probabilities of causation -- important counterfactual queries that quantify the degree to which one event was a necessary or sufficient cause of another -- on both synthetic and real data.
翻訳日:2021-09-08 12:29:31 公開日:2021-09-07
# (参考訳) 全地形自律農業ロボットのナビゲーション経路計画 [全文訳有]

Navigational Path-Planning For All-Terrain Autonomous Agricultural Robot ( http://arxiv.org/abs/2109.02015v2 )

ライセンス: CC BY 4.0
Vedant Ghodke, Jyoti Madake(参考訳) 労働力不足とメンテナンスコストの増大により、多くの農夫は自動化され機械化されたアプローチに移行せざるを得なくなった。 自律システムの主要なコンポーネントは、使用するパス計画技術である。 被覆経路計画 (CPP) アルゴリズムは、農耕地を航行し、種苗、プラウイング、農薬や肥料の散布など様々な農業活動を行うために用いられる。 本稿では,農地の自律ナビゲーションのための新しいアルゴリズムの比較を行う。 航法制約の低減のために、インド環境に特有な高解像度グリッドマップ表現を考慮に入れた。 自由空間は、グリッドセルを覆い、探索されず、部分的に探索し、障害物の存在を区別することでカバーされる。 比較アルゴリズムの性能は、時間効率、空間効率、精度、環境の変化に対するロバスト性などの指標を用いて評価される。 ロボットオペレーティング・システム(ROS)、ダッソー・システムズ・エクスペリエンス・プラットフォーム(3DS Experience)、PythonのMATLABが比較アルゴリズムのシミュレーションに使用された。 その結果、自律的なフィールドナビゲーションのためのアルゴリズムの適用性とロボット経路計画の実現性が確認された。

The shortage of workforce and increasing cost of maintenance has forced many farm industrialists to shift towards automated and mechanized approaches. The key component for autonomous systems is the path planning techniques used. Coverage path planning (CPP) algorithm is used for navigating over farmlands to perform various agricultural operations such as seeding, ploughing, or spraying pesticides and fertilizers. This report paper compares novel algorithms for autonomous navigation of farmlands. For reduction of navigational constraints, a high-resolution grid map representation is taken into consideration specific to Indian environments. The free space is covered by distinguishing the grid cells as covered, unexplored, partially explored and presence of an obstacle. The performance of the compared algorithms is evaluated with metrics such as time efficiency, space efficiency, accuracy, and robustness to changes in the environment. Robotic Operating System (ROS), Dassault Systemes Experience Platform (3DS Experience), MATLAB along Python were used for the simulation of the compared algorithms. The results proved the applicability of the algorithms for autonomous field navigation and feasibility with robotic path planning.
翻訳日:2021-09-08 12:09:26 公開日:2021-09-07
# (参考訳) 追跡による最先端物体検出によるドライバ電話利用違反の同定 [全文訳有]

Identification of Driver Phone Usage Violations via State-of-the-Art Object Detection with Tracking ( http://arxiv.org/abs/2109.02119v2 )

ライセンス: CC BY 4.0
Steven Carrell and Amir Atapour-Abarghouei(参考訳) 自動車運転における携帯電話の利用は、道路交通のインシデントにおいて大きな要因であり、そのような違反を捕捉するプロセスは、手間のかかる作業である。 現代のオブジェクト検出フレームワークと高性能ハードウェアの両方の進歩は、ビデオ監視に関してより自動化されたアプローチへの道を開いた。 そこで本研究では,道路カメラと協調して,人間の介入を必要とせず,運転者の携帯電話使用状況を把握するカスタム学習型物体検出装置を提案する。 提案手法はウインドスクリーンのグラアによって引き起こされる問題にも対処し、修正に必要な手順を導入する。 12の事前トレーニングされたモデルは、YOLO、SSD、Faster R-CNN、CenterNetの4つの一般的なオブジェクト検出方法を使用して、私たちのカスタムデータセットで微調整されます。 テストされたすべての物体検出器のうち、yoloは最大96%(ap10)の精度と最大30fpsのフレームレートを実現している。 deepsort object trackingアルゴリズムは、最もパフォーマンスの高いモデルに統合され、ユニークな違反のみの記録を収集し、提案手法により車両数を数えることができる。 提案した自動システムは、識別された違反の出力画像、各違反のタイムスタンプ、および総車両数を収集する。 データは、ユーザーインターフェイスを通じてアクセスすることができる。

The use of mobiles phones when driving have been a major factor when it comes to road traffic incidents and the process of capturing such violations can be a laborious task. Advancements in both modern object detection frameworks and high-performance hardware has paved the way for a more automated approach when it comes to video surveillance. In this work, we propose a custom-trained state-of-the-art object detector to work with roadside cameras to capture driver phone usage without the need for human intervention. The proposed approach also addresses the issues caused by windscreen glare and introduces the steps required to remedy this. Twelve pre-trained models are fine-tuned with our custom dataset using four popular object detection methods: YOLO, SSD, Faster R-CNN, and CenterNet. Out of all the object detectors tested, the YOLO yields the highest accuracy levels of up to 96% (AP10) and frame rates of up to ~30 FPS. DeepSort object tracking algorithm is also integrated into the best-performing model to collect records of only the unique violations, and enable the proposed approach to count the number of vehicles. The proposed automated system will collect the output images of the identified violations, timestamps of each violation, and total vehicle count. Data can be accessed via a purpose-built user interface.
翻訳日:2021-09-08 12:02:27 公開日:2021-09-07
# (参考訳) 多物体形状における関節変動の非ユークリッド解析 [全文訳有]

Non-Euclidean Analysis of Joint Variations in Multi-Object Shapes ( http://arxiv.org/abs/2109.02230v2 )

ライセンス: CC BY 4.0
Zhiyuan Liu and J\"orn Schulz and Mohsen Taheri and Martin Styner and James Damon and Stephen Pizer and J. S. Marron(参考訳) 分類タスクにおける複数の機能関連構造の連成解析について考察する。 特に本手法は,機能的に相関した脳の構造が自閉症と対照群でどのように異なるかに起因している。 そこで本研究では,(1)ユークリッド空間における非ユークリッドデータを忠実に表現できる非ユークリッド統計と,(2)複数ブロックユークリッドデータを結合構造,個人構造,残留構造に分解可能な非パラメトリック積分解析との組み合わせを考案した。 その結果, 多ブロック非ユークリッドデータの結合変動のパターンを認識する上で, 結合構造は有効で, 堅牢であり, 解釈可能であることがわかった。 自閉症スペクトラム障害 (asd) に発展しなかった症例から収集した構造形状データを分類する方法を検証した。

This paper considers joint analysis of multiple functionally related structures in classification tasks. In particular, our method developed is driven by how functionally correlated brain structures vary together between autism and control groups. To do so, we devised a method based on a novel combination of (1) non-Euclidean statistics that can faithfully represent non-Euclidean data in Euclidean spaces and (2) a non-parametric integrative analysis method that can decompose multi-block Euclidean data into joint, individual, and residual structures. We find that the resulting joint structure is effective, robust, and interpretable in recognizing the underlying patterns of the joint variation of multi-block non-Euclidean data. We verified the method in classifying the structural shape data collected from cases that developed and did not develop into Autistic Spectrum Disorder (ASD).
翻訳日:2021-09-08 11:48:27 公開日:2021-09-07
# (参考訳) Pointspectrum: 等価性はグラフ表現学習のためのラプラシアンフィルタと出会う [全文訳有]

Pointspectrum: Equivariance Meets Laplacian Filtering for Graph Representation Learning ( http://arxiv.org/abs/2109.02358v2 )

ライセンス: CC BY 4.0
Marinos Poiitis, Pavlos Sermpezis, Athena Vakali(参考訳) グラフ表現学習(GRL)は、現代のグラフデータマイニングおよび学習タスクに欠かせないものとなっている。 GRLはグラフの構造情報を取り込み、ノードやエッジ属性と組み合わせて低次元表現を計算することを目的としている。 グラフニューラルネットワーク(GNN)は最先端のGRLアーキテクチャで使用されているが、多くのGNN層を積み重ねる必要がある場合、過度なスムース化に悩まされていることが示されている。 別のgrlアプローチでは、グラフフィルタリングに基づくスペクトル手法がスムース化に対処しているが、これまではグラフデータの構造を効率的に活用できない従来のニューラルネットワークを採用している。 そこで我々は, グラフの構造を考慮に入れた, 集合同変ネットワークを組み込んだスペクトル法であるPointSpectrumを提案する。 PointSpectrumはスペクトル法の効率性と表現性を向上し、最先端のGRL法よりも優れ、競合する。 全体として、ポイントスペクトラムはグラフフィルタを用いて平滑化を克服し、gnnとスペクトル法の交点にある集合同分散を通じてグラフの構造をキャプチャする。 本研究の成果は,スペクトル法とGRLのアーキテクチャシフトのメリットと適用性を示すものである。

Graph Representation Learning (GRL) has become essential for modern graph data mining and learning tasks. GRL aims to capture the graph's structural information and exploit it in combination with node and edge attributes to compute low-dimensional representations. While Graph Neural Networks (GNNs) have been used in state-of-the-art GRL architectures, they have been shown to suffer from over smoothing when many GNN layers need to be stacked. In a different GRL approach, spectral methods based on graph filtering have emerged addressing over smoothing; however, up to now, they employ traditional neural networks that cannot efficiently exploit the structure of graph data. Motivated by this, we propose PointSpectrum, a spectral method that incorporates a set equivariant network to account for a graph's structure. PointSpectrum enhances the efficiency and expressiveness of spectral methods, while it outperforms or competes with state-of-the-art GRL methods. Overall, PointSpectrum addresses over smoothing by employing a graph filter and captures a graph's structure through set equivariance, lying on the intersection of GNNs and spectral methods. Our findings are promising for the benefits and applicability of this architectural shift for spectral methods and GRL.
翻訳日:2021-09-08 11:24:00 公開日:2021-09-07
# (参考訳) 教師なしオピニオン抽出によるアスペクトレベル感性分類のための知覚バイアスの除去 [全文訳有]

Eliminating Sentiment Bias for Aspect-Level Sentiment Classification with Unsupervised Opinion Extraction ( http://arxiv.org/abs/2109.02403v2 )

ライセンス: CC BY 4.0
Bo Wang, Tao Shen, Guodong Long, Tianyi Zhou, Yi Chang(参考訳) アスペクトレベルの感情分類(ALSC)は、文中の特定の側面の感情極性を特定することを目的としている。 ALSCは、意見用語のラベル付けが不要なため、アスペクトベースの感情分析の実践的な設定であるが、なぜその側面に対して感情の極性が導出されるのかを理解できない。 この問題に対処するために,alsc の微調整プリトレーニングトランスエンコーダを用いて,意見の単語を識別可能なアスペクト中心の依存性木を抽出した。 しかし、誘導された意見語は人間レベルの解釈可能性よりはるかに低い直感的な手がかりを与えるだけである。 さらに、事前訓練されたエンコーダは、アスペクトの本質的な感情を内部化し、感情バイアスを引き起こし、モデルパフォーマンスに影響を与える傾向がある。 本稿では,スパンベースのアンチバイアスアスペクト表現学習フレームワークを提案する。 まず、前向きの感情に対する敵対的学習によって埋め込まれた側面の感情バイアスを除去する。 そして、スパンベースの依存性モデリングによって、蒸留された意見候補をアスペクトに合わせ、解釈可能な意見用語を強調する。 提案手法は,教師なし意見抽出機能を備えた5つのベンチマークにおいて,最先端性能を実現する。

Aspect-level sentiment classification (ALSC) aims at identifying the sentiment polarity of a specified aspect in a sentence. ALSC is a practical setting in aspect-based sentiment analysis due to no opinion term labeling needed, but it fails to interpret why a sentiment polarity is derived for the aspect. To address this problem, recent works fine-tune pre-trained Transformer encoders for ALSC to extract an aspect-centric dependency tree that can locate the opinion words. However, the induced opinion words only provide an intuitive cue far below human-level interpretability. Besides, the pre-trained encoder tends to internalize an aspect's intrinsic sentiment, causing sentiment bias and thus affecting model performance. In this paper, we propose a span-based anti-bias aspect representation learning framework. It first eliminates the sentiment bias in the aspect embedding by adversarial learning against aspects' prior sentiment. Then, it aligns the distilled opinion candidates with the aspect by span-based dependency modeling to highlight the interpretable opinion terms. Our method achieves new state-of-the-art performance on five benchmarks, with the capability of unsupervised opinion extraction.
翻訳日:2021-09-08 11:06:58 公開日:2021-09-07
# 移動可能な逆襲に対するメタサーロゲートモデルの訓練

Training Meta-Surrogate Model for Transferable Adversarial Attack ( http://arxiv.org/abs/2109.01983v2 )

ライセンス: Link先を確認
Yunxiao Qin, Yuanhao Xiong, Jinfeng Yi, Cho-Jui Hsieh(参考訳) クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。 この設定では、多くのメソッドがサーロゲートモデルを直接攻撃し、得られた逆の例をターゲットモデルを騙すために転送する。 以前の多くの研究で、サーロゲートモデルに対する攻撃がより転送可能な敵の例を生み出す可能性があるが、サーロゲートモデルとターゲットモデルとのミスマッチのため、その性能は依然として制限されている。 本稿では,この問題を新たな角度から解くこと -- オリジナルのサロゲートモデルを使う代わりに,このモデルへの攻撃が他のモデルに容易に伝達できるメタサーロゲートモデル(msm)を入手することができるか? 本研究は, この目標を2段階最適化問題として数学的に定式化し, 識別可能なアタッカーを設計し, 訓練を可能とした。 そこで本手法は,一組あるいは一組のサロゲートモデルを用いて,MSM 上で生成した逆例を有効利用可能な MSM を得る。 Cifar-10 と ImageNet の総合的な実験により、MSM を攻撃することにより、既存の手法よりもはるかに高い成功率で、敵に訓練されたものを含むブラックボックスモデルを騙すための、より強力な転送可能な敵の例が得られることを示した。 提案手法は深部モデルの重大なセキュリティ上の課題を明らかにし,ブラックボックス設定における深部モデルの堅牢性を評価するための最先端ベンチマークとして機能することを約束している。

We consider adversarial attacks to a black-box model when no queries are allowed. In this setting, many methods directly attack surrogate models and transfer the obtained adversarial examples to fool the target model. Plenty of previous works investigated what kind of attacks to the surrogate model can generate more transferable adversarial examples, but their performances are still limited due to the mismatches between surrogate models and the target model. In this paper, we tackle this problem from a novel angle -- instead of using the original surrogate models, can we obtain a Meta-Surrogate Model (MSM) such that attacks to this model can be easier transferred to other models? We show that this goal can be mathematically formulated as a well-posed (bi-level-like) optimization problem and design a differentiable attacker to make training feasible. Given one or a set of surrogate models, our method can thus obtain an MSM such that adversarial examples generated on MSM enjoy eximious transferability. Comprehensive experiments on Cifar-10 and ImageNet demonstrate that by attacking the MSM, we can obtain stronger transferable adversarial examples to fool black-box models including adversarially trained ones, with much higher success rates than existing methods. The proposed method reveals significant security challenges of deep models and is promising to be served as a state-of-the-art benchmark for evaluating the robustness of deep models in the black-box setting.
翻訳日:2021-09-08 10:45:09 公開日:2021-09-07
# ディープフェイク映像検出のための時空間不整合学習

Spatiotemporal Inconsistency Learning for DeepFake Video Detection ( http://arxiv.org/abs/2109.01860v2 )

ライセンス: Link先を確認
Zhihao Gu, Yang Chen, Taiping Yao, Shouhong Ding, Jilin Li, Feiyue Huang, Lizhuang Ma(参考訳) 近年,顔面手術技術の急速な発展が公衆の関心を喚起している。 ディープラーニングの成功に続いて、既存の手法は常にDeepFakeビデオ検出をバイナリ分類問題として定式化し、フレームベースおよびビデオベースソリューションを開発する。 しかし、偽造ビデオの空間的時間的不整合を捉えることにはほとんど注意が払われていない。 本稿では,この課題を空間的不整合学習(STIL)プロセスと呼び,空間的不整合モジュール(SIM),時間的不整合モジュール(TIM),情報補完モジュール(ISM)からなる新しいSTILブロックにインスタンス化する。 具体的には,隣接するフレームと水平方向,垂直方向の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。 ISMは、SIMからの空間情報とTIMからの時間情報を同時に利用し、より包括的な時空間表現を確立する。 さらに、STILブロックは柔軟で、既存の2D CNNにプラグインすることができます。 本手法の有効性を実証するために,広範な実験と可視化を行った。

The rapid development of facial manipulation techniques has aroused public concerns in recent years. Following the success of deep learning, existing methods always formulate DeepFake video detection as a binary classification problem and develop frame-based and video-based solutions. However, little attention has been paid to capturing the spatial-temporal inconsistency in forged videos. To address this issue, we term this task as a Spatial-Temporal Inconsistency Learning (STIL) process and instantiate it into a novel STIL block, which consists of a Spatial Inconsistency Module (SIM), a Temporal Inconsistency Module (TIM), and an Information Supplement Module (ISM). Specifically, we present a novel temporal modeling paradigm in TIM by exploiting the temporal difference over adjacent frames along with both horizontal and vertical directions. And the ISM simultaneously utilizes the spatial information from SIM and temporal information from TIM to establish a more comprehensive spatial-temporal representation. Moreover, our STIL block is flexible and could be plugged into existing 2D CNNs. Extensive experiments and visualizations are presented to demonstrate the effectiveness of our method against the state-of-the-art competitors.
翻訳日:2021-09-08 10:44:44 公開日:2021-09-07
# 複数の画像から教師なし学習を施した写実的3次元物体再構成の試み

Toward Realistic Single-View 3D Object Reconstruction with Unsupervised Learning from Multiple Images ( http://arxiv.org/abs/2109.02288v2 )

ライセンス: Link先を確認
Long-Nhat Ho, Anh Tuan Tran, Quynh Phung, Minh Hoai(参考訳) 一つの画像から物体の3d構造を復元することは、その不適切な性質から難しい課題である。 1つのアプローチは、同じオブジェクトカテゴリの豊富な写真を利用して、オブジェクトの前に強い3D形状を学ぶことである。 このアプローチは、Wu et al の最近の研究によって実証された。 (2020) は教師なし学習による印象的な3次元再構成ネットワークを得た。 しかし、それらのアルゴリズムは対称対象のみに適用できる。 本稿では,マルチイメージデータセットから3次元再構成ネットワークを学習できる新しい教師なしアルゴリズムにより,対称性の要求を解消する。 我々のアルゴリズムはより一般的であり、特別な場合として対称性が要求されるシナリオをカバーする。 さらに、再建された細部と現実性を改善する新しいアルベド損失を用いる。 提案手法は,シングルビュー,マルチビュー,イメージコレクション,ビデオセットなど,さまざまな構造のデータセットを用いた実験で示されたように,品質とロバスト性の両方において従来の作業を超えている。

Recovering the 3D structure of an object from a single image is a challenging task due to its ill-posed nature. One approach is to utilize the plentiful photos of the same object category to learn a strong 3D shape prior for the object. This approach has successfully been demonstrated by a recent work of Wu et al. (2020), which obtained impressive 3D reconstruction networks with unsupervised learning. However, their algorithm is only applicable to symmetric objects. In this paper, we eliminate the symmetry requirement with a novel unsupervised algorithm that can learn a 3D reconstruction network from a multi-image dataset. Our algorithm is more general and covers the symmetry-required scenario as a special case. Besides, we employ a novel albedo loss that improves the reconstructed details and realisticity. Our method surpasses the previous work in both quality and robustness, as shown in experiments on datasets of various structures, including single-view, multi-view, image-collection, and video sets.
翻訳日:2021-09-08 10:44:26 公開日:2021-09-07
# エラー制御アクタ臨界

Error Controlled Actor-Critic ( http://arxiv.org/abs/2109.02517v2 )

ライセンス: Link先を確認
Xingen Gao, Fei Chao, Changle Zhou, Zhen Ge, Chih-Min Lin, Longzhi Yang, Xiang Chang, and Changjing Shang(参考訳) 値関数の誤差は必然的に過大評価現象を引き起こし、アルゴリズムの収束に悪影響を及ぼす。 近似誤差の負の効果を緩和するために,値関数の近似誤差を封じ込めた誤差制御アクタ-クリティックを提案する。 本稿では,アクター-批判的手法の最適化過程において近似誤差がどのように影響するかを分析するとともに,q関数近似器の近似誤差の上界を導出し,方針を訓練する際にkl-divergenceを制約することにより誤差を低減できることを示す。 一連の連続制御タスクにおける実験の結果,提案手法は近似誤差を低減し,他のモデルフリーなrlアルゴリズムを著しく上回ることがわかった。

On error of value function inevitably causes an overestimation phenomenon and has a negative impact on the convergence of the algorithms. To mitigate the negative effects of the approximation error, we propose Error Controlled Actor-critic which ensures confining the approximation error in value function. We present an analysis of how the approximation error can hinder the optimization process of actor-critic methods.Then, we derive an upper boundary of the approximation error of Q function approximator and find that the error can be lowered by restricting on the KL-divergence between every two consecutive policies when training the policy. The results of experiments on a range of continuous control tasks demonstrate that the proposed actor-critic algorithm apparently reduces the approximation error and significantly outperforms other model-free RL algorithms.
翻訳日:2021-09-08 10:44:12 公開日:2021-09-07
# ViSTA: 仮想シナリオに基づく自動運転車のテストフレームワーク

ViSTA: a Framework for Virtual Scenario-based Testing of Autonomous Vehicles ( http://arxiv.org/abs/2109.02529v2 )

ライセンス: Link先を確認
Andrea Piazzoni, Jim Cherian, Mohamed Azhar, Jing Yew Yap, James Lee Wei Shung, Roshan Vijay(参考訳) 本稿では,2021年のIEEE Autonomous Test Driving AI Test Challengeの一環として開発された,仮想シナリオベースの自律走行テスト(AV)フレームワークであるViSTAを紹介する。 シナリオベースの仮想テストは、現実の世界に必ずしも似ていない仮想テスト環境では、AVが克服すべき特定の課題を構築することを目的としている。 このアプローチは、道路へのavの実際の配備前に、安全上の懸念を引き起こす特定の問題を特定することを目的としている。 本稿では,テストケースを自動と手動の両方で構成し,両者の強みと弱みを生かして,有意義なパラメータを持つ専用シナリオの設計を容易にする総合的なテストケース生成手法について述べる。 さらに、テストケースの実行を自動化する方法を説明し、これらのテストケースにおけるavの性能を分析する。

In this paper, we present ViSTA, a framework for Virtual Scenario-based Testing of Autonomous Vehicles (AV), developed as part of the 2021 IEEE Autonomous Test Driving AI Test Challenge. Scenario-based virtual testing aims to construct specific challenges posed for the AV to overcome, albeit in virtual test environments that may not necessarily resemble the real world. This approach is aimed at identifying specific issues that arise safety concerns before an actual deployment of the AV on the road. In this paper, we describe a comprehensive test case generation approach that facilitates the design of special-purpose scenarios with meaningful parameters to form test cases, both in automated and manual ways, leveraging the strength and weaknesses of either. Furthermore, we describe how to automate the execution of test cases, and analyze the performance of the AV under these test cases.
翻訳日:2021-09-08 10:43:59 公開日:2021-09-07
# ノードレベルフィードバックを用いた独立カスケードモデルのオンライン学習

Online Learning of Independent Cascade Models with Node-level Feedback ( http://arxiv.org/abs/2109.02519v2 )

ライセンス: Link先を確認
Shuoguang Yang, Van-Anh Truong(参考訳) 本稿では,ノードレベルのフィードバック下での独立カスケードモデルに対するオンライン学習問題を詳細に解析する。 これらのモデルは現代のソーシャルネットワークに広く応用されている。 既存のICモデルの作業は、エージェントが観測されたすべてのエッジの明確な結果を知っているエッジレベルのフィードバックモデルにのみ光を当てている。 ノードレベルのフィードバックモデルについてはほとんど知られていないが、エッジの集合に対する結果の組み合わせのみが観察される。 この検閲された情報は、集約された影響確率の非線形形式とともに、パラメータ推定とアルゴリズム設計の両方を困難にする。 この設定で、信頼領域の最初の結果を確立する。 また,ICモデルに対する理論的後悔境界とエッジレベルのフィードバックとを一致させて,$\mathcal{O}( \sqrt{T})$の累積後悔を実現するオンラインアルゴリズムを開発した。

We propose a detailed analysis of the online-learning problem for Independent Cascade (IC) models under node-level feedback. These models have widespread applications in modern social networks. Existing works for IC models have only shed light on edge-level feedback models, where the agent knows the explicit outcome of every observed edge. Little is known about node-level feedback models, where only combined outcomes for sets of edges are observed; in other words, the realization of each edge is censored. This censored information, together with the nonlinear form of the aggregated influence probability, make both parameter estimation and algorithm design challenging. We establish the first confidence-region result under this setting. We also develop an online algorithm achieving a cumulative regret of $\mathcal{O}( \sqrt{T})$, matching the theoretical regret bound for IC models with edge-level feedback.
翻訳日:2021-09-08 10:43:45 公開日:2021-09-07
# Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description

The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description ( http://arxiv.org/abs/2109.02052v2 )

ライセンス: Link先を確認
Josef Slav\'i\v{c}ek and Albert Swart and Michal Kl\v{c}o and Niko Br\"ummer(参考訳) 教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。 私たちのソリューションは、IDLabがVoxSRC-20で勝ったのと非常によく似ています。 モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。 続いて、疑似話者ラベルを割り当てるクラスタリングが数回実施され、教師付きインクリプタトレーニングに使用された。 最後に、5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。 また,コサインスコアではなく,DNN埋め込みではなくiベクターを組み込んだ解やPLDAについても簡潔に述べる。

We describe the Phonexia submission for the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC-21) in the unsupervised speaker verification track. Our solution was very similar to IDLab's winning submission for VoxSRC-20. An embedding extractor was bootstrapped using momentum contrastive learning, with input augmentations as the only source of supervision. This was followed by several iterations of clustering to assign pseudo-speaker labels that were then used for supervised embedding extractor training. Finally, a score fusion was done, by averaging the zt-normalized cosine scores of five different embedding extractors. We briefly also describe unsuccessful solutions involving i-vectors instead of DNN embeddings and PLDA instead of cosine scoring.
翻訳日:2021-09-08 10:43:31 公開日:2021-09-07