このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211111となっている論文です。

PDF登録状況(公開日: 20211111)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチユーザマルチバンドネットワークのためのアンチジャミングゲーム

Anti-Jamming Games for Multi-User Multi-Band Networks ( http://arxiv.org/abs/2111.11178v1 )

ライセンス: Link先を確認
Hyeon-Seong Im and Si-Hyeon Lee(参考訳) マルチユーザマルチバンドネットワークでは、ユーザとジャマーの間のゼロサムゲームが検討される。 ゲームの定式化において、ユーザの報酬は、通信速度、ホッピングコスト、ジャミング損失など、さまざまなパラメータでモデル化される。 任意の対称衝突回避プロトコルに対して、保持閾値周波数ホッピングと掃討攻撃が平衡を確立することを解析的に示す。 また,2種類の衝突回避プロトコルを提案して,少なくとも1人のユーザがバンド内で通信することを保証し,また,衝突回避プロトコルが保持周波数ホッピングの最適しきい値とユーザの期待する報奨値に与える影響を,様々な数値で示す。

For multi-user multi-band networks, a zero-sum game between the users and the jammer is considered. In the formulation of the game, the rewards of the users are modeled with various parameters including communication rate, hopping cost, and jamming loss. It is analytically shown that for any symmetric collision avoidance protocol, a staying-threshold frequency hopping and a sweeping attack establish an equilibrium. We also propose two kinds of collision avoidance protocols to ensure that at most one user communicates in a band, and provide various numerical results that show the effect of the reward parameters and collision avoidance protocols on the optimal threshold of the staying-threshold frequency hopping and the expected rewards of the users.
翻訳日:2021-11-28 18:19:57 公開日:2021-11-11
# (参考訳) 無線ネットワーク最適化のためのオフラインコンテキスト帯域 [全文訳有]

Offline Contextual Bandits for Wireless Network Optimization ( http://arxiv.org/abs/2111.08587v1 )

ライセンス: CC BY 4.0
Miguel Suau, Alexandros Agapitos, David Lynch, Derek Farrell, Mingqi Zhou, Aleksandar Milenovic(参考訳) モバイルデータトラフィックの急増と、無線ネットワーク最適化のためのAIアルゴリズムの開発に対する、より高い品質のサービスコールに対する期待が高まっている。 本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。 私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。 実験結果から,提案手法は実ネットワークにデプロイした場合,計算効率の制約を十分に満たしながら,重要な性能向上を達成できることが示唆された。

The explosion in mobile data traffic together with the ever-increasing expectations for higher quality of service call for the development of AI algorithms for wireless network optimization. In this paper, we investigate how to learn policies that can automatically adjust the configuration parameters of every cell in the network in response to the changes in the user demand. Our solution combines existent methods for offline learning and adapts them in a principled way to overcome crucial challenges arising in this context. Empirical results suggest that our proposed method will achieve important performance gains when deployed in the real network while satisfying practical constrains on computational efficiency.
翻訳日:2021-11-21 15:17:01 公開日:2021-11-11
# (参考訳) 資源制約のあるモバイルアプリケーションの効率的な不確実性推定について [全文訳有]

On Efficient Uncertainty Estimation for Resource-Constrained Mobile Applications ( http://arxiv.org/abs/2111.09838v1 )

ライセンス: CC BY 4.0
Johanna Rock, Tiago Azevedo, Ren\'e de Jong, Daniel Ruiz-Mu\~noz, Partha Maji(参考訳) 深層ニューラルネットワークは予測品質に大きな成功を収め、信頼性と堅牢な不確実性推定は依然として課題である。 予測の不確実性はモデル予測を補完し、仮想現実、拡張現実、センサー融合、知覚など、組み込みおよびモバイルアプリケーションを含む下流タスクの機能を改善する。 これらのアプリケーションは、非常に限られたメモリと計算資源のために不確実性推定を得るために、複雑さの妥協を必要とすることが多い。 axolotlフレームワークを使用してモンテカルロドロップアウト(mcdo)モデルを構築してこの問題に取り組む。具体的には、サンプルされたサブネットワークを多様化し、ドロップアウトパターンを活用し、分岐技術を用いて高速な計算を維持しながら予測性能を向上させる。 我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。 提案手法は,リソース制限のあるモバイルプラットフォームでより高速に推論できながら,精度や不確実性の推定に近づいた場合の有効性を示す。

Deep neural networks have shown great success in prediction quality while reliable and robust uncertainty estimation remains a challenge. Predictive uncertainty supplements model predictions and enables improved functionality of downstream tasks including embedded and mobile applications, such as virtual reality, augmented reality, sensor fusion, and perception. These applications often require a compromise in complexity to obtain uncertainty estimates due to very limited memory and compute resources. We tackle this problem by building upon Monte Carlo Dropout (MCDO) models using the Axolotl framework; specifically, we diversify sampled subnetworks, leverage dropout patterns, and use a branching technique to improve predictive performance while maintaining fast computations. We conduct experiments on (1) a multi-class classification task using the CIFAR10 dataset, and (2) a more complex human body segmentation task. Our results show the effectiveness of our approach by reaching close to Deep Ensemble prediction quality and uncertainty estimation, while still achieving faster inference on resource-limited mobile platforms.
翻訳日:2021-11-21 15:04:58 公開日:2021-11-11
# パーソナライズされたてんかん脳波検出のための多視点協調伝達学習を取り入れた新しいTSKファジィシステム

A Novel TSK Fuzzy System Incorporating Multi-view Collaborative Transfer Learning for Personalized Epileptic EEG Detection ( http://arxiv.org/abs/2111.08457v1 )

ライセンス: Link先を確認
Andong Li, Zhaohong Deng, Qiongdan Lou, Kup-Sze Choi, Hongbin Shen, Shitong Wang(参考訳) 臨床において、脳波(eeg)はてんかんの診断において重要な役割を果たす。 脳波をベースとしたてんかんのコンピュータ支援診断は、医師の作業量を減らすとともにてんかん検出の精度を大幅に向上させることができる。 しかし、個別のてんかん性脳波検出(例えば、特定の人物に対する検出モデルのトレーニング)の実践的応用には、一つの視点から効果的な特徴を抽出するのが難しいこと、実際には十分なトレーニングデータがないという望ましくないが一般的なシナリオ、同じ分散トレーニングとテストデータの保証がないことなど、多くの課題がある。 これらの問題を解決するために,多視点共同転送学習を統合したtskファジィシステムに基づくてんかん検出アルゴリズムを提案する。 単一視点の特徴の制限による課題に対処するため、多視点学習は異なる視点から特徴を抽出することで特徴の多様性を保証する。 パーソナライズされた検出モデルを構築するためのトレーニングデータの欠如は、ソースドメインからの知識(参照シーン)を活用して、ターゲットドメイン(現在の関心シーン)のパフォーマンスを向上させることで解決される。 特に、転送学習とマルチビュー特徴抽出を同時に行う。 さらに、TSKファジィシステムのファジィ規則は、強いファジィ論理推論能力を持つモデルに適合する。 したがって,提案手法は,CHB-MITデータセットにおける多数の実験結果から,てんかん性脳波信号を効果的に検出できる可能性が示された。

In clinical practice, electroencephalograp hy (EEG) plays an important role in the diagnosis of epilepsy. EEG-based computer-aided diagnosis of epilepsy can greatly improve the ac-curacy of epilepsy detection while reducing the workload of physicians. However, there are many challenges in practical applications for personalized epileptic EEG detection (i.e., training of detection model for a specific person), including the difficulty in extracting effective features from one single view, the undesirable but common scenario of lacking sufficient training data in practice, and the no guarantee of identically distributed training and test data. To solve these problems, we propose a TSK fuzzy system-based epilepsy detection algorithm that integrates multi-view collaborative transfer learning. To address the challenge due to the limitation of single-view features, multi-view learning ensures the diversity of features by extracting them from different views. The lack of training data for building a personalized detection model is tackled by leveraging the knowledge from the source domain (reference scene) to enhance the performance of the target domain (current scene of interest), where mismatch of data distributions between the two domains is resolved with adaption technique based on maximum mean discrepancy. Notably, the transfer learning and multi-view feature extraction are performed at the same time. Furthermore, the fuzzy rules of the TSK fuzzy system equip the model with strong fuzzy logic inference capability. Hence, the proposed method has the potential to detect epileptic EEG signals effectively, which is demonstrated with the positive results from a large number of experiments on the CHB-MIT dataset.
翻訳日:2021-11-21 14:53:13 公開日:2021-11-11
# 正規逆ガンマ分布の混合による信頼できるマルチモーダル回帰

Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions ( http://arxiv.org/abs/2111.08456v1 )

ライセンス: Link先を確認
Huan Ma, Zongbo Han, Changqing Zhang, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu(参考訳) マルチモーダル回帰は基本的なタスクであり、異なるソースからの情報を統合して、フォローアップアプリケーションの性能を改善する。 しかし、既存の手法は主に性能向上に重点を置いており、様々な状況における予測の信頼性を無視することが多い。 本研究では,コスト依存ドメインにおいて重要な,信頼性の高いマルチモーダルレグレッションに焦点をあてる。 そこで本研究では,異なるモーダルの適応積分に対する原理的不確かさを効率的に推定し,信頼性の高い回帰結果を生成する,正規逆ガンマ分布の混合(MoNIG)アルゴリズムを提案する。 我々のモデルは各モダリティの不確かさを動的に認識でき、腐敗したモダリティに対しても頑健である。 さらに、提案したMoNIGは、それぞれ(モダリティ特異的/グローバルな)てんかんの明確な表現を保証している。 合成および異なる実世界のデータに対する実験結果は, 様々な多モード回帰タスク(超伝導の温度予測, CTスライスの相対的位置予測, マルチモーダル感情分析など)における本手法の有効性と信頼性を示す。

Multimodal regression is a fundamental task, which integrates the information from different sources to improve the performance of follow-up applications. However, existing methods mainly focus on improving the performance and often ignore the confidence of prediction for diverse situations. In this study, we are devoted to trustworthy multimodal regression which is critical in cost-sensitive domains. To this end, we introduce a novel Mixture of Normal-Inverse Gamma distributions (MoNIG) algorithm, which efficiently estimates uncertainty in principle for adaptive integration of different modalities and produces a trustworthy regression result. Our model can be dynamically aware of uncertainty for each modality, and also robust for corrupted modalities. Furthermore, the proposed MoNIG ensures explicitly representation of (modality-specific/g lobal) epistemic and aleatoric uncertainties, respectively. Experimental results on both synthetic and different real-world data demonstrate the effectiveness and trustworthiness of our method on various multimodal regression tasks (e.g., temperature prediction for superconductivity, relative location prediction for CT slices, and multimodal sentiment analysis).
翻訳日:2021-11-21 14:30:44 公開日:2021-11-11
# イベントベースデータからの生涯学習

Lifelong Learning from Event-based Data ( http://arxiv.org/abs/2111.08458v1 )

ライセンス: Link先を確認
Vadym Gryshchuk, Cornelius Weber, Chu Kiong Loo, Stefan Wermter(参考訳) 生涯学習は、エージェントが以前に学習した表現を忘れずに知識を段階的に蓄積する必要がある動的環境で行動する人工エージェントのための長年の目標である。 本研究では,イベントカメラが生成するデータから学習する手法を調査し,学習中に忘れを緩和する手法を比較した。 本稿では,特徴抽出と連続学習の両方からなるモデルを提案する。 さらに,忘れを緩和する習慣ベース手法を提案する。 実験の結果,異なる手法の組み合わせは,抽出モジュールが提供する特徴から漸進的に学習しながら,破滅的な忘れを回避できることがわかった。

Lifelong learning is a long-standing aim for artificial agents that act in dynamic environments, in which an agent needs to accumulate knowledge incrementally without forgetting previously learned representations. We investigate methods for learning from data produced by event cameras and compare techniques to mitigate forgetting while learning incrementally. We propose a model that is composed of both, feature extraction and continuous learning. Furthermore, we introduce a habituation-based method to mitigate forgetting. Our experimental results show that the combination of different techniques can help to avoid catastrophic forgetting while learning incrementally from the features provided by the extraction module.
翻訳日:2021-11-21 14:30:25 公開日:2021-11-11
# プライバシ意識を高めるソーシャルメディアからのPII自動抽出:ディープトランスファー学習アプローチ

Automated PII Extraction from Social Media for Raising Privacy Awareness: A Deep Transfer Learning Approach ( http://arxiv.org/abs/2111.09415v1 )

ライセンス: Link先を確認
Yizhi Liu, Fang Yu Lin, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun Chen(参考訳) インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。 このような暴露されたPIIは、ユーザに対して重大な損失を生じさせ、プライバシの意識を高め、保護措置を取るようユーザに伝えることが重要である。 そのため、高度な自動技術が必要である。 情報抽出(IE)技術はPIIを自動的に抽出するために用いられるが、ディープラーニング(DL)ベースのIEモデルは機能工学の必要性を軽減し、効率をさらに向上させる。 しかし、DLベースのIEモデルでは、トレーニングには大規模なラベル付きデータを必要とすることが多いが、プライバシ上の懸念から、PIIラベルのソーシャルメディア投稿は入手が困難である。 また、これらのモデルは事前訓練された単語埋め込みに大きく依存するが、ソーシャルメディアのPIIはしばしば形式によって異なり、事前訓練された単語埋め込みには固定表現がない。 本研究では,これらの2つの制約に対処するため,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。 DTL-PIIEは、公開されているPIIデータから学んだ知識をソーシャルメディアに転送し、希少なPIIラベルデータの問題に対処する。 さらに,グラフ畳み込みネットワーク(GCN)を活用して,事前学習した単語の埋め込みに頼ることなく,PIIEをガイドする構文パターンを組み込む。 ベンチマークIEモデルに対する評価は、我々のアプローチが最先端のDLベースのIEモデルより優れていることを示している。 当社のフレームワークは,PII誤用予測やプライバシリスク評価,インターネットユーザのプライバシ保護など,さまざまなアプリケーションを容易にする。

Internet users have been exposing an increasing amount of Personally Identifiable Information (PII) on social media. Such exposed PII can cause severe losses to the users, and informing users of their PII exposure is crucial to raise their privacy awareness and encourage them to take protective measures. To this end, advanced automatic techniques are needed. While Information Extraction (IE) techniques can be used to extract the PII automatically, Deep Learning (DL)-based IE models alleviate the need for feature engineering and further improve the efficiency. However, DL-based IE models often require large-scale labeled data for training, but PII-labeled social media posts are difficult to obtain due to privacy concerns. Also, these models rely heavily on pre-trained word embeddings, while PII in social media often varies in forms and thus has no fixed representations in pre-trained word embeddings. In this study, we propose the Deep Transfer Learning for PII Extraction (DTL-PIIE) framework to address these two limitations. DTL-PIIE transfers knowledge learned from publicly available PII data to social media to address the problem of rare PII-labeled data. Moreover, our framework leverages Graph Convolutional Networks (GCNs) to incorporate syntactic patterns to guide PIIE without relying on pre-trained word embeddings. Evaluation against benchmark IE models indicates that our approach outperforms state-of-the-art DL-based IE models. Our framework can facilitate various applications, such as PII misuse prediction and privacy risk assessment, protecting the privacy of internet users.
翻訳日:2021-11-21 14:29:07 公開日:2021-11-11
# (参考訳) 学習 一般化ガムベル-マックス因果機構 [全文訳有]

Learning Generalized Gumbel-max Causal Mechanisms ( http://arxiv.org/abs/2111.06888v1 )

ライセンス: CC0 1.0
Guy Lorberbom, Daniel D. Johnson, Chris J. Maddison, Daniel Tarlow, Tamir Hazan(参考訳) 構造因果モデル(Structure Causal Models, SCM)において, ノイズ源への条件分布の因果分解と, サンプルへのノイズの現実化を決定論的関数にマッピングする因果的メカニズムを知る必要がある。 残念なことに、因果メカニズムは、世界の観察と相互作用によって収集できるデータによって一意に識別されないため、因果メカニズムを選択する方法に疑問が残る。 最近の研究において、Oberst & Sontag (2019) はGumbel-max SCM を提案し、これはGumbel-max再パラメータ化を因果機構として用いている。 本研究は, 反実的治療効果を推定する際の分散の最小化など, 定量的基準を満たした因果機構の選定を議論する。 ガムベルマックスを一般化する因果機構のパラメタライズドファミリーを提案する。 提案手法は, 関心の問合せにおける対実効果の分散やその他の損失を最小限に抑え, 対実処理効果の分散を一定の代替品よりも低くし, 訓練時に見られない問合せに一般化できることを示す。

To perform counterfactual reasoning in Structural Causal Models (SCMs), one needs to know the causal mechanisms, which provide factorizations of conditional distributions into noise sources and deterministic functions mapping realizations of noise to samples. Unfortunately, the causal mechanism is not uniquely identified by data that can be gathered by observing and interacting with the world, so there remains the question of how to choose causal mechanisms. In recent work, Oberst & Sontag (2019) propose Gumbel-max SCMs, which use Gumbel-max reparameterizations as the causal mechanism due to an intuitively appealing counterfactual stability property. In this work, we instead argue for choosing a causal mechanism that is best under a quantitative criteria such as minimizing variance when estimating counterfactual treatment effects. We propose a parameterized family of causal mechanisms that generalize Gumbel-max. We show that they can be trained to minimize counterfactual effect variance and other losses on a distribution of queries of interest, yielding lower variance estimates of counterfactual treatment effect than fixed alternatives, also generalizing to queries not seen at training time.
翻訳日:2021-11-19 07:53:19 公開日:2021-11-11
# (参考訳) aicrowd sbb flatland challenge 2019-2020の勝利ソリューション [全文訳有]

Winning Solution of the AIcrowd SBB Flatland Challenge 2019-2020 ( http://arxiv.org/abs/2111.07876v1 )

ライセンス: CC BY 4.0
Mugurel-Ionut Andreica(参考訳) このレポートでは、AIcrowd SBB Flatland Challenge 2019-2020で99%のスコアを獲得したソリューションの主なアイデアについて述べています。 タスクの詳細は、コンペティションのウェブサイトで確認できる。 ソリューションは2つの主要なコンポーネントで構成される。 1) 各エージェントの時間展開グラフ上のパスを(再)生成するコンポーネント 2) 誤動作後のエージェントパスを更新するコンポーネントは、誤動作前の各セルに入るのと同じエージェント順序を保とうとする。 このコンポーネントの目標は2つあります。 a)デッドロックを避ける(試みる) b) システムを一貫した状態に戻す(各エージェントが時間拡張されたグラフ上で実行可能な経路を持つ)。 私はこれらのコンポーネントと、潜在的な有望だが未検討のアイデアの両方について、下記のように議論しています。

This report describes the main ideas of the solution which won the AIcrowd SBB Flatland Challenge 2019-2020, with a score of 99% (meaning that, on average, 99% of the agents were routed to their destinations within the allotted time steps). The details of the task can be found on the competition's website. The solution consists of 2 major components: 1) A component which (re-)generates paths over a time-expanded graph for each agent 2) A component which updates the agent paths after a malfunction occurs, in order to try to preserve the same agent ordering of entering each cell as before the malfunction. The goal of this component is twofold: a) to (try to) avoid deadlocks b) to bring the system back to a consistent state (where each agent has a feasible path over the time-expanded graph). I am discussing both of these components, as well as a series of potentially promising, but unexplored ideas, below.
翻訳日:2021-11-19 07:29:11 公開日:2021-11-11
# サブ最小スパンニングツリーにおけるアグリゲーション代表による階層的クラスタリング

Hierarchical clustering by aggregating representatives in sub-minimum-spanning -trees ( http://arxiv.org/abs/2111.06968v1 )

ライセンス: Link先を確認
Wen-Bo Xie, Zhen Liu, Jaideep Srivastava(参考訳) 階層的クラスタリングの主な課題の1つは、クラスタツリーの下位レベルにおける代表点を適切に識別する方法である。 しかしながら、従来の階層的クラスタリングアプローチでは、十分な代表性を持たない"代表的"なポイントを選択するための簡単なトリックが採用されている。 このように、構築されたクラスタツリーは、ロバスト性や信頼性の低い点で魅力的ではない。 そこで本研究では,クラスタリングデンドログラムを構築しながら,各サブ最小スパンニングツリーの相互に最も近いデータ点のスコアに基づいて,代表点を効果的に検出できる階層的クラスタリングアルゴリズムを提案する。 uciデータセットに関する広範な実験は、提案アルゴリズムが他のベンチマークよりも正確であることを示している。 一方,本解析では,提案手法はo(nlogn)時間複雑度とo(logn)空間複雑度を有し,時間とストレージ消費の少ない大規模データを扱う場合のスケーラビリティを示す。

One of the main challenges for hierarchical clustering is how to appropriately identify the representative points in the lower level of the cluster tree, which are going to be utilized as the roots in the higher level of the cluster tree for further aggregation. However, conventional hierarchical clustering approaches have adopted some simple tricks to select the "representative" points which might not be as representative as enough. Thus, the constructed cluster tree is less attractive in terms of its poor robustness and weak reliability. Aiming at this issue, we propose a novel hierarchical clustering algorithm, in which, while building the clustering dendrogram, we can effectively detect the representative point based on scoring the reciprocal nearest data points in each sub-minimum-spanning -tree. Extensive experiments on UCI datasets show that the proposed algorithm is more accurate than other benchmarks. Meanwhile, under our analysis, the proposed algorithm has O(nlogn) time-complexity and O(logn) space-complexity, indicating that it has the scalability in handling massive data with less time and storage consumptions.
翻訳日:2021-11-16 13:23:03 公開日:2021-11-11
# (参考訳) 歩行者追跡予測法の検討 : ディープラーニングと知識ベースアプローチの比較 [全文訳有]

Review of Pedestrian Trajectory Prediction Methods: Comparing Deep Learning and Knowledge-based Approaches ( http://arxiv.org/abs/2111.06740v1 )

ライセンス: CC BY 4.0
Raphael Korbmacher and Antoine Tordeux(参考訳) 群衆のシナリオでは、歩行者の軌道を予測することは、多くの外部要因に依存する複雑で困難な作業である。 シーンのトポロジーと歩行者間のインタラクションは、それらの一部に過ぎません。 データサイエンスとデータ収集技術の進歩により、ディープラーニング手法は近年、多くの領域で研究ホットスポットとなっている。 したがって、この手法を歩行者の軌道予測に応用する研究者がますます増えていることは驚くにあたらない。 本稿では,これらの比較的新しいディープラーニングアルゴリズムと,歩行者動態のシミュレートに広く用いられている古典的知識ベースモデルを比較する。 両アプローチの包括的な文献レビューを提供し、技術的およびアプリケーション指向の違いを調査し、オープンな質問と今後の開発方向性に対処する。 本研究は, 学習アルゴリズムの精度が高いため, 局所軌道予測における知識ベースモデルの有効性が疑問視されていることを指摘する。 それにもかかわらず、大規模シミュレーションのためのディープラーニングアルゴリズムの能力と集団ダイナミクスの記述は、まだ実証されていない。 さらに,両アプローチの組み合わせ(ハイブリッドアプローチ)が,ディープラーニングアプローチの欠如といったデメリットを克服する可能性が示唆された。

In crowd scenarios, predicting trajectories of pedestrians is a complex and challenging task depending on many external factors. The topology of the scene and the interactions between the pedestrians are just some of them. Due to advancements in data-science and data collection technologies deep learning methods have recently become a research hotspot in numerous domains. Therefore, it is not surprising that more and more researchers apply these methods to predict trajectories of pedestrians. This paper compares these relatively new deep learning algorithms with classical knowledge-based models that are widely used to simulate pedestrian dynamics. It provides a comprehensive literature review of both approaches, explores technical and application oriented differences, and addresses open questions as well as future development directions. Our investigations point out that the pertinence of knowledge-based models to predict local trajectories is nowadays questionable because of the high accuracy of the deep learning algorithms. Nevertheless, the ability of deep-learning algorithms for large-scale simulation and the description of collective dynamics remains to be demonstrated. Furthermore, the comparison shows that the combination of both approaches (the hybrid approach) seems to be promising to overcome disadvantages like the missing explainability of the deep learning approach.
翻訳日:2021-11-16 01:05:13 公開日:2021-11-11
# (参考訳) 線虫Embryonic Caenorhabditis elegansの姿勢同定のための多重仮説ハイパーグラフ追跡 [全文訳有]

Multiple Hypothesis Hypergraph Tracking for Posture Identification in Embryonic Caenorhabditis elegans ( http://arxiv.org/abs/2111.06425v1 )

ライセンス: CC BY 4.0
Andrew Lauziere, Evan Ardiel, Stephen Xu, Hari Shroff(参考訳) マルチオブジェクトトラッキング(MOT)の現在の手法は、大量のオブジェクトを効果的に追跡するために予測可能な動作を行う独立したオブジェクトトラジェクトリに依存している。 揮発性物体の動きや不完全な検出などの逆条件は、確立された手法が不十分な結果をもたらすという困難な追跡環境を生み出す。 多仮説ハイパーグラフ追跡(MHHT)はノイズ検出中、相互依存オブジェクト間でMOTを実行するために開発された。 この手法は、ハイパーグラフを通じて従来の多重仮説追跡(MHT)を拡張し、相関した物体の動きをモデル化し、挑戦的なシナリオにおいて堅牢な追跡を可能にする。 線虫C. elegansの後期胚発生過程における海藻細胞追跡にMHHTを適用した。

Current methods in multiple object tracking (MOT) rely on independent object trajectories undergoing predictable motion to effectively track large numbers of objects. Adversarial conditions such as volatile object motion and imperfect detections create a challenging tracking landscape in which established methods may yield inadequate results. Multiple hypothesis hypergraph tracking (MHHT) is developed to perform MOT among interdependent objects amid noisy detections. The method extends traditional multiple hypothesis tracking (MHT) via hypergraphs to model correlated object motion, allowing for robust tracking in challenging scenarios. MHHT is applied to perform seam cell tracking during late-stage embryogenesis in embryonic C. elegans.
翻訳日:2021-11-16 00:16:49 公開日:2021-11-11
# (参考訳) ソーシャルメディアにおける信頼関係決定のための個人化多面信頼モデルとその誤情報管理の可能性 [全文訳有]

Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management ( http://arxiv.org/abs/2111.06440v1 )

ライセンス: CC BY 4.0
Alexandre Parmentier, Robin Cohen, Xueguang Ma, Gaurav Sahu and Queenie Chen(参考訳) 本稿では,多エージェント信頼モデリングの人工知能分野を基盤とした,ソーシャルメディアにおける仲間間の信頼関係の予測手法を提案する。 特に,様々な特徴を包括的分析に取り入れた,データ駆動型多面信頼モデリングを提案する。 私たちは、類似ユーザによるクラスタリングが、よりパーソナライズされ、より正確なユーザ予測をサポートする、重要な新機能を実現する方法を示すことに重点を置いています。 信頼を意識した項目レコメンデーションタスクで示すことで,yelpの大規模データセットのコンテキストで提案フレームワークを評価する。 次に,ソーシャルメディアにおける信頼関係の検出の改善が,最近人気が高まっているソーシャルネットワーク環境において,誤情報や噂の拡散との戦いにおけるオンラインユーザ支援にどのように役立つかについて議論する。 我々は、特に脆弱な高齢者のユーザーベースを考察し、データ分析を通じて得られた知見と既知の嗜好を統合するための今後の方向性を探るため、ユーザーグループに対する推論の価値を説明している。

In this paper, we present an approach for predicting trust links between peers in social media, one that is grounded in the artificial intelligence area of multiagent trust modeling. In particular, we propose a data-driven multi-faceted trust modeling which incorporates many distinct features for a comprehensive analysis. We focus on demonstrating how clustering of similar users enables a critical new functionality: supporting more personalized, and thus more accurate predictions for users. Illustrated in a trust-aware item recommendation task, we evaluate the proposed framework in the context of a large Yelp dataset. We then discuss how improving the detection of trusted relationships in social media can assist in supporting online users in their battle against the spread of misinformation and rumours, within a social networking environment which has recently exploded in popularity. We conclude with a reflection on a particularly vulnerable user base, older adults, in order to illustrate the value of reasoning about groups of users, looking to some future directions for integrating known preferences with insights gained through data analysis.
翻訳日:2021-11-15 23:55:45 公開日:2021-11-11
# (参考訳) SynthBio:テキストデータセットの人間-AI協調的キュレーションの事例研究 [全文訳有]

SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets ( http://arxiv.org/abs/2111.06467v1 )

ライセンス: CC BY 4.0
Ann Yuan, Daphne Ippolito, Vitaly Nikolaev, Chris Callison-Burch, Andy Coenen, Sebastian Gehrmann(参考訳) nlp研究者はより高品質なテキストデータセットを必要としている。 人ラベル付きデータセットは収集に費用がかかるが、WikiBioのようなWebからの自動検索によって収集されたデータセットは騒々しく、望ましくないバイアスを含むことができる。 さらに、Webからソースされたデータは、しばしばモデルの事前トレーニングに使われるデータセットに含まれ、トレーニングとテストセットの不注意なクロス汚染につながる。 本研究では,大規模な言語モデルを用いて,人間のレーダにシード世代を提供することにより,文章作成タスクから編集タスクへのデータセットオーサリングを変化させる,効率的なデータセットキュレーション手法を提案する。 本手法は,自然言語にマッピングされた架空の人物を記述する構造化属性リストのwikibiocomposedのための新しい評価セットであるsynthbioをキュレートする。 われわれの架空の伝記のデータセットはWikiBioよりも騒々しくなく、性別や国籍に関してはバランスがとれている。

NLP researchers need more, higher-quality text datasets. Human-labeled datasets are expensive to collect, while datasets collected via automatic retrieval from the web such as WikiBio are noisy and can include undesired biases. Moreover, data sourced from the web is often included in datasets used to pretrain models, leading to inadvertent cross-contamination of training and test sets. In this work we introduce a novel method for efficient dataset curation: we use a large language model to provide seed generations to human raters, thereby changing dataset authoring from a writing task to an editing task. We use our method to curate SynthBio - a new evaluation set for WikiBio - composed of structured attribute lists describing fictional individuals, mapped to natural language biographies. We show that our dataset of fictional biographies is less noisy than WikiBio, and also more balanced with respect to gender and nationality.
翻訳日:2021-11-15 23:20:46 公開日:2021-11-11
# (参考訳) AnswerSumm: 回答要約のための手動計算データセットとパイプライン [全文訳有]

AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization ( http://arxiv.org/abs/2111.06474v1 )

ライセンス: CC BY 4.0
Alexander R. Fabbri, Xiaojian Wu, Srini Iyer, Haoran Li, Mona Diab(参考訳) Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。 各質問スレッドは、異なる視点で多数の回答を受け取ることができる。 回答要約の1つの目標は、回答の観点の範囲を反映した要約を作ることである。 抽象的回答要約の主要な障害は、このような要約を生成するための監督を提供するデータセットがないことである。 最近の研究は、そのようなデータを作成するためのヒューリスティックスを提案するが、それらはしばしば騒がしく、回答に存在するすべての視点をカバーするものではない。 本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。 パイプラインは,回答の要約に関わるすべてのサブタスクに対してアノテーションを収集し,質問に関連する回答文の選択,視点に基づいてこれらの文をグループ化し,各視点を要約し,全体的な要約を生成する。 これらのサブタスクにおける最先端モデルの解析とベンチマークを行い,マルチパースペクティブデータ拡張のための新しい教師なしアプローチを導入し,自動評価により総和性能をさらに向上させる。 最後に,事実整合性と回答カバレッジを改善し,改善のための領域を分析するための強化学習報酬を提案する。

Community Question Answering (CQA) fora such as Stack Overflow and Yahoo! Answers contain a rich resource of answers to a wide range of community-based questions. Each question thread can receive a large number of answers with different perspectives. One goal of answer summarization is to produce a summary that reflects the range of answer perspectives. A major obstacle for abstractive answer summarization is the absence of a dataset to provide supervision for producing such summaries. Recent works propose heuristics to create such data, but these are often noisy and do not cover all perspectives present in the answers. This work introduces a novel dataset of 4,631 CQA threads for answer summarization, curated by professional linguists. Our pipeline gathers annotations for all subtasks involved in answer summarization, including the selection of answer sentences relevant to the question, grouping these sentences based on perspectives, summarizing each perspective, and producing an overall summary. We analyze and benchmark state-of-the-art models on these subtasks and introduce a novel unsupervised approach for multi-perspective data augmentation, that further boosts overall summarization performance according to automatic evaluation. Finally, we propose reinforcement learning rewards to improve factual consistency and answer coverage and analyze areas for improvement.
翻訳日:2021-11-15 22:47:59 公開日:2021-11-11
# (参考訳) 有限スペクトル/テンポラル支援信号に対する特異双スペクトルインバージョン [全文訳有]

Unique Bispectrum Inversion for Signals with Finite Spectral/Temporal Support ( http://arxiv.org/abs/2111.06479v1 )

ライセンス: CC BY 4.0
Samuel Pinilla, Kumar Vijay Mishra, Brian M. Sadler(参考訳) 3次統計や双スペクトルのフーリエ変換から信号を取得することは、幅広い信号処理問題において生じる。 従来の方法は双スペクトルのユニークな反転を提供しない。 本稿では,信号の帯域幅が$B$であるバイスペクトル関数(BF)の少なくとも$3B$の測定から,有限スペクトルサポート(帯域制限信号)を持つ信号を一意に復元する手法を提案する。 我々のアプローチは時間制限信号にも拡張する。 非凸目的関数を最小化する2段階信頼領域アルゴリズムを提案する。 まず,スペクトルアルゴリズムにより信号の近似を行う。 次に, グラデーション反復の系列に基づいて, 到達した初期化を洗練する。 数値実験により,提案アルゴリズムはBFの帯域/時間制限信号から,完全かつアンサンプされた観測を推定できることが示唆された。

Retrieving a signal from the Fourier transform of its third-order statistics or bispectrum arises in a wide range of signal processing problems. Conventional methods do not provide a unique inversion of bispectrum. In this paper, we present a an approach that uniquely recovers signals with finite spectral support (band-limited signals) from at least $3B$ measurements of its bispectrum function (BF), where $B$ is the signal's bandwidth. Our approach also extends to time-limited signals. We propose a two-step trust region algorithm that minimizes a non-convex objective function. First, we approximate the signal by a spectral algorithm. Then, we refine the attained initialization based upon a sequence of gradient iterations. Numerical experiments suggest that our proposed algorithm is able to estimate band/time-limited signals from its BF for both complete and undersampled observations.
翻訳日:2021-11-15 22:31:48 公開日:2021-11-11
# (参考訳) シーケンシャルアグリゲーションと再構成:大規模グラフ上のグラフニューラルネットワークの分散フルバッチトレーニング [全文訳有]

Sequential Aggregation and Rematerialization: Distributed Full-batch Training of Graph Neural Networks on Large Graphs ( http://arxiv.org/abs/2111.06483v1 )

ライセンス: CC BY 4.0
Hesham Mostafa(参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)の分散フルバッチ学習のための逐次アグリゲーション・リマテリアル化(SAR)方式を提案する。 GNNの大規模トレーニングは、最近、非学習可能なメッセージパッシングに基づくサンプリングベースの方法と方法に支配されている。 一方、SARは、すべてのGNNタイプを大きなグラフ上で直接トレーニングできる分散技術である。 SARの鍵となる革新は分散逐次再機械化方式であり、これは後方通過の間、不当に大きなGNN計算グラフの一部を順次再構成し解放する。 これにより、高密度に連結されたグラフであっても、ワーカ当たりのメモリ消費がワーカ数に線形に低下する、優れたメモリスケーリング挙動が実現される。 SARを用いて、GNNトレーニングをこれまでで最大の応用例を報告し、作業者の数が増えるにつれて、大きなメモリ節約を実証する。 また,カーネル融合とアテンション行列再構成に基づく汎用手法を提案し,アテンションベースモデルの実行時間とメモリ効率を最適化する。 SARと組み合わせて、最適化されたアテンションカーネルは、アテンションベースのGNNにおいて、大幅なスピードアップとメモリ節約につながることを示す。

We present the Sequential Aggregation and Rematerialization (SAR) scheme for distributed full-batch training of Graph Neural Networks (GNNs) on large graphs. Large-scale training of GNNs has recently been dominated by sampling-based methods and methods based on non-learnable message passing. SAR on the other hand is a distributed technique that can train any GNN type directly on an entire large graph. The key innovation in SAR is the distributed sequential rematerialization scheme which sequentially re-constructs then frees pieces of the prohibitively large GNN computational graph during the backward pass. This results in excellent memory scaling behavior where the memory consumption per worker goes down linearly with the number of workers, even for densely connected graphs. Using SAR, we report the largest applications of full-batch GNN training to-date, and demonstrate large memory savings as the number of workers increases. We also present a general technique based on kernel fusion and attention-matrix rematerialization to optimize both the runtime and memory efficiency of attention-based models. We show that, coupled with SAR, our optimized attention kernels lead to significant speedups and memory savings in attention-based GNNs.
翻訳日:2021-11-15 22:18:37 公開日:2021-11-11
# 事前取得T1w MRIに対する情報補完の最適サンプリングによる高速T2w/FLAIRMRI取得

Fast T2w/FLAIR MRI Acquisition by Optimal Sampling of Information Complementary to Pre-acquired T1w MRI ( http://arxiv.org/abs/2111.06400v1 )

ライセンス: Link先を確認
Junwei Yang, Xiao-Xin Li, Feihong Liu, Dong Nie, Pietro Lio, Haikun Qi, Dinggang Shen(参考訳) その他のモダリティのアンダーサンプル画像に対するT1支援MRI再構成の最近の研究は、他のモダリティのMRI獲得をさらに加速させる可能性を示している。 最先端のアプローチの多くは、モダリティ間の補完的な情報を完全に活用することなく、固定アンダーサンプリングパターンのためのネットワークアーキテクチャの開発を通じて改善されている。 既存のアンダーサンプリングパターン学習アルゴリズムは、完全にサンプリングされたt1重み付きmr画像がパターン学習を補助するために単純に修正できるが、復元作業の大幅な改善は得られない。 そこで本研究では,MRI画像のアンダーサンプリングパターンを最適化する反復的枠組みを提案し,T1支援MRI再構成モデルを共同で最適化しながら,フルサンプリングされたT1強調MRI画像を異なるアンダーサンプリング要因で補完する。 具体的には,MRI再建におけるT1強調MRI画像の補助力を最大化できるサンプリングパターンを決定するために,2つのモード間の潜時情報の差を利用した。 一般に使われているアンダーサンプリングパターンや最先端の手法と比較して,公開データセット上で学習したアンダーサンプリングパターンの優れた性能を示し,リコンストラクションネットワークとアンダーサンプリングパターンを最大8倍のアンダーサンプリング係数で協調的に最適化することができる。

Recent studies on T1-assisted MRI reconstruction for under-sampled images of other modalities have demonstrated the potential of further accelerating MRI acquisition of other modalities. Most of the state-of-the-art approaches have achieved improvement through the development of network architectures for fixed under-sampling patterns, without fully exploiting the complementary information between modalities. Although existing under-sampling pattern learning algorithms can be simply modified to allow the fully-sampled T1-weighted MR image to assist the pattern learning, no significant improvement on the reconstruction task can be achieved. To this end, we propose an iterative framework to optimize the under-sampling pattern for MRI acquisition of another modality that can complement the fully-sampled T1-weighted MR image at different under-sampling factors, while jointly optimizing the T1-assisted MRI reconstruction model. Specifically, our proposed method exploits the difference of latent information between the two modalities for determining the sampling patterns that can maximize the assistance power of T1-weighted MR image in improving the MRI reconstruction. We have demonstrated superior performance of our learned under-sampling patterns on a public dataset, compared to commonly used under-sampling patterns and state-of-the-art methods that can jointly optimize both the reconstruction network and the under-sampling pattern, up to 8-fold under-sampling factor.
翻訳日:2021-11-15 14:55:54 公開日:2021-11-11
# MultiSV:遠距離マルチチャネル話者検証のためのデータセット

MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification ( http://arxiv.org/abs/2111.06458v1 )

ライセンス: Link先を確認
Ladislav Mo\v{s}ner, Old\v{r}ich Plchot, Luk\'a\v{s} Burget, Jan \v{C}ernock\'y(参考訳) 統合されていないデータ状況と標準ベンチマークの欠如に動機付けられ,本研究を補完し,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。 また、難聴、難聴、音声強調などの実験にも容易に利用できる。 voxcelebデータセットのクリーンな部分上にデータシミュレーションを活用し,マルチチャネルトレーニングデータの欠如という現在に至るまでの課題に取り組んだ。 開発・評価試験は,複合環境設定 (voices) コーパスに隠された再送信音声に基づいて行う。 我々は、公開ソースからデータセットを生成する完全なレシピをマルチsvコーパスとして公開し、理想のバイナリマスクやより最近のconv-tasnetの予測に基づいて、ニューラルネットワークベースのビームフォーミングを備えた2つのマルチチャネル話者検証システムで結果を提供する。

Motivated by unconsolidated data situation and the lack of a standard benchmark in the field, we complement our previous efforts and present a comprehensive corpus designed for training and evaluating text-independent multi-channel speaker verification systems. It can be readily used also for experiments with dereverberation, denoising, and speech enhancement. We tackled the ever-present problem of the lack of multi-channel training data by utilizing data simulation on top of clean parts of the Voxceleb dataset. The development and evaluation trials are based on a retransmitted Voices Obscured in Complex Environmental Settings (VOiCES) corpus, which we modified to provide multi-channel trials. We publish full recipes that create the dataset from public sources as the MultiSV corpus, and we provide results with two of our multi-channel speaker verification systems with neural network-based beamforming based either on predicting ideal binary masks or the more recent Conv-TasNet.
翻訳日:2021-11-15 14:55:32 公開日:2021-11-11
# クラウドコンピューティングと機械学習プラットフォームにおける分子動力学シミュレーション

Molecular Dynamics Simulations on Cloud Computing and Machine Learning Platforms ( http://arxiv.org/abs/2111.06466v1 )

ライセンス: Link先を確認
Prateek Sharma and Vikram Jadhao(参考訳) 科学計算アプリケーションはスーパーコンピュータのような高性能コンピューティング基盤から大きな恩恵を受けてきた。 しかし、これらのアプリケーションの計算構造、設計、要求のパラダイムシフトが見られます。 ますます、データ駆動および機械学習のアプローチは、科学計算アプリケーション、特に分子動力学シミュレーションのサポート、スピードアップ、強化に使われている。 クラウドコンピューティングプラットフォームは、科学的コンピューティングにますますアピールし、"無限の"コンピューティング能力、プログラミングとデプロイメントの容易なモデル、TPU(Tensor Processing Units)のようなコンピューティングアクセラレータへのアクセスを提供する。 この機械学習(ML)とクラウドコンピューティングの合流は、クラウドとシステム研究者にとってエキサイティングな機会である。 ML支援分子動力学シミュレーションは新しい種類のワークロードであり、ユニークな計算パターンを示す。 これらのシミュレーションは、低コストで高性能な実行に新たな課題をもたらす。 私たちは、低コストでプリエンプティブルなクラウドVMのような一時的なクラウドリソースが、この新しいワークロードにとって実行可能なプラットフォームになり得ると論じています。 最後に、クラウドリソース管理における低変動の成果と長期的課題、および分子動力学シミュレーションをMLプラットフォーム(TensorFlowなど)に統合することを紹介する。

Scientific computing applications have benefited greatly from high performance computing infrastructure such as supercomputers. However, we are seeing a paradigm shift in the computational structure, design, and requirements of these applications. Increasingly, data-driven and machine learning approaches are being used to support, speed-up, and enhance scientific computing applications, especially molecular dynamics simulations. Concurrently, cloud computing platforms are increasingly appealing for scientific computing, providing "infinite" computing powers, easier programming and deployment models, and access to computing accelerators such as TPUs (Tensor Processing Units). This confluence of machine learning (ML) and cloud computing represents exciting opportunities for cloud and systems researchers. ML-assisted molecular dynamics simulations are a new class of workload, and exhibit unique computational patterns. These simulations present new challenges for low-cost and high-performance execution. We argue that transient cloud resources, such as low-cost preemptible cloud VMs, can be a viable platform for this new workload. Finally, we present some low-hanging fruits and long-term challenges in cloud resource management, and the integration of molecular dynamics simulations into ML platforms (such as TensorFlow).
翻訳日:2021-11-15 14:54:17 公開日:2021-11-11
# ハードウェア効率の深いディープラーニングのためのシリコンフォトニックサブスペースニューラルチップ

Silicon photonic subspace neural chip for hardware-efficient deep learning ( http://arxiv.org/abs/2111.06705v1 )

ライセンス: Link先を確認
Chenghao Feng, Jiaqi Gu, Hanqing Zhu, Zhoufeng Ying, Zheng Zhao, David Z. Pan and Ray T. Chen(参考訳) ディープラーニングは多くの人工知能アプリケーションで革命的なパフォーマンスを示しているため、計算要求のエスカレートには、大量の並列処理とスループット向上のためのハードウェアアクセラレータが必要である。 光ニューラルネットワーク(onn)は、高並列性、低レイテンシ、低エネルギー消費のため、次世代ニューロコンピューティングの有望な候補である。 本稿では,従来のonnアーキテクチャに比べて光学部品使用率,面積コスト,エネルギー消費量の低減を目標とした,ハードウェア効率の高いフォトニックサブスペースニューラルネットワーク(psnn)アーキテクチャを考案する。 さらに、必要なデバイスプログラミング精度を最小化し、チップ面積を小さくし、ノイズ堅牢性を高めるため、ハードウェア対応のトレーニングフレームワークが提供される。 我々は,バタフライ型プログラマブルシリコンフォトニック集積回路を用いたPSNN実験を行い,その実用的画像認識における有用性を示した。

As deep learning has shown revolutionary performance in many artificial intelligence applications, its escalating computation demand requires hardware accelerators for massive parallelism and improved throughput. The optical neural network (ONN) is a promising candidate for next-generation neurocomputing due to its high parallelism, low latency, and low energy consumption. Here, we devise a hardware-efficient photonic subspace neural network (PSNN) architecture, which targets lower optical component usage, area cost, and energy consumption than previous ONN architectures with comparable task performance. Additionally, a hardware-aware training framework is provided to minimize the required device programming precision, lessen the chip area, and boost the noise robustness. We experimentally demonstrate our PSNN on a butterfly-style programmable silicon photonic integrated circuit and show its utility in practical image recognition tasks.
翻訳日:2021-11-15 14:51:55 公開日:2021-11-11
# テキスト・テキスト変換器を用いたトルコ語テキストからの質問自動生成と質問応答

Automated question generation and question answering from Turkish texts using text-to-text transformers ( http://arxiv.org/abs/2111.06476v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Devrim Cavusoglu, Cemil Cengiz, Sinan Onur Altinuc, Alptekin Temizel(参考訳) 試験スタイルの質問は、様々な目的に役立ち、基本的な教育ツールであるが、質問の手動構築は、訓練、経験、リソースを必要とする複雑なプロセスである。 質問のマニュアル作成に伴うコストを削減し、新たな質問の継続的な供給の必要性を満たすために、自動質問生成(QG)技術を利用することができる。 しかしながら、自動質問応答(QA)と比較して、QGはより難しい課題である。 本研究では、トルコのQAデータセットを用いて、QA、QG、回答抽出タスクのためのマルチタスク設定でマルチ言語T5(mT5)変換器を微調整する。 我々の知る限りでは、トルコ語テキストからテキストからテキストへの質問の自動生成を試みている最初の学術研究である。 評価の結果,提案手法により,TQuADv1,TQuADv2データセット,XQuADトルコ分割に対する質問応答と質問生成性能が得られた。 ソースコードと事前学習されたモデルはhttps://github.com/o bss/turkish-question -generationで入手できる。

While exam-style questions are a fundamental educational tool serving a variety of purposes, manual construction of questions is a complex process that requires training, experience and resources. To reduce the expenses associated with the manual construction of questions and to satisfy the need for a continuous supply of new questions, automatic question generation (QG) techniques can be utilized. However, compared to automatic question answering (QA), QG is a more challenging task. In this work, we fine-tune a multilingual T5 (mT5) transformer in a multi-task setting for QA, QG and answer extraction tasks using a Turkish QA dataset. To the best of our knowledge, this is the first academic work that attempts to perform automated text-to-text question generation from Turkish texts. Evaluation results show that the proposed multi-task setting achieves state-of-the-art Turkish question answering and question generation performance over TQuADv1, TQuADv2 datasets and XQuAD Turkish split. The source code and pre-trained models are available at https://github.com/o bss/turkish-question -generation.
翻訳日:2021-11-15 14:20:20 公開日:2021-11-11
# Fair AutoML

Fair AutoML ( http://arxiv.org/abs/2111.06495v1 )

ライセンス: Link先を確認
Qingyun Wu, Chi Wang(参考訳) 我々は、予測精度だけでなく、公正な機械学習モデルを見つけるために、エンドツーエンドの自動機械学習システムを提案する。 このシステムは以下の理由から望ましい。 1)従来のAutoMLシステムと比較すると,このシステムは公平性評価と不公平性軽減を有機的に取り入れており,機械学習モデルの公平性を定量化し,必要に応じて不公平性を緩和することができる。 2)システムは,必要フェアネス制約を満たすモデルの精度など,いつでも良い「フェア」性能を持つように設計されている。 これを実現するために、予測精度、公平性、及びフライ時の資源消費に応じて、モデルが不公平を緩和する時期及び時期を動的に決定する戦略を含む。 3) システムの使用は柔軟である。 既存の公平度指標や不公平さ緩和手法のほとんどと併用することができる。

We present an end-to-end automated machine learning system to find machine learning models not only with good prediction accuracy but also fair. The system is desirable for the following reasons. (1) Comparing to traditional AutoML systems, this system incorporates fairness assessment and unfairness mitigation organically, which makes it possible to quantify fairness of the machine learning models tried and mitigate their unfairness when necessary. (2) The system is designed to have a good anytime `fair' performance, such as accuracy of a model satisfying necessary fairness constraints. To achieve it, the system includes a strategy to dynamically decide when and on which models to conduct unfairness mitigation according to the prediction accuracy, fairness and the resource consumption on the fly. (3) The system is flexible to use. It can be used together with most of the existing fairness metrics and unfairness mitigation methods.
翻訳日:2021-11-15 14:20:00 公開日:2021-11-11
# 拒絶の科学:人間の計算研究分野

The Science of Rejection: A Research Area for Human Computation ( http://arxiv.org/abs/2111.06736v1 )

ライセンス: Link先を確認
Burcu Sayin, Jie Yang, Andrea Passerini, Fabio Casati(参考訳) モデル予測を拒絶する学習科学がMLの中心である理由と、この取り組みにおいて人間の計算が中心的な役割を果たす理由を動機付けている。

We motivate why the science of learning to reject model predictions is central to ML, and why human computation has a lead role in this effort.
翻訳日:2021-11-15 14:18:44 公開日:2021-11-11
# DPLL(MAPF):マルチエージェントパス探索とSATソルビング技術の統合

DPLL(MAPF): an Integration of Multi-Agent Path Finding and SAT Solving Technologies ( http://arxiv.org/abs/2111.06494v1 )

ライセンス: Link先を確認
Martin \v{C}apek and Pavel Surynek(参考訳) マルチエージェントパス探索(MAPF)において、タスクは、初期位置から与えられた個々のゴール位置への複数のエージェントの非競合パスを見つけることである。 MAPFは、しばしばヒューリスティック検索によって対処される古典的な人工知能問題である。 検索ベースの手法の重要な代替手段として、MAPFをBoolean satisfiability (SAT)のような異なる形式にコンパイルすることがある。 MAPFに対する現代のSATベースのアプローチは、SATソルバを、入力MAPFのブールモデルのすべての決定変数の代入を返すタスクを持つ外部ツールとみなしている。 本稿では、MAPFルールに対する決定変数の部分的割り当ての整合性チェックをSATソルバに直接組み込む、DPLL(MAPF)と呼ばれる新しいコンパイル方式を提案する。 このスキームは、satソルバと一貫性チェックプロシージャが同時に動作してbooleanモデルを作成し、満足のいく代入を検索する、はるかに自動化されたコンパイルを可能にする。

In multi-agent path finding (MAPF), the task is to find non-conflicting paths for multiple agents from their initial positions to given individual goal positions. MAPF represents a classical artificial intelligence problem often addressed by heuristic-search. An important alternative to search-based techniques is compilation of MAPF to a different formalism such as Boolean satisfiability (SAT). Contemporary SAT-based approaches to MAPF regard the SAT solver as an external tool whose task is to return an assignment of all decision variables of a Boolean model of input MAPF. We present in this short paper a novel compilation scheme called DPLL(MAPF) in which the consistency checking of partial assignments of decision variables with respect to the MAPF rules is integrated directly into the SAT solver. This scheme allows for far more automated compilation where the SAT solver and the consistency checking procedure work together simultaneously to create the Boolean model and to search for its satisfying assignment.
翻訳日:2021-11-15 14:17:27 公開日:2021-11-11
# 脳MRIにおける剛体運動アーチファクトのロバスト補正に向けた自己支援型U-Net

Stacked U-Nets with Self-Assisted Priors Towards Robust Correction of Rigid Motion Artifact in Brain MRI ( http://arxiv.org/abs/2111.06401v1 )

ライセンス: Link先を確認
Mohammed A. Al-masni, Seul Lee, Jaeuk Yi, Sewook Kim, Sung-Min Gho, Young Hun Choi, and Dong-Hyun Kim(参考訳) 本稿では,MRIにおける剛性動作アーティファクトの問題に対処するために,自己支援型事前学習を用いた階層型U-Netと呼ばれる効率的な振り返り深層学習手法を開発する。 提案手法では,コントラストデータの追加を必要とせず,劣化画像自体から事前知識を付加的に活用する。 提案するネットワークは、同一の歪んだ対象の連続スライスから補助情報を共有することによって、構造的詳細を欠くことを学習する。 さらに,画像の空間的詳細の保存を容易にし,画素間依存性を改善した改良スタック型u-netの設計を行った。 ネットワークトレーニングを行うには,MRI動画像のシミュレーションは避けられない。 提案する自己支援画像と,同じ被験者の他の画像コントラストからの先行画像とを用いた集中分析を行った。 実験分析は,さらなるデータスキャンを必要とせず,自己支援型プライオリティの有効性と実現可能性を示す。

In this paper, we develop an efficient retrospective deep learning method called stacked U-Nets with self-assisted priors to address the problem of rigid motion artifacts in MRI. The proposed work exploits the usage of additional knowledge priors from the corrupted images themselves without the need for additional contrast data. The proposed network learns missed structural details through sharing auxiliary information from the contiguous slices of the same distorted subject. We further design a refinement stacked U-Nets that facilitates preserving of the image spatial details and hence improves the pixel-to-pixel dependency. To perform network training, simulation of MRI motion artifacts is inevitable. We present an intensive analysis using various types of image priors: the proposed self-assisted priors and priors from other image contrast of the same subject. The experimental analysis proves the effectiveness and feasibility of our self-assisted priors since it does not require any further data scans.
翻訳日:2021-11-15 14:15:53 公開日:2021-11-11
# オンライン対応型非共振異常検出

Online-compatible Unsupervised Non-resonant Anomaly Detection ( http://arxiv.org/abs/2111.06417v1 )

ライセンス: Link先を確認
Vinicius Mikuni, Benjamin Nachman, David Shih(参考訳) モデルに依存しない方法で新しい粒子の探索を拡大できる異常検出手法の必要性が高まっている。 新しい手法のほとんどの提案は信号感度にのみ焦点をあてている。 しかし、異常なイベントを選択するだけでは十分ではなく、選択したイベントにコンテキストを提供する戦略も必要である。 信号感度と背景推定のためのデータ駆動手法の両方を含む非共鳴異常の教師なし検出のための最初の完全戦略を提案する。 本手法は,互いに非相関な2つのオートエンコーダを同時に構築する。 この方法は非共鳴異常検出のためにオフラインでデプロイすることができ、オンライン互換異常検出戦略としては初めてのものである。 ADC2021データチャレンジに備えた様々な信号に対して,本手法が優れた性能を発揮することを示す。

There is a growing need for anomaly detection methods that can broaden the search for new particles in a model-agnostic manner. Most proposals for new methods focus exclusively on signal sensitivity. However, it is not enough to select anomalous events - there must also be a strategy to provide context to the selected events. We propose the first complete strategy for unsupervised detection of non-resonant anomalies that includes both signal sensitivity and a data-driven method for background estimation. Our technique is built out of two simultaneously-train ed autoencoders that are forced to be decorrelated from each other. This method can be deployed offline for non-resonant anomaly detection and is also the first complete online-compatible anomaly detection strategy. We show that our method achieves excellent performance on a variety of signals prepared for the ADC2021 data challenge.
翻訳日:2021-11-15 14:13:59 公開日:2021-11-11
# アナログPIMのための高量子化DNNの可変学習と自己調整

Variability-Aware Training and Self-Tuning of Highly Quantized DNNs for Analog PIM ( http://arxiv.org/abs/2111.06457v1 )

ライセンス: Link先を確認
Zihao Deng and Michael Orshansky(参考訳) メモリ内のアナログ処理(PIM)アーキテクチャにデプロイされるDNNは、製造時間変動の影響を受ける。 提案手法は,高量子化アナログpcmモデルに対して,従来よりも有意な有効性を持つdnn学習アルゴリズムを開発した。 複数のコンピュータビジョンデータセット/モデル上で、可変性と学習後の量子化モデルよりも優れています。 低ビット幅モデルと高変動モデルでは、ResNet-18の精度は35.7%まで向上する。 可変性のチップ内コンポーネントとチップ間コンポーネントの現実的なパターンの下では、トレーニングだけでは大きなdnn精度の損失(cifar-100/resnet-18 では最大54%)を防ぐことができないことを実証する。 本稿では,推論中のレイヤワイズアクティベーションを動的に調整し,精度の低下を10%以下に抑える自己調整型DNNアーキテクチャを提案する。

DNNs deployed on analog processing in memory (PIM) architectures are subject to fabrication-time variability. We developed a new joint variability- and quantization-aware DNN training algorithm for highly quantized analog PIM-based models that is significantly more effective than prior work. It outperforms variability-obliviou s and post-training quantized models on multiple computer vision datasets/models. For low-bitwidth models and high variation, the gain in accuracy is up to 35.7% for ResNet-18 over the best alternative. We demonstrate that, under a realistic pattern of within- and between-chip components of variability, training alone is unable to prevent large DNN accuracy loss (of up to 54% on CIFAR-100/ResNet-18) . We introduce a self-tuning DNN architecture that dynamically adjusts layer-wise activations during inference and is effective in reducing accuracy loss to below 10%.
翻訳日:2021-11-15 14:13:48 公開日:2021-11-11
# 効率的な3次元ハンドポース推定のための動的反復リファインメント

Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation ( http://arxiv.org/abs/2111.06500v1 )

ライセンス: Link先を確認
John Yang, Yash Bhalgat, Simyung Chang, Fatih Porikli, Nojun Kwak(参考訳) ハンドポーズ推定は、ほとんどのインタラクティブな拡張現実とジェスチャー認識システムにおいて重要な要素であるが、現代のアプローチは計算とメモリ効率に最適化されていない。 本稿では,部分的層を再帰的に活用し,過去の推定を精査する,小さな深層ニューラルネットワークを提案する。 反復的な改良では、学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを決定し、モデルにサンプルごとの適応を可能にする。 我々のネットワークは、現在の予測の不確実性を認識して、各繰り返しを効率的にゲートし、各ループの後にキーポイント推定のばらつきを推定するように訓練されている。 さらに,モデル容量を最大化するための再帰的構造に対するエンドツーエンドおよびプログレッシブトレーニングプロトコルの有効性について検討した。 提案手法は, 広く使用されているベンチマークの精度と効率の両面で, 最先端の2d/3dハンドポーズ推定手法を一貫して上回っている。

While hand pose estimation is a critical component of most interactive extended reality and gesture recognition systems, contemporary approaches are not optimized for computational and memory efficiency. In this paper, we propose a tiny deep neural network of which partial layers are recursively exploited for refining its previous estimations. During its iterative refinements, we employ learned gating criteria to decide whether to exit from the weight-sharing loop, allowing per-sample adaptation in our model. Our network is trained to be aware of the uncertainty in its current predictions to efficiently gate at each iteration, estimating variances after each loop for its keypoint estimates. Additionally, we investigate the effectiveness of end-to-end and progressive training protocols for our recursive structure on maximizing the model capacity. With the proposed setting, our method consistently outperforms state-of-the-art 2D/3D hand pose estimation approaches in terms of both accuracy and efficiency for widely used benchmarks.
翻訳日:2021-11-15 13:44:22 公開日:2021-11-11
# 説明可能なAI(XAI):現在の課題と今後の可能性の体系的なメタサーベイ

Explainable AI (XAI): A Systematic Meta-Survey of Current Challenges and Future Opportunities ( http://arxiv.org/abs/2111.06420v1 )

ライセンス: Link先を確認
Waddah Saeed, Christian Omlin(参考訳) 過去10年間、人工知能(ai)は大幅に進歩し、様々な問題を解決するためにアルゴリズムが採用された。 しかしながら、この成功は、モデルの複雑さの増加と、透明性に欠けるブラックボックスAIモデルの採用によって達成されている。 このニーズに応えて、説明可能なAI(XAI)が提案され、AIをより透明性を高め、クリティカルドメインにおけるAIの採用を促進する。 XAIの課題と今後の研究方向性を特定する文献にはいくつかの論点があるが、これらの課題と研究の方向性は散在している。 そこで本研究では,(1)xaiの一般課題と研究方向,(2)機械学習ライフサイクルのフェーズに基づくxaiの課題と研究方向,すなわち設計,開発,展開という2つのテーマに整理されたxaiの課題と今後の研究方向に関する体系的メタサーベイを提案する。 我々は,我々のメタサーベイが,XAI地域における今後の探索のガイドを提供することで,XAI文学に寄与すると考えている。

The past decade has seen significant progress in artificial intelligence (AI), which has resulted in algorithms being adopted for resolving a variety of problems. However, this success has been met by increasing model complexity and employing black-box AI models that lack transparency. In response to this need, Explainable AI (XAI) has been proposed to make AI more transparent and thus advance the adoption of AI in critical domains. Although there are several reviews of XAI topics in the literature that identified challenges and potential research directions in XAI, these challenges and research directions are scattered. This study, hence, presents a systematic meta-survey for challenges and future research directions in XAI organized in two themes: (1) general challenges and research directions in XAI and (2) challenges and research directions in XAI based on machine learning life cycle's phases: design, development, and deployment. We believe that our meta-survey contributes to XAI literature by providing a guide for future exploration in the XAI area.
翻訳日:2021-11-15 13:30:00 公開日:2021-11-11
# リカレントニューラルネットワークを用いたデータ同化のための動的システムの観測誤差共分散仕様

Observation Error Covariance Specification in Dynamical Systems for Data assimilation using Recurrent Neural Networks ( http://arxiv.org/abs/2111.06447v1 )

ライセンス: Link先を確認
Sibo Cheng, Mingming Qiu(参考訳) データ同化技術は時系列観測データに基づいて不確実性のある複雑な力学系を予測するために広く用いられている。 誤差共分散行列モデリングは、予測精度に大きな影響を与えるデータ同化アルゴリズムの重要な要素である。 通常、経験的仮定や物理的制約に依存するこれらの共分散の推定は、特に大きな次元の系では不正確で計算的に高価であることが多い。 本研究では,長期記憶(LSTM)リカレントニューラルネットワーク(RNN)に基づくデータ駆動型アプローチを提案し,動的システムにおけるデータ同化における観測共分散仕様の精度と効率を両立させる。 観測・シミュレーションされた時系列データから共分散行列を学習し,従来の後方調整法とは異なり,先行誤差分布に関する知識や仮定は不要である。 本手法は,ロレンツ力学系におけるDI01とD05の2つの状態共分散チューニングアルゴリズムと,アンサンブル同化を用いた共分散パラメータの異なる2次元浅水双対実験フレームワークを比較した。 本手法は,観測共分散仕様,同化精度,計算効率において有意な利点を示す。

Data assimilation techniques are widely used to predict complex dynamical systems with uncertainties, based on time-series observation data. Error covariance matrices modelling is an important element in data assimilation algorithms which can considerably impact the forecasting accuracy. The estimation of these covariances, which usually relies on empirical assumptions and physical constraints, is often imprecise and computationally expensive especially for systems of large dimension. In this work, we propose a data-driven approach based on long short term memory (LSTM) recurrent neural networks (RNN) to improve both the accuracy and the efficiency of observation covariance specification in data assimilation for dynamical systems. Learning the covariance matrix from observed/simulated time-series data, the proposed approach does not require any knowledge or assumption about prior error distribution, unlike classical posterior tuning methods. We have compared the novel approach with two state-of-the-art covariance tuning algorithms, namely DI01 and D05, first in a Lorenz dynamical system and then in a 2D shallow water twin experiments framework with different covariance parameterization using ensemble assimilation. This novel method shows significant advantages in observation covariance specification, assimilation accuracy and computational efficiency.
翻訳日:2021-11-15 13:26:48 公開日:2021-11-11
# 合成コミュニケーションの創発における騒音の触媒的役割と誘導バイアスの必要性

Catalytic Role Of Noise And Necessity Of Inductive Biases In The Emergence Of Compositional Communication ( http://arxiv.org/abs/2111.06464v1 )

ライセンス: Link先を確認
{\L}ukasz Kuci\'nski, Tomasz Korbak, Pawe{\l} Ko{\l}odziej, Piotr Mi{\l}o\'s(参考訳) 複雑な信号が単純な部分の組合せとして表現できるならば、通信は構成的である。 本稿では,学習フレームワークとデータの両方に対する帰納的バイアスが,構成的コミュニケーションの発達に必要であることを示す。 さらに,エージェントがノイズチャネル上で通信するシグナリングゲームにおいて,構成性が自然に発生することを示す。 モデルとデータに依存する様々なノイズレベルが、実際に構成性を促進することを実験的に確認する。 最後に,この依存度に関する包括的研究を行い,最近研究した構成性指標(地形的類似性,競合数,文脈独立性)について報告する。

Communication is compositional if complex signals can be represented as a combination of simpler subparts. In this paper, we theoretically show that inductive biases on both the training framework and the data are needed to develop a compositional communication. Moreover, we prove that compositionality spontaneously arises in the signaling games, where agents communicate over a noisy channel. We experimentally confirm that a range of noise levels, which depends on the model and the data, indeed promotes compositionality. Finally, we provide a comprehensive study of this dependence and report results in terms of recently studied compositionality metrics: topographical similarity, conflict count, and context independence.
翻訳日:2021-11-15 13:03:26 公開日:2021-11-11
# Excelの因果推論における変分オートエンコーダアーキテクチャ

Variational Auto-Encoder Architectures that Excel at Causal Inference ( http://arxiv.org/abs/2111.06486v1 )

ライセンス: Link先を確認
Negar Hassanpour, Russell Greiner(参考訳) 観察データ(個人または人口レベル)から因果効果を推定することは、多くのタイプの意思決定に不可欠である。 この課題に対処する1つのアプローチは、データの基礎となる要因の分解された表現を学習することである。 本稿では,近年の変分オートエンコーダの進歩に基づく生成的アプローチを用いて,これらの要因と因果効果を同時に学習する。 本稿では,前モデルよりもそれぞれが改良され,ハイブリッドモデルに到達したモデル系列を提案する。 以上の結果から,提案する3つのモデルの性能は,最先端の判別法および他の生成的手法よりも優れていることが示された。

Estimating causal effects from observational data (at either an individual -- or a population -- level) is critical for making many types of decisions. One approach to address this task is to learn decomposed representations of the underlying factors of data; this becomes significantly more challenging when there are confounding factors (which influence both the cause and the effect). In this paper, we take a generative approach that builds on the recent advances in Variational Auto-Encoders to simultaneously learn those underlying factors as well as the causal effects. We propose a progressive sequence of models, where each improves over the previous one, culminating in the Hybrid model. Our empirical results demonstrate that the performance of all three proposed models are superior to both state-of-the-art discriminative as well as other generative approaches in the literature.
翻訳日:2021-11-15 13:02:41 公開日:2021-11-11
# イメージベース表現を用いた深層強化学習を用いたグラン・チュリモスポーツにおける熟練人間レベル運転

Expert Human-Level Driving in Gran Turismo Sport Using Deep Reinforcement Learning with Image-based Representation ( http://arxiv.org/abs/2111.06449v1 )

ライセンス: Link先を確認
Ryuji Imamura, Takuma Seno, Kenta Kawamoto, Michael Spranger(参考訳) 人間は仮想レースゲームをするとき、ゲーム画面上の視覚環境情報を使用して、環境内のルールを理解する。 対照的に、人間のプレイヤーに勝る最先端のリアルなレーシングゲームAIエージェントは、画像ベースの環境情報ではなく、環境が提供するコンパクトで正確な測定値を使用する。 本稿では,Gran Turismo Sport (GTS) を用いた現実的なレースシナリオにおいて,人間選手と同一条件下での視覚に基づく制御アルゴリズムを提案し,比較した。 提案手法では,従来の最先端手法における観察の一部を構成する環境情報を,ゲーム画面画像から抽出した特徴表現に置き換える。 提案手法は,高次元入力としてゲーム画面画像を用いた場合においても,高速運転シナリオにおいて熟練した人間レベル車両制御を行う。 さらに、GTSの組み込みAIをタイムトライアルのタスクで上回り、そのスコアは、約28,000人の人間のプレーヤーのトップ10%に入っている。

When humans play virtual racing games, they use visual environmental information on the game screen to understand the rules within the environments. In contrast, a state-of-the-art realistic racing game AI agent that outperforms human players does not use image-based environmental information but the compact and precise measurements provided by the environment. In this paper, a vision-based control algorithm is proposed and compared with human player performances under the same conditions in realistic racing scenarios using Gran Turismo Sport (GTS), which is known as a high-fidelity realistic racing simulator. In the proposed method, the environmental information that constitutes part of the observations in conventional state-of-the-art methods is replaced with feature representations extracted from game screen images. We demonstrate that the proposed method performs expert human-level vehicle control under high-speed driving scenarios even with game screen images as high-dimensional inputs. Additionally, it outperforms the built-in AI in GTS in a time trial task, and its score places it among the top 10% approximately 28,000 human players.
翻訳日:2021-11-15 13:02:29 公開日:2021-11-11
# (参考訳) 位置情報から偽の関心点を検出する [全文訳有]

Detecting Fake Points of Interest from Location Data ( http://arxiv.org/abs/2111.06003v1 )

ライセンス: CC BY 4.0
Syed Raza Bashir, Vojislav Misic(参考訳) GPS対応モバイルデバイスの普及と位置情報サービスの普及により、大量のジオタグ付きデータが生成されるようになった。 近年、データ分析はレビュー、ニュース、画像など多くのソースにアクセスでき、POI(Point-of-Interes t)データソースの信頼性に関する疑問も提起されている。 これまでの研究では、さまざまなセキュリティメカニズムを通じて偽のPOIデータを検出しようとしたが、現在の作業では、偽のPOIデータをはるかに単純な方法でキャプチャしようと試みていた。 提案する研究は,教師付き学習手法と,その位置に基づくデータに隠れたパターンを見つける能力に着目したものである。 地上の真理ラベルは実世界のデータから取得され、偽のデータはAPIを使って生成されるので、位置データ上に実際のラベルと偽のラベルの両方でデータセットを得る。 目的は,Multi-Layer Perceptron (MLP) 法を用いてPOIの真偽を予測することである。 提案手法では,位置データを正確に分類するために,データ分類に基づくMLPを用いる。 提案手法は,従来の分類法,ロバスト法,および近年の深層神経法と比較した。 その結果,提案手法はベースライン法よりも優れていることがわかった。

The pervasiveness of GPS-enabled mobile devices and the widespread use of location-based services have resulted in the generation of massive amounts of geo-tagged data. In recent times, the data analysis now has access to more sources, including reviews, news, and images, which also raises questions about the reliability of Point-of-Interest (POI) data sources. While previous research attempted to detect fake POI data through various security mechanisms, the current work attempts to capture the fake POI data in a much simpler way. The proposed work is focused on supervised learning methods and their capability to find hidden patterns in location-based data. The ground truth labels are obtained through real-world data, and the fake data is generated using an API, so we get a dataset with both the real and fake labels on the location data. The objective is to predict the truth about a POI using the Multi-Layer Perceptron (MLP) method. In the proposed work, MLP based on data classification technique is used to classify location data accurately. The proposed method is compared with traditional classification and robust and recent deep neural methods. The results show that the proposed method is better than the baseline methods.
翻訳日:2021-11-13 01:23:18 公開日:2021-11-11
# (参考訳) 大規模医療エンティティリンクにおけるカタストロフィック形成防止のためのKronecker因子の同定 [全文訳有]

Kronecker Factorization for Preventing Catastrophic Forgetting in Large-scale Medical Entity Linking ( http://arxiv.org/abs/2111.06012v1 )

ライセンス: CC BY 4.0
Denis Jered McInerney, Luyang Kong, Kristjan Arumae, Byron Wallace, Parminder Bhatia(参考訳) マルチタスク学習は、様々なタスクにまたがる単一のモデルを持つことが事実上望ましいため、NLPで有用である。 医学領域において、タスクのシーケンシャルトレーニングは、元の(潜在的に敏感な)データへのアクセスがもはや利用できないことや、単に共同再トレーニングに固有の計算コストのために、モデルをトレーニングする唯一の方法である。 しかし、シーケンシャルラーニングに固有の大きな問題は破滅的な忘れ、すなわち、新しいタスクのためにモデルが更新されたときのタスクに対する精度の大幅な低下である。 弾性重み統合は、この問題に対処するために最近提案された方法であるが、このアプローチを実際に使われているモダンな大規模モデルにスケールするには、モデルパラメータに関する強い独立性の仮定が必要であり、その効果は制限される。 本研究では,独立性の仮定を緩和する最近のアプローチであるKronecker Factorizationを適用し,畳み込みとトランスフォーマーに基づく大規模ニューラルネットワークにおける破滅的な忘れを防止する。 3つのデータセットにまたがる医療エンティティの重要かつ説明的なタスクにおいて,本手法の有効性を示し,新たな医療データが利用可能になると,既存の手法を効率的に更新するための手法の能力を示す。 平均的に, bertモデルを用いた場合, モデルパラメータ数に比例する空間的複雑性を維持しつつ, 標準弾性重み密化による27%の削減に比べ, 破壊的忘れ込みを51%削減した。

Multi-task learning is useful in NLP because it is often practically desirable to have a single model that works across a range of tasks. In the medical domain, sequential training on tasks may sometimes be the only way to train models, either because access to the original (potentially sensitive) data is no longer available, or simply owing to the computational costs inherent to joint retraining. A major issue inherent to sequential learning, however, is catastrophic forgetting, i.e., a substantial drop in accuracy on prior tasks when a model is updated for a new task. Elastic Weight Consolidation is a recently proposed method to address this issue, but scaling this approach to the modern large models used in practice requires making strong independence assumptions about model parameters, limiting its effectiveness. In this work, we apply Kronecker Factorization--a recent approach that relaxes independence assumptions--to prevent catastrophic forgetting in convolutional and Transformer-based neural networks at scale. We show the effectiveness of this technique on the important and illustrative task of medical entity linking across three datasets, demonstrating the capability of the technique to be used to make efficient updates to existing methods as new medical data becomes available. On average, the proposed method reduces catastrophic forgetting by 51% when using a BERT-based model, compared to a 27% reduction using standard Elastic Weight Consolidation, while maintaining spatial complexity proportional to the number of model parameters.
翻訳日:2021-11-13 01:05:58 公開日:2021-11-11
# (参考訳) 確率コントラスト損失による意味認識表現学習 [全文訳有]

Semantic-aware Representation Learning Via Probability Contrastive Loss ( http://arxiv.org/abs/2111.06021v1 )

ライセンス: CC BY 4.0
Junjie Li, Yixin Zhang, Zilei Wang, Keyu Tu(参考訳) 近年のFCLは,教師なし表現学習において有望な性能を示した。 しかし、ラベル付きデータとラベルなしデータが同じ意味空間に属するクローズセット表現学習の場合、fclは最適化中にクラスセマンティクスを含まないため、圧倒的な利益を示すことができない。 したがって、生成された特徴は、情報豊富なにもかかわらずラベル付きデータから学習したクラス重みによって容易に分類されることを保証しない。 この問題に対処するため,本論文では,リッチな特徴を生み出すだけでなく,クラスプロトタイプの周辺に分散させることを強制する新しい確率コントラスト学習(PCL)を提案する。 具体的には,FCLの抽出特徴の代わりにソフトマックス後の出力確率を用いてコントラスト学習を行う。 このような方法は、最適化中にクラスセマンティクスを利用することができる。 さらに,従来のfclにおける$\ell_{2}$正規化を除去し,比較学習に$\ell_{1}$正規化確率を直接使用することを提案する。 提案するPCLは単純かつ効果的である。 本研究では,教師なし領域適応,半教師付き学習,半教師付き領域適応という,3つの近接画像分類タスクについて広範な実験を行った。 複数のデータセットから得られた結果から,PCLが一定に向上し,3つのタスクすべてに対して最先端のパフォーマンスを達成できることが示される。

Recent feature contrastive learning (FCL) has shown promising performance in unsupervised representation learning. For the close-set representation learning where labeled data and unlabeled data belong to the same semantic space, however, FCL cannot show overwhelming gains due to not involving the class semantics during optimization. Consequently, the produced features do not guarantee to be easily classified by the class weights learned from labeled data although they are information-rich. To tackle this issue, we propose a novel probability contrastive learning (PCL) in this paper, which not only produces rich features but also enforces them to be distributed around the class prototypes. Specifically, we propose to use the output probabilities after softmax to perform contrastive learning instead of the extracted features in FCL. Evidently, such a way can exploit the class semantics during optimization. Moreover, we propose to remove the $\ell_{2}$ normalization in the traditional FCL and directly use the $\ell_{1}$-normalized probability for contrastive learning. Our proposed PCL is simple and effective. We conduct extensive experiments on three close-set image classification tasks, i.e., unsupervised domain adaptation, semi-supervised learning, and semi-supervised domain adaptation. The results on multiple datasets demonstrate that our PCL can consistently get considerable gains and achieves the state-of-the-art performance for all three tasks.
翻訳日:2021-11-13 00:44:04 公開日:2021-11-11
# (参考訳) HMD-AMP:抗微生物ペプチドのアノテートのためのタンパク質言語による階層型多層森林 [全文訳有]

HMD-AMP: Protein Language-Powered Hierarchical Multi-label Deep Forest for Annotating Antimicrobial Peptides ( http://arxiv.org/abs/2111.06023v1 )

ライセンス: CC BY 4.0
Qinze Yu, Zhihang Dong, Xingyu Fan, Licheng Zong and Yu Li(参考訳) 抗微生物ペプチドの標的を同定することは、自然免疫反応を研究し、抗生物質耐性と戦うための基本的なステップであり、より広くは精密な医療と公衆衛生である。 統計学的および計算学的アプローチの同定に関する広範な研究がなされている。 i)ペプチドが抗微生物ペプチド(AMP)であるか非AMPであるか (二)どのターゲットがこれらの配列に有効であるか(グラム陽性、グラム陰性等) この問題に関する既存のディープラーニングメソッドにもかかわらず、その多くは小さなAMPクラス(アンチ・インジェクト、アンチ・寄生虫など)を扱うことができません。 さらに重要なことは、いくつかのAMPは複数のターゲットを持つことができます。 本研究では, 各種AMPデータベースからアミノ酸を収集, 洗浄することにより, 多様な多ラベルタンパク質配列データベースを構築した。 小クラスデータセットの効率的な表現と特徴を生成するために、2億5000万個のタンパク質配列で訓練されたタンパク質言語モデルを利用する。 そこで我々は,AMPを包括的にアノテートするために,エンド・ツー・エンドの階層型多ラベル深い森林フレームワークであるHMD-AMPを開発した。 AMPを特定した後、AMPが効果的に11の利用可能なクラスから殺すことができるターゲットを予測します。 大規模な実験により,2進分類タスクと複数ラベル分類タスク,特にマイノリティクラスにおいて,我々のフレームワークは最先端のモデルよりも優れていることが示唆された。 HMD-AMPは、様々な抗菌ペプチドの自然構造に関するウェットラブ研究と、抗生物質による精密な医療のための有望な経験的基盤構築の両方に寄与すると考えている。

Identifying the targets of an antimicrobial peptide is a fundamental step in studying the innate immune response and combating antibiotic resistance, and more broadly, precision medicine and public health. There have been extensive studies on the statistical and computational approaches to identify (i) whether a peptide is an antimicrobial peptide (AMP) or a non-AMP and (ii) which targets are these sequences effective to (Gram-positive, Gram-negative, etc.). Despite the existing deep learning methods on this problem, most of them are unable to handle the small AMP classes (anti-insect, anti-parasite, etc.). And more importantly, some AMPs can have multiple targets, which the previous methods fail to consider. In this study, we build a diverse and comprehensive multi-label protein sequence database by collecting and cleaning amino acids from various AMP databases. To generate efficient representations and features for the small classes dataset, we take advantage of a protein language model trained on 250 million protein sequences. Based on that, we develop an end-to-end hierarchical multi-label deep forest framework, HMD-AMP, to annotate AMP comprehensively. After identifying an AMP, it further predicts what targets the AMP can effectively kill from eleven available classes. Extensive experiments suggest that our framework outperforms state-of-the-art models in both the binary classification task and the multi-label classification task, especially on the minor classes.The model is robust against reduced features and small perturbations and produces promising results. We believe HMD-AMP contributes to both the future wet-lab investigations of the innate structural properties of different antimicrobial peptides and build promising empirical underpinnings for precise medicine with antibiotics.
翻訳日:2021-11-13 00:22:13 公開日:2021-11-11
# (参考訳) 過渡制御のための強化学習手法の最小化 [全文訳有]

Adapting Surprise Minimizing Reinforcement Learning Techniques for Transactive Control ( http://arxiv.org/abs/2111.06025v1 )

ライセンス: CC BY 4.0
William Arnold, Tarang Srivastava, Lucas Spangher, Utkarsha Agwan, Costas Spanos(参考訳) エネルギー需要応答に対する価格の最適化には、複雑な環境をナビゲートできる柔軟なコントローラが必要である。 本稿では,アーキテクチャの変更を最小化する強化学習コントローラを提案する。 エネルギー利用の予測可能性を活用することで,学習速度の向上にサプライズ最小化が有効であることを示唆する。 我々のアーキテクチャはエネルギー需要応答のシミュレーションでよく機能する。 我々は,この機能を改善し,大規模な実験で節約するために,この修正を提案する。

Optimizing prices for energy demand response requires a flexible controller with ability to navigate complex environments. We propose a reinforcement learning controller with surprise minimizing modifications in its architecture. We suggest that surprise minimization can be used to improve learning speed, taking advantage of predictability in peoples' energy usage. Our architecture performs well in a simulation of energy demand response. We propose this modification to improve functionality and save in a large scale experiment.
翻訳日:2021-11-13 00:05:26 公開日:2021-11-11
# (参考訳) Causal KL: Causal Discoveryの評価 [全文訳有]

Causal KL: Evaluating Causal Discovery ( http://arxiv.org/abs/2111.06029v1 )

ライセンス: CC BY 4.0
Rodney T. O'Donnell, Kevin B. Korb and Lloyd Allison(参考訳) 人工データを用いて因果モデル発見を評価するための最もよく用いられる2つの基準は、真のモデルから学習モデルへ測定された編集距離とクルバック・リーブラー分岐である。 これらのメトリクスはどちらも、真のモデルに最大報酬を与えます。 しかし、両者とも虚偽モデルの相対的メリットを判断するのに不十分であると主張する。 例えば、編集距離は、強みと弱みの確率依存性の区別に失敗する。 一方、klの発散は、それらの異なる因果的主張に関係なく、等しくすべての統計等価なモデルに報いる。 我々は、観測等価モデルを区別する因果関係を考慮に入れた、Causal KL (CKL) と呼ばれる拡張KL分岐を提案する。 結果は3種類のCKLに対して提示され、Causal KLが実際にうまく動作することを示す。

The two most commonly used criteria for assessing causal model discovery with artificial data are edit-distance and Kullback-Leibler divergence, measured from the true model to the learned model. Both of these metrics maximally reward the true model. However, we argue that they are both insufficiently discriminating in judging the relative merits of false models. Edit distance, for example, fails to distinguish between strong and weak probabilistic dependencies. KL divergence, on the other hand, rewards equally all statistically equivalent models, regardless of their different causal claims. We propose an augmented KL divergence, which we call Causal KL (CKL), which takes into account causal relationships which distinguish between observationally equivalent models. Results are presented for three variants of CKL, showing that Causal KL works well in practice.
翻訳日:2021-11-12 23:56:04 公開日:2021-11-11
# (参考訳) fino: 流れに基づくジョイントイメージとノイズモデル [全文訳有]

FINO: Flow-based Joint Image and Noise Model ( http://arxiv.org/abs/2111.06031v1 )

ライセンス: CC BY 4.0
Lanqing Guo, Siyu Huang, Haosen Liu, Bihan Wen(参考訳) 画像復元における基本的な課題の1つは、ノイズの多い測定からクリーンな画像を推定することである。 このような不当な逆問題に対処するために、既存の認知的アプローチは一般的に、効果的な自然画像の事前利用に重点を置いている。 ノイズモデルの利用と分析は無視されることが多いが、ノイズモデルでは補的な情報をデノナイズアルゴリズムに提供することができる。 本稿では, 潜在空間における画像と雑音を分離し, 一連の可逆変換により無損失に再構成する新しい流れに基づく関節像・雑音モデル(fino)を提案する。 さらに,空間的に最小化された相関情報に基づいて,画像の構造情報を調整する可変スワップ方式と雑音相関行列を提案する。 実験の結果,フィノは合成白色ガウスノイズ (awgn) と実雑音の両方を除去することができた。 さらに,不正確な推定による空間的変動雑音除去に対するfinoの一般化は,一般および最先端の手法を大きなマージンで上回っている。

One of the fundamental challenges in image restoration is denoising, where the objective is to estimate the clean image from its noisy measurements. To tackle such an ill-posed inverse problem, the existing denoising approaches generally focus on exploiting effective natural image priors. The utilization and analysis of the noise model are often ignored, although the noise model can provide complementary information to the denoising algorithms. In this paper, we propose a novel Flow-based joint Image and NOise model (FINO) that distinctly decouples the image and noise in the latent space and losslessly reconstructs them via a series of invertible transformations. We further present a variable swapping strategy to align structural information in images and a noise correlation matrix to constrain the noise based on spatially minimized correlation information. Experimental results demonstrate FINO's capacity to remove both synthetic additive white Gaussian noise (AWGN) and real noise. Furthermore, the generalization of FINO to the removal of spatially variant noise and noise with inaccurate estimation surpasses that of the popular and state-of-the-art methods by large margins.
翻訳日:2021-11-12 23:06:54 公開日:2021-11-11
# (参考訳) cubetr: トランスフォーマーを使ってルービックキューブの解法を学ぶ [全文訳有]

CubeTR: Learning to Solve The Rubiks Cube Using Transformers ( http://arxiv.org/abs/2111.06036v1 )

ライセンス: CC BY 4.0
Mustafa Ebrahim Chasmai(参考訳) 最初の登場以来、トランスフォーマーはコンピュータビジョンから自然言語処理まで幅広い領域でうまく使われてきた。 シーケンスモデリング問題として再構成した強化学習における変圧器の適用は,最近になって提案された。 他の一般的な強化学習問題と比較すると、rubiks cubeは独自の課題となっている。 rubiks cubeは、可能な構成のクエンチリオンに対して単一の解決状態を持ち、極めて少ない報酬をもたらす。 提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。 キューブTRは、ルービックキューブを人間に先行しない任意の開始状態から解く方法を学び、移動正則化の後、それによって生成される解の長さは、専門家の人間の解法が使用するアルゴリズムに非常に近いと期待されている。 CubeTRは、学習アルゴリズムの高次元立方体への一般化可能性と、他のスパース報酬シナリオにおける変換器の適用性に関する洞察を提供する。

Since its first appearance, transformers have been successfully used in wide ranging domains from computer vision to natural language processing. Application of transformers in Reinforcement Learning by reformulating it as a sequence modelling problem was proposed only recently. Compared to other commonly explored reinforcement learning problems, the Rubiks cube poses a unique set of challenges. The Rubiks cube has a single solved state for quintillions of possible configurations which leads to extremely sparse rewards. The proposed model CubeTR attends to longer sequences of actions and addresses the problem of sparse rewards. CubeTR learns how to solve the Rubiks cube from arbitrary starting states without any human prior, and after move regularisation, the lengths of solutions generated by it are expected to be very close to those given by algorithms used by expert human solvers. CubeTR provides insights to the generalisability of learning algorithms to higher dimensional cubes and the applicability of transformers in other relevant sparse reward scenarios.
翻訳日:2021-11-12 22:54:25 公開日:2021-11-11
# (参考訳) 状態依存コストによる制約付き確率部分モジュラー最大化 [全文訳有]

Constrained Stochastic Submodular Maximization with State-Dependent Costs ( http://arxiv.org/abs/2111.06037v1 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 本稿では,制約付き確率的極大化問題と状態依存コストについて検討する。 問題の入力は、既知の確率分布から状態(すなわち、アイテムの限界寄与とコスト)が引き出される項目の集合である。 アイテムの実際の状態を知る唯一の方法は、そのアイテムを選択することです。 我々は二つの制約、すなわち \emph{inner} と \emph{outer} を考える。 各項目が状態依存コストを持ち、内部制約は、選択された項目の合計 \emph{realized} コストが付与予算を超過してはならないことを言い換える。 したがって、内部制約は状態依存である。 一方、外部制約は状態非依存である。 状態に関わらず、選択されたアイテムのセットの下位に閉じたファミリーとして表現することができる。 我々の目標は、内外制約の対象となる目的関数を最大化することである。 より大きなコストがより大きな「有効性」を示すという仮定の下で、この問題に対する一定の近似解を提示する。

In this paper, we study the constrained stochastic submodular maximization problem with state-dependent costs. The input of our problem is a set of items whose states (i.e., the marginal contribution and the cost of an item) are drawn from a known probability distribution. The only way to know the realized state of an item is to select that item. We consider two constraints, i.e., \emph{inner} and \emph{outer} constraints. Recall that each item has a state-dependent cost, and the inner constraint states that the total \emph{realized} cost of all selected items must not exceed a give budget. Thus, inner constraint is state-dependent. The outer constraint, one the other hand, is state-independent. It can be represented as a downward-closed family of sets of selected items regardless of their states. Our objective is to maximize the objective function subject to both inner and outer constraints. Under the assumption that larger cost indicates larger "utility", we present a constant approximate solution to this problem.
翻訳日:2021-11-12 22:40:05 公開日:2021-11-11
# (参考訳) HDRシーンのLDR画像のためのハイブリッド飽和復元 [全文訳有]

Hybrid Saturation Restoration for LDR Images of HDR Scenes ( http://arxiv.org/abs/2111.06038v1 )

ライセンス: CC0 1.0
Chaobing Zheng, Zhengguo Li, and Shiqian Wu(参考訳) 低ダイナミックレンジ(LDR)画像には、ハイダイナミックレンジ(HDR)シーンからキャプチャされる影とハイライト領域がある。 LDR画像の飽和領域を復元するには不適切な問題である。 本稿では,LDR画像の飽和領域をモデルベースおよびデータ駆動アプローチの融合により復元する。 このような神経拡張により、2つの合成LDR画像がモデルベースアプローチを介して基礎となるLDR画像から生成される。 1つは、シャドウ領域を復元するための入力画像より明るく、もう1つは、入力画像よりも暗く、高照度領域を復元する。 両方の合成画像は、新しい露出認識飽和回復ネットワーク(EASRN)を介して精製される。 最後に、2つの合成画像と入力画像がHDR合成アルゴリズムまたはマルチスケール露光融合アルゴリズムを介して結合される。 提案アルゴリズムは,任意のスマートフォンやデジタルカメラに組み込み,情報豊富なldr画像を生成することができる。

There are shadow and highlight regions in a low dynamic range (LDR) image which is captured from a high dynamic range (HDR) scene. It is an ill-posed problem to restore the saturated regions of the LDR image. In this paper, the saturated regions of the LDR image are restored by fusing model-based and data-driven approaches. With such a neural augmentation, two synthetic LDR images are first generated from the underlying LDR image via the model-based approach. One is brighter than the input image to restore the shadow regions and the other is darker than the input image to restore the high-light regions. Both synthetic images are then refined via a novel exposedness aware saturation restoration network (EASRN). Finally, the two synthetic images and the input image are combined together via an HDR synthesis algorithm or a multi-scale exposure fusion algorithm. The proposed algorithm can be embedded in any smart phones or digital cameras to produce an information-enriched LDR image.
翻訳日:2021-11-12 22:28:19 公開日:2021-11-11
# (参考訳) 可変長インフィルによる楽譜拡張 [全文訳有]

Music Score Expansion with Variable-Length Infilling ( http://arxiv.org/abs/2111.06046v1 )

ライセンス: CC BY 4.0
Chih-Pin Tan, Chin-Jui Chang, Alvin W.Y. Su and Yi-Hsuan Yang(参考訳) 本稿では,未完成セグメントを埋め込むためにもともと提案されていた可変長埋込モデルを用いて,音楽境界における既存のセグメントの「延長」について検討する。 具体的には,12バーから16バーに20の楽曲セグメントを拡大し,新たに提案したレジスタヒストグラム類似度を含むいくつかの客観的指標を用いて,拡張結果におけるVLIモデルが音楽境界を保存する程度について検討する。 その結果,VLIモデルは拡張タスクに対処できる可能性が示唆された。

In this paper, we investigate using the variable-length infilling (VLI) model, which is originally proposed to infill missing segments, to "prolong" existing musical segments at musical boundaries. Specifically, as a case study, we expand 20 musical segments from 12 bars to 16 bars, and examine the degree to which the VLI model preserves musical boundaries in the expanded results using a few objective metrics, including the Register Histogram Similarity we newly propose. The results show that the VLI model has the potential to address the expansion task.
翻訳日:2021-11-12 22:10:19 公開日:2021-11-11
# (参考訳) フィリピンの大規模言語モデルとリソースの改善 [全文訳有]

Improving Large-scale Language Models and Resources for Filipino ( http://arxiv.org/abs/2111.06053v1 )

ライセンス: CC BY-SA 4.0
Jan Christian Blaise Cruz and Charibeth Cheng(参考訳) 本稿では,低リソースのフィリピン語に対する既存の言語資源を2つの点で改善する。 まず,大規模な事前学習コーパスであるTLUnifiedデータセットの構築について概説する。 第2に,RoBERTa事前学習法に従って,新しいトランスフォーマー言語モデルを事前訓練し,小型コーパスで訓練した既存モデルを置き換える。 我々の新しいRoBERTaモデルは、3つのベンチマークデータセットで既存のフィリピンモデルよりも大幅に改善され、3つの分類タスクで平均4.47%のテスト精度が向上した。

In this paper, we improve on existing language resources for the low-resource Filipino language in two ways. First, we outline the construction of the TLUnified dataset, a large-scale pretraining corpus that serves as an improvement over smaller existing pretraining datasets for the language in terms of scale and topic variety. Second, we pretrain new Transformer language models following the RoBERTa pretraining technique to supplant existing models trained with small corpora. Our new RoBERTa models show significant improvements over existing Filipino models in three benchmark datasets with an average gain of 4.47% test accuracy across the three classification tasks of varying difficulty.
翻訳日:2021-11-12 22:06:27 公開日:2021-11-11
# (参考訳) 野生動物におけるインドライセンスプレートデータセット [全文訳有]

Indian Licence Plate Dataset in the wild ( http://arxiv.org/abs/2111.06054v1 )

ライセンス: CC BY 4.0
Sanchit Tanwar, Ayush Tiwari, Ritesh Chowdhry(参考訳) Indian Licence Plate Detection is a problem that has not been explored much at an open-source level.There are proprietary solutions available for it, but there is no big open-source dataset that can be used to perform experiments and test different approaches.Most of the large datasets available are for countries like China, Brazil, but the model trained on these datasets does not perform well on Indian plates because the font styles and plate designs used vary significantly from country to country.This paper introduces an Indian license plate dataset with 16192 images and 21683 plate plates annotated with 4 points for each plate and each character in the corresponding plate.We present a benchmark model that uses semantic segmentation to solve number plate detection. 我々は,第1段階がプレートのローカライズのための2段階のアプローチを提案し,第2段階がトリミングプレート画像のテキスト読取であり,第2段階はベンチマークオブジェクトの検出とセマンティックセグメンテーションモデル,第2段階はlprnetベースのOCRを用いた。

Indian Licence Plate Detection is a problem that has not been explored much at an open-source level.There are proprietary solutions available for it, but there is no big open-source dataset that can be used to perform experiments and test different approaches.Most of the large datasets available are for countries like China, Brazil, but the model trained on these datasets does not perform well on Indian plates because the font styles and plate designs used vary significantly from country to country.This paper introduces an Indian license plate dataset with 16192 images and 21683 plate plates annotated with 4 points for each plate and each character in the corresponding plate.We present a benchmark model that uses semantic segmentation to solve number plate detection. We propose a two-stage approach in which the first stage is for localizing the plate, and the second stage is to read the text in cropped plate image.We tested benchmark object detection and semantic segmentation model, for the second stage, we used lprnet based OCR.
翻訳日:2021-11-12 21:59:43 公開日:2021-11-11
# (参考訳) 散らばった統計的学習を用いたオンライン買い物客の頻度評価 [全文訳有]

Characterization of Frequent Online Shoppers using Statistical Learning with Sparsity ( http://arxiv.org/abs/2111.06057v1 )

ライセンス: CC BY 4.0
Rajiv Sambasivan, Mark Burgess, J\"org Schad, Arthur Keen, Christopher Woodward, Alexander Geenen, Sachin Sharma(参考訳) 顧客を喜ばせるショッピング体験を開発するには、顧客の嗜好を理解する必要がある。 本研究は,小売分析と統計学習のアイデアを疎結合に組み合わせ,買い物客のオンラインギフトストアへの買い物嗜好を学習する方法を報告する。 ショッピング活動は二部グラフとして表される。 このグラフは、スパーシティに基づく統計学習手法を適用して洗練される。 これらの方法は解釈可能であり、顧客の好みに関する洞察と、ストアへの収益を駆動する製品を明らかにする。

Developing shopping experiences that delight the customer requires businesses to understand customer taste. This work reports a method to learn the shopping preferences of frequent shoppers to an online gift store by combining ideas from retail analytics and statistical learning with sparsity. Shopping activity is represented as a bipartite graph. This graph is refined by applying sparsity-based statistical learning methods. These methods are interpretable and reveal insights about customers' preferences as well as products driving revenue to the store.
翻訳日:2021-11-12 21:51:47 公開日:2021-11-11
# (参考訳) 時系列異常検出によるlevenberg-marquardtオプティマイザのパワー活用 [全文訳有]

Exploiting the Power of Levenberg-Marquardt Optimizer with Anomaly Detection in Time Series ( http://arxiv.org/abs/2111.06060v1 )

ライセンス: CC BY 4.0
Wenyi Wang, John Taylor and Biswajit Bala(参考訳) Levenberg-Marquardt (LM) 最適化アルゴリズムは機械学習の問題を解決するために広く利用されている。 文献レビューでは、ネットワーク内の重み数が数百に満たない場合、lmは中程度の関数近似問題に対して非常に強力で効果的であることが示されている。 対照的に、lmはパターン認識や分類の問題を扱う場合にはあまり効果がなく、ネットワークが大きくなった場合(例えば500ポンド以上)には非効率である。 本稿では,実世界の航空機データセットを用いてlmアルゴリズムの真のパワーを利用する。 これらのデータセットでは、一般的なオプティマイザのほとんどは、航空機エンジンの条件の変化によって生じる異常を検出することができない。 データセットの困難な性質は、時系列データの突然の変更である。 LMオプティマイザは急激な変化を近似し,他のオプティマイザよりも異常を検出する能力が優れていることがわかった。 我々は,この異常/変化検出問題に対するlmと他の最適化器の性能比較を行った。 ネットワークの複雑性(ウェイト数)、適合精度、オーバーフィッティング、トレーニング時間、GPUの使用、メモリ要件など、さまざまな測定値に基づいて、相対的なパフォーマンスを評価する。 また,matlab と tensorflow による lm アルゴリズムの普及促進のための堅牢な lm 実装の問題や,大規模な問題に対する lm オプティマイザ の利用の可能性についても論じる。

The Levenberg-Marquardt (LM) optimization algorithm has been widely used for solving machine learning problems. Literature reviews have shown that the LM can be very powerful and effective on moderate function approximation problems when the number of weights in the network is not more than a couple of hundred. In contrast, the LM does not seem to perform as well when dealing with pattern recognition or classification problems, and inefficient when networks become large (e.g. with more than 500 weights). In this paper, we exploit the true power of LM algorithm using some real world aircraft datasets. On these datasets most other commonly used optimizers are unable to detect the anomalies caused by the changing conditions of the aircraft engine. The challenging nature of the datasets are the abrupt changes in the time series data. We find that the LM optimizer has a much better ability to approximate abrupt changes and detect anomalies than other optimizers. We compare the performance, in addressing this anomaly/change detection problem, of the LM and several other optimizers. We assess the relative performance based on a range of measures including network complexity (i.e. number of weights), fitting accuracy, over fitting, training time, use of GPUs and memory requirement etc. We also discuss the issue of robust LM implementation in MATLAB and Tensorflow for promoting more popular usage of the LM algorithm and potential use of LM optimizer for large-scale problems.
翻訳日:2021-11-12 21:38:50 公開日:2021-11-11
# (参考訳) 数ビットの通信を用いたマルチアームバンディットの解法

Solving Multi-Arm Bandit Using a Few Bits of Communication ( http://arxiv.org/abs/2111.06067v1 )

ライセンス: CC BY 4.0
Osama A. Hanna, Lin F. Yang, Christina Fragouli(参考訳) マルチアームバンディット(multi-armed bandit、mab)問題は、報酬を逐次観察することで、一連のアクションの中で最良のものを選択することを目的とした、アクティブな学習フレームワークである。 近年、通信の制約がボトルネックになる可能性がある無線ネットワーク上の多くのアプリケーションで人気が高まっている。 既存の作業は通常この問題に対処できず、特定のアプリケーションでは実現不可能になる可能性がある。 本稿では,分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。 ほぼ一致した上界と下界を提供することにより,学習者が余計な後悔を伴わずに正確に学習するために必要なビット数を強く特徴付ける。 特に,任意の(非レグリートな)MABアルゴリズム上で適用可能な汎用報酬量子化アルゴリズムQuBanを構築し,同じ後悔境界を保ちながら,イテレーション毎に送信されるビット数(最低3ビット)しか必要としない通信効率の高い新しいアルゴリズムを構築した。 我々の下限は、サブガウス分布からハードインスタンスを構築することによって確立される。 我々の理論は数値実験によってさらに裏付けられている。

The multi-armed bandit (MAB) problem is an active learning framework that aims to select the best among a set of actions by sequentially observing rewards. Recently, it has become popular for a number of applications over wireless networks, where communication constraints can form a bottleneck. Existing works usually fail to address this issue and can become infeasible in certain applications. In this paper we address the communication problem by optimizing the communication of rewards collected by distributed agents. By providing nearly matching upper and lower bounds, we tightly characterize the number of bits needed per reward for the learner to accurately learn without suffering additional regret. In particular, we establish a generic reward quantization algorithm, QuBan, that can be applied on top of any (no-regret) MAB algorithm to form a new communication-effici ent counterpart, that requires only a few (as low as 3) bits to be sent per iteration while preserving the same regret bound. Our lower bound is established via constructing hard instances from a subgaussian distribution. Our theory is further corroborated by numerically experiments.
翻訳日:2021-11-12 21:32:08 公開日:2021-11-11
# (参考訳) Graph Relation Transformer: ペアワイズオブジェクト機能をTransformerアーキテクチャに組み込む [全文訳有]

Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture ( http://arxiv.org/abs/2111.06075v1 )

ライセンス: CC BY 4.0
Michael Yang, Aditya Anantharaman, Zachary Kitowski and Derik Clive Robert(参考訳) VizWizのような以前の研究によると、画像中のテキストを読み、推論できる視覚質問回答(VQA)システムは、視覚障害者を支援するなどのアプリケーション領域で有用である。 TextVQAはこの問題に向けられたVQAデータセットであり、質問には、画像内の視覚オブジェクトやテキストオブジェクトを読み取り、推論するシステムが必要である。 TextVQAの重要な課題は、視覚的オブジェクトとテキストオブジェクトを個別にだけでなく、これらのオブジェクト間の空間的関係についても効果的に推論するシステムの設計である。 これは'エッジ機能'、すなわち各オブジェクト間の関係に関する情報の使用を動機付けている。 現在のTextVQAモデルはこの問題に対処するが、(エッジ特徴ベクトルではなく)関係のカテゴリのみを使用するか、トランスフォーマーアーキテクチャ内でエッジ機能を使用しない。 これらの欠点を克服するために,グラフアテンション計算のためのノード情報に加えてエッジ情報を利用するグラフリレーショナルトランス (GRT) を提案する。 提案手法は,他の最適化を使わずに,val集合では0.65%,テストセットでは0.57%の精度でM4Cベースラインモデルの精度を向上する。 定性的には、GRTはM4Cよりも優れた空間推論能力を有する。

Previous studies such as VizWiz find that Visual Question Answering (VQA) systems that can read and reason about text in images are useful in application areas such as assisting visually-impaired people. TextVQA is a VQA dataset geared towards this problem, where the questions require answering systems to read and reason about visual objects and text objects in images. One key challenge in TextVQA is the design of a system that effectively reasons not only about visual and text objects individually, but also about the spatial relationships between these objects. This motivates the use of 'edge features', that is, information about the relationship between each pair of objects. Some current TextVQA models address this problem but either only use categories of relations (rather than edge feature vectors) or do not use edge features within the Transformer architectures. In order to overcome these shortcomings, we propose a Graph Relation Transformer (GRT), which uses edge information in addition to node information for graph attention computation in the Transformer. We find that, without using any other optimizations, the proposed GRT method outperforms the accuracy of the M4C baseline model by 0.65% on the val set and 0.57% on the test set. Qualitatively, we observe that the GRT has superior spatial reasoning ability to M4C.
翻訳日:2021-11-12 21:30:59 公開日:2021-11-11
# (参考訳) ディープラーニングを用いたきめ細かい画像解析:サーベイ [全文訳有]

Fine-Grained Image Analysis with Deep Learning: A Survey ( http://arxiv.org/abs/2111.06119v1 )

ライセンス: CC BY 4.0
Xiu-Shen Wei and Yi-Zhe Song and Oisin Mac Aodha and Jianxin Wu and Yuxin Peng and Jinhui Tang and Jian Yang and Serge Belongie(参考訳) 細粒度画像解析(FGIA)は、コンピュータビジョンとパターン認識における長年の基本的な問題であり、様々な現実世界の応用の基盤となっている。 fgiaの目標は、鳥の種類や車のモデルなど、下位のカテゴリから視覚オブジェクトを分析することである。 細粒度画像解析に固有の小クラス間および大クラス内変動は課題となっている。 近年、深層学習の進歩に乗じて、深層学習によるFGIAの顕著な進歩を目の当たりにしてきた。 本稿では,これらの進歩を体系的に調査し,精細画像認識と細粒画像検索という2つの基礎的研究領域を統合し,fgiaの分野を再定義し,広めることを試みる。 さらに、FGIAの他の重要な問題、例えば、公開ベンチマークデータセットや関連するドメイン固有のアプリケーションについてもレビューする。 結論として,研究の方向性と,コミュニティからのさらなる探索を必要とするオープンな問題を強調する。

Fine-grained image analysis (FGIA) is a longstanding and fundamental problem in computer vision and pattern recognition, and underpins a diverse set of real-world applications. The task of FGIA targets analyzing visual objects from subordinate categories, e.g., species of birds or models of cars. The small inter-class and large intra-class variation inherent to fine-grained image analysis makes it a challenging problem. Capitalizing on advances in deep learning, in recent years we have witnessed remarkable progress in deep learning powered FGIA. In this paper we present a systematic survey of these advances, where we attempt to re-define and broaden the field of FGIA by consolidating two fundamental fine-grained research areas -- fine-grained image recognition and fine-grained image retrieval. In addition, we also review other key issues of FGIA, such as publicly available benchmark datasets and related domain-specific applications. We conclude by highlighting several research directions and open problems which need further exploration from the community.
翻訳日:2021-11-12 21:17:42 公開日:2021-11-11
# (参考訳) 近隣住民の再建による新規性検出の改善 [全文訳有]

Improving Novelty Detection using the Reconstructions of Nearest Neighbours ( http://arxiv.org/abs/2111.06150v1 )

ライセンス: CC BY 4.0
Michael Mesarcik, Elena Ranguelova, Albert-Jan Boonstra and Rob V. van Nieuwpoort(参考訳) 自動エンコーダ (AE) の潜伏空間に近接する近傍を使用すれば, 単クラス・複数クラスの文脈において, 半教師付きノベルティ検出の性能が著しく向上することを示す。 オートエンコーディング手法は、非ノーベルトレーニングクラス(es)と他の見えないクラスを区別する学習によって新規性を検出する。 提案手法は, 最寄りの近傍の復元と, 入力の潜在表現の潜在-近距離を組み合わせたものである。 我々は,NLNアルゴリズムがメモリと時間効率が高く,有意なデータ拡張が不要であり,事前学習ネットワークに依存しないことを示す。 さらに,NLN-アルゴリズムは修正することなく,複数のデータセットに容易に適用可能であることを示す。 さらに,提案アルゴリズムは自動エンコーダアーキテクチャや再構成誤差法に非依存である。 我々は,バニラ,逆数,変分オートエンコーダなどの様々な自動エンコードアーキテクチャに対して,再構成,残差,特徴的損失のいずれかを用いて,複数の標準データセットで検証を行った。 その結果、nlnアルゴリズムは、マルチクラスケースの受信機動作特性(auroc)曲線性能下での面積を最大17%増加させ、シングルクラスのノベルティ検出では8%増加させることがわかった。

We show that using nearest neighbours in the latent space of autoencoders (AE) significantly improves performance of semi-supervised novelty detection in both single and multi-class contexts. Autoencoding methods detect novelty by learning to differentiate between the non-novel training class(es) and all other unseen classes. Our method harnesses a combination of the reconstructions of the nearest neighbours and the latent-neighbour distances of a given input's latent representation. We demonstrate that our nearest-latent-neigh bours (NLN) algorithm is memory and time efficient, does not require significant data augmentation, nor is reliant on pre-trained networks. Furthermore, we show that the NLN-algorithm is easily applicable to multiple datasets without modification. Additionally, the proposed algorithm is agnostic to autoencoder architecture and reconstruction error method. We validate our method across several standard datasets for a variety of different autoencoding architectures such as vanilla, adversarial and variational autoencoders using either reconstruction, residual or feature consistent losses. The results show that the NLN algorithm grants up to a 17% increase in Area Under the Receiver Operating Characteristics (AUROC) curve performance for the multi-class case and 8% for single-class novelty detection.
翻訳日:2021-11-12 20:22:22 公開日:2021-11-11
# (参考訳) ストックウェル・トランスフォーメーションと深部畳み込みニューラルネットワークに基づく建物構造物の劣化・損傷同定の新しい手法 [全文訳有]

A Novel Approach for Deterioration and Damage Identification in Building Structures Based on Stockwell-Transform and Deep Convolutional Neural Network ( http://arxiv.org/abs/2111.06155v1 )

ライセンス: CC BY 4.0
Vahid Reza Gharehbaghi, Hashem Kalbkhani, Ehsan Noroozinejad Farsangi, T.Y. Yang, Andy Nguyene, Seyedali Mirjalili, C. M\'alaga-Chuquitaype(参考訳) 本稿では,新しい劣化・損傷識別手法(DIP)を提案し,建築モデルに適用する。 これらの構造に対する応用に関する課題は、応答の強い相関関係に関連しており、高レベルのノイズを持つ実環境振動に対処する際にはさらに複雑になる。 これにより、低コストの環境振動を利用してストックウェル変換(st)を用いて加速度応答を分析し、スペクトログラムを生成するディップを設計することができる。 その後、ST出力は、建物モデルの劣化と損傷を特定するために確立された2種類の畳み込みニューラルネットワーク(CNN)の入力となる。 我々の知る限りでは、STとCNNの組み合わせによる建物モデルにおける損傷と劣化の両方を高精度に評価するのは今回が初めてである。

In this paper, a novel deterioration and damage identification procedure (DIP) is presented and applied to building models. The challenge associated with applications on these types of structures is related to the strong correlation of responses, which gets further complicated when coping with real ambient vibrations with high levels of noise. Thus, a DIP is designed utilizing low-cost ambient vibrations to analyze the acceleration responses using the Stockwell transform (ST) to generate spectrograms. Subsequently, the ST outputs become the input of two series of Convolutional Neural Networks (CNNs) established for identifying deterioration and damage to the building models. To the best of our knowledge, this is the first time that both damage and deterioration are evaluated on building models through a combination of ST and CNN with high accuracy.
翻訳日:2021-11-12 20:07:24 公開日:2021-11-11
# (参考訳) ネットワークにおけるモビリティの理解:ノード埋め込みアプローチ [全文訳有]

Understanding mobility in networks: A node embedding approach ( http://arxiv.org/abs/2111.06161v1 )

ライセンス: CC BY 4.0
Matheus F. C. Barros, Carlos H. G. Ferreira, Bruno Pereira dos Santos, Louren\c{c}o A. P. J\'unior, Marco Mellia, Jussara M. Almeida(参考訳) メッセージの接続や交換が可能なモバイルデバイスが増えている中で,ネットワーク内のノード移動をモデル化し,分析することを目的とした手法を提案する。 文献における既存のソリューションの多くは、ノードの接触グラフを直接計算したトポロジカルな測定に依存しており、ネットワークのプロトタイピング、設計、配置に有用な接続性とモビリティパターンの観点からノードの重要性を捉えることを目的としている。 しかしながら、各測度はその特異性を持ち、最終的に時間とともに変化するノードの重要性の概念を一般化することができない。 従来のアプローチとは異なり,本手法は,モビリティとコネクティビティパターンにおけるノードの重要性をモデル化し,公開するノード埋め込み手法に基づいている。 グループミーティングの痕跡に基づくケーススタディに注目した。 提案手法は,モバイルネットワークにおける様々なアプリケーションやサービスに有用な,さまざまなモビリティや接続パターンを抽出するためのリッチな表現を提供する。

Motivated by the growing number of mobile devices capable of connecting and exchanging messages, we propose a methodology aiming to model and analyze node mobility in networks. We note that many existing solutions in the literature rely on topological measurements calculated directly on the graph of node contacts, aiming to capture the notion of the node's importance in terms of connectivity and mobility patterns beneficial for prototyping, design, and deployment of mobile networks. However, each measure has its specificity and fails to generalize the node importance notions that ultimately change over time. Unlike previous approaches, our methodology is based on a node embedding method that models and unveils the nodes' importance in mobility and connectivity patterns while preserving their spatial and temporal characteristics. We focus on a case study based on a trace of group meetings. The results show that our methodology provides a rich representation for extracting different mobility and connectivity patterns, which can be helpful for various applications and services in mobile networks.
翻訳日:2021-11-12 19:56:54 公開日:2021-11-11
# (参考訳) モーメントを用いた確率的近位点アルゴリズムの収束と安定性 [全文訳有]

Convergence and Stability of the Stochastic Proximal Point Algorithm with Momentum ( http://arxiv.org/abs/2111.06171v1 )

ライセンス: CC BY 4.0
Junhyung Lyle Kim, Panos Toulis, Anastasios Kyrillidis(参考訳) 運動量による確率勾配降下(SGDM)は、凸最適化インスタンスや非凸ニューラルネットワークトレーニングを含む多くの最適化シナリオにおいて支配的なアルゴリズムである。 しかし、確率的な設定では、運動量は勾配ノイズに干渉し、しばしば収束を保証するために特定のステップサイズと運動量選択に繋がる。 一方, 近位点法では, 不完全調律に対する数値的安定性と弾力性が注目されている。 モーメントが(確率的な)近位点法の安定性とどのように相互作用するかはほとんど研究されていない。 そこで本研究では,運動量を伴う確率的近位点アルゴリズム(SPPAM)の収束と安定性に着目し,SPPAMが適切なハイパーパラメータチューニングの下で,より優れた収縮係数を持つ確率的近位点アルゴリズム(SPPA)と比較して,より高速な線形収束率を実現することを示す。 安定性の観点からは、SPPAMはSGDMよりも問題定数に依存しており、より広いステップサイズと運動量で収束することを示す。

Stochastic gradient descent with momentum (SGDM) is the dominant algorithm in many optimization scenarios, including convex optimization instances and non-convex neural network training. Yet, in the stochastic setting, momentum interferes with gradient noise, often leading to specific step size and momentum choices in order to guarantee convergence, set aside acceleration. Proximal point methods, on the other hand, have gained much attention due to their numerical stability and elasticity against imperfect tuning. Their stochastic accelerated variants though have received limited attention: how momentum interacts with the stability of (stochastic) proximal point methods remains largely unstudied. To address this, we focus on the convergence and stability of the stochastic proximal point algorithm with momentum (SPPAM), and show that SPPAM allows a faster linear convergence rate compared to stochastic proximal point algorithm (SPPA) with a better contraction factor, under proper hyperparameter tuning. In terms of stability, we show that SPPAM depends on problem constants more favorably than SGDM, allowing a wider range of step size and momentum that lead to convergence.
翻訳日:2021-11-12 19:45:10 公開日:2021-11-11
# (参考訳) 人工心電図を用いたニューラルネットワークの訓練 [全文訳有]

Training neural networks with synthetic electrocardiograms ( http://arxiv.org/abs/2111.06175v1 )

ライセンス: CC BY 4.0
Matti Kaisti, Juho Laitala, Antti Airola(参考訳) 本稿では,ウェアラブル・シングルリード心電図モニタによる信号を模倣した合成心電図を用いたニューラルネットワークのトレーニング手法を提案する。 学習例ごとに波形形状,rr-intervals,ノイズなどの合成信号特性が変化する領域ランダム化を用いる。 合成データで訓練されたモデルは、実際のデータで訓練されたモデルと比較される。 異なる身体活動中に記録された心電図と心房細動におけるr波の検出は、モデルを比較するために用いられる。 ランダム化を現実世界のデータで通常観測される以上のものにすることで、パフォーマンスは実データで訓練されたネットワークのパフォーマンスと同等か、または同等かに向上する。 実験では、異なるシードを持つロバストなパフォーマンスと、テストセットを特定のチューニングなしで異なるテストセットでトレーニングサンプルを示す。 この方法は、手動の注釈を必要とせずに、事実上自由に収集できるデータと正確なラベルを用いてニューラルネットワークを訓練することを可能にし、心電図生成に病特異的な事前情報を使用する場合に、心臓疾患分類における合成データの使用を拡大する可能性を開く。 さらに、データ分布は、健康関連データで通常観察されるクラス不均衡を排除し、さらに生成されたデータは本質的にプライベートである。

We present a method for training neural networks with synthetic electrocardiograms that mimic signals produced by a wearable single lead electrocardiogram monitor. We use domain randomization where the synthetic signal properties such as the waveform shape, RR-intervals and noise are varied for every training example. Models trained with synthetic data are compared to their counterparts trained with real data. Detection of r-waves in electrocardiograms recorded during different physical activities and in atrial fibrillation is used to compare the models. By allowing the randomization to increase beyond what is typically observed in the real-world data the performance is on par or superseding the performance of networks trained with real data. Experiments show robust performance with different seeds and training examples on different test sets without any test set specific tuning. The method makes possible to train neural networks using practically free-to-collect data with accurate labels without the need for manual annotations and it opens up the possibility of extending the use of synthetic data on cardiac disease classification when disease specific a priori information is used in the electrocardiogram generation. Additionally the distribution of data can be controlled eliminating class imbalances that are typically observed in health related data and additionally the generated data is inherently private.
翻訳日:2021-11-12 19:17:29 公開日:2021-11-11
# (参考訳) 自然言語理解におけるマインドリードの実践的記述 [全文訳有]

An Enactivist account of Mind Reading in Natural Language Understanding ( http://arxiv.org/abs/2111.06179v1 )

ライセンス: CC BY-SA 4.0
Peter Wallis and Bruce Edmonds(参考訳) 本稿では,古典的AI問題に対する急進的行動主義的課題の理解を応用する。 自然言語理解はAI研究のサブフィールドであり、先駆者には簡単に見えました。 このようにチューリングテストは、コンピュータが言語を使えると仮定し、その課題は人間の知性を偽造することであった。 チェスや形式論理は必要な言語スキルに比べれば容易であることが判明した。 優れた古き良きAI(GOFAI)のテクニックは、象徴的表現が推論のコアであり、人間のコミュニケーションは、ある心から別の心へ表現を移すことから成り立っている。 しかし、このモデルにより、表現は中間言語に現れることなく、他者の心に現れることが分かる。 人々はそれを心から読んでコミュニケーションします。 AlexaやSiriのような音声インターフェイスを持つシステムは、もちろん一般的だが、制限されている。 マインドリーディングスキルを追加するのではなく、システムに偽造を可能にする“チート”を導入しました。 この不正行為は単純で、コンピュータ科学者にはわずかにしか興味がなく、哲学者には全然興味がない。 しかし、他人の意図を「直接知覚する」という実践主義的な考えについて、私たちの浮気は新しい光を浴び、この論文では、自然言語の理解が人間の間でどのように機能するかを再検討する。

In this paper we apply our understanding of the radical enactivist agenda to a classic AI-hard problem. Natural Language Understanding is a sub-field of AI research that looked easy to the pioneers. Thus the Turing Test, in its original form, assumed that the computer could use language and the challenge was to fake human intelligence. It turned out that playing chess and formal logic were easy compared to the necessary language skills. The techniques of good old-fashioned AI (GOFAI) assume symbolic representation is the core of reasoning and human communication consisted of transferring representations from one mind to another. But by this model one finds that representations appear in another's mind, without appearing in the intermediary language. People communicate by mind reading it seems. Systems with speech interfaces such as Alexa and Siri are of course common but they are limited. Rather than adding mind reading skills, we introduced a "cheat" that enabled our systems to fake it. The cheat is simple and only slightly interesting to computer scientists and not at all interesting to philosophers. However, reading about the enactivist idea that we "directly perceive" the intentions of others, our cheat took on a new light and in this paper look again at how natural language understanding might actually work between humans.
翻訳日:2021-11-12 18:57:58 公開日:2021-11-11
# (参考訳) Virtual Adversarial Training を用いた多言語・多言語感情認識 [全文訳有]

Multilingual and Multilabel Emotion Recognition using Virtual Adversarial Training ( http://arxiv.org/abs/2111.06181v1 )

ライセンス: CC BY 4.0
Vikram Gupta(参考訳) VAT(Virtual Adversarial Training)は、コンピュータビジョンとNLPタスクの両方の教師付きおよび半教師付き設定の下で堅牢なモデルを学ぶのに有効である。 しかし,多言語・多音節のテキスト分類におけるvatの有効性はこれまでに検討されていない。 本研究では、異なる言語からの未ラベルデータを活用してモデル性能を向上させるマルチラベル感情認識のためのVATについて検討する。 我々はSemEval2018マルチラベルと多言語感情認識データセットに関する広範な半教師付き実験を行い、同じラベル付きデータ(トレーニングデータの10%)による教師付き学習よりも6.2%(アラビア語)、3.8%(スペイン語)、1.8%(英語)のパフォーマンス向上を示した。 また,既存の現状をスペイン語,アラビア語,英語でそれぞれ7%,4.5%,1%(ジャカード指数)で改善し,文脈モデルの異なる層の影響を理解するための探索実験を行った。

Virtual Adversarial Training (VAT) has been effective in learning robust models under supervised and semi-supervised settings for both computer vision and NLP tasks. However, the efficacy of VAT for multilingual and multilabel text classification has not been explored before. In this work, we explore VAT for multilabel emotion recognition with a focus on leveraging unlabelled data from different languages to improve the model performance. We perform extensive semi-supervised experiments on SemEval2018 multilabel and multilingual emotion recognition dataset and show performance gains of 6.2% (Arabic), 3.8% (Spanish) and 1.8% (English) over supervised learning with same amount of labelled data (10% of training data). We also improve the existing state-of-the-art by 7%, 4.5% and 1% (Jaccard Index) for Spanish, Arabic and English respectively and perform probing experiments for understanding the impact of different layers of the contextual models.
翻訳日:2021-11-12 18:43:44 公開日:2021-11-11
# (参考訳) Setswana と Sepedi の言語間埋め込みの訓練 [全文訳有]

Training Cross-Lingual embeddings for Setswana and Sepedi ( http://arxiv.org/abs/2111.06230v1 )

ライセンス: CC BY 4.0
Mack Makgatho, Vukosi Marivate, Tshephisho Sefara, Valencia Wagner(参考訳) アフリカの言語は、自然言語処理技術の進歩にまだ遅れている。1つの理由は、代表データがないため、言語間で情報を転送できる技術は、データの問題の欠如を緩和するのに役立ちます。 本稿では,Setswana と Sepedi の単言語語ベクトルを学習し,VecMap を用いてセツワナ・セペディの言語間埋め込みを作成し,言語間移動を行う。 単語埋め込みは単語を連続浮動小数点として表現するワードベクトルであり、n次元空間の近傍の点に意味的に類似した単語がマッピングされる。 単語埋め込みの概念は、意味的に類似した単語が類似した文脈で分布するという分布仮説に基づいている(harris, 1954)。 言語間埋め込みは、類似した意味を持つ単語が類似したベクトルで表されるように、個別に訓練された2つの単言語ベクトルに対して共有ベクトル空間を学習することにより、単言語埋め込みを利用する。 本稿では,Setswana-Sepedi単言語単語ベクトルの言語間埋め込みについて検討する。 教師なしの言語間埋め込みをVecMapで使用し、セツワナ・セペディ語間の単語埋め込みを訓練する。 意味的評価タスクを用いてセツワナ・セペディ語間単語表現の品質を評価する。 意味的類似性タスクについては,WordSim と SimLex のタスクを Setswana と Sepedi に翻訳した。 他の研究者のためにこの研究の一環として、このデータセットをリリースします。 単語埋め込みのセマンティック表現に改善があるかどうかを判断するために,埋め込みの固有の品質を評価する。

African languages still lag in the advances of Natural Language Processing techniques, one reason being the lack of representative data, having a technique that can transfer information between languages can help mitigate against the lack of data problem. This paper trains Setswana and Sepedi monolingual word vectors and uses VecMap to create cross-lingual embeddings for Setswana-Sepedi in order to do a cross-lingual transfer. Word embeddings are word vectors that represent words as continuous floating numbers where semantically similar words are mapped to nearby points in n-dimensional space. The idea of word embeddings is based on the distribution hypothesis that states, semantically similar words are distributed in similar contexts (Harris, 1954). Cross-lingual embeddings leverages monolingual embeddings by learning a shared vector space for two separately trained monolingual vectors such that words with similar meaning are represented by similar vectors. In this paper, we investigate cross-lingual embeddings for Setswana-Sepedi monolingual word vector. We use the unsupervised cross lingual embeddings in VecMap to train the Setswana-Sepedi cross-language word embeddings. We evaluate the quality of the Setswana-Sepedi cross-lingual word representation using a semantic evaluation task. For the semantic similarity task, we translated the WordSim and SimLex tasks into Setswana and Sepedi. We release this dataset as part of this work for other researchers. We evaluate the intrinsic quality of the embeddings to determine if there is improvement in the semantic representation of the word embeddings.
翻訳日:2021-11-12 18:29:08 公開日:2021-11-11
# (参考訳) リカレント畳み込みネットワークによる短期気象予測の改善 [全文訳有]

Improvements to short-term weather prediction with recurrent-convolutio nal networks ( http://arxiv.org/abs/2111.06240v1 )

ライセンス: CC BY 4.0
Jussi Leinonen(参考訳) weather4cast 2021コンペティションでは、参加者は衛星ベースの気象データの2次元フィールドの時間発展を予測するタスクを与えられた。 本稿は,第1段階において最初の成功をおさめた後,第2段階においてモデルをさらに改善するための著者の努力について述べる。 改良は、より深いバージョンと競争力のある浅いモデル変種、adabeliefオプティマイザの採用、トレーニングセットが検証セットをうまく表現していないことが判明した予測変数の処理の改善、結果を改善するために複数のモデルをセンセンシングした。 競技の指標に対する最大の量的改善は、競技の第2段階で利用可能なトレーニングデータの量の増加と、モデルアンサンブルの影響によるものである。 定性的な結果は、モデルがフィールドの経時的動きを含むフィールドの時間的進化を予測できることを示しており、これは近未来の鋭い予測から始まり、不確実性の増加を考慮した後のフレームの出力のぼやけから始まっている。

The Weather4cast 2021 competition gave the participants a task of predicting the time evolution of two-dimensional fields of satellite-based meteorological data. This paper describes the author's efforts, after initial success in the first stage of the competition, to improve the model further in the second stage. The improvements consisted of a shallower model variant that is competitive against the deeper version, adoption of the AdaBelief optimizer, improved handling of one of the predicted variables where the training set was found not to represent the validation set well, and ensembling multiple models to improve the results further. The largest quantitative improvements to the competition metrics can be attributed to the increased amount of training data available in the second stage of the competition, followed by the effects of model ensembling. Qualitative results show that the model can predict the time evolution of the fields, including the motion of the fields over time, starting with sharp predictions for the immediate future and blurring of the outputs in later frames to account for the increased uncertainty.
翻訳日:2021-11-12 18:11:22 公開日:2021-11-11
# (参考訳) 高速高精度物体把握のためのディープラーニングと3次元視覚技術を組み合わせた6次元ポーズ推定

6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques for a Fast and Accurate Object Grasping ( http://arxiv.org/abs/2111.06276v1 )

ライセンス: CC BY 4.0
Tuan-Tang Le, Trung-Son Le, Yu-Ru Chen, Joel Vidal, Chyi-Yeu Lin(参考訳) その後の正確な操作タスクをサポートするリアルタイムロボット把持は、高度に高度な自律システムへの優先目標である。 しかし、時間効率で十分に正確に把握できるようなアルゴリズムはまだ見つからない。 本稿では,深層ニューラルネットワークを用いた高速な2次元物体認識と,それに続く高精度かつ高速な6次元ポーズ推定とを組み合わせて,リアルタイムな3次元物体認識・把握ソリューションを構築する手法を提案する。 提案するソリューションは、リアルタイムアプリケーションで堅牢に動作し、効率と精度の両方を必要とする可能性がある。 提案手法を検証するため,我々のデータセットの精巧な作成を含む広範囲かつ徹底的な実験を行った。 実験の結果,提案手法の精度は5cm5degで97.37%,平均距離で99.37%であった。 実験の結果, 提案手法を用いて, 62%の相対的改善(5cm5deg)と52.48%(平均距離)が得られた。 また、ポーズ推定実行では、実行時間の平均が47.6%向上した。 最後に、リアルタイム操作におけるシステム全体の効率を示すために、ピック・アンド・プレースロボット実験を行い、90%の精度で説得力のある成功率を示した。 この実験ビデオはhttps://sites.google .com/view/dl-ppf6dpo se/で見ることができる。

Real-time robotic grasping, supporting a subsequent precise object-in-hand operation task, is a priority target towards highly advanced autonomous systems. However, such an algorithm which can perform sufficiently-accurat e grasping with time efficiency is yet to be found. This paper proposes a novel method with a 2-stage approach that combines a fast 2D object recognition using a deep neural network and a subsequent accurate and fast 6D pose estimation based on Point Pair Feature framework to form a real-time 3D object recognition and grasping solution capable of multi-object class scenes. The proposed solution has a potential to perform robustly on real-time applications, requiring both efficiency and accuracy. In order to validate our method, we conducted extensive and thorough experiments involving laborious preparation of our own dataset. The experiment results show that the proposed method scores 97.37% accuracy in 5cm5deg metric and 99.37% in Average Distance metric. Experiment results have shown an overall 62% relative improvement (5cm5deg metric) and 52.48% (Average Distance metric) by using the proposed method. Moreover, the pose estimation execution also showed an average improvement of 47.6% in running time. Finally, to illustrate the overall efficiency of the system in real-time operations, a pick-and-place robotic experiment is conducted and has shown a convincing success rate with 90% of accuracy. This experiment video is available at https://sites.google .com/view/dl-ppf6dpo se/.
翻訳日:2021-11-12 18:01:11 公開日:2021-11-11
# (参考訳) 画像品質評価に関する関連研究 [全文訳有]

Related Work on Image Quality Assessment ( http://arxiv.org/abs/2111.06291v1 )

ライセンス: CC BY 4.0
Dongxu Wang(参考訳) 視覚信号取得、圧縮、伝送、表示の様々な段階で導入される品質劣化が存在するため、画像ベースのアプリケーションでは画質評価(iqa)が重要な役割を果たす。 参照画像が完全で利用可能かどうかに応じて、画像品質評価は、Full-Reference(FR)、ReduceedReference(RR )、Non-Reference(NR)の3つのカテゴリに分けられる。 本稿では,最新の画像品質評価アルゴリズムについて概説する。

Due to the existence of quality degradations introduced in various stages of visual signal acquisition, compression, transmission and display, image quality assessment (IQA) plays a vital role in image-based applications. According to whether the reference image is complete and available, image quality evaluation can be divided into three categories: Full-Reference(FR), Reduced- Reference(RR), and Non- Reference(NR). This article will review the state-of-the-art image quality assessment algorithms.
翻訳日:2021-11-12 17:59:58 公開日:2021-11-11
# (参考訳) 車両内の携帯電話ユーザの位置を自動的に識別する [全文訳有]

Automatically identifying a mobile phone user's position within a vehicle ( http://arxiv.org/abs/2111.06306v1 )

ライセンス: CC BY 4.0
Matt Knutson, Kevin Kramer, Sara Seifert, Ryan Chamberlain(参考訳) 交通事故や死亡事故はアメリカ合衆国の主要な健康リスクである。 運転中の携帯電話の使用は、自動車事故のリスクを4倍にする。 本研究は,携帯電話カメラを用いて車両内の携帯電話ユーザの位置を受動的に検出することの実現可能性を示す。 大きくて多様なデータセットでは、ユーザーが運転席にいるか、94.9%の精度で乗客席にいるかを正確に特定することができた。 このモデルは、ユーザが運転中に機能を選択的に変更またはロックするために、アプリケーション開発者が使用することができる。

Traffic-related injuries and fatalities are major health risks in the United States. Mobile phone use while driving quadruples the risk for a motor vehicle crash. This work demonstrates the feasibility of using the mobile phone camera to passively detect the location of the phone's user within a vehicle. In a large, varied dataset we were able correctly identify if the user was in the driver's seat or one of the passenger seats with 94.9% accuracy. This model could be used by application developers to selectively change or lock functionality while a user is driving, but not if the user is a passenger in a moving vehicle.
翻訳日:2021-11-12 17:46:24 公開日:2021-11-11
# (参考訳) グラフ表現学習のためのインプシットSVD [全文訳有]

Implicit SVD for Graph Representation Learning ( http://arxiv.org/abs/2111.06312v1 )

ライセンス: CC BY 4.0
Sami Abu-El-Haija, Hesham Mostafa, Marcel Nassar, Valentino Crespi, Greg Ver Steeg, Aram Galstyan(参考訳) 最近のグラフ表現学習(grl)のための最先端(sota)手法の性能改善は、トレーニングのための重要な計算リソース要件(例えば、多くのデータ時代におけるバックプロップによる勾配計算など)のコストがかかっている。 一方、特異値分解(SVD)は、ほんの一握りのエポックを用いて、凸問題に対する閉形式解を見つけることができる。 本稿では,モデムハードウェアのユーザに対して,GRLをより計算処理しやすいものにする。 我々は,定義行列のSVDを計算するフレームワークを設計し,このフレームワークを複数のGRLタスクに適用する。 各タスクに対して、SOTAモデルの線形近似を導出します。そこでは、$\mathbf{M}$のエントリを計算せずに、$\mathbf{M}$のSVDを介して、行列 $\mathbf{M}$を設計し、クローズドフォームでモデルを訓練します。 1ステップで一意な点に収束し、勾配を計算せずに、論文引用や生体相互作用ネットワークといった様々なグラフ上での競争力のある経験的テスト性能を示す。 さらに重要なことは、SVDはより深いモデルの初期化が可能であり、ほとんどどこでも非線形に設計されているが、パラメータが超平面上に置かれ、SVDが初期化すると線形に振る舞う。 さらに深いモデルは、わずか数エポックで微調整できる。 提案手法は,実証試験性能と競合しながら,最先端の手法よりも数百倍速く訓練する。 私たちは実装をhttps://github.com/s amihaija/isvdでオープンソース化しました。

Recent improvements in the performance of state-of-the-art (SOTA) methods for Graph Representational Learning (GRL) have come at the cost of significant computational resource requirements for training, e.g., for calculating gradients via backprop over many data epochs. Meanwhile, Singular Value Decomposition (SVD) can find closed-form solutions to convex problems, using merely a handful of epochs. In this paper, we make GRL more computationally tractable for those with modest hardware. We design a framework that computes SVD of \textit{implicitly} defined matrices, and apply this framework to several GRL tasks. For each task, we derive linear approximation of a SOTA model, where we design (expensive-to-store) matrix $\mathbf{M}$ and train the model, in closed-form, via SVD of $\mathbf{M}$, without calculating entries of $\mathbf{M}$. By converging to a unique point in one step, and without calculating gradients, our models show competitive empirical test performance over various graphs such as article citation and biological interaction networks. More importantly, SVD can initialize a deeper model, that is architected to be non-linear almost everywhere, though behaves linearly when its parameters reside on a hyperplane, onto which SVD initializes. The deeper model can then be fine-tuned within only a few epochs. Overall, our procedure trains hundreds of times faster than state-of-the-art methods, while competing on empirical test performance. We open-source our implementation at: https://github.com/s amihaija/isvd
翻訳日:2021-11-12 17:41:19 公開日:2021-11-11
# (参考訳) 混合交通における連結車両と自律車両の協調車線変更のためのマルチエージェント強化学習 [全文訳有]

Multi-agent Reinforcement Learning for Cooperative Lane Changing of Connected and Autonomous Vehicles in Mixed Traffic ( http://arxiv.org/abs/2111.06318v1 )

ライセンス: CC BY 4.0
Wei Zhou, Dong Chen, Jun Yan, Zhaojian Li, Huilin Yin, Wanchen Ge(参考訳) 自動運転は過去20年で大きな研究関心を集めており、運転者の運転不足や交通渋滞の緩和など、多くの潜在的な利益を提供している。 将来性はあるものの、車線変更は自動運転車(AV)にとって大きな課題であり、特に混合および動的交通シナリオにおいてである。 近年,データ駆動型強力な制御手法である強化学習 (RL) が, AV の車線変更意思決定のために広く研究されている。 しかし、これらの研究の大半は単車種に焦点を合わせており、人間駆動車(HDV)と共存する複数のAVの文脈での車線変更は、ほとんど注目されていない。 本稿では,混在高速道路環境における複数のAVの車線変更決定をマルチエージェント強化学習(MARL)問題として定式化し,各AVが隣接するAVとHDVの両方の動きに基づいて車線変更決定を行う。 具体的には,新しい局所報酬設計とパラメータ共有方式を用いて,マルチエージェント・アドバンテージ・アクタ-クリティックネットワーク(ma2c)を開発した。 特に, 燃料効率, 運転快適性, 自律運転の安全性を考慮した多目的報酬関数を提案する。 3つの異なる交通密度と様々なレベルの人間ドライバー攻撃性の下で実施した総合的な実験結果から,提案手法は,効率,安全性,快適性において,最先端のベンチマークを一貫して上回っていることが示された。

Autonomous driving has attracted significant research interests in the past two decades as it offers many potential benefits, including releasing drivers from exhausting driving and mitigating traffic congestion, among others. Despite promising progress, lane-changing remains a great challenge for autonomous vehicles (AV), especially in mixed and dynamic traffic scenarios. Recently, reinforcement learning (RL), a powerful data-driven control method, has been widely explored for lane-changing decision makings in AVs with encouraging results demonstrated. However, the majority of those studies are focused on a single-vehicle setting, and lane-changing in the context of multiple AVs coexisting with human-driven vehicles (HDVs) have received scarce attention. In this paper, we formulate the lane-changing decision making of multiple AVs in a mixed-traffic highway environment as a multi-agent reinforcement learning (MARL) problem, where each AV makes lane-changing decisions based on the motions of both neighboring AVs and HDVs. Specifically, a multi-agent advantage actor-critic network (MA2C) is developed with a novel local reward design and a parameter sharing scheme. In particular, a multi-objective reward function is proposed to incorporate fuel efficiency, driving comfort, and safety of autonomous driving. Comprehensive experimental results, conducted under three different traffic densities and various levels of human driver aggressiveness, show that our proposed MARL framework consistently outperforms several state-of-the-art benchmarks in terms of efficiency, safety and driver comfort.
翻訳日:2021-11-12 17:12:26 公開日:2021-11-11
# (参考訳) 定常ステップによるsgd型アルゴリズムの定常挙動:漸近的特徴付け [全文訳有]

Stationary Behavior of Constant Stepsize SGD Type Algorithms: An Asymptotic Characterization ( http://arxiv.org/abs/2111.06328v1 )

ライセンス: CC BY 4.0
Zaiwei Chen, Shancong Mou, and Siva Theja Maguluri(参考訳) 確率近似 (SA) と確率勾配降下 (SGD) アルゴリズムは、現代の機械学習アルゴリズムのワークホースである。 それらの定常段階的変種は、高速収束挙動のために実際に好まれる。 しかし、定数ステップ確率反復アルゴリズムは漸近的に最適解に収束するのではなく、解析的に特徴づけられない定常分布を持つ。 本研究では, 定段化が0になる極限において, 適度にスケールされた定常分布の漸近的挙動について検討する。 具体的には,(1)滑らかで凸度の高いSGDアルゴリズム,(2)Hurwitz行列を含む線形SAアルゴリズム,(3)契約演算子を含む非線形SAアルゴリズムの3つの設定を考える。 反復が 1/\sqrt{\alpha}$ でスケールすると、$\alpha$ は定数ステップサイズであり、制限されたスケールされた定常分布は積分方程式の解であることを示す。 この方程式上の一意性仮定(特定の設定で除去できる)の下で、この極限分布を、共分散行列が適切なリャプノフ方程式の唯一の解であるガウス分布として特徴づける。 これらの場合を超えるsaアルゴリズムについて、我々の数値実験は中央極限定理の型と異なり、(1)スケーリング係数は 1/\sqrt{\alpha}$ でなければならず、(2) 制限分布はガウス分布である必要はないことを示唆している。 数値的な研究に基づいて、正しいスケーリング係数を決定する公式を考案し、確率微分方程式を近似するオイラー・丸山離散化スキームに洞察力のある接続を行う。

Stochastic approximation (SA) and stochastic gradient descent (SGD) algorithms are work-horses for modern machine learning algorithms. Their constant stepsize variants are preferred in practice due to fast convergence behavior. However, constant step stochastic iterative algorithms do not converge asymptotically to the optimal solution, but instead have a stationary distribution, which in general cannot be analytically characterized. In this work, we study the asymptotic behavior of the appropriately scaled stationary distribution, in the limit when the constant stepsize goes to zero. Specifically, we consider the following three settings: (1) SGD algorithms with smooth and strongly convex objective, (2) linear SA algorithms involving a Hurwitz matrix, and (3) nonlinear SA algorithms involving a contractive operator. When the iterate is scaled by $1/\sqrt{\alpha}$, where $\alpha$ is the constant stepsize, we show that the limiting scaled stationary distribution is a solution of an integral equation. Under a uniqueness assumption (which can be removed in certain settings) on this equation, we further characterize the limiting distribution as a Gaussian distribution whose covariance matrix is the unique solution of a suitable Lyapunov equation. For SA algorithms beyond these cases, our numerical experiments suggest that unlike central limit theorem type results: (1) the scaling factor need not be $1/\sqrt{\alpha}$, and (2) the limiting distribution need not be Gaussian. Based on the numerical study, we come up with a formula to determine the right scaling factor, and make insightful connection to the Euler-Maruyama discretization scheme for approximating stochastic differential equations.
翻訳日:2021-11-12 16:58:36 公開日:2021-11-11
# (参考訳) コントラスト再建からの無監督部分発見 [全文訳有]

Unsupervised Part Discovery from Contrastive Reconstruction ( http://arxiv.org/abs/2111.06349v1 )

ライセンス: CC BY 4.0
Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi(参考訳) 自己監督型視覚表現学習の目標は、オブジェクトやシーンレベルに焦点を当てた、強く伝達可能な画像表現を学習することである。 一方,部分レベルでの表現学習は注目度が大幅に低下している。 本稿では,対象部分の発見とセグメンテーションに対する教師なしアプローチを提案し,三つの貢献を行う。 まず、目的の集合を通してプロキシタスクを構築し、モデルがイメージをその部分へ有意義に分解することを奨励する。 第2に、事前計算された特徴の再構成やクラスタリングを部品の代用として論じており、低解像度と空間的に情報を抽出する分類ネットワークの傾向から、これだけで意味のある部分を見つけることは不可能であることを示す。 画素レベルでの画像再構成はこの問題を緩和し,補足的な手がかりとして機能することを示唆する。 最後に,キーポイント回帰に基づく標準評価はセグメンテーション品質とよく相関しないことを示した。 本手法は,細粒度だが視覚的に異なるカテゴリにまたがって一貫性のある意味的部品を産出し,3つのベンチマークデータセットにおける最先端技術に匹敵する。 コードはプロジェクトページで入手できる。 https://www.robots.o x.ac.uk/~vgg/researc h/unsup-parts/。

The goal of self-supervised visual representation learning is to learn strong, transferable image representations, with the majority of research focusing on object or scene level. On the other hand, representation learning at part level has received significantly less attention. In this paper, we propose an unsupervised approach to object part discovery and segmentation and make three contributions. First, we construct a proxy task through a set of objectives that encourages the model to learn a meaningful decomposition of the image into its parts. Secondly, prior work argues for reconstructing or clustering pre-computed features as a proxy to parts; we show empirically that this alone is unlikely to find meaningful parts; mainly because of their low resolution and the tendency of classification networks to spatially smear out information. We suggest that image reconstruction at the level of pixels can alleviate this problem, acting as a complementary cue. Lastly, we show that the standard evaluation based on keypoint regression does not correlate well with segmentation quality and thus introduce different metrics, NMI and ARI, that better characterize the decomposition of objects into parts. Our method yields semantic parts which are consistent across fine-grained but visually distinct categories, outperforming the state of the art on three benchmark datasets. Code is available at the project page: https://www.robots.o x.ac.uk/~vgg/researc h/unsup-parts/.
翻訳日:2021-11-12 16:31:01 公開日:2021-11-11
# (参考訳) 答えセットプログラミングが簡単になった [全文訳有]

Answer Set Programming Made Easy ( http://arxiv.org/abs/2111.06366v1 )

ライセンス: CC BY 4.0
Jorge Fandinno, Seemran Mishra, Javier Romero, Torsten Schaub(参考訳) 私たちは、Answer Set Programmingの民話から、すなわち、選択、整合性制約と制限されたルールフォーマットが、Answer Set Programmingにとって十分であるという考えを取り上げます。 我々は、この概念の基礎をヘレ・アンド・ザレの論理の文脈で詳述し、定義による拡張の論理原理からどのように導出できるかを示す。 次に、古典論理における連結正規形式に似た論理プログラムの正規形式として機能するアスター型論理プログラムを提供する。 最後に、重要なアイデアを取り上げ、ASP初心者向けのモデリング方法論を提案し、それがどのように使用できるかを説明します。

We take up an idea from the folklore of Answer Set Programming, namely that choices, integrity constraints along with a restricted rule format is sufficient for Answer Set Programming. We elaborate upon the foundations of this idea in the context of the logic of Here-and-There and show how it can be derived from the logical principle of extension by definition. We then provide an austere form of logic programs that may serve as a normalform for logic programs similar to conjunctive normalform in classical logic. Finally, we take the key ideas and propose a modeling methodology for ASP beginners and illustrate how it can be used.
翻訳日:2021-11-12 16:10:17 公開日:2021-11-11
# (参考訳) 生成的深層学習を用いた超解答ダークマターハロー [全文訳有]

Super-resolving Dark Matter Halos using Generative Deep Learning ( http://arxiv.org/abs/2111.06393v1 )

ライセンス: CC BY 4.0
David Schaurecker, Yin Li, Jeremy Tinker, Shirley Ho, Alexandre Refregier(参考訳) 畳み込みニューラルネットワーク(cnns)に基づく生成的ディープラーニング手法は、宇宙論における非線形構造を予測するための優れたツールを提供する。 本研究では,高分解能暗黒物質ハロを大規模で低分解能暗黒物質のみのシミュレーションから予測する。 これは、低分解能を同じ宇宙論、初期条件、ボックスサイズを共有するシミュレーションの高分解能密度場にマッピングすることで達成される。 質量分解能を8倍に向上させるため,条件付きGANを用いたU-Netの変動を利用して,高分解能ターゲットと視覚的,統計的に極めてよく一致した出力を生成する。 本手法は,低分解能シミュレーションからgpc/hボックスサイズ以上の高分解能密度出力を生成することができることを示唆する。

Generative deep learning methods built upon Convolutional Neural Networks (CNNs) provide a great tool for predicting non-linear structure in cosmology. In this work we predict high resolution dark matter halos from large scale, low resolution dark matter only simulations. This is achieved by mapping lower resolution to higher resolution density fields of simulations sharing the same cosmology, initial conditions and box-sizes. To resolve structure down to a factor of 8 increase in mass resolution, we use a variation of U-Net with a conditional GAN, generating output that visually and statistically matches the high resolution target extremely well. This suggests that our method can be used to create high resolution density output over Gpc/h box-sizes from low resolution simulations with negligible computational effort.
翻訳日:2021-11-12 15:49:34 公開日:2021-11-11
# 確率ハイブリッドシステムのモデルベース強化学習

Model-Based Reinforcement Learning for Stochastic Hybrid Systems ( http://arxiv.org/abs/2111.06211v1 )

ライセンス: Link先を確認
Hany Abdulsamad and Jan Peters(参考訳) 一般的な非線形システムの最適制御は、自動化における中心的な課題である。 強力な関数近似器によって実現されたデータ駆動型制御アプローチは、最近、困難なロボットアプリケーションに取り組むことに成功している。 しかし、そのような手法はしばしばブラックボックスの過度パラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの振る舞いを理解する能力は制限される。 本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。 そこで本研究では,データの時間構造を解析し,非線形境界を持つ確率的アフィン系に非線形ダイナミクスを自動的に分解する排他最大化(EM)アルゴリズムを提案する。 さらに,これらの時系列モデルは,非線形専門家から局所線形あるいは多項式フィードバックコントローラを模倣学習によって抽出する閉ループ拡張を自然に認めることを示す。 最後に、ハイブリッドシステムの階層的性質を取り入れ、大域値関数の局所多項式近似から導出される時間不変局所フィードバックコントローラの集合を最適化する、新しいハイブリッド実数エントロピーポリシー探索(hb-reps)手法を提案する。

Optimal control of general nonlinear systems is a central challenge in automation. Data-driven approaches to control, enabled by powerful function approximators, have recently had great success in tackling challenging robotic applications. However, such methods often obscure the structure of dynamics and control behind black-box over-parameterized representations, thus limiting our ability to understand the closed-loop behavior. This paper adopts a hybrid-system view of nonlinear modeling and control that lends an explicit hierarchical structure to the problem and breaks down complex dynamics into simpler localized units. Therefore, we consider a sequence modeling paradigm that captures the temporal structure of the data and derive an expecation-maximizat ion (EM) algorithm that automatically decomposes nonlinear dynamics into stochastic piecewise affine dynamical systems with nonlinear boundaries. Furthermore, we show that these time-series models naturally admit a closed-loop extension that we use to extract locally linear or polynomial feedback controllers from nonlinear experts via imitation learning. Finally, we introduce a novel hybrid realtive entropy policy search (Hb-REPS) technique that incorporates the hierarchical nature of hybrid systems and optimizes a set of time-invariant local feedback controllers derived from a locally polynomial approximation of a global value function.
翻訳日:2021-11-12 15:30:42 公開日:2021-11-11
# 判別器制約最適搬送による教師なし雑音適応音声強調

Unsupervised Noise Adaptive Speech Enhancement by Discriminator-Constr ained Optimal Transport ( http://arxiv.org/abs/2111.06316v1 )

ライセンス: Link先を確認
Hsin-Yi Lin, Huan-Hsin Tseng, Xugang Lu and Yu Tsao(参考訳) 本稿では,音声処理における重要な回帰課題である音声強調のための教師なし領域適応を行う,識別器制約付き最適輸送ネットワーク(DOTN)を提案する。 DOTNは、ソースドメインから利用可能な知識を利用して、ターゲットドメインにおけるノイズの多い音声のクリーンな参照を推定することを目的としている。 トレーニングデータとテストデータのドメインシフトは、さまざまな分野における学習問題の障害であると報告されている。 分類のための教師なし領域適応に関する文献は豊富にあるが、特に回帰において提案される手法は乏しく、入力データに関する追加情報に依存することが多い。 提案したDOTNアプローチは、最適輸送(OT)理論を、生成的敵対的なフレームワークを用いた数学的解析から解き放つことによって、対象領域における連続ラベルの評価を支援する。 2つのSEタスクの実験結果から,従来のOTの定式化を拡張することにより,提案したDOTNは従来のドメイン適応フレームワークを純粋に教師なしで上回ることを示す。

This paper presents a novel discriminator-constr ained optimal transport network (DOTN) that performs unsupervised domain adaptation for speech enhancement (SE), which is an essential regression task in speech processing. The DOTN aims to estimate clean references of noisy speech in a target domain, by exploiting the knowledge available from the source domain. The domain shift between training and testing data has been reported to be an obstacle to learning problems in diverse fields. Although rich literature exists on unsupervised domain adaptation for classification, the methods proposed, especially in regressions, remain scarce and often depend on additional information regarding the input data. The proposed DOTN approach tactically fuses the optimal transport (OT) theory from mathematical analysis with generative adversarial frameworks, to help evaluate continuous labels in the target domain. The experimental results on two SE tasks demonstrate that by extending the classical OT formulation, our proposed DOTN outperforms previous adversarial domain adaptation frameworks in a purely unsupervised manner.
翻訳日:2021-11-12 15:28:43 公開日:2021-11-11
# サーロゲートモデルを用いた3次元ステント再狭窄モデルの不確かさ定量化

Uncertainty quantification of a 3D In-Stent Restenosis model with surrogate modelling ( http://arxiv.org/abs/2111.06173v1 )

ライセンス: Link先を確認
Dongwei Ye, Pavel Zun, Valeria Krzhizhanovskaya, Alfons G. Hoekstra(参考訳) In-Stent Restenosisはバルーン拡張とステント留置による血管障害による冠動脈狭窄の再発である。 これは狭心症症状の再発や急性冠症候群につながる可能性がある。 内皮再生時間, 平滑筋細胞接着破壊の閾値ひずみ, 血流速度, 内弾性ラミナのフェネトレーションの割合) の4つの不確実なパラメータを持つ In-Stent Restenosis モデルの不確実性定量化を行った。 船体の平均断面積と最大相対面積損失の2つの考察を行った。 モデルの計算強度と不確かさ定量化に必要な評価数により、ガウス過程の回帰と適切な直交分解に基づく代理モデルが開発され、その後、不確かさ定量化において元のIn-Stent Restenosisモデルを置き換えた。 不確実性伝播の詳細な解析と感度解析について述べる。 平均断面積で約11%, 最大相対面積損失で約16%の不確かさが観察され, 不確実性評価は, プロセス初期における新生内膜成長における不確かさを主に決定していることを示している。 一方, 血流速度および内皮再生時間の不確かさは, 再狭窄後の臨床関連段階における関心量の不確かさを主に決定している。 閾値ひずみの不確かさは他の不確かさパラメータと比較して比較的小さい。

In-Stent Restenosis is a recurrence of coronary artery narrowing due to vascular injury caused by balloon dilation and stent placement. It may lead to the relapse of angina symptoms or to an acute coronary syndrome. An uncertainty quantification of a model for In-Stent Restenosis with four uncertain parameters (endothelium regeneration time, the threshold strain for smooth muscle cells bond breaking, blood flow velocity and the percentage of fenestration in the internal elastic lamina) is presented. Two quantities of interest were studied, namely the average cross-sectional area and the maximum relative area loss in a vessel. Due to the computational intensity of the model and the number of evaluations required in the uncertainty quantification, a surrogate model, based on Gaussian process regression with proper orthogonal decomposition, was developed which subsequently replaced the original In-Stent Restenosis model in the uncertainty quantification. A detailed analysis of the uncertainty propagation and sensitivity analysis is presented. Around 11% and 16% of uncertainty are observed on the average cross-sectional area and maximum relative area loss respectively, and the uncertainty estimates show that a higher fenestration mainly determines uncertainty in the neointimal growth at the initial stage of the process. On the other hand, the uncertainty in blood flow velocity and endothelium regeneration time mainly determine the uncertainty in the quantities of interest at the later, clinically relevant stages of the restenosis process. The uncertainty in the threshold strain is relatively small compared to the other uncertain parameters.
翻訳日:2021-11-12 15:27:17 公開日:2021-11-11
# (参考訳) クラウドソーシングにおける適応的多数決の完全性 [全文訳有]

Full Characterization of Adaptively Strong Majority Voting in Crowdsourcing ( http://arxiv.org/abs/2111.06390v1 )

ライセンス: CC BY 4.0
Margarita Boyarskaya and Panos Ipeirotis(参考訳) クラウドソーシングにおける品質管理の一般的なテクニックは、アイテムを検査し、アイテムが正しくラベル付けされているかどうかを投票する作業を行なうことである。 労働者の反応の可能なノイズに対処するため、1つの解決策は、2つの可能な結果の投票数の違いが予め特定された閾値を超えるまで、より多くの労働者から投票を要求することである。 マルコフ連鎖を吸収する手法を用いて,このような投票結果の収集過程をモデル化する方法を示す。 この投票過程の重要な特性、すなわち、結果の品質、完成への期待投票数、必要な投票数のばらつき、その他の分布のモーメントについて、閉形式方程式を提供する。 これらの結果を用いて、精度の異なる労働者を選別する投票プロセスにおける品質等価性を達成するために、しきい値の値に適応できることを示す。 次に、この結果を用いて、異なるレベルの応答精度で特徴付けられる労働者のグループに対する効率等化の支払い率を提供する。 最後に、全合成データと実生活におけるクラウドソース投票の両方を用いてシミュレーション実験を行う。 本理論モデルでは, コンセンサス集約プロセスの結果が良好に特徴づけられることを示す。

A commonly used technique for quality control in crowdsourcing is to task the workers with examining an item and voting on whether the item is labeled correctly. To counteract possible noise in worker responses, one solution is to keep soliciting votes from more workers until the difference between the numbers of votes for the two possible outcomes exceeds a pre-specified threshold {\delta}. We show a way to model such {\delta}-margin voting consensus aggregation process using absorbing Markov chains. We provide closed-form equations for the key properties of this voting process -- namely, for the quality of the results, the expected number of votes to completion, the variance of the required number of votes, and other moments of the distribution. Using these results, we show further that one can adapt the value of the threshold {\delta} to achieve quality-equivalence across voting processes that employ workers of different accuracy levels. We then use this result to provide efficiency-equalizin g payment rates for groups of workers characterized by different levels of response accuracy. Finally, we perform a set of simulated experiments using both fully synthetic data as well as real-life crowdsourced votes. We show that our theoretical model characterizes the outcomes of the consensus aggregation process well.
翻訳日:2021-11-12 15:26:22 公開日:2021-11-11
# DropGNN: ランダムなドロップアウトはグラフニューラルネットワークの表現性を向上する

DropGNN: Random Dropouts Increase the Expressiveness of Graph Neural Networks ( http://arxiv.org/abs/2111.06283v1 )

ライセンス: Link先を確認
P\'al Andr\'as Papp, Karolis Martinkus, Lukas Faber, Roger Wattenhofer(参考訳) 本稿では,標準gnnフレームワークの限界を克服する新しいアプローチであるdropout graph neural networks(dropgnns)について述べる。 DropGNNでは、入力グラフ上でGNNの複数の実行を実行する。 そして、これらの結果を組み合わせて最終的な結果を得る。 我々はDropGNNがメッセージパッシングGNNによって分離できない様々なグラフ近傍を識別できることを証明する。 我々は、ドロップアウトの信頼性の確保に必要な実行回数の理論的境界を導出し、dropgnnの表現能力と限界に関するいくつかの特性を証明した。 表現力に関する理論的知見を実験的に検証した。 さらに,DropGNNは,既存のGNNベンチマークと競合することを示す。

This paper studies Dropout Graph Neural Networks (DropGNNs), a new approach that aims to overcome the limitations of standard GNN frameworks. In DropGNNs, we execute multiple runs of a GNN on the input graph, with some of the nodes randomly and independently dropped in each of these runs. Then, we combine the results of these runs to obtain the final result. We prove that DropGNNs can distinguish various graph neighborhoods that cannot be separated by message passing GNNs. We derive theoretical bounds for the number of runs required to ensure a reliable distribution of dropouts, and we prove several properties regarding the expressive capabilities and limits of DropGNNs. We experimentally validate our theoretical findings on expressiveness. Furthermore, we show that DropGNNs perform competitively on established GNN benchmarks.
翻訳日:2021-11-12 15:07:08 公開日:2021-11-11
# AlphaGarden:多文化の庭を自律的に破壊する学習

AlphaGarden: Learning to Autonomously Tend a Polyculture Garden ( http://arxiv.org/abs/2111.06014v1 )

ライセンス: Link先を確認
Mark Presten, Yahav Avigal, Mark Theis, Satvik Sharma, Rishi Parikh, Shrey Aeron, Sandeep Mukherjee, Sebastian Oehme, Simeon Adebola, Walter Teitelbaum, Varun Kamat and Ken Goldberg(参考訳) 本稿では,1.5m×3.0mの物理的テストベッドに植物を植えて灌水する,自律型多文化庭園であるAlphaGardenについて述べる。 AlphaGardenは頭上カメラとセンサーを使って植物の分布と土壌の水分を追跡する。 我々は、植物の成長と植物間動態をモデル化し、葉のカバレッジと多様性を最大化する行動を選択する政策を訓練する。 自律的な刈り取りのために、alphagardenは2つのカスタムデザインの刈り取りツールと訓練されたニューラルネットワークを使用してプルーンポイントを検出する。 我々は,60日間の園芸サイクルを4回実施した。 以上の結果から,alphagarden は周期のピーク時の平均キャノピーカバレッジ 0.86 を維持しつつ,刈り込みせん断によって 0.96 の正規化多様性を自律的に達成できることが示唆された。 コード、データセット、補足資料はhttps://github.com/B erkeleyAutomation/Al phaGarden.comにある。

This paper presents AlphaGarden: an autonomous polyculture garden that prunes and irrigates living plants in a 1.5m x 3.0m physical testbed. AlphaGarden uses an overhead camera and sensors to track the plant distribution and soil moisture. We model individual plant growth and interplant dynamics to train a policy that chooses actions to maximize leaf coverage and diversity. For autonomous pruning, AlphaGarden uses two custom-designed pruning tools and a trained neural network to detect prune points. We present results for four 60-day garden cycles. Results suggest AlphaGarden can autonomously achieve 0.96 normalized diversity with pruning shears while maintaining an average canopy coverage of 0.86 during the peak of the cycle. Code, datasets, and supplemental material can be found at https://github.com/B erkeleyAutomation/Al phaGarden.
翻訳日:2021-11-12 15:06:28 公開日:2021-11-11
# Bag of Bytesを用いたURLビットストリームの分類

Classification of URL bitstreams using Bag of Bytes ( http://arxiv.org/abs/2111.06087v1 )

ライセンス: Link先を確認
Keiichi Shima, Daisuke Miyamoto, Hiroshi Abe, Tomohiro Ishihara, Kazuya Okada, Yuji Sekiya, Hirochika Asai, Yusuke Doi(参考訳) 悪意のあるWebサイトにアクセスするユーザを保護することは、ネットワークオペレータにとって重要な管理タスクのひとつだ。 アクセス可能なWebサイトを制御するオープンソースや商用製品は数多くある。 最も伝統的なアプローチはブラックリストベースのフィルタリングである。 このメカニズムは単純だが拡張性はないが、ファジィマッチング技術を利用したいくつかの改良されたアプローチがある。 他のアプローチでは、URL文字列から機能を抽出することで、機械学習(ML)技術の使用を試みる。 このアプローチは、インターネットWebサイトの広い範囲をカバーすることができるが、優れた機能を見つけるには、Webサイト設計のトレンドに関する深い知識が必要である。 近年,Deep Learning (DL) を用いた別のアプローチが出現している。 dlアプローチは、既存の多くのサンプルデータを調べることによって、自動的に機能を抽出するのに役立つ。 この技術を用いることで、ニューラルネットワークモジュールに最近のトレンドを教え続けることで、URLドメインに関する特別な知識を必要とせずに、フレキシブルなフィルタリング決定モジュールを構築することができる。 本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。 提案手法を実装し,研究機関から取得した現実的なURLアクセス履歴データと,フィッシングサイト情報の有名なアーカイブサイトであるPhishTank.comから取得したデータを用いて検証を行った。 従来のDL法に比べて2~3%精度が向上した。

Protecting users from accessing malicious web sites is one of the important management tasks for network operators. There are many open-source and commercial products to control web sites users can access. The most traditional approach is blacklist-based filtering. This mechanism is simple but not scalable, though there are some enhanced approaches utilizing fuzzy matching technologies. Other approaches try to use machine learning (ML) techniques by extracting features from URL strings. This approach can cover a wider area of Internet web sites, but finding good features requires deep knowledge of trends of web site design. Recently, another approach using deep learning (DL) has appeared. The DL approach will help to extract features automatically by investigating a lot of existing sample data. Using this technique, we can build a flexible filtering decision module by keep teaching the neural network module about recent trends, without any specific expert knowledge of the URL domain. In this paper, we apply a mechanical approach to generate feature vectors from URL strings. We implemented our approach and tested with realistic URL access history data taken from a research organization and data from the famous archive site of phishing site information, PhishTank.com. Our approach achieved 2~3% better accuracy compared to the existing DL-based approach.
翻訳日:2021-11-12 15:06:10 公開日:2021-11-11
# 感度シグネチャプラニングに基づく高速ブールマッチングの高速化

Enhanced Fast Boolean Matching based on Sensitivity Signatures Pruning ( http://arxiv.org/abs/2111.06213v1 )

ライセンス: Link先を確認
Jiaxi Zhang, Liwei Ni, Shenggen Zheng, Hao Liu, Xiangfu Zou, Feng Wang, Guojie Luo(参考訳) ブールマッチングはデジタル集積回路設計において重要である。 n変数のブール関数に対するそのようなアルゴリズムの時間複雑性は$o(2^{n+1}n!)$であるので、ブールマッチングの徹底的な手法は数変数の関数でも計算的に高価である。 感度はブール関数の複雑さの重要な特徴であり測度である。 様々な分野におけるアルゴリズムの複雑さの分析に用いられている。 この測度はブール関数の符号と見なすことができ、ブールマッチングの探索空間を減少させる大きな可能性を持つ。 本稿では,booleanマッチングにboolean感度を導入するとともに,booleanマッチングの高速化のためにいくつかの感度関連シグネチャを設計する。 まず,ブール等価性に対する感度に関する新たなシグネチャを提案する。 そして,これらのシグネチャがブールマッチングの前提条件であることを証明する。 また、2つのブール関数のシグネチャを計算・比較するための高速感度計算法を開発した。 従来の共因子および対称検出法と比較して、感度は別の次元の一連のシグネチャである。 また,感度を従来の手法と容易に統合でき,ミスマッチしたブール関数を高速に区別できることを示した。 私たちの知る限りでは、Booleanマッチングに感度を導入するのはこれが初めてです。 実験の結果,本論文で提案した感度関連シグネチャは,探索空間を極端に小さくし,最先端のブールマッチング法に対して最大3倍の高速化を実現することができた。

Boolean matching is significant to digital integrated circuits design. An exhaustive method for Boolean matching is computationally expensive even for functions with only a few variables, because the time complexity of such an algorithm for an n-variable Boolean function is $O(2^{n+1}n!)$. Sensitivity is an important characteristic and a measure of the complexity of Boolean functions. It has been used in analysis of the complexity of algorithms in different fields. This measure could be regarded as a signature of Boolean functions and has great potential to help reduce the search space of Boolean matching. In this paper, we introduce Boolean sensitivity into Boolean matching and design several sensitivity-related signatures to enhance fast Boolean matching. First, we propose some new signatures that relate sensitivity to Boolean equivalence. Then, we prove that these signatures are prerequisites for Boolean matching, which we can use to reduce the search space of the matching problem. Besides, we develop a fast sensitivity calculation method to compute and compare these signatures of two Boolean functions. Compared with the traditional cofactor and symmetric detection methods, sensitivity is a series of signatures of another dimension. We also show that sensitivity can be easily integrated into traditional methods and distinguish the mismatched Boolean functions faster. To the best of our knowledge, this is the first work that introduces sensitivity to Boolean matching. The experimental results show that sensitivity-related signatures we proposed in this paper can reduce the search space to a very large extent, and perform up to 3x speedup over the state-of-the-art Boolean matching methods.
翻訳日:2021-11-12 15:05:51 公開日:2021-11-11
# 最良ランクr近似の最小エントリからの復元について

On Recovering the Best Rank-r Approximation from Few Entries ( http://arxiv.org/abs/2111.06302v1 )

ライセンス: Link先を確認
Shun Xu, Ming Yuan(参考訳) 本稿では,大行列の最大ランク-$r$近似を少数のエントリからいかにうまく再構築できるかについて検討する。 本研究では,データ行列が全ランクであり,低ランク行列では近似できない場合でも,その最良な低ランク近似は,少数のエントリから確実に計算されるか,あるいは推定できることを示す。 データマトリックスに対する最高の低ランク近似は、しばしばそれ自身よりも興味を引いている。なぜなら、より安定で、しばしば、より複雑なデータ生成モデルの再現可能な特性を捉えるからである。 特に、スペクトルトランケーションに基づく2つの非依存的アプローチと、投射された勾配降下に基づく最適化手法について検討する。 第一のアプローチは直感的で合理的に有効であるが、後者は一般にはるかに優れた性能を持つ。 誤差は行列が低位であることにどの程度近いかに依存することを示した。 理論的および数値的な証拠はともに提案手法の有効性を示すものである。

In this note, we investigate how well we can reconstruct the best rank-$r$ approximation of a large matrix from a small number of its entries. We show that even if a data matrix is of full rank and cannot be approximated well by a low-rank matrix, its best low-rank approximations may still be reliably computed or estimated from a small number of its entries. This is especially relevant from a statistical viewpoint: the best low-rank approximations to a data matrix are often of more interest than itself because they capture the more stable and oftentimes more reproducible properties of an otherwise complicated data-generating model. In particular, we investigate two agnostic approaches: the first is based on spectral truncation; and the second is a projected gradient descent based optimization procedure. We argue that, while the first approach is intuitive and reasonably effective, the latter has far superior performance in general. We show that the error depends on how close the matrix is to being of low rank. Both theoretical and numerical evidence is presented to demonstrate the effectiveness of the proposed approaches.
翻訳日:2021-11-12 15:05:25 公開日:2021-11-11
# 言葉からつながりへ: 言葉は従業員のデジタルコミュニケーションに忠実なシグナルとして類似性を使う

From words to connections: Word use similarity as an honest signal conducive to employees' digital communication ( http://arxiv.org/abs/2111.06133v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, J. Saint-Charles, P. Mongeau(参考訳) 3つの研究動向(コラボレーションの正統的シグナル、ソシオ・セマンティクス・ネットワーク、ホモフィリー理論)から考察をまとめ、単語が類似性を使い、類似したソーシャルネットワークのポジションを持つと従業員のデジタルインタラクションのレベルに関連付けられると仮定する。 この仮説を検証するために、大企業のイントラネット通信フォーラムでやり取りする1600人近い従業員のコミュニケーションを分析した。 過去の研究で、従業員の関与とコラボレーションに寄与することが判明した社会動態と「正直なシグナル」について検討した。 単語の類似性は、他の言語の特徴やネットワーク位置の類似性よりも、対話の主要な要因であることがわかった。 この結果から,対象者に応じて言語を慎重に選択し,企業管理者とオンラインコミュニティ管理者の両方に実用的な意味を持つ可能性が示唆された。 言語をよりよく使う方法を理解することは、例えば、知識共有プラクティスや内部コミュニケーションキャンペーンの開発をサポートするだろう。

Bringing together considerations from three research trends (honest signals of collaboration, socio-semantic networks and homophily theory), we hypothesise that word use similarity and having similar social network positions are linked with the level of employees' digital interaction. To verify our hypothesis, we analyse the communication of close to 1600 employees, interacting on the intranet communication forum of a large company. We study their social dynamics and the 'honest signals' that, in past research, proved to be conducive to employees' engagement and collaboration. We find that word use similarity is the main driver of interaction, much more than other language characteristics or similarity in network position. Our results suggest carefully choosing the language according to the target audience and have practical implications for both company managers and online community administrators. Understanding how to better use language could, for example, support the development of knowledge sharing practices or internal communication campaigns.
翻訳日:2021-11-12 15:04:47 公開日:2021-11-11
# ニューラルネットワークモデリングのための自己Normalized Importance Smpling

Self-Normalized Importance Sampling for Neural Language Modeling ( http://arxiv.org/abs/2111.06310v1 )

ライセンス: Link先を確認
Zijian Yang, Yingbo Gao, Alexander Gerstenberger, Jintao Jiang, Ralf Schl\"uter, Hermann Ney(参考訳) ニューラルネットワークモデルのソフトマックス正規化において,全語彙を横切ることの問題を緩和するために,サンプルベーストレーニング基準を提案し,大語彙語ベースニューラルネットワークモデルを用いて検討した。 これらのトレーニング基準は一般的に、より高速なトレーニングとテストの利点を享受する。 ノイズコントラスト推定は最も一般的な選択肢の1つであるが,近年では,原モデルの出力から意図したクラス後続確率を復元する追加補正ステップを施す限り,他のサンプリングベース基準も良好に動作可能であることを示す。 本研究では,自己正規化重要度サンプリングを提案する。 これまでの研究と比較すると,本研究で考慮された基準は自己正規化されており,さらなる修正を行う必要はない。 ノイズコントラスト推定と比較すると,本手法はアプリケーションの複雑さの観点から直接比較できる。 自己正規化言語モデルトレーニングと格子再構成実験により,本提案の自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示した。

To mitigate the problem of having to traverse over the full vocabulary in the softmax normalization of a neural language model, sampling-based training criteria are proposed and investigated in the context of large vocabulary word-based neural language models. These training criteria typically enjoy the benefit of faster training and testing, at a cost of slightly degraded performance in terms of perplexity and almost no visible drop in word error rate. While noise contrastive estimation is one of the most popular choices, recently we show that other sampling-based criteria can also perform well, as long as an extra correction step is done, where the intended class posterior probability is recovered from the raw model outputs. In this work, we propose self-normalized importance sampling. Compared to our previous work, the criteria considered in this work are self-normalized and there is no need to further conduct a correction step. Compared to noise contrastive estimation, our method is directly comparable in terms of complexity in application. Through self-normalized language model training as well as lattice rescoring experiments, we show that our proposed self-normalized importance sampling is competitive in both research-oriented and production-oriented automatic speech recognition tasks.
翻訳日:2021-11-12 15:04:28 公開日:2021-11-11
# csBoundary:高精細地図のための航空画像における都市規模道路境界検出

csBoundary: City-scale Road-boundary Detection in Aerial Images for High-definition Maps ( http://arxiv.org/abs/2111.06020v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxuan Liu, Lu Gan, Xiangcheng Hu, Yuxiang Sun, Lujia Wang, Ming Liu(参考訳) high-definition(hd)マップは、自動運転のための静的交通環境の正確な幾何学的および意味的な情報を提供する。 hdマップに含まれている最も重要な情報の一つは、道路エリアと、道路エリア内を走る車両を誘導するオフロードエリアを区別するためである。 しかし、都市規模でのHDマップのアノテート道路境界は労働集約的である。 自動HDマップアノテーションを有効にするために、現在の作業ではセマンティックセグメンテーションや反復グラフを使って道路境界検出を行っている。 しかし、前者はピクセルレベルで動作し、後者は非効率とドリフトの問題に苦しんでいるため、トポロジカルな正確性を保証することができなかった。 上記の問題に対する解決策として,我々は,HDマップアノテーションの都市規模で道路境界を自動的に検出する,csBoundaryと呼ばれる新しいシステムを提案する。 我々のネットワークは、空中画像パッチを入力とし、この画像から連続した道路境界グラフ(すなわち頂点とエッジ)を直接推測する。 都市規模の道路境界グラフを生成するために,各画像パッチから得られたグラフを縫合する。 私たちのcsBoundaryは、公開ベンチマークデータセットで評価され、比較されます。 結果は我々の優位性を示している。 デモビデオはプロジェクトページ \url{https://sites.google .com/view/csboundary /} で公開されている。

High-Definition (HD) maps can provide precise geometric and semantic information of static traffic environments for autonomous driving. Road-boundary is one of the most important information contained in HD maps since it distinguishes between road areas and off-road areas, which can guide vehicles to drive within road areas. But it is labor-intensive to annotate road boundaries for HD maps at the city scale. To enable automatic HD map annotation, current work uses semantic segmentation or iterative graph growing for road-boundary detection. However, the former could not ensure topological correctness since it works at the pixel level, while the latter suffers from inefficiency and drifting issues. To provide a solution to the aforementioned problems, in this letter, we propose a novel system termed csBoundary to automatically detect road boundaries at the city scale for HD map annotation. Our network takes as input an aerial image patch, and directly infers the continuous road-boundary graph (i.e., vertices and edges) from this image. To generate the city-scale road-boundary graph, we stitch the obtained graphs from all the image patches. Our csBoundary is evaluated and compared on a public benchmark dataset. The results demonstrate our superiority. The accompanied demonstration video is available at our project page \url{https://sites.google .com/view/csboundary /}.
翻訳日:2021-11-12 15:03:05 公開日:2021-11-11
# CodEx: 側頭脱青とトモグラフィー再構成のためのモジュラーフレームワーク

CodEx: A Modular Framework for Joint Temporal De-blurring and Tomographic Reconstruction ( http://arxiv.org/abs/2111.06069v1 )

ライセンス: Link先を確認
Soumendu Majee, Selin Aslan, Charles A. Bouman, Doga Gursoy(参考訳) 多くのCTイメージングアプリケーションでは、時間とともに移動または変化しているオブジェクトからデータを迅速に収集することが重要である。 一般的に、トモグラフィーの取得はステップ・アンド・シューティング(ステップ・アンド・シューティング)であると仮定され、オブジェクトを各所望の角度に回転させ、ビューを取る。 しかし、ステップ・アンド・シューティングの取得は遅く、光子を無駄にすることができるため、実際にはデータ収集中にオブジェクトが連続的に回転する場所でフライスキャンが行われる。 しかし、これは動きのぼんやりしたビューと、重度のモーションアーティファクトによるレコンストラクションをもたらす可能性がある。 本稿では,ハエスキャンで導入された動きのぼかしを効果的に回避できる,関節脱臭とトモグラフィ再構成のためのモジュラーフレームワークであるCodExを紹介する。 本手法は,新規な獲得法と新規な非凸ベイズ再構成アルゴリズムの相乗的組み合わせである。 codexは、リコンストラクションアルゴリズムが反転する既知のバイナリコードで取得をエンコードすることで機能する。 適切に選択されたバイナリコードを使用して測定値をエンコードすれば、反転プロセスの精度が向上する。 CodEx再構成法は,乗算器の交互方向法(ADMM)を用いて,逆問題を反復的デブロアリングと再構成サブプロブレムに分割し,再構成を実用化する。 本手法の有効性を示すため,シミュレーションデータと実験データの両方に再構成結果を示す。

In many computed tomography (CT) imaging applications, it is important to rapidly collect data from an object that is moving or changing with time. Tomographic acquisition is generally assumed to be step-and-shoot, where the object is rotated to each desired angle, and a view is taken. However, step-and-shoot acquisition is slow and can waste photons, so in practice fly-scanning is done where the object is continuously rotated while collecting data. However, this can result in motion-blurred views and consequently reconstructions with severe motion artifacts. In this paper, we introduce CodEx, a modular framework for joint de-blurring and tomographic reconstruction that can effectively invert the motion blur introduced in fly-scanning. The method is a synergistic combination of a novel acquisition method with a novel non-convex Bayesian reconstruction algorithm. CodEx works by encoding the acquisition with a known binary code that the reconstruction algorithm then inverts. Using a well chosen binary code to encode the measurements can improve the accuracy of the inversion process. The CodEx reconstruction method uses the alternating direction method of multipliers (ADMM) to split the inverse problem into iterative deblurring and reconstruction sub-problems, making reconstruction practical to implement. We present reconstruction results on both simulated and experimental data to demonstrate the effectiveness of our method.
翻訳日:2021-11-12 15:02:42 公開日:2021-11-11
# スケーラブルブロックチェーンに基づくフェデレーション学習システムにおける公正性と統合性,プライバシ

Fairness, Integrity, and Privacy in a Scalable Blockchain-based Federated Learning System ( http://arxiv.org/abs/2111.06290v1 )

ライセンス: Link先を確認
Timon R\"uckel and Johannes Sedlmeir and Peter Hofmann(参考訳) フェデレートされた機械学習(FL)は、クライアントのモデルだけでなく、センシティブなデータ上でモデルを集合的にトレーニングすることができる。 しかし、FLの研究が注目されているにもかかわらず、この概念はいまだに広く採用されていない。 主な理由の1つは、すべての参加するクライアントに対して公平性、完全性、およびプライバシー保護を同時に達成するFLシステムを実装するという大きな課題である。 この問題を解決するために,本稿では,ブロックチェーン技術,局所微分プライバシー,ゼロ知識証明を組み込んだflシステムを提案する。 複数の線形回帰を伴う概念実証の実装は、これらの最先端技術が、スケーラブルで透明なシステムにおける経済的インセンティブ、信頼、機密性の要求を整合させるFLシステムと組み合わせられることを示す。

Federated machine learning (FL) allows to collectively train models on sensitive data as only the clients' models and not their training data need to be shared. However, despite the attention that research on FL has drawn, the concept still lacks broad adoption in practice. One of the key reasons is the great challenge to implement FL systems that simultaneously achieve fairness, integrity, and privacy preservation for all participating clients. To contribute to solving this issue, our paper suggests a FL system that incorporates blockchain technology, local differential privacy, and zero-knowledge proofs. Our implementation of a proof-of-concept with multiple linear regression illustrates that these state-of-the-art technologies can be combined to a FL system that aligns economic incentives, trust, and confidentiality requirements in a scalable and transparent system.
翻訳日:2021-11-12 15:01:59 公開日:2021-11-11
# 機械学習によるキラルフォトニックナノ構造の最適化:進化とニューラルネットワークに基づく設計

Machine Learning-Based Optimization of Chiral Photonic Nanostructures: Evolution- and Neural Network-Based Design ( http://arxiv.org/abs/2111.06272v1 )

ライセンス: Link先を確認
Oliver Mey and Arash Rahimi-Iman(参考訳) キラルフォトニクスは、光と物質間の相互作用を操作する新しい経路を開き、非自明なパターンをナノ構造化することでメタ表面と材料を光学的応答に調整する。 分子のキラリティーや光のような物質のキラリティーは、最も単純な場合において円偏光のハンドネスによって与えられるものであり、化学、ナノフォトニクス、光学情報処理の分野で多くの注目を集めている。 本稿では,2つの機械学習手法である進化アルゴリズムとニューラルネットワークを用いたキラルフォトニック構造の設計を行い,誘電体メタサーフェスの光学特性の迅速かつ効率的な最適化を行う。 遷移金属ジカルコゲナイド励起子共鳴の範囲で可視光を得るための設計レシピは、反射光の円偏光度に周波数依存的な変化を示し、これは左右の円偏光強度の差で表される。 本研究は, 二硫化タングステンを有効成分とするキラリティー感光マッターカップリングシナリオのための光学ナノパターン反射体の作製とキャラクタリゼーションを, 谷ホール効果や光学谷コヒーレンスなどの特性を有する有効材料として用いた。

Chiral photonics opens new pathways to manipulate light-matter interactions and tailor the optical response of meta-surfaces and -materials by nanostructuring nontrivial patterns. Chirality of matter, such as that of molecules, and light, which in the simplest case is given by the handedness of circular polarization, have attracted much attention for applications in chemistry, nanophotonics and optical information processing. We report the design of chiral photonic structures using two machine learning methods, the evolutionary algorithm and neural network approach, for rapid and efficient optimization of optical properties for dielectric metasurfaces. The design recipes obtained for visible light in the range of transition-metal dichalcogenide exciton resonances show a frequency-dependent modification in the reflected light's degree of circular polarization, that is represented by the difference between left- and right-circularly polarized intensity. Our results suggest the facile fabrication and characterization of optical nanopatterned reflectors for chirality-sensitive light-matter coupling scenarios employing tungsten disulfide as possible active material with features such as valley Hall effect and optical valley coherence.
翻訳日:2021-11-12 15:00:23 公開日:2021-11-11
# マルチプレイヤー・ジェネラルサムゲームにおける相関平衡の近似的no-regret学習

Near-Optimal No-Regret Learning for Correlated Equilibria in Multi-Player General-Sum Games ( http://arxiv.org/abs/2111.06008v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Constantinos Daskalakis, Gabriele Farina, Maxwell Fishelson, Noah Golowich, Tuomas Sandholm(参考訳) 最近、Daskalakis, Fishelson, and Golowich (DFG) (NeurIPS`21) は、マルチプレイヤーの汎用正規形式ゲームにおける全てのエージェントがOptimistic Multiplicative Weights Update (OMWU) を使用している場合、全てのプレイヤーの外部後悔は、ゲームの繰り返しの後で$O(\textrm{polylog}(T)$であることを示した。 その結果を外部の後悔から内部後悔に拡張し,後悔を交換することで,約相関平衡に収束する非結合学習ダイナミクスを,$\tilde{o}(t^{-1})$で確立する。 これは、Chen and Peng (NeurIPS`20) による$O(T^{-3/4})$の相関平衡に対する事前の収束率よりも大幅に改善され、非回帰フレームワーク内では、$T$のポリ対数因子まで最適である。 これらの結果を得るために,不動点演算を含む学習ダイナミクスの高次滑らか性を確立するための新しい手法を開発した。 具体的には、stltz と lugosi (mach learn`05) の非内在回帰学習ダイナミクスは、組合せ空間上の非外在回帰ダイナミクスによって等価にシミュレートされる。 これにより、多項式サイズのマルコフ連鎖上の定常分布の計算を指数関数型集合上の(かなりよく考えられた)線型変換と交換することができ、dgfのような類似の手法を内部後悔をほぼ最適に束ねることができる。 さらに、Blum and Mansour (BM) (JMLR`07) の古典的アルゴリズムに対して、$O(\textrm{polylog}(T))$ no-swap-regret を定めている。 我々は,dfg のより限定的な組合せ論を回避し,コーシー積分式に基づく手法を導入する。 本論は,BMのほぼ最適後悔の保証に対する明瞭さの隠蔽に加えて,DFGによる手法を拡張し,より関連する学習アルゴリズムの分析に活用する様々な方法についての知見を提供する。

Recently, Daskalakis, Fishelson, and Golowich (DFG) (NeurIPS`21) showed that if all agents in a multi-player general-sum normal-form game employ Optimistic Multiplicative Weights Update (OMWU), the external regret of every player is $O(\textrm{polylog}(T))$ after $T$ repetitions of the game. We extend their result from external regret to internal regret and swap regret, thereby establishing uncoupled learning dynamics that converge to an approximate correlated equilibrium at the rate of $\tilde{O}(T^{-1})$. This substantially improves over the prior best rate of convergence for correlated equilibria of $O(T^{-3/4})$ due to Chen and Peng (NeurIPS`20), and it is optimal -- within the no-regret framework -- up to polylogarithmic factors in $T$. To obtain these results, we develop new techniques for establishing higher-order smoothness for learning dynamics involving fixed point operations. Specifically, we establish that the no-internal-regret learning dynamics of Stoltz and Lugosi (Mach Learn`05) are equivalently simulated by no-external-regret dynamics on a combinatorial space. This allows us to trade the computation of the stationary distribution on a polynomial-sized Markov chain for a (much more well-behaved) linear transformation on an exponential-sized set, enabling us to leverage similar techniques as DGF to near-optimally bound the internal regret. Moreover, we establish an $O(\textrm{polylog}(T))$ no-swap-regret bound for the classic algorithm of Blum and Mansour (BM) (JMLR`07). We do so by introducing a technique based on the Cauchy Integral Formula that circumvents the more limited combinatorial arguments of DFG. In addition to shedding clarity on the near-optimal regret guarantees of BM, our arguments provide insights into the various ways in which the techniques by DFG can be extended and leveraged in the analysis of more involved learning algorithms.
翻訳日:2021-11-12 14:59:36 公開日:2021-11-11
# クラスインフォームド損失関数を用いたオートエンコーダによるデータ複雑性の低減

Reducing Data Complexity using Autoencoders with Class-informed Loss Functions ( http://arxiv.org/abs/2111.06142v1 )

ライセンス: Link先を確認
David Charte and Francisco Charte and Francisco Herrera(参考訳) 機械学習アプリケーションで利用可能なデータは、より高い次元と難しいクラスのため、ますます複雑になっています。 ラベル付きデータの複雑性を測定するには、クラスオーバーラップ、分離性、境界形状、およびグループ形態に応じて、さまざまなアプローチが存在する。 多くのテクニックは、より良い機能を見つけるためにデータを変換することができるが、データ複雑さを特に削減することに注力する技術はほとんどない。 ほとんどのデータ変換メソッドは、主に次元的側面を扱い、クラスが何らかの複雑な場合に有用なクラスラベル内で利用可能な情報を残します。 本稿では,クラスラベルを用いた自動エンコーダに基づく複雑性低減手法を提案する。 これにより、Scorer、Skaler、Slicerの3つの異なる新機能学習者が生まれる。 これらはフィッシャーの判別比、クルバック・リーバーの発散、および最小二乗支援ベクトルマシンに基づいている。 それらは二項分類問題の前処理段階として適用できる。 27のデータセットの集合と、複雑性と分類のメトリクスの広範囲にわたる徹底した実験により、クラスインフォームされたオートエンコーダは、他の4つの一般的な教師なし特徴抽出テクニックよりも優れたパフォーマンスを示す。

Available data in machine learning applications is becoming increasingly complex, due to higher dimensionality and difficult classes. There exists a wide variety of approaches to measuring complexity of labeled data, according to class overlap, separability or boundary shapes, as well as group morphology. Many techniques can transform the data in order to find better features, but few focus on specifically reducing data complexity. Most data transformation methods mainly treat the dimensionality aspect, leaving aside the available information within class labels which can be useful when classes are somehow complex. This paper proposes an autoencoder-based approach to complexity reduction, using class labels in order to inform the loss function about the adequacy of the generated variables. This leads to three different new feature learners, Scorer, Skaler and Slicer. They are based on Fisher's discriminant ratio, the Kullback-Leibler divergence and least-squares support vector machines, respectively. They can be applied as a preprocessing stage for a binary classification problem. A thorough experimentation across a collection of 27 datasets and a range of complexity and classification metrics shows that class-informed autoencoders perform better than 4 other popular unsupervised feature extraction techniques, especially when the final objective is using the data for a classification task.
翻訳日:2021-11-12 14:58:51 公開日:2021-11-11
# (参考訳) Masked Autoencodersはスケーラブルな視覚学習ツール [全文訳有]

Masked Autoencoders Are Scalable Vision Learners ( http://arxiv.org/abs/2111.06377v1 )

ライセンス: CC BY 4.0
Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll\'ar, Ross Girshick(参考訳) 本稿では,マスク付きオートエンコーダ(mae)がコンピュータビジョンのためのスケーラブルな自己教師付き学習者であることを示す。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 2つのコアデザインに基づいている。 まず、非対称なエンコーダデコーダアーキテクチャを開発し、(マスクトークンなしで)パッチの可視部分のみで動作するエンコーダと、潜在表現とマスクトークンから元のイメージを再構成する軽量デコーダを開発した。 第二に、入力画像の高い割合、例えば75%をマスキングすると、非自明で有意義な自己監督タスクが生じる。 これら2つの設計を組み合わせることで,大規模モデルを効率的に,効率的にトレーニングすることが可能になります。 例えば、バニラViT-Hugeモデルは、ImageNet-1Kデータのみを使用するメソッドの中で、最高の精度(87.8%)を達成する。 下流タスクにおける転送性能は、教師付き事前トレーニングよりも優れ、有望なスケーリング動作を示す。

This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we accelerate training (by 3x or more) and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.
翻訳日:2021-11-12 14:56:13 公開日:2021-11-11
# アノテーションフリーレイアウト認識のための合成文書生成装置

Synthetic Document Generator for Annotation-free Layout Recognition ( http://arxiv.org/abs/2111.06016v1 )

ライセンス: Link先を確認
Natraj Raman, Sameena Shah and Manuela Veloso(参考訳) ヘッダー、セクション、テーブル、図などを特定するためにドキュメントのレイアウトを分析することは、その内容を理解する上で重要である。 文書画像のレイアウト構造を検出するための深層学習手法は有望である。 しかし、これらの方法は訓練中に多くの注釈付き例を必要とし、それらは費用も時間もかかる。 本稿では,レイアウト要素の空間的位置,範囲,カテゴリをラベル付きで自動生成する合成文書生成装置について述べる。 提案した生成過程は、文書のすべての物理成分をランダム変数として扱い、ベイズネットワークグラフを用いて固有の依存関係をモデル化する。 確率的テンプレートを用いた階層的定式化により,広範なテーマを保持するためのドキュメント間のパラメータ共有が可能となるが,分散特性は視覚的にユニークなサンプルを生成し,複雑で多様なレイアウトをキャプチャする。 人工文書上で純粋に訓練された深層レイアウト検出モデルは,実文書を用いたモデルの性能に適合することを示す。

Analyzing the layout of a document to identify headers, sections, tables, figures etc. is critical to understanding its content. Deep learning based approaches for detecting the layout structure of document images have been promising. However, these methods require a large number of annotated examples during training, which are both expensive and time consuming to obtain. We describe here a synthetic document generator that automatically produces realistic documents with labels for spatial positions, extents and categories of the layout elements. The proposed generative process treats every physical component of a document as a random variable and models their intrinsic dependencies using a Bayesian Network graph. Our hierarchical formulation using stochastic templates allow parameter sharing between documents for retaining broad themes and yet the distributional characteristics produces visually unique samples, thereby capturing complex and diverse layouts. We empirically illustrate that a deep layout detection model trained purely on the synthetic documents can match the performance of a model that uses real documents.
翻訳日:2021-11-12 14:37:02 公開日:2021-11-11
# 視覚変換器に関する調査

A Survey of Visual Transformers ( http://arxiv.org/abs/2111.06091v1 )

ライセンス: Link先を確認
Yang Liu, Yao Zhang, Yixin Wang, Feng Hou, Jin Yuan, Jiang Tian, Yang Zhang, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) 注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。 この重要な成果に触発されて、Transformerのようなアーキテクチャをコンピュータビジョン(CV)の分野に適用する先駆的な研究が最近行われ、様々なCVタスクにおいてその効果が示された。 コンボリューションニューラルネット(cnn)と比較して、視覚トランスフォーマーはimagenet、coco、ade20kといった複数のベンチマークで印象的なパフォーマンスを達成している。 本稿では,3つの基本的なCVタスク(分類,検出,セグメンテーション)に対して,100以上の視覚変換器を包括的に検討し,その動機,構造,利用シナリオに応じてこれらの手法を体系化する分類法を提案する。 トレーニング設定と指向タスクの違いから,これらのメソッドをさまざまな構成で評価して,さまざまなベンチマークではなく,簡単かつ直感的な比較を行った。 さらに我々は、トランスフォーマーが視覚的およびシーケンシャルなトランスフォーマー間のギャップを埋めるために、高レベルのセマンティックな埋め込みをスラックするなど、多くのアーキテクチャから際立つことができるような、必要不可欠な側面を明らかにした。 最後に、3つの将来的な研究方向が、さらなる投資のために提案されている。

Transformer, an attention-based encoder-decoder architecture, has revolutionized the field of natural language processing. Inspired by this significant achievement, some pioneering works have recently been done on adapting Transformerliked architectures to Computer Vision (CV) fields, which have demonstrated their effectiveness on various CV tasks. Relying on competitive modeling capability, visual Transformers have achieved impressive performance on multiple benchmarks such as ImageNet, COCO, and ADE20k as compared with modern Convolution Neural Networks (CNN). In this paper, we have provided a comprehensive review of over one hundred different visual Transformers for three fundamental CV tasks (classification, detection, and segmentation), where a taxonomy is proposed to organize these methods according to their motivations, structures, and usage scenarios. Because of the differences in training settings and oriented tasks, we have also evaluated these methods on different configurations for easy and intuitive comparison instead of only various benchmarks. Furthermore, we have revealed a series of essential but unexploited aspects that may empower Transformer to stand out from numerous architectures, e.g., slack high-level semantic embeddings to bridge the gap between visual and sequential Transformers. Finally, three promising future research directions are suggested for further investment.
翻訳日:2021-11-12 14:36:46 公開日:2021-11-11
# マルチカメラシステムを用いたオープン手術ツールの分類と手活用

Open surgery tool classification and hand utilization using a multi-camera system ( http://arxiv.org/abs/2111.06098v1 )

ライセンス: Link先を確認
Kristina Basiev, Adam Goldbraikh, Carla M Pugh and Shlomi Laufer(参考訳) 目的: この研究の目的は, マルチカメラビデオを用いて手術用ツールを分類し, それぞれの手に保持するツールを特定することである。 マルチカメラシステムはオープン手術ビデオデータの閉塞を防ぐ。 さらに、全手術領域をカバーするトップビューカメラと、手の動きや解剖に焦点を当てたクローズアップカメラとを組み合わせることで、外科手術のワークフローをより包括的に見ることができる。 しかし、マルチカメラデータ融合は、新しい課題をもたらしている。 そこで我々は,グローバルグラウンドの真実を,その可視性を問わないツールとして定義した。 したがって、画像外にあるツールは、システムがビデオで見える変化に素早く反応している間に、長時間記憶されなければならない。 方法: 参加者 (n=48) は模擬開腸修復を行った。 トップビューとクローズアップカメラが使用された。 YOLOv5はツールと手の検出に使用された。 30フレーム/秒(fps)の1秒窓を持つ高周波lstmと、3fpsの40秒窓を持つ低周波lstmを用いて空間的、時間的、マルチカメラ統合を行った。 結果: トップビュー (0.88/0.88),クローズアップ (0.81,0.83), 両カメラ (0.9/0.9), 高fps LSTM (0.92/0.93), 低fps LSTM (0.9/0.91), 最終アーキテクチャはマルチカメラ分類器 (0.93/0.94) であった。 結論: マルチカメラアレイから高fpsと低fpsのシステムを組み合わせることにより, 地上真実の分類能力を向上した。

Purpose: The goal of this work is to use multi-camera video to classify open surgery tools as well as identify which tool is held in each hand. Multi-camera systems help prevent occlusions in open surgery video data. Furthermore, combining multiple views such as a Top-view camera covering the full operative field and a Close-up camera focusing on hand motion and anatomy, may provide a more comprehensive view of the surgical workflow. However, multi-camera data fusion poses a new challenge: a tool may be visible in one camera and not the other. Thus, we defined the global ground truth as the tools being used regardless their visibility. Therefore, tools that are out of the image should be remembered for extensive periods of time while the system responds quickly to changes visible in the video. Methods: Participants (n=48) performed a simulated open bowel repair. A Top-view and a Close-up cameras were used. YOLOv5 was used for tool and hand detection. A high frequency LSTM with a 1 second window at 30 frames per second (fps) and a low frequency LSTM with a 40 second window at 3 fps were used for spatial, temporal, and multi-camera integration. Results: The accuracy and F1 of the six systems were: Top-view (0.88/0.88), Close-up (0.81,0.83), both cameras (0.9/0.9), high fps LSTM (0.92/0.93), low fps LSTM (0.9/0.91), and our final architecture the Multi-camera classifier(0.93/0.94 ). Conclusion: By combining a system with a high fps and a low fps from the multiple camera array we improved the classification abilities of the global ground truth.
翻訳日:2021-11-12 14:36:25 公開日:2021-11-11
# 自動車衝突予測のための時空間グラフ埋め込み

Spatio-Temporal Scene-Graph Embedding for Autonomous Vehicle Collision Prediction ( http://arxiv.org/abs/2111.06123v1 )

ライセンス: Link先を確認
Arnav V. Malawade, Shih-Yuan Yu, Brandon Hsu, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 自動運転車(avs)では、早期警報システムは衝突予測に依存して乗員の安全を確保する。 しかし、深層畳み込みネットワークを用いた最先端の手法は衝突のモデル化に失敗するか、高価で低すぎるため、AVエッジハードウェアへの展開には適さない。 このような制約に対処するため,グラフニューラルネット(GNN)とLong Short-Term Memory(LSTM)層を用いた時空間シーングラフ埋め込み手法であるsg2vecを提案する。 sg2vecは,実世界の衝突データセットにおいて,合成データセットの最先端法よりも,8.11%,39.07%,29.47% の精度で衝突を予測できることを実証した。 また、sg2vecは、合成データセットから実世界の運転データセットへ知識を伝達する最先端技術よりも優れていることを示す。 最後に、sg2vecは88.0%の小型モデル、32.4%の消費電力、92.8%のエネルギーを業界標準のnvidia drive px 2プラットフォームにおける最先端の方法よりも少ないエネルギーで推論を9.3倍高速化し、エッジの実装に適していることを実証する。

In autonomous vehicles (AVs), early warning systems rely on collision prediction to ensure occupant safety. However, state-of-the-art methods using deep convolutional networks either fail at modeling collisions or are too expensive/slow, making them less suitable for deployment on AV edge hardware. To address these limitations, we propose sg2vec, a spatio-temporal scene-graph embedding methodology that uses Graph Neural Network (GNN) and Long Short-Term Memory (LSTM) layers to predict future collisions via visual scene perception. We demonstrate that sg2vec predicts collisions 8.11% more accurately and 39.07% earlier than the state-of-the-art method on synthesized datasets, and 29.47% more accurately on a challenging real-world collision dataset. We also show that sg2vec is better than the state-of-the-art at transferring knowledge from synthetic datasets to real-world driving datasets. Finally, we demonstrate that sg2vec performs inference 9.3x faster with an 88.0% smaller model, 32.4% less power, and 92.8% less energy than the state-of-the-art method on the industry-standard Nvidia DRIVE PX 2 platform, making it more suitable for implementation on the edge.
翻訳日:2021-11-12 14:35:54 公開日:2021-11-11
# クリックマター:対話型ヒューマンパーシングへ

Clicking Matters:Towards Interactive Human Parsing ( http://arxiv.org/abs/2111.06162v1 )

ライセンス: Link先を確認
Yutong Gao, Liqian Liang, Congyan Lang, Songhe Feng, Yidong Li, Yunchao Wei(参考訳) 本研究は,対話型ヒューマンパーシング(Interactive Human Parsing, IHP)に焦点を当て,人間の画像を複数の人体に分割し,ユーザのインタラクションから誘導することを目的とする。 この新しいタスクは、人間解析のクラス認識特性を継承しており、一般的にクラスに依存しない従来のインタラクティブなイメージセグメンテーションアプローチではうまく解決できない。 この新しいタスクに取り組むために、まず、ユーザークリックを利用して、画像中の異なる人間の部分を特定する。 これらのクリックはその後、意味認識のローカライゼーションマップに変換され、RGB画像と結合してセグメンテーションネットワークの入力を形成し、初期解析結果を生成する。 修正プロセスにおいて,ネットワークがユーザの目的をよりよく認識できるようにするため,改良のいくつかの主要な方法を調査し,ランダムサンプリングに基づくクリック拡張が修正の有効性を高める最善の方法であることを明らかにした。 さらに、より優れた最適化のために、クリックの意味関係を効果的に活用できる訓練を強化する意味認識損失(SP-loss)を提案する。 最善の知識として、この研究は対話的な環境下で人間のパースタスクに取り組む最初の試みである。 ベンチマークLIPでは85 % mIoU,PASCAL-Person-P artでは80 % mIoU,Helenでは75 % mIoU,クラス毎に1.95 ,3.02 , 2.84 および 1.09 クリックしか得られなかった。 これらの結果から,人的努力の少ない高品質なパーシングマスクを簡便に取得できることが示唆された。 この研究により、将来的にはより多くの研究者がihpのデータ効率の良いソリューションを開発できることを期待しています。

In this work, we focus on Interactive Human Parsing (IHP), which aims to segment a human image into multiple human body parts with guidance from users' interactions. This new task inherits the class-aware property of human parsing, which cannot be well solved by traditional interactive image segmentation approaches that are generally class-agnostic. To tackle this new task, we first exploit user clicks to identify different human parts in the given image. These clicks are subsequently transformed into semantic-aware localization maps, which are concatenated with the RGB image to form the input of the segmentation network and generate the initial parsing result. To enable the network to better perceive user's purpose during the correction process, we investigate several principal ways for the refinement, and reveal that random-sampling-base d click augmentation is the best way for promoting the correction effectiveness. Furthermore, we also propose a semantic-perceiving loss (SP-loss) to augment the training, which can effectively exploit the semantic relationships of clicks for better optimization. To the best knowledge, this work is the first attempt to tackle the human parsing task under the interactive setting. Our IHP solution achieves 85\% mIoU on the benchmark LIP, 80\% mIoU on PASCAL-Person-Part and CIHP, 75\% mIoU on Helen with only 1.95, 3.02, 2.84 and 1.09 clicks per class respectively. These results demonstrate that we can simply acquire high-quality human parsing masks with only a few human effort. We hope this work can motivate more researchers to develop data-efficient solutions to IHP in the future.
翻訳日:2021-11-12 14:35:27 公開日:2021-11-11
# 多変量脳波時系列における健康成果の早期予測

Benefit-aware Early Prediction of Health Outcomes on Multivariate EEG Time Series ( http://arxiv.org/abs/2111.06032v1 )

ライセンス: Link先を確認
Shubhranshu Shekhar, Dhivya Eswaran, Bryan Hooi, Jonathan Elmer, Christos Faloutsos, Leman Akoglu(参考訳) 心停止患者がICU(集中治療室)で脳活動を監視している場合、できるだけ早く健康状態を予測するにはどうすればよいか。 早期意思決定は多くのアプリケーションにおいて重要であり、例えば、患者を監視することは早期介入や治療の改善に役立つ。 一方、脳波データの早期予測にはいくつかの課題がある。 (i)被服従不正確性トレードオフ;より多くのデータを観察することは、しばしば正確性を高め、被服従性を犠牲にする。 (ii)大規模(訓練用)とストリーミング(オンライン意思決定)データ処理、及び (3)多変量(複数の電極による)および多変量(患者の滞在時間の変化による)時系列。 この現実世界のアプリケーションに触発されたBeneFitterは、早期の予測から得られた貯蓄を注入し、誤分類から利益と呼ばれる統一されたドメイン固有ターゲットへとコストを落とします。 これら2つの量を統合することで、1つの目標(すなわち利益)を直接見積もることができる。 利子 (a)効率的かつ高速で、入力シーケンス数に線形なトレーニング時間を持ち、意思決定のためにリアルタイムで操作することができる。 (b)患者データに適した多変量および可変長時系列を扱うことができる。 (c) は有効であり、競合に比べて最大2倍の時間節約が可能となる。

Given a cardiac-arrest patient being monitored in the ICU (intensive care unit) for brain activity, how can we predict their health outcomes as early as possible? Early decision-making is critical in many applications, e.g. monitoring patients may assist in early intervention and improved care. On the other hand, early prediction on EEG data poses several challenges: (i) earliness-accuracy trade-off; observing more data often increases accuracy but sacrifices earliness, (ii) large-scale (for training) and streaming (online decision-making) data processing, and (iii) multi-variate (due to multiple electrodes) and multi-length (due to varying length of stay of patients) time series. Motivated by this real-world application, we present BeneFitter that infuses the incurred savings from an early prediction as well as the cost from misclassification into a unified domain-specific target called benefit. Unifying these two quantities allows us to directly estimate a single target (i.e. benefit), and importantly, dictates exactly when to output a prediction: when benefit estimate becomes positive. BeneFitter (a) is efficient and fast, with training time linear in the number of input sequences, and can operate in real-time for decision-making, (b) can handle multi-variate and variable-length time-series, suitable for patient data, and (c) is effective, providing up to 2x time-savings with equal or better accuracy as compared to competitors.
翻訳日:2021-11-12 14:33:02 公開日:2021-11-11
# fedgreen:グリーンモバイルエッジコンピューティングのための細粒度勾配圧縮によるフェデレーション学習

FedGreen: Federated Learning with Fine-Grained Gradient Compression for Green Mobile Edge Computing ( http://arxiv.org/abs/2111.06146v1 )

ライセンス: Link先を確認
Peichun Li, Xumin Huang, Miao Pan, Rong Yu(参考訳) federated learning(fl)は、モバイルエッジコンピューティング(mec)のデバイスが、ローカルデータをアップロードせずに共有モデルを協調的にトレーニングできるようにする。 グラディエント圧縮は通信オーバーヘッドを軽減するためにFLに適用できるが、勾配圧縮を伴う現在のFLは依然として大きな課題に直面している。 グリーンMECをデプロイするために,FedGreenを提案する。このFedGreenは,デバイス全体のエネルギー消費を効率よく制御するために,きめ細かな勾配圧縮によりオリジナルのFLを強化する。 具体的には,flの勾配圧縮を容易にするために,デバイス側勾配低減やサーバ側要素アグリゲーションなどの関連操作を導入する。 公開データセットによると、圧縮された局所勾配の圧縮比に対する寄与について検討する。 その後,各装置の最適圧縮率と演算周波数を導出する学習精度とエネルギー効率のトレードオフ問題を定式化し,解決する。 実験の結果、ベースライン方式と比較して80%のテスト精度が要求されているため、FedGreenはデバイス全体のエネルギー消費量の少なくとも32%を削減している。

Federated learning (FL) enables devices in mobile edge computing (MEC) to collaboratively train a shared model without uploading the local data. Gradient compression may be applied to FL to alleviate the communication overheads but current FL with gradient compression still faces great challenges. To deploy green MEC, we propose FedGreen, which enhances the original FL with fine-grained gradient compression to efficiently control the total energy consumption of the devices. Specifically, we introduce the relevant operations including device-side gradient reduction and server-side element-wise aggregation to facilitate the gradient compression in FL. According to a public dataset, we investigate the contributions of the compressed local gradients with respect to different compression ratios. After that, we formulate and tackle a learning accuracy-energy efficiency tradeoff problem where the optimal compression ratio and computing frequency are derived for each device. Experiments results demonstrate that given the 80% test accuracy requirement, compared with the baseline schemes, FedGreen reduces at least 32% of the total energy consumption of the devices.
翻訳日:2021-11-12 14:32:39 公開日:2021-11-11
# 臨床結果に対するフレキシブル調整による電子健康記録の経時的成層化

Longitudinal patient stratification of electronic health records with flexible adjustment for clinical outcomes ( http://arxiv.org/abs/2111.06152v1 )

ライセンス: Link先を確認
Oliver Carr, Avelino Javer, Patrick Rockenschaub, Owen Parsons, Robert D\"urichen(参考訳) 縦断的電子健康記録(EHR)データの利用率の増加は、疾患の理解の向上と新しい表現型の発見につながっている。 クラスタリングアルゴリズムの大半は患者軌跡のみに焦点を当てているが、類似した軌跡を持つ患者は異なる結果をもたらす可能性がある。 軌跡や結果の異なる患者のサブグループを見つけることは、将来の薬物開発を導き、臨床試験への採用を改善することができる。 我々は、再建、結果、クラスタリング損失を用いて、ERHデータをクラスタリングするための繰り返しニューラルネットワークオートエンコーダを開発し、異なるタイプの患者クラスタを見つけるために重み付けできる。 我々のモデルは、データバイアスと結果差の両方から既知のクラスタを発見でき、ベースラインモデルより優れています。 我々は,29,229ドルの糖尿病患者に対するモデル性能を実証し,臨床的意思決定の助けとなりうる,軌跡の異なる患者群と結果の異なる患者群を見出した。

The increase in availability of longitudinal electronic health record (EHR) data is leading to improved understanding of diseases and discovery of novel phenotypes. The majority of clustering algorithms focus only on patient trajectories, yet patients with similar trajectories may have different outcomes. Finding subgroups of patients with different trajectories and outcomes can guide future drug development and improve recruitment to clinical trials. We develop a recurrent neural network autoencoder to cluster EHR data using reconstruction, outcome, and clustering losses which can be weighted to find different types of patient clusters. We show our model is able to discover known clusters from both data biases and outcome differences, outperforming baseline models. We demonstrate the model performance on $29,229$ diabetes patients, showing it finds clusters of patients with both different trajectories and different outcomes which can be utilized to aid clinical decision making.
翻訳日:2021-11-12 14:32:22 公開日:2021-11-11
# (参考訳) ロボット操作のための視覚制御ポリシーへの運動プランナーの蒸留 [全文訳有]

Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation ( http://arxiv.org/abs/2111.06383v1 )

ライセンス: CC BY 4.0
I-Chun Arthur Liu and Shagun Uppal and Gaurav S. Sukhatme and Joseph J. Lim and Peter Englert and Youngwoon Lee(参考訳) 現実的で障害のある環境で複雑な操作タスクを学習することは、障害物の存在や高次元の視覚的観察が難しいため、難しい問題である。 先行研究は、運動計画と強化学習を統合して探索問題に取り組む。 しかし、モーションプランナー拡張ポリシーでは状態情報へのアクセスが必要であり、現実の設定では利用できないことが多い。 そこで本研究では,(1)視覚的行動クローン化による動作プランナ依存性の除去と,(2)動作クローン化剤からのスムーズな軌跡の誘導による視覚的強化学習により,状態ベースの運動プランナ拡張ポリシを視覚制御ポリシに蒸留することを提案する。 閉塞環境における3つの操作課題について評価し,様々な強化学習や模倣学習ベースラインと比較した。 その結果、このフレームワークはサンプル効率が高く、最先端のアルゴリズムよりも優れています。 さらに,ドメインのランダム化と相まって,注意をそそらない環境設定へのゼロショット転送が可能となる。 コードとビデオはhttps://clvrai.com/m opa-pdで入手できる。

Learning complex manipulation tasks in realistic, obstructed environments is a challenging problem due to hard exploration in the presence of obstacles and high-dimensional visual observations. Prior work tackles the exploration problem by integrating motion planning and reinforcement learning. However, the motion planner augmented policy requires access to state information, which is often not available in the real-world settings. To this end, we propose to distill a state-based motion planner augmented policy to a visual control policy via (1) visual behavioral cloning to remove the motion planner dependency along with its jittery motion, and (2) vision-based reinforcement learning with the guidance of the smoothed trajectories from the behavioral cloning agent. We evaluate our method on three manipulation tasks in obstructed environments and compare it against various reinforcement learning and imitation learning baselines. The results demonstrate that our framework is highly sample-efficient and outperforms the state-of-the-art algorithms. Moreover, coupled with domain randomization, our policy is capable of zero-shot transfer to unseen environment settings with distractors. Code and videos are available at https://clvrai.com/m opa-pd
翻訳日:2021-11-12 14:29:49 公開日:2021-11-11
# 量子モデル発見

Quantum Model-Discovery ( http://arxiv.org/abs/2111.06376v1 )

ライセンス: Link先を確認
Niklas Heim, Atiyo Ghosh, Oleksandr Kyriienko, Vincent E. Elfving(参考訳) 量子コンピューティングは、科学と工学における最も難しい問題をスピードアップする。 量子アルゴリズムは化学からロジスティクス最適化まで幅広い応用において理論的利点を示す。 科学や工学に現れる多くの問題は微分方程式の集合として書き直すことができる。 微分方程式を解くための量子アルゴリズムは、深い量子回路を用いて偏微分方程式(PDE)のような大きな線形系を効率的に解くことができ、フォールトトレラントな量子コンピューティングシステムにおいて証明可能な優位性を示している。 近年,近距離量子デバイスを用いた非線形PDEの解法が提案されている。 最も有望な一般的なアプローチの1つは、PDEを解くための科学機械学習の分野での最近の発展に基づいている。 近未来の量子コンピュータは、データ集合から微分方程式の発見を含む、より一般的な科学的な機械学習タスクに応用できる。 我々は微分可能量子回路(DQC)を用いて演算子のライブラリによってパラメータ化される方程式を解き、データと方程式の組み合わせで回帰を行う。 本結果は,古典的および量子機械学習アプローチのインターフェース上で,量子モデル探索(QMoD)への有望な経路を示す。 2階、常微分方程式および非線形偏微分方程式を含む異なる系において、qmodを用いたパラメータ推定と方程式発見が成功した。

Quantum computing promises to speed up some of the most challenging problems in science and engineering. Quantum algorithms have been proposed showing theoretical advantages in applications ranging from chemistry to logistics optimization. Many problems appearing in science and engineering can be rewritten as a set of differential equations. Quantum algorithms for solving differential equations have shown a provable advantage in the fault-tolerant quantum computing regime, where deep and wide quantum circuits can be used to solve large linear systems like partial differential equations (PDEs) efficiently. Recently, variational approaches to solving non-linear PDEs also with near-term quantum devices were proposed. One of the most promising general approaches is based on recent developments in the field of scientific machine learning for solving PDEs. We extend the applicability of near-term quantum computers to more general scientific machine learning tasks, including the discovery of differential equations from a dataset of measurements. We use differentiable quantum circuits (DQCs) to solve equations parameterized by a library of operators, and perform regression on a combination of data and equations. Our results show a promising path to Quantum Model Discovery (QMoD), on the interface between classical and quantum machine learning approaches. We demonstrate successful parameter inference and equation discovery using QMoD on different systems including a second-order, ordinary differential equation and a non-linear, partial differential equation.
翻訳日:2021-11-12 14:10:42 公開日:2021-11-11
# mmWave信号を用いたドメイン独立・リアルタイムジェスチャー認識に向けて

Towards Domain-Independent and Real-Time Gesture Recognition Using mmWave Signal ( http://arxiv.org/abs/2111.06195v1 )

ライセンス: Link先を確認
Yadong Li, Dongheng Zhang, Jinbo Chen, Jinwei Wan, Dong Zhang, Yang Hu, Qibin Sun, Yan Chen(参考訳) ミリ波(mmWave)信号を用いた人間のジェスチャー認識は、スマートホームや車載インターフェースなどの魅力的な応用を提供する。 既存の作品は、制御された環境では有望なパフォーマンスを達成しているが、集中的なデータ収集の必要性、新しいドメイン(環境、人、場所)への適応における追加のトレーニング作業、リアルタイム認識のパフォーマンス不足などにより、実用アプリケーションは依然として制限されている。 本稿では,ドメインに依存しないリアルタイムな mmWave ジェスチャー認識システム DI-Gesture を提案する。 具体的には、まず、時空間処理による人間のジェスチャーに対応する信号変化を導出する。 システムのロバスト性を高め,データ収集の労力を削減するため,信号パターンとジェスチャーのバリエーションの相関に基づいてデータ拡張フレームワークを設計する。 さらに,ジェスチャーのセグメンテーションを自動的かつ正確に行う動的ウィンドウ機構を提案し,リアルタイム認識を実現する。 最後に、ジェスチャー分類のためのデータから時空間情報を抽出する軽量ニューラルネットワークを構築する。 大規模な実験の結果、DI-Gestureの精度は97.92%、99.18%、98.76%となっている。 リアルタイムのシナリオでは、di-gesutreの精度は平均推算時間2.87msで97%以上に達し、システムの優れた堅牢性と有効性を示している。

Human gesture recognition using millimeter wave (mmWave) signals provides attractive applications including smart home and in-car interface. While existing works achieve promising performance under controlled settings, practical applications are still limited due to the need of intensive data collection, extra training efforts when adapting to new domains (i.e. environments, persons and locations) and poor performance for real-time recognition. In this paper, we propose DI-Gesture, a domain-independent and real-time mmWave gesture recognition system. Specifically, we first derive the signal variation corresponding to human gestures with spatial-temporal processing. To enhance the robustness of the system and reduce data collecting efforts, we design a data augmentation framework based on the correlation between signal patterns and gesture variations. Furthermore, we propose a dynamic window mechanism to perform gesture segmentation automatically and accurately, thus enable real-time recognition. Finally, we build a lightweight neural network to extract spatial-temporal information from the data for gesture classification. Extensive experimental results show DI-Gesture achieves an average accuracy of 97.92%, 99.18% and 98.76% for new users, environments and locations, respectively. In real-time scenario, the accuracy of DI-Gesutre reaches over 97% with average inference time of 2.87ms, which demonstrates the superior robustness and effectiveness of our system.
翻訳日:2021-11-12 14:10:20 公開日:2021-11-11
# 逆境汚職を伴うカルマンフィルタリング

Kalman Filtering with Adversarial Corruptions ( http://arxiv.org/abs/2111.06395v1 )

ライセンス: Link先を確認
Sitan Chen, Frederic Koehler, Ankur Moitra, Morris Yau(参考訳) ここでは,線形二次推定の古典的な問題,すなわち騒音測定から線形力学系の軌道の推定について再検討する。 有名なカルマンフィルタは、測定ノイズがガウス的であるときに最適推定器を与えるが、この仮定から逸脱した場合、例えばノイズが重みを帯びている場合など、広く知られている。 多くのアドホックヒューリスティックは、外れ値を扱うために実践的に採用されている。 先駆的な研究において、シックとミッターは、測定ノイズがガウスの既知の無限小摂動であるときに証明可能な保証を与え、大きく未知の摂動に対して同様の保証が得られるかどうかという重要な疑問を提起した。 この研究において、我々は真に堅牢なフィルタを与える: 一定量の測定が逆向きに破損したとしても、線形二次推定の証明可能な最初の強い保証を与える。 このフレームワークはヘビーテールや非定常ノイズプロセスもモデル化できる。 我々のアルゴリズムは、汚職の位置を知る最適なアルゴリズムと競合するという意味でカルマンフィルタを強固にする。 私たちの作業は,測定値の数を見積もる必要のあるものの複雑さとともにスケールする,ベイズ的な状況にあります。 さらに、線形力学系では、情報が時間とともに減衰する。 我々は、異なる時間ステップと異なる時間スケールにまたがる情報を堅牢に抽出する一連の新しい技術を開発した。

Here we revisit the classic problem of linear quadratic estimation, i.e. estimating the trajectory of a linear dynamical system from noisy measurements. The celebrated Kalman filter gives an optimal estimator when the measurement noise is Gaussian, but is widely known to break down when one deviates from this assumption, e.g. when the noise is heavy-tailed. Many ad hoc heuristics have been employed in practice for dealing with outliers. In a pioneering work, Schick and Mitter gave provable guarantees when the measurement noise is a known infinitesimal perturbation of a Gaussian and raised the important question of whether one can get similar guarantees for large and unknown perturbations. In this work we give a truly robust filter: we give the first strong provable guarantees for linear quadratic estimation when even a constant fraction of measurements have been adversarially corrupted. This framework can model heavy-tailed and even non-stationary noise processes. Our algorithm robustifies the Kalman filter in the sense that it competes with the optimal algorithm that knows the locations of the corruptions. Our work is in a challenging Bayesian setting where the number of measurements scales with the complexity of what we need to estimate. Moreover, in linear dynamical systems past information decays over time. We develop a suite of new techniques to robustly extract information across different time steps and over varying time scales.
翻訳日:2021-11-12 14:09:56 公開日:2021-11-11
# Objectosphere を用いたオープンワールド学習環境におけるラマン分光

Raman spectroscopy in open world learning settings using the Objectosphere approach ( http://arxiv.org/abs/2111.06268v1 )

ライセンス: Link先を確認
Yaroslav Balytskyi, Justin Bendesky, Tristan Paul, Guy Hagen, Kelly McNear(参考訳) ラマン分光法と機械学習の組み合わせは、迅速で高感度でラベルなしの識別法として臨床現場での使用に有望である。 これらのアプローチは、トレーニングフェーズ中に発生するクラスを含むデータの分類においてうまく機能する。 しかし、実際には、常にスペクトルが取られていない、あるいはまだ知られていない物質が存在し、入力データがトレーニングセットから遠くて、トレーニング段階では見られなかった新しいクラスを含んでいる場合、これらのアルゴリズムの臨床的妥当性を制限するかなりの数の偽陽性が記録される。 本稿では,最近導入されたEntropic Open SetとObjectosphere損失関数を実装することで,これらの障害を克服できることを示す。 この手法の効率性を示すために,40種類の化学クラスからなるラマンスペクトルのデータベースを,アミノ酸からなる20の生物関連クラス,生物関連化学物質からなる10の無関係クラス,およびニューラルネットワークがこれまで見たことのない10のクラスに分けて,他の化学物質から構成した。 この手法により,未知のクラスを効果的に識別し,既知のクラスに対して高い精度を保ちながら,偽陽性の数を劇的に削減し,既知のクラスで高い精度を保ち,実験と臨床のギャップを埋めることが可能となる。

Raman spectroscopy in combination with machine learning has significant promise for applications in clinical settings as a rapid, sensitive, and label-free identification method. These approaches perform well in classifying data that contains classes that occur during the training phase. However, in practice, there are always substances whose spectra have not yet been taken or are not yet known and when the input data are far from the training set and include new classes that were not seen at the training stage, a significant number of false positives are recorded which limits the clinical relevance of these algorithms. Here we show that these obstacles can be overcome by implementing recently introduced Entropic Open Set and Objectosphere loss functions. To demonstrate the efficiency of this approach, we compiled a database of Raman spectra of 40 chemical classes separating them into 20 biologically relevant classes comprised of amino acids, 10 irrelevant classes comprised of bio-related chemicals, and 10 classes that the Neural Network has not seen before, comprised of a variety of other chemicals. We show that this approach enables the network to effectively identify the unknown classes while preserving high accuracy on the known ones, dramatically reducing the number of false positives while preserving high accuracy on the known classes, which will allow this technique to bridge the gap between laboratory experiments and clinical applications.
翻訳日:2021-11-12 14:09:10 公開日:2021-11-11
# ヘイトスピーチ検出のための文字レベルハイパーネットワーク

Character-level HyperNetworks for Hate Speech Detection ( http://arxiv.org/abs/2111.06336v1 )

ライセンス: Link先を確認
Tomer Wullach, Amir Adler, Einat Minkov(参考訳) ヘイトスピーチの大規模な拡散、特定のサブ人口をターゲットとするヘイトフルコンテンツは、重要な社会的重要性の問題である。 ヘイトスピーチ検出の自動化方法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器(1億以上のパラメータからなる非常に大規模なトレーニング済みのニューラルネットワークモデル)を使用し、関連するラベル付きデータセットを使用してヘイトスピーチ検出のタスクにこれらのモデルを適応させる。 残念ながら、この目的のために利用可能な限定サイズのラベル付きデータセットは少なくありません。 我々は、この状況を前進させる可能性の高いいくつかの貢献をしている。 本稿では,小型補助ネットワークによって重み付けが制御される特殊なdlネットワークであるヘイトスピーチ検出のためのハイパーネットワークを提案する。 これらのアーキテクチャは単語レベルとは対照的に文字レベルで動作し、人気のあるdl分類器よりも数桁小さい。 さらに,大量の自動生成例を用いたヘイト検出分類器の訓練は,itデータ拡張法として一般的に有用であるが,提案するハイパーネットワークの性能が向上することを示す。 実際、我々は5つの公開ヘイトスピーチデータセットを用いて評価したこのアプローチを用いて、事前学習され、桁違いに大きい最先端の言語モデルと同等または優れたパフォーマンスを達成する。

The massive spread of hate speech, hateful content targeted at specific subpopulations, is a problem of critical social importance. Automated methods for hate speech detection typically employ state-of-the-art deep learning (DL)-based text classifiers-very large pre-trained neural language models of over 100 million parameters, adapting these models to the task of hate speech detection using relevant labeled datasets. Unfortunately, there are only numerous labeled datasets of limited size that are available for this purpose. We make several contributions with high potential for advancing this state of affairs. We present HyperNetworks for hate speech detection, a special class of DL networks whose weights are regulated by a small-scale auxiliary network. These architectures operate at character-level, as opposed to word-level, and are several magnitudes of order smaller compared to the popular DL classifiers. We further show that training hate detection classifiers using large amounts of automatically generated examples in a procedure named as it data augmentation is beneficial in general, yet this practice especially boosts the performance of the proposed HyperNetworks. In fact, we achieve performance that is comparable or better than state-of-the-art language models, which are pre-trained and orders of magnitude larger, using this approach, as evaluated using five public hate speech datasets.
翻訳日:2021-11-12 14:07:07 公開日:2021-11-11
# (参考訳) 間違いから学ぶ -- ニューラルアーキテクチャ検索のためのフレームワーク [全文訳有]

Learning from Mistakes -- A Framework for Neural Architecture Search ( http://arxiv.org/abs/2111.06353v1 )

ライセンス: CC BY 4.0
Bhanu Garg, Li Zhang, Pradyumna Sridhara, Ramtin Hosseini, Eric Xing, Pengtao Xie(参考訳) 間違いから学ぶことは、学習者が間違いを犯したトピックに集中し、理解を深める効果的なヒューマンラーニング手法である。 本稿では,この人間の学習戦略が機械学習に応用できるかどうかを検討する。 そこで本研究では,学習者が修正時の誤りにもっと集中することで学習能力を向上させる学習手法である learning from mistakes (lfm) を提案する。 3段階最適化問題として LFM を定式化する。 1)学習者は,学習する 2) 誤りに着目した学習者が再学習し, 3)学習者は学習を検証する。 LFM問題を解決するための効率的なアルゴリズムを開発した。 CIFAR-10, CIFAR-100, Imagenet 上のニューラルネットワーク探索に LFM フレームワークを適用した。 実験結果は,本モデルの有効性を強く示している。

Learning from one's mistakes is an effective human learning technique where the learners focus more on the topics where mistakes were made, so as to deepen their understanding. In this paper, we investigate if this human learning strategy can be applied in machine learning. We propose a novel machine learning method called Learning From Mistakes (LFM), wherein the learner improves its ability to learn by focusing more on the mistakes during revision. We formulate LFM as a three-stage optimization problem: 1) learner learns; 2) learner re-learns focusing on the mistakes, and; 3) learner validates its learning. We develop an efficient algorithm to solve the LFM problem. We apply the LFM framework to neural architecture search on CIFAR-10, CIFAR-100, and Imagenet. Experimental results strongly demonstrate the effectiveness of our model.
翻訳日:2021-11-12 14:04:41 公開日:2021-11-11
# BOiLS:論理合成のためのベイズ最適化

BOiLS: Bayesian Optimisation for Logic Synthesis ( http://arxiv.org/abs/2111.06178v1 )

ライセンス: Link先を確認
Antoine Grosnit, Cedric Malherbe, Rasul Tutunov, Xingchen Wan, Jun Wang, Haitham Bou Ammar(参考訳) 論理合成における回路品質(QoR)の最適化は、指数関数的にサイズの検索空間の探索を必要とする重大な課題である。 専門家が設計した操作は効果的なシーケンスを明らかにするのに役立つが、論理回路の複雑さの増加は自動手順を好む。 機械学習の成功に触発された研究者たちは、ディープラーニングと強化学習をロジック合成アプリケーションに適用した。 しかし、これらの技術は広く普及するのを防ぐため、高いサンプルの複雑さに悩まされる。 効率的でスケーラブルな解を実現するために,現代ベイズ最適化を適用して合成操作の空間をナビゲートする最初のアルゴリズムBOiLSを提案する。 boilsは人間の介入を必要とせず、新たなガウス過程カーネルと信頼領域の制約付き買収を通じて、探索と搾取を効果的にトレードオフする。 EPFLベンチマークの一連の実験では,サンプル効率とQoR値の両方の観点から,BOiLSの最先端性能を実証した。

Optimising the quality-of-results (QoR) of circuits during logic synthesis is a formidable challenge necessitating the exploration of exponentially sized search spaces. While expert-designed operations aid in uncovering effective sequences, the increase in complexity of logic circuits favours automated procedures. Inspired by the successes of machine learning, researchers adapted deep learning and reinforcement learning to logic synthesis applications. However successful, those techniques suffer from high sample complexities preventing widespread adoption. To enable efficient and scalable solutions, we propose BOiLS, the first algorithm adapting modern Bayesian optimisation to navigate the space of synthesis operations. BOiLS requires no human intervention and effectively trades-off exploration versus exploitation through novel Gaussian process kernels and trust-region constrained acquisitions. In a set of experiments on EPFL benchmarks, we demonstrate BOiLS's superior performance compared to state-of-the-art in terms of both sample efficiency and QoR values.
翻訳日:2021-11-12 13:49:42 公開日:2021-11-11
# ビデオセグメンテーションのための難読教師なし学習

Dense Unsupervised Learning for Video Segmentation ( http://arxiv.org/abs/2111.06265v1 )

ライセンス: Link先を確認
Nikita Araslanov, Simone Schaub-Meyer and Stefan Roth(参考訳) 本稿では,ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習手法を提案する。 従来の研究と異なり、我々の定式化は、完全な畳み込み方式で、密集した特徴表現を直接学習することができる。 我々は、一様グリッドサンプリングを用いてアンカーの集合を抽出し、ビデオ間レベルと動画内レベルの両方でそれらを曖昧にするためにモデルを訓練する。 しかし、そのようなモデルを訓練する素案は退化解をもたらす。 分割タスクの同値性を類似性変換に適合させる単純な正規化スキームでこれを防止することを提案する。 我々の訓練目標は、効率的な実施を認め、迅速な訓練収束を示す。 確立されたVOSベンチマークでは、トレーニングデータや計算能力が大幅に少ないにもかかわらず、従来の作業のセグメンテーション精度を上回っている。

We present a novel approach to unsupervised learning for video object segmentation (VOS). Unlike previous work, our formulation allows to learn dense feature representations directly in a fully convolutional regime. We rely on uniform grid sampling to extract a set of anchors and train our model to disambiguate between them on both inter- and intra-video levels. However, a naive scheme to train such a model results in a degenerate solution. We propose to prevent this with a simple regularisation scheme, accommodating the equivariance property of the segmentation task to similarity transformations. Our training objective admits efficient implementation and exhibits fast training convergence. On established VOS benchmarks, our approach exceeds the segmentation accuracy of previous work despite using significantly less training data and compute power.
翻訳日:2021-11-12 13:47:07 公開日:2021-11-11
# オブジェクトネスの出現:ビデオからゼロショットセグメンテーションを学ぶ

The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos ( http://arxiv.org/abs/2111.06394v1 )

ライセンス: Link先を確認
Runtao Liu, Zhirong Wu, Stella X. Yu, Stephen Lin(参考訳) 人間は動く物体を何であるかを知らずに簡単に分割することができる。 連続的な視覚的な観察からその目的が生まれると、私たちはグループ化をモデル化し、ラベルのないビデオから同時に動きます。 我々の前提は、動画は移動コンポーネントによって同じシーンの異なるビューを持ち、適切な領域分割と領域フローは、外部の監視なしにデータ自体からチェックできる相互ビュー合成を可能にすることである。 モデルでは,1つの画像に対して特徴に基づく領域分割を出力する出現経路と,1つの画像に対して動作特徴を出力する動き経路の2つから始める。 その後、セグメントフローと呼ばれる結合表現に結合し、各領域のオフセットをプールし、シーン全体の移動領域の全体的特徴を提供する。 セグメンテーションフローに基づくビュー合成誤差を最小化するためにモデルを訓練することにより,出現経路と運動経路は低レベルエッジや光フローから構築することなく,領域のセグメンテーションとフロー推定を自動的に学習する。 本モデルでは,画像からのゼロショットオブジェクトセグメンテーション,教師なしテスト時間適応によるビデオからのオブジェクトセグメンテーション,教師付き微調整によるセマンティックイメージセグメンテーションなど,外観経路におけるオブジェクトの驚くほどの出現を示す。 私たちの作品は、ビデオからの真にエンドツーエンドのゼロショットオブジェクトセグメンテーションです。 セグメンテーションとトラッキングのための汎用的オブジェクトネスを発達させるだけでなく、拡張工学を使わずに画像ベースのコントラスト学習方法よりも優れている。

Humans can easily segment moving objects without knowing what they are. That objectness could emerge from continuous visual observations motivates us to model grouping and movement concurrently from unlabeled videos. Our premise is that a video has different views of the same scene related by moving components, and the right region segmentation and region flow would allow mutual view synthesis which can be checked from the data itself without any external supervision. Our model starts with two separate pathways: an appearance pathway that outputs feature-based region segmentation for a single image, and a motion pathway that outputs motion features for a pair of images. It then binds them in a conjoint representation called segment flow that pools flow offsets over each region and provides a gross characterization of moving regions for the entire scene. By training the model to minimize view synthesis errors based on segment flow, our appearance and motion pathways learn region segmentation and flow estimation automatically without building them up from low-level edges or optical flows respectively. Our model demonstrates the surprising emergence of objectness in the appearance pathway, surpassing prior works on zero-shot object segmentation from an image, moving object segmentation from a video with unsupervised test-time adaptation, and semantic image segmentation by supervised fine-tuning. Our work is the first truly end-to-end zero-shot object segmentation from videos. It not only develops generic objectness for segmentation and tracking, but also outperforms prevalent image-based contrastive learning methods without augmentation engineering.
翻訳日:2021-11-12 13:46:54 公開日:2021-11-11
# エージェントスペース

Agent Spaces ( http://arxiv.org/abs/2111.06005v1 )

ライセンス: Link先を確認
John C. Raisbeck, Matthew W. Allen, Hakho Lee(参考訳) 強化学習における探索は最も重要なタスクの1つだが、動的プログラミングパラダイムにおける有限問題以外には明確に定義されていない(第2.4条参照)。 オンライン学習手法にも適用可能な探索の再解釈を提案する。 新しい方向からの探索に近付くことで、この定義にたどり着きます。 動的プログラミングによる単純なマルコフ決定プロセスを解決するために作られた探索の概念は、もはや広く適用されないことを発見した後、調査を再検討する。 ダイナミックな探索手順の終了を延ばす代わりに、その手段を拡張します。 すなわち、プロセスで可能なすべての状態-アクションペアを繰り返しサンプリングするのではなく、エージェント自体を爆発的に修正する行為を定義します。 その結果得られる探索の定義は無限問題や非動的学習法にも適用でき、探索のダイナミックな概念は許容できない。 エージェントの修正が学習にどのように影響するかを理解するため、エージェントの集合の新たな構造について説明する: プロセスで可能な各エージェントの視点を表す距離の集合(フットノート7参照) $d_{a} \in a$。 これらの距離を用いてトポロジーを定義し、強化学習における多くの重要な構造がエージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。

Exploration is one of the most important tasks in Reinforcement Learning, but it is not well-defined beyond finite problems in the Dynamic Programming paradigm (see Subsection 2.4). We provide a reinterpretation of exploration which can be applied to any online learning method. We come to this definition by approaching exploration from a new direction. After finding that concepts of exploration created to solve simple Markov decision processes with Dynamic Programming are no longer broadly applicable, we reexamine exploration. Instead of extending the ends of dynamic exploration procedures, we extend their means. That is, rather than repeatedly sampling every state-action pair possible in a process, we define the act of modifying an agent to itself be explorative. The resulting definition of exploration can be applied in infinite problems and non-dynamic learning methods, which the dynamic notion of exploration cannot tolerate. To understand the way that modifications of an agent affect learning, we describe a novel structure on the set of agents: a collection of distances (see footnote 7) $d_{a} \in A$, which represent the perspectives of each agent possible in the process. Using these distances, we define a topology and show that many important structures in Reinforcement Learning are well behaved under the topology induced by convergence in the agent space.
翻訳日:2021-11-12 13:46:08 公開日:2021-11-11
# (参考訳) 危機ツイートにおけるきめ細かな位置情報の特定 [全文訳有]

Identification of Fine-Grained Location Mentions in Crisis Tweets ( http://arxiv.org/abs/2111.06334v1 )

ライセンス: CC BY 4.0
Sarthak Khanal, Maria Traskowsky, Doina Caragea(参考訳) 危機的ツイートにおける詳細な位置情報の特定は、ソーシャルメディアから抽出された状況認識情報を行動可能な情報に変換することの中心である。 以前のほとんどの作品は、特定の型を考慮せずに、ジェネリックな位置を特定することに重点を置いてきた。 きめ細かな位置情報識別タスクの進捗を促進するために,2つのつぶやき危機データセットを手作業でアノテートし,特定の位置情報タイプにアノテートする。 第1のデータセットは、さまざまな危機イベントからのツイート、第2のデータセットは、世界的な新型コロナウイルス(covid-19)パンデミックのツイートを含む。 ドメイン内およびドメイン間の両方の設定において、これらのデータセットのシーケンスタグ付けのための最先端ディープラーニングモデルの性能について検討する。

Identification of fine-grained location mentions in crisis tweets is central in transforming situational awareness information extracted from social media into actionable information. Most prior works have focused on identifying generic locations, without considering their specific types. To facilitate progress on the fine-grained location identification task, we assemble two tweet crisis datasets and manually annotate them with specific location types. The first dataset contains tweets from a mixed set of crisis events, while the second dataset contains tweets from the global COVID-19 pandemic. We investigate the performance of state-of-the-art deep learning models for sequence tagging on these datasets, in both in-domain and cross-domain settings.
翻訳日:2021-11-12 13:44:09 公開日:2021-11-11
# マルチタスク強化学習によるロバスト知識グラフ埋め込みに向けて

Towards Robust Knowledge Graph Embedding via Multi-task Reinforcement Learning ( http://arxiv.org/abs/2111.06103v1 )

ライセンス: Link先を確認
Zhao Zhang, Fuzhen Zhuang, Hengshu Zhu, Chao Li, Hui Xiong, Qing He and Yongjun Xu(参考訳) 近年、知識グラフ(KG)はAI関連のアプリケーションにおいて重要な役割を演じている。 大きなサイズにもかかわらず、既存のKGは完全で包括的ではない。 KGを継続的に強化するためには、自動知識構築と更新機構が通常利用され、必然的に多くのノイズをもたらす。 しかし、既存の知識グラフ埋め込み(KGE)法の多くは、KGの3つの事実はすべて正しいと仮定し、ノイズや知識の矛盾を考慮せずに実体と関係を低次元空間に投影する。 これはKGの低品質かつ信頼性の低い表現につながる。 そこで本稿では,ノイズの多いデータ問題を大幅に軽減できる汎用マルチタスク強化学習フレームワークを提案する。 提案手法では,高質な知識トリプルの選択に強化学習を活用し,ノイズの多い知識をフィルタリングする。 また、意味論的に類似した関係間の相関を最大限に活用するために、類似関係の3重選択過程をマルチタスク学習の集合的な方法で訓練する。 さらに,提案フレームワークにより,一般的なKGEモデルであるTransE,DistMult,Conv E,RotatEを拡張した。 最後に,本手法が既存のKGEモデルを拡張し,ノイズのあるシナリオでKGのより堅牢な表現を提供できることを示す。

Nowadays, Knowledge graphs (KGs) have been playing a pivotal role in AI-related applications. Despite the large sizes, existing KGs are far from complete and comprehensive. In order to continuously enrich KGs, automatic knowledge construction and update mechanisms are usually utilized, which inevitably bring in plenty of noise. However, most existing knowledge graph embedding (KGE) methods assume that all the triple facts in KGs are correct, and project both entities and relations into a low-dimensional space without considering noise and knowledge conflicts. This will lead to low-quality and unreliable representations of KGs. To this end, in this paper, we propose a general multi-task reinforcement learning framework, which can greatly alleviate the noisy data problem. In our framework, we exploit reinforcement learning for choosing high-quality knowledge triples while filtering out the noisy ones. Also, in order to take full advantage of the correlations among semantically similar relations, the triple selection processes of similar relations are trained in a collective way with multi-task learning. Moreover, we extend popular KGE models TransE, DistMult, ConvE and RotatE with the proposed framework. Finally, the experimental validation shows that our approach is able to enhance existing KGE models and can provide more robust representations of KGs in noisy scenarios.
翻訳日:2021-11-12 13:33:35 公開日:2021-11-11
# ウィキデータを用いた中国語多型複合質問

A Chinese Multi-type Complex Questions Answering Dataset over Wikidata ( http://arxiv.org/abs/2111.06086v1 )

ライセンス: Link先を確認
Jianyun Zou and Min Yang and Lichao Zhang and Yechen Xu and Qifan Pan and Fengqing Jiang and Ran Qin and Shushu Wang and Yifan He and Songfang Huang and Zhou Zhao(参考訳) 複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。 近年の公開データセットはこの分野での成果を奨励しているが、主に英語に限られており、少数の質問タイプと関係に限られており、より現実的な設定や英語以外の言語の研究を妨げる。 さらに、最先端のKBQAモデルは、最も人気のある現実世界の知識基盤であるWikidataで訓練されている。 CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。 データセットと合わせて,事実質問,二重意図質問,ブール問題,質問数など,複数タイプの複雑な質問に対して,Wikidataを背景知識とするテキストからSPARQLのベースラインモデルを提案する。 最終的に、このデータセット上でのSOTA KBQAモデルの性能を分析し、中国のKBQAが直面する課題を特定する。

Complex Knowledge Base Question Answering is a popular area of research in the past decade. Recent public datasets have led to encouraging results in this field, but are mostly limited to English and only involve a small number of question types and relations, hindering research in more realistic settings and in languages other than English. In addition, few state-of-the-art KBQA models are trained on Wikidata, one of the most popular real-world knowledge bases. We propose CLC-QuAD, the first large scale complex Chinese semantic parsing dataset over Wikidata to address these challenges. Together with the dataset, we present a text-to-SPARQL baseline model, which can effectively answer multi-type complex questions, such as factual questions, dual intent questions, boolean questions, and counting questions, with Wikidata as the background knowledge. We finally analyze the performance of SOTA KBQA models on this dataset and identify the challenges facing Chinese KBQA.
翻訳日:2021-11-12 13:33:17 公開日:2021-11-11
# ニューラル拡散方程式を用いた気候モデリング

Climate Modeling with Neural Diffusion Equations ( http://arxiv.org/abs/2111.06011v1 )

ライセンス: Link先を確認
Jeehyun Hwang, Jeongwhan Choi, Hwangyong Choi, Kookjin Lee, Dongeun Lee, Noseong Park(参考訳) 深層学習技術の顕著な発展により、深層学習に基づく気候モデルを構築するための一連の取り組みがあった。 これらの多くはリカレントニューラルネットワークやグラフニューラルネットワークを使用しているが、ニューラル常微分方程式(NODE)と拡散方程式という2つの概念に基づく新しい気候モデルを構築している。 粒子のブラウン運動を含む多くの物理過程は拡散方程式によって記述することができ、その結果、気候のモデル化に広く用いられている。 一方、ニューラル常微分方程式(NODE)は、データからODEの潜在的な支配方程式を学習することである。 提案手法では,これらを一つの枠組みに統合し,ニューラル拡散方程式(NDE)という概念を提案する。 我々のNDEは、拡散方程式と、不確実性をモデル化するためのもう1つの追加のニューラルネットワークを備えており、与えられた気候データセットを最もよく記述した、適切な潜在的統治方程式を学習することができる。 2つの実世界と1つの合成データセットと11のベースラインを用いた実験では、非自明なマージンで既存のベースラインを一貫して上回ります。

Owing to the remarkable development of deep learning technology, there have been a series of efforts to build deep learning-based climate models. Whereas most of them utilize recurrent neural networks and/or graph neural networks, we design a novel climate model based on the two concepts, the neural ordinary differential equation (NODE) and the diffusion equation. Many physical processes involving a Brownian motion of particles can be described by the diffusion equation and as a result, it is widely used for modeling climate. On the other hand, neural ordinary differential equations (NODEs) are to learn a latent governing equation of ODE from data. In our presented method, we combine them into a single framework and propose a concept, called neural diffusion equation (NDE). Our NDE, equipped with the diffusion equation and one more additional neural network to model inherent uncertainty, can learn an appropriate latent governing equation that best describes a given climate dataset. In our experiments with two real-world and one synthetic datasets and eleven baselines, our method consistently outperforms existing baselines by non-trivial margins.
翻訳日:2021-11-12 13:30:08 公開日:2021-11-11
# 近似と局所ミニマを用いたフレキシブル送信ネットワークの理論的理解に向けて

Towards Theoretical Understanding of Flexible Transmitter Networks via Approximation and Local Minima ( http://arxiv.org/abs/2111.06027v1 )

ライセンス: Link先を確認
Jin-Hui Wu, Shao-Qun Zhang, Yuan Jiang, Zhi-Hua Zhou(参考訳) フレキシブルトランスミッタネットワーク(FTNet)は、最近提案されたバイオプレースブルニューラルネットワークであり、時空間データを扱う際の最先端モデルとの競合性能を実現している。 しかし、FTNetの理論的理解には未解決の問題がある。 本研究では,一層FTNetの理論的性質を近似と局所ミニマの観点から検討する。 軽微な仮定では、次のように示します。 一 FTNetは、普遍近似器である。 二 FTNetの近似複雑性は、フィードフォワード/リカレントアーキテクチャを持つ実数値ニューラルネットワークよりも指数関数的に小さくすることができ、最悪の場合において同じ順序である。 iii) ftnetの任意の局所最小値がグローバル最小値であり、局所探索アルゴリズムがグローバル最小値に収束可能であることを示唆する。 我々の理論的結果は,FTNetが効率的に対象関数を表現でき,FTNetの理論的空白を補完し,FTNetを改良する可能性を示す局所的ミニマを気にしていないことを示唆している。

Flexible Transmitter Network (FTNet) is a recently proposed bio-plausible neural network and has achieved competitive performance with the state-of-the-art models when handling temporal-spatial data. However, there remains an open problem about the theoretical understanding of FTNet. This work investigates the theoretical properties of one-hidden-layer FTNet from the perspectives of approximation and local minima. Under mild assumptions, we show that: i) FTNet is a universal approximator; ii) the approximation complexity of FTNet can be exponentially smaller than those of real-valued neural networks with feedforward/recurren t architectures and is of the same order in the worst case; iii) any local minimum of FTNet is the global minimum, which suggests that it is possible for local search algorithms to converge to the global minimum. Our theoretical results indicate that FTNet can efficiently express target functions and has no concern about local minima, which complements the theoretical blank of FTNet and exhibits the possibility for ameliorating the FTNet.
翻訳日:2021-11-12 13:29:49 公開日:2021-11-11
# エッジクラウドの分極とコラボレーション: 総合的な調査

Edge-Cloud Polarization and Collaboration: A Comprehensive Survey ( http://arxiv.org/abs/2111.06061v1 )

ライセンス: Link先を確認
Jiangchao Yao, Shengyu Zhang, Yang Yao, Feng Wang, Jianxin Ma, Jianwei Zhang, Yunfei Chu, Luo Ji, Kunyang Jia, Tao Shen, Anpeng Wu, Fengda Zhang, Ziqi Tan, Kun Kuang, Chao Wu, Fei Wu, Jingren Zhou, Hongxia Yang(参考訳) クラウドコンピューティングによるディープラーニングの成功とエッジチップの急速な開発の影響を受けて、人工知能(ai)の研究は、クラウドコンピューティングとエッジコンピューティングという2つのコンピューティングパラダイムにシフトした。 近年、モデル革新(トランスフォーマー、事前訓練された家族など)、トレーニングデータの爆発、コンピューティング能力の高騰などにより、従来のディープラーニングモデルを上回る、クラウドサーバ上のより高度なaiモデルの開発において、大きな進歩が見られた。 しかしながら、エッジコンピューティング、特にエッジとクラウドのコラボレーティブコンピューティングは、非常に限られたアルゴリズムをデプロイしたリソース制約のIoTシナリオのために、その成功を公表する初期段階にある。 この調査では、クラウドとエッジ両方のAIを体系的にレビューする。 具体的には、クラウドとエッジモデリングの協調学習メカニズムを最初にセットアップし、そのようなメカニズムを実現するアーキテクチャを徹底的にレビューします。 また、事前トレーニングモデル、グラフニューラルネットワーク、強化学習など、現在進行中の最先端AIトピックの可能性と実践経験についても論じる。 最後に,この分野の有望な方向性と課題について論じる。

Influenced by the great success of deep learning via cloud computing and the rapid development of edge chips, research in artificial intelligence (AI) has shifted to both of the computing paradigms, i.e., cloud computing and edge computing. In recent years, we have witnessed significant progress in developing more advanced AI models on cloud servers that surpass traditional deep learning models owing to model innovations (e.g., Transformers, Pretrained families), explosion of training data and soaring computing capabilities. However, edge computing, especially edge and cloud collaborative computing, are still in its infancy to announce their success due to the resource-constrained IoT scenarios with very limited algorithms deployed. In this survey, we conduct a systematic review for both cloud and edge AI. Specifically, we are the first to set up the collaborative learning mechanism for cloud and edge modeling with a thorough review of the architectures that enable such mechanism. We also discuss potentials and practical experiences of some on-going advanced edge AI topics including pretraining models, graph neural networks and reinforcement learning. Finally, we discuss the promising directions and challenges in this field.
翻訳日:2021-11-12 13:29:30 公開日:2021-11-11
# 超次元計算におけるベクトルシンボリックアーキテクチャに関する研究 その1:モデルとデータ変換

A Survey on Hyperdimensional Computing aka Vector Symbolic Architectures, Part I: Models and Data Transformations ( http://arxiv.org/abs/2111.06077v1 )

ライセンス: Link先を確認
Denis Kleyko, Dmitri A. Rachkovskij, Evgeny Osipov, Abbas Rahimi(参考訳) この2部にわたる包括的調査は、超次元コンピューティングとベクトルシンボリックアーキテクチャ(hdc/vsa)の名前でよく知られるコンピューティングフレームワークに向けられている。 どちらの名前も高次元の分散表現を使用し、その鍵演算の代数的性質に依存して構造化記号表現とベクトル分散表現の利点を取り入れた計算モデルのファミリーを指す。 HDC/VSAファミリーで注目すべきモデルは、テンソル製品表現、ホログラフィック還元表現、マルチプライ・アダッド・パーミュート、バイナリスパッタコード、スパースバイナリ分散表現であるが、他にもモデルもある。 HDC/VSAは、コンピュータ科学、電気工学、人工知能、数学、認知科学とのつながりを持つ非常に学際的な分野である。 この事実は、この領域を徹底的に概観するのは難しい。 しかし、近年の新たな研究者の流入により、地域の総合的な調査の必要性が極めて重要になっている。 そこで本パートIでは,HDC/VSAの既知の計算モデルや各種入力データ型から高次元分散表現への変換といった重要な側面について検討する。 本調査の第2部では,アプリケーション,認知コンピューティング,アーキテクチャ,今後の作業への方向性について取り上げている。 この調査は、新参者も実践者も役に立つと書かれています。

This two-part comprehensive survey is devoted to a computing framework most commonly known under the names Hyperdimensional Computing and Vector Symbolic Architectures (HDC/VSA). Both names refer to a family of computational models that use high-dimensional distributed representations and rely on the algebraic properties of their key operations to incorporate the advantages of structured symbolic representations and vector distributed representations. Notable models in the HDC/VSA family are Tensor Product Representations, Holographic Reduced Representations, Multiply-Add-Permute , Binary Spatter Codes, and Sparse Binary Distributed Representations but there are other models too. HDC/VSA is a highly interdisciplinary area with connections to computer science, electrical engineering, artificial intelligence, mathematics, and cognitive science. This fact makes it challenging to create a thorough overview of the area. However, due to a surge of new researchers joining the area in recent years, the necessity for a comprehensive survey of the area has become extremely important. Therefore, amongst other aspects of the area, this Part I surveys important aspects such as: known computational models of HDC/VSA and transformations of various input data types to high-dimensional distributed representations. Part II of this survey is devoted to applications, cognitive computing and architectures, as well as directions for future work. The survey is written to be useful for both newcomers and practitioners.
翻訳日:2021-11-12 13:29:14 公開日:2021-11-11
# AlphaDDA:AlphaZeroを用いた動的難易度調整型ゲーム人工知能

AlphaDDA: game artificial intelligence with dynamic difficulty adjustment using AlphaZero ( http://arxiv.org/abs/2111.06266v1 )

ライセンス: Link先を確認
Kazuhisa Fujita(参考訳) 人工知能(AI)プレーヤーは、Go、Chess、Othello(Reversi)といったゲームで超人的なスキルを得た。 言い換えれば、aiプレイヤーは人間プレイヤーの対戦相手として強くなりすぎます。 そして、私たちはAIプレイヤーとボードゲームを楽しむことができません。 人間のプレイヤーを楽しませるためには、AIプレイヤーは人間のプレイヤーと自動的にスキルのバランスをとる必要がある。 この問題に対処するため,AlphaZeroに基づく動的困難調整を行うAIプレイヤーであるAlphaDDAを提案する。 AlphaDDAは、AlphaZeroのようなDeep Neural Network(DNN)とMonte Carloツリーサーチで構成される。 AlphaDDAは、DNNを用いてボード状態のみを形成する遊技状態の値を推定し、その値に応じてそのスキルを変更する。 AlphaDDAはAlphaDDAのスキルを、相手について事前の知識なしにゲームの状態だけを使って調整することができる。 この研究では、AlphaDDAがConnect4、6x6 Othelloをプレイし、Othelloは6x6サイズボードを使用し、Othelloは他のAIエージェントと通信する。 他のAIエージェントは、AlphaZero、Monte Carloツリーサーチ、Minimaxアルゴリズム、ランダムプレイヤーである。 この研究は、AlphaDDAがランダムプレイヤーを除く他のAIエージェントとスキルのバランスをとることができることを示している。 AlphaDDAのDDA能力は、ゲームの状態から値の正確な推定から導かれる。 我々は、DNNが状態から値を推定できるような、任意のゲームにAlphaDDAのアプローチを利用することができる。

An artificial intelligence (AI) player has obtained superhuman skill for games like Go, Chess, and Othello (Reversi). In other words, the AI player becomes too strong as an opponent of human players. Then, we will not enjoy playing board games with the AI player. In order to entertain human players, the AI player is required to balance its skill with the human player's one automatically. To address this issue, I propose AlphaDDA, an AI player with dynamic difficulty adjustment based on AlphaZero. AlphaDDA consists of a deep neural network (DNN) and Monte Carlo tree search like AlphaZero. AlphaDDA estimates the value of the game state form only the board state using the DNN and changes its skill according to the value. AlphaDDA can adjust AlphaDDA's skill using only the state of a game without prior knowledge about an opponent. In this study, AlphaDDA plays Connect4, 6x6 Othello, which is Othello using a 6x6 size board, and Othello with the other AI agents. The other AI agents are AlphaZero, Monte Carlo tree search, Minimax algorithm, and a random player. This study shows that AlphaDDA achieves to balance its skill with the other AI agents except for a random player. AlphaDDA's DDA ability is derived from the accurate estimation of the value from the state of a game. We will be able to use the approach of AlphaDDA for any games in that the DNN can estimate the value from the state.
翻訳日:2021-11-12 13:28:36 公開日:2021-11-11
# (参考訳) ニューラルネットワークの学習信号非依存多様体 [全文訳有]

Learning Signal-Agnostic Manifolds of Neural Fields ( http://arxiv.org/abs/2111.06387v1 )

ライセンス: CC BY 4.0
Yilun Du, Katherine M. Collins, Joshua B. Tenenbaum, Vincent Sitzmann(参考訳) ディープニューラルネットワークは、画像、形状、音声信号などのモダリティを越えてデータセットの潜在構造を学ぶために広く使われている。 しかし、既存のモデルは一般的にモダリティに依存しており、異なる信号のクラスを処理するためにカスタムアーキテクチャと目的が必要である。 我々は、画像、形状、オーディオ、およびクロスモーダルオーディオ視覚領域の基盤構造をモダリティに依存しない方法で捉えるために、ニューラルフィールドを利用する。 私たちは、データが存在する低次元の局所線型部分空間を推測することを目的とした、多様体の学習の1つとしてタスクをキャストしました。 GEMと呼ばれる我々のモデルは、多様体、局所線型性、局所アイソメトリのカバレッジを強制することにより、モーダル性にまたがるデータセットの基盤構造を捉えることを学ぶ。 すると、我々の多様体の線形領域に沿って移動して、サンプル間の知覚的に一貫した補間を得ることができ、さらにGEMを使って多様体上の点を復元し、入力画像の多様な完備化だけでなく、オーディオや画像信号のクロスモーダル幻覚を再現することができる。 最後に、GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成することができることを示す。 コードと追加結果はhttps://yilundu.gith ub.io/gem/で入手できる。

Deep neural networks have been used widely to learn the latent structure of datasets, across modalities such as images, shapes, and audio signals. However, existing models are generally modality-dependent, requiring custom architectures and objectives to process different classes of signals. We leverage neural fields to capture the underlying structure in image, shape, audio and cross-modal audiovisual domains in a modality-independent manner. We cast our task as one of learning a manifold, where we aim to infer a low-dimensional, locally linear subspace in which our data resides. By enforcing coverage of the manifold, local linearity, and local isometry, our model -- dubbed GEM -- learns to capture the underlying structure of datasets across modalities. We can then travel along linear regions of our manifold to obtain perceptually consistent interpolations between samples, and can further use GEM to recover points on our manifold and glean not only diverse completions of input images, but cross-modal hallucinations of audio or image signals. Finally, we show that by walking across the underlying manifold of GEM, we may generate new samples in our signal domains. Code and additional results are available at https://yilundu.gith ub.io/gem/.
翻訳日:2021-11-12 13:26:51 公開日:2021-11-11
# 関係推論パターンによる知識グラフの埋め込み

Poisoning Knowledge Graph Embeddings via Relation Inference Patterns ( http://arxiv.org/abs/2111.06345v1 )

ライセンス: Link先を確認
Peru Bhardwaj, John Kelleher, Luca Costabello and Declan O'Sullivan(参考訳) 本稿では,知識グラフのリンク予測作業における知識グラフ埋め込み(KGE)モデルに対するデータ中毒攻撃の問題点について検討する。 KGEモデルに悪影響を与えるため,知識グラフの対称性,逆転,構成といった関係パターンから得られた帰納的能力を活用することを提案する。 具体的には,対象事実に対するモデル予測信頼度を低下させるため,デコイな事実の集合に対するモデル予測信頼度を改善することを提案する。 そこで我々は,様々な推論パターンを通じ,デコイ事実に対するモデルの予測信頼度を向上させるための相反する追加手法を考案する。 実験により,提案手法は4つのKGEモデルに対して,2つの公開データセットに対して,最先端のベースラインより優れていることが示された。 また、対称性パターンに基づく攻撃は、このパターンに対するKGEモデルの感度を示す全てのモデル-データセットの組み合わせを一般化する。

We study the problem of generating data poisoning attacks against Knowledge Graph Embedding (KGE) models for the task of link prediction in knowledge graphs. To poison KGE models, we propose to exploit their inductive abilities which are captured through the relationship patterns like symmetry, inversion and composition in the knowledge graph. Specifically, to degrade the model's prediction confidence on target facts, we propose to improve the model's prediction confidence on a set of decoy facts. Thus, we craft adversarial additions that can improve the model's prediction confidence on decoy facts through different inference patterns. Our experiments demonstrate that the proposed poisoning attacks outperform state-of-art baselines on four KGE models for two publicly available datasets. We also find that the symmetry pattern based attacks generalize across all model-dataset combinations which indicates the sensitivity of KGE models to this pattern.
翻訳日:2021-11-12 13:08:14 公開日:2021-11-11
# 深層モデルの公理的・階層的・象徴的説明に向けて

Towards Axiomatic, Hierarchical, and Symbolic Explanation for Deep Models ( http://arxiv.org/abs/2111.06206v1 )

ライセンス: Link先を確認
Jie Ren, Mingjie Li, Qihan Ren, Huiqi Deng, Quanshi Zhang(参考訳) 本稿では、よく訓練された深い推論モデルによって符号化された内部論理を客観的に説明するための階層型およびシンボル型And-Orグラフ(AOG)を提案する。 まず,ゲーム理論における説明モデルの目的性を定義し,深層モデルで符号化されたAnd-Or論理の厳密な表現を開発する。 AOGの説明者の目的性と信頼性は理論的に保証され、実験的に検証される。 さらに,説明の簡潔性を高める手法をいくつか提案する。

This paper proposes a hierarchical and symbolic And-Or graph (AOG) to objectively explain the internal logic encoded by a well-trained deep model for inference. We first define the objectiveness of an explainer model in game theory, and we develop a rigorous representation of the And-Or logic encoded by the deep model. The objectiveness and trustworthiness of the AOG explainer are both theoretically guaranteed and experimentally verified. Furthermore, we propose several techniques to boost the conciseness of the explanation.
翻訳日:2021-11-12 13:08:01 公開日:2021-11-11
# dnnの表現ボトルネックの発見と説明

Discovering and Explaining the Representation Bottleneck of DNNs ( http://arxiv.org/abs/2111.06236v1 )

ライセンス: Link先を確認
Huiqi Deng, Qihan Ren, Xu Chen, Hao Zhang, Jie Ren, Quanshi Zhang(参考訳) 本稿では、DNNに符号化された入力変数間の相互作用の複雑さの観点から、ディープニューラルネットワーク(DNN)の特徴表現のボトルネックを考察する。 この目的のために、我々は入力変数間の多階相互作用に注目し、その順序は相互作用の複雑さを表す。 DNNは単純すぎる相互作用と複雑すぎる相互作用の両方を符号化する傾向にあるが、通常は中間複雑性の相互作用を学習できない。 このような現象は、異なるタスクに対して異なるDNNによって広く共有されている。 この現象は、DNNと人間の間の認識ギャップを示し、これを表現ボトルネックと呼ぶ。 我々は,表現ボトルネックの根本的な原因を理論的に証明する。 さらに,特定の複雑性の相互作用の学習を奨励・奨励する損失を提案し,異なる複雑性の相互作用の表現能力を分析する。

This paper explores the bottleneck of feature representations of deep neural networks (DNNs), from the perspective of the complexity of interactions between input variables encoded in DNNs. To this end, we focus on the multi-order interaction between input variables, where the order represents the complexity of interactions. We discover that a DNN is more likely to encode both too simple interactions and too complex interactions, but usually fails to learn interactions of intermediate complexity. Such a phenomenon is widely shared by different DNNs for different tasks. This phenomenon indicates a cognition gap between DNNs and human beings, and we call it a representation bottleneck. We theoretically prove the underlying reason for the representation bottleneck. Furthermore, we propose a loss to encourage/penalize the learning of interactions of specific complexities, and analyze the representation capacities of interactions of different complexities.
翻訳日:2021-11-12 13:07:53 公開日:2021-11-11
# Quran Reciters データセットに基づく Wav2Vec2.0 と HuBERT を用いた効率的な音声識別

Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT Based on the Quran Reciters Dataset ( http://arxiv.org/abs/2111.06331v1 )

ライセンス: Link先を確認
Aly Moustafa and Salah A. Aly(参考訳) 現在の認証および信頼性システムは、ユーザを認識または承認するための古典的および生体的手法に依存している。 このような手法には、音声認識、目、指の署名が含まれる。 最近のツールはディープラーニングとトランスフォーマーを使ってより良い結果を得る。 本稿では,Wav2Vec2.0とHuBERT音声表現学習ツールを用いて,アラビア語話者識別のためのディープラーニング構築モデルを開発する。 エンドツーエンドのwav2vec2.0パラダイムは、特徴ベクトルのセットをランダムにマスキングして文脈化音声表現学習を取得し、トランスフォーマーニューラルネットワークを適用する。 我々は、不変ラベル付きクラスを区別できるMPP分類器を用いる。 本研究は,提案モデルの高精度性を確保する実験結果を示す。 この実験により、ある話者に対する任意の波信号が、それぞれWav2Vec2.0とHuBERTの場合の98%と97.1%の精度で識別できる。

Current authentication and trusted systems depend on classical and biometric methods to recognize or authorize users. Such methods include audio speech recognitions, eye, and finger signatures. Recent tools utilize deep learning and transformers to achieve better results. In this paper, we develop a deep learning constructed model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools. The end-to-end Wav2Vec2.0 paradigm acquires contextualized speech representations learnings by randomly masking a set of feature vectors, and then applies a transformer neural network. We employ an MLP classifier that is able to differentiate between invariant labeled classes. We show several experimental results that safeguard the high accuracy of the proposed model. The experiments ensure that an arbitrary wave signal for a certain speaker can be identified with 98% and 97.1% accuracies in the cases of Wav2Vec2.0 and HuBERT, respectively.
翻訳日:2021-11-12 13:07:41 公開日:2021-11-11
# ニューラルネットワークと支持ベクトルマシンの等価性について

On the Equivalence between Neural Network and Support Vector Machine ( http://arxiv.org/abs/2111.06063v1 )

ライセンス: Link先を確認
Yilan Chen, Wei Huang, Lam M. Nguyen, Tsui-Wei Weng(参考訳) 近年の研究では、勾配降下によって訓練された無限広ニューラルネットワーク(NN)の力学は、ニューラルタンジェントカーネル(NTK) \citep{jacot2018neural}によって特徴づけられることが示されている。 この二乗損失の下では、勾配降下によって訓練された無限幅NNは、NTK \citep{arora2019exact} のカーネル回帰と等価である。 しかし、この等価性は現在、リッジ回帰でのみ知られているが、NNと他のカーネルマシン(例えば、サポートベクトルマシン(SVM))との等価性は未だ不明である。 そこで本研究では,NN と SVM の等価性,特にソフトマージン損失によって訓練された無限幅の NN と,下位降下により訓練されたNTK を用いた標準ソフトマージン SVM の確立を提案する。 我々の理論結果は、NNと有限幅の有界正規化KMの広いファミリーの等価性を確立することや、そのような正規化損失関数によって訓練されたすべての有限幅NNがおよそ1KMであることを示すことである。 さらに,本理論は3つの実用的応用を可能にすることを実証する。 (i)対応するKMを介して NN の \textit{non-vacuous} 一般化境界 (ii)無限幅NNのロバスト性証明(既存のロバスト性検証手法は空き境界を提供する) (iii)従来のカーネル回帰より本質的に頑丈な無限幅nn。 実験のコードは \url{https://github.com/l eslie-ch/equiv-nn-sv m} で利用可能です。

Recent research shows that the dynamics of an infinitely wide neural network (NN) trained by gradient descent can be characterized by Neural Tangent Kernel (NTK) \citep{jacot2018neural}. Under the squared loss, the infinite-width NN trained by gradient descent with an infinitely small learning rate is equivalent to kernel regression with NTK \citep{arora2019exact}. However, the equivalence is only known for ridge regression currently \citep{arora2019harnessing}, while the equivalence between NN and other kernel machines (KMs), e.g. support vector machine (SVM), remains unknown. Therefore, in this work, we propose to establish the equivalence between NN and SVM, and specifically, the infinitely wide NN trained by soft margin loss and the standard soft margin SVM with NTK trained by subgradient descent. Our main theoretical results include establishing the equivalence between NN and a broad family of $\ell_2$ regularized KMs with finite-width bounds, which cannot be handled by prior work, and showing that every finite-width NN trained by such regularized loss functions is approximately a KM. Furthermore, we demonstrate our theory can enable three practical applications, including (i) \textit{non-vacuous} generalization bound of NN via the corresponding KM; (ii) \textit{non-trivial} robustness certificate for the infinite-width NN (while existing robustness verification methods would provide vacuous bounds); (iii) intrinsically more robust infinite-width NNs than those from previous kernel regression. Our code for the experiments are available at \url{https://github.com/l eslie-CH/equiv-nn-sv m}.
翻訳日:2021-11-12 13:07:26 公開日:2021-11-11
# ロボット形態の全身視覚自己モデリング

Full-Body Visual Self-Modeling of Robot Morphologies ( http://arxiv.org/abs/2111.06389v1 )

ライセンス: Link先を確認
Boyuan Chen, Robert Kwiatkowski, Carl Vondrick, Hod Lipson(参考訳) 身体の内部計算モデルは、ロボットや動物が行動の計画や制御を行う能力に基礎を置いている。 これらの「自己モデル」により、ロボットは物理的な現実で試すことなく、複数の将来の行動の結果を考慮できる。 完全なデータ駆動型自己モデリングの最近の進歩により、マシンはタスクに依存しない対話データから直接フォワードキネマティックスを学ぶことができる。 しかし、フォワード-キネマ-ticsモデルは、エンドエフェクタの位置や関節と質量の速度など、形態学の限られた側面のみを予測できる。 主要な課題は、形態学のどの側面が将来のタスクに関係するかを事前に知ることなく、形態学と運動学全体をモデル化することである。 本稿では,フォワードキネマティクスを直接モデル化するのではなく,ロボットの状態に応じた空間占有クエリに答えることのできる,より有用な自己モデリング形式を提案する。 このようなクエリ駆動の自己モデルは、空間領域において連続的であり、メモリ効率が良く、完全に微分可能で、キネマティックな認識である。 物理的実験では、視覚的な自己モデルが作業空間の約1%に正確であることを示し、ロボットが様々な動作計画と制御タスクを実行できるようにする。 視覚的な自己モデリングにより、ロボットは現実世界の損傷を検出し、ローカライズし、回復することができる。 私たちのプロジェクトwebサイトは、https://robot-morpho logy.cs.columbia.edu /にあります。

Internal computational models of physical bodies are fundamental to the ability of robots and animals alike to plan and control their actions. These "self-models" allow robots to consider outcomes of multiple possible future actions, without trying them out in physical reality. Recent progress in fully data-driven self-modeling has enabled machines to learn their own forward kinematics directly from task-agnostic interaction data. However, forward-kinema\-tics models can only predict limited aspects of the morphology, such as the position of end effectors or velocity of joints and masses. A key challenge is to model the entire morphology and kinematics, without prior knowledge of what aspects of the morphology will be relevant to future tasks. Here, we propose that instead of directly modeling forward-kinematics, a more useful form of self-modeling is one that could answer space occupancy queries, conditioned on the robot's state. Such query-driven self models are continuous in the spatial domain, memory efficient, fully differentiable and kinematic aware. In physical experiments, we demonstrate how a visual self-model is accurate to about one percent of the workspace, enabling the robot to perform various motion planning and control tasks. Visual self-modeling can also allow the robot to detect, localize and recover from real-world damage, leading to improved machine resiliency. Our project website is at: https://robot-morpho logy.cs.columbia.edu /
翻訳日:2021-11-12 13:07:01 公開日:2021-11-11
# amazon製品レビューで説明可能な文レベルの感情分析

Explainable Sentence-Level Sentiment Analysis for Amazon Product Reviews ( http://arxiv.org/abs/2111.06070v1 )

ライセンス: Link先を確認
Xuechun Li, Xueyao Sun, Zewei Xu, Yifan Zhou(参考訳) 本稿では,Amazonの製品レビューにおける文レベルの感情分析を行い,モデル解釈可能性に関する詳細な分析を行う。 感情分析タスクには、注意機構を備えたBiLSTMモデルを用いる。 解釈可能性の研究において、単文の注意重み分布と主アスペクト項の注意重み分布を考察する。 精度は0.96まで。 そして、アスペクト項は文中の感情的な単語と同じかそれ以上の注意重みを持つことがわかった。

In this paper, we conduct a sentence level sentiment analysis on the product reviews from Amazon and thorough analysis on the model interpretability. For the sentiment analysis task, we use the BiLSTM model with attention mechanism. For the study of interpretability, we consider the attention weights distribution of single sentence and the attention weights of main aspect terms. The model has an accuracy of up to 0.96. And we find that the aspect terms have the same or even more attention weights than the sentimental words in sentences.
翻訳日:2021-11-12 13:06:36 公開日:2021-11-11
# (参考訳) クロスモーダルなオブジェクト追跡: モダリティを意識した表現と統一ベンチマーク [全文訳有]

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark ( http://arxiv.org/abs/2111.04264v2 )

ライセンス: CC BY 4.0
Chenglong Li, Tianhao Zhu, Lei Liu, Xiaonan Si, Zilin Fan, Sulan Zhai(参考訳) 多くの視覚システムでは、視覚追跡はしばしばrgb画像シーケンスに基づいており、一部のターゲットは低照度条件では無効であり、追跡性能は著しく影響を受ける。 深度データや赤外線データなどの他のモダリティの導入は、個々のソースのイメージング制限を処理する効果的な方法であるが、マルチモーダルイメージングプラットフォームは通常、精巧な設計を必要とし、現在多くの現実世界のアプリケーションに適用できない。 近赤外(NIR)イメージングは、多くの監視カメラにおいて不可欠な部分となり、RGBとNIRを光強度に基づいて切り換えることができる。 これら2つのモダリティは、非常に異なる視覚特性を持つ異質であり、ビジュアルトラッキングに大きな課題をもたらす。 しかし、既存の研究ではこの問題は研究されていない。 本研究では,クロスモーダルオブジェクト追跡の問題に対処し,合計481kフレーム以上の654のクロスモーダル画像シーケンスを含む新たなビデオデータセットを作成し,平均映像長は735フレーム以上である。 クロスモーダル物体追跡の研究開発を促進するため,トラッキングプロセスにおけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識した対象表現を学習するアルゴリズムを提案する。 プラグアンドプレイであり、異なるトラッキングフレームワークに柔軟に組み込むことができる。 提案手法の有効性を2つの代表的な追跡フレームワークを用いて検証し,提案手法の有効性を検証した。 無料のアカデミック利用向けにデータセットをリリースし、データセットダウンロードリンクとコードはまもなくリリースします。

In many visual systems, visual tracking often bases on RGB image sequences, in which some targets are invalid in low-light conditions, and tracking performance is thus affected significantly. Introducing other modalities such as depth and infrared data is an effective way to handle imaging limitations of individual sources, but multi-modal imaging platforms usually require elaborate designs and cannot be applied in many real-world applications at present. Near-infrared (NIR) imaging becomes an essential part of many surveillance cameras, whose imaging is switchable between RGB and NIR based on the light intensity. These two modalities are heterogeneous with very different visual properties and thus bring big challenges for visual tracking. However, existing works have not studied this challenging problem. In this work, we address the cross-modal object tracking problem and contribute a new video dataset, including 654 cross-modal image sequences with over 481K frames in total, and the average video length is more than 735 frames. To promote the research and development of cross-modal object tracking, we propose a new algorithm, which learns the modality-aware target representation to mitigate the appearance gap between RGB and NIR modalities in the tracking process. It is plug-and-play and could thus be flexibly embedded into different tracking frameworks. Extensive experiments on the dataset are conducted, and we demonstrate the effectiveness of the proposed algorithm in two representative tracking frameworks against 17 state-of-the-art tracking methods. We will release the dataset for free academic usage, dataset download link and code will be released soon.
翻訳日:2021-11-12 11:41:16 公開日:2021-11-11
# 医用画像分割用混合トランスu-net

Mixed Transformer U-Net For Medical Image Segmentation ( http://arxiv.org/abs/2111.04734v2 )

ライセンス: Link先を確認
Hongyi Wang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong(参考訳) U-Netは医療画像セグメンテーションタスクで大きな成功を収めているが、長距離依存を明示的にモデル化する能力は欠如している。 そのため、視覚トランスフォーマは自己着脱(sa)によって長距離相関を捉えることができるため、近年では代替セグメンテーション構造として登場している。 しかし、トランスフォーマーは通常、大規模な事前学習に頼り、高い計算複雑性を持つ。 さらに、SAはデータセット全体の潜在的な相関を無視し、単一のサンプル内でのみ自己親和性をモデル化できる。 そこで本稿では,この問題を解決するために,混合トランスモジュール (mtm) という新しいトランスモジュールを提案する。 mtmはまず,よく設計された局所グローバルガウス重み付きセルフアテンション (lgg-sa) を用いて,効率的な自己親和性を計算する。 そして、外部注意(EA)を通じてデータサンプル間の相互接続をマイニングする。 MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築する。 提案手法を2つの公開データセットで検証し,提案手法が他の最先端手法よりも優れた性能を実現することを示す。 コードはhttps://github.com/d ootmaan/mt-unet。

Though U-Net has achieved tremendous success in medical image segmentation tasks, it lacks the ability to explicitly model long-range dependencies. Therefore, Vision Transformers have emerged as alternative segmentation structures recently, for their innate ability of capturing long-range correlations through Self-Attention (SA). However, Transformers usually rely on large-scale pre-training and have high computational complexity. Furthermore, SA can only model self-affinities within a single sample, ignoring the potential correlations of the overall dataset. To address these problems, we propose a novel Transformer module named Mixed Transformer Module (MTM) for simultaneous inter- and intra- affinities learning. MTM first calculates self-affinities efficiently through our well-designed Local-Global Gaussian-Weighted Self-Attention (LGG-SA). Then, it mines inter-connections between data samples through External Attention (EA). By using MTM, we construct a U-shaped model named Mixed Transformer U-Net (MT-UNet) for accurate medical image segmentation. We test our method on two different public datasets, and the experimental results show that the proposed method achieves better performance over other state-of-the-art methods. The code is available at: https://github.com/D ootmaan/MT-UNet.
翻訳日:2021-11-12 11:27:21 公開日:2021-11-11
# 極小画像認識のためのエピソディックリプレイ蒸留によるインクリメンタルメタラーニング

Incremental Meta-Learning via Episodic Replay Distillation for Few-Shot Image Recognition ( http://arxiv.org/abs/2111.04993v2 )

ライセンス: Link先を確認
Kai Wang, Xialei Liu, Andy Bagdanov, Luis Herranz, Shangling Jui, Joost van de Weijer(参考訳) ほとんどのメタラーニングアプローチは、基礎知識のエピソディックなメタラーニングに利用可能な非常に大きなラベル付きデータセットの存在を仮定している。 これは、データが不整合クラスを含むタスクの形式で漸進的に到着する、より現実的な連続的な学習パラダイムとは対照的である。 本稿では,クラスを個別タスクで段階的に提示するインクリメンタルメタラーニング(IML)の問題について考察する。 メタラーニングのエピソードをサンプリングする際に,現在のタスクのクラスと前のタスクのクラスのインスタンスを混合する,エピソディックリプレイ蒸留 (erd) と呼ばれる iml のアプローチを提案する。 これらのエピソードは、破滅的な忘れを最小化するために知識蒸留に使用される。 4つのデータセットの実験では、EDRが最先端を超えることが示されている。 特に、より挑戦的な、長いタスクシーケンスの漸進的なメタラーニングシナリオでは、IMLと共同トレーニング上の上限の差を3.5%/10.1%/13.4%から2.6%/2.9%/5.0%に減らし、Tiered-ImageNet / Mini-ImageNet / CIFAR100にそれぞれ適用します。

Most meta-learning approaches assume the existence of a very large set of labeled data available for episodic meta-learning of base knowledge. This contrasts with the more realistic continual learning paradigm in which data arrives incrementally in the form of tasks containing disjoint classes. In this paper we consider this problem of Incremental Meta-Learning (IML) in which classes are presented incrementally in discrete tasks. We propose an approach to IML, which we call Episodic Replay Distillation (ERD), that mixes classes from the current task with class exemplars from previous tasks when sampling episodes for meta-learning. These episodes are then used for knowledge distillation to minimize catastrophic forgetting. Experiments on four datasets demonstrate that ERD surpasses the state-of-the-art. In particular, on the more challenging one-shot, long task sequence incremental meta-learning scenarios, we reduce the gap between IML and the joint-training upper bound from 3.5% / 10.1% / 13.4% with the current state-of-the-art to 2.6% / 2.9% / 5.0% with our method on Tiered-ImageNet / Mini-ImageNet / CIFAR100, respectively.
翻訳日:2021-11-12 11:27:01 公開日:2021-11-11
# 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ

Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features ( http://arxiv.org/abs/2111.05319v3 )

ライセンス: Link先を確認
Shubhendu Jena, Franck Multon, Adnane Boukhayma(参考訳) ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。 単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。 対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。 これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。 標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。

We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art.
翻訳日:2021-11-12 11:26:35 公開日:2021-11-11