このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220826となっている論文です。

PDF登録状況(公開日: 20220826)

TitleAuthorsAbstract論文公表日・翻訳日
# GCNs-Net:時間分解型EEGモータ画像信号復号のためのグラフ畳み込みニューラルネットワークアプローチ

GCNs-Net: A Graph Convolutional Neural Network Approach for Decoding Time-resolved EEG Motor Imagery Signals ( http://arxiv.org/abs/2006.08924v4 )

ライセンス: Link先を確認
Yimin Hou, Shuyue Jia, Xiangmin Lun, Ziqian Hao, Yan Shi, Yang Li, Rui Zeng, Jinglei Lv(参考訳) 効果的で効率的な脳-コンピューターインタフェース(bci)システムの開発に向けて、脳波による脳活動の正確なデコード(eeg)が求められている。 従来、電極間のトポロジカルな関係を考慮せずに脳波信号を分類していた。 しかし、神経科学の研究は脳のダイナミクスのネットワークパターンを強調している。 したがって、電極のユークリッド構造は信号間の相互作用を十分に反映していない。 このギャップを埋めるために、グラフ畳み込みニューラルネットワーク(GCN)に基づく新しいディープラーニングフレームワークが提示され、電極の機能的トポロジ的関係と協調しながら、様々な種類の運動画像(MI)タスク中に生の脳波信号の復号性能を向上させる。 信号全体の絶対的なピアソン行列に基づいて、EEG電極のグラフラプラシアンが構築される。 グラフ畳み込み層によって構築されたGCNs-Netは、一般化された特徴を学習する。 その後のプーリング層は次元を減少させ、完全連結のソフトマックス層は最終予測を導出する。 導入されたアプローチは、パーソナライズされた予測とグループ的な予測の両方に収束することが示されている。 平均精度は93.06%と88.57%(物理データセット)、96.24%と80.89%(高ガンマデータセット)であり、既存の研究と比較すると、個々の変動性への適応性と堅牢性が示唆されている。 また, 繰り返し評価実験において, 性能は安定的に再現可能である。 提案手法の優れた性能は,より優れたBCIアプローチに向けた重要なステップであることを示している。 結論として、gcns-netは脳波信号を機能的位相関係に基づいてフィルタリングし、脳運動画像に関連する特徴を解読する。

Towards developing effective and efficient brain-computer interface (BCI) systems, precise decoding of brain activity measured by electroencephalogram (EEG), is highly demanded. Traditional works classify EEG signals without considering the topological relationship among electrodes. However, neuroscience research has increasingly emphasized network patterns of brain dynamics. Thus, the Euclidean structure of electrodes might not adequately reflect the interaction between signals. To fill the gap, a novel deep learning framework based on the graph convolutional neural networks (GCNs) is presented to enhance the decoding performance of raw EEG signals during different types of motor imagery (MI) tasks while cooperating with the functional topological relationship of electrodes. Based on the absolute Pearson's matrix of overall signals, the graph Laplacian of EEG electrodes is built up. The GCNs-Net constructed by graph convolutional layers learns the generalized features. The followed pooling layers reduce dimensionality, and the fully-connected softmax layer derives the final prediction. The introduced approach has been shown to converge for both personalized and group-wise predictions. It has achieved the highest averaged accuracy, 93.06% and 88.57% (PhysioNet Dataset), 96.24% and 80.89% (High Gamma Dataset), at the subject and group level, respectively, compared with existing studies, which suggests adaptability and robustness to individual variability. Moreover, the performance is stably reproducible among repetitive experiments for cross-validation. The excellent performance of our method has shown that it is an important step towards better BCI approaches. To conclude, the GCNs-Net filters EEG signals based on the functional topological relationship, which manages to decode relevant features for brain motor imagery.
翻訳日:2022-11-20 19:02:57 公開日:2022-08-26
# サブモジュール協調ゲームにおける複製ロバストペイオフアロケーション

Replication Robust Payoff Allocation in Submodular Cooperative Games ( http://arxiv.org/abs/2006.14583v5 )

ライセンス: Link先を確認
Dongge Han, Michael Wooldridge, Alex Rogers, Olga Ohrimenko, Sebastian Tschiatschek(参考訳) 部分モジュラ函数は、幅広い実世界の応用のための強力な数学的モデルである。 近年,データや特徴といったエンティティ間の情報や冗長性といった概念をモデル化するための機械学習(ML)において,サブモジュール関数の重要性が高まっている。 これらのアプリケーションの中で、重要な疑問はペイオフアロケーション、すなわち、全体目標に対する各エンティティの重要性を評価する方法である。 この目的のために、協調ゲーム理論からの古典的な解法の概念は、ペイオフ割り当ての原理的なアプローチを提供する。 しかし、ゲーム理論文学の広範な体系にもかかわらず、サブモジュールゲームにおけるペイオフアロケーションは比較的研究が進んでいない。 特に、新興のサブモジュラーアプリケーションで生じる重要な概念は冗長性であり、プレイヤーがリソースを複製して複数のアイデンティティの下で行動する、豊富なデータや悪意のある操作といった様々なソースから発生する可能性がある。 多くのゲーム理論のソリューション概念は、サブモジュラーゲームで直接使用することができるが、これらの設定におけるペイオフアロケーションにそれらを適用することは、複製に対する堅牢性の問題を引き起こす可能性がある。 本稿では,サブモジュラーゲームにおけるレプリケーション操作を体系的に研究し,複製に対する解概念のロバスト性を定量的に測定する指標であるレプリケーションロバスト性について検討する。 この計量を用いて、半値のロバスト性を理論的に特徴付ける条件を提示する。 さらに,新たなサブモジュール型MLアプリケーション,すなわちMLデータ市場における理論的結果を実証的に検証する。

Submodular functions have been a powerful mathematical model for a wide range of real-world applications. Recently, submodular functions are becoming increasingly important in machine learning (ML) for modelling notions such as information and redundancy among entities such as data and features. Among these applications, a key question is payoff allocation, i.e., how to evaluate the importance of each entity towards the collective objective? To this end, classic solution concepts from cooperative game theory offer principled approaches to payoff allocation. However, despite the extensive body of game-theoretic literature, payoff allocation in submodular games are relatively under-researched. In particular, an important notion that arises in the emerging submodular applications is redundancy, which may occur from various sources such as abundant data or malicious manipulations where a player replicates its resource and act under multiple identities. Though many game-theoretic solution concepts can be directly used in submodular games, naively applying them for payoff allocation in these settings may incur robustness issues against replication. In this paper, we systematically study the replication manipulation in submodular games and investigate replication robustness, a metric that quantitatively measures the robustness of solution concepts against replication. Using this metric, we present conditions which theoretically characterise the robustness of semivalues, a wide family of solution concepts including the Shapley and Banzhaf value. Moreover, we empirically validate our theoretical results on an emerging submodular ML application, i.e., the ML data market.
翻訳日:2022-11-17 03:23:17 公開日:2022-08-26
# 混合ロジットモデルとネットワーク形成

Mixed Logit Models and Network Formation ( http://arxiv.org/abs/2006.16516v5 )

ライセンス: Link先を確認
Harsh Gupta and Mason A. Porter(参考訳) ネットワーク形成の研究は、経済学、社会学、その他多くの分野で広く行われている。 本稿では,ネットワーク内のノードが他のノードに接続するための「選択」としてネットワーク形成をモデル化する。 エージェントが2つ以上の離散的な選択肢を選択する離散的選択モデルを用いて、これらの「選択」について検討する。 ネットワーク形成の研究には「繰り返し選択(RC)」モデルを用いる。 我々は、rcモデルがネットワーク形成を研究する一つの枠組みを与える多項ロジット(mnl)モデルの重要な制限を克服し、ネットワーク形成を研究するのに適していると主張する。 また,rcモデルを用いて合成ネットワークと実世界ネットワークの両方を用いて,ネットワーク形成を正確に研究する方法を示す。 また、エッジ非依存合成ネットワークを用いて、MNLモデルとRCモデルの性能を比較する。 rcモデルは,mnlモデルよりも合成ネットワークのデータ生成過程を精度良く推定できることがわかった。 連続的に形成される特許引用ネットワークでは、新しい特許がより古い、より引用され、類似した特許を引用する可能性が高いという、定性的に興味深いシナリオのケーススタディを提示します。

The study of network formation is pervasive in economics, sociology, and many other fields. In this paper, we model network formation as a `choice' that is made by nodes in a network to connect to other nodes. We study these `choices' using discrete-choice models, in which an agent chooses between two or more discrete alternatives. We employ the `repeated-choice' (RC) model to study network formation. We argue that the RC model overcomes important limitations of the multinomial logit (MNL) model, which gives one framework for studying network formation, and that it is well-suited to study network formation. We also illustrate how to use the RC model to accurately study network formation using both synthetic and real-world networks. Using edge-independent synthetic networks, we also compare the performance of the MNL model and the RC model. We find that the RC model estimates the data-generation process of our synthetic networks more accurately than the MNL model. In a patent citation network, which forms sequentially, we present a case study of a qualitatively interesting scenario -- the fact that new patents are more likely to cite older, more cited, and similar patents -- for which employing the RC model yields interesting insights.
翻訳日:2022-11-15 06:13:47 公開日:2022-08-26
# 深層学習によるTwitterデータからのCOVID-19ワクチン接種反応の分析

Deep Learning-Based Sentiment Analysis of COVID-19 Vaccination Responses from Twitter Data ( http://arxiv.org/abs/2209.12604v1 )

ライセンス: Link先を確認
Kazi Nabiul Alam, Md Shakib Khan, Abdur Rab Dhruba, Mohammad Monirujjaman Khan, Jehad F. Al-Amri, Mehedi Masud and Majdi Rawashdeh(参考訳) この新型コロナウイルスのパンデミックは非常に恐ろしいので、深刻な不安、恐怖症、複雑な感情や感情につながる。 コロナウイルスに対するワクチン接種を開始しても、人々の感情はより多様で複雑になり、私たちのゴールは、Deep Learning技術を使って、彼らの感情を理解し、解き明かすことです。 ソーシャルメディアは、現在感情や感情を表現する最良の方法であり、その助けを借りて、特にTwitterは、トレンドと人々の心の中で何が起きているのかをよりよく理解することができる。 本研究の動機は、予防接種プロセスに関する人々の感情と、それに関する様々な考えを理解することである。 この調査では、収集されたツイートのタイムラインは12月21日から7月21日までで、世界中で最近入手可能な最も一般的なワクチンに関するツイートが含まれている。 あらゆる種類のワクチンに関する人々の感情は、自然言語処理(NLP)ツールであるValence Aware Dictionary for sEntiment Reasoner (VADER)を用いて評価された。 感情極性を3つのグループ(正、負、中立)に初期化することで、全体シナリオを視覚化し、33.96%が陽性、17.55%が陰性、48.49%が中性反応を示した。 リカレントニューラルネットワーク(RNN)指向アーキテクチャであるLSTM(Long Short-Term Memory)やBi-LSTM(Bi-LSTM)は予測モデルの性能を評価するために用いられ、LSTMは90.59%、Bi-LSTMは90.83%の精度を達成する。 また、精度、リコール、F-1スコア、コンフュージョンマトリックスなどの他のパフォーマンス指標も、我々のモデルと結果をより効果的に検証するために示された。 この研究は、新型コロナウイルスワクチンに関する世論の理解を助け、われわれの美しい世界からコロナウイルスを根絶する目的に影響を与える。

This COVID-19 pandemic is so dreadful that it leads to severe anxiety, phobias, and complicated feelings or emotions. Even after vaccination against Coronavirus has been initiated, people feelings have become more diverse and complex, and our goal is to understand and unravel their sentiments in this research using some Deep Learning techniques. Social media is currently the best way to express feelings and emotions, and with the help of it, specifically Twitter, one can have a better idea of what is trending and what is going on in people minds. Our motivation for this research is to understand the sentiment of people regarding the vaccination process, and their diverse thoughts regarding this. In this research, the timeline of the collected tweets was from December 21 to July 21, and contained tweets about the most common vaccines available recently from all across the world. The sentiments of people regarding vaccines of all sorts were assessed by using a Natural Language Processing (NLP) tool named Valence Aware Dictionary for sEntiment Reasoner (VADER). By initializing the sentiment polarities into 3 groups (positive, negative and neutral), the overall scenario was visualized here and our findings came out as 33.96% positive, 17.55% negative and 48.49% neutral responses. Recurrent Neural Network (RNN) oriented architecture such as Long Short-Term Memory (LSTM and Bi-LSTM) is used to assess the performance of the predictive models, with LSTM achieving an accuracy of 90.59% and Bi-LSTM achieving an accuracy of 90.83%. Other performance metrics such as Precision, Recall, F-1 score, and Confusion matrix were also shown to validate our models and findings more effectively. This study will help everyone understand public opinion on the COVID-19 vaccines and impact the aim of eradicating the Coronavirus from our beautiful world.
翻訳日:2022-10-02 23:57:14 公開日:2022-08-26
# 5G NR PUCCH フォーマット0の機械学習デコーダ

Machine Learning Decoder for 5G NR PUCCH Format 0 ( http://arxiv.org/abs/2209.07861v1 )

ライセンス: Link先を確認
Anil Kumar Yerrapragada, Jeeva Keshav S, Ankit Gautam, Radha Krishna Ganti(参考訳) 5Gセルシステムは,ユーザ機器と基地局間のフィードバック制御情報のタイムリーな交換に依存している。 この制御情報の適切な復号化は、高スループット無線リンクの設定と維持に必要である。 本稿では,物理アップリンク制御チャネルフォーマット0の復号性能向上のために,機械学習技術を用いた最初の試みを行う。 完全に接続されたニューラルネットワークを用いて,受信したサンプルを,その内部に埋め込まれたアップリンク制御情報に基づいて分類する。 トレーニングされたニューラルネットワークは、リアルタイムなワイヤレスキャプチャでテストされ、従来のDFTベースのデコーダよりも、低SNRでも精度が大幅に向上した。 得られた精度は, 3GPP要求値と一致した。

5G cellular systems depend on the timely exchange of feedback control information between the user equipment and the base station. Proper decoding of this control information is necessary to set up and sustain high throughput radio links. This paper makes the first attempt at using Machine Learning techniques to improve the decoding performance of the Physical Uplink Control Channel Format 0. We use fully connected neural networks to classify the received samples based on the uplink control information content embedded within them. The trained neural network, tested on real-time wireless captures, shows significant improvement in accuracy over conventional DFT-based decoders, even at low SNR. The obtained accuracy results also demonstrate conformance with 3GPP requirements.
翻訳日:2022-09-25 18:01:52 公開日:2022-08-26
# ニューラルネットワーク制御器を用いた確率システムのリスク検証

Risk Verification of Stochastic Systems with Neural Network Controllers ( http://arxiv.org/abs/2209.09881v1 )

ライセンス: Link先を確認
Matthew Cleaveland, Lars Lindemann, Radoslav Ivanov, George Pappas(参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワーク(NN)コントローラの脆弱性に触発され、NNコントローラを用いた確率力学系のリスクを検証するためのデータ駆動フレームワークを提案する。 確率制御システム、nnコントローラ、およびトレースロバスト性の概念(例えば制約関数や信号時相論理)を備えた仕様が与えられたとき、我々はその仕様を満たさないかもしれない、あるいは満たさないかもしれないシステムから軌道を収集する。 特に、各軌跡は、仕様がどの程度(頻繁に)満足しているか(違反)を示す頑健な値を生成する。 そして、これらの堅牢性値に対するリスクメトリクスを計算し、nnコントローラが仕様を満たさないリスクを推定します。 我々は,2つのシステム間のリスクの差を定量化することに興味を持ち,また,名目システムから見積もられたリスクが,システムの摂動バージョンのリスクを上限とすることを示す。 特に、この境界の厳密性は、系の軌道の近さの観点から、系の近さに依存する。 リプシッツ連続およびインクリメンタルな入出力安定系では、実験中のデータからより一般的なシステムに対するシステム近接度を推定しながら、様々な保守性でシステムの近接度を正確に定量化する方法を示す。 我々は,水中車両とf1/10自律走行車という2つのケーススタディにおいて,リスク検証アプローチを実証する。

Motivated by the fragility of neural network (NN) controllers in safety-critical applications, we present a data-driven framework for verifying the risk of stochastic dynamical systems with NN controllers. Given a stochastic control system, an NN controller, and a specification equipped with a notion of trace robustness (e.g., constraint functions or signal temporal logic), we collect trajectories from the system that may or may not satisfy the specification. In particular, each of the trajectories produces a robustness value that indicates how well (severely) the specification is satisfied (violated). We then compute risk metrics over these robustness values to estimate the risk that the NN controller will not satisfy the specification. We are further interested in quantifying the difference in risk between two systems, and we show how the risk estimated from a nominal system can provide an upper bound the risk of a perturbed version of the system. In particular, the tightness of this bound depends on the closeness of the systems in terms of the closeness of their system trajectories. For Lipschitz continuous and incrementally input-to-state stable systems, we show how to exactly quantify system closeness with varying degrees of conservatism, while we estimate system closeness for more general systems from data in our experiments. We demonstrate our risk verification approach on two case studies, an underwater vehicle and an F1/10 autonomous car.
翻訳日:2022-09-25 18:01:41 公開日:2022-08-26
# 事前学習言語モデルと電子健康記録コンテキストを用いたバイオメディカル・ファクチュアル知識の抽出

Extracting Biomedical Factual Knowledge Using Pretrained Language Model and Electronic Health Record Context ( http://arxiv.org/abs/2209.07859v1 )

ライセンス: Link先を確認
Zonghai Yao, Yi Cao, Zhichao Yang, Vijeta Deshpande, Hong Yu(参考訳) 言語モデル(lms)は生物医学的自然言語処理アプリケーションでよく機能している。 本研究では,新しい知識ベース (LM) として LM から知識を抽出するために,プロンプト手法を用いた実験を行った。 しかし、プロンプトは知識抽出の低バウンダリとしてのみ使用することができ、特にバイオメディカルドメインKBでは不十分である。 バイオメディカルドメインの実際の適用シナリオに合わせて、LMをKBとした上で、バイオメディカルドメインの低バウンドを改善するプロンプトに、EHRノートをコンテキストとして追加する。 我々はDynamic-Context-BioLAMAタスクのための一連の実験を設計し、検証する。 実験の結果、これらの言語モデルが持つ知識は、EHRノートのノイズ知識と正しい知識を区別することができ、そのような区別能力は、モデルが持つ知識の量を評価するための新しい指標としても利用できることがわかった。

Language Models (LMs) have performed well on biomedical natural language processing applications. In this study, we conducted some experiments to use prompt methods to extract knowledge from LMs as new knowledge Bases (LMs as KBs). However, prompting can only be used as a low bound for knowledge extraction, and perform particularly poorly on biomedical domain KBs. In order to make LMs as KBs more in line with the actual application scenarios of the biomedical domain, we specifically add EHR notes as context to the prompt to improve the low bound in the biomedical domain. We design and validate a series of experiments for our Dynamic-Context-BioLAMA task. Our experiments show that the knowledge possessed by those language models can distinguish the correct knowledge from the noise knowledge in the EHR notes, and such distinguishing ability can also be used as a new metric to evaluate the amount of knowledge possessed by the model.
翻訳日:2022-09-25 17:57:45 公開日:2022-08-26
# 自律検査ロボットの自己校正異常と変化検出

Self-Calibrating Anomaly and Change Detection for Autonomous Inspection Robots ( http://arxiv.org/abs/2209.02379v1 )

ライセンス: Link先を確認
Sahar Salimpour, Jorge Pe\~na Queralta, Tomi Westerlund(参考訳) 視覚異常の自動検出と環境の変化は、過去数十年にわたり機械学習とコンピュータビジョンの分野で繰り返し注目されてきたトピックである。 視覚異常または変化検出アルゴリズムは、参照画像またはデータセットとは異なる画像の領域を識別する。 既存のアプローチの大半は、特定の画像や環境における異常検出や異常検出に重点を置いているが、汎用的な視覚的異常検出アルゴリズムは、文献ではより少ない。 本稿では,参照データセットが収集された後,事前の未知環境における異常や変化を検出するための包括的ディープラーニングフレームワークを提案する。 我々は,スーパーポイントとスーパーグルー特徴抽出とマッチング手法を用いて,類似した場所から抽出した参照画像と視野の重複部分に基づいて異常を検出する。 また,特徴マッチングしきい値と環境条件に対する感度の問題に対処するため,提案モデルに対する自己校正手法を提案する。 提案フレームワークの評価には,参照と問合せデータ収集を目的とした地上ロボットシステムを用いた。 提案手法により高精度な精度が得られることを示す。 また,キャリブレーションプロセスが変化と異物検出性能を向上させることも示す。

Automatic detection of visual anomalies and changes in the environment has been a topic of recurrent attention in the fields of machine learning and computer vision over the past decades. A visual anomaly or change detection algorithm identifies regions of an image that differ from a reference image or dataset. The majority of existing approaches focus on anomaly or fault detection in a specific class of images or environments, while general purpose visual anomaly detection algorithms are more scarce in the literature. In this paper, we propose a comprehensive deep learning framework for detecting anomalies and changes in a priori unknown environments after a reference dataset is gathered, and without need for retraining the model. We use the SuperPoint and SuperGlue feature extraction and matching methods to detect anomalies based on reference images taken from a similar location and with partial overlapping of the field of view. We also introduce a self-calibrating method for the proposed model in order to address the problem of sensitivity to feature matching thresholds and environmental conditions. To evaluate the proposed framework, we have used a ground robot system for the purpose of reference and query data collection. We show that high accuracy can be obtained using the proposed method. We also show that the calibration process enhances changes and foreign object detection performance
翻訳日:2022-09-11 13:16:10 公開日:2022-08-26
# ロバストなマルチチャネルグラフニューラルネットワークによる遠隔作業最適化

Remote Work Optimization with Robust Multi-channel Graph Neural Networks ( http://arxiv.org/abs/2209.03150v1 )

ライセンス: Link先を確認
Qinyi Zhu, Liang Wu, Qi Guo, Liangjie Hong(参考訳) 新型コロナウイルス(covid-19)の感染拡大により、多くの企業オフィスがグローバルに閉鎖され、企業は従業員が遠隔地から働ける機会を増やすことを奨励している。 職場のタイプが現場のオフィスから遠隔地へと拡大するにつれ、オンライン雇用市場における新たな課題は、リモートワークの機会とユーザの意図を、事前情報なしでモデル化し、一致させることができることだ。 新型コロナウイルス(COVID-19)の影響で在宅勤務が急増しているにもかかわらず、直接適用可能なアプローチは存在しない。 全く新しい職場タイプを導入すると、当然コールドスタート問題が発生する。 既存の情報ソースが履歴書や求人情報など、新しい職種に関する情報をほとんど提供できなければ、あらゆる予測モデルに新しい職場タイプを組み込むことは不可能でも困難である。 そこで本研究では,web スケールアプリケーションのニーズを十分満たすような限られた情報を用いて,求職者のリモートネスと就職機会を共同でモデル化する原則的アプローチを提案する。 新たなタイプのリモートワークスの研究は主に質的研究に焦点をあてており、コールドスタート問題や情報不足を考えると、古典的な予測モデルアプローチは適用不可能である。 我々はこのギャップを、新しいグラフニューラルアーキテクチャで正確に埋めようとしている。 競争ベースラインに対する提案手法の優位性を検証するために,実世界のアプリケーションからの大規模データに対する広範囲な実験が実施された。 改善は、リモートワークに興味のある求職者に利益をもたらす新しい職場タイプをより迅速に導入することにつながるかもしれない。

The spread of COVID-19 leads to the global shutdown of many corporate offices, and encourages companies to open more opportunities that allow employees to work from a remote location. As the workplace type expands from onsite offices to remote areas, an emerging challenge for an online hiring marketplace is how these remote opportunities and user intentions to work remotely can be modeled and matched without prior information. Despite the unprecedented amount of remote jobs posted amid COVID-19, there is no existing approach that can be directly applied. Introducing a brand new workplace type naturally leads to the cold-start problem, which is particularly more common for less active job seekers. It is challenging, if not impossible, to onboard a new workplace type for any predictive model if existing information sources can provide little information related to a new category of jobs, including data from resumes and job descriptions. Hence, in this work, we aim to propose a principled approach that jointly models the remoteness of job seekers and job opportunities with limited information, which also suffices the needs of web-scale applications. Existing research on the emerging type of remote workplace mainly focuses on qualitative studies, and classic predictive modeling approaches are inapplicable considering the problem of cold-start and information scarcity. We precisely try to close this gap with a novel graph neural architecture. Extensive experiments on large-scale data from real-world applications have been conducted to validate the superiority of the proposed approach over competitive baselines. The improvement may translate to more rapid onboarding of the new workplace type that can benefit job seekers who are interested in working remotely.
翻訳日:2022-09-11 13:15:52 公開日:2022-08-26
# アプライアンス認識のための表現学習:古典的機械学習との比較

Representation Learning for Appliance Recognition: A Comparison to Classical Machine Learning ( http://arxiv.org/abs/2209.03759v1 )

ライセンス: Link先を確認
Matthias Kahl and Daniel Jorde and Hans-Arno Jacobsen(参考訳) 非侵入負荷監視(NILM)は、信号処理と機械学習アルゴリズムの助けを借りて、集約消費測定からエネルギー消費とアプライアンス状態情報を取得することを目的としている。 ディープニューラルネットワークを用いた表現学習は、いくつかの関連する分野にうまく適用できる。 表現学習の主な利点は、専門家主導で手作りの機能抽出を、生のデータフォーマットで多くの表現から階層的な学習に置き換えることである。 本稿では,NILM処理チェーンを改良し,複雑性を低減し,最近のディープラーニングアルゴリズムで設計する方法について述べる。 イベントベースのアプライアンス認識アプローチに基づいて,手作り特徴抽出に基づく古典的機械学習アプローチ,波形データの自動特徴抽出のための3つの異なるディープニューラルネットワークアーキテクチャ,および生データ処理のための3つのベースラインアプローチの7つの分類モデルを評価する。 44個のアプライアンスの5万件以上のイベントを含む2つの大規模エネルギー消費データセットに対する全てのアプローチを評価した。 ディープラーニングを用いることで、Fスコア0.75と0.86のアプライアンス認識のための最先端の古典的機械学習アプローチの性能を、従来の0.69と0.87と比較して達成し、超えることを示す。

Non-intrusive load monitoring (NILM) aims at energy consumption and appliance state information retrieval from aggregated consumption measurements, with the help of signal processing and machine learning algorithms. Representation learning with deep neural networks is successfully applied to several related disciplines. The main advantage of representation learning lies in replacing an expert-driven, hand-crafted feature extraction with hierarchical learning from many representations in raw data format. In this paper, we show how the NILM processing-chain can be improved, reduced in complexity and alternatively designed with recent deep learning algorithms. On the basis of an event-based appliance recognition approach, we evaluate seven different classification models: a classical machine learning approach that is based on a hand-crafted feature extraction, three different deep neural network architectures for automated feature extraction on raw waveform data, as well as three baseline approaches for raw data processing. We evaluate all approaches on two large-scale energy consumption datasets with more than 50,000 events of 44 appliances. We show that with the use of deep learning, we are able to reach and surpass the performance of the state-of-the-art classical machine learning approach for appliance recognition with an F-Score of 0.75 and 0.86 compared to 0.69 and 0.87 of the classical approach.
翻訳日:2022-09-11 13:15:25 公開日:2022-08-26
# 時間周波数コントラスト表現学習を用いた自己監督型人間行動認識

Self-Supervised Human Activity Recognition with Localized Time-Frequency Contrastive Representation Learning ( http://arxiv.org/abs/2209.00990v1 )

ライセンス: Link先を確認
Setareh Rahimi Taghanaki, Michael Rainbow and Ali Etemad(参考訳) 本稿では,スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。 加速度計信号から強い表現を学習するモデルを開発し、ロバストな人間の行動分類を行い、モデルのクラスラベルへの依存度を減らすことを目的とする。 具体的には、特定のデータセット上で事前訓練されたネットワークが、他のデータセット上で効果的なアクティビティ分類を行うことができるように、データセット間転送学習を可能にする。 この問題に対処するため,我々は加速度計信号からできるだけ多くの情報を学習する目的でソリューションを設計した。 その結果、時間周波数領域でデータを学習するパイプラインと、時間領域のみでデータを学習するパイプラインを2つ設計した。 データセット間転送学習における上記の問題に対処するため,各ストリームを自己教師付きコントラスト学習を用いて学習する。 次に、各ストリームは最終分類のために微調整され、最終的に2つが融合して最終結果を提供する。 提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価し, 本手法が従来よりも優れていることを示す。 さらに,本手法の性能を,事前学習のためのmobiactデータセットと下流分類タスクのための残りの3つのデータセットを用いて評価し,クロスデータセット転送学習における他の自己教師付き手法と比較して優れた性能が得られることを示す。

In this paper, we propose a self-supervised learning solution for human activity recognition with smartphone accelerometer data. We aim to develop a model that learns strong representations from accelerometer signals, in order to perform robust human activity classification, while reducing the model's reliance on class labels. Specifically, we intend to enable cross-dataset transfer learning such that our network pre-trained on a particular dataset can perform effective activity classification on other datasets (successive to a small amount of fine-tuning). To tackle this problem, we design our solution with the intention of learning as much information from the accelerometer signals as possible. As a result, we design two separate pipelines, one that learns the data in time-frequency domain, and the other in time-domain alone. In order to address the issues mentioned above in regards to cross-dataset transfer learning, we use self-supervised contrastive learning to train each of these streams. Next, each stream is fine-tuned for final classification, and eventually the two are fused to provide the final results. We evaluate the performance of the proposed solution on three datasets, namely MotionSense, HAPT, and HHAR, and demonstrate that our solution outperforms prior works in this field. We further evaluate the performance of the method in learning generalized features, by using MobiAct dataset for pre-training and the remaining three datasets for the downstream classification task, and show that the proposed solution achieves better performance in comparison with other self-supervised methods in cross-dataset transfer learning.
翻訳日:2022-09-11 13:15:01 公開日:2022-08-26
# JPEG圧縮における構成損失を低減する畳み込みニューラルネットワーク(CNN)

Convolutional Neural Network (CNN) to reduce construction loss in JPEG compression ( http://arxiv.org/abs/2209.03475v1 )

ライセンス: Link先を確認
Suman Kunwar(参考訳) 近年,デジタル画像処理が盛んに行われている。 その結果,画像表現に必要な情報量を最小化する目的で,データ圧縮戦略がいくつも実施されている。 その中でもJPEG圧縮は、マルチメディアやデジタルアプリケーションに広く応用されている最も一般的な方法の1つである。 DFTの周期的な性質は、画像の対向するエッジの周期的な条件を満たすことが、深刻なアーチファクトを生成することなく不可能となり、画像の視覚的品質を低下させる。 一方,ディープラーニングは音声認識,画像の縮小,自然言語処理などの応用において,近年顕著な成果を上げている。 畳み込みニューラルネットワーク(CNN)は他の多くのディープニューラルネットワークよりも注目されている。 特徴抽出における畳み込みの使用により、冗長な特徴マップは少なくなり、データセットも小さくなり、どちらも画像圧縮に不可欠である。 本研究では,オートエンコーダを用いた効果的な画像圧縮手法を提案する。 研究の結果, 自己エンコーダを用いて, 良好な再建と良好な圧縮を達成できることを示唆するいくつかの重要な傾向が明らかになった。

In recent decades, digital image processing has gained enormous popularity. Consequently, a number of data compression strategies have been put forth, with the goal of minimizing the amount of information required to represent images. Among them, JPEG compression is one of the most popular methods that has been widely applied in multimedia and digital applications. The periodic nature of DFT makes it impossible to meet the periodic condition of an image's opposing edges without producing severe artifacts, which lowers the image's perceptual visual quality. On the other hand, deep learning has recently achieved outstanding results for applications like speech recognition, image reduction, and natural language processing. Convolutional Neural Networks (CNN) have received more attention than most other types of deep neural networks. The use of convolution in feature extraction results in a less redundant feature map and a smaller dataset, both of which are crucial for image compression. In this work, an effective image compression method is purposed using autoencoders. The study's findings revealed a number of important trends that suggested better reconstruction along with good compression can be achieved using autoencoders.
翻訳日:2022-09-11 13:14:37 公開日:2022-08-26
# 人間らしく経験する創造的な人格

Generative Personas That Behave and Experience Like Humans ( http://arxiv.org/abs/2209.00459v1 )

ライセンス: Link先を確認
Matthew Barthet, Ahmed Khalifa, Antonios Liapis and Georgios N. Yannakakis(参考訳) 人工知能(AI)を使ってゲームを自動的にテストすることは、よりリッチで複雑なゲーム世界の開発と、AI全体の進歩にとって重要な課題である。 長年の目標を達成するための最も有望な方法の1つは、ルール、報酬、または人間のデモンストレーションとして表される特定の遊び行動を模倣しようとする、生成的なaiエージェント、すなわち手続き型パーソナラの使用である。 しかし、これらの生成エージェントを構築するための研究のすべては、プレイヤーがゲームで実際に行うことの狭義の視点であるゲーム行動のみに焦点を当ててきた。 本論文は,既存の技術状況におけるこのギャップに触発され,行動手続き的ペルソナの概念をプレイヤー体験に役立てるために拡張し,人間の行動と経験の両方が可能な生成エージェントについて検討する。 そこで我々は,Go-Explore強化学習パラダイムを用いて,人間のようなプロシージャペルソナを訓練し,100人以上の競技者の行動と経験を実演する手法を検証した。 その結果, 生成したエージェントは, 模倣を意図した人物のプレイスタイルと経験的反応を示すことがわかった。 重要なのは、演奏行動に結びついている経験が、行動探索を改善する上で非常に有意義なドライバーになり得ることだ。

Using artificial intelligence (AI) to automatically test a game remains a critical challenge for the development of richer and more complex game worlds and for the advancement of AI at large. One of the most promising methods for achieving that long-standing goal is the use of generative AI agents, namely procedural personas, that attempt to imitate particular playing behaviors which are represented as rules, rewards, or human demonstrations. All research efforts for building those generative agents, however, have focused solely on playing behavior which is arguably a narrow perspective of what a player actually does in a game. Motivated by this gap in the existing state of the art, in this paper we extend the notion of behavioral procedural personas to cater for player experience, thus examining generative agents that can both behave and experience their game as humans would. For that purpose, we employ the Go-Explore reinforcement learning paradigm for training human-like procedural personas, and we test our method on behavior and experience demonstrations of more than 100 players of a racing game. Our findings suggest that the generated agents exhibit distinctive play styles and experience responses of the human personas they were designed to imitate. Importantly, it also appears that experience, which is tied to playing behavior, can be a highly informative driver for better behavioral exploration.
翻訳日:2022-09-04 02:04:07 公開日:2022-08-26
# 実用的なセキュア推論のための効率的なMLモデル

Efficient ML Models for Practical Secure Inference ( http://arxiv.org/abs/2209.00411v1 )

ライセンス: Link先を確認
Vinod Ganesan, Anwesh Bhattacharya, Pratyush Kumar, Divya Gupta, Rahul Sharma, Nishanth Chandran(参考訳) ML-as-a-serviceは成長を続けており、非常に強力なプライバシ保証の必要性もある。 セキュアな推論は潜在的な解決策として現れており、暗号化プリミティブによって、モデルのプロバイダやモデルの重み付けにユーザの入力を明らかにすることなく、推論が可能である。 例えば、モデル提供者は、胸部X線を解釈するための最先端のDenseNet-121モデルを訓練した診断会社であり、ユーザーは病院の患者かもしれない。 セキュアな推論は原則としてこの設定で実現可能であるが、大規模に実践的な手法は存在しない。 CrypTFlow2フレームワークは、任意のモデルのセキュアな推論にクリアテキスト推論を自動的に正しく翻訳する機能を備えた潜在的なソリューションを提供する。 しかし、CrypTFlow2から得られたセキュアな推論は非常に高価である: DenseNet-121上で1つのX線を解釈するためには、ほぼ3TBの通信が必要である。 本稿では,3つの貢献を伴うセキュアな推論の非効率性に関する課題について述べる。 まず,セキュアな推論における主なボトルネックは,ネットワークバックボーンの選択と効率的なクリアテキスト推論のために開発された演算子の使用によって最適化可能な,大規模線形層であることを示す。 この発見と強調は、より小さなネットワークの安全な推論を行う際に非線形アクティベーション層を最適化することに焦点を当てた最近の多くの研究から逸脱している。 第2に,ボトルネック畳み込み層の解析に基づいて,より効率的なドロップイン置換であるxオペレータを設計した。 第三に、高速なWinograd畳み込みアルゴリズムは安全な推論の効率をさらに向上させることを示す。 これら3つの最適化は、CheXpertデータセットでトレーニングされたX線解釈の問題に対して非常に効果的であることが証明された。

ML-as-a-service continues to grow, and so does the need for very strong privacy guarantees. Secure inference has emerged as a potential solution, wherein cryptographic primitives allow inference without revealing users' inputs to a model provider or model's weights to a user. For instance, the model provider could be a diagnostics company that has trained a state-of-the-art DenseNet-121 model for interpreting a chest X-ray and the user could be a patient at a hospital. While secure inference is in principle feasible for this setting, there are no existing techniques that make it practical at scale. The CrypTFlow2 framework provides a potential solution with its ability to automatically and correctly translate clear-text inference to secure inference for arbitrary models. However, the resultant secure inference from CrypTFlow2 is impractically expensive: Almost 3TB of communication is required to interpret a single X-ray on DenseNet-121. In this paper, we address this outstanding challenge of inefficiency of secure inference with three contributions. First, we show that the primary bottlenecks in secure inference are large linear layers which can be optimized with the choice of network backbone and the use of operators developed for efficient clear-text inference. This finding and emphasis deviates from many recent works which focus on optimizing non-linear activation layers when performing secure inference of smaller networks. Second, based on analysis of a bottle-necked convolution layer, we design a X-operator which is a more efficient drop-in replacement. Third, we show that the fast Winograd convolution algorithm further improves efficiency of secure inference. In combination, these three optimizations prove to be highly effective for the problem of X-ray interpretation trained on the CheXpert dataset.
翻訳日:2022-09-04 02:03:20 公開日:2022-08-26
# ズームメモリ初期化を用いたニードル・イン・ア・ヘイスタック問題の高速ベイズ最適化

Fast Bayesian Optimization of Needle-in-a-Haystack Problems using Zooming Memory-Based Initialization ( http://arxiv.org/abs/2208.13771v1 )

ライセンス: Link先を確認
Alexander E. Siemenn, Zekun Ren, Qianxiao Li, Tonio Buonassisi(参考訳) ニードル・イン・ア・ヘイスタックの問題は、希少な疾患予測、生態資源管理、不正検出、材料資産最適化など、幅広い用途に存在している。 データセットのサイズに対して最適な条件が極端に不均衡である場合、ニードル・イン・ア・ヘイスタック問題が発生する。 例えば、オープンアクセス・マテリアル・プロジェクト(英語版)データベースの146kの総材料のうち0.82%しかポアソン比が負である。 しかし、現在の最先端最適化アルゴリズムは、これらの困難な多次元ニードル・イン・ア・ヘイスタック問題の解を見つける能力を持って設計されておらず、その結果、グローバル最適化や局所最小化への収束が遅くなる。 本稿では,従来のベイズ最適化原理を基礎として,共通収束問題とハトホリング問題に対処して,少ない時間と少ない実験でニードル・イン・ア・ヘイスタック問題を迅速かつ効率的に最適化するズームングメモリベース初期化アルゴリズムzombiを提案する。 zombiは、これまで最もパフォーマンスの高い評価実験から知識を積極的に抽出し、サンプリング探索境界をグローバル最適"ニードル"に向けて反復的に拡大し、低パフォーマンスの歴史的実験の記憶をかき集めて計算時間を高速化する。 本研究では,2つの実世界の5次元ニードル・イン・ア・ヘイスタック材料特性最適化データセット上でのアルゴリズムの性能を検証する。 ZoMBIアルゴリズムは、従来のベイズ最適化と比較して400倍の計算時間を高速化し、現在の最先端アルゴリズムよりも最大3倍高度に最適化された100以上の実験で材料を効率よく発見する。

Needle-in-a-Haystack problems exist across a wide range of applications including rare disease prediction, ecological resource management, fraud detection, and material property optimization. A Needle-in-a-Haystack problem arises when there is an extreme imbalance of optimum conditions relative to the size of the dataset. For example, only 0.82% out of 146k total materials in the open-access Materials Project database have a negative Poisson's ratio. However, current state-of-the-art optimization algorithms are not designed with the capabilities to find solutions to these challenging multidimensional Needle-in-a-Haystack problems, resulting in slow convergence to a global optimum or pigeonholing into a local minimum. In this paper, we present a Zooming Memory-Based Initialization algorithm, entitled ZoMBI, that builds on conventional Bayesian optimization principles to quickly and efficiently optimize Needle-in-a-Haystack problems in both less time and fewer experiments by addressing the common convergence and pigeonholing issues. ZoMBI actively extracts knowledge from the previously best-performing evaluated experiments to iteratively zoom in the sampling search bounds towards the global optimum "needle" and then prunes the memory of low-performing historical experiments to accelerate compute times. We validate the algorithm's performance on two real-world 5-dimensional Needle-in-a-Haystack material property optimization datasets: discovery of auxetic Poisson's ratio materials and discovery of high thermoelectric figure of merit materials. The ZoMBI algorithm demonstrates compute time speed-ups of 400x compared to traditional Bayesian optimization as well as efficiently discovering materials in under 100 experiments that are up to 3x more highly optimized than those discovered by current state-of-the-art algorithms.
翻訳日:2022-08-31 13:44:02 公開日:2022-08-26
# FuncFooler: 学習ベースのバイナリコード類似性検出手法に対する実用的なブラックボックス攻撃

FuncFooler: A Practical Black-box Attack Against Learning-based Binary Code Similarity Detection Methods ( http://arxiv.org/abs/2208.14191v1 )

ライセンス: Link先を確認
Lichen Jia, Bowen Tang, Chenggang Wu, Zhe Wang, Zihan Jiang, Yuanming Lai, Yan Kang, Ning Liu, Jingfeng Zhang(参考訳) バイナリコード類似度検出(bcsd)法は、2つのバイナリ実行コードの類似度を測定する。 近年、BCSD法は従来のBCSDよりも精度と効率が優れ、大きな成功を収めている。 しかし、既存の研究は、セキュリティ関連のアプリケーションに危険をもたらす学習ベースのBCSDメソッドの敵意的な脆弱性に乏しい。 本論文は, 対向ロバスト性を評価するために, 効率的かつブラックボックスの対向コード生成アルゴリズムであるFuncFoolerを設計する。 FuncFoolerは敵のコードを制限する 1)プログラムの制御フローグラフ(CFG)の変更を継続し、 2)同じ意味の意味を保つ。 特にFuncFoolerは連続して 1) 悪意のあるコード中の脆弱な候補を決定する。 2) 反対指示を良性コードから選択し,挿入する。 3) 制約を満たすために、相手コードの意味的副作用を補正する。 経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルに対してうまく攻撃することができます。

The binary code similarity detection (BCSD) method measures the similarity of two binary executable codes. Recently, the learning-based BCSD methods have achieved great success, outperforming traditional BCSD in detection accuracy and efficiency. However, the existing studies are rather sparse on the adversarial vulnerability of the learning-based BCSD methods, which cause hazards in security-related applications. To evaluate the adversarial robustness, this paper designs an efficient and black-box adversarial code generation algorithm, namely, FuncFooler. FuncFooler constrains the adversarial codes 1) to keep unchanged the program's control flow graph (CFG), and 2) to preserve the same semantic meaning. Specifically, FuncFooler consecutively 1) determines vulnerable candidates in the malicious code, 2) chooses and inserts the adversarial instructions from the benign code, and 3) corrects the semantic side effect of the adversarial code to meet the constraints. Empirically, our FuncFooler can successfully attack the three learning-based BCSD models, including SAFE, Asm2Vec, and jTrans, which calls into question whether the learning-based BCSD is desirable.
翻訳日:2022-08-31 12:44:19 公開日:2022-08-26
# デジタルツインの包括的レビュー -その1:モデリングとツイン化の実現技術

A Comprehensive Review of Digital Twin -- Part 1: Modeling and Twinning Enabling Technologies ( http://arxiv.org/abs/2208.14197v1 )

ライセンス: Link先を確認
Adam Thelen, Xiaoge Zhang, Olga Fink, Yan Lu, Sayan Ghosh, Byeng D. Youn, Michael D. Todd, Sankaran Mahadevan, Chao Hu, Zhen Hu(参考訳) 産業4.0時代の新興技術として、物理的世界を相互接続型デジタルモデル群として包括的にモデル化することで、プロセス設計、品質管理、健康管理、意思決定、政策作成などをさらに最適化する約束により、デジタルツインが前例のない注目を集めている。 2部構成の論文において, 異なるモデリング手法, ツイン化実現技術, 不確実性定量化および最適化手法の基礎的役割について検討した。 本稿では,この研究分野を追求する多くの分野において,デジタル双生児の傾向を概説した文献レビューを行う。 次に、デジタルツインモデリングとツイン化可能技術は、データフローの方向に基づいて、物理から仮想、仮想から物理への2つの主要なカテゴリに分類することでさらに分析される。 最後に,今後10年間のデジタルツイン技術の軌跡を展望し,今後のデジタルツイン研究で活用されるであろう新たな研究分野をいくつか紹介する。 このレビューのパート2では、不確実性定量化と最適化の役割について論じ、電池用デジタルツインを実演し、デジタルツインの将来についてさらなる視点を共有した。

As an emerging technology in the era of Industry 4.0, digital twin is gaining unprecedented attention because of its promise to further optimize process design, quality control, health monitoring, decision and policy making, and more, by comprehensively modeling the physical world as a group of interconnected digital models. In a two-part series of papers, we examine the fundamental role of different modeling techniques, twinning enabling technologies, and uncertainty quantification and optimization methods commonly used in digital twins. This first paper presents a thorough literature review of digital twin trends across many disciplines currently pursuing this area of research. Then, digital twin modeling and twinning enabling technologies are further analyzed by classifying them into two main categories: physical-to-virtual, and virtual-to-physical, based on the direction in which data flows. Finally, this paper provides perspectives on the trajectory of digital twin technology over the next decade, and introduces a few emerging areas of research which will likely be of great use in future digital twin research. In part two of this review, the role of uncertainty quantification and optimization are discussed, a battery digital twin is demonstrated, and more perspectives on the future of digital twin are shared.
翻訳日:2022-08-31 12:44:00 公開日:2022-08-26
# メンタルヘルスモニタリングのための教師付きディープリカレントシステムによる音声感情認識

Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring ( http://arxiv.org/abs/2208.12812v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Navid Asadizanjani, Murat Ozer, Ahmed Abdelgawad, Magdy Bayoumi(参考訳) 人間行動の理解とメンタルヘルスのモニタリングは、コミュニティと社会の安全を維持するために不可欠である。 新型コロナウイルス(covid-19)のパンデミックでは、コントロール不能なメンタルヘルスによるメンタルヘルスの問題が増加しているため、早期に精神的な問題を検出することが不可欠である。 近年,知能仮想パーソナルアシスタント(IVA)の利用が世界中で増加している。 個人は声を使ってこれらのデバイスを制御し、要求を満たし、異なるサービスを取得する。 本稿では、音声からの人間の感情を理解し、IVAサービスを改善し、メンタルヘルスを監視するために、ゲートリカレントニューラルネットワークと畳み込みニューラルネットワークに基づく新しいディープラーニングモデルを提案する。

Understanding human behavior and monitoring mental health are essential to maintaining the community and society's safety. As there has been an increase in mental health problems during the COVID-19 pandemic due to uncontrolled mental health, early detection of mental issues is crucial. Nowadays, the usage of Intelligent Virtual Personal Assistants (IVA) has increased worldwide. Individuals use their voices to control these devices to fulfill requests and acquire different services. This paper proposes a novel deep learning model based on the gated recurrent neural network and convolution neural network to understand human emotion from speech to improve their IVA services and monitor their mental health.
翻訳日:2022-08-30 14:55:46 公開日:2022-08-26
# グラフニューラルネットワークを用いた小銀河のダークマター密度プロファイルの解明

Uncovering dark matter density profiles in dwarf galaxies with graph neural networks ( http://arxiv.org/abs/2208.12825v1 )

ライセンス: Link先を確認
Tri Nguyen, Siddharth Mishra-Sharma, Reuel Williams, Lina Necib(参考訳) ドワーフ銀河は、暗黒物質が支配する小さな銀河であり、一部は銀河系に埋め込まれている。 それらのバリオン物質(恒星やガスなど)の欠如により、ダークマターの性質を解明するためのテストベッドが完成し、これらの系における空間的なダークマター分布は、宇宙の構造の形成と進化に影響を及ぼすミクロ物理学的なダークマター相互作用を制限できる。 これらの系に重力的に結合した恒星の観測可能なキネマティクスから、小銀河の暗黒物質密度プロファイルを推定するために、シミュレーションベースの推論とグラフベースの機械学習を利用する新しい手法を提案する。 提案手法は,動的Jeansモデリングに基づく確立された手法の限界に対処することを目的としている。 本手法は, 暗黒物質プロファイルに強い制約を課すことができ, その結果, コアカスプの差など, 暗黒物質ハロの小規模構造に係わるパズルのいくつかを考察できる可能性が示唆された。

Dwarf galaxies are small, dark matter-dominated galaxies, some of which are embedded within the Milky Way. Their lack of baryonic matter (e.g., stars and gas) makes them perfect test beds for probing the properties of dark matter -- understanding the spatial dark matter distribution in these systems can be used to constrain microphysical dark matter interactions that influence the formation and evolution of structures in our Universe. We introduce a new method that leverages simulation-based inference and graph-based machine learning in order to infer the dark matter density profiles of dwarf galaxies from observable kinematics of stars gravitationally bound to these systems. Our approach aims to address some of the limitations of established methods based on dynamical Jeans modeling. We show that this novel method can place stronger constraints on dark matter profiles and, consequently, has the potential to weigh in on some of the ongoing puzzles associated with the small-scale structure of dark matter halos, such as the core-cusp discrepancy.
翻訳日:2022-08-30 14:55:33 公開日:2022-08-26
# 光チャネル等化におけるニューラルネットワークの計算複雑性の低減:概念から実装まで

Reducing Computational Complexity of Neural Networks in Optical Channel Equalization: From Concepts to Implementation ( http://arxiv.org/abs/2208.12866v1 )

ライセンス: Link先を確認
Pedro J. Freire, Antonio Napoli, Diego Arguello Ron, Bernhard Spinnler, Michael Anderson, Wolfgang Schairer, Thomas Bex, Nelson Costa, Sergei K. Turitsyn, Jaroslaw E. Prilepsky(参考訳) 本稿では、高速コヒーレント光伝送システムにおける障害軽減のためのニューラルネットワーク(NN)ベースの等化器の低複雑さ開発を可能にする新しい手法を提案する。 本研究では、フィードフォワードおよび繰り返しNN設計に適用された様々なディープモデル圧縮手法の包括的記述と比較について述べる。 さらに,これらの戦略が各NN等化器の性能に与える影響を評価する。 モデル圧縮のための量子化,重みクラスタリング,プルーニング,その他の最先端戦略について考察する。 本研究では, 圧縮のハイパーパラメータが選択され, 複雑さを同時に低減し, 性能を向上させるベイズ最適化支援圧縮を提案する。 その結果、各圧縮手法の複雑さとその性能とのトレードオフをシミュレーションデータと実験データの両方を利用して評価し、解析を完了させる。 最適な圧縮手法を利用することで、実装が簡単で、従来のデジタルバックプロパゲーション(dbp)イコライザよりも優れた性能を有するnnベースのイコライザを、1スパンあたり1ステップで設計できることを示した。 これは、重み付けクラスタリングとプルーニングアルゴリズムを適用した後、NN等化器で使用される乗算数を減らすことで達成される。 さらに、NNに基づく等化器は、完全電子色分散補償ブロックと同程度の複雑さを維持しつつ、優れた性能が得られることを示した。 オープンな質問と既存の課題、そして将来的な研究の方向性を強調して分析を締めくくります。

In this paper, a new methodology is proposed that allows for the low-complexity development of neural network (NN) based equalizers for the mitigation of impairments in high-speed coherent optical transmission systems. In this work, we provide a comprehensive description and comparison of various deep model compression approaches that have been applied to feed-forward and recurrent NN designs. Additionally, we evaluate the influence these strategies have on the performance of each NN equalizer. Quantization, weight clustering, pruning, and other cutting-edge strategies for model compression are taken into consideration. In this work, we propose and evaluate a Bayesian optimization-assisted compression, in which the hyperparameters of the compression are chosen to simultaneously reduce complexity and improve performance. In conclusion, the trade-off between the complexity of each compression approach and its performance is evaluated by utilizing both simulated and experimental data in order to complete the analysis. By utilizing optimal compression approaches, we show that it is possible to design an NN-based equalizer that is simpler to implement and has better performance than the conventional digital back-propagation (DBP) equalizer with only one step per span. This is accomplished by reducing the number of multipliers used in the NN equalizer after applying the weighted clustering and pruning algorithms. Furthermore, we demonstrate that an equalizer based on NN can also achieve superior performance while still maintaining the same degree of complexity as the full electronic chromatic dispersion compensation block. We conclude our analysis by highlighting open questions and existing challenges, as well as possible future research directions.
翻訳日:2022-08-30 14:55:15 公開日:2022-08-26
# 自然言語処理による株式市場の予測 -調査-

Stock Market Prediction using Natural Language Processing -- A Survey ( http://arxiv.org/abs/2208.13564v1 )

ライセンス: Link先を確認
Om Mane and Saravanakumar kandasamy(参考訳) 株式市場は、ほぼすべての主要な経済取引のプラットフォームを提供するネットワークである。 株式市場への投資は良い考えだが、個人株への投資は、特にカジュアル投資家にとっては、そうではないかもしれない。 スマートストックピッキングには詳細な調査と多くの献身が必要だ。 この株価の予測は、膨大な仲裁利益の機会をもたらす。 このソリューションの発見の魅力は、ボラティリティ、季節性、時間依存といった問題を乗り越える方法を見つけるきっかけとなった。 本稿では,近年の自然言語処理分野の文献と,株式市場の動きを予測する機械学習技術について調査する。 この論文の主な貢献は、最近の多くの論文の洗練された分類と、株式市場予測とその関連分野における最近の研究動向の図示である。

The stock market is a network which provides a platform for almost all major economic transactions. While investing in the stock market is a good idea, investing in individual stocks may not be, especially for the casual investor. Smart stock-picking requires in-depth research and plenty of dedication. Predicting this stock value offers enormous arbitrage profit opportunities. This attractiveness of finding a solution has prompted researchers to find a way past problems like volatility, seasonality, and dependence on time. This paper surveys recent literature in the domain of natural language processing and machine learning techniques used to predict stock market movements. The main contributions of this paper include the sophisticated categorizations of many recent articles and the illustration of the recent trends of research in stock market prediction and its related areas.
翻訳日:2022-08-30 14:48:02 公開日:2022-08-26
# 動的制約付き最適化問題に適用した勾配降下アルゴリズムの効率向上

Improving the Efficiency of Gradient Descent Algorithms Applied to Optimization Problems with Dynamical Constraints ( http://arxiv.org/abs/2208.12834v1 )

ライセンス: Link先を確認
Ion Matei, Maksym Zhenirovskyy, Johan de Kleer and John Maxwell(参考訳) 通常の微分方程式(ODE)を用いた最適化問題を動的制約として解くための2つのブロック座標降下アルゴリズムを導入する。 このアルゴリズムは損失関数勾配を評価するために直接または随伴感度解析法を実装する必要はない。 それらは、等式制約を伴う等価最適化問題として元の問題の再構成から生じる。 アルゴリズムは、ODEソリューションの感度を明示的に考慮したODEソルバに基づく勾配重み付けアルゴリズムの回復を目的としたステップから自然に従う。 最初に提案したアルゴリズムでは, ODEソルバを暗黙の制約列として統合することで, ODEを明示的に解くことを避ける。 第2のアルゴリズムでは、ODEソルバを用いてODE解をリセットするが、直接随伴感度解析法は使用しない。 どちらのアルゴリズムもミニバッチの実装を受け入れ、GPUベースの並列化による大きな効率性を示している。 本稿では,Cucker-Smaleモデルのパラメータ学習に適用したアルゴリズムの性能を示す。 これらのアルゴリズムは、 Pytorch と Jax の実装を用いて、様々な状態サイズに対して感度解析能力を持つODE ソルバに基づく勾配降下アルゴリズムと比較される。 実験の結果,提案アルゴリズムはPytorchの実装よりも少なくとも4倍高速であり,Jaxの実装より少なくとも16倍高速であることがわかった。 Cucker-Smaleモデルの大規模なバージョンでは、Jaxの実装は感度分析ベースの実装よりも数千倍高速である。 さらに、我々のアルゴリズムは、トレーニングデータとテストデータの両方でより正確な結果を生成する。 このような計算効率の向上は、診断アルゴリズムのようなリアルタイムパラメータ推定を実装するアルゴリズムにとって最重要である。

We introduce two block coordinate descent algorithms for solving optimization problems with ordinary differential equations (ODEs) as dynamical constraints. The algorithms do not need to implement direct or adjoint sensitivity analysis methods to evaluate loss function gradients. They results from reformulation of the original problem as an equivalent optimization problem with equality constraints. The algorithms naturally follow from steps aimed at recovering the gradient-decent algorithm based on ODE solvers that explicitly account for sensitivity of the ODE solution. In our first proposed algorithm we avoid explicitly solving the ODE by integrating the ODE solver as a sequence of implicit constraints. In our second algorithm, we use an ODE solver to reset the ODE solution, but no direct are adjoint sensitivity analysis methods are used. Both algorithm accepts mini-batch implementations and show significant efficiency benefits from GPU-based parallelization. We demonstrate the performance of the algorithms when applied to learning the parameters of the Cucker-Smale model. The algorithms are compared with gradient descent algorithms based on ODE solvers endowed with sensitivity analysis capabilities, for various number of state size, using Pytorch and Jax implementations. The experimental results demonstrate that the proposed algorithms are at least 4x faster than the Pytorch implementations, and at least 16x faster than Jax implementations. For large versions of the Cucker-Smale model, the Jax implementation is thousands of times faster than the sensitivity analysis-based implementation. In addition, our algorithms generate more accurate results both on training and test data. Such gains in computational efficiency is paramount for algorithms that implement real time parameter estimations, such as diagnosis algorithms.
翻訳日:2022-08-30 14:40:57 公開日:2022-08-26
# 全スライド画像におけるステン転送のための領域誘導サイクルGAN

Region-guided CycleGANs for Stain Transfer in Whole Slide Images ( http://arxiv.org/abs/2208.12847v1 )

ライセンス: Link先を確認
Joseph Boyd, Ir\`ene Villa, Marie-Christine Mathieu, Eric Deutsch, Nikos Paragios, Maria Vakalopoulou, Stergios Christodoulidis(参考訳) 全スライド画像では、ヘマトキシリンとエオシン(H&E)をベースとした染色技術と免疫組織化学(IHC)染色が組織景観の異なる側面をアクセントする。 転移を検出する場合、IHCは病理学者によって容易に解釈できる独自の読み出しを提供する。 しかし、IHCはより高価なアプローチであり、すべての医療センターで利用できない。 ディープニューラルネットワークを使用してH&EからIHCイメージを仮想的に生成することで、魅力的な代替手段となる。 サイクルガンのような深い生成モデルは、各ドメインのテクスチャ特性をエミュレートしながら、2つのイメージドメイン間の意味的に一貫性のあるマッピングを学ぶ。 したがって、これらは染色転移応用に適した選択である。 しかし、完全に管理されていないままであり、染色における生物学的一貫性を強制するメカニズムを持たない。 本稿では,CycleGANを関心差別の領域として拡張する手法を提案する。 これによりcycleganは、一貫性を強制したいオブジェクトの部分的なアノテーションがある非ペアデータセットから学習することができる。 我々は,IHC染色が転移細胞に対して実験的に発生する信号を提供するスライド画像全体に対するユースケースを提案する。 2つのデータセット上の病理組織学タイルの染色転移における先行技術に対するアプローチの優位性を実証する。 私たちのコードとモデルはhttps://github.com/jcboyd/miccai2022-roiganで利用可能です。

In whole slide imaging, commonly used staining techniques based on hematoxylin and eosin (H&E) and immunohistochemistry (IHC) stains accentuate different aspects of the tissue landscape. In the case of detecting metastases, IHC provides a distinct readout that is readily interpretable by pathologists. IHC, however, is a more expensive approach and not available at all medical centers. Virtually generating IHC images from H&E using deep neural networks thus becomes an attractive alternative. Deep generative models such as CycleGANs learn a semantically-consistent mapping between two image domains, while emulating the textural properties of each domain. They are therefore a suitable choice for stain transfer applications. However, they remain fully unsupervised, and possess no mechanism for enforcing biological consistency in stain transfer. In this paper, we propose an extension to CycleGANs in the form of a region of interest discriminator. This allows the CycleGAN to learn from unpaired datasets where, in addition, there is a partial annotation of objects for which one wishes to enforce consistency. We present a use case on whole slide images, where an IHC stain provides an experimentally generated signal for metastatic cells. We demonstrate the superiority of our approach over prior art in stain transfer on histopathology tiles over two datasets. Our code and model are available at https://github.com/jcboyd/miccai2022-roigan.
翻訳日:2022-08-30 14:36:01 公開日:2022-08-26
# マルチモダリティ心臓画像コンピューティング:調査

Multi-Modality Cardiac Image Computing: A Survey ( http://arxiv.org/abs/2208.12881v1 )

ライセンス: Link先を確認
Lei Li and Wangbin Ding and Liqun Huang and Xiahai Zhuang and Vicente Grau(参考訳) 多モード心電図は心血管疾患患者の管理において重要な役割を担っている。 相補的な解剖学的、形態学的、機能的な情報の組み合わせを可能にし、診断精度を高め、心血管的介入の有効性と臨床結果を改善する。 マルチモダリティ心筋画像の完全自動処理と定量的解析は、臨床研究やエビデンスに基づく患者の管理に直接影響を与える可能性がある。 しかし、モダリティ間の不一致や、異なるモダリティからの情報を統合するための最適な方法を見つけるなど、重要な課題を克服する必要がある。 本稿では,心臓科におけるマルチモダリティ画像の総合的レビュー,計算方法,バリデーション戦略,関連する臨床ワークフロー,今後の展望について述べる。 コンピュータの方法論では,多モード画像データ,\textit{eier という3つのタスク,すなわち登録,融合,セグメンテーションに重点を置いている。 総説では,多変量心画像データは経大動脈弁移植指導,心筋活力評価,カテーテルアブレーション療法,患者の選択など,クリニックに広く応用できる可能性が示唆されている。 それでも、モダリティの欠如、画像と非画像データの組み合わせ、異なるモダリティの均一な分析と表現など、多くの課題は未解決のままである。 十分に開発されたテクニックが臨床ワークフローにどのように適合するか、どの程度追加され関連する情報を導入するかを定義する作業もある。 これらの問題は今後も研究の活発な分野であり続け、今後の課題にも答えられるだろう。

Multi-modality cardiac imaging plays a key role in the management of patients with cardiovascular diseases. It allows a combination of complementary anatomical, morphological and functional information, increases diagnosis accuracy, and improves the efficacy of cardiovascular interventions and clinical outcomes. Fully-automated processing and quantitative analysis of multi-modality cardiac images could have a direct impact on clinical research and evidence-based patient management. However, these require overcoming significant challenges including inter-modality misalignment and finding optimal methods to integrate information from different modalities. This paper aims to provide a comprehensive review of multi-modality imaging in cardiology, the computing methods, the validation strategies, the related clinical workflows and future perspectives. For the computing methodologies, we have a favored focus on the three tasks, i.e., registration, fusion and segmentation, which generally involve multi-modality imaging data, \textit{either combining information from different modalities or transferring information across modalities}. The review highlights that multi-modality cardiac imaging data has the potential of wide applicability in the clinic, such as trans-aortic valve implantation guidance, myocardial viability assessment, and catheter ablation therapy and its patient selection. Nevertheless, many challenges remain unsolved, such as missing modality, combination of imaging and non-imaging data, and uniform analysis and representation of different modalities. There is also work to do in defining how the well-developed techniques fit in clinical workflows and how much additional and relevant information they introduce. These problems are likely to continue to be an active field of research and the questions to be answered in the future.
翻訳日:2022-08-30 14:35:39 公開日:2022-08-26
# クロス言語的低リソースASR評価のためのデータ分割戦略の検討

Investigating data partitioning strategies for crosslinguistic low-resource ASR evaluation ( http://arxiv.org/abs/2208.12888v1 )

ライセンス: Link先を確認
Zoey Liu, Justin Spence, Emily Prud'hommeaux(参考訳) 多くの自動音声認識(asr)データセットは、トレーニングセットに音声が現れない1つ以上の話者からなる、事前定義された単一のテストセットを含んでいる。 しかし、この"hold-speaker(s)-out"データ分割戦略は、話者数が非常に少ないデータセットには理想的ではないかもしれない。 本研究では,ASR学習リソースを最小化した5言語に対して,10種類のデータ分割手法を提案する。 We find that (1) model performance varies greatly depending on which speaker is selected for testing; (2) the average word error rate (WER) across all held-out speakers is comparable not only to the average WER over multiple random splits but also to any given individual random split; (3) WER is also generally comparable when the data is split heuristically or adversarially; (4) utterance duration and intensity are comparatively more predictive factors of variability regardless of the data split. これらの結果は、ASRデータパーティショニングに広く用いられているホルダーアウトアプローチが、目に見えないデータや話者のモデル性能を反映しない結果をもたらすことを示唆している。 ランダム分割は、データ空間に直面するとき、より信頼性が高く、一般化可能な見積もりをもたらす。

Many automatic speech recognition (ASR) data sets include a single pre-defined test set consisting of one or more speakers whose speech never appears in the training set. This "hold-speaker(s)-out" data partitioning strategy, however, may not be ideal for data sets in which the number of speakers is very small. This study investigates ten different data split methods for five languages with minimal ASR training resources. We find that (1) model performance varies greatly depending on which speaker is selected for testing; (2) the average word error rate (WER) across all held-out speakers is comparable not only to the average WER over multiple random splits but also to any given individual random split; (3) WER is also generally comparable when the data is split heuristically or adversarially; (4) utterance duration and intensity are comparatively more predictive factors of variability regardless of the data split. These results suggest that the widely used hold-speakers-out approach to ASR data partitioning can yield results that do not reflect model performance on unseen data or speakers. Random splits can yield more reliable and generalizable estimates when facing data sparsity.
翻訳日:2022-08-30 14:27:50 公開日:2022-08-26
# 深層学習を用いた弾薬成分分類

Ammunition Component Classification Using Deep Learning ( http://arxiv.org/abs/2208.12863v1 )

ライセンス: Link先を確認
Hadi Ghahremannezhad, Chengjun Liu, Hang Shi(参考訳) 弾薬スクラップ検査は、弾薬金属スクラップのリサイクルプロセスにおいて不可欠なステップである。 ほとんどの弾薬は、ケース、プライマー、パウダー、発射体を含む多くの部品で構成されている。 エネルギーを含むアンモスクラップは潜在的に危険であると考えられ、リサイクル前に分離すべきである。 各スクラップを手動で検査するのは面倒で時間がかかります。 安全で安全でないスクラップピースを自動的に分類するための人工知能の適用を目的として,弾薬部品のデータセットを収集した。 まず、ammoの視覚画像とx線画像から2つのトレーニングデータセットを手動で作成する。 第2に、このX線データセットは、十分なトレーニングデータの不足を補うために、ヒストグラム等化、平均化、シャープ化、電力法則、ガウスアンボケリングの空間変換を用いて拡張される。 最後に, 代表的なYOLOv4オブジェクト検出手法を適用し, アンモコンポーネントを検出し, スクラップ部品を安全クラスと安全クラスに分類する。 トレーニングされたモデルは、適用された手法の性能を評価するために、見えないデータに対してテストされる。 実験は,深層学習を用いたammo成分検出と分類の実現可能性を示す。 データセットと事前トレーニングされたモデルは、https://github.com/hadi-ghnd/scrap-classificationで入手できる。

Ammunition scrap inspection is an essential step in the process of recycling ammunition metal scrap. Most ammunition is composed of a number of components, including case, primer, powder, and projectile. Ammo scrap containing energetics is considered to be potentially dangerous and should be separated before the recycling process. Manually inspecting each piece of scrap is tedious and time-consuming. We have gathered a dataset of ammunition components with the goal of applying artificial intelligence for classifying safe and unsafe scrap pieces automatically. First, two training datasets are manually created from visual and x-ray images of ammo. Second, the x-ray dataset is augmented using the spatial transforms of histogram equalization, averaging, sharpening, power law, and Gaussian blurring in order to compensate for the lack of sufficient training data. Lastly, the representative YOLOv4 object detection method is applied to detect the ammo components and classify the scrap pieces into safe and unsafe classes, respectively. The trained models are tested against unseen data in order to evaluate the performance of the applied method. The experiments demonstrate the feasibility of ammo component detection and classification using deep learning. The datasets and the pre-trained models are available at https://github.com/hadi-ghnd/Scrap-Classification.
翻訳日:2022-08-30 13:45:48 公開日:2022-08-26
# 手続き的テキスト理解のためのグローバル・ローカル情報の連携

Coalescing Global and Local Information for Procedural Text Understanding ( http://arxiv.org/abs/2208.12848v1 )

ライセンス: Link先を確認
Kaixin Ma, Filip Ilievski, Jonathan Francis, Eric Nyberg, Alessandro Oltramari(参考訳) 手続き的テキスト理解(Procedural text understanding)は、物語の開発全体にわたってエンティティ状態を追跡するモデルを必要とする、困難な言語推論タスクである。 完全な手続き的理解ソリューションは、入力のローカルビューとグローバルビュー、出力のグローバルビューの3つの中核的な側面を組み合わせるべきである。 以前の手法はこれらの側面のサブセットを考慮し、結果として低い精度または低いリコールをもたらす。 本稿では,文脈全体(グローバルインプット)を考慮したエンティティとタイムステップを意識した入力表現(ローカルインプット)を構築する新しいモデルであるCalescing Global and Local Information(CGLI)を提案し,構造化予測目標(グローバルアウトプット)を用いてエンティティ状態を共同でモデル化する。 したがって、CGLIは精度とリコールの両方を同時に最適化する。 CGLIを出力層を追加して拡張し、ストーリー推論フレームワークに統合します。 一般的な手続き的テキスト理解データセットに関する広範な実験は、我々のモデルが最先端の結果を達成していることを示している;ストーリー推論ベンチマークにおける実験は、我々のモデルが下流の推論に与える影響を示している。

Procedural text understanding is a challenging language reasoning task that requires models to track entity states across the development of a narrative. A complete procedural understanding solution should combine three core aspects: local and global views of the inputs, and global view of outputs. Prior methods considered a subset of these aspects, resulting in either low precision or low recall. In this paper, we propose Coalescing Global and Local Information (CGLI), a new model that builds entity- and timestep-aware input representations (local input) considering the whole context (global input), and we jointly model the entity states with a structured prediction objective (global output). Thus, CGLI simultaneously optimizes for both precision and recall. We extend CGLI with additional output layers and integrate it into a story reasoning framework. Extensive experiments on a popular procedural text understanding dataset show that our model achieves state-of-the-art results; experiments on a story reasoning benchmark show the positive impact of our model on downstream reasoning.
翻訳日:2022-08-30 13:41:09 公開日:2022-08-26
# 加速mriの臨床適応への道

A Path Towards Clinical Adaptation of Accelerated MRI ( http://arxiv.org/abs/2208.12835v1 )

ライセンス: Link先を確認
Michael S. Yao and Michael S. Hansen(参考訳) 加速MRIは、わずかなサンプル信号データから臨床解剖像を再構成し、患者のスキャン時間を短縮する。 近年の研究では、このタスクを達成するためにディープラーニングを活用しているが、そのようなアプローチは、信号の破損やリソースの制限がないシミュレーション環境でのみ検討されることが多い。 本研究では, ニューラルネットワークMRI画像再構成器への拡張について検討し, 臨床関連性を高める。 具体的には,79.1\%$のクラスifer$f_2$スコアを達成する画像アーティファクトのソースを検出するためのconvnetモデルを提案する。 また, MR信号データに対する各種アクセラレーション因子を用いたトレーニングコンストラクタは, 臨床患者検診における平均性能を最大2.5%向上できることを示した。 モデルが複数の解剖学や方向のmr画像を再構成することを学ぶと、壊滅的な忘れを克服するロス関数を提供する。 最後に,臨床に取得したデータセットと計算能力に制限のある状況下で,ファントムデータを事前訓練する手法を提案する。 以上の結果から, 加速mriの臨床適応への道筋が示唆された。

Accelerated MRI reconstructs images of clinical anatomies from sparsely sampled signal data to reduce patient scan times. While recent works have leveraged deep learning to accomplish this task, such approaches have often only been explored in simulated environments where there is no signal corruption or resource limitations. In this work, we explore augmentations to neural network MRI image reconstructors to enhance their clinical relevancy. Namely, we propose a ConvNet model for detecting sources of image artifacts that achieves a classifer $F_2$ score of $79.1\%$. We also demonstrate that training reconstructors on MR signal data with variable acceleration factors can improve their average performance during a clinical patient scan by up to $2\%$. We offer a loss function to overcome catastrophic forgetting when models learn to reconstruct MR images of multiple anatomies and orientations. Finally, we propose a method for using simulated phantom data to pre-train reconstructors in situations with limited clinically acquired datasets and compute capabilities. Our results provide a potential path forward for clinical adaptation of accelerated MRI.
翻訳日:2022-08-30 13:35:21 公開日:2022-08-26
# ガウス過程の専門家とsmc$^2$との混合物

Mixtures of Gaussian Process Experts with SMC$^2$ ( http://arxiv.org/abs/2208.12830v1 )

ライセンス: Link先を確認
Teemu H\"ark\"onen, Sara Wade, Kody Law, Lassi Roininen(参考訳) ガウス過程は多くの柔軟な統計モデルと機械学習モデルの鍵となるコンポーネントである。 しかし、完全な共分散行列を反転して保存する必要があるため、量子計算の複雑さと高いメモリ制約を示す。 これを回避するために、ガウスのプロセスエキスパートの混合は、データポイントが独立した専門家に割り当てられる場所として検討され、より小さな局所的共分散行列に基づく推論を行うことで複雑さを減らした。 さらに、ガウス過程の専門家の混合物はモデルの柔軟性を実質的に強化し、非定常性、異質性、不連続性などの振る舞いを可能にした。 本研究では,ネストした連続モンテカルロサンプルを用いた新しい推論手法を構築し,ゲーティングネットワークとガウスプロセスの専門家パラメータの両方を同時に推定する。 これは、特に静止ガウス過程が不適切でありながら、完全に並列化可能である設定において、重要なサンプリングよりも推論を大幅に改善する。

Gaussian processes are a key component of many flexible statistical and machine learning models. However, they exhibit cubic computational complexity and high memory constraints due to the need of inverting and storing a full covariance matrix. To circumvent this, mixtures of Gaussian process experts have been considered where data points are assigned to independent experts, reducing the complexity by allowing inference based on smaller, local covariance matrices. Moreover, mixtures of Gaussian process experts substantially enrich the model's flexibility, allowing for behaviors such as non-stationarity, heteroscedasticity, and discontinuities. In this work, we construct a novel inference approach based on nested sequential Monte Carlo samplers to simultaneously infer both the gating network and Gaussian process expert parameters. This greatly improves inference compared to importance sampling, particularly in settings when a stationary Gaussian process is inappropriate, while still being thoroughly parallelizable.
翻訳日:2022-08-30 13:25:12 公開日:2022-08-26
# 資源制約エッジAIのための複雑度駆動型CNN圧縮

Complexity-Driven CNN Compression for Resource-constrained Edge AI ( http://arxiv.org/abs/2208.12816v1 )

ライセンス: Link先を確認
Muhammad Zawish, Steven Davy and Lizy Abraham(参考訳) モノのインターネット(IoT)対応ネットワークエッジにおける人工知能(AI)の最近の進歩は、低レイテンシと計算効率を実現することで、スマート農業、スマート病院、スマートファクトリといったいくつかのアプリケーションでエッジインテリジェンスを実現している。 しかしながら、リソース制約されたエッジデバイスにVGG-16やResNetsのような最先端の畳み込みニューラルネットワーク(CNN)をデプロイすることは、大量のパラメータと浮動小数点演算(FLOP)のために事実上不可能である。 これにより、低消費電力デバイス上でcnnを加速するモデル圧縮の一種としてのネットワークプルーニングの概念が注目されている。 構造的あるいは非構造的な最先端のプルーニングアプローチは、畳み込み層によって示される複雑さの根底にある異なる性質を考慮せず、トレーニング・プルーニング・リトレーニングパイプラインに従い、さらなる計算オーバーヘッドをもたらす。 本研究では,cnnの層レベルの複雑度を生かして,新しい計算効率のよいプルーニングパイプラインを提案する。 従来の手法とは違って,提案手法では,ネットワークの複雑性に対するコントリビューションに基づいて,フィルタの特定の層を選択する。 我々は,prunedモデルを直接学習し,計算量的に複雑なランク付けや微調整ステップを回避する手順に従う。 さらに,パラメータアウェア(pa),フラップアウェア(fa),メモリアウェア(ma)の3つのモードを定義し,cnnの汎用圧縮を導入する。 以上の結果から,精度と加速度の面でのアプローチの競合性能が示された。 最後に、異なるリソースと正確性の間のトレードオフを示し、リソースに制約のあるiot環境において、開発者が正しい判断を下すのに役立ちます。

Recent advances in Artificial Intelligence (AI) on the Internet of Things (IoT)-enabled network edge has realized edge intelligence in several applications such as smart agriculture, smart hospitals, and smart factories by enabling low-latency and computational efficiency. However, deploying state-of-the-art Convolutional Neural Networks (CNNs) such as VGG-16 and ResNets on resource-constrained edge devices is practically infeasible due to their large number of parameters and floating-point operations (FLOPs). Thus, the concept of network pruning as a type of model compression is gaining attention for accelerating CNNs on low-power devices. State-of-the-art pruning approaches, either structured or unstructured do not consider the different underlying nature of complexities being exhibited by convolutional layers and follow a training-pruning-retraining pipeline, which results in additional computational overhead. In this work, we propose a novel and computationally efficient pruning pipeline by exploiting the inherent layer-level complexities of CNNs. Unlike typical methods, our proposed complexity-driven algorithm selects a particular layer for filter-pruning based on its contribution to overall network complexity. We follow a procedure that directly trains the pruned model and avoids the computationally complex ranking and fine-tuning steps. Moreover, we define three modes of pruning, namely parameter-aware (PA), FLOPs-aware (FA), and memory-aware (MA), to introduce versatile compression of CNNs. Our results show the competitive performance of our approach in terms of accuracy and acceleration. Lastly, we present a trade-off between different resources and accuracy which can be helpful for developers in making the right decisions in resource-constrained IoT environments.
翻訳日:2022-08-30 13:19:22 公開日:2022-08-26
# DETERRENT:強化学習を用いたトロイの木馬の検出

DETERRENT: Detecting Trojans using Reinforcement Learning ( http://arxiv.org/abs/2208.12878v1 )

ライセンス: Link先を確認
Vasudev Gohil, Satwik Patnaik, Hao Guo, Dileep Kalathil, Jeyavijayan (JV) Rajendran(参考訳) 集積回路におけるハードウェアトロイの木馬 (HTs) の導入は悪質な脅威である。 HTは希少なトリガー条件下で活性化されるため、ランダム論理シミュレーションによる検出は不可能である。 本研究では,指数探索空間を回避し,HTを検出する可能性が最も高い最小限のパターンを返却する強化学習(RL)エージェントを設計する。 様々なベンチマークで実験結果が示され、rlエージェントの有効性とスケーラビリティが実証され、最新の技術と比較して、カバレッジ維持や改善に必要なテストパターン数(95.75\%$)が大幅に削減された(199\times$)。

Insertion of hardware Trojans (HTs) in integrated circuits is a pernicious threat. Since HTs are activated under rare trigger conditions, detecting them using random logic simulations is infeasible. In this work, we design a reinforcement learning (RL) agent that circumvents the exponential search space and returns a minimal set of patterns that is most likely to detect HTs. Experimental results on a variety of benchmarks demonstrate the efficacy and scalability of our RL agent, which obtains a significant reduction ($169\times$) in the number of test patterns required while maintaining or improving coverage ($95.75\%$) compared to the state-of-the-art techniques.
翻訳日:2022-08-30 13:18:51 公開日:2022-08-26
# attrition:強化学習を用いた静的ハードウェアトロイの木馬検出手法

ATTRITION: Attacking Static Hardware Trojan Detection Techniques Using Reinforcement Learning ( http://arxiv.org/abs/2208.12897v1 )

ライセンス: Link先を確認
Vasudev Gohil, Hao Guo, Satwik Patnaik, Jeyavijayan (JV) Rajendran(参考訳) 集積回路の製造中に挿入されたステルスハードウェアTrojans (HTs) は、重要なインフラのセキュリティを回避できる。 研究者はhtsを検出する手法を数多く提案しているが、いくつかの制限がある。 (i)成功率が低い。 (ii)高いアルゴリズムの複雑さ、 (iii)多数のテストパターン。 さらに、先行検出手法の最も顕著な欠点は、不正な評価手法、すなわち、相手がランダムにHTを挿入すると仮定することに由来する。 このような不適切な敵対的な仮定により、検出技術は高いht検出精度を主張でき、「偽りのセキュリティ感覚」をもたらす。 残念ながら、我々の知る限りでは、製造中に挿入されたHTの検出に関する10年以上の研究にもかかわらず、HT検出技術を体系的に評価する取り組みは行われていない。 本稿では,現実的な敵対者の役割を担い,強化学習(RL)を用いた自動かつスケーラブルで実用的な攻撃フレームワークATTRITIONを開発することで,HT検出技術の有効性を疑問視する。 ATTRITIONは2つのHT検出カテゴリにわたる8つの検出テクニックを回避し、その非依存的な振る舞いを示す。 ATTRITIONは、最先端のHT検出技術に対してランダムに挿入されたHTと比較して、平均攻撃成功率は47\times$と211\times$である。 広く使用されている学術スイートから,オープンソースのmipsやmor1kxプロセッサ,aes,gpsモジュールなど,より大きな設計まで,設計を評価することで,attritionの検出手法を回避する能力を示す。 さらに,ATTRITION生成HTがMor1kxプロセッサに与える影響を2つのケーススタディ(プライベートエスカレーションとキルスイッチ)で示す。 我々の研究は、リリースしたHTベンチマークとモデルと共に、より良いHT検出技術の開発を促進することを期待しています。

Stealthy hardware Trojans (HTs) inserted during the fabrication of integrated circuits can bypass the security of critical infrastructures. Although researchers have proposed many techniques to detect HTs, several limitations exist, including: (i) a low success rate, (ii) high algorithmic complexity, and (iii) a large number of test patterns. Furthermore, the most pertinent drawback of prior detection techniques stems from an incorrect evaluation methodology, i.e., they assume that an adversary inserts HTs randomly. Such inappropriate adversarial assumptions enable detection techniques to claim high HT detection accuracy, leading to a "false sense of security." Unfortunately, to the best of our knowledge, despite more than a decade of research on detecting HTs inserted during fabrication, there have been no concerted efforts to perform a systematic evaluation of HT detection techniques. In this paper, we play the role of a realistic adversary and question the efficacy of HT detection techniques by developing an automated, scalable, and practical attack framework, ATTRITION, using reinforcement learning (RL). ATTRITION evades eight detection techniques across two HT detection categories, showcasing its agnostic behavior. ATTRITION achieves average attack success rates of $47\times$ and $211\times$ compared to randomly inserted HTs against state-of-the-art HT detection techniques. We demonstrate ATTRITION's ability to evade detection techniques by evaluating designs ranging from the widely-used academic suites to larger designs such as the open-source MIPS and mor1kx processors to AES and a GPS module. Additionally, we showcase the impact of ATTRITION-generated HTs through two case studies (privilege escalation and kill switch) on the mor1kx processor. We envision that our work, along with our released HT benchmarks and models, fosters the development of better HT detection techniques.
翻訳日:2022-08-30 13:18:38 公開日:2022-08-26
# ペナルティ・アクティベーションに基づく対人訓練によるドメイン適応

Domain Adaptation with Adversarial Training on Penultimate Activations ( http://arxiv.org/abs/2208.12853v1 )

ライセンス: Link先を確認
Tao Sun, Cheng Lu, Haibin Ling(参考訳) ラベルのない対象データに対するモデル予測の信頼性を高めることは、Unsupervised Domain Adaptation (UDA)において重要な目標である。 本稿では,最終線形分類層におけるペナルティミネートアクティベーション,ie,入力特性に関する敵意的学習について検討する。 この戦略は, 入力画像や中間特徴に対する敵対的訓練よりも, 予測信頼を高める目的と, より効率的で良好な相関関係があることが示唆された。 さらに,ドメイン間のギャップを減らすために,ドメイン適応によく用いられる活性化正規化により,2つの変種を導出し,正規化が敵の訓練に与える影響を体系的に解析する。 これは理論上および実際の適応タスクに関する経験的分析を通じて示される。 一般的なUDAベンチマークでは、標準設定とソースデータフリー設定の両方で大規模な実験が行われる。 その結果,本手法が先行技術に対して最高のスコアを達成できることが確認できた。

Enhancing model prediction confidence on unlabeled target data is an important objective in Unsupervised Domain Adaptation (UDA). In this paper, we explore adversarial training on penultimate activations, ie, input features of the final linear classification layer. We show that this strategy is more efficient and better correlated with the objective of boosting prediction confidence than adversarial training on input images or intermediate features, as used in previous works. Furthermore, with activation normalization commonly used in domain adaptation to reduce domain gap, we derive two variants and systematically analyze the effects of normalization on our adversarial training. This is illustrated both in theory and through empirical analysis on real adaptation tasks. Extensive experiments are conducted on popular UDA benchmarks under both standard setting and source-data free setting. The results validate that our method achieves the best scores against previous arts.
翻訳日:2022-08-30 13:14:29 公開日:2022-08-26
# ローカルコンテキスト対応アクティブドメイン適応

Local Context-Aware Active Domain Adaptation ( http://arxiv.org/abs/2208.12856v1 )

ライセンス: Link先を確認
Tao Sun, Cheng Lu, Haibin Ling(参考訳) Active Domain Adaptation (ADA)は、選択されたターゲットサンプルのラベルをクエリして、関連するソースドメインからターゲットドメインへのモデル適応を支援する。 ラベル付けコストの最小化による有望なパフォーマンスのため、最近注目を集めている。 それでも、既存のADAメソッドはクエリされたデータのローカルコンテキストを完全に活用していない。 本稿では,2つの主要なモジュールから構成されるローカルコンテキスト対応アクティブドメイン適応(LADA)の新しいフレームワークを提案する。 Local context-aware Active Selection (LAS)モジュールは、クラス確率予測が隣人と矛盾するターゲットサンプルを選択する。 Local context-aware Model Adaptation (LMA)モジュールは、クエリされたサンプルと拡張された隣人の両方でモデルを洗練する。 広範囲な実験により、LASは既存のアクティブな選択戦略よりも情報的なサンプルを選択することが示されている。 さらに、LMAを用いて、LADA法は様々なベンチマークで最先端のADAソリューションより優れている。 コードはhttps://github.com/tsun/LADA.comで入手できる。

Active Domain Adaptation (ADA) queries the label of selected target samples to help adapting a model from a related source domain to a target domain. It has attracted increasing attention recently due to its promising performance with minimal labeling cost. Nevertheless, existing ADA methods have not fully exploited the local context of queried data, which is important to ADA, especially when the domain gap is large. In this paper, we propose a novel framework of Local context-aware Active Domain Adaptation (LADA), which is composed of two key modules. The Local context-aware Active Selection (LAS) module selects target samples whose class probability predictions are inconsistent with their neighbors. The Local context-aware Model Adaptation (LMA) module refines a model with both queried samples and their expanded neighbors, regularized by a context-preserving loss. Extensive experiments show that LAS selects more informative samples than existing active selection strategies. Furthermore, equipped with LMA, the full LADA method outperforms state-of-the-art ADA solutions on various benchmarks. Code is available at https://github.com/tsun/LADA.
翻訳日:2022-08-30 13:14:13 公開日:2022-08-26
# 連合学習における異常局所クラスタリング

Abnormal Local Clustering in Federated Learning ( http://arxiv.org/abs/2208.12813v1 )

ライセンス: Link先を確認
Jihwan Won(参考訳) フェデレートラーニング(Federated Learning)は、ローカルクライアントデバイスからの個人データやプライベートデータではなく、転送モデルによってプライベートデータを公開することなく、プライバシのモデルである。 グローバルモデルでは、各ローカルデータが正常であることを認識することが重要です。 本稿では,局所モデルにダミーデータを入力して抽出したベクトルのユークリッド類似度クラスタリングにより,正規局所と異常局所を分離する手法を提案する。 フェデレーション分類モデルでは,局所を正規値と異常値に分けた。

Federated learning is a model for privacy without revealing private data by transfer models instead of personal and private data from local client devices. While, in the global model, it's crucial to recognize each local data is normal. This paper suggests one method to separate normal locals and abnormal locals by Euclidean similarity clustering of vectors extracted by inputting dummy data in local models. In a federated classification model, this method divided locals into normal and abnormal.
翻訳日:2022-08-30 13:00:30 公開日:2022-08-26
# 勾配はグラフ構造を攻撃するときに何がわかるか

What Does the Gradient Tell When Attacking the Graph Structure ( http://arxiv.org/abs/2208.12815v1 )

ライセンス: Link先を確認
Zihan Liu, Ge Wang, Yun Luo, Stan Z. Li(参考訳) 最近の研究では、グラフニューラルネットワークは敵の攻撃に弱いことが証明されている。 攻撃者は、エッジの摂動によって無知な被害者モデルのパフォーマンスを乱すために、トレーニングラベルのみに頼ることができる。 研究者は、サリエンシベースの攻撃者はそれらを削除するよりもエッジを追加する傾向があり、これは以前、エッジを追加すると、エッジを削除しながら集約によってノードの機能を汚染するという事実によって説明されていた。 本稿ではさらに,クラス間エッジを付加することで,攻撃者がグラフを摂動させることを証明し,摂動グラフのホモフィリの低減も示す。 この観点から見れば、サラジェンシーベースの攻撃者には、能力と不可避性を改善する余地がある。 gnnベースのサロゲートモデルのメッセージパッシングは、クラス間エッジで接続されたノードのオーバームーシングにつながり、攻撃者がノードの特徴の識別性を得るのを防ぐ。 そこで本研究では,ノード間の属性差を保存するマルチホップ集約メッセージパッシングを提案する。 さらに,同相分散を制限して攻撃不可能性を高める正規化項を提案する。 実験により,提案するサロゲートモデルが攻撃者の汎用性を改善し,正規化項が摂動グラフの相同性を制限するのに役立つことを検証した。

Recent studies have proven that graph neural networks are vulnerable to adversarial attacks. Attackers can rely solely on the training labels to disrupt the performance of the agnostic victim model by edge perturbations. Researchers observe that the saliency-based attackers tend to add edges rather than delete them, which is previously explained by the fact that adding edges pollutes the nodes' features by aggregation while removing edges only leads to some loss of information. In this paper, we further prove that the attackers perturb graphs by adding inter-class edges, which also manifests as a reduction in the homophily of the perturbed graph. From this point of view, saliency-based attackers still have room for improvement in capability and imperceptibility. The message passing of the GNN-based surrogate model leads to the oversmoothing of nodes connected by inter-class edges, preventing attackers from obtaining the distinctiveness of node features. To solve this issue, we introduce a multi-hop aggregated message passing to preserve attribute differences between nodes. In addition, we propose a regularization term to restrict the homophily variance to enhance the attack imperceptibility. Experiments verify that our proposed surrogate model improves the attacker's versatility and the regularization term helps to limit the homophily of the perturbed graph.
翻訳日:2022-08-30 13:00:24 公開日:2022-08-26
# 協調型マルチエージェント強化学習のためのマルチモーダルベンチマークch-marl

CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2208.13626v1 )

ライセンス: Link先を確認
Vasu Sharma, Prasoon Goyal, Kaixiang Lin, Govind Thattai, Qiaozi Gao, Gaurav S. Sukhatme(参考訳) 本稿では,協調型・不均一型マルチエージェント学習のためのマルチモーダル(視覚言語)ベンチマークを提案する。 本稿では,マルチルーム環境における複数ロボットの協調作業を伴うタスクを含むマルチモーダルデータセットのベンチマークについて紹介する。 我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。 本研究は,マルチエージェント学習性能に及ぼす異なるモダリティの影響について検討する。 また,エージェント間の単純なメッセージパッシング手法も導入する。 その結果,マルチモーダリティは,協調型マルチエージェント学習に特有の課題をもたらし,そのような環境でのマルチエージェント強化学習手法の進展の余地があることが示唆された。

We propose a multimodal (vision-and-language) benchmark for cooperative and heterogeneous multi-agent learning. We introduce a benchmark multimodal dataset with tasks involving collaboration between multiple simulated heterogeneous robots in a rich multi-room home environment. We provide an integrated learning framework, multimodal implementations of state-of-the-art multi-agent reinforcement learning techniques, and a consistent evaluation protocol. Our experiments investigate the impact of different modalities on multi-agent learning performance. We also introduce a simple message passing method between agents. The results suggest that multimodality introduces unique challenges for cooperative multi-agent learning and there is significant room for advancing multi-agent reinforcement learning methods in such settings.
翻訳日:2022-08-30 12:56:19 公開日:2022-08-26
# エネルギーモデルを用いた自己学習型教師なしドメイン適応における擬似ラベルの制約

Constraining Pseudo-label in Self-training Unsupervised Domain Adaptation with Energy-based Model ( http://arxiv.org/abs/2208.12885v1 )

ライセンス: Link先を確認
Lingsheng Kong, Bo Hu, Xiongchang Liu, Jun Lu, Jane You, Xiaofeng Liu(参考訳) ディープラーニングは通常、データ飢えであり、ラベル付きソースドメインの知識をラベルなしターゲットドメインに導入するために、教師なしドメイン適応(uda)が開発されている。 近年, 深層自己学習は, 対象ドメインの予測を反復的に行い, 自信ある予測をハードな擬似ラベルとして再学習するUDAにとって重要な手段となっている。 しかし、擬似ラベルは通常信頼できないため、伝播エラーを伴う解が容易に導かれる。 本稿では, エネルギーに基づくモデルを用いて, エネルギー関数最小化を目的とし, ラベルなし対象試料の訓練を制約する。 単純な追加の正則化やエネルギーベースの損失によって達成できる。 このフレームワークは,プラグアンドプレイ方式に則って強力な識別性能を維持しつつ,エネルギーベースモデルの利点を得ることができる。 収束特性と分類期待最小化との関係について検討した。 画像分類の最もポピュラーで大規模なUDAベンチマークとセマンティックセグメンテーションに関する広範な実験を行い、その一般化と有効性を示す。

Deep learning is usually data starved, and the unsupervised domain adaptation (UDA) is developed to introduce the knowledge in the labeled source domain to the unlabeled target domain. Recently, deep self-training presents a powerful means for UDA, involving an iterative process of predicting the target domain and then taking the confident predictions as hard pseudo-labels for retraining. However, the pseudo-labels are usually unreliable, thus easily leading to deviated solutions with propagated errors. In this paper, we resort to the energy-based model and constrain the training of the unlabeled target sample with an energy function minimization objective. It can be achieved via a simple additional regularization or an energy-based loss. This framework allows us to gain the benefits of the energy-based model, while retaining strong discriminative performance following a plug-and-play fashion. The convergence property and its connection with classification expectation minimization are investigated. We deliver extensive experiments on the most popular and large-scale UDA benchmarks of image classification as well as semantic segmentation to demonstrate its generality and effectiveness.
翻訳日:2022-08-30 12:56:06 公開日:2022-08-26
# NLP研究者は何を信じているのか? NLPコミュニティメタサーベイの結果

What Do NLP Researchers Believe? Results of the NLP Community Metasurvey ( http://arxiv.org/abs/2208.12852v1 )

ライセンス: Link先を確認
Julian Michael, Ari Holtzman, Alicia Parrish, Aaron Mueller, Alex Wang, Angelica Chen, Divyam Madaan, Nikita Nangia, Richard Yuanzhe Pang, Jason Phang, Samuel R. Bowman(参考訳) NLP Community Metasurveyの結果を報告する。 2022年5月から6月にかけて行われた調査では、業界への影響、AGIへの懸念、倫理など、議論の的になっている問題について意見が分かれた。 例えば、回答者は、人工知能の重要性、言語モデルが言語を理解するかどうか、言語構造の必要性、NLP問題を解決するための帰納的バイアスについて、ほぼ半分に分けている。 さらに、調査はメタクエストを行い、回答者に調査回答の分布を予測するよう求めた。 これにより、NLP研究者が持つ信念のスペクトルについての洞察を得るだけでなく、コミュニティの予測が現実と一致しない誤った社会学的信念を明らかにすることができる。 幅広い問題について、このようなミスマッチが見つかります。 コミュニティは、言語構造、帰納的バイアス、学際科学の重要性に対する自身の信念を過小評価しながら、ベンチマークの有用性と現実世界の問題を解決するためのスケーリングの可能性に対する自身の信念を過大評価している。

We present the results of the NLP Community Metasurvey. Run from May to June 2022, the survey elicited opinions on controversial issues, including industry influence in the field, concerns about AGI, and ethics. Our results put concrete numbers to several controversies: For example, respondents are split almost exactly in half on questions about the importance of artificial general intelligence, whether language models understand language, and the necessity of linguistic structure and inductive bias for solving NLP problems. In addition, the survey posed meta-questions, asking respondents to predict the distribution of survey responses. This allows us not only to gain insight on the spectrum of beliefs held by NLP researchers, but also to uncover false sociological beliefs where the community's predictions don't match reality. We find such mismatches on a wide range of issues. Among other results, the community greatly overestimates its own belief in the usefulness of benchmarks and the potential for scaling to solve real-world problems, while underestimating its own belief in the importance of linguistic structure, inductive bias, and interdisciplinary science.
翻訳日:2022-08-30 12:55:47 公開日:2022-08-26
# 共振器ネットワークを用いたニューロモルフィック視覚シーン理解

Neuromorphic Visual Scene Understanding with Resonator Networks ( http://arxiv.org/abs/2208.12880v1 )

ライセンス: Link先を確認
Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, Bruno A. Olshausen, Yulia Sandamirskaya, Friedrich T. Sommer and E. Paxon Frady(参考訳) オブジェクトの位置とその強固な変換を推測することは、視覚シーンの理解において依然としてオープンな問題である。 Here we propose a neuromorphic solution that utilizes an efficient factorization network which is based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued vector binding on neuromorphic hardware. VSAフレームワークはベクトルバインディング操作を使用して、幾何学変換の同変演算としてバインドが作用する生成画像モデルを生成する。 したがって、シーンはベクトル積の和として記述でき、それによって共振器ネットワークによって効率的に分解されて物体とそのポーズを推測することができる。 HRNは、ベクトル結合が1つのパーティション内の水平および垂直の変換と、他のパーティション内の回転とスケーリングに等しくなる分割アーキテクチャの定義を可能にする。 スパイキングニューロンモデルは、共振器ネットワークを効率的で低電力のニューロモルフィックハードウェアにマッピングすることができる。 本研究では,立体幾何学的変換と色変化を行う単純な2次元形状からなる合成シーンを用いたアプローチを実証する。 機械ビジョンとロボット工学の現実的な応用シナリオにおいて、このアプローチを実証する。

Inferring the position of objects and their rigid transformations is still an open problem in visual scene understanding. Here we propose a neuromorphic solution that utilizes an efficient factorization network which is based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued vector binding on neuromorphic hardware. The VSA framework uses vector binding operations to produce generative image models in which binding acts as the equivariant operation for geometric transformations. A scene can therefore be described as a sum of vector products, which in turn can be efficiently factorized by a resonator network to infer objects and their poses. The HRN enables the definition of a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition, and for rotation and scaling within the other partition. The spiking neuron model allows to map the resonator network onto efficient and low-power neuromorphic hardware. In this work, we demonstrate our approach using synthetic scenes composed of simple 2D shapes undergoing rigid geometric transformations and color changes. A companion paper demonstrates this approach in real-world application scenarios for machine vision and robotics.
翻訳日:2022-08-30 12:52:00 公開日:2022-08-26
# 抽出質問応答変換器を用いた実世界会話コーパスのインテント景観構築

Building the Intent Landscape of Real-World Conversational Corpora with Extractive Question-Answering Transformers ( http://arxiv.org/abs/2208.12886v1 )

ライセンス: Link先を確認
Jean-Philippe Corbeil, Mia Taige Li, Hadi Abdi Ghavidel(参考訳) カスタマーサービスを持つ企業にとって、会話データ内のマッピング意図は、自然言語理解(NLU)に基づいたアプリケーション構築に不可欠である。 それでも、騒々しいオンラインチャットや音声書き起こしから意図を収集する確立した自動化技術は存在しない。 単純なクラスタリングアプローチはインテントスパース対話には適していない。 そこで本研究では,現実世界の対話から意図や意図の分類を抽出する教師なしパイプラインを提案する。 パイプラインでは,抽出した質問応答エレクトラモデルを用いてインテントスパン候補をマイニングし,文埋め込みを利用して低レベル密度クラスタリングを行い,上位階層クラスタリングを行う。 本研究は,SQuAD2データセット上に微調整されたELECTRA大モデルによる対話理解の一般化能力を示すものである。 適切なプロンプト質問により、このモデルは意図に関する言語的検証率を85%以上達成する。 さらに、マルチドゴデータセットから平均94.3%のリコールで5つのドメインのインテントスキームを再構築した。

For companies with customer service, mapping intents inside their conversational data is crucial in building applications based on natural language understanding (NLU). Nevertheless, there is no established automated technique to gather the intents from noisy online chats or voice transcripts. Simple clustering approaches are not suited to intent-sparse dialogues. To solve this intent-landscape task, we propose an unsupervised pipeline that extracts the intents and the taxonomy of intents from real-world dialogues. Our pipeline mines intent-span candidates with an extractive Question-Answering Electra model and leverages sentence embeddings to apply a low-level density clustering followed by a top-level hierarchical clustering. Our results demonstrate the generalization ability of an ELECTRA large model fine-tuned on the SQuAD2 dataset to understand dialogues. With the right prompting question, this model achieves a rate of linguistic validation on intent spans beyond 85%. We furthermore reconstructed the intent schemes of five domains from the MultiDoGo dataset with an average recall of 94.3%.
翻訳日:2022-08-30 12:49:45 公開日:2022-08-26
# 歌声スタイル変換のための対称畳み込み変圧器ネットワークの活用

Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style Transfer ( http://arxiv.org/abs/2208.12410v1 )

ライセンス: Link先を確認
Shrutina Agarwal and Sriram Ganapathy and Naoya Takahashi(参考訳) 本稿では,歌唱音声に対する音声のスタイル伝達を行うモデルを提案する。 高品質な歌唱テンプレートや音素同期を必要とする従来の信号処理に基づく手法とは対照的に,自然音声から歌声への変換問題に対するデータ駆動アプローチを検討する。 我々は、話者のアイデンティティと自然性を保ちながら、入力音声とターゲットメロディのアライメントをモデル化するSymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。 提案するSymNetモデルは,畳み込み層,トランスフォーマー層,自己保持層という3種類の層からなる対称スタックで構成されている。 また, モデルトレーニングを容易にするため, 新規なデータ拡張法と生成損失アニール法についても検討した。 音声と歌声の並列データからなるnusとnhssデータセットについて実験を行った。 本研究では,提案したSymNetモデルにより,これまでに公表した手法やベースラインアーキテクチャに比べて,目的の再構築品質が大幅に向上することを示す。 さらに,提案手法を用いて得られた音声の質向上を主観的聴取テストにより確認する(ベースラインシステムに対する平均評価スコア測定における0.37の絶対改善)。

In this paper, we propose a model to perform style transfer of speech to singing voice. Contrary to the previous signal processing-based methods, which require high-quality singing templates or phoneme synchronization, we explore a data-driven approach for the problem of converting natural speech to singing voice. We develop a novel neural network architecture, called SymNet, which models the alignment of the input speech with the target melody while preserving the speaker identity and naturalness. The proposed SymNet model is comprised of symmetrical stack of three types of layers - convolutional, transformer, and self-attention layers. The paper also explores novel data augmentation and generative loss annealing methods to facilitate the model training. Experiments are performed on the NUS and NHSS datasets which consist of parallel data of speech and singing voice. In these experiments, we show that the proposed SymNet model improves the objective reconstruction quality significantly over the previously published methods and baseline architectures. Further, a subjective listening test confirms the improved quality of the audio obtained using the proposed approach (absolute improvement of 0.37 in mean opinion score measure over the baseline system).
翻訳日:2022-08-29 13:41:04 公開日:2022-08-26
# まだあなただとわかってる! ソースコードの匿名化の課題

I still know it's you! On Challenges in Anonymizing Source Code ( http://arxiv.org/abs/2208.12553v1 )

ライセンス: Link先を確認
Micha Horlboge, Erwin Quiring, Roland Meyer, Konrad Rieck(参考訳) プログラムのソースコードはその意味論を定義するだけでなく、著者を識別できる微妙な手がかりも含んでいる。 いくつかの研究によると、これらのヒントは機械学習を使って自動的に抽出され、数百人のプログラマの間でプログラムの作者を決定することができる。 この帰属は、検閲やプライバシー強化技術が特定可能になり、起訴される可能性があるため、開発者にとって大きな脅威となる。 この脅威から理想的な保護は、ソースコードの匿名化である。 しかし、このような匿名化の理論的・実践的な原則はこれまでにも検討されていない。 本稿では,この問題に取り組み,コードの匿名化を推論するためのフレームワークを開発する。 私たちは、$k$の匿名のプログラムを生成するというタスクは、$k$の著者の1つに起因しないプログラムであり、計算不可能であり、したがって研究の行き詰まりであると証明する。 対策として、開発者の保護を測定するために、$k$-uncertaintyという緩和された概念を紹介します。 この概念に基づいて,コード正規化やコーディングスタイルの模倣,コードの難読化など,匿名化の候補手法を実証的に研究する。 攻撃者が匿名化に気付くと、いずれの手法も十分な保護を提供しないことがわかった。 コードから残りの手がかりを取り除くためのアプローチを導入する一方で、私たちの仕事の主な結果は否定的です。

The source code of a program not only defines its semantics but also contains subtle clues that can identify its author. Several studies have shown that these clues can be automatically extracted using machine learning and allow for determining a program's author among hundreds of programmers. This attribution poses a significant threat to developers of anti-censorship and privacy-enhancing technologies, as they become identifiable and may be prosecuted. An ideal protection from this threat would be the anonymization of source code. However, neither theoretical nor practical principles of such an anonymization have been explored so far. In this paper, we tackle this problem and develop a framework for reasoning about code anonymization. We prove that the task of generating a $k$-anonymous program -- a program that cannot be attributed to one of $k$ authors -- is not computable and thus a dead end for research. As a remedy, we introduce a relaxed concept called $k$-uncertainty, which enables us to measure the protection of developers. Based on this concept, we empirically study candidate techniques for anonymization, such as code normalization, coding style imitation, and code obfuscation. We find that none of the techniques provides sufficient protection when the attacker is aware of the anonymization. While we introduce an approach for removing remaining clues from the code, the main result of our work is negative: Anonymization of source code is a hard and open problem.
翻訳日:2022-08-29 13:40:44 公開日:2022-08-26
# 社会的に公正な強化学習

Socially Fair Reinforcement Learning ( http://arxiv.org/abs/2208.12584v1 )

ライセンス: Link先を確認
Debmalya Mandal, and Jiarui Gan(参考訳) 我々は,報奨機能が異なる複数の利害関係者が存在するエピソディクス強化学習の問題を考える。 私たちのゴールは、異なる報酬関数に関して社会的に公平なポリシーを出力することです。 先行研究は、公平な政策は最小の福祉、一般化されたジニ福祉を含め、最適化しなければならないという異なる目的を提案してきた。 まず、この問題の公理的見解を取り、そのような公正な目的が満たさなければならない4つの公理を提案する。 ナッシュ社会福祉は4つの目的すべてに一意に満足するユニークな目的であるが、先行する目的は4つの公理をすべて満たさない。 次に、基礎となるモデル、すなわちマルコフ決定プロセスが不明な問題の学習バージョンを検討する。 最低限の福祉、一般的なジニ福祉、ナッシュ社会福祉という3つの公平な目的を最大化する公正な政策に関して、後悔を最小化する問題を考える。 楽観的計画に基づいて, 汎用学習アルゴリズムを提案し, その後悔を3つの異なる方針に限定して導出する。 ナッシュ社会福祉の目的のために、我々はまた、エージェント数である$n$で指数関数的に増加する後悔の少ない限界を導き出す。 最後に、最小限の福祉の目的のために、後悔の弱い概念のために、$O(H)$で後悔を改善することができることを示す。

We consider the problem of episodic reinforcement learning where there are multiple stakeholders with different reward functions. Our goal is to output a policy that is socially fair with respect to different reward functions. Prior works have proposed different objectives that a fair policy must optimize including minimum welfare, and generalized Gini welfare. We first take an axiomatic view of the problem, and propose four axioms that any such fair objective must satisfy. We show that the Nash social welfare is the unique objective that uniquely satisfies all four objectives, whereas prior objectives fail to satisfy all four axioms. We then consider the learning version of the problem where the underlying model i.e. Markov decision process is unknown. We consider the problem of minimizing regret with respect to the fair policies maximizing three different fair objectives -- minimum welfare, generalized Gini welfare, and Nash social welfare. Based on optimistic planning, we propose a generic learning algorithm and derive its regret bound with respect to the three different policies. For the objective of Nash social welfare, we also derive a lower bound in regret that grows exponentially with $n$, the number of agents. Finally, we show that for the objective of minimum welfare, one can improve regret by a factor of $O(H)$ for a weaker notion of regret.
翻訳日:2022-08-29 13:40:25 公開日:2022-08-26
# CodeBERTにおけるコードクローン検出の一般化可能性

Generalizability of Code Clone Detection on CodeBERT ( http://arxiv.org/abs/2208.12588v1 )

ライセンス: Link先を確認
Tim Sonnekalb, Bernd Gruner, Clemens-Alexander Brust, Patrick M\"ader(参考訳) CodeBERTのようなトランスフォーマーネットワークは、ベンチマークデータセットでコードクローン検出の優れた結果をすでに達成しているため、このタスクはすでに解決済みであると仮定できる。 しかし、コードクローン検出は簡単な作業ではない。 特にセマンティックコードクローンは検出が難しい。 我々は、BigCloneBenchからJavaコードクローンの2つの異なるサブセットを評価することで、CodeBERTの一般化性が低下することを示す。 モデル構築に使用するものと異なるコードスニペットと機能IDを評価すると、F1スコアが大幅に低下するのがわかります。

Transformer networks such as CodeBERT already achieve outstanding results for code clone detection in benchmark datasets, so one could assume that this task has already been solved. However, code clone detection is not a trivial task. Semantic code clones, in particular, are challenging to detect. We show that the generalizability of CodeBERT decreases by evaluating two different subsets of Java code clones from BigCloneBench. We observe a significant drop in F1 score when we evaluate different code snippets and functionality IDs than those used for model building.
翻訳日:2022-08-29 13:40:04 公開日:2022-08-26
# 財務会計監査における会計データのフェデレーションとプライバシ保護

Federated and Privacy-Preserving Learning of Accounting Data in Financial Statement Audits ( http://arxiv.org/abs/2208.12708v1 )

ライセンス: Link先を確認
Marco Schreyer, Timur Sattarov, Damian Borth(参考訳) 進行中の「デジタルトランスフォーメーション」は、監査証拠の性質、記録、ボリュームを根本的に変える。 今日では、国際監査基準(ISA)は、監査人が財務諸表の基盤となるデジタル会計記録の膨大な量を調べることを要求している。 その結果、監査会社は分析能力を「デジタル化」し、機械学習のサブ分野であるディープラーニング(DL)に投資した。 dlの応用は、例えば同じ業界や管轄区域で活動している組織など、複数のクライアントのデータから専門的な監査モデルを学習する機能を提供する。 一般に、規制は監査人に厳格なデータ機密性措置を遵守するよう要求する。 同時に、近年の興味深い発見は、大規模DLモデルが機密データ情報の漏洩に弱いことを示している。 今日では、監査会社がデータ保護規則に準拠しながらdlモデルをどのように適用できるかは不明のままである。 本研究では,複数のクライアントの関連会計データを監査するdlモデルをトレーニングするためのフェデレーション学習フレームワークを提案する。 このフレームワークは差分プライバシーと分割学習機能を包含し、モデル推論におけるデータの機密性リスクを軽減する。 都市支払いの3つの実世界のデータセットにおける会計異常の検出手法を評価した。 この結果から,複数のクライアントデータソースからの知識を蓄積するDLモデルの恩恵を受けることができるという実証的証拠が得られた。

The ongoing 'digital transformation' fundamentally changes audit evidence's nature, recording, and volume. Nowadays, the International Standards on Auditing (ISA) requires auditors to examine vast volumes of a financial statement's underlying digital accounting records. As a result, audit firms also 'digitize' their analytical capabilities and invest in Deep Learning (DL), a successful sub-discipline of Machine Learning. The application of DL offers the ability to learn specialized audit models from data of multiple clients, e.g., organizations operating in the same industry or jurisdiction. In general, regulations require auditors to adhere to strict data confidentiality measures. At the same time, recent intriguing discoveries showed that large-scale DL models are vulnerable to leaking sensitive training data information. Today, it often remains unclear how audit firms can apply DL models while complying with data protection regulations. In this work, we propose a Federated Learning framework to train DL models on auditing relevant accounting data of multiple clients. The framework encompasses Differential Privacy and Split Learning capabilities to mitigate data confidentiality risks at model inference. We evaluate our approach to detect accounting anomalies in three real-world datasets of city payments. Our results provide empirical evidence that auditors can benefit from DL models that accumulate knowledge from multiple sources of proprietary client data.
翻訳日:2022-08-29 13:39:55 公開日:2022-08-26
# 安定ピッチによるメル分光インバージョン

Mel Spectrogram Inversion with Stable Pitch ( http://arxiv.org/abs/2208.12782v1 )

ライセンス: Link先を確認
Bruno Di Giorgi, Mark Levy, Richard Sharp(参考訳) ボコーダ(vocoder)は、オーディオ信号(通常はメル分光図)の低次元のスペクトル表現を波形に変換することのできるモデルである。 現代の音声生成パイプラインは、最終コンポーネントとしてvocoderを使用する。 近年,音声のために開発されたボコーダモデルは,音楽信号に対してどのように振る舞うのか疑問に思うほど,高いリアリズムを実現している。 音声と比較して、音質の不均一性と構造は新たな課題をもたらす。 本研究は,持続音符を合成する際のピッチの不安定性を知覚する,音声用に設計されたボコーダモデルが音楽に適用される傾向にある,特定のアーチファクトに焦点をあてる。 このアーチファクトの特徴音は水平位相コヒーレンスの欠如によるもので、畳み込みニューラルネットワークのような時間シフトに不変なモデルで時間領域のターゲット空間を使用することによって生じることが多い。 我々は音楽専用に設計された新しいvocoderモデルを提案する。 ピッチ安定性を改善する鍵となるのは、大きさスペクトルと位相勾配からなるシフト不変なターゲット空間を選択することである。 本稿では,Vocoderタスクを再フォーマットし,動作例を概説し,音楽信号で評価するきっかけとなった理由について論じる。 提案手法は,既存のモデルに対する持続音符と和音の再構成を,新しい高調波誤差計量を用いて60%および10%改善する。

Vocoders are models capable of transforming a low-dimensional spectral representation of an audio signal, typically the mel spectrogram, to a waveform. Modern speech generation pipelines use a vocoder as their final component. Recent vocoder models developed for speech achieve a high degree of realism, such that it is natural to wonder how they would perform on music signals. Compared to speech, the heterogeneity and structure of the musical sound texture offers new challenges. In this work we focus on one specific artifact that some vocoder models designed for speech tend to exhibit when applied to music: the perceived instability of pitch when synthesizing sustained notes. We argue that the characteristic sound of this artifact is due to the lack of horizontal phase coherence, which is often the result of using a time-domain target space with a model that is invariant to time-shifts, such as a convolutional neural network. We propose a new vocoder model that is specifically designed for music. Key to improving the pitch stability is the choice of a shift-invariant target space that consists of the magnitude spectrum and the phase gradient. We discuss the reasons that inspired us to re-formulate the vocoder task, outline a working example, and evaluate it on musical signals. Our method results in 60% and 10% improved reconstruction of sustained notes and chords with respect to existing models, using a novel harmonic error metric.
翻訳日:2022-08-29 13:39:34 公開日:2022-08-26
# BITS:交通シミュレーションのための双方向シミュレーション

BITS: Bi-level Imitation for Traffic Simulation ( http://arxiv.org/abs/2208.12403v1 )

ライセンス: Link先を確認
Danfei Xu, Yuxiao Chen, Boris Ivanovic, Marco Pavone(参考訳) シミュレーションは、自動運転車のようなロボットシステムの検証と検証をスケールアップする鍵となる。 高忠実度物理とセンサシミュレーションの進歩にもかかわらず、道路利用者の現実的な振る舞いをシミュレートする上で重要なギャップが残っている。 これは、物理やグラフィックスをシミュレートするのとは異なり、人間のような行動の第一原理モデルを考案することは一般的に不可能であるからである。 本研究では,実世界の運転ログからトラヒック挙動を学習する手法を提案する。 トラヒックシミュレーション問題をハイレベルインテント推論と低レベル運転行動模倣に分離することにより、運転行動のバイレベル階層を活用し、高いサンプル効率と行動多様性を実現する。 この方法は、安定したロングホリゾン挙動を得るために計画モジュールも組み込んでいる。 BITS(Bi-level Imitation for Traffic Simulation, Bi-level Imitation for Traffic Simulation, BITS)と呼ばれる手法を実証的に検証し, BITSが現実性, 多様性, 長期安定性においてバランスの取れた交通シミュレーション性能を達成することを示す。 また,行動リアリズムの評価方法を検討し,トラヒックシミュレーションのための評価指標のスイートを紹介する。 最後に、コアコントリビューションの一環として、さまざまな駆動データセットにまたがるデータフォーマットを統合し、既存のデータセットのシーンをインタラクティブなシミュレーション環境に変換するソフトウェアツールを開発し、オープンソース化しています。 詳細はhttps://sites.google.com/view/nvr-bits2022/homeを参照。

Simulation is the key to scaling up validation and verification for robotic systems such as autonomous vehicles. Despite advances in high-fidelity physics and sensor simulation, a critical gap remains in simulating realistic behaviors of road users. This is because, unlike simulating physics and graphics, devising first principle models for human-like behaviors is generally infeasible. In this work, we take a data-driven approach and propose a method that can learn to generate traffic behaviors from real-world driving logs. The method achieves high sample efficiency and behavior diversity by exploiting the bi-level hierarchy of driving behaviors by decoupling the traffic simulation problem into high-level intent inference and low-level driving behavior imitation. The method also incorporates a planning module to obtain stable long-horizon behaviors. We empirically validate our method, named Bi-level Imitation for Traffic Simulation (BITS), with scenarios from two large-scale driving datasets and show that BITS achieves balanced traffic simulation performance in realism, diversity, and long-horizon stability. We also explore ways to evaluate behavior realism and introduce a suite of evaluation metrics for traffic simulation. Finally, as part of our core contributions, we develop and open source a software tool that unifies data formats across different driving datasets and converts scenes from existing datasets into interactive simulation environments. For additional information and videos, see https://sites.google.com/view/nvr-bits2022/home
翻訳日:2022-08-29 13:38:05 公開日:2022-08-26
# ファースト、ミドル、ラストネームの人種と民族のデータ

Race and ethnicity data for first, middle, and last names ( http://arxiv.org/abs/2208.12443v1 )

ライセンス: Link先を確認
Evan T. R. Rosenman, Santiago Olivella, and Kosuke Imai(参考訳) 例えば、ベイジアン改良サーネームジオコーディング(BISG)を用いて、人種や民族を宣伝する目的で、第1、第2、第2、第2、第2の辞書をまとめてまとめる。 辞書は、有権者登録時に自己申告した人種データを収集する南部6州の投票者ファイルに基づいている。 私たちのデータは、ほぼ100万のファーストネーム、11万のミドルネーム、140万の姓を含む、同等のデータセットよりもはるかに広い範囲をカバーしています。 個人は、白人、黒人、ヒスパニック系、アジア系、その他の5つの排他的な人種的・民族的グループに分類され、それぞれの辞書のすべての名前に人種的・民族的カウントが与えられる。 カウントは、与えられた名前や名前の条件付き確率を得るために、行または列ごとに正規化することができる。 これらの条件付き確率は、基礎的真理の人種的および民族的データが利用できないデータ分析タスクにインプテーションとしてデプロイすることができる。

We provide the largest compiled publicly available dictionaries of first, middle, and last names for the purpose of imputing race and ethnicity using, for example, Bayesian Improved Surname Geocoding (BISG). The dictionaries are based on the voter files of six Southern states that collect self-reported racial data upon voter registration. Our data cover a much larger scope of names than any comparable dataset, containing roughly one million first names, 1.1 million middle names, and 1.4 million surnames. Individuals are categorized into five mutually exclusive racial and ethnic groups -- White, Black, Hispanic, Asian, and Other -- and racial/ethnic counts by name are provided for every name in each dictionary. Counts can then be normalized row-wise or column-wise to obtain conditional probabilities of race given name or name given race. These conditional probabilities can then be deployed for imputation in a data analytic task for which ground truth racial and ethnic data is not available.
翻訳日:2022-08-29 13:37:40 公開日:2022-08-26
# 教師なしネットワークアライメントのための高次位相整合性を目指して

Towards Higher-order Topological Consistency for Unsupervised Network Alignment ( http://arxiv.org/abs/2208.12463v1 )

ライセンス: Link先を確認
Qingqiang Sun, Xuemin Lin, Ying Zhang, Wenjie Zhang, Chaoqi Chen(参考訳) ネットワークアライメントタスクは、異なるネットワーク内の対応するノードを識別することを目的としており、その後の多くのアプリケーションにとって非常に重要である。 ラベル付きアンカーリンクを必要としないため、教師なしアライメント手法はますます注目を集めている。 しかし、既存の方法によって定義される位相的一貫性の仮定は一般に低次であり、エッジ非差別的位相的パターンのみが考慮されるため正確ではない。 本稿では,低次から高次のトポロジカル整合性へのアライメントプロセスの焦点を再配置するために,HTC というネットワークアライメントフレームワークを提案する。 提案する高階位相整合性は、エッジ軌道に基づいて定式化され、グラフ畳み込みネットワークの情報集約プロセスにマージされ、アライメント構成がノード埋め込みの類似性に変換される。 さらに、エンコーダはマルチビット対応に訓練され、さらに信頼性の高いアンカーリンクを特定するように洗練される。 ノード対応は、すべての異なる一貫性の順序を統合することで包括的に評価される。 2) 音理論解析に加えて, 実験により提案手法の優位性を実証的に評価した。 3組の現実世界のデータセットと2組の合成データセットで、HTCは最小または同等の時間消費で、さまざまな教師なしおよび教師なしの手法を一貫して上回っている。 また,マルチ軌道アウェアトレーニング機構の結果として,構造雑音に対するロバスト性を示す。

Network alignment task, which aims to identify corresponding nodes in different networks, is of great significance for many subsequent applications. Without the need for labeled anchor links, unsupervised alignment methods have been attracting more and more attention. However, the topological consistency assumptions defined by existing methods are generally low-order and less accurate because only the edge-indiscriminative topological pattern is considered, which is especially risky in an unsupervised setting. To reposition the focus of the alignment process from low-order to higher-order topological consistency, in this paper, we propose a fully unsupervised network alignment framework named HTC. The proposed higher-order topological consistency is formulated based on edge orbits, which is merged into the information aggregation process of a graph convolutional network so that the alignment consistencies are transformed into the similarity of node embeddings. Furthermore, the encoder is trained to be multi-orbit-aware and then be refined to identify more trusted anchor links. Node correspondence is comprehensively evaluated by integrating all different orders of consistency. {In addition to sound theoretical analysis, the superiority of the proposed method is also empirically demonstrated through extensive experimental evaluation. On three pairs of real-world datasets and two pairs of synthetic datasets, our HTC consistently outperforms a wide variety of unsupervised and supervised methods with the least or comparable time consumption. It also exhibits robustness to structural noise as a result of our multi-orbit-aware training mechanism.
翻訳日:2022-08-29 13:37:17 公開日:2022-08-26
# 本質的に解釈可能な最適化モデルのためのフレームワーク

A Framework for Inherently Interpretable Optimization Models ( http://arxiv.org/abs/2208.12570v1 )

ライセンス: Link先を確認
Marc Goerigk and Michael Hartisch(参考訳) 最適化ソフトウェアの劇的な改善により、何十年も前に難解だった大規模な問題の解決は、今や日常的な課題となっている。 これにより、より現実世界のアプリケーションがオプティマイザのリーチに入ります。 同時に、最適化問題の解決は、しばしば、ソリューションを実践する際のより小さな困難の1つだと判明する。 ひとつの大きな障壁は、最適化ソフトウェアがブラックボックスとして認識され、高品質のソリューションを生み出すが、状況が変化して最適化されたソリューションが受け入れられなくなると、まったく異なるソリューションを作ることができることである。 このような解釈可能性と説明可能性の問題は、機械学習など他の分野でも注目されているが、最適化ではそれほど注目されていない。 本稿では,解を選択すべき状況において,解を本質的に理解し易い説明規則で導出する最適化手法を提案する。 説明規則を表す決定木に着目し,整数型プログラミングの定式化と,大規模問題に対しても適用性を確保するヒューリスティックな手法を提案する。 ランダムおよび実世界のデータを用いた計算実験は、固有の解釈可能性のコストが非常に小さいことを示している。

With dramatic improvements in optimization software, the solution of large-scale problems that seemed intractable decades ago are now a routine task. This puts even more real-world applications into the reach of optimizers. At the same time, solving optimization problems often turns out to be one of the smaller difficulties when putting solutions into practice. One major barrier is that the optimization software can be perceived as a black box, which may produce solutions of high quality, but can create completely different solutions when circumstances change leading to low acceptance of optimized solutions. Such issues of interpretability and explainability have seen significant attention in other areas, such as machine learning, but less so in optimization. In this paper we propose an optimization framework to derive solutions that inherently come with an easily comprehensible explanatory rule, under which circumstances which solution should be chosen. Focussing on decision trees to represent explanatory rules, we propose integer programming formulations as well as a heuristic method that ensure applicability of our approach even for large-scale problems. Computational experiments using random and real-world data indicate that the costs of inherent interpretability can be very small.
翻訳日:2022-08-29 13:36:54 公開日:2022-08-26
# LUCID:逆設計によるアルゴリズムバイアスの抽出

LUCID: Exposing Algorithmic Bias through Inverse Design ( http://arxiv.org/abs/2208.12786v1 )

ライセンス: Link先を確認
Carmen Mazijn, Carina Prunkl, Andres Algaba, Jan Danckaert, Vincent Ginis(参考訳) AIシステムは意思決定プロセスのバイアスを作成し、伝播し、サポートし、自動化することができる。 バイアスのある決定を緩和するためには、偏見の起源を理解し、公正な決定を行うアルゴリズムの意味を定義する必要があります。 ほとんどの群フェアネスの概念は、出力の統計メトリクスを計算することによって、モデルの結果の平等を評価する。 これらのアウトプット指標は本質的な障害に遭遇し,治療の平等に焦点を合わせた補完的アプローチを提案する。 標準逆設計(LUCID)による不公平な位置決めにより、好ましい出力を与えられたモデルに対して所望の入力を示す正準集合を生成する。 標準セットはモデルの内部論理を明らかにし、意思決定プロセスを繰り返し尋問することで潜在的な非倫理バイアスを露呈する。 UCIアダルトデータセットとCompASデータセット上でLUCIDを評価し,標準セットで検出されたバイアスが出力指標と異なることを発見した。 その結果, 治療の平等に焦点を移し, アルゴリズムの内部動作を考察することで, 正準集合はアルゴリズム的公平性評価のツールボックスに価値ある付加物であることがわかった。

AI systems can create, propagate, support, and automate bias in decision-making processes. To mitigate biased decisions, we both need to understand the origin of the bias and define what it means for an algorithm to make fair decisions. Most group fairness notions assess a model's equality of outcome by computing statistical metrics on the outputs. We argue that these output metrics encounter intrinsic obstacles and present a complementary approach that aligns with the increasing focus on equality of treatment. By Locating Unfairness through Canonical Inverse Design (LUCID), we generate a canonical set that shows the desired inputs for a model given a preferred output. The canonical set reveals the model's internal logic and exposes potential unethical biases by repeatedly interrogating the decision-making process. We evaluate LUCID on the UCI Adult and COMPAS data sets and find that some biases detected by a canonical set differ from those of output metrics. The results show that by shifting the focus towards equality of treatment and looking into the algorithm's internal workings, the canonical sets are a valuable addition to the toolbox of algorithmic fairness evaluation.
翻訳日:2022-08-29 13:35:58 公開日:2022-08-26
# マルチスケールアーキテクチャが重要:フローベースロスレス圧縮の逆ロバスト性について

Multi-Scale Architectures Matter: On the Adversarial Robustness of Flow-based Lossless Compression ( http://arxiv.org/abs/2208.12716v1 )

ライセンス: Link先を確認
Yi-chong Xia, Bin Chen, Yan Feng, Tian-shuo Ge(参考訳) 確率論的モデリング手法として、フローベースモデルは損失のない圧縮 \cite{idf,idf++,lbb,ivpf,iflow} の分野で顕著なポテンシャルを示した。 他の深層生成モデル (Autoregressive, VAEs) \cite{bitswap,hilloc,pixelcnn++,pixelsnail} と比較して、フローベースモデルは、優れた確率密度推定と良好な推論速度のために、データ分散確率を明示的にモデル化する。 フローベースモデルにおいて、マルチスケールアーキテクチャは、浅い層から出力層へのショートカットを提供する。 これは、高度なフローベースの学習可能なビジェクティブマッピングを構築するために不可欠である。 さらに, 実用圧縮タスクにおけるモデル設計の軽量要件は, 符号化複雑性と圧縮効率の最良のトレードオフを実現することを示唆している。

As a probabilistic modeling technique, the flow-based model has demonstrated remarkable potential in the field of lossless compression \cite{idf,idf++,lbb,ivpf,iflow},. Compared with other deep generative models (eg. Autoregressive, VAEs) \cite{bitswap,hilloc,pixelcnn++,pixelsnail} that explicitly model the data distribution probabilities, flow-based models perform better due to their excellent probability density estimation and satisfactory inference speed. In flow-based models, multi-scale architecture provides a shortcut from the shallow layer to the output layer, which significantly reduces the computational complexity and avoid performance degradation when adding more layers. This is essential for constructing an advanced flow-based learnable bijective mapping. Furthermore, the lightweight requirement of the model design in practical compression tasks suggests that flows with multi-scale architecture achieve the best trade-off between coding complexity and compression efficiency.
翻訳日:2022-08-29 13:35:25 公開日:2022-08-26
# 生成モデルによる音楽分離の強化

Music Separation Enhancement with Generative Modeling ( http://arxiv.org/abs/2208.12387v1 )

ライセンス: Link先を確認
Noah Schaffer, Boaz Cogan, Ethan Manilow, Max Morrison, Prem Seetharaman, and Bryan Pardo(参考訳) 近年の驚異的な進歩にもかかわらず、最先端の音楽分離システムは、余分なノイズの追加や高調波の除去など、かなりの知覚上の欠点を伴う音源推定を生成する。 本稿では,音源分離システムの出力向上を目的とした後処理モデル (Make It Sound Good (MSG) ポストプロセッサ) を提案する。 この後処理モデルを,MSGのトレーニング中に見つからないセパレータを含む,最先端の波形ベースおよびスペクトログラムベース音楽ソースセパレータに適用する。 音源分離器による誤差の解析により、波形モデルではより高周波ノイズが生じる傾向がみられ、スペクトログラムモデルでは過渡性と高周波成分が失われる傾向が見られた。 両エラーの定量化のための客観的尺度を導入し,MSGが両エラーのソース再構成を改善することを示す。 クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。

Despite phenomenal progress in recent years, state-of-the-art music separation systems produce source estimates with significant perceptual shortcomings, such as adding extraneous noise or removing harmonics. We propose a post-processing model (the Make it Sound Good (MSG) post-processor) to enhance the output of music source separation systems. We apply our post-processing model to state-of-the-art waveform-based and spectrogram-based music source separators, including a separator unseen by MSG during training. Our analysis of the errors produced by source separators shows that waveform models tend to introduce more high-frequency noise, while spectrogram models tend to lose transients and high frequency content. We introduce objective measures to quantify both kinds of errors and show MSG improves the source reconstruction of both kinds of errors. Crowdsourced subjective evaluations demonstrate that human listeners prefer source estimates of bass and drums that have been post-processed by MSG.
翻訳日:2022-08-29 13:34:44 公開日:2022-08-26
# 隣接点注意による効率的なLiDAR点雲形状圧縮

Efficient LiDAR Point Cloud Geometry Compression Through Neighborhood Point Attention ( http://arxiv.org/abs/2208.12573v1 )

ライセンス: Link先を確認
Ruixiang Xue, Jianqiang Wang, Zhan Ma(参考訳) マルチスケールスパーステンソルの畳み込み表現は、高密度物体点雲の幾何成分の圧縮の占有確率を正確にモデル化する上で優れた効率を示したが、スパースLiDAR点雲幾何(PCG)の表現能力は大きく制限された。 これは 1) 畳み込みの固定受容場は、極端に均一に分散したスパースLiDAR点を非常に特徴付けることができない。 2) 固定重み付き事前訓練した畳み込みは, 入力に条件付けられた情報を動的に捉えるには不十分である。 そこで本研究は,k-nearly neighbors (knn) を用いて適応型局所的近傍を構築し,その近傍の情報を動的に集約するセルフ・アテンション機構を活用した,近傍点注意 (npa) に取り組むことを示唆する。 このようなNPAは、幾何学的占有確率推定のためのクロススケールおよび等スケール相関を最大限に活用するために、NPAFormerとして考案されている。 標準G-PCCを用いたアンカーと比較して,損失圧縮では17%のBDレートゲイン,セマンティックKITTIとFordデータセットでは人気のあるLiDAR点雲を用いて14%のビットレート削減を実現している。 注意を最適化したoctreeコーディング手法を用いたsota(state-of-the-art)ソリューションと比較すると,本手法では,平均640倍の高速化を実現するとともに,圧縮効率も向上する。

Although convolutional representation of multiscale sparse tensor demonstrated its superior efficiency to accurately model the occupancy probability for the compression of geometry component of dense object point clouds, its capacity for representing sparse LiDAR point cloud geometry (PCG) was largely limited. This is because 1) fixed receptive field of the convolution cannot characterize extremely and unevenly distributed sparse LiDAR points very well; and 2) pretrained convolutions with fixed weights are insufficient to dynamically capture information conditioned on the input. This work therefore suggests the neighborhood point attention (NPA) to tackle them, where we first use k nearest neighbors (kNN) to construct adaptive local neighborhood; and then leverage the self-attention mechanism to dynamically aggregate information within this neighborhood. Such NPA is devised as a NPAFormer to best exploit cross-scale and same-scale correlations for geometric occupancy probability estimation. Compared with the anchor using standardized G-PCC, our method provides >17% BD-rate gains for lossy compression, and >14% bitrate reduction for lossless scenario using popular LiDAR point clouds in SemanticKITTI and Ford datasets. Compared with the state-of-the-art (SOTA) solution using attention optimized octree coding method, our approach requires much less decoding runtime with about 640 times speedup on average, while still presenting better compression efficiency.
翻訳日:2022-08-29 13:31:58 公開日:2022-08-26
# 高速自己微分可能デジタル再構成ラジオグラフィーによる術中画像診断における逆問題の解決

Fast Auto-Differentiable Digitally Reconstructed Radiographs for Solving Inverse Problems in Intraoperative Imaging ( http://arxiv.org/abs/2208.12737v1 )

ライセンス: Link先を確認
Vivek Gopalakrishnan and Polina Golland(参考訳) スライス・ツー・ボリュームの登録や3D再構成といった逆問題に対するデジタル再構成ラジオグラフィ(DRR)の使用は、術前設定でよく研究されている。 術中画像におけるDRRの有用性は、DRR合成の繰り返しに依存する最適化手順をリアルタイムで生成する際の課題によって制限される。 アルゴリズムの改良とGPU実装によってDRRの生成を加速する大きな進歩があったが、ほとんどのDRRジェネレータは画像パラメータに関して勾配を得る簡単な方法を提供していないため、DRRベースの最適化は遅いままである。 勾配に基づく最適化とディープラーニングフレームワークとの相互運用を実現するため,DRR生成に最もよく用いられるレイトレーシングアルゴリズムであるSiddonの手法をベクトル化テンソル演算のシリーズとして改訂した。 我々はこのベクトル化バージョンのsiddon法をpytorchに実装し,ライブラリの強力な自動微分エンジンを利用して,dr生成器をパラメータに対して完全に微分可能とした。 さらに,GPU高速化テンソル計算を用いることで,CUDAやC++で実装された最先端DRRジェネレータと同等のレンダリング速度を実現することができる。 提案手法は,スライス・ツー・ボリューム登録の文脈で述べる。 さらに,スライスからボリュームへの登録問題に対するロスランドスケープは,最適解近傍で凸であり,勾配に基づく登録は,従来の勾配なし最適化手法よりもはるかに高速に解決できることを示す。 提案したDRRジェネレータは、高速コンピュータビジョンアルゴリズムにより、最小侵襲の手順で画像誘導をサポートすることができる。 実装はhttps://github.com/v715/diffdrrで公開しています。

The use of digitally reconstructed radiographs (DRRs) to solve inverse problems such as slice-to-volume registration and 3D reconstruction is well-studied in preoperative settings. In intraoperative imaging, the utility of DRRs is limited by the challenges in generating them in real-time and supporting optimization procedures that rely on repeated DRR synthesis. While immense progress has been made in accelerating the generation of DRRs through algorithmic refinements and GPU implementations, DRR-based optimization remains slow because most DRR generators do not offer a straightforward way to obtain gradients with respect to the imaging parameters. To make DRRs interoperable with gradient-based optimization and deep learning frameworks, we have reformulated Siddon's method, the most popular ray-tracing algorithm used in DRR generation, as a series of vectorized tensor operations. We implemented this vectorized version of Siddon's method in PyTorch, taking advantage of the library's strong automatic differentiation engine to make this DRR generator fully differentiable with respect to its parameters. Additionally, using GPU-accelerated tensor computation enables our vectorized implementation to achieve rendering speeds equivalent to state-of-the-art DRR generators implemented in CUDA and C++. We illustrate the resulting method in the context of slice-to-volume registration. Moreover, our simulations suggest that the loss landscapes for the slice-to-volume registration problem are convex in the neighborhood of the optimal solution, and gradient-based registration promises a much faster solution than prevailing gradient-free optimization strategies. The proposed DRR generator enables fast computer vision algorithms to support image guidance in minimally invasive procedures. Our implementation is publically available at https://github.com/v715/DiffDRR.
翻訳日:2022-08-29 13:31:20 公開日:2022-08-26
# 合成データを活用した映像安定化

Leveraging Synthetic Data to Learn Video Stabilization Under Adverse Conditions ( http://arxiv.org/abs/2208.12763v1 )

ライセンス: Link先を確認
Abdulrahman Kerim, Washington L. S. Ramos, Leandro Soriano Marcolino, Erickson R. Nascimento, Richard Jiang(参考訳) ビデオの安定化は、ビデオの品質向上に重要な役割を果たす。 しかし、これらの方法によるかなりの進歩にもかかわらず、主に標準の気象条件と照明条件下で試験され、悪条件下では性能が悪くなる可能性がある。 本稿では,実データを必要とせず,合成データのみに基づいて学習できる映像安定化のための合成・認識型悪天候ロバストアルゴリズムを提案する。 また,新しいレンダリングエンジンであるsilverについて紹介する。 提案手法では,アフィン変換行列推定器の学習に,既存の手法が直面する特徴抽出の問題を回避するために,特殊な合成データを用いている。 また,悪条件下でのビデオ安定化データセットは使用できないため,評価のための新しいvsac105実データセットを提案する。 提案手法を2つのベンチマークを用いて5つの最先端ビデオ安定化アルゴリズムと比較した。 その結果,少なくとも1つの気象条件下では現在の手法は性能が悪く,合成データのみを用いた小さなデータセットでのトレーニングであっても,すべての気象条件を考慮すれば,安定性平均スコア,歪みスコア,成功率,平均クロッピング率の点で最高の性能が得られることがわかった。 したがって,ビデオ安定化モデルは実世界の映像を一般化し,大規模合成学習データを必要としない。

Video stabilization plays a central role to improve videos quality. However, despite the substantial progress made by these methods, they were, mainly, tested under standard weather and lighting conditions, and may perform poorly under adverse conditions. In this paper, we propose a synthetic-aware adverse weather robust algorithm for video stabilization that does not require real data and can be trained only on synthetic data. We also present Silver, a novel rendering engine to generate the required training data with an automatic ground-truth extraction procedure. Our approach uses our specially generated synthetic data for training an affine transformation matrix estimator avoiding the feature extraction issues faced by current methods. Additionally, since no video stabilization datasets under adverse conditions are available, we propose the novel VSAC105Real dataset for evaluation. We compare our method to five state-of-the-art video stabilization algorithms using two benchmarks. Our results show that current approaches perform poorly in at least one weather condition, and that, even training in a small dataset with synthetic data only, we achieve the best performance in terms of stability average score, distortion score, success rate, and average cropping ratio when considering all weather conditions. Hence, our video stabilization model generalizes well on real-world videos and does not require large-scale synthetic training data to converge.
翻訳日:2022-08-29 13:30:52 公開日:2022-08-26
# セルレス大量MIMOシステムにおけるエッジキャッシングの深部強化学習

Exploiting Deep Reinforcement Learning for Edge Caching in Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2208.12453v1 )

ライセンス: Link先を確認
Yu Zhang, Shuaifei Chen, and Jiayi Zhang(参考訳) セルフリーな大規模マルチインプット・マルチプル出力は、多くの連続アクセスポイント(AP)を協調してオンボードユーザーに提供することで、鉄道無線通信の厳しい品質要件(QoE)を満たすことを約束している。 重要な課題は,列車速度の増大に伴う過激な伝搬環境の変化により,所望のコンテンツをタイムリーに配信する方法である。 本稿では,このコヒーレント伝送を行ない,エンドツーエンドの遅延を低減するために,潜在的に要求されるコンテンツを今後のAPにキャッシュすることを提案する。 長期QoE最大化問題を定式化し、2つのキャッシュ配置アルゴリズムを提案する。 ひとつはヒューリスティック凸最適化(hco)、もうひとつはsoft actor-critic(sac)を用いた深層強化学習(drl)の活用である。 従来のベンチマークと比較すると,提案したQoEアルゴリズムとヒット確率の利点が示される。 アドバンストDRLモデルでは、SACはユーザの要求を正確に予測することで、QoE上のHCOよりも優れている。

Cell-free massive multiple-input-multiple-output is promising to meet the stringent quality-of-experience (QoE) requirements of railway wireless communications by coordinating many successional access points (APs) to serve the onboard users coherently. A key challenge is how to deliver the desired contents timely due to the radical changing propagation environment caused by the growing train speed. In this paper, we propose to proactively cache the likely-requesting contents at the upcoming APs which perform the coherent transmission to reduce end-to-end delay. A long-term QoE-maximization problem is formulated and two cache placement algorithms are proposed. One is based on heuristic convex optimization (HCO) and the other exploits deep reinforcement learning (DRL) with soft actor-critic (SAC). Compared to the conventional benchmark, numerical results show the advantage of our proposed algorithms on QoE and hit probability. With the advanced DRL model, SAC outperforms HCO on QoE by predicting the user requests accurately.
翻訳日:2022-08-29 13:30:30 公開日:2022-08-26
# 深層音楽分類器における「音楽学者にやさしい」説明のための概念ベース手法

Concept-Based Techniques for "Musicologist-friendly" Explanations in a Deep Music Classifier ( http://arxiv.org/abs/2208.12485v1 )

ライセンス: Link先を確認
Francesco Foscarin, Katharina Hoedt, Verena Praher, Arthur Flexer, Gerhard Widmer(参考訳) 音楽データに適用されるディープラーニングシステムを説明する現在のアプローチは、例えば、スペクトログラムやピアノロールのタイムピッチビンで、潜在的に関連する時間周波数ビンを強調することで、低レベルの特徴空間を提供する。 これは、特に技術的な知識のない音楽学者にとって理解が難しい。 この問題に対処するために,ハイレベルな音楽概念に基づくより人間フレンドリな説明に焦点を当てる。 本研究は,訓練されたシステム (ポストホックな説明) を対象とし,ユーザが音楽概念を定義し,そのシステムに関連するかどうかを検証できる教師付きシステムと,関連する概念を含む楽曲の抜粋を自動的に選択し,ユーザに解釈するための教師なしシステムという2つのアプローチを探求する。 既存のシンボリック作曲家分類システムにおいて,両手法を実証し,その可能性を示し,本質的な限界を強調する。

Current approaches for explaining deep learning systems applied to musical data provide results in a low-level feature space, e.g., by highlighting potentially relevant time-frequency bins in a spectrogram or time-pitch bins in a piano roll. This can be difficult to understand, particularly for musicologists without technical knowledge. To address this issue, we focus on more human-friendly explanations based on high-level musical concepts. Our research targets trained systems (post-hoc explanations) and explores two approaches: a supervised one, where the user can define a musical concept and test if it is relevant to the system; and an unsupervised one, where musical excerpts containing relevant concepts are automatically selected and given to the user for interpretation. We demonstrate both techniques on an existing symbolic composer classification system, showcase their potential, and highlight their intrinsic limitations.
翻訳日:2022-08-29 13:30:10 公開日:2022-08-26
# 継続測定による時間的ファジィユーティリティの最大化

Temporal Fuzzy Utility Maximization with Remaining Measure ( http://arxiv.org/abs/2208.12439v1 )

ライセンス: Link先を確認
Shicheng Wan, Zhenqiang Ye, Wensheng Gan, and Jiahui Chen(参考訳) 高ユーティリティなアイテムセットマイニングアプローチは、大量の時間データから隠れたパターンを発見する。 しかし、高ユーティリティなアイテムセットマイニングの難解な問題は、その発見結果がパターンの量を隠すことであり、解釈可能性に乏しい。 結果は、顧客のショッピングトレンドのみを反映しており、意思決定者が収集した情報を定量化するのに役立ちません。 言語用語では、コンピュータは正確に形式化された数学やプログラミング言語を使うが、人間が使用する言語は常に曖昧である。 本稿では,TFUMと呼ばれる新しい一相時間ファジィ実用物マイニング手法を提案する。 時間的ファジィリストを修正して、潜在的な高時間的ファジィユーティリティアイテムセットに関する重要な情報をメモリに保持し、短期間で実際の興味深いパターンの完全なセットを見つける。 特に,本論文の時間的ファジィ・ユーティリティー・アイテムセット・マイニング領域では,残余測度が初めて採用されている。 残された最大時間的ファジィ効用は、以前の研究で採用されたものよりもより強く強い上限である。 したがって、tfumの探索空間を刈り取る上で重要な役割を果たす。 最後に,様々なデータセットにおけるtfumの効率と有効性を評価する。 大規模な実験結果から、TFUMは実行時コスト、メモリ使用量、スケーラビリティにおいて最先端のアルゴリズムより優れていることが示唆された。 さらに、実験により、残りの測定値が採掘中に不要な候補を著しく引き起こすことが証明された。

High utility itemset mining approaches discover hidden patterns from large amounts of temporal data. However, an inescapable problem of high utility itemset mining is that its discovered results hide the quantities of patterns, which causes poor interpretability. The results only reflect the shopping trends of customers, which cannot help decision makers quantify collected information. In linguistic terms, computers use mathematical or programming languages that are precisely formalized, but the language used by humans is always ambiguous. In this paper, we propose a novel one-phase temporal fuzzy utility itemset mining approach called TFUM. It revises temporal fuzzy-lists to maintain less but major information about potential high temporal fuzzy utility itemsets in memory, and then discovers a complete set of real interesting patterns in a short time. In particular, the remaining measure is the first adopted in the temporal fuzzy utility itemset mining domain in this paper. The remaining maximal temporal fuzzy utility is a tighter and stronger upper bound than that of previous studies adopted. Hence, it plays an important role in pruning the search space in TFUM. Finally, we also evaluate the efficiency and effectiveness of TFUM on various datasets. Extensive experimental results indicate that TFUM outperforms the state-of-the-art algorithms in terms of runtime cost, memory usage, and scalability. In addition, experiments prove that the remaining measure can significantly prune unnecessary candidates during mining.
翻訳日:2022-08-29 13:27:00 公開日:2022-08-26
# 触覚接触の半監督的絡み合い-すべり誘起せん断の幾何

Semi-Supervised Disentanglement of Tactile Contact~Geometry from Sliding-Induced Shear ( http://arxiv.org/abs/2208.12500v1 )

ライセンス: Link先を確認
Anupam K. Gupta, Alex Church, Nathan F. Lepora(参考訳) 触覚は人間の器用さの基本である。 ロボットのタッチ、特にソフトな光学触覚センサーを使って模倣すると、動きに依存したせん断による歪みに苦しむ。 これは、接触幾何学に関する情報を必要とする形状復元や探索のような触覚タスクを複雑にする。 本研究では,接触情報のみを保存しながらせん断を除去する半教師付き手法を提案する。 対象物に対して垂直にタップすることで,モデルが生成した未認識画像と対応する画像とのマッチングを示すことにより,我々のアプローチを検証する。 モデルが生成した未観測画像は、接触地形の忠実な再構築を可能にし、それ以外はせん断によって遮蔽され、また物体のポーズのロバストな推定は、スライディング探索や平面形状の完全な再構築に使用される。 我々の半教師付きアプローチは、全バリデーションタスクにまたがる完全教師付きアプローチと同等のパフォーマンスを、桁違いに低い監督で達成していることを示す。 したがって、半教師付き手法はより計算的かつラベル付けされたサンプル効率である。 多様な複雑な触覚探索や操作タスクに、せん断感応性のあるタッチ感で幅広い応用性が期待できる。

The sense of touch is fundamental to human dexterity. When mimicked in robotic touch, particularly by use of soft optical tactile sensors, it suffers from distortion due to motion-dependent shear. This complicates tactile tasks like shape reconstruction and exploration that require information about contact geometry. In this work, we pursue a semi-supervised approach to remove shear while preserving contact-only information. We validate our approach by showing a match between the model-generated unsheared images with their counterparts from vertically tapping onto the object. The model-generated unsheared images give faithful reconstruction of contact-geometry otherwise masked by shear, along with robust estimation of object pose then used for sliding exploration and full reconstruction of several planar shapes. We show that our semi-supervised approach achieves comparable performance to its fully supervised counterpart across all validation tasks with an order of magnitude less supervision. The semi-supervised method is thus more computational and labeled sample-efficient. We expect it will have broad applicability to wide range of complex tactile exploration and manipulation tasks performed via a shear-sensitive sense of touch.
翻訳日:2022-08-29 13:26:42 公開日:2022-08-26
# 低リソース言語のためのASRシステム改善のための公開データからの音声・テキストペアのマイニングの有効性

Effectiveness of Mining Audio and Text Pairs from Public Data for Improving ASR Systems for Low-Resource Languages ( http://arxiv.org/abs/2208.12666v1 )

ライセンス: Link先を確認
Kaushal Santosh Bhogale, Abhigyan Raman, Tahir Javed, Sumanth Doddapaneni, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) エンドツーエンド(e2e)モデルが最先端音声認識システムのデフォルト選択となっている。 このようなモデルは大量のラベル付きデータに基づいてトレーニングされるが、低リソース言語では利用できないことが多い。 自己教師付き学習や伝達学習のような技術は、約束を守るが、正確なモデルの訓練には効果がない。 一方で、さまざまなドメインと話者のセットでラベル付きデータセットの収集は非常に高価である。 本研究は,インド・ラジオの公文書から,インド語のテキストと音声ペアを公開資料から抽出し,安価かつ効果的な代替案を示すものである。 主成分として,onesureman-wunschアルゴリズムを適用し,長い音声と書き起こしのpdfが与えられた音声セグメントに文をアライメントするとともに,ocr,外来テキスト,非書き起こし音声による誤りに頑健な文をアライメントする。 Shrutilipiは12の言語で6,400時間以上のラベル付き音声を含むデータセットで、総文数は4.95万である。 平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。 我々はShrutilipiの質を12言語で21人の評価者で確立した。 また,表現された地域,話者,名前付きエンティティの観点で,シュルチピの多様性を確立する。 特に,wav2vecモデルのトレーニングセットにshrutilipiを加えると,indicsuperbベンチマークで7言語で平均5.8\%のwerが低下することが示された。 最も高いベンチマーク(7)を持つヒンディー語では、平均werは18.8%から13.5%に低下する。 この改善は効率的なモデルにまで拡張され、コンフォーマーモデル(Wv2Vecの10倍小さい)のWERの2.3%の低下を示す。 最後に、Shrutilipiの多様性を、トレーニングしたモデルがノイズの多い入力よりも堅牢であることを示す。

End-to-end (E2E) models have become the default choice for state-of-the-art speech recognition systems. Such models are trained on large amounts of labelled data, which are often not available for low-resource languages. Techniques such as self-supervised learning and transfer learning hold promise, but have not yet been effective in training accurate models. On the other hand, collecting labelled datasets on a diverse set of domains and speakers is very expensive. In this work, we demonstrate an inexpensive and effective alternative to these approaches by ``mining'' text and audio pairs for Indian languages from public sources, specifically from the public archives of All India Radio. As a key component, we adapt the Needleman-Wunsch algorithm to align sentences with corresponding audio segments given a long audio and a PDF of its transcript, while being robust to errors due to OCR, extraneous text, and non-transcribed speech. We thus create Shrutilipi, a dataset which contains over 6,400 hours of labelled audio across 12 Indian languages totalling to 4.95M sentences. On average, Shrutilipi results in a 2.3x increase over publicly available labelled data. We establish the quality of Shrutilipi with 21 human evaluators across the 12 languages. We also establish the diversity of Shrutilipi in terms of represented regions, speakers, and mentioned named entities. Significantly, we show that adding Shrutilipi to the training set of Wav2Vec models leads to an average decrease in WER of 5.8\% for 7 languages on the IndicSUPERB benchmark. For Hindi, which has the most benchmarks (7), the average WER falls from 18.8% to 13.5%. This improvement extends to efficient models: We show a 2.3% drop in WER for a Conformer model (10x smaller than Wav2Vec). Finally, we demonstrate the diversity of Shrutilipi by showing that the model trained with it is more robust to noisy input.
翻訳日:2022-08-29 13:26:25 公開日:2022-08-26
# StyleGAN画像レイアウト編集のためのユーザ制御可能な潜時変換器

User-Controllable Latent Transformer for StyleGAN Image Layout Editing ( http://arxiv.org/abs/2208.12408v1 )

ライセンス: Link先を確認
Yuki Endo(参考訳) 潜時空間探索は、解釈可能な潜時方向を発見し、潜時符号を操作して、生成的敵ネットワーク(GAN)によって生成された画像の様々な属性を編集する技術である。 しかし、従来の研究では、空間制御は単純な変換(例えば、翻訳と回転)に限られており、適切な潜伏方向を特定し、パラメータを調整することは困難である。 本稿では,画像を直接アノテートすることで,StyleGAN画像レイアウトを編集する問題に取り組む。 そこで本研究では,ユーザ入力に応じて潜在コードを操作するための対話型フレームワークを提案する。 本フレームワークでは,ユーザが移動を希望する位置でStyleGAN画像に注釈を付け,マウスドラッグによる移動方向の指定を行う。 これらのユーザ入力と初期潜在コードから、トランスフォーマエンコーダ-デコーダアーキテクチャに基づく潜在トランスフォーマは、出力された潜在コードを推定し、スタイルガン生成器に供給して結果画像を得る。 潜伏変圧器の訓練には,市販のStyleGANと光学フローモデルから生成された合成データと擬似ユーザ入力を手動による監督なしに利用する。 定量的および定性的な評価は,既存手法に対する本手法の有効性を示す。

Latent space exploration is a technique that discovers interpretable latent directions and manipulates latent codes to edit various attributes in images generated by generative adversarial networks (GANs). However, in previous work, spatial control is limited to simple transformations (e.g., translation and rotation), and it is laborious to identify appropriate latent directions and adjust their parameters. In this paper, we tackle the problem of editing the StyleGAN image layout by annotating the image directly. To do so, we propose an interactive framework for manipulating latent codes in accordance with the user inputs. In our framework, the user annotates a StyleGAN image with locations they want to move or not and specifies a movement direction by mouse dragging. From these user inputs and initial latent codes, our latent transformer based on a transformer encoder-decoder architecture estimates the output latent codes, which are fed to the StyleGAN generator to obtain a result image. To train our latent transformer, we utilize synthetic data and pseudo-user inputs generated by off-the-shelf StyleGAN and optical flow models, without manual supervision. Quantitative and qualitative evaluations demonstrate the effectiveness of our method over existing methods.
翻訳日:2022-08-29 13:24:53 公開日:2022-08-26
# 組織像における核と腺のインスタンス分割--物語的考察

Nuclei & Glands Instance Segmentation in Histology Images: A Narrative Review ( http://arxiv.org/abs/2208.12460v1 )

ライセンス: Link先を確認
Esha Sadia Nasir, Arshi Perviaz, Muhammad Moazam Fraz(参考訳) 病理組織像における核と腺の分節化は、癌診断、治療計画、生存分析のための計算病理ワークフローの重要なステップである。 現代のハードウェアが登場し、最近の大規模な高品質な公開データセットが利用可能になり、コミュニティが大きな課題を組織したことにより、ドメイン固有の課題に焦点を当てた自動化メソッドが急増した。 本稿では,過去5年間(2017~2022年)に公表された,aiに基づく核と腺のインスタンス分割法を解説した126の論文を深く分析し,現在のアプローチの限界と課題について考察した。 さらに,今後の研究の方向性を示唆し,最先端手法の貢献をまとめる。 さらに、公開されているデータセットの一般化された要約と、各チャレンジに特有のトップパフォーマンスメソッドを示す大きな課題に関する詳細な洞察を提供する。 また, がんの診断, グレーディング, 予後, および治療計画を改善するために, 臨床実践で使用できる手法の開発に向けて, 既存の研究の現状と今後の方向性を, 読者に示すことを意図した。 私たちの知る限りでは、この方向に焦点を当てたヒストロジー画像のインスタンスセグメンテーションをレビューしたことはない。

Instance segmentation of nuclei and glands in the histology images is an important step in computational pathology workflow for cancer diagnosis, treatment planning and survival analysis. With the advent of modern hardware, the recent availability of large-scale quality public datasets and the community organized grand challenges have seen a surge in automated methods focusing on domain specific challenges, which is pivotal for technology advancements and clinical translation. In this survey, 126 papers illustrating the AI based methods for nuclei and glands instance segmentation published in the last five years (2017-2022) are deeply analyzed, the limitations of current approaches and the open challenges are discussed. Moreover, the potential future research direction is presented and the contribution of state-of-the-art methods is summarized. Further, a generalized summary of publicly available datasets and a detailed insights on the grand challenges illustrating the top performing methods specific to each challenge is also provided. Besides, we intended to give the reader current state of existing research and pointers to the future directions in developing methods that can be used in clinical practice enabling improved diagnosis, grading, prognosis, and treatment planning of cancer. To the best of our knowledge, no previous work has reviewed the instance segmentation in histology images focusing towards this direction.
翻訳日:2022-08-29 13:24:29 公開日:2022-08-26
# 部分的関連映像検索

Partially Relevant Video Retrieval ( http://arxiv.org/abs/2208.12510v1 )

ライセンス: Link先を確認
Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen, Xirong Li, Xun Wang(参考訳) 現在,MSVD,MSR-VTT,VATEXなどのビデオキャプション指向データセット上で,テキスト・ツー・ビデオ検索(T2VR)の訓練とテストが行われている。 これらのデータセットの重要な特性は、ビデオは短い期間で時間的に事前にトリミングされていると仮定され、字幕はビデオコンテンツの要点をうまく記述する。 したがって、与えられたペアのビデオとキャプションに対して、ビデオはキャプションに完全に関連しているはずである。 しかし、実際には、クエリがプリオリでないため、プリトリミングされたビデオクリップは、クエリを完全に満たすのに十分なコンテンツを含んでいない可能性がある。 これは、文学と現実世界の間のギャップを示唆する。 本稿では,このギャップを埋めるために,PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。 未トリミングビデオは、クエリに関連するモーメントを含む場合、あるテキストクエリに部分的に関係していると考えられる。 prvrは、そのような部分的な関連のあるビデオを大量の未検索ビデオから回収することを目指している。 prvrは単一のビデオモーメントの検索とビデオコーパスのモーメントの検索とは異なっている。 我々は,prvrをマルチインスタンス学習(mil)問題として定式化し,ビデオクリップの袋とビデオフレームの袋を同時に見る。 クリップとフレームは、異なる時間スケールでビデオコンテンツを表す。 PRVRのクリップスケールとフレームスケールの類似性を共同で学習するマルチスケール類似学習(MS-SL)ネットワークを提案する。 3つのデータセット(TVR、ActivityNet Captions、Charades-STA)に対する大規模な実験は、提案手法の生存可能性を示している。 また,本手法はビデオコーパスモーメント検索の改善にも有効であることを示す。

Current methods for text-to-video retrieval (T2VR) are trained and tested on video-captioning oriented datasets such as MSVD, MSR-VTT and VATEX. A key property of these datasets is that videos are assumed to be temporally pre-trimmed with short duration, whilst the provided captions well describe the gist of the video content. Consequently, for a given paired video and caption, the video is supposed to be fully relevant to the caption. In reality, however, as queries are not known a priori, pre-trimmed video clips may not contain sufficient content to fully meet the query. This suggests a gap between the literature and the real world. To fill the gap, we propose in this paper a novel T2VR subtask termed Partially Relevant Video Retrieval (PRVR). An untrimmed video is considered to be partially relevant w.r.t. a given textual query if it contains a moment relevant to the query. PRVR aims to retrieve such partially relevant videos from a large collection of untrimmed videos. PRVR differs from single video moment retrieval and video corpus moment retrieval, as the latter two are to retrieve moments rather than untrimmed videos. We formulate PRVR as a multiple instance learning (MIL) problem, where a video is simultaneously viewed as a bag of video clips and a bag of video frames. Clips and frames represent video content at different time scales. We propose a Multi-Scale Similarity Learning (MS-SL) network that jointly learns clip-scale and frame-scale similarities for PRVR. Extensive experiments on three datasets (TVR, ActivityNet Captions, and Charades-STA) demonstrate the viability of the proposed method. We also show that our method can be used for improving video corpus moment retrieval.
翻訳日:2022-08-29 13:24:07 公開日:2022-08-26
# ノイズロバスト学習による言語間クロスモーダル検索

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning ( http://arxiv.org/abs/2208.12526v1 )

ライセンス: Link先を確認
Yabing Wang, Jianfeng Dong, Tianxiang Liang, Minsong Zhang, Rui Cai, Xun Wang(参考訳) クロスモーダル検索の分野における最近の進歩にもかかわらず、手動でアノテートされたデータセットがないため、低リソース言語にフォーカスする研究は少ない。 本稿では,低リソース言語を対象とした雑音ロバスト言語間クロスモーダル検索手法を提案する。 この目的のために、低リソース言語のための擬似並列文ペアを構築するために、機械翻訳(MT)を用いる。 しかし、MTは完全ではないため、翻訳中にノイズを導入し、テキスト埋め込みを劣化させ、検索性能を損なう傾向にある。 これを軽減するために,マルチビュー自己蒸留法を導入し,類似性に基づく視点と特徴に基づく視点から直接の監視を行うために,クロスアテンションモジュールを用いたノイズロスターゲット言語表現を学習する。 さらに、教師なしMTのバックトランスレーションにインスパイアされ、原文と裏書き文のセマンティックな相違を最小化し、テキストエンコーダのノイズロバスト性をさらに向上させる。 ビデオテキストと画像テキストのクロスモーダル検索ベンチマークを3つの異なる言語で実施し, 提案手法は, 追加の人間ラベルデータを用いることなく全体の性能を著しく向上することを示した。 さらに,最新のビジョン・アンド・ランゲージ事前学習フレームワークであるCLIPから,事前学習したビジュアルエンコーダを組み込むことにより,本手法が一般的な事前学習モデルと互換性を持つことを示す。 コードとデータはhttps://github.com/huiguanlab/nrccrで入手できる。

Despite the recent developments in the field of cross-modal retrieval, there has been less research focusing on low-resource languages due to the lack of manually annotated datasets. In this paper, we propose a noise-robust cross-lingual cross-modal retrieval method for low-resource languages. To this end, we use Machine Translation (MT) to construct pseudo-parallel sentence pairs for low-resource languages. However, as MT is not perfect, it tends to introduce noise during translation, rendering textual embeddings corrupted and thereby compromising the retrieval performance. To alleviate this, we introduce a multi-view self-distillation method to learn noise-robust target-language representations, which employs a cross-attention module to generate soft pseudo-targets to provide direct supervision from the similarity-based view and feature-based view. Besides, inspired by the back-translation in unsupervised MT, we minimize the semantic discrepancies between origin sentences and back-translated sentences to further improve the noise robustness of the textual encoder. Extensive experiments are conducted on three video-text and image-text cross-modal retrieval benchmarks across different languages, and the results demonstrate that our method significantly improves the overall performance without using extra human-labeled data. In addition, equipped with a pre-trained visual encoder from a recent vision-and-language pre-training framework, i.e., CLIP, our model achieves a significant performance gain, showing that our method is compatible with popular pre-training models. Code and data are available at https://github.com/HuiGuanLab/nrccr.
翻訳日:2022-08-29 13:23:37 公開日:2022-08-26
# 属性依存型3次元顔生成のための学習・調整型ニューラルラジアンスフィールド

Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation ( http://arxiv.org/abs/2208.12550v1 )

ライセンス: Link先を確認
Jichao Zhang, Aliaksandr Siarohin, Yahui Liu, Hao Tang, Nicu Sebe, Wei Wang(参考訳) 生成神経放射場(GNeRF)に基づく3次元認識型GANは,強い3次元一貫性を維持しつつ,優れた高画質画像生成を実現している。 最も重要な成果は、face generationドメインにある。 しかしながら、これらのモデルのほとんどはビューの一貫性を改善することに重点を置いているが、絡み合う側面を無視しているため、これらのモデルは生成に対する高品質なセマンティック/属性制御を提供することはできない。 そこで,本稿では,特定の属性ラベルを入力として使用する条件付きgnerfモデルを導入することで,3d認識生成モデルの制御能力と分離能力を向上させる。 事前学習した3D認識モデルをベースとして,属性ラベルを利用して生成制御を行うデュアルブランチ属性編集モジュール(DAEM)を統合する。 さらに,潜在ベクトルを最適化し,属性編集の精度を向上させるためのtriot(training as init, and optimization for tuning)法を提案する。 ffhqを用いた広範囲な実験により,非目標領域を維持しつつ,高品質な編集が可能となった。 コードはhttps://github.com/zhangqianhui/TT-GNeRFで公開されている。

3D-aware GANs based on generative neural radiance fields (GNeRF) have achieved impressive high-quality image generation, while preserving strong 3D consistency. The most notable achievements are made in the face generation domain. However, most of these models focus on improving view consistency but neglect a disentanglement aspect, thus these models cannot provide high-quality semantic/attribute control over generation. To this end, we introduce a conditional GNeRF model that uses specific attribute labels as input in order to improve the controllabilities and disentangling abilities of 3D-aware generative models. We utilize the pre-trained 3D-aware model as the basis and integrate a dual-branches attribute-editing module (DAEM), that utilize attribute labels to provide control over generation. Moreover, we propose a TRIOT (TRaining as Init, and Optimizing for Tuning) method to optimize the latent vector to improve the precision of the attribute-editing further. Extensive experiments on the widely used FFHQ show that our model yields high-quality editing with better view consistency while preserving the non-target regions. The code is available at https://github.com/zhangqianhui/TT-GNeRF.
翻訳日:2022-08-29 13:23:11 公開日:2022-08-26
# 部分的ラベル学習のためのメタ客観指導型曖昧さ解消

Meta Objective Guided Disambiguation for Partial Label Learning ( http://arxiv.org/abs/2208.12459v1 )

ライセンス: Link先を確認
Bo-Shi Zou, Ming-Kun Xie, Sheng-Jun Huang(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習フレームワークであり、各トレーニングインスタンスは候補ラベルセットに関連付けられ、1つのラベルのみが有効である。 PLL問題を解決するには、訓練データの構造情報や自己学習方式でモデル出力を精査するといった事前知識を用いて、候補集合の曖昧さを解こうとする手法が一般的である。 残念なことに、これらの手法は、モデルトレーニングの初期段階において、事前情報や信頼できない予測が欠如しているため、望ましい性能を得ることができないことが多い。 本稿では,小さな検証セット上でのメタ目的を解いて,候補ラベルから基底ラベルを回収することを目的とした,メタ目的導出不曖昧化(mogd)を用いた部分ラベル学習のための新しい枠組みを提案する。 具体的には、偽陽性ラベルの悪影響を軽減するため、バリデーションセットのメタ損失に基づいて各候補ラベルを再強調する。 そして、重み付きクロスエントロピー損失を最小化して分類器を訓練する。 提案手法は,通常のsgdオプティマイザを用いた各種深層ネットワークを用いて容易に実装できる。 理論的には,メタ目的の収束特性を証明し,提案手法の推定誤差境界を導出する。 様々なベンチマークデータセットと実世界のPLLデータセットに対する大規模な実験により、提案手法は最先端の手法と比較して有能な性能が得られることを示した。

Partial label learning (PLL) is a typical weakly supervised learning framework, where each training instance is associated with a candidate label set, among which only one label is valid. To solve PLL problems, typically methods try to perform disambiguation for candidate sets by either using prior knowledge, such as structure information of training data, or refining model outputs in a self-training manner. Unfortunately, these methods often fail to obtain a favorable performance due to the lack of prior information or unreliable predictions in the early stage of model training. In this paper, we propose a novel framework for partial label learning with meta objective guided disambiguation (MoGD), which aims to recover the ground-truth label from candidate labels set by solving a meta objective on a small validation set. Specifically, to alleviate the negative impact of false positive labels, we re-weight each candidate label based on the meta loss on the validation set. Then, the classifier is trained by minimizing the weighted cross entropy loss. The proposed method can be easily implemented by using various deep networks with the ordinary SGD optimizer. Theoretically, we prove the convergence property of meta objective and derive the estimation error bounds of the proposed method. Extensive experiments on various benchmark datasets and real-world PLL datasets demonstrate that the proposed method can achieve competent performance when compared with the state-of-the-art methods.
翻訳日:2022-08-29 13:20:01 公開日:2022-08-26
# 不均質な車両ネットワークのための強化学習の一手法

An approach to implement Reinforcement Learning for Heterogeneous Vehicular Networks ( http://arxiv.org/abs/2208.12466v1 )

ライセンス: Link先を確認
Bhavya Peshavaria, Sagar Kavaiya, Dhaval K. Patel(参考訳) 本稿では,マルチエージェント強化学習に基づくHetVNET(Heterogeneous Vehicular Network)に向けた車両ネットワークにおけるスペクトル共有の考え方の拡張について述べる。 ここでは、複数車両間(V2V)リンクは、他の車両間(V2I)および他のネットワークのスペクトルを再利用する。 車両網の高速交換環境はcsiの集中化とチャネルの割り当てを制限している。 したがって、mlベースのメソッドを実装するというアイデアは、すべての車両で分散的に実装できるように使用される。 ここでは、各オンボードユニット(OBU)がチャネル内の信号を検知し、その情報に基づいてRLを実行し、どのチャネルを自律的に取り上げるかを決定する。 ここで、各V2VリンクはMARLのエージェントとなる。 その考え方は、RLモデルを、これらのエージェントが競争するよりも協力するように訓練することにある。

This paper presents the extension of the idea of spectrum sharing in the vehicular networks towards the Heterogeneous Vehicular Network(HetVNET) based on multi-agent reinforcement learning. Here, the multiple vehicle-to-vehicle(V2V) links reuse the spectrum of other vehicle-to-interface(V2I) and also those of other networks. The fast-changing environment in vehicular networks limits the idea of centralizing the CSI and allocate the channels. So, the idea of implementing ML-based methods is used here so that it can be implemented in a distributed manner in all vehicles. Here each On-Board Unit(OBU) can sense the signals in the channel and based on that information runs the RL to decide which channel to autonomously take up. Here, each V2V link will be an agent in MARL. The idea is to train the RL model in such a way that these agents will collaborate rather than compete.
翻訳日:2022-08-29 13:19:39 公開日:2022-08-26
# 難易度とロバスト性の改善 : 逆行訓練におけるブレグマンの多様性

Lower Difficulty and Better Robustness: A Bregman Divergence Perspective for Adversarial Training ( http://arxiv.org/abs/2208.12511v1 )

ライセンス: Link先を確認
Zihui Wu, Haichang Gao, Bingqian Zhou, Xiaoyan Guo, Shudong Zhang(参考訳) 本稿では,最適化の難易度を低減し,adversarial training (at) で得られる対向ロバスト性の向上について検討する。 この問題をよりよく研究するために,我々は,AT を負のエントロピー曲線上のトレーニングデータのスライディング過程と見なすことのできる,新しい Bregman divergence perspective を構築した。 この観点から, PGD-AT と TRADES という2つの典型的なAT手法の学習目標を解析した結果, TRADES の最適化プロセスは PGD-AT よりも容易であることが判明した。 さらに,TRADESにおけるエントロピーの関数について考察し,高いエントロピーを持つモデルの方が頑健さを学習できることを示した。 上記の知見に触発されて,10段階のpgd攻撃下での最適化の困難さを低減できるだけでなく,堅牢性も向上できるfaitとmerの2つの手法を提案する。 提案手法は,10ステップのPGD敵の下での最適化の困難さを低減させることが,ATにおける敵の堅牢性を高めるための有望なアプローチであることを示す。

In this paper, we investigate on improving the adversarial robustness obtained in adversarial training (AT) via reducing the difficulty of optimization. To better study this problem, we build a novel Bregman divergence perspective for AT, in which AT can be viewed as the sliding process of the training data points on the negative entropy curve. Based on this perspective, we analyze the learning objectives of two typical AT methods, i.e., PGD-AT and TRADES, and we find that the optimization process of TRADES is easier than PGD-AT for that TRADES separates PGD-AT. In addition, we discuss the function of entropy in TRADES, and we find that models with high entropy can be better robustness learners. Inspired by the above findings, we propose two methods, i.e., FAIT and MER, which can both not only reduce the difficulty of optimization under the 10-step PGD adversaries, but also provide better robustness. Our work suggests that reducing the difficulty of optimization under the 10-step PGD adversaries is a promising approach for enhancing the adversarial robustness in AT.
翻訳日:2022-08-29 13:19:25 公開日:2022-08-26
# 強化学習における視覚処理

Visual processing in context of reinforcement learning ( http://arxiv.org/abs/2208.12525v1 )

ライセンス: Link先を確認
Hlynur Dav\'i{\dh} Hlynsson(参考訳) 深層強化学習(RL)は近年多くの成功をおさめたが、その手法はまだデータ非効率であり、データの観点からは高額な多くの問題を解くことができる。 我々は,無ラベルデータにリッチ・スーパーバイザリー・シグナルを活用し,状態表現を学習することでこの問題を解決しようとする。 この論文は、従来のrlアルゴリズムが使用するデータソースの異なるサブセットにアクセスする3つの異なる表現学習アルゴリズムを導入している。 (i)GRICAは、独立成分分析(ICA)にインスパイアされ、深層ニューラルネットワークを訓練して、入力の統計的に独立した特徴を出力する。 GrICAは、各特徴と他の特徴との間の相互情報を最小化する。 さらに、gricaは環境状態の無分類コレクションのみを必要とする。 (ii)潜在表現予測(larp)は、入力として状態を要求することに加えて、前の状態とそれらを接続するアクションも必要とします。 この方法は、現在の状態とアクションが与えられた環境の次の状態の表現を予測して状態表現を学習する。 予測子はグラフ探索アルゴリズムで使用される。 3)RewPredは、深いニューラルネットワークを訓練して状態表現を学び、報酬関数のスムーズなバージョンを学ぶ。 この表現は入力を深いRLに前処理するために使用され、報酬予測器は報酬形成に使用される。 この方法は、表現を学ぶための環境からの状態逆対のみを必要とする。 我々は,どの手法にも強みと弱みがあることを発見し,rl問題解決パイプラインにおける教師なし表現学習を含め,学習を高速化できる実験から結論づける。

Although deep reinforcement learning (RL) has recently enjoyed many successes, its methods are still data inefficient, which makes solving numerous problems prohibitively expensive in terms of data. We aim to remedy this by taking advantage of the rich supervisory signal in unlabeled data for learning state representations. This thesis introduces three different representation learning algorithms that have access to different subsets of the data sources that traditional RL algorithms use: (i) GRICA is inspired by independent component analysis (ICA) and trains a deep neural network to output statistically independent features of the input. GrICA does so by minimizing the mutual information between each feature and the other features. Additionally, GrICA only requires an unsorted collection of environment states. (ii) Latent Representation Prediction (LARP) requires more context: in addition to requiring a state as an input, it also needs the previous state and an action that connects them. This method learns state representations by predicting the representation of the environment's next state given a current state and action. The predictor is used with a graph search algorithm. (iii) RewPred learns a state representation by training a deep neural network to learn a smoothed version of the reward function. The representation is used for preprocessing inputs to deep RL, while the reward predictor is used for reward shaping. This method needs only state-reward pairs from the environment for learning the representation. We discover that every method has their strengths and weaknesses, and conclude from our experiments that including unsupervised representation learning in RL problem-solving pipelines can speed up learning.
翻訳日:2022-08-29 13:19:02 公開日:2022-08-26
# PDD-SHAP:関数分解を用いた共有値の高速近似

PDD-SHAP: Fast Approximations for Shapley Values using Functional Decomposition ( http://arxiv.org/abs/2208.12595v1 )

ライセンス: Link先を確認
Arne Gevaert, Yvan Saeys(参考訳) その強い理論的性質から、ブラックボックスモデルによる予測を説明する手段としてシェープリー値が非常に人気がある。 残念なことに、Shapley値を計算するための既存の技術のほとんどは計算に非常に高価である。 我々は,ANOVAに基づく関数分解モデルを用いて説明するブラックボックスモデルを近似するアルゴリズムであるPDD-SHAPを提案する。 これにより、大規模なデータセットの既存手法よりも桁違いに高速なShapley値の計算が可能になり、多くの予測が必要な場合のShapley値の補正コストを大幅に削減できる。

Because of their strong theoretical properties, Shapley values have become very popular as a way to explain predictions made by black box models. Unfortuately, most existing techniques to compute Shapley values are computationally very expensive. We propose PDD-SHAP, an algorithm that uses an ANOVA-based functional decomposition model to approximate the black-box model being explained. This allows us to calculate Shapley values orders of magnitude faster than existing methods for large datasets, significantly reducing the amortized cost of computing Shapley values when many predictions need to be explained.
翻訳日:2022-08-29 13:18:36 公開日:2022-08-26
# 深層学習手法との比較による収量推定のための極勾配ブースティング

Extreme Gradient Boosting for Yield Estimation compared with Deep Learning Approaches ( http://arxiv.org/abs/2208.12633v1 )

ライセンス: Link先を確認
Florian Huber, Artem Yushchenko, Benedikt Stratmann, Volker Steinhage(参考訳) 収穫前の収穫量の正確な予測は、世界中の作物の物流、市場計画、食料流通において非常に重要である。 収量予測は、作物開発に関わる複雑な関係をモデル化するために、長期にわたる現象学的および気候学的特性のモニタリングを必要とする。 世界中の様々な衛星から提供されるリモートセンシング衛星画像は、収量予測のためのデータを得るための安価で信頼性の高い方法である。 現在、収量予測の分野はディープラーニングのアプローチで占められている。 これらのアプローチで到達した精度は有望であるが、必要な量のデータと 'black-box'' の性質はディープラーニングメソッドの適用を制限することができる。 この制限は、リモートセンシング画像を特徴ベースの表現に処理するためのパイプラインを提案して、収率予測にExtreme Gradient Boosting(XGBoost)を使用できることで克服できる。 米国におけるダイズ収量予測の比較評価は,Deep Learningに基づく最先端の収量予測システムと比較して有望な予測精度を示している。 特徴的重要性は、我々のモデルにおける重要な特徴として、近赤外光スペクトルを露呈する。 報告された結果は、XGBoostの収量予測能力と、世界中の他の作物の収量予測のためのXGBoostによる将来の実験の促進を示唆している。

Accurate prediction of crop yield before harvest is of great importance for crop logistics, market planning, and food distribution around the world. Yield prediction requires monitoring of phenological and climatic characteristics over extended time periods to model the complex relations involved in crop development. Remote sensing satellite images provided by various satellites circumnavigating the world are a cheap and reliable way to obtain data for yield prediction. The field of yield prediction is currently dominated by Deep Learning approaches. While the accuracies reached with those approaches are promising, the needed amounts of data and the ``black-box'' nature can restrict the application of Deep Learning methods. The limitations can be overcome by proposing a pipeline to process remote sensing images into feature-based representations that allow the employment of Extreme Gradient Boosting (XGBoost) for yield prediction. A comparative evaluation of soybean yield prediction within the United States shows promising prediction accuracies compared to state-of-the-art yield prediction systems based on Deep Learning. Feature importances expose the near-infrared spectrum of light as an important feature within our models. The reported results hint at the capabilities of XGBoost for yield prediction and encourage future experiments with XGBoost for yield prediction on other crops in regions all around the world.
翻訳日:2022-08-29 13:18:27 公開日:2022-08-26
# automlシステム評価のためのタスク選択

Task Selection for AutoML System Evaluation ( http://arxiv.org/abs/2208.12754v1 )

ライセンス: Link先を確認
Jonathan Lorraine and Nihesh Anderson and Chansoo Lee and Quentin De Laroussilhe and Mehadi Hassen(参考訳) 私たちの目標は、AutoMLシステムの変更、すなわち検索スペースやハイパーパラメータ最適化が、運用タスクにおける最終モデルのパフォーマンスを改善するかどうかを評価することです。 しかし、本番のタスクで変更をテストすることはできません。 代わりに、AutoMLシステムが以前実行したタスクに関する限定的な記述子、例えばデータポイントの数や機能へのアクセスしかできません。 また、変更をテストするための開発タスクも用意しています。 使用制限のないOpenMLからサンプルしたものだ。 しかし、開発と生産のタスクの分布は異なり、開発だけを改善し、生産しない変更を追求します。 本稿では,最も関連する開発タスクのフィルタ付きサブセットを選択するために,automl生産タスクのディスクリプタ情報を活用する手法を提案する。 実験の結果,提案手法は,開発時とは異なる分布を持つホールドアウトタスクにおけるautomlシステム変化を評価する能力を向上させることがわかった。

Our goal is to assess if AutoML system changes - i.e., to the search space or hyperparameter optimization - will improve the final model's performance on production tasks. However, we cannot test the changes on production tasks. Instead, we only have access to limited descriptors about tasks that our AutoML system previously executed, like the number of data points or features. We also have a set of development tasks to test changes, ex., sampled from OpenML with no usage constraints. However, the development and production task distributions are different leading us to pursue changes that only improve development and not production. This paper proposes a method to leverage descriptor information about AutoML production tasks to select a filtered subset of the most relevant development tasks. Empirical studies show that our filtering strategy improves the ability to assess AutoML system changes on holdout tasks with different distributions than development.
翻訳日:2022-08-29 13:18:07 公開日:2022-08-26
# ジエンタングルとリマージ : 条件付き因果的視点による数発物体検出のための介入的知識蒸留

Disentangle and Remerge: Interventional Knowledge Distillation for Few-Shot Object Detection from A Conditional Causal Perspective ( http://arxiv.org/abs/2208.12681v1 )

ライセンス: Link先を確認
Jiangmeng Li, Yanan Zhang, Wenwen Qiang, Lingyu Si, Chengbo Jiao, Xiaohui Hu, Changwen Zheng, Fuchun Sun(参考訳) このような学習パラダイムは,画像分類やオブジェクト検出など,さまざまなタスクにおける実用性を示すものだ。 しかし、少数ショットオブジェクト検出法は、限られた訓練データによって意味情報を十分に探索できないという本質的な欠陥に悩まされている。 そこで本研究では, 少量の物体検出学習パラダイムに知識蒸留を導入する。 さらに, 知識蒸留の過程では, 教師モデルの経験的誤差が, 生徒として, 極小物体検出モデルの予測性能を低下させることを示すモチベーション実験を行った。 この現象の背景にある理由を理解するために, 因果論的観点から, 少数点物体検出タスクにおける知識蒸留の学習パラダイムを再考し, 構造的因果モデルを構築する。 理論的ガイダンスに従って,本論文では,D&R(Disentangle and Remerge)と呼ばれる少数ショットオブジェクト検出タスクに対するバックドア調整に基づく知識蒸留手法を提案し,対応する構造因果モデルに対する条件付き因果介入を行う。 理論的には、バックドア基準に対する一般的なバックドアパスという定義を拡張し、特定のケースにおいてバックドア基準の理論的適用境界を拡張することができる。 実験的に、複数のベンチマークデータセットの実験は、D&Rが数発のオブジェクト検出において大きなパフォーマンス向上をもたらすことを示した。

Few-shot learning models learn representations with limited human annotations, and such a learning paradigm demonstrates practicability in various tasks, e.g., image classification, object detection, etc. However, few-shot object detection methods suffer from an intrinsic defect that the limited training data makes the model cannot sufficiently explore semantic information. To tackle this, we introduce knowledge distillation to the few-shot object detection learning paradigm. We further run a motivating experiment, which demonstrates that in the process of knowledge distillation the empirical error of the teacher model degenerates the prediction performance of the few-shot object detection model, as the student. To understand the reasons behind this phenomenon, we revisit the learning paradigm of knowledge distillation on the few-shot object detection task from the causal theoretic standpoint, and accordingly, develop a Structural Causal Model. Following the theoretical guidance, we propose a backdoor adjustment-based knowledge distillation method for the few-shot object detection task, namely Disentangle and Remerge (D&R), to perform conditional causal intervention toward the corresponding Structural Causal Model. Theoretically, we provide an extended definition, i.e., general backdoor path, for the backdoor criterion, which can expand the theoretical application boundary of the backdoor criterion in specific cases. Empirically, the experiments on multiple benchmark datasets demonstrate that D&R can yield significant performance boosts in few-shot object detection.
翻訳日:2022-08-29 13:14:33 公開日:2022-08-26
# コンピュータビジョンのためのハードウェア・アウェア・モバイルビルディングブロック評価

Hardware-aware mobile building block evaluation for computer vision ( http://arxiv.org/abs/2208.12694v1 )

ライセンス: Link先を確認
Maxim Bonnaerens, Matthias Freiberger, Marian Verhelst, Joni Dambre(参考訳) 本研究では,ハードウェアを意識したコンピュータビジョンのための効率的なニューラルネットワーク構築ブロックの性能を正確に評価し,比較する手法を提案する。 本比較では,設計空間からランダムにサンプリングされたネットワークに基づくパレートフロントを用いて,精度・複雑さのトレードオフを捉える。 提案手法は,従来の比較パラダイムで得られた情報と一致するが,ハードウェアコストと精度の関係についてより深い知見を提供する。 我々はこの手法を用いて様々なビルディングブロックを分析し,その性能を各種組込みハードウェアプラットフォームで評価する。 これは、ニューラルネットワークの設計プロセスにおける事前選択ステップとしてビルディングブロックをベンチマークすることの重要性を強調している。 適切なビルディングブロックを選択すると、特定のハードウェアMLアクセラレーターで最大2倍の速度で推論を高速化できることを示す。

In this work we propose a methodology to accurately evaluate and compare the performance of efficient neural network building blocks for computer vision in a hardware-aware manner. Our comparison uses pareto fronts based on randomly sampled networks from a design space to capture the underlying accuracy/complexity trade-offs. We show that our approach allows to match the information obtained by previous comparison paradigms, but provides more insights in the relationship between hardware cost and accuracy. We use our methodology to analyze different building blocks and evaluate their performance on a range of embedded hardware platforms. This highlights the importance of benchmarking building blocks as a preselection step in the design process of a neural network. We show that choosing the right building block can speed up inference by up to a factor of 2x on specific hardware ML accelerators.
翻訳日:2022-08-29 13:14:09 公開日:2022-08-26
# voxurf:voxelベースの効率的かつ正確な神経表面再構成

Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2208.12697v1 )

ライセンス: Link先を確認
Tong Wu, Jiaqi Wang, Xingang Pan, Xudong Xu, Ziwei Liu, Dahua Lin(参考訳) 神経表面再構成は、多視点画像に基づく正確な3次元表面の再構築を目的としている。 ニューラルボリュームレンダリングに基づく従来の方法は、主に完全に暗黙のモデルをトレーニングし、1つのシーンで何時間もトレーニングする必要がある。 最近の研究は、学習可能なボクセルグリッドにおける重要な情報を記憶することで最適化プロセスを大幅に加速する明示的な体積表現を探求している。 しかしながら、これらのボクセルに基づく手法は、しばしば細かい幾何学の再構築に苦労する。 実験の結果,高品質な表面再構成は,コヒーレント形状の構築能力と色・幾何学依存性の正確なモデリングの2つの重要な要因にかかっていることがわかった。 特に後者は細部の正確な復元の鍵である。 これらの知見にインスパイアされたVoxurfは,2段階からなる,効率的かつ正確な神経表面再構成のためのボクセルベースアプローチである。 1)学習可能な特徴格子を利用して色場を構築し、コヒーレントな粗い形状を得る。 2) 精密な色-幾何依存性を捉えるデュアルカラーネットワークで詳細な幾何を精査する。 さらに,voxel間の情報共有を可能にする階層幾何機能についても紹介する。 実験の結果,Voxurfは高い効率と高い品質を同時に達成できることがわかった。 dtuベンチマークでは、voxurfは最新技術よりも高いコンストラクション品質を実現し、トレーニングの20倍のスピードアップを実現している。

Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model, and they require hours of training for a single scene. Recent efforts explore the explicit volumetric representation, which substantially accelerates the optimization process by memorizing significant information in learnable voxel grids. However, these voxel-based methods often struggle in reconstructing fine-grained geometry. Through empirical studies, we found that high-quality surface reconstruction hinges on two key factors: the capability of constructing a coherent shape and the precise modeling of color-geometry dependency. In particular, the latter is the key to the accurate reconstruction of fine details. Inspired by these findings, we develop Voxurf, a voxel-based approach for efficient and accurate neural surface reconstruction, which consists of two stages: 1) leverage a learnable feature grid to construct the color field and obtain a coherent coarse shape, and 2) refine detailed geometry with a dual color network that captures precise color-geometry dependency. We further introduce a hierarchical geometry feature to enable information sharing across voxels. Our experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality compared to state-of-the-art methods, with 20x speedup in training.
翻訳日:2022-08-29 13:13:57 公開日:2022-08-26
# 原位置MRI画像からの多モード脳腫瘍切片の学習 : カリキュラム・ディアングルメント・ラーニングによる検討

Learning Multi-Modal Brain Tumor Segmentation from Privileged Semi-Paired MRI Images with Curriculum Disentanglement Learning ( http://arxiv.org/abs/2208.12781v1 )

ライセンス: Link先を確認
Zecheng Liu and Jia Wei and Rui Li(参考訳) 臨床におけるマルチモーダルペア画像の獲得が困難であるため,近年の研究では,非ペア画像を用いた脳腫瘍分割モデルの訓練と,モダリティ翻訳による補完的情報収集が提案されている。 しかし、これらのモデルは異なるモダリティから補完情報を完全に活用することはできない。 そこで本研究では,脳腫瘍の分節化のために,トレーニング時にのみ利用できる限定的な半ペア画像(半ペア画像)を効果的に活用するための,新たな2段階のカリキュラム・アンタングルメント学習フレームワークを提案する。 具体的には,まず,モダリティ内スタイル整合画像の拡張による再構成とセグメンテーションを行う。 第2のステップでは、モデルは、未ペア画像とペア画像の両方の再構成、教師なし/教師なし翻訳、セグメンテーションを共同で行う。 本ステップでは,異なるモダリティからの補完的情報を活用するために,コンテンツ一貫性の損失と教師付き翻訳損失を提案する。 この2つのステップを通じて、組織の特徴と画像コントラストの減衰を記述するモダリティ固有のスタイルコードと、入力画像から解剖学的および機能的情報を含むモダリティ不変コンテンツコードとを効果的に抽出する。 3つの脳腫瘍セグメンテーションタスクの実験により、このモデルが非ペア画像に基づく競合セグメンテーションモデルよりも優れていることが示された。

Due to the difficulties of obtaining multimodal paired images in clinical practice, recent studies propose to train brain tumor segmentation models with unpaired images and capture complementary information through modality translation. However, these models cannot fully exploit the complementary information from different modalities. In this work, we thus present a novel two-step (intra-modality and inter-modality) curriculum disentanglement learning framework to effectively utilize privileged semi-paired images, i.e. limited paired images that are only available in training, for brain tumor segmentation. Specifically, in the first step, we propose to conduct reconstruction and segmentation with augmented intra-modality style-consistent images. In the second step, the model jointly performs reconstruction, unsupervised/supervised translation, and segmentation for both unpaired and paired inter-modality images. A content consistency loss and a supervised translation loss are proposed to leverage complementary information from different modalities in this step. Through these two steps, our method effectively extracts modality-specific style codes describing the attenuation of tissue features and image contrast, and modality-invariant content codes containing anatomical and functional information from the input images. Experiments on three brain tumor segmentation tasks show that our model outperforms competing segmentation models based on unpaired images.
翻訳日:2022-08-29 13:13:34 公開日:2022-08-26
# VMFormer: Transformerを使ったエンドツーエンドのビデオマッチング

VMFormer: End-to-End Video Matting with Transformer ( http://arxiv.org/abs/2208.12801v1 )

ライセンス: Link先を確認
Jiachen Li, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Yunchao Wei and Humphrey Shi(参考訳) ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。 ビデオマッチングの最近のソリューションは、過去数年間、深層畳み込みニューラルネットワーク(CNN)によって支配されており、学術と産業の両方においてデファクトスタンダードになっている。 しかし、局所性の帰納バイアスが組み込まれており、CNNアーキテクチャによる画像のグローバルな特徴を捉えていない。 また、複数のフレームの特徴マップを扱う場合の計算コストを考慮した長期時間モデルも欠如している。 本稿では,ビデオマッチングのためのトランスフォーマーに基づくエンドツーエンド手法であるVMFormerを提案する。 ビデオ入力シーケンスから学習可能なクエリから各フレームのアルファマット上での予測を行う。 具体的には、セルフアテンション層を利用して、連続するフレーム上で短距離の時間的モデリングを伴う機能シーケンスのグローバル統合を構築する。 さらに,全ての問合せに対する長距離時間モデルを用いたトランスデコーダにおけるクロスアテンションによるグローバル表現の学習にクエリを適用する。 予測段階では、クエリと対応する機能マップの両方を使用して、アルファマットの最終予測を行う。 実験の結果、VMFormerはCNNベースのビデオ・マッティング法よりも優れていることがわかった。 私たちの知る限りでは、これは学習可能なクエリの予測を備えたフルビジョントランスフォーマー上に構築された、最初のエンドツーエンドビデオマットリングソリューションです。 プロジェクトはhttps://chrisjuniorli.github.io/project/VMFormer/でオープンソース化されている。

Video matting aims to predict the alpha mattes for each frame from a given input video sequence. Recent solutions to video matting have been dominated by deep convolutional neural networks (CNN) for the past few years, which have become the de-facto standard for both academia and industry. However, they have inbuilt inductive bias of locality and do not capture global characteristics of an image due to the CNN-based architectures. They also lack long-range temporal modeling considering computational costs when dealing with feature maps of multiple frames. In this paper, we propose VMFormer: a transformer-based end-to-end method for video matting. It makes predictions on alpha mattes of each frame from learnable queries given a video input sequence. Specifically, it leverages self-attention layers to build global integration of feature sequences with short-range temporal modeling on successive frames. We further apply queries to learn global representations through cross-attention in the transformer decoder with long-range temporal modeling upon all queries. In the prediction stage, both queries and corresponding feature maps are used to make the final prediction of alpha matte. Experiments show that VMFormer outperforms previous CNN-based video matting methods on the composited benchmarks. To our best knowledge, it is the first end-to-end video matting solution built upon a full vision transformer with predictions on the learnable queries. The project is open-sourced at https://chrisjuniorli.github.io/project/VMFormer/
翻訳日:2022-08-29 13:13:10 公開日:2022-08-26
# Augmented Graph Self-Trainingによるラベル付きノードの学習

Learning with Few Labeled Nodes via Augmented Graph Self-Training ( http://arxiv.org/abs/2208.12422v1 )

ライセンス: Link先を確認
Kaize Ding, Elnaz Nouri, Guoqing Zheng, Huan Liu and Ryen White(参考訳) グラフニューラルネットワーク(GNN)の成功は、人間が注釈付けした豊富なデータに大きく依存していることはよく知られている。 ラベル付きノードが少ない場合、高効率なGNNの開発方法はまだ検討されていない。 Though self-training has been shown to be powerful for semi-supervised learning, its application on graph-structured data may fail because (1) larger receptive fields are not leveraged to capture long-range node interactions, which exacerbates the difficulty of propagating feature-label patterns from labeled nodes to unlabeled nodes; and (2) limited labeled data makes it challenging to learn well-separated decision boundaries for different node classes without explicitly capturing the underlying semantic structure. 本稿では,GSTバックボーン上に2つの新しい(構造的および意味的)拡張モジュールを組み込んだ新しいグラフデータ拡張フレームワークAGST(Augmented Graph Self-Training)を提案する。 本研究では,このフレームワークが極めて限定されたラベル付きノードを用いて,効果的なグラフ予測モデルを学ぶことができるか検討する。 制限されたラベル付きノードデータの異なるシナリオで,半教師付きノード分類の包括的評価を行う。 実験結果は,ラベル付きデータが少ないノード分類のための新しいデータ拡張フレームワークのユニークな貢献を示す。

It is well known that the success of graph neural networks (GNNs) highly relies on abundant human-annotated data, which is laborious to obtain and not always available in practice. When only few labeled nodes are available, how to develop highly effective GNNs remains understudied. Though self-training has been shown to be powerful for semi-supervised learning, its application on graph-structured data may fail because (1) larger receptive fields are not leveraged to capture long-range node interactions, which exacerbates the difficulty of propagating feature-label patterns from labeled nodes to unlabeled nodes; and (2) limited labeled data makes it challenging to learn well-separated decision boundaries for different node classes without explicitly capturing the underlying semantic structure. To address the challenges of capturing informative structural and semantic knowledge, we propose a new graph data augmentation framework, AGST (Augmented Graph Self-Training), which is built with two new (i.e., structural and semantic) augmentation modules on top of a decoupled GST backbone. In this work, we investigate whether this novel framework can learn an effective graph predictive model with extremely limited labeled nodes. We conduct comprehensive evaluations on semi-supervised node classification under different scenarios of limited labeled-node data. The experimental results demonstrate the unique contributions of the novel data augmentation framework for node classification with few labeled data.
翻訳日:2022-08-29 13:12:29 公開日:2022-08-26
# 階層型強化学習による自動不均衡学習

Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2208.12433v1 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Qiaoyu Tan, Sirui Ding, Na Zou, Xia Hu(参考訳) 不均衡な学習はデータマイニングにおいて基本的な課題であり、各クラスでトレーニングサンプルの比率が不釣り合いである。 オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。 多くのオーバーサンプリングアルゴリズムが提案されているが、それらはヒューリスティックに大きく依存しており、異なるデータセットとベース分類器の異なるサンプリング戦略を必要とする可能性があるため、性能指標を直接最適化することはできない。 そこで本研究では,大規模かつ階層的な決定空間のため,分類性能を最適化する学習に基づくオーバーサンプリングアルゴリズムの開発について検討する。 高いレベルでは、生成する合成サンプルの数を決定する必要があります。 低レベルでは、合成試料の位置を決定する必要があるが、サンプルの最適な位置はサンプルの数によって異なる可能性があるため、高レベルな決定に依存する。 これらの課題に対処するために、さまざまなレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。 SMOTE~\cite{chawla2002smote}とその拡張の成功により、我々は、SMOTE検索空間内で合成サンプルを生成するための3段階のポリシーからなるマルコフ決定プロセス(MDP)として生成プロセスを定式化する。 次に、階層的強化学習を活用し、検証データの性能指標を最適化する。 6つの実世界のデータセットに対する大規模な実験は、AutoSMOTEが最先端のリサンプリングアルゴリズムを大幅に上回っていることを示している。 コードはhttps://github.com/daochenzha/autosmoteにある。

Imbalanced learning is a fundamental challenge in data mining, where there is a disproportionate ratio of training samples in each class. Over-sampling is an effective technique to tackle imbalanced learning through generating synthetic samples for the minority class. While numerous over-sampling algorithms have been proposed, they heavily rely on heuristics, which could be sub-optimal since we may need different sampling strategies for different datasets and base classifiers, and they cannot directly optimize the performance metric. Motivated by this, we investigate developing a learning-based over-sampling algorithm to optimize the classification performance, which is a challenging task because of the huge and hierarchical decision space. At the high level, we need to decide how many synthetic samples to generate. At the low level, we need to determine where the synthetic samples should be located, which depends on the high-level decision since the optimal locations of the samples may differ for different numbers of samples. To address the challenges, we propose AutoSMOTE, an automated over-sampling algorithm that can jointly optimize different levels of decisions. Motivated by the success of SMOTE~\cite{chawla2002smote} and its extensions, we formulate the generation process as a Markov decision process (MDP) consisting of three levels of policies to generate synthetic samples within the SMOTE search space. Then we leverage deep hierarchical reinforcement learning to optimize the performance metric on the validation data. Extensive experiments on six real-world datasets demonstrate that AutoSMOTE significantly outperforms the state-of-the-art resampling algorithms. The code is at https://github.com/daochenzha/autosmote
翻訳日:2022-08-29 13:11:53 公開日:2022-08-26
# 解釈可能データ協調解析におけるSMOTEのもう1つの活用

Another Use of SMOTE for Interpretable Data Collaboration Analysis ( http://arxiv.org/abs/2208.12458v1 )

ライセンス: Link先を確認
Akira Imakura, Masateru Kihira, Yukihiko Okada, Tetsuya Sakurai(参考訳) 近年,複数の機関にまたがるプライバシー保護統合分析のためのデータコラボレーション(DC)分析が開発されている。 DC解析は、個別に構築された次元再現型中間表現を集中化し、元のデータを共有せずに協調表現による統合解析を実現する。 協調表現を構築するために、各機関は共有可能なアンカーデータセットを生成し、その中間表現を集中化する。 ランダムアンカーデータセットは, 一般にDC解析においてよく機能するが, 生データセットに近い分布を持つアンカーデータセットを用いることで, 特に直流解析において, 認識性能の向上が期待できる。 本研究では,合成マイノリティオーバーサンプリング手法(smote)の拡張に基づき,データ漏洩のリスクを増大させることなく認識性能を向上させるアンカーデータ構築手法を提案する。 数値計算により,人工および実世界のデータセットに対する既存のアンカーデータ構築に対するSMOTE法の有効性を示す。 具体的には、既存の所得データセットの方法に対して、正確性および本質的特徴選択に関して、9パーセンテージポイントと38パーセンテージのパフォーマンス改善を達成する。 提案手法は、不均衡なデータ分類ではなく、プライバシー保護統合分析の重要な技術としてSMOTEの別の用途を提供する。

Recently, data collaboration (DC) analysis has been developed for privacy-preserving integrated analysis across multiple institutions. DC analysis centralizes individually constructed dimensionality-reduced intermediate representations and realizes integrated analysis via collaboration representations without sharing the original data. To construct the collaboration representations, each institution generates and shares a shareable anchor dataset and centralizes its intermediate representation. Although, random anchor dataset functions well for DC analysis in general, using an anchor dataset whose distribution is close to that of the raw dataset is expected to improve the recognition performance, particularly for the interpretable DC analysis. Based on an extension of the synthetic minority over-sampling technique (SMOTE), this study proposes an anchor data construction technique to improve the recognition performance without increasing the risk of data leakage. Numerical results demonstrate the efficiency of the proposed SMOTE-based method over the existing anchor data constructions for artificial and real-world datasets. Specifically, the proposed method achieves 9 percentage point and 38 percentage point performance improvements regarding accuracy and essential feature selection, respectively, over existing methods for an income dataset. The proposed method provides another use of SMOTE not for imbalanced data classifications but for a key technology of privacy-preserving integrated analysis.
翻訳日:2022-08-29 13:11:20 公開日:2022-08-26
# perspective-1-楕円体:ユークリッド空間における楕円体ポーズ推定問題の定式化、解析および解法

Perspective-1-Ellipsoid: Formulation, Analysis and Solutions of the Ellipsoid Pose Estimation Problem in Euclidean Space ( http://arxiv.org/abs/2208.12513v1 )

ライセンス: Link先を確認
Vincent Gaudilli\`ere, Gilles Simon, Marie-Odile Berger(参考訳) コンピュータビジョンでは、3次元幾何学的実体と画像への投影との対応からカメラのポーズ推定が広く研究されている。 多くの最先端の手法は、ポイントやラインのような低レベルプリミティブを利用するが、近年の非常に効果的なCNNベースのオブジェクト検出器の出現は、意味論的に意味のある情報を持つ高レベルな特徴の使用への道を開いた。 この方向のパイオニアは、楕円体による3Dオブジェクトのモデリングと楕円体による2D検出が、2Dデータと3Dデータをリンクするのに便利な方法であることを示した。 しかし、関連するlitteratureでよく使われる数学的形式論は、楕円形や楕円形を他の二次や円錐形と容易に区別することはできず、いくつかの発展において潜在的に有害な特異性の喪失に繋がる。 さらに、投射方程式の線形化過程は、カメラパラメータの過剰表現を生成し、効率損失を引き起こす可能性がある。 そこで本稿では,楕円体固有の理論的枠組みを導入し,ポーズ推定の文脈においてその有益性を示す。 より正確には、提案形式は、残りの未知を閉形式で導出できる位置または向きのみの推定問題にエリプソイドポーズ推定問題を還元することができることを示す。 次に,1自由度 (1dof) 問題にさらに縮小できることを示し,その一意なスカラーの関数として,ポーズの分析表現を提供する。 我々は視覚的な例によって理論的考察を説明する。 最後に,エリプソイド関連ポーズ推定問題のより効率的な解決に寄与するために,この研究をリリースする。

In computer vision, camera pose estimation from correspondences between 3D geometric entities and their projections into the image has been a widely investigated problem. Although most state-of-the-art methods exploit low-level primitives such as points or lines, the emergence of very effective CNN-based object detectors in the recent years has paved the way to the use of higher-level features carrying semantically meaningful information. Pioneering works in that direction have shown that modelling 3D objects by ellipsoids and 2D detections by ellipses offers a convenient manner to link 2D and 3D data. However, the mathematical formalism most often used in the related litterature does not enable to easily distinguish ellipsoids and ellipses from other quadrics and conics, leading to a loss of specificity potentially detrimental in some developments. Moreover, the linearization process of the projection equation creates an over-representation of the camera parameters, also possibly causing an efficiency loss. In this paper, we therefore introduce an ellipsoid-specific theoretical framework and demonstrate its beneficial properties in the context of pose estimation. More precisely, we first show that the proposed formalism enables to reduce the ellipsoid pose estimation problem to a position or orientation-only estimation problem in which the remaining unknowns can be derived in closed-form. Then, we demonstrate that it can be further reduced to a 1 Degree-of-Freedom (1DoF) problem and provide the analytical expression of the pose as a function of that unique scalar unknown. We illustrate our theoretical considerations by visual examples. Finally, we release this work in order to contribute towards more efficient resolutions of ellipsoid-related pose estimation problems.
翻訳日:2022-08-29 13:08:44 公開日:2022-08-26
# クロスモダリティクロスドメイン知識転送による教師なしスパイク深さ推定

Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer ( http://arxiv.org/abs/2208.12527v1 )

ライセンス: Link先を確認
Jiaming Liu, Qizhe Zhang, Jianing Li, Ming Lu, Tiejun Huang, and Shanghang Zhang(参考訳) このニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、時間分解能の高いデータストリームを生成する。 RGBストリームとは対照的に、スパイクストリームは動きのぼかしを克服する固有の利点があり、高速物体のより正確な深さ推定につながる。 しかし, スパイク深度推定ネットワークのトレーニングは, 時間的に集中的なスパイクストリームのためのペア深度ラベルの取得が極めて困難であるため, ほぼ不可能である。 本稿では,全深度ラベルを用いたスパイクストリームデータセットを構築する代わりに,オープンソースのRGBデータセット(KITTIなど)から知識を伝達し,教師なしの方法でスパイクストリームを推定する。 このような問題の鍵となる課題は、RGBとスパイクモダリティの間のモダリティギャップと、ラベル付きソースRGBとラベル付きターゲットスパイクドメインの間のドメインギャップである。 これらの課題を克服するために,教師なしスパイク深さ推定のためのクロスモダリティクロスドメイン(bicross)フレームワークを提案する。 提案手法は,ソーススパイク領域を媒介としたシミュレーションにより,ソースRGBとターゲットスパイクの巨大なギャップを狭める。 具体的には、クロスモダリティフェーズにおいて、画像と画素レベルの知識をソースrgbからソーススパイクに転送する新しい粗粒度から細度までの知識蒸留(cfkd)を提案する。 このような設計は、それぞれRGBとスパイクモーダルの豊富な意味情報と密集時間情報を活用する。 クロスドメインフェーズでは、不確実性誘導平均教師(ugmt)を導入し、不確実性推定を伴う信頼できる擬似ラベルを生成し、ソーススパイクとターゲットスパイクドメイン間のシフトを緩和する。 さらに、2つのドメイン間の機能を調整し、より信頼性の高い擬似ラベルを生成するグローバルレベル機能アライメント手法(glfa)を提案する。

The neuromorphic spike camera generates data streams with high temporal resolution in a bio-inspired way, which has vast potential in the real-world applications such as autonomous driving. In contrast to RGB streams, spike streams have an inherent advantage to overcome motion blur, leading to more accurate depth estimation for high-velocity objects. However, training the spike depth estimation network in a supervised manner is almost impossible since it is extremely laborious and challenging to obtain paired depth labels for temporally intensive spike streams. In this paper, instead of building a spike stream dataset with full depth labels, we transfer knowledge from the open-source RGB datasets (e.g., KITTI) and estimate spike depth in an unsupervised manner. The key challenges for such problem lie in the modality gap between RGB and spike modalities, and the domain gap between labeled source RGB and unlabeled target spike domains. To overcome these challenges, we introduce a cross-modality cross-domain (BiCross) framework for unsupervised spike depth estimation. Our method narrows the enormous gap between source RGB and target spike by introducing the mediate simulated source spike domain. To be specific, for the cross-modality phase, we propose a novel Coarse-to-Fine Knowledge Distillation (CFKD), which transfers the image and pixel level knowledge from source RGB to source spike. Such design leverages the abundant semantic and dense temporal information of RGB and spike modalities respectively. For the cross-domain phase, we introduce the Uncertainty Guided Mean-Teacher (UGMT) to generate reliable pseudo labels with uncertainty estimation, alleviating the shift between the source spike and target spike domains. Besides, we propose a Global-Level Feature Alignment method (GLFA) to align the feature between two domains and generate more reliable pseudo labels.
翻訳日:2022-08-29 13:08:14 公開日:2022-08-26
# Mori-RAN:ハイブリッドコントラスト融合によるマルチビューロバスト表現学習

MORI-RAN: Multi-view Robust Representation Learning via Hybrid Contrastive Fusion ( http://arxiv.org/abs/2208.12545v1 )

ライセンス: Link先を確認
Guanzhou Ke, Yongqi Zhu, Yang Yu(参考訳) マルチビュー表現学習は、クラスタリングや分類など、多くのマルチビュータスクに不可欠である。 しかし、コミュニティを困惑させる2つの課題がある。 一 大量ラベルなしデータから堅牢な多視点表現の学習方法及び方法 二 ビューの一貫性とビューの特異性のバランスをとる方法 そこで本稿では,ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。 具体的には、追加の表現空間の導入とこの空間での表現の整合により、モデルが堅牢なビュー共通表現を学習できることがわかった。 同時に,モデルが自明な解を得られないことを保証するために,非対称なコントラスト戦略を考案した。 実験の結果,提案手法は4つの実世界のデータセットにおいて,クラスタリングと分類において12の競合的マルチビュー手法を上回った。 ソースコードは近く、 \url{https://github.com/guanzhou-ke/mori-ran}で入手できる。

Multi-view representation learning is essential for many multi-view tasks, such as clustering and classification. However, there are two challenging problems plaguing the community: i)how to learn robust multi-view representation from mass unlabeled data and ii) how to balance the view consistency and the view specificity. To this end, in this paper, we proposed a hybrid contrastive fusion algorithm to extract robust view-common representation from unlabeled data. Specifically, we found that introducing an additional representation space and aligning representations on this space enables the model to learn robust view-common representations. At the same time, we designed an asymmetric contrastive strategy to ensure that the model does not obtain trivial solutions. Experimental results demonstrated that the proposed method outperforms 12 competitive multi-view methods on four real-world datasets in terms of clustering and classification. Our source code will be available soon at \url{https://github.com/guanzhou-ke/mori-ran}.
翻訳日:2022-08-29 13:07:40 公開日:2022-08-26
# MIDOG 2022チャレンジのためのステイン・ローバスト・ミトティック・フィギュア検出

Stain-Robust Mitotic Figure Detection for MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.12587v1 )

ライセンス: Link先を確認
Mostafa Jahanifar, Adam Shephard, Neda Zamanitajeddin, Shan E Ahmed Raza, Nasir Rajpoot(参考訳) 異なるスキャナー/サイトからの僧帽弁像の検出は,臨床医の腫瘍診断支援の可能性から,重要な研究課題である。 Mitosis DOmain Generalization (MIDOG) 2022の課題は、複数のスキャナーや組織タイプから見えないデータに対する検出モデルの堅牢性をテストすることである。 この課題に対処するために,TAAセンターチームが採用したアプローチの概要を紹介する。 我々のアプローチは、深層学習分類器によって洗練される前に、分裂候補をセグメント化するハイブリッド検出モデルに基づいている。 トレーニング画像のクロスバリデーションは予備テストセットで0.816, 0.784のf1-scoreを達成し,新しいスキャナからデータを取得するための汎用性を示した。

The detection of mitotic figures from different scanners/sites remains an important topic of research, owing to its potential in assisting clinicians with tumour grading. The MItosis DOmain Generalization (MIDOG) 2022 challenge aims to test the robustness of detection models on unseen data from multiple scanners and tissue types for this task. We present a short summary of the approach employed by the TIA Centre team to address this challenge. Our approach is based on a hybrid detection model, where mitotic candidates are segmented, before being refined by a deep learning classifier. Cross-validation on the training images achieved the F1-score of 0.816 and 0.784 on the preliminary test set, demonstrating the generalizability of our model to unseen data from new scanners.
翻訳日:2022-08-29 13:07:27 公開日:2022-08-26
# WSIレベルからパッチレベル:構造前誘導二核細胞微細検出

From WSI-level to Patch-level: Structure Prior Guided Binuclear Cell Fine-grained Detection ( http://arxiv.org/abs/2208.12623v1 )

ライセンス: Link先を確認
Baomin Wang, Geng Hu, Dan Chen, Lihua Hu, Cheng Li, Yu An, Guiping Hu, Guang Jia(参考訳) 白血病やその他の悪性腫瘍のリスクを予測する上で、正確かつ迅速にbcの検出は重要な役割を果たす。 しかし、手動顕微鏡の計数には時間がかかり、客観性に欠ける。 さらに,BC顕微鏡全スライド画像(WSI)における染色品質の限界や形態特徴の多様性により,従来の画像処理手法は役に立たない。 この課題を克服するために,深層学習に基づくBC 以前の構造にインスパイアされた2段階検出手法を提案し,BC の粗い検出を WSI レベルで実装し,パッチレベルできめ細かい分類を行う。 粗い検出ネットワークは、細胞検出のための円形境界ボックスと核検出のための中心キーポイントに基づくマルチタスク検出フレームワークである。 円の表現は自由度を減少させ、通常の矩形箱に比べて周囲の不純物の影響を緩和し、wsiで回転不変となる。 核内のキーポイントの検出はネットワーク知覚を補助し、後の細粒度分類において教師なし色層分割に使用できる。 詳細な分類網は、色層マスク監視に基づく背景領域抑制モジュールと、そのグローバルなモデリング能力によりトランスフォーマに基づくキー領域選択モジュールとから構成される。 さらに、長い尾の分布データセットを拡張するために、教師なしおよびペアなしの細胞質発生ネットワークが最初に提案されている。 最後に、bcマルチセンターデータセットで実験を行う。 提案手法は,がん検診などのタスクの明確化とサポートを提供するため,評価基準のほぼすべてにおいて,他のベンチマークよりも優れている。

Accurately and quickly binuclear cell (BC) detection plays a significant role in predicting the risk of leukemia and other malignant tumors. However, manual microscopy counting is time-consuming and lacks objectivity. Moreover, with the limitation of staining quality and diversity of morphology features in BC microscopy whole slide images (WSIs), traditional image processing approaches are helpless. To overcome this challenge, we propose a two-stage detection method inspired by the structure prior of BC based on deep learning, which cascades to implement BCs coarse detection at the WSI-level and fine-grained classification in patch-level. The coarse detection network is a multi-task detection framework based on circular bounding boxes for cells detection, and central key points for nucleus detection. The circle representation reduces the degrees of freedom, mitigates the effect of surrounding impurities compared to usual rectangular boxes and can be rotation invariant in WSI. Detecting key points in the nucleus can assist network perception and be used for unsupervised color layer segmentation in later fine-grained classification. The fine classification network consists of a background region suppression module based on color layer mask supervision and a key region selection module based on a transformer due to its global modeling capability. Additionally, an unsupervised and unpaired cytoplasm generator network is firstly proposed to expand the long-tailed distribution dataset. Finally, experiments are performed on BC multicenter datasets. The proposed BC fine detection method outperforms other benchmarks in almost all the evaluation criteria, providing clarification and support for tasks such as cancer screenings.
翻訳日:2022-08-29 13:07:11 公開日:2022-08-26
# プライバシ対応顔画像処理における不整合表現の選択的操作

Selective manipulation of disentangled representations for privacy-aware facial image processing ( http://arxiv.org/abs/2208.12632v1 )

ライセンス: Link先を確認
Sander De Coninck, Wei-Cheng Wang, Sam Leroux, Pieter Simoens(参考訳) カメラセンサーと機械学習が組み合わさって、インテリジェントな監視などさまざまなタスクをこなしている。 計算の複雑さのため、これらの機械学習アルゴリズムのほとんどは、処理のためにクラウドにオフロードされる。 しかし、サードパーティのクラウドプロバイダによる機能障害や悪意のある使用など、プライバシの問題に対する懸念が高まっている。 これを軽減するために,センサデータがクラウドに送信される前に,プライバシーに敏感な属性を除去するエッジベースのフィルタリングステージを提案する。 プライバシフィルタリングを実現するために,異種表現を利用した最先端画像操作技術を使用する。 我々はオプトインとオプトアウトのフィルタ操作を定義し、顔画像からのプライベート属性のフィルタリングの有効性を評価する。 さらに,自然発生する相関と残差情報がフィルタリングに与える影響について検討する。 この結果が期待でき、プライバシー保護のために画像操作をどのように利用できるか、さらなる研究につながると信じています。

Camera sensors are increasingly being combined with machine learning to perform various tasks such as intelligent surveillance. Due to its computational complexity, most of these machine learning algorithms are offloaded to the cloud for processing. However, users are increasingly concerned about privacy issues such as function creep and malicious usage by third-party cloud providers. To alleviate this, we propose an edge-based filtering stage that removes privacy-sensitive attributes before the sensor data are transmitted to the cloud. We use state-of-the-art image manipulation techniques that leverage disentangled representations to achieve privacy filtering. We define opt-in and opt-out filter operations and evaluate their effectiveness for filtering private attributes from face images. Additionally, we examine the effect of naturally occurring correlations and residual information on filtering. We find the results promising and believe this elicits further research on how image manipulation can be used for privacy preservation.
翻訳日:2022-08-29 13:06:45 公開日:2022-08-26
# スパイクカメラ用不確かさ誘導深度融合

Uncertainty Guided Depth Fusion for Spike Camera ( http://arxiv.org/abs/2208.12653v1 )

ライセンス: Link先を確認
Jianing Li, Jiaming Liu, Xiaobao Wei, Jiyuan Zhang, Ming Lu, Lei Ma, Li Du, Tiejun Huang, Shanghang Zhang(参考訳) 奥行き推定は、自動運転のような様々な重要な実世界応用に不可欠である。 しかし、従来のカメラではぼやけた画像しか撮影できないため、高速シナリオでは性能が著しく低下する。 この問題に対処するため、spike cameraはピクセル毎の輝度強度を高いフレームレートで捉えるように設計されている。 しかし, スパイクカメラを用いた深度推定は, 光度整合性に基づく従来の単分子・ステレオ深度推定アルゴリズムを用いて非常に困難である。 本稿では,スパイクカメラの単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。 ステレオスパイク深度推定は近距離でより良い結果が得られるのに対し,モノクラースパイク深度推定は長距離でより良い結果が得られるという事実が本フレームワークの動機となっている。 そこで本研究では,共同学習戦略を用いた2タスク奥行き推定アーキテクチャを導入し,分散不確かさを推定し,単眼とステレオを融合させる。 従来のカメラ深度推定よりもスパイク深度推定の利点を示すために,20K対のサンプルを含むCitySpike20Kというスパイク深度データセットを用いてスパイク深度推定を行う。 UGDFはCitySpike20Kで最先端の結果を達成し、モノクラーまたはステレオスパイク深さ推定ベースラインを全て上回っている。 我々は,CitySpike20Kにおける手法の有効性と一般化を評価するため,広範囲な実験を行った。 我々の知る限り、我々のフレームワークはスパイクカメラ深度推定のための最初のデュアルタスク融合フレームワークである。 コードとデータセットがリリースされる。

Depth estimation is essential for various important real-world applications such as autonomous driving. However, it suffers from severe performance degradation in high-velocity scenario since traditional cameras can only capture blurred images. To deal with this problem, the spike camera is designed to capture the pixel-wise luminance intensity at high frame rate. However, depth estimation with spike camera remains very challenging using traditional monocular or stereo depth estimation algorithms, which are based on the photometric consistency. In this paper, we propose a novel Uncertainty-Guided Depth Fusion (UGDF) framework to fuse the predictions of monocular and stereo depth estimation networks for spike camera. Our framework is motivated by the fact that stereo spike depth estimation achieves better results at close range while monocular spike depth estimation obtains better results at long range. Therefore, we introduce a dual-task depth estimation architecture with a joint training strategy and estimate the distributed uncertainty to fuse the monocular and stereo results. In order to demonstrate the advantage of spike depth estimation over traditional camera depth estimation, we contribute a spike-depth dataset named CitySpike20K, which contains 20K paired samples, for spike depth estimation. UGDF achieves state-of-the-art results on CitySpike20K, surpassing all monocular or stereo spike depth estimation baselines. We conduct extensive experiments to evaluate the effectiveness and generalization of our method on CitySpike20K. To the best of our knowledge, our framework is the first dual-task fusion framework for spike camera depth estimation. Code and dataset will be released.
翻訳日:2022-08-29 13:06:02 公開日:2022-08-26
# ミトコンドリア検出のためのマルチタスクRetinaNet

Multi tasks RetinaNet for mitosis detection ( http://arxiv.org/abs/2208.12657v1 )

ライセンス: Link先を確認
Chen Yang, Wang Ziyue, Fang Zijie, Bian Hao, Zhang Yongbing(参考訳) 分裂細胞の説明は腫瘍診断における重要な特徴である。 しかし、分裂細胞の形態の変化により、腫瘍組織中の分裂細胞を検出することは非常に難しい課題である。 同時に、高度な深層学習法は細胞検出において大きな成功をおさめたが、他のドメインからのデータ(腫瘍の種類やスキャナの違いなど)をテストすると、その性能は満足できないことが多い。 したがって、ドメインシフトシナリオにおいて、ロバスト性を持つ分裂細胞を検出するアルゴリズムを開発する必要がある。 さらに,本研究は,ベースライン(retinanet)に基づく前景検出および腫瘍分類タスクを提案し,データ拡張により,このモデルのドメイン汎化性能を向上させる。 難解な事前テストデータセット上での最先端のパフォーマンス(f1スコア: 0.5809)を達成する。

The account of mitotic cells is a key feature in tumor diagnosis. However, due to the variability of mitotic cell morphology, it is a highly challenging task to detect mitotic cells in tumor tissues. At the same time, although advanced deep learning method have achieved great success in cell detection, the performance is often unsatisfactory when tested data from another domain (i.e. the different tumor types and different scanners). Therefore, it is necessary to develop algorithms for detecting mitotic cells with robustness in domain shifts scenarios. Our work further proposes a foreground detection and tumor classification task based on the baseline(Retinanet), and utilizes data augmentation to improve the domain generalization performance of our model. We achieve the state-of-the-art performance (F1 score: 0.5809) on the challenging premilary test dataset.
翻訳日:2022-08-29 13:05:36 公開日:2022-08-26
# 拡散モデルによるストロークおよびスケッチからの適応リアリスティック画像生成

Adaptively-Realistic Image Generation from Stroke and Sketch with Diffusion Model ( http://arxiv.org/abs/2208.12675v1 )

ライセンス: Link先を確認
Shin-I Cheng, Yu-Jie Chen, Wei-Chen Chiu, Hsin-Ying Lee, Hung-Yu Tseng(参考訳) 手描きから画像を生成することは、コンテンツ作成において重要かつ基本的なタスクである。 翻訳は無限の可能性があり、異なるユーザーが通常異なる結果を期待するので難しい。 そこで本研究では,拡散モデルに基づくスケッチやストロークからの3次元画像合成制御を支援する統一フレームワークを提案する。 ユーザは、入力されたストロークやスケッチに対する忠実さのレベルを決定するだけでなく、実際の画像とユーザの入力が一致しないため、リアリズムのレベルも決めることができる。 質的かつ定量的な実験により,我々のフレームワークが最先端のパフォーマンスを実現し,形状,色,リアリズムを制御してカスタマイズした画像を生成する際の柔軟性が得られている。 さらに,本手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。

Generating images from hand-drawings is a crucial and fundamental task in content creation. The translation is difficult as there exist infinite possibilities and the different users usually expect different outcomes. Therefore, we propose a unified framework supporting a three-dimensional control over the image synthesis from sketches and strokes based on diffusion models. Users can not only decide the level of faithfulness to the input strokes and sketches, but also the degree of realism, as the user inputs are usually not consistent with the real images. Qualitative and quantitative experiments demonstrate that our framework achieves state-of-the-art performance while providing flexibility in generating customized images with control over shape, color, and realism. Moreover, our method unleashes applications such as editing on real images, generation with partial sketches and strokes, and multi-domain multi-modal synthesis.
翻訳日:2022-08-29 13:05:24 公開日:2022-08-26
# 学習と構成性:コネクショナリスト確率型プログラミングによる統一の試み

Learning and Compositionality: a Unification Attempt via Connectionist Probabilistic Programming ( http://arxiv.org/abs/2208.12789v1 )

ライセンス: Link先を確認
Ximing Qiao, Hai Li(参考訳) 人間の知性をシミュレートするための重要なメカニズムとして,学習と構成性を考える。 それぞれのメカニズムはそれぞれニューラルネットワークとシンボリックAIによって達成されているが、人間のような知性を可能にする2つのメカニズムの組み合わせである。 ハイブリッドなニューラルシンボリックシステムの構築には多くの試みがあったが、真のゴールは学習と構成性を統一することであり、コアメカニズムはニューラル・シンボリックな手法ではなく、表面がそれらを達成するためのアプローチである、と我々は論じている。 本研究では,その形態と意味(構造と意味)を分離し,ニューラルネットワークと記号的手法の強みと弱さを検証し,コネクショナリスト構造(学習用)と確率的プログラムセマンティクス(構成性用)を接続するフレームワークであるコネクショナリスト確率プログラム(CPP)を提案する。 本フレームワークでは,小規模シーケンスモデリングのためのCPP拡張を設計し,ベイズ推定に基づく学習アルゴリズムを提供する。 教師なしの複雑なパターンの学習には課題があるが、初期の結果は、CPPが生のシーケンシャルデータから概念と関係の抽出に成功したことを示している。

We consider learning and compositionality as the key mechanisms towards simulating human-like intelligence. While each mechanism is successfully achieved by neural networks and symbolic AIs, respectively, it is the combination of the two mechanisms that makes human-like intelligence possible. Despite the numerous attempts on building hybrid neuralsymbolic systems, we argue that our true goal should be unifying learning and compositionality, the core mechanisms, instead of neural and symbolic methods, the surface approaches to achieve them. In this work, we review and analyze the strengths and weaknesses of neural and symbolic methods by separating their forms and meanings (structures and semantics), and propose Connectionist Probabilistic Program (CPPs), a framework that connects connectionist structures (for learning) and probabilistic program semantics (for compositionality). Under the framework, we design a CPP extension for small scale sequence modeling and provide a learning algorithm based on Bayesian inference. Although challenges exist in learning complex patterns without supervision, our early results demonstrate CPP's successful extraction of concepts and relations from raw sequential data, an initial step towards compositional learning.
翻訳日:2022-08-29 13:02:59 公開日:2022-08-26
# Few-Shot Learning Meets Transformer: Unified Query-Support Transformer for Few-Shot Classification

Few-Shot Learning Meets Transformer: Unified Query-Support Transformers for Few-Shot Classification ( http://arxiv.org/abs/2208.12398v1 )

ライセンス: Link先を確認
Xixi Wang, Xiao Wang, Bo Jiang, Bin Luo(参考訳) 非常に限られたサンプルを用いて未確認のクラスを識別することを目的とした画像分類が注目されている。 通常、メートル法学習問題として定式化される。 本研究の主な課題は,(1)サポートセットとクエリセット間の画像の一貫性のある表現,(2)サポートセットとクエリセット間の画像の効果的なメトリック学習の学習方法である。 本稿では,統一クエリ支援トランスフォーマ(qsformer)モデルを用いて,この2つの課題を同時にモデル化できることを示す。 具体的には、QSFormerはグローバルクエリをサポートするサンプルTransformer(sampleFormer)ブランチとローカルパッチTransformer(patchFormer)学習ブランチを含む。 sampleformerは、サポート中のサンプルと画像表現のためのクエリセットの依存性をキャプチャすることを目的としている。 これはEncoder、Decoder、Cross-Attentionを採用し、数ショットの分類タスクでそれぞれサポート、クエリ(イメージ)表現、メトリック学習をモデル化する。 また,グローバル・ラーニング・ブランチの補完として,ローカル・パッチ・トランスフォーマーを採用し,ローカル・イメージ・パッチの長距離依存性を捉え,各画像サンプルの構造的表現を抽出する。 また,提案手法の有効なバックボーンモジュールとして,マルチスケールcnn機能を抽出・融合するために,新しいクロススケールインタラクティブ特徴抽出器(cife)を提案する。 すべてのモジュールは統一されたフレームワークに統合され、エンドツーエンドでトレーニングされる。 4つの一般的なデータセットに対する大規模な実験は、提案したQSFormerの有効性と優位性を示している。

Few-shot classification which aims to recognize unseen classes using very limited samples has attracted more and more attention. Usually, it is formulated as a metric learning problem. The core issue of few-shot classification is how to learn (1) consistent representations for images in both support and query sets and (2) effective metric learning for images between support and query sets. In this paper, we show that the two challenges can be well modeled simultaneously via a unified Query-Support TransFormer (QSFormer) model. To be specific,the proposed QSFormer involves global query-support sample Transformer (sampleFormer) branch and local patch Transformer (patchFormer) learning branch. sampleFormer aims to capture the dependence of samples in support and query sets for image representation. It adopts the Encoder, Decoder and Cross-Attention to respectively model the Support, Query (image) representation and Metric learning for few-shot classification task. Also, as a complementary to global learning branch, we adopt a local patch Transformer to extract structural representation for each image sample by capturing the long-range dependence of local image patches. In addition, a novel Cross-scale Interactive Feature Extractor (CIFE) is proposed to extract and fuse multi-scale CNN features as an effective backbone module for the proposed few-shot learning method. All modules are integrated into a unified framework and trained in an end-to-end manner. Extensive experiments on four popular datasets demonstrate the effectiveness and superiority of the proposed QSFormer.
翻訳日:2022-08-29 13:01:54 公開日:2022-08-26
# 確率マップを用いたセグメンテーションによる任意形状テキストの検出

Arbitrary Shape Text Detection via Segmentation with Probability Maps ( http://arxiv.org/abs/2208.12419v1 )

ライセンス: Link先を確認
Shi-Xue Zhang, Xiaobin Zhu, Lei Chen, Jie-Bo Hou, Xu-Cheng Yin(参考訳) 任意形状テキスト検出は、サイズやアスペクト比、任意の向きや形、不正確なアノテーションなど、大きく変化するため、困難なタスクである。 画素レベルの予測のスケーラビリティのため、セグメンテーションベースの手法は様々な形状のテキストに適応できるため、近年注目されている。 しかし、テキストの正確なピクセルレベルのアノテーションは恐ろしく、既存のシーンテキスト検出用データセットは粗い境界アノテーションのみを提供する。 その結果、アノテーション内の多数の誤分類されたテキストピクセルや背景ピクセルが常に存在し、セグメンテーションに基づくテキスト検出手法の性能が低下する。 一般に、ピクセルがテキストに属するか否かは、隣接するアノテーション境界との距離と非常に関係がある。 本稿では,テキストインスタンスを正確に検出する確率マップを用いた,革新的で堅牢なセグメンテーションに基づく検出手法を提案する。 具体的には、SAF(Sigmoid Alpha Function)を用いて、境界と内部画素間の距離を確率マップに転送する。 しかし、粗いテキスト境界アノテーションの不確かさのため、ある確率写像は複雑な確率分布をうまくカバーできない。 そこで本研究では,一連のシグモイドアルファ関数によって計算された確率写像群を用いて確率分布を記述する。 さらに,テキストインスタンスの再構築に十分な情報を提供するために,確率マップの予測と同化を学習するための反復モデルを提案する。 最後に、単純な領域成長アルゴリズムを使用して、確率マップを完全なテキストインスタンスに集約する。 実験の結果,複数のベンチマークで検出精度の点で最先端の性能が得られることがわかった。

Arbitrary shape text detection is a challenging task due to the significantly varied sizes and aspect ratios, arbitrary orientations or shapes, inaccurate annotations, etc. Due to the scalability of pixel-level prediction, segmentation-based methods can adapt to various shape texts and hence attracted considerable attention recently. However, accurate pixel-level annotations of texts are formidable, and the existing datasets for scene text detection only provide coarse-grained boundary annotations. Consequently, numerous misclassified text pixels or background pixels inside annotations always exist, degrading the performance of segmentation-based text detection methods. Generally speaking, whether a pixel belongs to text or not is highly related to the distance with the adjacent annotation boundary. With this observation, in this paper, we propose an innovative and robust segmentation-based detection method via probability maps for accurately detecting text instances. To be concrete, we adopt a Sigmoid Alpha Function (SAF) to transfer the distances between boundaries and their inside pixels to a probability map. However, one probability map can not cover complex probability distributions well because of the uncertainty of coarse-grained text boundary annotations. Therefore, we adopt a group of probability maps computed by a series of Sigmoid Alpha Functions to describe the possible probability distributions. In addition, we propose an iterative model to learn to predict and assimilate probability maps for providing enough information to reconstruct text instances. Finally, simple region growth algorithms are adopted to aggregate probability maps to complete text instances. Experimental results demonstrate that our method achieves state-of-the-art performance in terms of detection accuracy on several benchmarks.
翻訳日:2022-08-29 13:01:26 公開日:2022-08-26
# MIDOG 2022チャレンジのための畳み込みニューラルネットワークによるミトコンドリアの検出

Detecting Mitoses with a Convolutional Neural Network for MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.12437v1 )

ライセンス: Link先を確認
Hongyan Gu, Mohammad Haeri, Shuo Ni, Christopher Kazu Williams, Neda Zarrin-Khameh, Shino Magaki, and Xiang 'Anthony' Chen(参考訳) 本研究では,1つのバニラ畳み込みニューラルネットワーク(CNN)のみを用いたミオシス検出手法を提案する。 提案手法は,画像が与えられた場合,まず,ミトースを有するパッチを抽出するスライディングウインドウ手法を用いてCNNを適用し,抽出したパッチのクラス活性化マップを算出し,ミトーシスの正確な位置を求める。 モデルの一般化性を高めるため、一連のデータ拡張手法、ノイズラベル付き画像に対処する損失、アクティブな学習戦略を用いてCNNを訓練する。 提案手法はMIDOG 2022チャレンジの予備試験段階において,有効Net-b3モデルを用いたF1スコア0.7323を達成した。

This work presents a mitosis detection method with only one vanilla Convolutional Neural Network (CNN). Our approach consists of two steps: given an image, we first apply a CNN using a sliding window technique to extract patches that have mitoses; we then calculate each extracted patch's class activation map to obtain the mitosis's precise location. To increase the model generalizability, we train the CNN with a series of data augmentation techniques, a loss that copes with noise-labeled images, and an active learning strategy. Our approach achieved an F1 score of 0.7323 with an EfficientNet-b3 model in the preliminary test phase of the MIDOG 2022 challenge.
翻訳日:2022-08-29 13:01:00 公開日:2022-08-26
# CMD:相互蒸留を用いた自己教師型3次元行動表現学習

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation ( http://arxiv.org/abs/2208.12448v1 )

ライセンス: Link先を確認
Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li(参考訳) 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。 それでも、この情報をモデル化し活用する方法は、自己教師付き3次元行動表現学習において難しい問題である。 本研究では,双方向知識蒸留問題としてクロスモーダル相互作用を定式化する。 教師の知識を学生に伝達する古典的な蒸留ソリューションとは異なり、この研究では、知識は継続的に更新され、モダリティ間で双方向に蒸留される。 そこで,本稿では,以下の設計のクロスモーダル相互蒸留(cmd)フレームワークを提案する。 一方, 類似度分布は, 各モードで学習した知識をモデル化するために導入され, リレーショナル情報は対照的なフレームワークに自然に適合する。 一方, 教師と学生は, 蒸留工程を安定させ, モダリティ間で高信頼情報を伝達するために非対称な構成を用いる。 導出により、過去の作品における相互正の鉱業は、我々のCMDの劣化版とみなすことができる。 我々は,NTU RGB+D 60,NTU RGB+D 120,PKU-MMD IIデータセットについて広範な実験を行った。 提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。 コードはhttps://github.com/maoyunyao/cmdで入手できる。

In 3D action recognition, there exists rich complementary information between skeleton modalities. Nevertheless, how to model and utilize this information remains a challenging problem for self-supervised 3D action representation learning. In this work, we formulate the cross-modal interaction as a bidirectional knowledge distillation problem. Different from classic distillation solutions that transfer the knowledge of a fixed and pre-trained teacher to the student, in this work, the knowledge is continuously updated and bidirectionally distilled between modalities. To this end, we propose a new Cross-modal Mutual Distillation (CMD) framework with the following designs. On the one hand, the neighboring similarity distribution is introduced to model the knowledge learned in each modality, where the relational information is naturally suitable for the contrastive frameworks. On the other hand, asymmetrical configurations are used for teacher and student to stabilize the distillation process and to transfer high-confidence information between modalities. By derivation, we find that the cross-modal positive mining in previous works can be regarded as a degenerated version of our CMD. We perform extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets. Our approach outperforms existing self-supervised methods and sets a series of new records. The code is available at: https://github.com/maoyunyao/CMD
翻訳日:2022-08-29 13:00:47 公開日:2022-08-26
# seg4reg+:脊椎分節と cobb 角度回帰の一貫性学習

Seg4Reg+: Consistency Learning between Spine Segmentation and Cobb Angle Regression ( http://arxiv.org/abs/2208.12462v1 )

ライセンス: Link先を確認
Yi Lin, Luyan Liu, Kai Ma, Yefeng Zheng(参考訳) cobb角度推定のための自動化手法は、スコリシス評価に対する高い需要がある。 既存の方法は典型的には、目印推定からコブ角を計算するか、あるいはコブ角回帰タスクと低レベルタスク(例えば、ランドマーク検出とスピンセグメンテーション)を、お互いの利点を十分に探求することなく簡単に組み合わせる。 本研究では,セグメンテーションと回帰ネットワークを協調的に最適化する,Seg4Reg+という新しいマルチタスクフレームワークを提案する。 地域とグローバルの一貫性と知識の伝達を徹底的に調査する。 具体的には、画像分割ペアからクラスアクティベーションマップ(CAM)を活用してレグレッションネットワークのさらなる監視を行うアテンション正規化モジュールを提案する。 一方,グローバル最適化のために2つのネットワークを協調的に学習するための新しい三角形整合性学習を設計する。 AASCE Challengeデータセット上で行った評価は、各モジュールの有効性と、最先端手法に対するモデルの性能を実証するものである。

Automated methods for Cobb angle estimation are of high demand for scoliosis assessment. Existing methods typically calculate the Cobb angle from landmark estimation, or simply combine the low-level task (e.g., landmark detection and spine segmentation) with the Cobb angle regression task, without fully exploring the benefits from each other. In this study, we propose a novel multi-task framework, named Seg4Reg+, which jointly optimizes the segmentation and regression networks. We thoroughly investigate both local and global consistency and knowledge transfer between each other. Specifically, we propose an attention regularization module leveraging class activation maps (CAMs) from image-segmentation pairs to discover additional supervision in the regression network, and the CAMs can serve as a region-of-interest enhancement gate to facilitate the segmentation task in turn. Meanwhile, we design a novel triangle consistency learning to train the two networks jointly for global optimization. The evaluations performed on the public AASCE Challenge dataset demonstrate the effectiveness of each module and superior performance of our model to the state-of-the-art methods.
翻訳日:2022-08-29 13:00:26 公開日:2022-08-26
# データフリーデンス深度蒸留

Data-free Dense Depth Distillation ( http://arxiv.org/abs/2208.12464v1 )

ライセンス: Link先を確認
Junjie Hu and Chenyou Fan and Mete Ozay and Hualie Jiang and Tin Lun Lam(参考訳) 本研究では,教師・学生の枠組みの下で訓練されたエキスパートモデルから,学習対象領域における学習データを欠くことなく,実世界の深度知覚のための軽量ネットワークを学習する,単眼深度推定のためのデータフリー知識蒸留(KD)について検討する。 密度回帰と画像認識の本質的な違いのため、従来のデータフリーKD法はMDEには適用できない。 本稿では,実世界の適用性を高めるため,kdを分散シミュレーション画像に適用することを目指す。 主な課題は 一 元の訓練データの対象物分布に関する事前情報がないこと。 二 現実世界とシミュレーションの間の領域シフト まず,対象領域内のオブジェクトの分散パターンを最大にカバーする新たなトレーニングサンプルを生成するために,オブジェクト間画像混合を適用した。 第2の難易度に対処するために,教師モデルの特徴分布にシミュレーションデータに適合するように効率的に学習するトランスフォーメーションネットワークを提案する。 様々な深度推定モデルと2つの異なるデータセットに対する提案手法の評価を行った。 その結果,本手法はベースラインkdを高いマージンで上回り,1/6ドルの画像でも若干性能が向上し,明らかな優位性が得られた。

We study data-free knowledge distillation (KD) for monocular depth estimation (MDE), which learns a lightweight network for real-world depth perception by compressing from a trained expert model under the teacher-student framework while lacking training data in the target domain. Owing to the essential difference between dense regression and image recognition, previous methods of data-free KD are not applicable to MDE. To strengthen the applicability in the real world, in this paper, we seek to apply KD with out-of-distribution simulated images. The major challenges are i) lacking prior information about object distribution of the original training data; ii) the domain shift between the real world and the simulation. To cope with the first difficulty, we apply object-wise image mixing to generate new training samples for maximally covering distributed patterns of objects in the target domain. To tackle the second difficulty, we propose to utilize a transformation network that efficiently learns to fit the simulated data to the feature distribution of the teacher model. We evaluate the proposed approach for various depth estimation models and two different datasets. As a result, our method outperforms the baseline KD by a good margin and even achieves slightly better performance with as few as $1/6$ images, demonstrating a clear superiority.
翻訳日:2022-08-29 13:00:05 公開日:2022-08-26
# Observer-GAN を用いた正・未ラベルデータからの学習

Learning From Positive and Unlabeled Data Using Observer-GAN ( http://arxiv.org/abs/2208.12477v1 )

ライセンス: Link先を確認
Omar Zamzam, Haleh Akrami, Richard Leahy(参考訳) 正および無ラベルデータ(すなわちpu学習)からの学習の問題は、(1)正のクラスとその対応するラベルからの観察、(2)正のクラスと負のクラスからの無ラベルの観察からなる二項(すなわち正のクラスと負のクラス)の分類設定において研究されている。 GAN(Generative Adversarial Networks)は、教師あり学習が分類タスクにおいて最先端の精度を持つという利点により、教師あり設定に問題を還元するために使用されている。 textit{pseudo}-負の観測を生成するために、GANは修正された損失を伴う正および未ラベルの観測に基づいて訓練される。 正の観測と正の観測の両方を用いると、教師付き学習環境に繋がる。 負のクラスサンプルの欠如を置き換えるのに十分な現実的な擬陰性観測の生成は、現在のGANベースのアルゴリズムのボトルネックである。 GANアーキテクチャに新たな分類器を加えることで、新しいGANベースのアプローチを提供する。 提案手法では、GAN識別器は、未ラベルデータ分布に該当するサンプルのみを生成するようにジェネレータに指示する一方、第2の分類器(オブザーバ)ネットワークは、GANのトレーニングをモニターする。 (i)生成した試料が正の分布に落ちないようにする。 (二)正の観測と負の観測とを区別した特徴を学習すること。 4つの画像データセットの実験により、我々のトレーニングされたオブザーバネットワークは、実際の見つからない正と負のサンプルを識別する既存の技術よりも優れた性能を示した。

The problem of learning from positive and unlabeled data (A.K.A. PU learning) has been studied in a binary (i.e., positive versus negative) classification setting, where the input data consist of (1) observations from the positive class and their corresponding labels, (2) unlabeled observations from both positive and negative classes. Generative Adversarial Networks (GANs) have been used to reduce the problem to the supervised setting with the advantage that supervised learning has state-of-the-art accuracy in classification tasks. In order to generate \textit{pseudo}-negative observations, GANs are trained on positive and unlabeled observations with a modified loss. Using both positive and \textit{pseudo}-negative observations leads to a supervised learning setting. The generation of pseudo-negative observations that are realistic enough to replace missing negative class samples is a bottleneck for current GAN-based algorithms. By including an additional classifier into the GAN architecture, we provide a novel GAN-based approach. In our suggested method, the GAN discriminator instructs the generator only to produce samples that fall into the unlabeled data distribution, while a second classifier (observer) network monitors the GAN training to: (i) prevent the generated samples from falling into the positive distribution; and (ii) learn the features that are the key distinction between the positive and negative observations. Experiments on four image datasets demonstrate that our trained observer network performs better than existing techniques in discriminating between real unseen positive and negative samples.
翻訳日:2022-08-29 12:59:44 公開日:2022-08-26
# AutoQGS: SPARQLから低リソースの知識ベースの質問生成のための自動プロンプト

AutoQGS: Auto-Prompt for Low-Resource Knowledge-based Question Generation from SPARQL ( http://arxiv.org/abs/2208.12461v1 )

ライセンス: Link先を確認
Guanming Xiong, Junwei Bao, Wen Zhao, Youzheng Wu, Xiaodong He(参考訳) 本研究では,知識に基づく質問生成(KBQG)の課題について検討する。 従来のKBQGは知識グラフのファクトトリプルから質問を生成するが、SPARQLでは集約や比較のような複雑な操作を表現できなかった。 さらに、大規模SPARQLクエストペアのコストのかかるアノテーションのため、低リソースシナリオ下でSPARQLからKBQGを調べる必要がある。 近年、NL-to-NLパラダイムで訓練された生成事前学習言語モデル(PLM)は、T5やBARTのような低リソース生成に有効であることが証明されているため、非NL SPARQLからNL-クエストを生成するために効果的に活用する方法は難しい。 これらの課題に対処するため、SPARQLから低リソースKBQGの自動プロンプトアプローチであるAutoQGSが提案されている。 まず、複雑な操作を処理するKBQGタスクに対して、SPARQLから直接質問を生成します。 次に,SPARQLを非NL SPARQLからPLMによるNL質問への低リソース変換を円滑にする,大規模教師なしデータに基づく自動プロンプタを提案する。 WebQuestionsSP、ComlexWebQuestions 1.1、PathQuestionsの実験結果は、我々のモデルは、特に低リソース環境で、最先端のパフォーマンスを達成することを示す。 さらに、KBQG研究のために、330kのファクトイド複素問題-SPARQLペアのコーパスを生成する。

This study investigates the task of knowledge-based question generation (KBQG). Conventional KBQG works generated questions from fact triples in the knowledge graph, which could not express complex operations like aggregation and comparison in SPARQL. Moreover, due to the costly annotation of large-scale SPARQL-question pairs, KBQG from SPARQL under low-resource scenarios urgently needs to be explored. Recently, since the generative pre-trained language models (PLMs) typically trained in natural language (NL)-to-NL paradigm have been proven effective for low-resource generation, e.g., T5 and BART, how to effectively utilize them to generate NL-question from non-NL SPARQL is challenging. To address these challenges, AutoQGS, an auto-prompt approach for low-resource KBQG from SPARQL, is proposed. Firstly, we put forward to generate questions directly from SPARQL for the KBQG task to handle complex operations. Secondly, we propose an auto-prompter trained on large-scale unsupervised data to rephrase SPARQL into NL description, smoothing the low-resource transformation from non-NL SPARQL to NL question with PLMs. Experimental results on the WebQuestionsSP, ComlexWebQuestions 1.1, and PathQuestions show that our model achieves state-of-the-art performance, especially in low-resource settings. Furthermore, a corpus of 330k factoid complex question-SPARQL pairs is generated for further KBQG research.
翻訳日:2022-08-29 12:56:48 公開日:2022-08-26
# 隣接非自己回帰テキスト生成

Nearest Neighbor Non-autoregressive Text Generation ( http://arxiv.org/abs/2208.12496v1 )

ライセンス: Link先を確認
Ayana Niwa, Sho Takase, and Naoaki Okazaki(参考訳) 非自己回帰モデル(NAR)は、自己回帰モデルよりも少ない計算で文を生成するが、生成品質を犠牲にする。 これまでの研究では、反復的な復号化によってこの問題に対処している。 本研究は,NARデコーダの初期状態として近隣住民を用いて反復的に編集することを提案する。 我々は,NARテキスト生成を改善するために,近隣住民の編集操作を学習するための新しいトレーニング戦略を提案する。 提案手法(NeighborEdit)は,近辺の機械翻訳の一般的なベンチマークデータセットであるJRC-Acquis En-Deデータセット上で,復号イテレーションを減らし,高い翻訳品質(バニラ変換器よりも1.69ポイント高い)を達成することを示す。 また,提案手法の有効性をWikiBio(Data-to-text Task)で検証した。 さらに,提案手法は,WMT'14 En-Deデータセット上でのNARベースラインよりも優れていた。 また,提案手法における隣接例の分析を行った。

Non-autoregressive (NAR) models can generate sentences with less computation than autoregressive models but sacrifice generation quality. Previous studies addressed this issue through iterative decoding. This study proposes using nearest neighbors as the initial state of an NAR decoder and editing them iteratively. We present a novel training strategy to learn the edit operations on neighbors to improve NAR text generation. Experimental results show that the proposed method (NeighborEdit) achieves higher translation quality (1.69 points higher than the vanilla Transformer) with fewer decoding iterations (one-eighteenth fewer iterations) on the JRC-Acquis En-De dataset, the common benchmark dataset for machine translation using nearest neighbors. We also confirm the effectiveness of the proposed method on a data-to-text task (WikiBio). In addition, the proposed method outperforms an NAR baseline on the WMT'14 En-De dataset. We also report analysis on neighbor examples used in the proposed method.
翻訳日:2022-08-29 12:56:19 公開日:2022-08-26
# 言語モデルを用いた知識グラフのタスク特化事前学習とプロンプト分解

Task-specific Pre-training and Prompt Decomposition for Knowledge Graph Population with Language Models ( http://arxiv.org/abs/2208.12539v1 )

ライセンス: Link先を確認
Tianyi Li, Wenyu Huang, Nikos Papasarantopoulos, Pavlos Vougiouklis, Jeff Z. Pan(参考訳) ISWC 2022において,事前学習型言語モデル(LM-KBC)による知識ベース構築を課題とし,言語モデルを用いた知識グラフの集団化システムを提案する。 本システムでは,マスキングされたオブジェクトトークンのlm表現の改善,候補オブジェクトのプログレッシブ生成のための迅速な分解,その他高品質な検索のための手法をタスク固有の事前学習を行う。 我々のシステムはBERT LMに基づくLM-KBCチャレンジのトラック1の勝者であり、隠れテストセットで55.0%のF-1スコアを達成している。

We present a system for knowledge graph population with Language Models, evaluated on the Knowledge Base Construction from Pre-trained Language Models (LM-KBC) challenge at ISWC 2022. Our system involves task-specific pre-training to improve LM representation of the masked object tokens, prompt decomposition for progressive generation of candidate objects, among other methods for higher-quality retrieval. Our system is the winner of track 1 of the LM-KBC challenge, based on BERT LM; it achieves 55.0% F-1 score on the hidden test set of the challenge.
翻訳日:2022-08-29 12:56:01 公開日:2022-08-26
# SeSQL:さらに大規模なセッションレベルの中国のテキスト-SQLデータセット

SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset ( http://arxiv.org/abs/2208.12711v1 )

ライセンス: Link先を確認
Saihao Huang, Lijie Wang, Zhenghua Li, Zeyang Liu, Chenhui Dou, Fukang Yan, Xinyan Xiao, Hua Wu, Min Zhang(参考訳) 最初のセッションレベルの中国語データセットとして、CHASEは、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語のSParC(CHASE-T)から翻訳された3,456セッションの2つの別々の部分を含んでいる。 この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。 本研究では,5,028セッションをすべてスクラッチから手作業で構築した,さらに大規模なセッションレベルのSQLデータセットであるSeSQLを紹介する。 データ品質を保証するため、我々は反復的なアノテーションワークフローを採用し、これまでの自然言語(NL)質問やSQLクエリの厳密でリアルタイムなレビューを容易にする。 さらに、コンテキスト依存のNL質問を全て完了することで、コンテキスト依存の27,012の質問/SQLペアを取得し、SeSQLをシングルラウンドのマルチDBテキスト-SQL解析のための最大のデータセットとして使用できる。 本稿では,3つの競合するセッションレベルのパーサを用いて,SeSQL上でセッションレベルのテキスト-SQL解析実験をベンチマークし,詳細な分析を行う。

As the first session-level Chinese dataset, CHASE contains two separate parts, i.e., 2,003 sessions manually constructed from scratch (CHASE-C), and 3,456 sessions translated from English SParC (CHASE-T). We find the two parts are highly discrepant and incompatible as training and evaluation data. In this work, we present SeSQL, yet another large-scale session-level text-to-SQL dataset in Chinese, consisting of 5,028 sessions all manually constructed from scratch. In order to guarantee data quality, we adopt an iterative annotation workflow to facilitate intense and in-time review of previous-round natural language (NL) questions and SQL queries. Moreover, by completing all context-dependent NL questions, we obtain 27,012 context-independent question/SQL pairs, allowing SeSQL to be used as the largest dataset for single-round multi-DB text-to-SQL parsing. We conduct benchmark session-level text-to-SQL parsing experiments on SeSQL by employing three competitive session-level parsers, and present detailed analysis.
翻訳日:2022-08-29 12:55:50 公開日:2022-08-26
# 電気自動車の経路問題に対する多目的アプローチ

A Multi-Objective approach to the Electric Vehicle Routing Problem ( http://arxiv.org/abs/2208.12440v1 )

ライセンス: Link先を確認
Kousik Rajesh, Eklavya Jain, Prakash Kotecha(参考訳) 電気自動車の経路問題(evrp)は、燃料ベースの車両からより健康で効率的な電気自動車(evs)へと移行しようとする研究者や産業家から大きな関心を集めている。 EVRPは従来の車両ルーティング問題(VRP)とそれほど変わらないように思われるが、クルージング時間や充電時間、電気自動車の充電設備の容量の制限といった課題は、すべてに違いがある。 以前の作業では、ロジスティクスや配送関連のソリューションをターゲットにしており、複数の停止を行った後、同質の商用EVが初期に戻る必要がある。 対向する面では、個人用電気自動車の経路問題を解決し、長いオリジン・デスティネーション(od)旅行において1台の車両に最適な経路を提供する。 我々は、旅行時間と充電の累積コストを最小化する多目的最適化を行う。 さらに,充電ステーションの交通量,充電ステーションへの到達距離,異なる充電ステーションにおける電力の変動コストなど,外部および実生活の要素を問題定式化に取り入れる。 特に、多目的混合整数非線形プログラミング(MINLP)問題を定義し、$\epsilon$-constraintアルゴリズムを用いて実現可能な解を求める。 さらに,遺伝的アルゴリズム(GA)や粒子群最適化(PSO)のようなメタヒューリスティックな手法を実装し,最適な経路と目的値を得る。 複数の自己生成データインスタンスに対して実験を行い、その結果を比較した。

The electric vehicle routing problem (EVRP) has garnered great interest from researchers and industrialists in an attempt to move from fuel-based vehicles to healthier and more efficient electric vehicles (EVs). While it seems that the EVRP should not be much different from traditional vehicle routing problems (VRPs), challenges like limited cruising time, long charging times, and limited availability of charging facilities for electric vehicles makes all the difference. Previous works target logistics and delivery-related solutions wherein a homogeneous fleet of commercial EVs have to return to the initial point after making multiple stops. On the opposing front, we solve a personal electric vehicle routing problem and provide an optimal route for a single vehicle in a long origin-destination (OD) trip. We perform multi-objective optimization - minimizing the total trip time and the cumulative cost of charging. In addition, we incorporate external and real-life elements like traffic at charging stations, detour distances for reaching a charging station, and variable costs of electricity at different charging stations into the problem formulation. In particular, we define a multi-objective mixed integer non-linear programming (MINLP) problem and obtain a feasible solution using the $\epsilon$-constraint algorithm. We further implement meta-heuristic techniques such as Genetic Algorithm (GA) and Particle Swarm Optimization (PSO) to obtain the most optimal route and hence, the objective values. The experiment is carried out for multiple self-generated data instances and the results are thereby compared.
翻訳日:2022-08-29 12:55:28 公開日:2022-08-26
# swarm analytics: シェパードコンテキストにおけるswarmシステムを特徴付けるための情報マーカーの設計

Swarm Analytics: Designing Information Markers to Characterise Swarm Systems in Shepherding Contexts ( http://arxiv.org/abs/2208.12386v1 )

ライセンス: Link先を確認
Adam Hepworth, Aya Hussein, Darryn Reid and Hussein Abbass(参考訳) 現代のスウォーム指標は、個別または集団レベルでの情報抽出に焦点をあてて、孤立的にしばしば用いられる。 これらは、Swarmの上位レベルの操作図、その個々のメンバー、および全体的ダイナミクスを推測するために統合されることはめったにない。 この論文の主な貢献は、群に関する一連の指標を、外部の観察者の観点から群を特徴づける存在論的に配列された情報マーカーの集合に編成することである。 我々の貢献は、我々が「emph{swarm analytics}」と題する新しい研究分野の基礎を示すものであり、その主な関心事は、Swarmシステムに関する特定の洞察を理解し、検出し、認識し、追跡し、学習するための、Swarmマーカーのコレクションの設計と組織である。 我々は,情報マーカーの枠組みを考案し,エージェントの影響と応答を分類するために,より高度な能力を必要とする異種群および認知群に対して,スワーミング研究の新たな道筋を提示する。

Contemporary swarm indicators are often used in isolation, focused on extracting information at the individual or collective levels. These are seldom integrated to infer a top-level operating picture of the swarm, its individual members, and its overall collective dynamics. The primary contribution of this paper is to organise a suite of indicators about swarms into an ontologically-arranged collection of information markers to characterise the swarm from the perspective of an external observer-, a recognition agent. Our contribution shows the foundations for a new area of research that we title \emph{swarm analytics}, which its primary concern is with the design and organisation of collections of swarm markers to understand, detect, recognise, track, and learn a particular insight about a swarm system. We present our designed framework of information markers presents a new avenue for swarm research, especially for heterogeneous and cognitive swarms that may require more advanced capabilities to detect agencies and categorise agent influences and responses.
翻訳日:2022-08-29 12:55:02 公開日:2022-08-26
# デザインパターンの必要性: 相互運用の問題と観測データのモデリング課題

Need for Design Patterns: Interoperability Issues and Modelling Challenges for Observational Data ( http://arxiv.org/abs/2208.12480v1 )

ライセンス: Link先を確認
Trupti Padiya, Frank L\"offler, and Friederike Klan(参考訳) 近年,観測データに関する相互運用性の問題が注目されている。 異なるソースからの観測データの科学的分析に関しては、自動データ統合が重要である。 しかし、様々なデータ相互運用性の問題によって妨げられている。 観察特性に関するセマンティック・インターオペラビリティの問題にのみ焦点をあてる。 本稿では,相互運用問題の一般的なクラスを特定するためのユースケース駆動型アプローチを提案する。 本稿では,市民科学における火球観測の事例として,これを例に挙げる。 我々は、他の科学の分野における観測データに一般化可能な相互運用問題の鍵となる概念を導出する。 これらの重要な概念は、いくつかのモデリング課題を含み、その相互運用性問題に関連する各モデリング課題を広く記述する。 我々は、これらの課題をオントロジーデザインパターンのセットで解決することは、統一的な意味モデリングの効果的な手段であり、観測データにおける相互運用性の問題を解決するための統一的なアプローチの道を開くと信じている。 これを一つのデザインパターンで示し、観察データのためのオントロジデザインパターンの重要性と必要性を強調し、残りのパターンを今後の作業に残します。 そこで本稿では,拡張可能で再利用可能な設計パターンを開発するための出発点として,モデリング課題とともに相互運用性の問題について述べる。

Interoperability issues concerning observational data have gained attention in recent times. Automated data integration is important when it comes to the scientific analysis of observational data from different sources. However, it is hampered by various data interoperability issues. We focus exclusively on semantic interoperability issues for observational characteristics. We propose a use-case-driven approach to identify general classes of interoperability issues. In this paper, this is exemplarily done for the use-case of citizen science fireball observations. We derive key concepts for the identified interoperability issues that are generalizable to observational data in other fields of science. These key concepts contain several modeling challenges, and we broadly describe each modeling challenges associated with its interoperability issue. We believe, that addressing these challenges with a set of ontology design patterns will be an effective means for unified semantic modeling, paving the way for a unified approach for resolving interoperability issues in observational data. We demonstrate this with one design pattern, highlighting the importance and need for ontology design patterns for observational data, and leave the remaining patterns to future work. Our paper thus describes interoperability issues along with modeling challenges as a starting point for developing a set of extensible and reusable design patterns.
翻訳日:2022-08-29 12:54:42 公開日:2022-08-26
# ESC-Rules: 説明可能な,意味的に制約されたルールセット

ESC-Rules: Explainable, Semantically Constrained Rule Sets ( http://arxiv.org/abs/2208.12523v1 )

ライセンス: Link先を確認
Martin Glauer, Robert West, Susan Michie, Janna Hastings(参考訳) 本稿では,ファジィ重み付き学習規則に基づく連続変数の予測法について述べる。 本モデルでは, 予測精度を最大化し, 学習すべきルールに対するユーザ指定制約を含むオントロジーベースの「意味的損失」関数を最小化するために, 重み付きルールの組を訓練する。 このシステムは、記号学習とドメイン知識に基づく制約を伴う定量的サブシンボリック学習を融合する。 本研究は,禁煙に対する行動介入の結果を予測するケーススタディで,他の解釈可能なアプローチを上回り,ディープラーニングモデルに近いパフォーマンスを実現するとともに,健康領域の意思決定者にとって必須条件である透過的な説明可能性を提供する。

We describe a novel approach to explainable prediction of a continuous variable based on learning fuzzy weighted rules. Our model trains a set of weighted rules to maximise prediction accuracy and minimise an ontology-based 'semantic loss' function including user-specified constraints on the rules that should be learned in order to maximise the explainability of the resulting rule set from a user perspective. This system fuses quantitative sub-symbolic learning with symbolic learning and constraints based on domain knowledge. We illustrate our system on a case study in predicting the outcomes of behavioural interventions for smoking cessation, and show that it outperforms other interpretable approaches, achieving performance close to that of a deep learning model, while offering transparent explainability that is an essential requirement for decision-makers in the health domain.
翻訳日:2022-08-29 12:54:24 公開日:2022-08-26
# 相関測定によるアイテムセットユーティリティの最大化

Itemset Utility Maximization with Correlation Measure ( http://arxiv.org/abs/2208.12551v1 )

ライセンス: Link先を確認
Jiahui Chen, Yixin Xu, Shicheng Wan, Wensheng Gan, and Jerry Chun-Wei Lin(参考訳) 重要なデータマイニング技術として、興味深いが隠された情報(例えば、利益とリスク)を見つけるために、高ユーティリティアイテムセットマイニング(HUIM)が用いられる。 HUIMは、市場分析、医療検出、Webクリックストリーム分析など、多くのアプリケーションシナリオで広く利用されている。 しかし、以前のHUIMアプローチはアイテムセット内のアイテム間の関係を無視することが多い。 したがって、HUIM では多くの無関係な組合せ (例: \{gold, apple\} と \{notebook, book\}) が発見される。 この制限に対処するため、相関の高い高ユーティリティアイテムセット(CoHUI)をマイニングするアルゴリズムが多数提案されている。 本稿では,相関尺度(coium)を用いたアイテムセット効用最大化法(itemet utility maximization with correlation measure)という新しいアルゴリズムを提案する。 さらに,新たなアルゴリズムでは,データベーススキャニングコストを削減するために,データベースプロジェクション機構を採用する。 また、2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルーニングする。 また,適用上界を線形時間と空間で計算・保存するために,ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。 最後に、高密度でスパースなデータセットに関する広範な実験結果は、coiumが実行時とメモリ消費の点で最先端のアルゴリズムを大きく上回っていることを示している。

As an important data mining technology, high utility itemset mining (HUIM) is used to find out interesting but hidden information (e.g., profit and risk). HUIM has been widely applied in many application scenarios, such as market analysis, medical detection, and web click stream analysis. However, most previous HUIM approaches often ignore the relationship between items in an itemset. Therefore, many irrelevant combinations (e.g., \{gold, apple\} and \{notebook, book\}) are discovered in HUIM. To address this limitation, many algorithms have been proposed to mine correlated high utility itemsets (CoHUIs). In this paper, we propose a novel algorithm called the Itemset Utility Maximization with Correlation Measure (CoIUM), which considers both a strong correlation and the profitable values of the items. Besides, the novel algorithm adopts a database projection mechanism to reduce the cost of database scanning. Moreover, two upper bounds and four pruning strategies are utilized to effectively prune the search space. And a concise array-based structure named utility-bin is used to calculate and store the adopted upper bounds in linear time and space. Finally, extensive experimental results on dense and sparse datasets demonstrate that CoIUM significantly outperforms the state-of-the-art algorithms in terms of runtime and memory consumption.
翻訳日:2022-08-29 12:54:09 公開日:2022-08-26
# ストリーム推論のためのデータログ言語間の形式的比較(拡張版)

A Formal Comparison between Datalog-based Languages for Stream Reasoning (extended version) ( http://arxiv.org/abs/2208.12726v1 )

ライセンス: Link先を確認
Nicola Leone, Marco Manna, Maria Concetta Morelli, and Simona Perri(参考訳) 本稿では、ストリーム上の推論のための2つの論理型言語の相対表現性、すなわち、LARSと呼ばれるストリーム上の分析推論のための論理型フレームワークの言語であるLARSプログラムと、I-DLV-srと呼ばれるストリーム推論のためのI-DLVシステムの最近の拡張言語LDSRについて検討する。 これら2つの言語はDatalog上に構築されているが、構文と意味の両方が異なる。 ストリーム推論のための表現能力の整合を図るため,制約なしでは2つの言語が相容れないことを示すための比較フレームワークを定義し,他の言語を介して表現できる各言語の断片を識別する。

The paper investigates the relative expressiveness of two logic-based languages for reasoning over streams, namely LARS Programs -- the language of the Logic-based framework for Analytic Reasoning over Streams called LARS -- and LDSR -- the language of the recent extension of the I-DLV system for stream reasoning called I-DLV-sr. Although these two languages build over Datalog, they do differ both in syntax and semantics. To reconcile their expressive capabilities for stream reasoning, we define a comparison framework that allows us to show that, without any restrictions, the two languages are incomparable and to identify fragments of each language that can be expressed via the other one.
翻訳日:2022-08-29 12:53:47 公開日:2022-08-26
# 代数的説明可能なコントローラ:決定木とサポートベクターマシンの結合

Algebraically Explainable Controllers: Decision Trees and Support Vector Machines Join Forces ( http://arxiv.org/abs/2208.12804v1 )

ライセンス: Link先を確認
Florian J\"ungermann and Jan K\v{r}et\'insk\'y and Maximilian Weininger(参考訳) 近年、意思決定木(DT)は、コントローラ(戦略、ポリシー、スケジューラなど)の説明可能な表現として使われている。 それらはしばしば非常に効率的であり、離散システムのための小さく理解可能なコントローラを生成するが、複雑な連続力学は依然として課題である。 特に、変数間の関係が多項式のようなより複雑な形式を取るとき、それらは利用可能なDT学習手順では得られない。 対照的に、サポートベクトルマシンはより強力な表現を提供し、そのような関係の多くを発見することができるが、説明可能な形式ではない。 したがって、よりリッチでドメイン関連のある代数述語に対する理解可能な表現を得るために、この2つのフレームワークを組み合わせることを提案する。 提案手法を確立されたベンチマーク上で実験的に実証し評価する。

Recently, decision trees (DT) have been used as an explainable representation of controllers (a.k.a. strategies, policies, schedulers). Although they are often very efficient and produce small and understandable controllers for discrete systems, complex continuous dynamics still pose a challenge. In particular, when the relationships between variables take more complex forms, such as polynomials, they cannot be obtained using the available DT learning procedures. In contrast, support vector machines provide a more powerful representation, capable of discovering many such relationships, but not in an explainable form. Therefore, we suggest to combine the two frameworks in order to obtain an understandable representation over richer, domain-relevant algebraic predicates. We demonstrate and evaluate the proposed method experimentally on established benchmarks.
翻訳日:2022-08-29 12:50:29 公開日:2022-08-26
# ガウス過程を線型常微分方程式系に制約する

Constraining Gaussian Processes to Systems of Linear Ordinary Differential Equations ( http://arxiv.org/abs/2208.12515v1 )

ライセンス: Link先を確認
Andreas Besginow, Markus Lange-Hegermann(参考訳) 多くのアプリケーションにおけるデータは、通常微分方程式(ODE)のシステムに従う。 本稿では,定数係数を持つ線形同次ODEの系を厳密に追従して実現したガウス過程(GP)の共分散関数のアルゴリズム的および記号的構築について述べる。 この強い誘導バイアスをGPに導入すると、そのようなデータのモデリングが改善される。 スミス正規形式アルゴリズム (smith normal form algorithm) と記号的手法 ( symbolic technique) を用いて、(1) 古典的ODEソルバと確率論的解の集合における特定の一意性条件の必要性、(2) 共分散関数の微分方程式を符号化する際に想定される可制御系に対する制約の2つを克服する。 本稿では, LODE-GP の有効性を示す。例えば, 確率を最大化し, 物理的に解釈可能なパラメータを学習する。

Data in many applications follows systems of Ordinary Differential Equations (ODEs). This paper presents a novel algorithmic and symbolic construction for covariance functions of Gaussian Processes (GPs) with realizations strictly following a system of linear homogeneous ODEs with constant coefficients, which we call LODE-GPs. Introducing this strong inductive bias into a GP improves modelling of such data. Using smith normal form algorithms, a symbolic technique, we overcome two current restrictions in the state of the art: (1) the need for certain uniqueness conditions in the set of solutions, typically assumed in classical ODE solvers and their probabilistic counterparts, and (2) the restriction to controllable systems, typically assumed when encoding differential equations in covariance functions. We show the effectiveness of LODE-GPs in a number of experiments, for example learning physically interpretable parameters by maximizing the likelihood.
翻訳日:2022-08-29 12:50:16 公開日:2022-08-26
# ランダム初期条件を持つスパイクテンソルモデルの大規模nダイナミクス

Large-N dynamics of the spiked tensor model with random initial conditions ( http://arxiv.org/abs/2208.12586v1 )

ライセンス: Link先を確認
Vasily Sazonov(参考訳) そこで本稿では, ランダムな初期条件を持つ偏微分方程式に対する経路積分法を開発した。 次に、スパイクテンソルモデルの力学に適用し、大きな n$ 鞍点方程式がメロン型ダイアグラムによって支配されていることを示す。

In these notes, we develop a path integral approach for the partial differential equations with random initial conditions. Then, we apply it to the dynamics of the spiked tensor model and show that the large-$N$ saddle point equations are dominated by the melonic type diagrams.
翻訳日:2022-08-29 12:49:58 公開日:2022-08-26
# ニューラルネットワーク波動関数を用いたab-initio量子化学

Ab-initio quantum chemistry with neural-network wavefunctions ( http://arxiv.org/abs/2208.12590v1 )

ライセンス: Link先を確認
Jan Hermann, James Spencer, Kenny Choo, Antonio Mezzacapo, W. M. C. Foulkes, David Pfau, Giuseppe Carleo, Frank No\'e(参考訳) 機械学習、特にディープラーニングの手法は、多くのパターン認識やデータ処理の問題、ゲームプレイにおいて人間の能力よりも優れており、科学的な発見においてますます重要な役割を担っている。 分子科学における機械学習の重要な応用は、密度汎関数理論、結合クラスタ、その他の量子化学手法を用いて得られたデータセットを用いて、電子シュリンガー方程式のアブ-イニシアト解からポテンシャルエネルギー表面または力場を学ぶことである。 本稿では、機械学習を用いて量子化学問題の直接的な解法を第一原理から支援する、最近の補完的なアプローチについてレビューする。 具体的には、第1量子化と第2量子化、基底状態と励起状態の両面において、電子的シュリンガー方程式を解くためにニューラルネットワークアンサッツ関数を使用する量子モンテカルロ法(QMC)に着目し、複数の核構成を一般化する。 既存の量子化学法と比較すると、これらの新しい深部QMC法は比較的控えめな計算コストでシュリンガー方程式の高精度な解を生成する可能性がある。

Machine learning and specifically deep-learning methods have outperformed human capabilities in many pattern recognition and data processing problems, in game playing, and now also play an increasingly important role in scientific discovery. A key application of machine learning in the molecular sciences is to learn potential energy surfaces or force fields from ab-initio solutions of the electronic Schr\"odinger equation using datasets obtained with density functional theory, coupled cluster, or other quantum chemistry methods. Here we review a recent and complementary approach: using machine learning to aid the direct solution of quantum chemistry problems from first principles. Specifically, we focus on quantum Monte Carlo (QMC) methods that use neural network ansatz functions in order to solve the electronic Schr\"odinger equation, both in first and second quantization, computing ground and excited states, and generalizing over multiple nuclear configurations. Compared to existing quantum chemistry methods, these new deep QMC methods have the potential to generate highly accurate solutions of the Schr\"odinger equation at relatively modest computational cost.
翻訳日:2022-08-29 12:49:52 公開日:2022-08-26
# ラベルなしデータを用いたバイナリ分類器の融合行列と精度統計:診断試験アプローチ

Confusion Matrices and Accuracy Statistics for Binary Classifiers Using Unlabeled Data: The Diagnostic Test Approach ( http://arxiv.org/abs/2208.12664v1 )

ライセンス: Link先を確認
Richard Evans(参考訳) 医学研究者は、比較のためのゴールドスタンダードテストなしでバイナリ医療診断検査の感度と特異性を推定する問題を解決した。 この問題は、ラベルなしデータに対する分類器の混乱行列の推定と同じである。 本稿では,教師付きまたは教師なしバイナリ分類器の混乱行列および精度統計をラベルなしデータ上で推定するために,診断テストソリューションを変更する方法について述べる。

Medical researchers have solved the problem of estimating the sensitivity and specificity of binary medical diagnostic tests without gold standard tests for comparison. That problem is the same as estimating confusion matrices for classifiers on unlabeled data. This article describes how to modify the diagnostic test solutions to estimate confusion matrices and accuracy statistics for supervised or unsupervised binary classifiers on unlabeled data.
翻訳日:2022-08-29 12:49:31 公開日:2022-08-26
# ラプラシアピラミッド型オートエンコーダ

Laplacian Pyramid-like Autoencoder ( http://arxiv.org/abs/2208.12484v1 )

ライセンス: Link先を確認
Sangjun Han, Taeil Hur, Youngmi Hur(参考訳) 本稿では,信号処理における画像解析に広く用いられるラプラシアンピラミッド (lp) の概念を付加することにより,ラプラシアンピラミッドライクオートエンコーダ (lpae) を開発した。 LPAEは、エンコーダ部における近似画像と詳細画像とに画像を分解し、2つの成分を用いてデコーダ部における原画像の再構成を試みる。 LPAEを用いて分類と超解像領域の実験を行った。 細部画像と小サイズ近似画像を分類ネットワークの入力として用いることで,lpaeはモデルをより軽量にする。 さらに,接続された分類ネットワークの性能は依然として著しく高い。 超分解能領域では、デコーダ部がLPの構造に類似するように設定することで高品質な再構成画像が得られることを示す。 これにより、LPAEは、オートエンコーダのデコーダ部と超解像ネットワークを組み合わせることにより、元の結果を改善する。

In this paper, we develop the Laplacian pyramid-like autoencoder (LPAE) by adding the Laplacian pyramid (LP) concept widely used to analyze images in Signal Processing. LPAE decomposes an image into the approximation image and the detail image in the encoder part and then tries to reconstruct the original image in the decoder part using the two components. We use LPAE for experiments on classifications and super-resolution areas. Using the detail image and the smaller-sized approximation image as inputs of a classification network, our LPAE makes the model lighter. Moreover, we show that the performance of the connected classification networks has remained substantially high. In a super-resolution area, we show that the decoder part gets a high-quality reconstruction image by setting to resemble the structure of LP. Consequently, LPAE improves the original results by combining the decoder part of the autoencoder and the super-resolution network.
翻訳日:2022-08-29 12:49:10 公開日:2022-08-26
# 対非アライントレーニングデータを用いた変形同変クロスモダリティ画像合成

Deformation equivariant cross-modality image synthesis with paired non-aligned training data ( http://arxiv.org/abs/2208.12491v1 )

ライセンス: Link先を確認
Joel Honkamaa, Umair Khan, Sonja Koivukoski, Leena Latonen, Pekka Ruusuvuori, Pekka Marttinen(参考訳) クロスモダリティ画像合成は、複数の臨床応用の活発な研究課題である。 近年,ペアデータによるトレーニングを可能にする手法が登場し始めている。 しかし、広い範囲の現実世界のデータセットに適用できる堅牢で優れた方法は存在しない。 本研究では,新たな変形等分散化損失関数を導入することにより,ペアデータと非整合データとの相似画像合成問題に対する汎用解を提案する。 この方法は、画像合成ネットワークと別個の登録ネットワークとの合同訓練からなり、不整合データであっても入力に条件付けされた敵の訓練を可能にする。 この研究は、より難しいデータセットのためのクロスモダリティ画像合成ネットワークの無力なトレーニングを可能にし、新しいジェネリックラーニングベースのクロスモダリティ登録アルゴリズムの開発機会を開放することで、新しい臨床応用のバーを低くする。

Cross-modality image synthesis is an active research topic with multiple medical clinically relevant applications. Recently, methods allowing training with paired but misaligned data have started to emerge. However, no robust and well-performing methods applicable to a wide range of real world data sets exist. In this work, we propose a generic solution to the problem of cross-modality image synthesis with paired but non-aligned data by introducing new deformation equivariance encouraging loss functions. The method consists of joint training of an image synthesis network together with separate registration networks and allows adversarial training conditioned on the input even with misaligned data. The work lowers the bar for new clinical applications by allowing effortless training of cross-modality image synthesis networks for more difficult data sets and opens up opportunities for the development of new generic learning based cross-modality registration algorithms.
翻訳日:2022-08-29 12:48:54 公開日:2022-08-26
# 深層強化学習を用いたフレキシブルエネルギー需要を有するスマートエネルギーネットワークにおけるバッテリと水素エネルギー貯蔵制御

Battery and Hydrogen Energy Storage Control in a Smart Energy Network with Flexible Energy Demand using Deep Reinforcement Learning ( http://arxiv.org/abs/2208.12779v1 )

ライセンス: Link先を確認
Cephas Samende, Zhong Fan and Jun Cao(参考訳) スマートエネルギーネットワークは、太陽や風のような様々な再生可能エネルギー源の高い浸透を許容する効果的な手段を提供する。 しかし, 再生可能エネルギーの変動性とエネルギー需要を考えると, 変動エネルギーの発生を管理し, 望ましいシステム経済と環境目標を達成するために, 効率的な制御・エネルギー貯蔵方式を開発することが不可欠である。 本稿では,電力価格,再生可能エネルギー生産,消費に関する不確実性に対処するため,電池と水素エネルギー貯蔵を組み合わせたハイブリッドエネルギー貯蔵システムを提案する。 我々は,ネットワーク内のエネルギー信頼性と安定性を確保しつつ,再生可能エネルギー利用の改善とエネルギーコストと炭素排出量の最小化を目指す。 これを実現するために,ハイブリッドエネルギー貯蔵システムのスケジューリングとエネルギー需要をリアルタイムに最適化する,深層強化学習に基づく制御戦略である多エージェント深層決定性政策勾配手法を提案する。 提案手法はモデルフリーであり、スマートエネルギーネットワーク環境の明確な知識や厳密な数学的モデルを必要としない。 実世界データに基づくシミュレーションの結果は次のとおりである。 一 ハイブリッドエネルギー貯蔵システムの統合及び最適化運転及びエネルギー需要は、炭素排出量を78.69%削減し、コスト削減を23.5%改善し、再生可能エネルギーの利用を他のベースラインモデルに比べて13.2%以上改善する。 (II)提案アルゴリズムは、ディープQネットワークのような最先端の自己学習アルゴリズムよりも優れている。

Smart energy networks provide for an effective means to accommodate high penetrations of variable renewable energy sources like solar and wind, which are key for deep decarbonisation of energy production. However, given the variability of the renewables as well as the energy demand, it is imperative to develop effective control and energy storage schemes to manage the variable energy generation and achieve desired system economics and environmental goals. In this paper, we introduce a hybrid energy storage system composed of battery and hydrogen energy storage to handle the uncertainties related to electricity prices, renewable energy production and consumption. We aim to improve renewable energy utilisation and minimise energy costs and carbon emissions while ensuring energy reliability and stability within the network. To achieve this, we propose a multi-agent deep deterministic policy gradient approach, which is a deep reinforcement learning-based control strategy to optimise the scheduling of the hybrid energy storage system and energy demand in real-time. The proposed approach is model-free and does not require explicit knowledge and rigorous mathematical models of the smart energy network environment. Simulation results based on real-world data show that: (i) integration and optimised operation of the hybrid energy storage system and energy demand reduces carbon emissions by 78.69%, improves cost savings by 23.5% and renewable energy utilisation by over 13.2% compared to other baseline models and (ii) the proposed algorithm outperforms the state-of-the-art self-learning algorithms like deep-Q network.
翻訳日:2022-08-29 12:48:19 公開日:2022-08-26
# NeuralSI:非線形力学系における構造パラメータ同定

NeuralSI: Structural Parameter Identification in Nonlinear Dynamical Systems ( http://arxiv.org/abs/2208.12771v1 )

ライセンス: Link先を確認
Xuyang Li, Hamed Bolandi, Talal Salem, Nizar Lajnef and Vishnu Naresh Boddeti(参考訳) 複雑な構築環境における構造監視は、しばしば設計、実験室試験、実際の構築パラメータのミスマッチに苦しむ。 さらに、現実世界の構造識別問題には多くの課題がある。 例えば、正確なベースラインモデル、高次元性、複素多変量偏微分方程式(PDE)の欠如は、従来のデータ駆動アルゴリズムの訓練と学習において重大な困難をもたらす。 本稿では,ニューラルネットワークを用いた構造ダイナミクスを制御するpdesの強化により,構造識別のための新しいフレームワークneuralsiについて検討する。 提案手法は, 制御方程式から非線形パラメータを推定する。 2つの未知のパラメータを持つ非線形ビームの振動について考察する。1つは幾何学的および物質的変動を表すもので、もう1つは主に減衰によって系のエネルギー損失を捉えるものである。 パラメータ推定のためのデータは、既存の構造の正確な状態が通常不明であり、フィールドで限られた量のデータサンプルしか収集できない構造的健康モニタリングの応用に導かれる、限られた一連の測定値から得られる。 トレーニングされたモデルは、特定された構造パラメータを使用して、標準条件と極端条件の両方で外挿することもできる。 我々は、純粋データ駆動ニューラルネットワークや他の古典物理学インフォームドニューラルネットワーク(PINN)と比較する。 提案手法は, 変位分布における補間誤差と補間誤差を, ベースライン上で2~5桁程度削減する。 コードはhttps://github.com/human- analysis/neural-structural-identificationで入手できる。

Structural monitoring for complex built environments often suffers from mismatch between design, laboratory testing, and actual built parameters. Additionally, real-world structural identification problems encounter many challenges. For example, the lack of accurate baseline models, high dimensionality, and complex multivariate partial differential equations (PDEs) pose significant difficulties in training and learning conventional data-driven algorithms. This paper explores a new framework, dubbed NeuralSI, for structural identification by augmenting PDEs that govern structural dynamics with neural networks. Our approach seeks to estimate nonlinear parameters from governing equations. We consider the vibration of nonlinear beams with two unknown parameters, one that represents geometric and material variations, and another that captures energy losses in the system mainly through damping. The data for parameter estimation is obtained from a limited set of measurements, which is conducive to applications in structural health monitoring where the exact state of an existing structure is typically unknown and only a limited amount of data samples can be collected in the field. The trained model can also be extrapolated under both standard and extreme conditions using the identified structural parameters. We compare with pure data-driven Neural Networks and other classical Physics-Informed Neural Networks (PINNs). Our approach reduces both interpolation and extrapolation errors in displacement distribution by two to five orders of magnitude over the baselines. Code is available at https://github.com/human-analysis/neural-structural-identification
翻訳日:2022-08-29 12:45:29 公開日:2022-08-26
# DiVa: 差分プライベート機械学習のためのアクセラレータ

DiVa: An Accelerator for Differentially Private Machine Learning ( http://arxiv.org/abs/2208.12392v1 )

ライセンス: Link先を確認
Beomsik Park, Ranggi Hwang, Dongho Yoon, Yoonhyuk Choi, Minsoo Rhu(参考訳) 機械学習(ML)の広範な展開は、トレーニングデータの収集に貢献したユーザのプライバシ保護に対する深刻な懸念を高めている。 差別化プライバシ(DP)は、プライバシー保護の実用的な標準として、業界で急速に勢いを増している。 しかし、DPの重要性にもかかわらず、この新たなMLアルゴリズムがシステム設計に与える影響について、コンピュータシステムコミュニティ内ではほとんど調査されていない。 本研究では,DP-SGD という,最先端の差分型プライベートML トレーニングアルゴリズムの詳細なワークロード評価を行う。 DP-SGD(例えば、その高いメモリ容量と計算要求と非プライベートML)のいくつかのユニークな特性を発見し、その重要なボトルネックを根本原因とした。 そこで本研究では,計算効率を大幅に向上させ,従来のsystolicアレイに比べて2.6倍の高エネルギー効率を実現する,微分プライベートml用アクセラレータdivaを提案する。

The widespread deployment of machine learning (ML) is raising serious concerns on protecting the privacy of users who contributed to the collection of training data. Differential privacy (DP) is rapidly gaining momentum in the industry as a practical standard for privacy protection. Despite DP's importance, however, little has been explored within the computer systems community regarding the implication of this emerging ML algorithm on system designs. In this work, we conduct a detailed workload characterization on a state-of-the-art differentially private ML training algorithm named DP-SGD. We uncover several unique properties of DP-SGD (e.g., its high memory capacity and computation requirements vs. non-private ML), root-causing its key bottlenecks. Based on our analysis, we propose an accelerator for differentially private ML named DiVa, which provides a significant improvement in compute utilization, leading to 2.6x higher energy-efficiency vs. conventional systolic arrays.
翻訳日:2022-08-29 12:43:21 公開日:2022-08-26
# 感情と遊ぶ - 感情駆動強化学習

Play with Emotion: Affect-Driven Reinforcement Learning ( http://arxiv.org/abs/2208.12622v1 )

ライセンス: Link先を確認
Matthew Barthet, Ahmed Khalifa, Antonios Liapis and Georgios N. Yannakakis(参考訳) 本稿では、強化学習(RL)プロセスとして、影響モデリングの課題を観察することでパラダイムシフトを導入する。 提案されたパラダイムによれば、RLエージェントは、環境(文脈)の経験を通じて、報酬(行動的および情緒的パターン)の集合を最大化することによって、ポリシー(感情的相互作用)を学ぶ。 我々の仮説は、RLが織り込みの効果的なパラダイムであり、行動的・情緒的なデモンストレーションによる誘発と顕在化に影響を及ぼすというものである。 重要なことは、ダマシオのソマティックマーカー仮説に関する第2の仮説は、感情が意思決定のファシリテーターになり得るということである。 Go-Blendは、Go-Exploreアルゴリズムの修正版であり、最近、ハードな探索作業において最高のパフォーマンスを示した。 まず,感情と行動パターンのパレットを,指定された報酬に応じて効果的に表示できるエージェントを観察する。 次に、刺激に基づく状態選択機構を使用して、Go-Blendが探求する戦略をバイアスします。 以上の結果から,Go-Blendは効果的な影響モデルパラダイムであるだけでなく,より重要なこととして,ゲーム領域におけるDamasioの仮説を検証し,探索を改善し,より高いパフォーマンスのエージェントが得られることが示唆された。

This paper introduces a paradigm shift by viewing the task of affect modeling as a reinforcement learning (RL) process. According to the proposed paradigm, RL agents learn a policy (i.e. affective interaction) by attempting to maximize a set of rewards (i.e. behavioral and affective patterns) via their experience with their environment (i.e. context). Our hypothesis is that RL is an effective paradigm for interweaving affect elicitation and manifestation with behavioral and affective demonstrations. Importantly, our second hypothesis-building on Damasio's somatic marker hypothesis-is that emotion can be the facilitator of decision-making. We test our hypotheses in a racing game by training Go-Blend agents to model human demonstrations of arousal and behavior; Go-Blend is a modified version of the Go-Explore algorithm which has recently showcased supreme performance in hard exploration tasks. We first vary the arousal-based reward function and observe agents that can effectively display a palette of affect and behavioral patterns according to the specified reward. Then we use arousal-based state selection mechanisms in order to bias the strategies that Go-Blend explores. Our findings suggest that Go-Blend not only is an efficient affect modeling paradigm but, more importantly, affect-driven RL improves exploration and yields higher performing agents, validating Damasio's hypothesis in the domain of games.
翻訳日:2022-08-29 12:42:49 公開日:2022-08-26
# Appleとオレンジの比較:異なる分布から生成されたデータの類似性関数を学習する

Comparing Apples to Oranges: Learning Similarity Functions for Data Produced by Different Distributions ( http://arxiv.org/abs/2208.12731v1 )

ライセンス: Link先を確認
Leonidas Tsepenekas and Ivan Brugere(参考訳) 類似度関数は、要素の対が同等であるかを測り、例えばクラスタリング問題や個人フェアネスの考慮など、幅広いアプリケーションにおいて重要な役割を果たす。 しかし、正確な類似性関数へのアクセスは必ずしも保証されるべきではない。 具体的には、比較対象の要素が異なる分布によって生成される場合、あるいは別の「デムグラフィック」グループに属する場合、それらの真の類似性に関する知識を得るのは非常に困難である。 本稿では,これらグループ間の類似度関数を,少数の専門家のフィードバックのみを用いて学習するサンプリングフレームワークを提案する。 厳密な境界で解析結果を示し,大規模な実験によりアルゴリズムを実証的に検証した。

Similarity functions measure how comparable pairs of elements are, and play a key role in a wide variety of applications, e.g., Clustering problems and considerations of Individual Fairness. However, access to an accurate similarity function should not always be considered guaranteed. Specifically, when the elements to be compared are produced by different distributions, or in other words belong to different ``demographic'' groups, knowledge of their true similarity might be very difficult to obtain. In this work, we present a sampling framework that learns these across-groups similarity functions, using only a limited amount of experts' feedback. We show analytical results with rigorous bounds, and empirically validate our algorithms via a large suite of experiments.
翻訳日:2022-08-29 12:38:19 公開日:2022-08-26
# 集合符号化関数に対するUniversal Mini-Batch Consistency

Universal Mini-Batch Consistency for Set Encoding Functions ( http://arxiv.org/abs/2208.12401v1 )

ライセンス: Link先を確認
Jeffrey Willette, Andreis Bruno, Juho Lee, Sung Ju Hwang(参考訳) 従来の研究は、集合上の操作に必要な性質を保ち、集合要素の置換に不変であるような効果的なアーキテクチャと同様に、神経集合関数の基盤を確立してきた。 その後、最小バッチ整合性(MBC)は、任意のランダムなセット分割スキームの順列処理と、出力の整合性の保証を維持しながら、ネットワークアーキテクチャの限られたオプションで確立された。 さらに、神経集合符号化関数におけるMBC特性について検討し、任意の非MBCモデルをMBCを満たすように変換する方法を確立する。 そこで我々は,集合関数の普遍MBC(Universally-MBC)クラスのためのフレームワークを提供する。 さらに,本フレームワークで実現した興味深いドロップアウト戦略について検討し,テスト時間分布シフトによる確率的キャリブレーションへの影響について検討する。 単体テストによる検証,玩具データに関する定性的・定量的実験,クリーンで破損した点群分類,ImageNetによるクラスタリングなどの検証を行った。 その結果,UMBCの有用性が示され,脱落戦略が不確実性校正を改善することが判明した。

Previous works have established solid foundations for neural set functions, as well as effective architectures which preserve the necessary properties for operating on sets, such as being invariant to permutations of the set elements. Subsequently, Mini-Batch Consistency (MBC), the ability to sequentially process any permutation of any random set partition scheme while maintaining consistency guarantees on the output, has been established but with limited options for network architectures. We further study the MBC property in neural set encoding functions, establishing a method for converting arbitrary non-MBC models to satisfy MBC. In doing so, we provide a framework for a universally-MBC (UMBC) class of set functions. Additionally, we explore an interesting dropout strategy made possible by our framework, and investigate its effects on probabilistic calibration under test-time distributional shifts. We validate UMBC with proofs backed by unit tests, also providing qualitative/quantitative experiments on toy data, clean and corrupted point cloud classification, and amortized clustering on ImageNet. The results demonstrate the utility of UMBC, and we further discover that our dropout strategy improves uncertainty calibration.
翻訳日:2022-08-29 12:37:55 公開日:2022-08-26
# 係数に基づく正規分布回帰

Coefficient-based Regularized Distribution Regression ( http://arxiv.org/abs/2208.12427v1 )

ライセンス: Link先を確認
Yuan Mao, Lei Shi and Zheng-Chu Guo(参考訳) 本稿では,再生成核ヒルベルト空間(rkhs)上の確率測度から実数値応答への回帰を目的とした係数に基づく正規化分布回帰を考える。 このアルゴリズムは2段階のサンプリングを含み、第1段階のサンプルは分布からなり、第2段階のサンプルはこれらの分布から得られる。 回帰関数の正則範囲が異なるアルゴリズムの漸近的挙動を包括的に研究し、学習率を積分演算子法による導出を行う。 1段階のミニマックス最適速度に合致する、いくつかの穏やかな条件下で最適な速度を得る。 文献における分散回帰のカーネル法と比較して、検討中のアルゴリズムは、カーネルが対称で正の半定値であることを必要としないため、分布回帰のテーマを豊かにする不確定なカーネル法を設計するための単純なパラダイムを提供する。 我々の知る限りでは、これは不定値カーネルによる分布回帰の最初の結果であり、アルゴリズムは飽和効果を改善することができる。

In this paper, we consider the coefficient-based regularized distribution regression which aims to regress from probability measures to real-valued responses over a reproducing kernel Hilbert space (RKHS), where the regularization is put on the coefficients and kernels are assumed to be indefinite. The algorithm involves two stages of sampling, the first stage sample consists of distributions and the second stage sample is obtained from these distributions. Asymptotic behaviors of the algorithm in different regularity ranges of the regression function are comprehensively studied and learning rates are derived via integral operator techniques. We get the optimal rates under some mild conditions, which matches the one-stage sampled minimax optimal rate. Compared with the kernel methods for distribution regression in the literature, the algorithm under consideration does not require the kernel to be symmetric and positive semi-definite and hence provides a simple paradigm for designing indefinite kernel methods, which enriches the theme of the distribution regression. To the best of our knowledge, this is the first result for distribution regression with indefinite kernels, and our algorithm can improve the saturation effect.
翻訳日:2022-08-29 12:37:35 公開日:2022-08-26
# オンラインマルコフ決定過程の動的後悔

Dynamic Regret of Online Markov Decision Processes ( http://arxiv.org/abs/2208.12483v1 )

ライセンス: Link先を確認
Peng Zhao and Long-Fei Li and Zhi-Hua Zhou(参考訳) オンラインマルコフ決定過程 (MDP) について, 損失関数や既知の遷移を逆向きに変化させることで検討する。 我々は,学習者と実現可能な変更方針の列間のパフォーマンスの差として定義される,パフォーマンス尺度として動的後悔を選択する。 この尺度は、学習者のパフォーマンスを固定比較ポリシーでベンチマークする標準的な静的後悔よりも厳格に強い。 オンラインMDPの基本モデルとして, エピソードループのないSSP(Stochastic Shortest Path), エピソードSSP, 無限水平MPPの3つを考える。 これら3つのモデルについて,新たなオンラインアンサンブルアルゴリズムを提案し,その動的後悔の保証をそれぞれ確立する。 さらに,学習者が遭遇するオンライン環境が予測可能である場合,改良されたアルゴリズムを設計し,エピソード(ループフリー)SSPの動的後悔境界を改良し,無限水平MDPの不可能な結果を示す。

We investigate online Markov Decision Processes (MDPs) with adversarially changing loss functions and known transitions. We choose dynamic regret as the performance measure, defined as the performance difference between the learner and any sequence of feasible changing policies. The measure is strictly stronger than the standard static regret that benchmarks the learner's performance with a fixed compared policy. We consider three foundational models of online MDPs, including episodic loop-free Stochastic Shortest Path (SSP), episodic SSP, and infinite-horizon MDPs. For these three models, we propose novel online ensemble algorithms and establish their dynamic regret guarantees respectively, in which the results for episodic (loop-free) SSP are provably minimax optimal in terms of time horizon and certain non-stationarity measure. Furthermore, when the online environments encountered by the learner are predictable, we design improved algorithms and achieve better dynamic regret bounds for the episodic (loop-free) SSP; and moreover, we demonstrate impossibility results for the infinite-horizon MDPs.
翻訳日:2022-08-29 12:37:16 公開日:2022-08-26
# ディープラーニングアルゴリズムにおける暗示バイアスについて

On the Implicit Bias in Deep-Learning Algorithms ( http://arxiv.org/abs/2208.12591v1 )

ライセンス: Link先を確認
Gal Vardi(参考訳) 勾配に基づくディープラーニングアルゴリズムは、実際に顕著なパフォーマンスを示すが、なぜトレーニング例よりも多くのパラメータを持つにもかかわらず、一般化できるのかはよく理解されていない。 暗黙の偏見は一般化する能力の重要な要素であり、近年広く研究されていると考えられている。 この短い調査で、暗黙のバイアスの概念を説明し、主な結果をレビューし、その意味について論じる。

Gradient-based deep-learning algorithms exhibit remarkable performance in practice, but it is not well-understood why they are able to generalize despite having more parameters than training examples. It is believed that implicit bias is a key factor in their ability to generalize, and hence it has been widely studied in recent years. In this short survey, we explain the notion of implicit bias, review main results and discuss their implications.
翻訳日:2022-08-29 12:36:55 公開日:2022-08-26
# 線形構造方程式モデルのための因果帯域

Causal Bandits for Linear Structural Equation Models ( http://arxiv.org/abs/2208.12764v1 )

ライセンス: Link先を確認
Burak Varici, Karthikeyan Shanmugam, Prasanna Sattigeri, and Ali Tajer(参考訳) 本稿では,過去最良介入に対する累積後悔を最小限に抑えるために,因果グラフモデルにおける最適な介入系列を設計する問題を考察する。 これは当然、因果的盗賊問題として提起される。 焦点は線形構造方程式モデル(SEM)とソフト介入のための因果包帯である。 グラフの構造は知られており、ノードは$N$である。 2つの線形機構、1つのソフト介入と1つの観察機構が各ノードに対して仮定され、2^n$の介入が可能となる。 既存の因果バンディットアルゴリズムは、少なくとも報酬ノードの両親の介入分布が完全に特定されていると仮定する。 しかし、そのような分布(各介入に対応するもの)は2^N$であり、中程度のグラフでも禁止となる。 本稿では,これらの分布を知るという仮定を省略する。 頻繁性(UCBベース)とベイズ性(トンプソンサンプリングベース)の2つのアルゴリズムを提案する。 これらのアルゴリズムの鍵となる考え方は、$2^N$の報酬分布を直接見積もることを避け、代わりにSEMを完全に指定したパラメータ($N$の線形)を推定し、報酬を計算することである。 どちらのアルゴリズムにおいても、雑音とパラメータ空間の有界性仮定の下では、累積的後悔は$\tilde{\cal o} ((2d)^l l \sqrt{t})$であり、ここで$d$はグラフの最大次数、$l$は最長因果経路の長さである。

This paper studies the problem of designing an optimal sequence of interventions in a causal graphical model to minimize the cumulative regret with respect to the best intervention in hindsight. This is, naturally, posed as a causal bandit problem. The focus is on causal bandits for linear structural equation models (SEMs) and soft interventions. It is assumed that the graph's structure is known, and it has $N$ nodes. Two linear mechanisms, one soft intervention and one observational, are assumed for each node, giving rise to $2^N$ possible interventions. The existing causal bandit algorithms assume that at least the interventional distributions of the reward node's parents are fully specified. However, there are $2^N$ such distributions (one corresponding to each intervention), acquiring which becomes prohibitive even in moderate-sized graphs. This paper dispenses with the assumption of knowing these distributions. Two algorithms are proposed for the frequentist (UCB-based) and Bayesian (Thompson Sampling-based) settings. The key idea of these algorithms is to avoid directly estimating the $2^N$ reward distributions and instead estimate the parameters that fully specify the SEMs (linear in $N$) and use them to compute the rewards. In both algorithms, under boundedness assumptions on noise and the parameter space, the cumulative regrets scale as $\tilde{\cal O} ((2d)^L L \sqrt{T})$, where $d$ is the graph's maximum degree, and $L$ is the length of its longest causal path.
翻訳日:2022-08-29 12:36:47 公開日:2022-08-26
# グループロバスト性を強化したニューラルな機能の1つのグラム

Take One Gram of Neural Features, Get Enhanced Group Robustness ( http://arxiv.org/abs/2208.12625v1 )

ライセンス: Link先を確認
Simon Roburin, Charles Corbi\`ere, Gilles Puy, Nicolas Thome, Matthieu Aubry, Renaud Marlet, Patrick P\'erez(参考訳) 経験的リスク最小化(ERM)で訓練された機械学習モデルの予測性能は、分散シフト下で大幅に低下する可能性がある。 トレーニングデータセットにスプリアス相関が存在するため、erm訓練されたモデルは、そのような相関を示さない少数グループで評価した場合、高い損失を示す。 最悪のグループロバスト性を改善する手法を開発するために大規模な試みがなされている。 しかしながら、各トレーニング入力または少なくとも、ハイパーパラメータをチューニングするためのグループラベルを備えた検証セットに対するグループ情報が必要である。 本稿では,トレーニングや検証においてグループアノテーションを使わずにグループロバスト性を改善するという課題に対処する。 この目的のために, ``identification'''モデルによって抽出された特徴のグラム行列に基づいて, トレーニングデータセットをグループに分割することを提案する。 グループラベルが存在しない現実的な文脈では,我々のアプローチがermに対するグループロバスト性を向上させるだけでなく,最近のすべてのベースラインを上回っていることを示す。

Predictive performance of machine learning models trained with empirical risk minimization (ERM) can degrade considerably under distribution shifts. The presence of spurious correlations in training datasets leads ERM-trained models to display high loss when evaluated on minority groups not presenting such correlations. Extensive attempts have been made to develop methods improving worst-group robustness. However, they require group information for each training input or at least, a validation set with group labels to tune their hyperparameters, which may be expensive to get or unknown a priori. In this paper, we address the challenge of improving group robustness without group annotation during training or validation. To this end, we propose to partition the training dataset into groups based on Gram matrices of features extracted by an ``identification'' model and to apply robust optimization based on these pseudo-groups. In the realistic context where no group labels are available, our experiments show that our approach not only improves group robustness over ERM but also outperforms all recent baselines
翻訳日:2022-08-29 12:36:04 公開日:2022-08-26
# AiM: 教育応用における中国のクローゼテストの正しさを意識して

AiM: Taking Answers in Mind to Correct Chinese Cloze Tests in Educational Applications ( http://arxiv.org/abs/2208.12505v1 )

ライセンス: Link先を確認
Yusen Zhang, Zhongli Li, Qingyu Zhou, Ziyi Liu, Chao Li, Mina Ma, Yunbo Cao, Hongzhi Liu(参考訳) 手書きの代入を自動的に修正するには、OCRモデルを使って文字を認識し、答えと比較する。 ocrモデルは手書きの漢字を認識することで容易に混乱し、モデル推論中に答えのテキスト情報が失われる。 しかし、教師は常に課題の見直しと修正を念頭に置いている。 本稿では,中国のクローゼテストの修正に焦点をあて,マルチモーダルアプローチ(AiM)を提案する。 解答の符号化表現は、学生の手書きの視覚情報と相互作用する。 右」や「ラウンド」を予測する代わりに、回答テキストのシーケンスラベリングを行い、手書きの内容とどの回答キャラクタが違うのかを微妙な方法で推測する。 このタスクの正のサンプルとしてOCRデータセットのサンプルを取り、トレーニングデータをスケールアップするための負のサンプル増分法を開発した。 実験の結果,AiMはOCR法よりも高い性能を示した。 広範な研究により,マルチモーダルアプローチの有効性が実証された。

To automatically correct handwritten assignments, the traditional approach is to use an OCR model to recognize characters and compare them to answers. The OCR model easily gets confused on recognizing handwritten Chinese characters, and the textual information of the answers is missing during the model inference. However, teachers always have these answers in mind to review and correct assignments. In this paper, we focus on the Chinese cloze tests correction and propose a multimodal approach (named AiM). The encoded representations of answers interact with the visual information of students' handwriting. Instead of predicting 'right' or 'wrong', we perform the sequence labeling on the answer text to infer which answer character differs from the handwritten content in a fine-grained way. We take samples of OCR datasets as the positive samples for this task, and develop a negative sample augmentation method to scale up the training data. Experimental results show that AiM outperforms OCR-based methods by a large margin. Extensive studies demonstrate the effectiveness of our multimodal approach.
翻訳日:2022-08-29 12:33:17 公開日:2022-08-26
# コントラスト学習に基づく耳下腺MR画像分割

Parotid Gland MR Image Segmentation Based on Contrastive Learning ( http://arxiv.org/abs/2208.12413v1 )

ライセンス: Link先を確認
Zi'an Xu, Yin Dai, Fayu Liu, Boyuan Wu, Weibing Chen, Lifu Shi(参考訳) 自然画像と比較して、医用画像は取得が難しく、ラベル付けに費用がかかる。 教師なし学習方法としての対比学習は、ラベルなしの医療画像をより効果的に活用することができる。 本稿では,トランスフォーマティブベースのコントラスト学習手法を用いて,コントラスト学習ネットワークとトランスファー学習を革新的に訓練した。 そして、出力モデルを下流の耳下腺分節タスクに転送し、テストセットにおける耳下腺分節モデルの性能を改善した。 改良されたDSCは89.60%、MPAは99.36%、MIoUは85.11%、HDは2.98だった。 4つの指標はいずれも,耳下腺セグメンテーションネットワークの事前学習モデルとして教師あり学習モデルを用いた結果と比較して有意に改善した。 さらに, コントラスト学習モデルによるセグメンテーションネットワークの改善は, 主にエンコーダ部であり, 本論文ではデコーダ部のためのコントラスト学習ネットワークの構築も試み, 構築過程における問題について議論した。

Compared with natural images, medical images are difficult to acquire and costly to label. Contrastive learning, as an unsupervised learning method, can more effectively utilize unlabeled medical images. In this paper, we used a Transformer-based contrastive learning method and innovatively trained the contrastive learning network with transfer learning. Then, the output model was transferred to the downstream parotid segmentation task, which improved the performance of the parotid segmentation model on the test set. The improved DSC was 89.60%, MPA was 99.36%, MIoU was 85.11%, and HD was 2.98. All four metrics showed significant improvement compared to the results of using a supervised learning model as a pre-trained model for the parotid segmentation network. In addition, we found that the improvement of the segmentation network by the contrastive learning model was mainly in the encoder part, so this paper also tried to build a contrastive learning network for the decoder part and discussed the problems encountered in the process of building.
翻訳日:2022-08-29 12:33:02 公開日:2022-08-26
# 正則化ニューラルオードを用いたロバストな原型的少数ショット臓器分節

Robust Prototypical Few-Shot Organ Segmentation with Regularized Neural-ODEs ( http://arxiv.org/abs/2208.12428v1 )

ライセンス: Link先を確認
Prashant Pandey, Mustafa Chasmai, Tanuj Sur, Brejesh Lall(参考訳) イメージセマンティックセグメンテーションにおけるディープラーニングモデルによる大きな進歩にもかかわらず、それらは通常、大きな注釈付き例を必要とし、新しいクラスに一般化するために少量のアノテーションしか必要としないFew-Shot Learning (FSL)のような問題設定に注目が移りつつある。 これは特に、ピクセルレベルの密接なアノテーションが入手に費用がかかる医療領域で顕著である。 本稿では,臓器のFew-Shot Segmentation(FSS)を実行するために,R-PNODE(Regularized Prototypeal Neural Ordinary Differential Equation)を提案する。 R-PNODEは、同じクラスからサポートとクエリを制限し、表現空間に近づくことで、既存の畳み込みニューラルネットワーク(CNN)ベースのFSSメソッドのパフォーマンスを改善する。 さらに,既存の深層cnnベースの手法の多くは,攻撃に対して極めて脆弱な傾向があるが,r-pnodeは,これらの攻撃の広い範囲において,攻撃的ロバスト性が高まることを実証する。 提案手法の有効性を実証するために,3つのマルチオーガンセグメンテーションデータセットをインドメインとクロスドメインのfss設定で実験した。 さらに,R-PNODEのロバスト性を示すため,様々な設定で7種類の敵攻撃実験を行った。 R-PNODEは、FSSのベースラインをかなりのマージンで上回り、強度と設計の異なる幅広い攻撃に対して優れた性能を示す。

Despite the tremendous progress made by deep learning models in image semantic segmentation, they typically require large annotated examples, and increasing attention is being diverted to problem settings like Few-Shot Learning (FSL) where only a small amount of annotation is needed for generalisation to novel classes. This is especially seen in medical domains where dense pixel-level annotations are expensive to obtain. In this paper, we propose Regularized Prototypical Neural Ordinary Differential Equation (R-PNODE), a method that leverages intrinsic properties of Neural-ODEs, assisted and enhanced by additional cluster and consistency losses to perform Few-Shot Segmentation (FSS) of organs. R-PNODE constrains support and query features from the same classes to lie closer in the representation space thereby improving the performance over the existing Convolutional Neural Network (CNN) based FSS methods. We further demonstrate that while many existing Deep CNN based methods tend to be extremely vulnerable to adversarial attacks, R-PNODE exhibits increased adversarial robustness for a wide array of these attacks. We experiment with three publicly available multi-organ segmentation datasets in both in-domain and cross-domain FSS settings to demonstrate the efficacy of our method. In addition, we perform experiments with seven commonly used adversarial attacks in various settings to demonstrate R-PNODE's robustness. R-PNODE outperforms the baselines for FSS by significant margins and also shows superior performance for a wide array of attacks varying in intensity and design.
翻訳日:2022-08-29 12:32:44 公開日:2022-08-26
# TFusion: Transformer ベースの N-to-One Multimodal Fusion Block

TFusion: Transformer based N-to-One Multimodal Fusion Block ( http://arxiv.org/abs/2208.12776v1 )

ライセンス: Link先を確認
Zecheng Liu and Jia Wei and Rui Li(参考訳) 人々は、視覚、聴覚、嗅覚、触覚など、異なる感覚で世界を知覚する。 複数のモダリティから情報を処理し、融合することで、人工知能は私たちの周りの世界をより簡単に理解できるようになる。 しかし、モダリティが欠けている場合、利用可能なモダリティの数は様々な状況で異なるため、n対1の融合問題に繋がる。 そこで本稿では,tfusion という変圧器を用いた核融合ブロックを提案する。 プリセットの定式化や畳み込みに基づく方法とは異なり、提案するブロックは自動的に、合成やゼロパディングの欠如なく利用可能なモダリティを融合することを学習する。 具体的には、上流処理モデルから抽出された特徴表現をトークンとして投影してトランスフォーマー層に供給し、潜在マルチモーダル相関を生成する。 そして、特定のモダリティへの依存を減らすために、下流決定モデルで適用可能な共有表現を構築するためのモーダルアテンション機構を導入する。 提案するtfusionブロックは,既存のマルチモーダル解析ネットワークに容易に統合できる。 本研究では,マルチモーダルなヒト活動認識と脳腫瘍分節タスクのために,異なるバックボーンネットワークにtfusionを適用する。 実験の結果,TFusionブロックは競合する融合戦略よりも優れた性能を示すことがわかった。

People perceive the world with different senses, such as sight, hearing, smell, and touch. Processing and fusing information from multiple modalities enables Artificial Intelligence to understand the world around us more easily. However, when there are missing modalities, the number of available modalities is different in diverse situations, which leads to an N-to-One fusion problem. To solve this problem, we propose a transformer based fusion block called TFusion. Different from preset formulations or convolution based methods, the proposed block automatically learns to fuse available modalities without synthesizing or zero-padding missing ones. Specifically, the feature representations extracted from upstream processing model are projected as tokens and fed into transformer layers to generate latent multimodal correlations. Then, to reduce the dependence on particular modalities, a modal attention mechanism is introduced to build a shared representation, which can be applied by the downstream decision model. The proposed TFusion block can be easily integrated into existing multimodal analysis networks. In this work, we apply TFusion to different backbone networks for multimodal human activity recognition and brain tumor segmentation tasks. Extensive experimental results show that the TFusion block achieves better performance than the competing fusion strategies.
翻訳日:2022-08-29 12:32:15 公開日:2022-08-26
# MuLan:音楽オーディオと自然言語の共同埋め込み

MuLan: A Joint Embedding of Music Audio and Natural Language ( http://arxiv.org/abs/2208.12415v1 )

ライセンス: Link先を確認
Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis(参考訳) 音楽タグ付けとコンテンツに基づく検索システムは、伝統的に音楽属性やテキストクエリの厳密なセットをカバーする事前定義されたオントロジーを用いて構築されてきた。 本稿では,音楽音声と制約なしの自然言語音楽記述を直接リンクする,新しい世代の音響モデルであるMuLanについて述べる。 MuLanは、4400万曲の録音(370万時間)と弱い関連のあるフリーフォームのテキストアノテーションを使って訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をとっている。 様々な音楽ジャンルやテキストスタイル(従来の音楽タグを含む)との互換性により、オーディオテキスト表現は既存のオントロジーを仮定し、真のゼロショット機能に到達した。 本研究では,移動学習,ゼロショット音楽タグ付け,音楽領域における言語理解,モーダル間検索など,様々な実験により,MuLan埋め込みの汎用性を実証する。

Music tagging and content-based retrieval systems have traditionally been constructed using pre-defined ontologies covering a rigid set of music attributes or text queries. This paper presents MuLan: a first attempt at a new generation of acoustic models that link music audio directly to unconstrained natural language music descriptions. MuLan takes the form of a two-tower, joint audio-text embedding model trained using 44 million music recordings (370K hours) and weakly-associated, free-form text annotations. Through its compatibility with a wide range of music genres and text styles (including conventional music tags), the resulting audio-text representation subsumes existing ontologies while graduating to true zero-shot functionalities. We demonstrate the versatility of the MuLan embeddings with a range of experiments including transfer learning, zero-shot music tagging, language understanding in the music domain, and cross-modal retrieval applications.
翻訳日:2022-08-29 12:31:37 公開日:2022-08-26
# 時間分解イベントから学ぶLSTM埋め込みの静的検索とクラスタリング

Static Seeding and Clustering of LSTM Embeddings to Learn from Loosely Time-Decoupled Events ( http://arxiv.org/abs/2208.12389v1 )

ライセンス: Link先を確認
Christian Manasseh, Razvan Veliche, Jared Bennett, Hamilton Clouse(参考訳) 人間は異なる場所や時間における出来事の発生から学び、同様の出来事の軌跡を予測する。 我々は、ゆるく分離された時系列(ldt)現象を、異なる場所や異なるタイムラインで起こりうる2つ以上の事象として定義し、イベントの性質と場所の性質の類似性を共有している。 本研究では、Long Short-Term Memory(LSTM)ネットワークにおけるRecurring Neural Networks(RNN)の使用を改善し、LDTのタイミング予測を改善するAIソリューションを実現する。 傾向に基づく時系列間の類似度尺度を用い,その傾向を表す組込みを導入する。 埋め込みは、LSTM構造と結合したイベントの特性を表し、同様に時間的に不整合なイベントを特定するためにクラスタ化することができる。 本稿では,多変量LSTMのシード法について,LSTMでモデル化されている物理現象と人口動態に関する時間不変データから検討する。 これらの手法を,新型コロナウイルス感染および死亡例から得られた時系列データに適用する。 社会経済的データを公開してLSTMモデルをシードし、埋め込みを作成し、そのようなシードがケース予測を改善するかどうかを判断する。 これらのLSTMによって生成された埋め込みはクラスタ化され、進化する時系列を予測する最良のマッチング候補を特定する。 本手法の適用により,US郡レベルでの10日間移動平均疾患伝播予測の改善が示された。

Humans learn from the occurrence of events in a different place and time to predict similar trajectories of events. We define Loosely Decoupled Timeseries (LDT) phenomena as two or more events that could happen in different places and across different timelines but share similarities in the nature of the event and the properties of the location. In this work we improve on the use of Recurring Neural Networks (RNN), in particular Long Short-Term Memory (LSTM) networks, to enable AI solutions that generate better timeseries predictions for LDT. We use similarity measures between timeseries based on the trends and introduce embeddings representing those trends. The embeddings represent properties of the event which, coupled with the LSTM structure, can be clustered to identify similar temporally unaligned events. In this paper, we explore methods of seeding a multivariate LSTM from time-invariant data related to the geophysical and demographic phenomena being modeled by the LSTM. We apply these methods on the timeseries data derived from the COVID-19 detected infection and death cases. We use publicly available socio-economic data to seed the LSTM models, creating embeddings, to determine whether such seeding improves case predictions. The embeddings produced by these LSTMs are clustered to identify best-matching candidates for forecasting an evolving timeseries. Applying this method, we show an improvement in 10-day moving average predictions of disease propagation at the US County level.
翻訳日:2022-08-29 12:31:01 公開日:2022-08-26
# 深層ハイパーグラフ構造学習

Deep Hypergraph Structure Learning ( http://arxiv.org/abs/2208.12547v1 )

ライセンス: Link先を確認
Zizhao Zhang, Yifan Feng, Shihui Ying, Yue Gao(参考訳) 高次相関の学習は、近年ハイパーグラフが広く使われているデータ表現学習において優位性を示している。 ハイパーグラフニューラルネットワークのようなハイパーグラフに基づく表現学習手法の性能は、ハイパーグラフ構造の品質に大きく依存する。 データのハイパーグラフ構造をどのように生成するかはまだ難しい課題です。 データの欠如とノイズはハイパーグラフ構造における"悪い接続"を引き起こし、ハイパーグラフベースの表現学習プロセスを破壊する可能性がある。 したがって、高次構造、すなわち観測データの背後にあるハイパーグラフを明らかにすることは緊急だが重要なタスクとなる。 本稿では,ハイパーグラフを用いた表現学習のためのハイパーグラフ構造を最適化するために,ディープハイパーグラフ構造学習の一般的なパラダイム,すなわちdeephgslを設計する。 具体的には、ロバスト性問題のための情報ボトルネック原理に着想を得て、まずhypergraph情報ボトルネック(hib)原則によって名付けられたhypergraphケースに拡張します。 次に、この原理をハイパーグラフ構造学習の指導に応用し、hibはハイパーグラフ構造におけるノイズ情報を最小限に抑えるために損失関数を構築する。 ハイパーグラフ構造を最適化することができ、このプロセスは正しい接続を強化し、トレーニングフェーズで間違った接続を弱めると見なすことができる。 そこで提案手法は, 強雑音構造であっても, より頑健な表現を抽出する利点がある。 最後に、表現学習のための4つのベンチマークデータセットでモデルを評価する。 グラフおよびハイパーグラフ構造データの実験結果は,他の最先端手法と比較して,本手法の有効性とロバスト性を示した。

Learning on high-order correlation has shown superiority in data representation learning, where hypergraph has been widely used in recent decades. The performance of hypergraph-based representation learning methods, such as hypergraph neural networks, highly depends on the quality of the hypergraph structure. How to generate the hypergraph structure among data is still a challenging task. Missing and noisy data may lead to "bad connections" in the hypergraph structure and destroy the hypergraph-based representation learning process. Therefore, revealing the high-order structure, i.e., the hypergraph behind the observed data, becomes an urgent but important task. To address this issue, we design a general paradigm of deep hypergraph structure learning, namely DeepHGSL, to optimize the hypergraph structure for hypergraph-based representation learning. Concretely, inspired by the information bottleneck principle for the robustness issue, we first extend it to the hypergraph case, named by the hypergraph information bottleneck (HIB) principle. Then, we apply this principle to guide the hypergraph structure learning, where the HIB is introduced to construct the loss function to minimize the noisy information in the hypergraph structure. The hypergraph structure can be optimized and this process can be regarded as enhancing the correct connections and weakening the wrong connections in the training phase. Therefore, the proposed method benefits to extract more robust representations even on a heavily noisy structure. Finally, we evaluate the model on four benchmark datasets for representation learning. The experimental results on both graph- and hypergraph-structured data demonstrate the effectiveness and robustness of our method compared with other state-of-the-art methods.
翻訳日:2022-08-29 12:30:38 公開日:2022-08-26
# マルコフモデルを用いた親和性に基づく強化学習エージェントの記号的説明

Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models ( http://arxiv.org/abs/2208.12627v1 )

ライセンス: Link先を確認
Charl Maree and Christian W. Omlin(参考訳) 人工知能の増殖は、ますますモデル理解に依存している。 モデルの振る舞いに関する人間の推論である解釈と、モデルの機能の象徴的な表現である説明の両方を要求する。 安全、信頼、受容のための透明性の必須性にもかかわらず、最先端の強化学習アルゴリズムの不透明さは、彼らの学習戦略の素性を隠す。 我々は,学習戦略のグローバルな本質的親和性を主張する政策規則化手法を開発した。 これらの親和性は、政策の振る舞いを推論する手段を提供し、本質的に解釈可能である。 我々は、個人が投資戦略を定めているパーソナライズされた繁栄管理において、個別の支出個人が異なる投資クラスと異なる関係を持つ可能性があることを実証した。 我々は, 離散マルコフモデルを用いて, 基礎となる原型的ポリシーを再現することで, モデルを説明する。 これらのグローバルサロゲートは原型的な政策の象徴的表現である。

The proliferation of artificial intelligence is increasingly dependent on model understanding. Understanding demands both an interpretation - a human reasoning about a model's behavior - and an explanation - a symbolic representation of the functioning of the model. Notwithstanding the imperative of transparency for safety, trust, and acceptance, the opacity of state-of-the-art reinforcement learning algorithms conceals the rudiments of their learned strategies. We have developed a policy regularization method that asserts the global intrinsic affinities of learned strategies. These affinities provide a means of reasoning about a policy's behavior, thus making it inherently interpretable. We have demonstrated our method in personalized prosperity management where individuals' spending behavior in time dictate their investment strategies, i.e. distinct spending personalities may have dissimilar associations with different investment classes. We now explain our model by reproducing the underlying prototypical policies with discretized Markov models. These global surrogates are symbolic representations of the prototypical policies.
翻訳日:2022-08-29 12:30:13 公開日:2022-08-26
# Qラーニングに基づく動的価格設定によるP2Pエネルギー自動取引の展望

Prospect Theory-inspired Automated P2P Energy Trading with Q-learning-based Dynamic Pricing ( http://arxiv.org/abs/2208.12777v1 )

ライセンス: Link先を確認
Ashutosh Timilsina, Simone Silvestri(参考訳) 分散エネルギー資源の普及とスマートグリッド技術の出現により、従来の受動的電力システム利用者はエネルギー取引に積極的に関与するようになった。 従来の中央集権的グリッド駆動型エネルギー市場は、これらのユーザにとって利益が最小限であるという事実を認識し、最近の研究は、分散ピアツーピア(P2P)エネルギー市場へと焦点を移している。 これらの市場では、ユーザーは互いにエネルギーを交換し、グリッドへの売買よりも高い利益を享受する。 しかし、p2pエネルギー取引のほとんどの研究は、常に可用性、参加、完全なコンプライアンスを前提として、取引プロセスにおけるユーザの認識をほとんど見落としている。 その結果、これらのアプローチはネガティブな態度をもたらし、時間の経過とともにエンゲージメントを減少させる可能性がある。 本稿では,ユーザの認識を考慮に入れたP2P自動エネルギー市場を設計する。 ユーザ認識をモデル化し,需要と生産を充足しながら購入者の知覚を最大化するために最適化枠組みを定式化する。 最適化問題の非線形および非凸の性質を考慮し,DEbATEと呼ばれる取引エネルギーの微分進化に基づくアルゴリズムを提案する。 さらに,q-learning and risk-sensitivity (pqr) を組み込んだ価格設定機構であるリスクに敏感なq-learningアルゴリズムを導入する。 実際のエネルギー消費と生産の痕跡と現実的な予測理論関数に基づく結果から,近年のアートアプローチと比較して,購入者に対する認識価値は26%高く,販売者に対する報酬は7%増加した。

The widespread adoption of distributed energy resources, and the advent of smart grid technologies, have allowed traditionally passive power system users to become actively involved in energy trading. Recognizing the fact that the traditional centralized grid-driven energy markets offer minimal profitability to these users, recent research has shifted focus towards decentralized peer-to-peer (P2P) energy markets. In these markets, users trade energy with each other, with higher benefits than buying or selling to the grid. However, most researches in P2P energy trading largely overlook the user perception in the trading process, assuming constant availability, participation, and full compliance. As a result, these approaches may result in negative attitudes and reduced engagement over time. In this paper, we design an automated P2P energy market that takes user perception into account. We employ prospect theory to model the user perception and formulate an optimization framework to maximize the buyer's perception while matching demand and production. Given the non-linear and non-convex nature of the optimization problem, we propose Differential Evolution-based Algorithm for Trading Energy called DEbATE. Additionally, we introduce a risk-sensitive Q-learning algorithm, named Pricing mechanism with Q-learning and Risk-sensitivity (PQR), which learns the optimal price for sellers considering their perceived utility. Results based on real traces of energy consumption and production, as well as realistic prospect theory functions, show that our approach achieves a 26% higher perceived value for buyers and generates 7% more reward for sellers, compared to a recent state of the art approach.
翻訳日:2022-08-29 12:27:12 公開日:2022-08-26
# GHN-Q:グラフハイパーネットによる未確認量子化畳み込みアーキテクチャのパラメータ予測

GHN-Q: Parameter Prediction for Unseen Quantized Convolutional Architectures via Graph Hypernetworks ( http://arxiv.org/abs/2208.12489v1 )

ライセンス: Link先を確認
Stone Yun, Alexander Wong(参考訳) 反復最適化による深層畳み込みニューラルネットワーク(CNN)トレーニングは、最適なパラメータを見つけるのに驚くほど成功した。 しかし、現代のCNNアーキテクチャは数百万のパラメータを含むことが多い。 したがって、単一のアーキテクチャに対する任意のモデルは、巨大なパラメータ空間に存在する。 類似した損失を持つモデルは、逆ロバスト性、一般化性、量子化ロバスト性など、著しく異なる特性を持つ可能性がある。 エッジのディープラーニングでは、量子化の堅牢性が重要になることが多い。 量子化ロバストモデルを見つけるには、多大な労力を要することがある。 グラフハイパーネット(GHN)を用いた最近の研究は、様々なCNNアーキテクチャの高性能パラメータを予測する顕著な性能を示している。 これらの成功に触発されて、GHN-2のグラフ表現は、GHN-Qと呼ばれる量子化-ロバストパラメータの予測にも活用できるのだろうか。 量子化cnnアーキテクチャのパラメータ予測におけるグラフハイパーネットワークの利用を初めて検討した。 我々は、cnn探索空間の縮小に着目し、ghn-qが様々な8ビット量子化cnnの量子化-ロバストパラメータを実際に予測できることを見いだす。 ghn-qがトレーニングされていないにもかかわらず、4ビットの量子化でもまともな量子化アキュラシーが観察される。 低ビット幅でのGHN-Qの量子微調整はさらなる改善をもたらし、現在検討中である。

Deep convolutional neural network (CNN) training via iterative optimization has had incredible success in finding optimal parameters. However, modern CNN architectures often contain millions of parameters. Thus, any given model for a single architecture resides in a massive parameter space. Models with similar loss could have drastically different characteristics such as adversarial robustness, generalizability, and quantization robustness. For deep learning on the edge, quantization robustness is often crucial. Finding a model that is quantization-robust can sometimes require significant efforts. Recent works using Graph Hypernetworks (GHN) have shown remarkable performance predicting high-performant parameters of varying CNN architectures. Inspired by these successes, we wonder if the graph representations of GHN-2 can be leveraged to predict quantization-robust parameters as well, which we call GHN-Q. We conduct the first-ever study exploring the use of graph hypernetworks for predicting parameters of unseen quantized CNN architectures. We focus on a reduced CNN search space and find that GHN-Q can in fact predict quantization-robust parameters for various 8-bit quantized CNNs. Decent quantized accuracies are observed even with 4-bit quantization despite GHN-Q not being trained on it. Quantized finetuning of GHN-Q at lower bitwidths may bring further improvements and is currently being explored.
翻訳日:2022-08-29 12:26:24 公開日:2022-08-26
# 深層学習を用いた肺生検画像のEGFR変異予測

EGFR Mutation Prediction of Lung Biopsy Images using Deep Learning ( http://arxiv.org/abs/2208.12506v1 )

ライセンス: Link先を確認
Ravi Kant Gupta, Shivani Nandgaonkar, Nikhil Cherian Kurian, Swapnil Rane, Amit Sethi(参考訳) 肺がん治療における標的治療の標準的な診断手順は、組織学的サブタイプとEGFRなどの主要なドライバ変異の検出を含む。 分子プロファイリングはドライバーの突然変異を解明するが、プロセスはしばしば高価で時間がかかる。 ディープラーニングに基づく画像解析は、全スライド画像(wsis)から直接ドライバ変異を検出するための、より経済的な代替手段を提供する。 本研究では,ヘマトキシリンおよびエオシンステインwsisのegfr変異の形態的相関を,腫瘍の検出と組織学的にサブタイプすることに加えて,微調整された深層学習パイプラインを用いて同定した。 本研究は,2つの肺癌データセット(tcgaとインドからのプライベートデータセット)について厳密な実験とアブレーションを行い,本パイプラインの有効性を実証する。 TCGAデータセットの腺癌と扁平上皮癌との組織型別では平均 0.964 の腫瘍検出率,0.942 の値を得た。 EGFR検出では,TGAデータセットでは平均0.864AUC,インドからのデータセットでは0.783AUCを達成した。 私たちの学習ポイントは以下のとおりです。 第一に、対象データセット上の特徴抽出器を微調整しようとする場合、ヒストロジーに基づいて訓練された特徴抽出層を使用するという特別な利点はない。 第2に、腫瘍領域を捕捉する可能性のある高い細胞性を有するパッチを選択することは必ずしも有用ではない。

The standard diagnostic procedures for targeted therapies in lung cancer treatment involve histological subtyping and subsequent detection of key driver mutations, such as EGFR. Even though molecular profiling can uncover the driver mutation, the process is often expensive and time-consuming. Deep learning-oriented image analysis offers a more economical alternative for discovering driver mutations directly from whole slide images (WSIs). In this work, we used customized deep learning pipelines with weak supervision to identify the morphological correlates of EGFR mutation from hematoxylin and eosin-stained WSIs, in addition to detecting tumor and histologically subtyping it. We demonstrate the effectiveness of our pipeline by conducting rigorous experiments and ablation studies on two lung cancer datasets - TCGA and a private dataset from India. With our pipeline, we achieved an average area under the curve (AUC) of 0.964 for tumor detection, and 0.942 for histological subtyping between adenocarcinoma and squamous cell carcinoma on the TCGA dataset. For EGFR detection, we achieved an average AUC of 0.864 on the TCGA dataset and 0.783 on the dataset from India. Our key learning points include the following. Firstly, there is no particular advantage of using a feature extractor layers trained on histology, if one is going to fine-tune the feature extractor on the target dataset. Secondly, selecting patches with high cellularity, presumably capturing tumor regions, is not always helpful, as the sign of a disease class may be present in the tumor-adjacent stroma.
翻訳日:2022-08-29 12:26:06 公開日:2022-08-26
# 低リソース言語における偽ニュース検出のための言語間伝達学習

Cross-lingual Transfer Learning for Fake News Detector in a Low-Resource Language ( http://arxiv.org/abs/2208.12482v1 )

ライセンス: Link先を確認
Sangdo Han(参考訳) 低リソース言語における偽ニュース(FN)を検出する手法の開発は、トレーニングデータの欠如によって妨げられている。 本研究では,高資源言語からのトレーニングデータのみを用いてこの問題を解決する。 fn検出システムは,検出知識を言語に伝達する逆学習を適用することで,この戦略を許容した。 知識伝達を支援するため,本システムは,話者の信頼度を表す言語横断的特徴である情報源情報を利用して,記事の信頼性を判断する。 実験では、機械翻訳トレーニングデータセットを使用するシステムよりも3.71%精度が高かった。 さらに,偽ニュース検出のための言語横断的特徴利用により,精度が3.03%向上した。

Development of methods to detect fake news (FN) in low-resource languages has been impeded by a lack of training data. In this study, we solve the problem by using only training data from a high-resource language. Our FN-detection system permitted this strategy by applying adversarial learning that transfers the detection knowledge through languages. To assist the knowledge transfer, our system judges the reliability of articles by exploiting source information, which is a cross-lingual feature that represents the credibility of the speaker. In experiments, our system got 3.71% higher accuracy than a system that uses a machine-translated training dataset. In addition, our suggested cross-lingual feature exploitation for fake news detection improved accuracy by 3.03%.
翻訳日:2022-08-29 12:24:35 公開日:2022-08-26
# GRASP: Promptを用いたRelAtional Semanticsを用いたガイダンスモデル

GRASP: Guiding model with RelAtional Semantics using Prompt ( http://arxiv.org/abs/2208.12494v1 )

ライセンス: Link先を確認
Junyoung Son, Jinsung Kim, Jungwoo Lim, Heuiseok Lim(参考訳) 対話に基づく関係抽出(ダイアログ)タスクは、対話に現れる議論ペア間の関係を予測することを目的としている。 これまでのほとんどの研究では、複数の話者による対話の低情報密度を補うために、微調整事前学習言語モデル(PLM)を広範囲にしか用いていない。 余分な層を持たずにplmの固有知識を効果的に活用し、引数間の関係に関する散在した意味的手がかりを検討するため、promp(grasp)を用いた関係意味論を用いた指導モデルを提案する。 我々は,プロンプトに基づく微調整手法を採用し,与えられた対話の意味的手がかりをキャプチャする。 1)引数認識型プロンプトマーカー戦略と 2) 関係手がかり検出タスク。 実験では, GRASPは, 余分なレイヤを追加せずにPLMのみを利用するにもかかわらず, ダイアログREデータセット上でのF1とF1cのスコアで最先端のパフォーマンスを達成する。

The dialogue-based relation extraction (DialogRE) task aims to predict the relations between argument pairs that appear in dialogue. Most previous studies utilize fine-tuning pre-trained language models (PLMs) only with extensive features to supplement the low information density of the dialogue by multiple speakers. To effectively exploit inherent knowledge of PLMs without extra layers and consider scattered semantic cues on the relation between the arguments, we propose a Guiding model with RelAtional Semantics using Prompt (GRASP). We adopt a prompt-based fine-tuning approach and capture relational semantic clues of a given dialogue with 1) an argument-aware prompt marker strategy and 2) the relational clue detection task. In the experiments, GRASP achieves state-of-the-art performance in terms of both F1 and F1c scores on a DialogRE dataset even though our method only leverages PLMs without adding any extra layers.
翻訳日:2022-08-29 12:24:25 公開日:2022-08-26
# 畳み込みオートエンコーダによる次元の削減と分類

Supervised Dimensionality Reduction and Classification with Convolutional Autoencoders ( http://arxiv.org/abs/2208.12152v2 )

ライセンス: Link先を確認
Ioannis A. Nellas, Sotiris K. Tasoulis, Vassilis P. Plagianakos and Spiros V. Georgakopoulos(参考訳) 再構成と分類誤差の合同最適化は、特に非線型写像を利用する場合、困難な非凸問題である。 この障害を克服するために、次元低減のための畳み込みオートエンコーダと、完全連結ネットワークからなる分類器とを組み合わせることで、教師付き次元低減と予測を同時に行う新しい最適化戦略を提案する。 この方法論は、ディープラーニングアーキテクチャの説明可能性を高める上で、非常に有益であることが判明した。 さらに、結果として生じる潜在空間は分類タスクに最適化され、従来の解釈可能な分類アルゴリズムを改善するのに利用できる。 実験の結果,提案手法は,パラメータ数の観点からははるかに効率的でありながら,最先端の深層学習手法と競合する結果を得た。 最後に,提案手法が,生成した潜在空間を通したデータ構造だけでなく,分類行動についても,高度な説明可能性を導入することを実証的に証明した。

The joint optimization of the reconstruction and classification error is a hard non convex problem, especially when a non linear mapping is utilized. In order to overcome this obstacle, a novel optimization strategy is proposed, in which a Convolutional Autoencoder for dimensionality reduction and a classifier composed by a Fully Connected Network, are combined to simultaneously produce supervised dimensionality reduction and predictions. It turned out that this methodology can also be greatly beneficial in enforcing explainability of deep learning architectures. Additionally, the resulting Latent Space, optimized for the classification task, can be utilized to improve traditional, interpretable classification algorithms. The experimental results, showed that the proposed methodology achieved competitive results against the state of the art deep learning methods, while being much more efficient in terms of parameter count. Finally, it was empirically justified that the proposed methodology introduces advanced explainability regarding, not only the data structure through the produced latent space, but also about the classification behaviour.
翻訳日:2022-08-29 10:47:56 公開日:2022-08-26
# リレーショナル・サイクリゼーションによるサイクル付き関係因果モデル学習

Learning Relational Causal Models with Cycles through Relational Acyclification ( http://arxiv.org/abs/2208.12210v2 )

ライセンス: Link先を確認
Ragib Ahsan, David Arbour, Elena Zheleva(参考訳) 相互影響や相互結合単位間の因果効果を含む実世界の現象では、平衡状態は典型的にはグラフィカルモデルのサイクルで表される。 グラフィカルモデルの表現型クラス \textit{relational causal model} は、そのようなサイクルやフィードバックループを示す複雑な力学系を表現し、推論することができる。 観測データから因果モデルを学習するための既存の巡回因果発見アルゴリズムは、データインスタンスが独立で同一に分散していると仮定し、関係因果モデルには適さない。 同時に、関係因果モデルに対する因果発見アルゴリズムが非巡回性を仮定する。 本研究では,制約に基づく関係因果探索アルゴリズムが正当かつ完全である必要十分条件について検討する。 循環関係因果モデルの識別可能性に関する推論を可能にする関係モデル専用に設計された演算である \textit{relational acyclification} を導入する。 関係の循環化と$\sigma$-faithfulnessという仮定の下では、関係因果発見アルゴリズムrcd(maier et al. 2013)は巡回モデルに対して健全かつ完全であることが示されている。 我々の主張を支持する実験結果を示す。

In real-world phenomena which involve mutual influence or causal effects between interconnected units, equilibrium states are typically represented with cycles in graphical models. An expressive class of graphical models, \textit{relational causal models}, can represent and reason about complex dynamic systems exhibiting such cycles or feedback loops. Existing cyclic causal discovery algorithms for learning causal models from observational data assume that the data instances are independent and identically distributed which makes them unsuitable for relational causal models. At the same time, causal discovery algorithms for relational causal models assume acyclicity. In this work, we examine the necessary and sufficient conditions under which a constraint-based relational causal discovery algorithm is sound and complete for \textit{cyclic relational causal models}. We introduce \textit{relational acyclification}, an operation specifically designed for relational models that enables reasoning about the identifiability of cyclic relational causal models. We show that under the assumptions of relational acyclification and $\sigma$-faithfulness, the relational causal discovery algorithm RCD (Maier et al. 2013) is sound and complete for cyclic models. We present experimental results to support our claim.
翻訳日:2022-08-29 10:47:40 公開日:2022-08-26
# ニューラルネットワークを用いた混合整数計画のための生涯学習

Lifelong Learning for Neural powered Mixed Integer Programming ( http://arxiv.org/abs/2208.12226v2 )

ライセンス: Link先を確認
Sahil Manchanda, Sayan Ranu(参考訳) 混合整数プログラム(mips)は一般に分岐・境界アルゴリズムによって解かれる。 近年,MIPの解決に要する実行時間を短縮することに成功したため,専門家の強い分岐ヒューリスティックの高速近似を模倣する学習が注目されている。 しかし、既存の学習とブランチの手法では、トレーニングデータ全体が単一のトレーニングセッションで利用できると仮定している。 この仮定はしばしば真実ではなく、トレーニングデータが連続的に供給された場合、既存のテクニックは破滅的な忘れがちである。 本研究では,混合整数プログラムの分岐に対する生涯学習の未探索パラダイムについて検討する。 破滅的な忘れを緩和するために,二部グラフの形でMIPインスタンスをモデル化し,二部グラフアテンションネットワークを用いて埋め込み空間にマップするLIMIPを提案する。 このリッチな埋め込み空間は、知識蒸留と弾性重み付けの応用による破滅的な忘れ込みを回避し、有効性を維持するためのパラメーターを学習し、したがって大きなドリフトから保護される。 我々は,NP-hard問題に対するLIMIPの評価を行い,既存のベースラインと比較すると,生涯学習に直面すると,LIMIPが最大50%向上することが確認された。

Mixed Integer programs (MIPs) are typically solved by the Branch-and-Bound algorithm. Recently, Learning to imitate fast approximations of the expert strong branching heuristic has gained attention due to its success in reducing the running time for solving MIPs. However, existing learning-to-branch methods assume that the entire training data is available in a single session of training. This assumption is often not true, and if the training data is supplied in continual fashion over time, existing techniques suffer from catastrophic forgetting. In this work, we study the hitherto unexplored paradigm of Lifelong Learning to Branch on Mixed Integer Programs. To mitigate catastrophic forgetting, we propose LIMIP, which is powered by the idea of modeling an MIP instance in the form of a bipartite graph, which we map to an embedding space using a bipartite Graph Attention Network. This rich embedding space avoids catastrophic forgetting through the application of knowledge distillation and elastic weight consolidation, wherein we learn the parameters key towards retaining efficacy and are therefore protected from significant drift. We evaluate LIMIP on a series of NP-hard problems and establish that in comparison to existing baselines, LIMIP is up to 50% better when confronted with lifelong learning.
翻訳日:2022-08-29 10:47:16 公開日:2022-08-26
# 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習

Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path ( http://arxiv.org/abs/2208.11639v2 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar(参考訳) 平均フィールドゲームにおけるオンライン強化学習について考察する。 既存の研究とは対照的に,汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発することにより,平均フィールドオラクルの必要性を緩和する。 これをサンドボックス学習と呼び、マルチエージェント非協調環境で動作しているエージェントのウォームスタートとして使用できる。 我々は、平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し、汎用エージェントのより高速な時間スケールに対する制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。 十分な探索条件下では、平均場と平均場平衡への制御ポリシーの収束の観点から有限サンプル収束保証を提供する。 サンドボックス学習アルゴリズムのサンプル複雑性は$\mathcal{o}(\epsilon^{-4})$である。 最後に,混雑ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証する。

We consider online reinforcement learning in Mean-Field Games. In contrast to the existing works, we alleviate the need for a mean-field oracle by developing an algorithm that estimates the mean-field and the optimal policy using a single sample path of the generic agent. We call this Sandbox Learning, as it can be used as a warm-start for any agent operating in a multi-agent non-cooperative setting. We adopt a two timescale approach in which an online fixed-point recursion for the mean-field operates on a slower timescale and in tandem with a control policy update on a faster timescale for the generic agent. Under a sufficient exploration condition, we provide finite sample convergence guarantees in terms of convergence of the mean-field and control policy to the mean-field equilibrium. The sample complexity of the Sandbox learning algorithm is $\mathcal{O}(\epsilon^{-4})$. Finally, we empirically demonstrate effectiveness of the sandbox learning algorithm in a congestion game.
翻訳日:2022-08-29 09:14:14 公開日:2022-08-26