このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210918となっている論文です。

PDF登録状況(公開日: 20210918)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) システムレベルの機械学習ハイブリッドアーキテクチャの提案と包括的自閉症スペクトラム障害診断へのアプローチ [全文訳有]

Proposing a System Level Machine Learning Hybrid Architecture and Approach for a Comprehensive Autism Spectrum Disorder Diagnosis ( http://arxiv.org/abs/2110.03775v1 )

ライセンス: CC0 1.0
Ryan Liu and Spencer He(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder,ASD)は、知的発達、社会的行動、顔の特徴に影響を及ぼす重度の神経精神疾患であり、症例数は依然として著しく増加している。 様々な症状がasdディスプレイに表示されているため、診断プロセスは困難であり、多くの誤診と、長く高価な診断が行われる。 幸いなことに、早期にALDが診断され治療された場合、正常に進行する可能性がずっと高い。 ASD診断には、機械学習アルゴリズムが社会的行動と顔の特徴の両方を正確かつ効率的に分析し、現在の臨床診断プロセスよりもはるかに短い時間でASD診断を行うことができる。 そこで本稿では,ASDの診断精度を向上させるために,社会的行動と顔の特徴データの両方を活用するハイブリッドアーキテクチャを提案する。 まず,自閉症診断観測スケジュール(ados)社会行動データを分析するソーシャル行動ベースモジュールのためのリニアサポートベクターマシンを開発した。 顔特徴ベースモジュールでは, 顔特徴画像データの解析に密度ネットモデルを用いた。 最後に,Support Vector MachineとDenseNetの異なる特徴を1つのモデルに組み込むことで,ハイブリッドモデルを実装した。 以上の結果から, 提案するハイブリッドモデルにより, asd診断における87%の精度が得られた。 この論文では各モジュールの長所と短所について論じる。

Autism Spectrum Disorder (ASD) is a severe neuropsychiatric disorder that affects intellectual development, social behavior, and facial features, and the number of cases is still significantly increasing. Due to the variety of symptoms ASD displays, the diagnosis process remains challenging, with numerous misdiagnoses as well as lengthy and expensive diagnoses. Fortunately, if ASD is diagnosed and treated early, then the patient will have a much higher chance of developing normally. For an ASD diagnosis, machine learning algorithms can analyze both social behavior and facial features accurately and efficiently, providing an ASD diagnosis in a drastically shorter amount of time than through current clinical diagnosis processes. Therefore, we propose to develop a hybrid architecture fully utilizing both social behavior and facial feature data to improve the accuracy of diagnosing ASD. We first developed a Linear Support Vector Machine for the social behavior based module, which analyzes Autism Diagnostic Observation Schedule (ADOS) social behavior data. For the facial feature based module, a DenseNet model was utilized to analyze facial feature image data. Finally, we implemented our hybrid model by incorporating different features of the Support Vector Machine and the DenseNet into one model. Our results show that the highest accuracy of 87% for ASD diagnosis has been achieved by our proposed hybrid model. The pros and cons of each module will be discussed in this paper.
翻訳日:2021-10-17 16:56:12 公開日:2021-09-18
# マルチインスタンスGPUを用いた実時間DNNモデル:再構成可能なマシンスケジューリング問題の事例

Serving DNN Models with Multi-Instance GPUs: A Case of the Reconfigurable Machine Scheduling Problem ( http://arxiv.org/abs/2109.11067v1 )

ライセンス: Link先を確認
Cheng Tan, Zhichao Li, Jian Zhang, Yu Cao, Sikai Qi, Zherui Liu, Yibo Zhu, Chuanxiong Guo(参考訳) マルチインスタンスGPU(MIG)は、NVIDIA A100 GPUによって導入された新機能で、1つの物理GPUを複数のGPUインスタンスに分割する。 MIGでは、A100はDeep Neural Networks(DNN)を提供する上で、最もコスト効率のよいGPUとなる。 しかし、最も効率的なGPUパーティションを見つけることは難しい。 根本的な問題はnp-hardであり、さらに、再構成可能なマシンスケジューリング問題(rms)として定義する新しい抽象的な問題である。 RMSの新しい症例であるMIGを用いたDNNについて検討する。 さらに、MIGサービングというソリューションを提案する。 mig- servingは、ヒューリスティック・グリーディアルゴリズム、遺伝的アルゴリズム(ga)、モンテカルロ木探索アルゴリズム(mcts)など、新しく設計されたアルゴリズムとカスタマイズされた古典アルゴリズムを組み合わせたアルゴリズムパイプラインである。 私たちはKubernetesにMIGサービスを実装しています。 実験の結果、A100 as-isを使用する場合と比較して、MIGサービングは同じスループットを提供しながら、最大40%のGPUを節約できることがわかった。

Multi-Instance GPU (MIG) is a new feature introduced by NVIDIA A100 GPUs that partitions one physical GPU into multiple GPU instances. With MIG, A100 can be the most cost-efficient GPU ever for serving Deep Neural Networks (DNNs). However, discovering the most efficient GPU partitions is challenging. The underlying problem is NP-hard; moreover, it is a new abstract problem, which we define as the Reconfigurable Machine Scheduling Problem (RMS). This paper studies serving DNNs with MIG, a new case of RMS. We further propose a solution, MIG-serving. MIG- serving is an algorithm pipeline that blends a variety of newly designed algorithms and customized classic algorithms, including a heuristic greedy algorithm, Genetic Algorithm (GA), and Monte Carlo Tree Search algorithm (MCTS). We implement MIG-serving on Kubernetes. Our experiments show that compared to using A100 as-is, MIG-serving can save up to 40% of GPUs while providing the same throughput.
翻訳日:2021-09-26 22:33:23 公開日:2021-09-18
# オンラインマッチング市場におけるオフラインエージェントの公正化

Fairness Maximization among Offline Agents in Online-Matching Markets ( http://arxiv.org/abs/2109.08934v1 )

ライセンス: Link先を確認
Will Ma, Pan Xu, and Yifan Xu(参考訳) マッチングマーケットには、相互利益のためにペアを組む異種エージェント(典型的には2つのパーティから)が含まれる。 過去10年間で、マッチング市場はインターネットのメディアを通じて急速に成長してきた。 それらは、クラウドソーシングからオンラインレコメンデーション、ライドシェアリングまで幅広い例を含む、オンラインマッチングマーケット(omms)と呼ばれる新しいフォーマットへと進化した。 OMMと従来のマッチング市場を区別する2つの特徴がある。 ひとつは、市場の片側がダイナミックに到着することです。これらをオンラインエージェントと呼び、残りはオフラインエージェントと呼んでいます。 オンラインおよびオフラインエージェントの例としては、Google Advertisingのキーワード(オンライン)とスポンサー(オフライン)、Amazon Mechanical Turk(AMT)のワーカー(オンライン)とタスク(オフライン)、ライドシェアリングにおけるライダー(オンライン)とドライバー(短時間のウィンドウに制限された場合のオフライン)がある。 OMMの2つ目の特徴はリアルタイム意思決定要素である。 しかし、これらのOMMで決定を下すアルゴリズムは、オフラインエージェントの一致率に相違があることが研究によって示されている。 例えば、社会経済的地位の低い地域のタスクはギグワーカーとほとんど一致せず、特定の人種や性別のドライバーはマッチメイキングにおいて差別される。 本稿では,OMMにおけるオフラインエージェント間の個人レベルの公平度を最適化するオンラインマッチングアルゴリズムを提案する。 本稿では,各グループフェアネス最大化(IFM)に対して少なくとも0.725、グループフェアネス最大化(GFM)に対して0.719のオンライン競争率を達成する2つの線形プログラミング(LP)に基づくサンプリングアルゴリズムを提案する。 より広範な数値実験を行い,提案アルゴリズムの強化版は,概念的に実装が容易であるだけでなく,フェアネス・最大化関連モデルの実用事例にも有効であることを示した。

Matching markets involve heterogeneous agents (typically from two parties) who are paired for mutual benefit. During the last decade, matching markets have emerged and grown rapidly through the medium of the Internet. They have evolved into a new format, called Online Matching Markets (OMMs), with examples ranging from crowdsourcing to online recommendations to ridesharing. There are two features distinguishing OMMs from traditional matching markets. One is the dynamic arrival of one side of the market: we refer to these as online agents while the rest are offline agents. Examples of online and offline agents include keywords (online) and sponsors (offline) in Google Advertising; workers (online) and tasks (offline) in Amazon Mechanical Turk (AMT); riders (online) and drivers (offline when restricted to a short time window) in ridesharing. The second distinguishing feature of OMMs is the real-time decision-making element. However, studies have shown that the algorithms making decisions in these OMMs leave disparities in the match rates of offline agents. For example, tasks in neighborhoods of low socioeconomic status rarely get matched to gig workers, and drivers of certain races/genders get discriminated against in matchmaking. In this paper, we propose online matching algorithms which optimize for either individual or group-level fairness among offline agents in OMMs. We present two linear-programming (LP) based sampling algorithms, which achieve online competitive ratios at least 0.725 for individual fairness maximization (IFM) and 0.719 for group fairness maximization (GFM), respectively. We conduct extensive numerical experiments and results show that our boosted version of sampling algorithms are not only conceptually easy to implement but also highly effective in practical instances of fairness-maximizatio n-related models.
翻訳日:2021-09-23 13:36:07 公開日:2021-09-18
# (参考訳) 総合的なレコメンダシステムの概要と感性分析

A Comprehensive Overview of Recommender System and Sentiment Analysis ( http://arxiv.org/abs/2109.08794v1 )

ライセンス: CC BY 4.0
Sumaia Mohammed AL-Ghuribi and Shahrul Azman Mohd Noah(参考訳) 多くの分野においてレコメンダシステムは極めて重要であることが証明されており、様々なドメインで広く利用されている。 従来のレコメンダシステムのほとんどは、消費されたアイテムに対する彼の意見を反映して、ユーザが与える数値評価に依存しているが、これらの評価は、多くのドメインでは利用できない。 その結果、ユーザの生成したレビューに代表される新たな情報ソースがレコメンデーションプロセスに組み込まれ、これらの評価の欠如を補償する。 レビューは、全項目または感情分析フィールドを用いて抽出できる特定の特徴に関する、豊かで多数の情報を含む。 本稿では,レコメンデーションシステムと感情分析の活用を目指す研究者を支援するために,包括的概要を提供する。 これには、フェーズ、アプローチ、レコメンダシステムで使用されるパフォーマンスメトリクスなど、レコメンダシステムの概念の背景が含まれている。 次に、感情分析の概念について議論し、レベル、アプローチを含む感情分析の要点を強調し、アスペクトベースの感情分析に焦点を当てる。

Recommender system has been proven to be significantly crucial in many fields and is widely used by various domains. Most of the conventional recommender systems rely on the numeric rating given by a user to reflect his opinion about a consumed item; however, these ratings are not available in many domains. As a result, a new source of information represented by the user-generated reviews is incorporated in the recommendation process to compensate for the lack of these ratings. The reviews contain prosperous and numerous information related to the whole item or a specific feature that can be extracted using the sentiment analysis field. This paper gives a comprehensive overview to help researchers who aim to work with recommender system and sentiment analysis. It includes a background of the recommender system concept, including phases, approaches, and performance metrics used in recommender systems. Then, it discusses the sentiment analysis concept and highlights the main points in the sentiment analysis, including level, approaches, and focuses on aspect-based sentiment analysis.
翻訳日:2021-09-23 12:36:59 公開日:2021-09-18
# (参考訳) 構造工学におけるデータ可視化のためのt-SNEアルゴリズムの実証評価 [全文訳有]

An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in Structural Engineering ( http://arxiv.org/abs/2109.08795v1 )

ライセンス: CC BY 4.0
Parisa Hajibabaee, Farhad Pourkamali-Anaraki, Mohammad Amin Hariri-Ardebili(参考訳) 機械学習における基本的なタスクは、高インパクトアプリケーションドメインで発生する高次元データセットを可視化することである。 大規模な不均衡データのコンテキストを考えると、この問題はさらに難しくなる。 本稿では, t-Distributed Stochastic Neighbor Embedding (t-SNE) アルゴリズムを用いて, 可視化のための地震工学関連データセットの寸法を縮小する。 不均衡なデータセットは分類器の精度に大きな影響を与えるため、これらのデータセットの不均衡の性質に取り組むためにSMOTE(Synthetic Minority Oversampling Technique)を用いる。 本稿では, t-SNE と SMOTE から得られた結果を, 基本的なアプローチと様々な側面を比較した。 4つの選択肢と6つの分類アルゴリズムを考慮すると、不均衡なデータにt-SNE、トレーニングデータセットにSMOTEを用いることで、ニューラルネットワーク分類器は精度を犠牲にすることなく有望な結果が得られることを示す。 これにより、研究対象の科学的データを2次元(2次元)空間に変換することができ、2次元プロットを用いて分類器と結果の決定面の可視化が可能となる。

A fundamental task in machine learning involves visualizing high-dimensional data sets that arise in high-impact application domains. When considering the context of large imbalanced data, this problem becomes much more challenging. In this paper, the t-Distributed Stochastic Neighbor Embedding (t-SNE) algorithm is used to reduce the dimensions of an earthquake engineering related data set for visualization purposes. Since imbalanced data sets greatly affect the accuracy of classifiers, we employ Synthetic Minority Oversampling Technique (SMOTE) to tackle the imbalanced nature of such data set. We present the result obtained from t-SNE and SMOTE and compare it to the basic approaches with various aspects. Considering four options and six classification algorithms, we show that using t-SNE on the imbalanced data and SMOTE on the training data set, neural network classifiers have promising results without sacrificing accuracy. Hence, we can transform the studied scientific data into a two-dimensional (2D) space, enabling the visualization of the classifier and the resulting decision surface using a 2D plot.
翻訳日:2021-09-23 12:35:56 公開日:2021-09-18
# (参考訳) BERT-Beta:テキストモデレーションに対する確率的確率論的アプローチ [全文訳有]

BERT-Beta: A Proactive Probabilistic Approach to Text Moderation ( http://arxiv.org/abs/2109.08805v1 )

ライセンス: CC0 1.0
Fei Tan, Yifan Hu, Kevin Yen, Changwei Hu(参考訳) ユーザ間の健全なインタラクションを促進するためのユーザ生成コンテンツのテキストモデレーションが広く研究され,多くの機械学習モデルが提案されている。 本研究では,反応レビューを積極的に予測することで,新たな視点を探求する。 具体的には,テキストに有害なコメントが寄せられる程度を特徴付ける新しい概念「ittext toxicity propensity」を提案する。 ベータ回帰は確率的モデリングを行うために導入され、包括的な実験でうまく機能することが示されている。 また,モデル決定を明確化するための説明手法を提案する。 傾向スコアと解釈は、新しい方法でテキストモデレーションの恩恵を受ける。 最後に、線形モデルのスケーリングメカニズムの提案は、この研究以外の有用な洞察を提供する。

Text moderation for user generated content, which helps to promote healthy interaction among users, has been widely studied and many machine learning models have been proposed. In this work, we explore an alternative perspective by augmenting reactive reviews with proactive forecasting. Specifically, we propose a new concept {\it text toxicity propensity} to characterize the extent to which a text tends to attract toxic comments. Beta regression is then introduced to do the probabilistic modeling, which is demonstrated to function well in comprehensive experiments. We also propose an explanation method to communicate the model decision clearly. Both propensity scoring and interpretation benefit text moderation in a novel manner. Finally, the proposed scaling mechanism for the linear model offers useful insights beyond this work.
翻訳日:2021-09-23 12:23:51 公開日:2021-09-18
# (参考訳) 中国・スペイン合同臨床試験報告 : 眼科領域所見による早期感染リスクスクリーニング [全文訳有]

The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk Screening by Eye-region Manifestations ( http://arxiv.org/abs/2109.08807v1 )

ライセンス: CC BY-SA 4.0
Yanwei Fu, Feng Li, Paula boned Fustel, Lei Zhao, Lijie Jia, Haojie Zheng, Qiang Sun, Shisong Rong, Haicheng Tang, Xiangyang Xue, Li Yang, Hong Li, Jiao Xie Wenxuan Wang, Yuan Li, Wei Wang, Yantao Pei, Jianmin Wang, Xiuqi Wu, Yanhua Zheng, Hongxia Tian, Mengwei Gu(参考訳) 背景:世界的な新型コロナウイルス感染者の増加は、新型コロナウイルスの検査需要の急増につながった。 人口レベルでの迅速かつ正確で費用対効果の高い新型コロナウイルススクリーニングテストは、世界的に必須の需要である。 方法:covid-19の眼症状に基づいて,中国とスペインで撮影されたアイリージョン画像を用いた,covid-19ラピッド・プレスクリーニングモデルの開発とテストを行った。 畳み込みニューラルネットワーク(cnns)ベースのモデルは、これらの眼画像に基づいて訓練され、covid-19の症例を特定するバイナリ分類タスクを完了しました。 性能は,受信者動作特性曲線(auc),感度,特異性,精度,f1の下の領域を用いて測定した。 アプリケーションプログラミングインタフェースはオープンアクセスであった。 多施設調査の結果,開発データセットでは657名(155名,23.6%)に対応する2436件,テストデータセットでは478名(64名,13.4%)に対応する2138件であった。 中国・スペインのマルチセンター研究において、COVID-19プリスクリーニングモデルの画質は0.913(95% CI, 0.898-0.927)、感度は0.695(95% CI, 0.643-0.748)、特異度は0.904(95% CI, 0.891-0.919)、精度は0.875(0.861-0.889)、F1(0.568-0.655)である。 解釈:cnnベースのcovid-19ラピッドプレスクリーニングモデルは、信頼性のある特異性と感度を有する。 このシステムは、低コストで、完全自己パフォーマンスで、非侵襲的でリアルタイムなフィードバックソリューションで、継続的監視と、COVID-19の大規模迅速事前スクリーニングを提供する。 資金提供:このプロジェクトはAimomics(上海)のIntelligentが支援

Background: The worldwide surge in coronavirus cases has led to the COVID-19 testing demand surge. Rapid, accurate, and cost-effective COVID-19 screening tests working at a population level are in imperative demand globally. Methods: Based on the eye symptoms of COVID-19, we developed and tested a COVID-19 rapid prescreening model using the eye-region images captured in China and Spain with cellphone cameras. The convolutional neural networks (CNNs)-based model was trained on these eye images to complete binary classification task of identifying the COVID-19 cases. The performance was measured using area under receiver-operating-c haracteristic curve (AUC), sensitivity, specificity, accuracy, and F1. The application programming interface was open access. Findings: The multicenter study included 2436 pictures corresponding to 657 subjects (155 COVID-19 infection, 23.6%) in development dataset (train and validation) and 2138 pictures corresponding to 478 subjects (64 COVID-19 infections, 13.4%) in test dataset. The image-level performance of COVID-19 prescreening model in the China-Spain multicenter study achieved an AUC of 0.913 (95% CI, 0.898-0.927), with a sensitivity of 0.695 (95% CI, 0.643-0.748), a specificity of 0.904 (95% CI, 0.891 -0.919), an accuracy of 0.875(0.861-0.889), and a F1 of 0.611(0.568-0.655). Interpretation: The CNN-based model for COVID-19 rapid prescreening has reliable specificity and sensitivity. This system provides a low-cost, fully self-performed, non-invasive, real-time feedback solution for continuous surveillance and large-scale rapid prescreening for COVID-19. Funding: This project is supported by Aimomics (Shanghai) Intelligent
翻訳日:2021-09-23 12:15:22 公開日:2021-09-18
# (参考訳) H YouTube:ビデオハーモニゼーションデータセット [全文訳有]

HYouTube: Video Harmonization Dataset ( http://arxiv.org/abs/2109.08809v1 )

ライセンス: CC0 1.0
Xinyuan Lu, Shengyuan Huang, Li Niu, Wenyan Cong, Liqing Zhang(参考訳) ビデオコンポジションは、あるビデオの前景と別のビデオの背景を組み合わせることで合成ビデオを生成することを目的としているが、挿入された前景は、色と照明の点で背景と相容れない可能性がある。 video harmonizationは、複合ビデオの前景を調整して、背景と互換性を持たせることを目的としている。 これまでのところ、ビデオハーモニゼーションは限定的であり、ビデオハーモニゼーションのためのパブリックデータセットはない。 本研究では,合成合成ビデオを作成するために,実映像の前景を調整することで,新しいビデオ調和データセットHYouTubeを構築する。 実合成ビデオと合成合成ビデオのドメインギャップを考慮すると、コピー&ペーストで100本の実合成ビデオを作成することができる。 データセットはhttps://github.com/b cmi/Video-Harmonizat ion-Dataset-HYouTube で入手できる。

Video composition aims to generate a composite video by combining the foreground of one video with the background of another video, but the inserted foreground may be incompatible with the background in terms of color and illumination. Video harmonization aims to adjust the foreground of a composite video to make it compatible with the background. So far, video harmonization has only received limited attention and there is no public dataset for video harmonization. In this work, we construct a new video harmonization dataset HYouTube by adjusting the foreground of real videos to create synthetic composite videos. Considering the domain gap between real composite videos and synthetic composite videos, we additionally create 100 real composite videos via copy-and-paste. Datasets are available at https://github.com/b cmi/Video-Harmonizat ion-Dataset-HYouTube .
翻訳日:2021-09-23 12:04:44 公開日:2021-09-18
# (参考訳) 創造性のための現代的進化戦略:コンクリート像と抽象概念を適合させる [全文訳有]

Modern Evolution Strategies for Creativity: Fitting Concrete Images and Abstract Concepts ( http://arxiv.org/abs/2109.08857v1 )

ライセンス: CC BY 4.0
Yingtao Tian, David Ha(参考訳) 進化的アルゴリズムは1970年代からデジタルアートシーンで使われてきた。 遺伝的アルゴリズムの一般的な応用は、与えられた絵に似たベクトルグラフィックプリミティブの手続き的な配置を最適化することである。 近年,勾配降下法を用いて最適化可能な手続き図を作成するための深層学習に基づく手法が提案されている。 本研究では,進化的アルゴリズムを用いた創造性について再検討する。 現代の進化戦略 (ES) アルゴリズムは, 形状の配置を課題とした場合, 従来の遺伝的アルゴリズムと比較して, 品質と効率性に大きな改善が得られ, 勾配に基づく手法に匹敵する結果となった。 ESは,CLIPモデルに適合する形状の配置を最適化するのにも適しており,人間の言語解釈に適合する多種多様な幾何学的抽象化を生成できることを示す。 ビデオとデモ: https://es-clip.gith ub.io/

Evolutionary algorithms have been used in the digital art scene since the 1970s. A popular application of genetic algorithms is to optimize the procedural placement of vector graphic primitives to resemble a given painting. In recent years, deep learning-based approaches have also been proposed to generate procedural drawings, which can be optimized using gradient descent. In this work, we revisit the use of evolutionary algorithms for computational creativity. We find that modern evolution strategies (ES) algorithms, when tasked with the placement of shapes, offer large improvements in both quality and efficiency compared to traditional genetic algorithms, and even comparable to gradient-based methods. We demonstrate that ES is also well suited at optimizing the placement of shapes to fit the CLIP model, and can produce diverse, distinct geometric abstractions that are aligned with human interpretation of language. Videos and demo: https://es-clip.gith ub.io/
翻訳日:2021-09-23 11:58:44 公開日:2021-09-18
# (参考訳) 1次・0次最適化のための高速可変誘導条件勾配スライディングアルゴリズム

An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm for First-order and Zeroth-order Optimization ( http://arxiv.org/abs/2109.08858v1 )

ライセンス: CC BY 4.0
Xiyuan Wei, Bin Gu and Heng Huang(参考訳) 条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、制約された問題を解くためにプロジェクションフリーな性質のため、機械学習コミュニティで最近人気を取り戻している。 条件勾配アルゴリズムの多くの変種は性能向上のために提案されているが、最適化には1次情報(勾配)に依存する。 当然、これらのアルゴリズムは、ゼロ階情報(関数値)のみが利用可能な、人気の高いゼロ階最適化の分野で適切に機能することができない。 このギャップを埋めるために、有限サム問題に対して、一階情報またはゼロ階情報を用いて最適化できる新しいARCS(Accelerated variance-Reduced Conditional Gradient Sliding)アルゴリズムを提案する。 我々の知る限り、ARCSはゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。 1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。 最後に,実世界のデータセットを用いた実験によりARCSの優位性を検証した。

The conditional gradient algorithm (also known as the Frank-Wolfe algorithm) has recently regained popularity in the machine learning community due to its projection-free property to solve constrained problems. Although many variants of the conditional gradient algorithm have been proposed to improve performance, they depend on first-order information (gradient) to optimize. Naturally, these algorithms are unable to function properly in the field of increasingly popular zeroth-order optimization, where only zeroth-order information (function value) is available. To fill in this gap, we propose a novel Accelerated variance-Reduced Conditional gradient Sliding (ARCS) algorithm for finite-sum problems, which can use either first-order or zeroth-order information to optimize. To the best of our knowledge, ARCS is the first zeroth-order conditional gradient sliding type algorithms solving convex problems in zeroth-order optimization. In first-order optimization, the convergence results of ARCS substantially outperform previous algorithms in terms of the number of gradient query oracle. Finally we validated the superiority of ARCS by experiments on real-world datasets.
翻訳日:2021-09-23 11:45:39 公開日:2021-09-18
# (参考訳) 差分プライバシー保証を備えたグラフニューラルネットワークのリリース [全文訳有]

Releasing Graph Neural Networks with Differential Privacy Guarantees ( http://arxiv.org/abs/2109.08907v1 )

ライセンス: CC BY 4.0
Iyiola E. Olatunji, Thorben Funke, and Megha Khosla(参考訳) 医療や医療などの機密性の高いアプリケーションでグラフニューラルネットワーク(GNN)の人気が高まっているため、トレーニングされたGNNのプライバシー面での懸念が高まっている。 特に、GNNは、トレーニングされたモデルへのブラックボックスアクセスのみを許可しても、メンバーシップ推論攻撃のようなプライバシー攻撃に弱い。 防御を構築するために、差分プライバシーは、トレーニングデータセットでセンシティブなデータを偽装するメカニズムとして登場した。 PATE(Private Aggregation of Teacher Ensembles)の戦略に従い、近年の手法は教師モデルの大規模なアンサンブルを活用する。 これらの教師は、プライベートデータの分離されたサブセットで訓練を受け、学生モデルに知識を伝達するために雇われ、プライバシー保証付きで解放される。 しかし、グラフデータを多くの不整合トレーニングセットに分割すると、構造情報が破壊され、精度に悪影響を及ぼす可能性がある。 本稿では,学生のGNNをリリースするグラフ固有の新しいスキームを提案する。 学生GNNは、公開データを使用してトレーニングされ、部分的には、各クエリノードにのみトレーニングされた教師GNNモデルを使用して、プライベートにラベル付けされる。 理論的には、我々のアプローチをR\`{e}nyi差分プライバシーフレームワークで分析し、プライバシー保証を提供します。 さらに,グラフ構造データに適合するPATEベースラインを含む,いくつかのベースラインと比較して,本手法の堅牢な実験性能を示す。 匿名コードも利用可能です。

With the increasing popularity of Graph Neural Networks (GNNs) in several sensitive applications like healthcare and medicine, concerns have been raised over the privacy aspects of trained GNNs. More notably, GNNs are vulnerable to privacy attacks, such as membership inference attacks, even if only blackbox access to the trained model is granted. To build defenses, differential privacy has emerged as a mechanism to disguise the sensitive data in training datasets. Following the strategy of Private Aggregation of Teacher Ensembles (PATE), recent methods leverage a large ensemble of teacher models. These teachers are trained on disjoint subsets of private data and are employed to transfer knowledge to a student model, which is then released with privacy guarantees. However, splitting graph data into many disjoint training sets may destroy the structural information and adversely affect accuracy. We propose a new graph-specific scheme of releasing a student GNN, which avoids splitting private training data altogether. The student GNN is trained using public data, partly labeled privately using the teacher GNN models trained exclusively for each query node. We theoretically analyze our approach in the R\`{e}nyi differential privacy framework and provide privacy guarantees. Besides, we show the solid experimental performance of our method compared to several baselines, including the PATE baseline adapted for graph-structured data. Our anonymized code is available.
翻訳日:2021-09-23 11:44:19 公開日:2021-09-18
# (参考訳) MS-SincResNet:音楽ジャンル分類のためのマルチスケールSincNetとResNetを用いた1Dおよび2Dカーネルの共同学習 [全文訳有]

MS-SincResNet: Joint learning of 1D and 2D kernels using multi-scale SincNet and ResNet for music genre classification ( http://arxiv.org/abs/2109.08910v1 )

ライセンス: CC BY 4.0
Pei-Chun Chang, Yong-Sheng Chen and Chang-Hsing Lee(参考訳) 本研究では,音楽ジャンル分類のための新しいエンドツーエンド畳み込みニューラルネットワークms-sincresnetを提案する。 MS-SincResNetはトレーニング段階で1Dカーネルと2Dカーネルを共同学習するために、2D ResNetに1DのマルチスケールSincNet(MS-SincNet)を付加する。 まず、入力された音楽信号が複数の固定デュレーション(3秒)音楽クリップに分割され、各音楽クリップの生波形が1D MS-SincNetフィルタ学習モジュールに入力され、3チャンネル2D表現が得られる。 学習された表現は、スペクトログラム、ハーモニックスペクトログラム、パーカッシブスペクトログラム、メルスペクトログラムと比較して、豊富な音節、高調波、打楽器特性を持っている。 ResNetは、これらの2D表現から識別的な埋め込みを抽出するために使用される。 空間ピラミッドプーリング(spp)モジュールはさらに、時間面と周波数面の両方の観点から特徴判別性を高め、各音楽クリップの分類ラベルを得るために使用される。 最後に、投票戦略を適用し、全3秒音楽クリップの分類結果を要約する。 実験の結果,提案するms-sincresnetは,sincnetのベースラインを上回っており,多くの手作り機能を備えている。 個々の2D表現を考慮すると、MS-SincResNetはGTZANデータセットとISMIR2004データセットの最先端メソッドと競合する結果を得る。 コードはhttps://github.com/P eiChunChang/MS-SincR esNetで入手できる。

In this study, we proposed a new end-to-end convolutional neural network, called MS-SincResNet, for music genre classification. MS-SincResNet appends 1D multi-scale SincNet (MS-SincNet) to 2D ResNet as the first convolutional layer in an attempt to jointly learn 1D kernels and 2D kernels during the training stage. First, an input music signal is divided into a number of fixed-duration (3 seconds in this study) music clips, and the raw waveform of each music clip is fed into 1D MS-SincNet filter learning module to obtain three-channel 2D representations. The learned representations carry rich timbral, harmonic, and percussive characteristics comparing with spectrograms, harmonic spectrograms, percussive spectrograms and Mel-spectrograms. ResNet is then used to extract discriminative embeddings from these 2D representations. The spatial pyramid pooling (SPP) module is further used to enhance the feature discriminability, in terms of both time and frequency aspects, to obtain the classification label of each music clip. Finally, the voting strategy is applied to summarize the classification results from all 3-second music clips. In our experimental results, we demonstrate that the proposed MS-SincResNet outperforms the baseline SincNet and many well-known hand-crafted features. Considering individual 2D representation, MS-SincResNet also yields competitive results with the state-of-the-art methods on the GTZAN dataset and the ISMIR2004 dataset. The code is available at https://github.com/P eiChunChang/MS-SincR esNet
翻訳日:2021-09-23 11:28:12 公開日:2021-09-18
# (参考訳) 畳み込みニューラルネットワークを用いた水中画像強調 [全文訳有]

Underwater Image Enhancement Using Convolutional Neural Network ( http://arxiv.org/abs/2109.08916v1 )

ライセンス: CC BY 4.0
Anushka Yadav, Mayank Upadhyay, Ghanapriya Singh(参考訳) 本研究では,ヒストグラム等化原理を用いた水中画像強調手法を提案する。 水中画像は地球規模で支配的な色であるため、その色彩やコントラストはしばしば劣化する。 画像にヒストグラム等化技術を適用する前に、カラー画像からグレースケール画像に変換してさらなる操作を行う。 ヒストグラム等化はコントラストを高めるために画像強度を調整する技法である。 画像の色は、水中画像のデータセットによって訓練された畳み込みニューラルネットワークモデルを使用して保持され、より良い結果が得られる。

This work proposes a method for underwater image enhancement using the principle of histogram equalization. Since underwater images have a global strong dominant colour, their colourfulness and contrast are often degraded. Before applying the histogram equalisation technique on the image, the image is converted from coloured image to a gray scale image for further operations. Histogram equalization is a technique for adjusting image intensities to enhance contrast. The colours of the image are retained using a convolutional neural network model which is trained by the datasets of underwater images to give better results.
翻訳日:2021-09-23 11:14:23 公開日:2021-09-18
# (参考訳) 神経ファジィ論理を用いた説明可能なファジィ推論 [全文訳有]

Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic ( http://arxiv.org/abs/2109.08927v1 )

ライセンス: CC BY 4.0
Zijun Wu, Atharva Naik, Zi Xuan Zhang, Lili Mou(参考訳) 自然言語推論(NLI)は,対象ラベルであるEntailment,Contradic tion,Neutralの2つの文間の論理的関係を決定することを目的としている。 近年、ディープラーニングモデルはNLIの一般的なアプローチとなっているが、解釈可能性や説明性は欠如している。 本研究では,NLIの論理的推論が弱いことによる説明可能性に対処し,説明可能なPhrasal Reasoning(EPR)アプローチを提案する。 本モデルではまず,単語を意味単位として検出し,対応するフレーズをアライメントする。 そして、モデルが一致した句のNLIラベルを予測し、ファジィ論理式により文ラベルを誘導する。 当社のEPRはほぼどこでも差別化可能であり、システムのエンドツーエンドのトレーニングを弱教師付きで行うことが可能です。 我々はコーパスに注釈を付け,フレーズ推論を評価するための指標セットを開発した。 その結果,EPRは従来の研究よりもFスコアよりも有意義な説明が得られた。 我々の知る限り、我々はNLIタスクのための弱教師付きフレーズ推論モデルを開発した最初の人物である。

Natural language inference (NLI) aims to determine the logical relationship between two sentences among the target labels Entailment, Contradiction, and Neutral. In recent years, deep learning models have become a prevailing approach to NLI, but they lack interpretability and explainability. In this work, we address the explainability for NLI by weakly supervised logical reasoning, and propose an Explainable Phrasal Reasoning (EPR) approach. Our model first detects phrases as the semantic unit and aligns corresponding phrases. Then, the model predicts the NLI label for the aligned phrases, and induces the sentence label by fuzzy logic formulas. Our EPR is almost everywhere differentiable and thus the system can be trained end-to-end in a weakly supervised manner. We annotated a corpus and developed a set of metrics to evaluate phrasal reasoning. Results show that our EPR yields much more meaningful explanations in terms of F scores than previous studies. To the best of our knowledge, we are the first to develop a weakly supervised phrasal reasoning model for the NLI task.
翻訳日:2021-09-23 11:10:22 公開日:2021-09-18
# (参考訳) ビデオにおける暴力検知

Violence Detection in Videos ( http://arxiv.org/abs/2109.08941v1 )

ライセンス: CC BY 4.0
Praveen Tirupattur, Christian Schulze, Andreas Dengel(参考訳) 近年、FacebookやYoutubeのようなソーシャルネットワーキングやビデオ共有サイトにアップロードされるビデオコンテンツの量は大幅に増加している。 その結果、子どもが成人やweb上の暴力的なコンテンツに晒されるリスクも高まった。 そこで本研究では,ビデオ中の暴力的コンテンツを自動的に検出する手法を提案する。 ここでは、ビデオに含まれる暴力のカテゴリーを検出するための新しい試みも行われる。 ハリウッド映画とウェブのビデオの両方から暴力を自動的に検出できるシステムは、親のコントロールだけでなく、映画評価、ビデオ監視、ジャンル分類などのアプリケーションにも極めて有用である。 ここでは、音声と視覚の両方の機能を使って暴力を検知する。 MFCC機能はオーディオキューとして使用される。 血液、運動、センチバンクの特徴は視覚的な手がかりとして用いられる。 バイナリSVM分類器は、暴力を検出するためにこれらの機能それぞれで訓練される。 重み付けされた分類スコアを用いた後期融合を行い、システムによる暴力クラス毎に最終分類スコアを取得する。 各暴力クラスに対して最適な重み付けを決定するために、グリッドサーチに基づくアプローチを用いる。 一般に利用可能なデータセット、主にViorant Scene Detection (VSD)は、分類器のトレーニング、重み計算、テストに使用される。 システムの性能は,マルチクラス分類とバイナリ分類の2つの分類タスクで評価される。 バイナリ分類の結果はMediaEval-2014の基準値よりも優れている。

In the recent years, there has been a tremendous increase in the amount of video content uploaded to social networking and video sharing websites like Facebook and Youtube. As of result of this, the risk of children getting exposed to adult and violent content on the web also increased. To address this issue, an approach to automatically detect violent content in videos is proposed in this work. Here, a novel attempt is made also to detect the category of violence present in a video. A system which can automatically detect violence from both Hollywood movies and videos from the web is extremely useful not only in parental control but also for applications related to movie ratings, video surveillance, genre classification and so on. Here, both audio and visual features are used to detect violence. MFCC features are used as audio cues. Blood, Motion, and SentiBank features are used as visual cues. Binary SVM classifiers are trained on each of these features to detect violence. Late fusion using a weighted sum of classification scores is performed to get final classification scores for each of the violence class target by the system. To determine optimal weights for each of the violence classes an approach based on grid search is employed. Publicly available datasets, mainly Violent Scene Detection (VSD), are used for classifier training, weight calculation, and testing. The performance of the system is evaluated on two classification tasks, Multi-Class classification, and Binary Classification. The results obtained for Binary Classification are better than the baseline results from MediaEval-2014.
翻訳日:2021-09-23 10:56:42 公開日:2021-09-18
# (参考訳) iWave3D:トレーニング可能な3Dウェーブレット変換によるエンドツーエンドの脳画像圧縮 [全文訳有]

iWave3D: End-to-end Brain Image Compression with Trainable 3-D Wavelet Transform ( http://arxiv.org/abs/2109.08942v1 )

ライセンス: CC BY 4.0
Dongmei Xue, Haichuan Ma, Li Li, Dong Liu, Zhiwei Xiong(参考訳) 脳画像技術全体の急速な発展に伴い、多数の脳画像が作成され、効率的な脳画像圧縮方法の需要が高まっている。 現在最もよく使われている圧縮法はJP3Dのような3次元ウェーブレット変換に基づいている。 しかし、従来の3次元ウェーブレット変換は信号の特定の仮定で手動で設計されているが、脳画像は想定ほど理想的ではない。 さらに、圧縮タスクに直接最適化されていない。 これらの問題を解決するために,昇降方式に基づくトレーニング可能な3次元ウェーブレット変換を提案し,予測と更新のステップを3次元畳み込みニューラルネットワークに置き換えた。 そして、提案した変換をiWave3Dと呼ばれるエンドツーエンドの圧縮スキームに埋め込む。 実験の結果,平均BD-PSNRではJP3Dが2.012dBで有意に優れていた。

With the rapid development of whole brain imaging technology, a large number of brain images have been produced, which puts forward a great demand for efficient brain image compression methods. At present, the most commonly used compression methods are all based on 3-D wavelet transform, such as JP3D. However, traditional 3-D wavelet transforms are designed manually with certain assumptions on the signal, but brain images are not as ideal as assumed. What's more, they are not directly optimized for compression task. In order to solve these problems, we propose a trainable 3-D wavelet transform based on the lifting scheme, in which the predict and update steps are replaced by 3-D convolutional neural networks. Then the proposed transform is embedded into an end-to-end compression scheme called iWave3D, which is trained with a large amount of brain images to directly minimize the rate-distortion loss. Experimental results demonstrate that our method outperforms JP3D significantly by 2.012 dB in terms of average BD-PSNR.
翻訳日:2021-09-23 10:34:35 公開日:2021-09-18
# (参考訳) sdtp:密画像予測のための意味認識分離トランスピラミッド [全文訳有]

SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image Prediction ( http://arxiv.org/abs/2109.08963v1 )

ライセンス: CC BY 4.0
Zekun Li, Yufan Liu, Bing Li, Weiming Hu, Kebin Wu, Pei Wang(参考訳) トランスフォーマーはコンピュータビジョンタスクで大きな進歩を遂げているが、高密度画像予測のスケール変動は依然として重要な課題である。 変圧器に効果的なマルチスケール技術を適用することは少なく、現在の方法には2つの大きな制限がある。 一方、バニラ変圧器の自己保持モジュールは、その剛性機構のため、意味情報の多様性を十分に活用できない。 一方,計算負荷が大きいため,異なるレベルの注意とインタラクションを構築することは困難である。 この問題を緩和するために、我々はまず密集予測におけるマルチスケール問題を再検討し、多様な意味表現と多スケール相互作用の重要性を検証するとともに、トランスフォーマーのピラミッド構造への適応を探る。 これらの知見に触発されて,isp (intra-level semantic promotion) とcdi (cross-level decoupled interaction) とarf ( attentionfine function) からなる,高密度画像予測のための新しい意味認識非結合化トランスフォーマーピラミッド (sdtp) を提案する。 ISPは、異なる受容空間における意味的多様性を探究する。 CDIは、疎結合空間における異なるレベル間のグローバルな注意と相互作用を構築し、重計算の問題を解決する。 さらに、ARFは変圧器の注意を洗練するために追加される。 提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の手法よりも優れていた。 さらに、提案されたコンポーネントはすべてプラグ・アンド・プレイであり、他のメソッドに組み込むことができる。

Although transformer has achieved great progress on computer vision tasks, the scale variation in dense image prediction is still the key challenge. Few effective multi-scale techniques are applied in transformer and there are two main limitations in the current methods. On one hand, self-attention module in vanilla transformer fails to sufficiently exploit the diversity of semantic information because of its rigid mechanism. On the other hand, it is hard to build attention and interaction among different levels due to the heavy computational burden. To alleviate this problem, we first revisit multi-scale problem in dense prediction, verifying the significance of diverse semantic representation and multi-scale interaction, and exploring the adaptation of transformer to pyramidal structure. Inspired by these findings, we propose a novel Semantic-aware Decoupled Transformer Pyramid (SDTP) for dense image prediction, consisting of Intra-level Semantic Promotion (ISP), Cross-level Decoupled Interaction (CDI) and Attention Refinement Function (ARF). ISP explores the semantic diversity in different receptive space. CDI builds the global attention and interaction among different levels in decoupled space which also solves the problem of heavy computation. Besides, ARF is further added to refine the attention in transformer. Experimental results demonstrate the validity and generality of the proposed method, which outperforms the state-of-the-art by a significant margin in dense image prediction tasks. Furthermore, the proposed components are all plug-and-play, which can be embedded in other methods.
翻訳日:2021-09-23 10:26:09 公開日:2021-09-18
# (参考訳) 深層強化学習とモンテカルロ木探索を用いた非従属多目的再構成のための階層的方針 [全文訳有]

Hierarchical Policy for Non-prehensile Multi-object Rearrangement with Deep Reinforcement Learning and Monte Carlo Tree Search ( http://arxiv.org/abs/2109.08973v1 )

ライセンス: CC BY 4.0
Fan Bai, Fei Meng, Jianbang Liu, Jiankun Wang, Max Q.-H. Meng(参考訳) 非包括的多目的配置は、実現可能な経路を計画し、複数のオブジェクトを把握せずに予め定義されたターゲットポーズに転送するロボット作業である。 対象物が対象物にどのように到達し、対象物の動きの順序を考慮し、問題の複雑さを大幅に深める必要がある。 これらの課題に対処するため,我々は,非従属的多目的再配置を分割し,克服するための階層的ポリシーを提案する。 設計されたポリシーネットワークにより誘導された高レベルポリシでは、モンテカルロ木探索は、模倣と強化の恩恵を受ける複数のオブジェクト間の最適な再配置シーケンスを効率的に探索する。 低レベルポリシーでは、ロボットは経路プリミティブの順序に従って経路を計画し、目標に1つずつ近づくためにオブジェクトを操作する。 実験により,提案手法は,最先端技術と比較して高い成功率,少ないステップ,短いパス長を達成できることを確認した。

Non-prehensile multi-object rearrangement is a robotic task of planning feasible paths and transferring multiple objects to their predefined target poses without grasping. It needs to consider how each object reaches the target and the order of object movement, which significantly deepens the complexity of the problem. To address these challenges, we propose a hierarchical policy to divide and conquer for non-prehensile multi-object rearrangement. In the high-level policy, guided by a designed policy network, the Monte Carlo Tree Search efficiently searches for the optimal rearrangement sequence among multiple objects, which benefits from imitation and reinforcement. In the low-level policy, the robot plans the paths according to the order of path primitives and manipulates the objects to approach the goal poses one by one. We verify through experiments that the proposed method can achieve a higher success rate, fewer steps, and shorter path length compared with the state-of-the-art.
翻訳日:2021-09-23 10:08:06 公開日:2021-09-18
# (参考訳) 心房細動 : 医療と技術 [全文訳有]

Atrial Fibrillation: A Medical and Technological Review ( http://arxiv.org/abs/2109.08974v1 )

ライセンス: CC BY 4.0
Samayan Bhattacharya, Sk Shahnawaz(参考訳) 心房細動(英: atrial Fibrillation、AF)は、アメリカ合衆国において入院につながる不整脈(ギリシャ語: a-, loss + rhythmos, rhythm = loss of rhythm)の最も一般的なタイプである。 afは時として無症状であるが、健康関連qol(health-related quality of life:hrqol)の低下に加えて、患者の脳卒中や心不全のリスクを増加させる。 AF関連の医療費は、毎年6.0ドルから26億ドルの間である。 afの早期発見と臨床的注意力は、患者の症状とhrqolを改善するだけでなく、治療コストを下げるのに役立つ。 しかし、AF検出の主流となるパラダイムは、単一の時点に記録された心電図(ECG)に依存し、症状と心拍数やAFとの関係について光を放たない。 近年、健康モニターの民主化と高性能コンピュータの出現により、機械学習アルゴリズムは患者の心電図からAFを特定するのに有効であることが証明されている。 本稿では,AFの症状とその診断,今後の研究の展望について概説する。

Atrial Fibrillation (AF) is the most common type of arrhythmia (Greek a-, loss + rhythmos, rhythm = loss of rhythm) leading to hospitalization in the United States. Though sometimes AF is asymptomatic, it increases the risk of stroke and heart failure in patients, in addition to lowering the health-related quality of life (HRQOL). AF-related care costs the healthcare system between $6.0 to $26 billion each year. Early detection of AF and clinical attention can help improve symptoms and HRQOL of the patient, as well as bring down the cost of care. However, the prevalent paradigm of AF detection depends on electrocardiogram (ECG) recorded at a single point in time and does not shed light on the relation of the symptoms with heart rhythm or AF. In the recent decade, due to the democratization of health monitors and the advent of high-performing computers, Machine Learning algorithms have been proven effective in identifying AF, from the ECG of patients. This paper provides an overview of the symptoms of AF, its diagnosis, and future prospects for research in the field.
翻訳日:2021-09-23 09:54:29 公開日:2021-09-18
# (参考訳) 網膜分岐と修正相関関数に基づく人間の認識 [全文訳有]

Human Recognition based on Retinal Bifurcations and Modified Correlation Function ( http://arxiv.org/abs/2109.08977v1 )

ライセンス: CC BY 4.0
Amin Dehghani(参考訳) 今日では、セキュリティの高まりは、ほとんどの安全な場所において重要な問題であり、最近の進歩は、セキュリティの高いシステムのニーズを高めている。 そのため、安全度の高い場所への入場を許可し、従来の認識方法の利用を増加・拡大するための高度なセキュリティが必要である。 そこで本研究では,網膜画像を用いた新しい識別法を提案する。 この目的のために、コーナーや分岐に新しい数学的関数を適用する。 提案手法を評価するために,DRIVEデータベースからの40個の網膜画像,STAREデータベースからの20個の正常網膜画像,および局所収集データベースからの140個の正常網膜画像を用い,精度は99.34パーセントである。

Nowadays high security is an important issue for most of the secure places and recent advances increase the needs of high-security systems. Therefore, needs to high security for controlling and permitting the allowable people to enter the high secure places, increases and extends the use of conventional recognition methods. Therefore, a novel identification method using retinal images is proposed in this paper. For this purpose, new mathematical functions are applied on corners and bifurcations. To evaluate the proposed method we use 40 retinal images from the DRIVE database, 20 normal retinal image from STARE database and 140 normal retinal images from local collected database and the accuracy rate is 99.34 percent.
翻訳日:2021-09-23 09:45:37 公開日:2021-09-18
# (参考訳) ReaSCAN: 言語接地における合成推論 [全文訳有]

ReaSCAN: Compositional Reasoning in Language Grounding ( http://arxiv.org/abs/2109.08994v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu, Elisa Kreiss, Desmond C. Ong and Christopher Potts(参考訳) 言語を参照、関係、行動に構成的にマッピングする能力は、言語理解の重要な構成要素である。 最近の gSCAN データセット (Ruis et al. 2020, NeurIPS) は、ナビゲーション命令を含むシナリオにおいて、このような基礎を学習するモデルの能力を評価するための刺激的な試みである。 しかし, gSCANの高度に制約された設計は, 構成的解釈を必要とせず, その手順やシナリオの多くの詳細がタスク成功に必要ではないことを示す。 このような制約に対処するために,gSCANをベースとしたベンチマークデータセットであるReaSCANを提案する。 マルチモーダルベースラインと最先端グラフ畳み込みニューラルモデルであるReaSCANの2つのモデルを評価する。 これらの実験により、ReaSCANは両方のニューラルアーキテクチャにおいてgSCANよりもかなり難しいことが示された。 このことは、ReaSCANがモデルの構成一般化と推論能力の理解を深めるための貴重なベンチマークとなることを示唆している。

The ability to compositionally map language to referents, relations, and actions is an essential component of language understanding. The recent gSCAN dataset (Ruis et al. 2020, NeurIPS) is an inspiring attempt to assess the capacity of models to learn this kind of grounding in scenarios involving navigational instructions. However, we show that gSCAN's highly constrained design means that it does not require compositional interpretation and that many details of its instructions and scenarios are not required for task success. To address these limitations, we propose ReaSCAN, a benchmark dataset that builds off gSCAN but requires compositional language interpretation and reasoning about entities and relations. We assess two models on ReaSCAN: a multi-modal baseline and a state-of-the-art graph convolutional neural model. These experiments show that ReaSCAN is substantially harder than gSCAN for both neural architectures. This suggests that ReaSCAN can serve as a valuable benchmark for advancing our understanding of models' compositional generalization and reasoning capabilities.
翻訳日:2021-09-23 09:39:16 公開日:2021-09-18
# (参考訳) 機械学習に基づく全国新型コロナウイルス登録データからの患者トリアージアルゴリズムの開発 [全文訳有]

Development of patients triage algorithm from nationwide COVID-19 registry data based on machine learning ( http://arxiv.org/abs/2109.09001v1 )

ライセンス: CC BY 4.0
Hyung Ju Hwang, Seyoung Jung, Min Sue Park, Hyeontae Jo(参考訳) 感染性疾患に罹患した患者に対するプロンプト重症度評価モデルは、効率的な診断を可能にし、医療システムの負担を軽減することができる。 本稿では,機械学習を用いた重症度評価モデルの開発とSARS-CoV-2患者への応用について述べる。 ここでは,本モデルが患者の基本的個人データのみを必要とすることを強調し,重症度を判断できるようにする。 分類器としてブースティングに基づく決定木モデルを選択し,モデル化後の確率スコアとして死亡率を解釈した。 具体的には,木モデルの構造を決定するハイパーパラメータを,医療情報の知識のないベイズ最適化手法を用いて調整した。 その結果,モデルの性能を測定し,モデルの重大度に影響を与える変数を同定した。 最後に,患者が自身の重症度を診断し,他の重症度患者の過去の治療内容に基づいて適切な診療所を訪れるよう通知する医療システムを確立することを目的とする。

Prompt severity assessment model of confirmed patients who were infected with infectious diseases could enable efficient diagnosis and alleviate the burden on the medical system. This paper provides the development processes of the severity assessment model using machine learning techniques and its application on SARS-CoV-2 patients. Here, we highlight that our model only requires basic patients' basic personal data, allowing for them to judge their own severity. We selected the boosting-based decision tree model as a classifier and interpreted mortality as a probability score after modeling. Specifically, hyperparameters that determine the structure of the tree model were tuned using the Bayesian optimization technique without any knowledge of medical information. As a result, we measured model performance and identified the variables affecting the severity through the model. Finally, we aim to establish a medical system that allows patients to check their own severity and informs them to visit the appropriate clinic center based on the past treatment details of other patients with similar severity.
翻訳日:2021-09-23 09:12:33 公開日:2021-09-18
# (参考訳) 最終バッチ正規化層の不当な有効性 [全文訳有]

The Unreasonable Effectiveness of the Final Batch Normalization Layer ( http://arxiv.org/abs/2109.09016v1 )

ライセンス: CC BY 4.0
Veysel Kocaman, Ofer M. Shir, Thomas Baeck(参考訳) 農業や医療といった現実世界の領域では早期の病気の徴候が記録されることはほとんどないが、その時点では正確な同定が重要である。 複雑な特徴を包含する高不均衡な分類問題では,検出能力の強い深層学習(DL)が不可欠である。 同時に、DLは少数層よりも多数派を優先し、その結果、ターゲットとした早期の表示の不正確な検出に悩まされる。 本研究では,Cocamanらによる2020年の研究を拡張し,ソフトマックス出力層の前に配置されたBN層が,高不均衡な画像分類問題にかなりの影響を与え,ソフトマックス出力が不確実性指標としての役割を損なうことを示した。 本研究は,以下の知見に関する追加仮説と報告について述べる。 (i)この追加BN層を推論で除去した後も、最終BN層を高度に不均衡な設定で付加した後のパフォーマンス向上が達成できる。 (ii)最終bn層で得られた進捗がピークに達する不均衡比の一定のしきい値がある。 (iii) バッチサイズも役割を担い、最終bn出願の結果に影響する。 (iv)BNアプリケーションの影響は、他のデータセットやより単純な神経アーキテクチャを利用する場合にも再現可能である。 (v)報告されたbn効果は、単一の多数派クラスと複数の少数派クラス、すなわち2つの多数派クラスがある場合の改善がない場合にのみ発生する。 (vi) このBN層とシグモイド活性化を併用すると, 強い不均衡な画像分類タスクにはほとんど影響を与えない。

Early-stage disease indications are rarely recorded in real-world domains, such as Agriculture and Healthcare, and yet, their accurate identification is critical in that point of time. In this type of highly imbalanced classification problems, which encompass complex features, deep learning (DL) is much needed because of its strong detection capabilities. At the same time, DL is observed in practice to favor majority over minority classes and consequently suffer from inaccurate detection of the targeted early-stage indications. In this work, we extend the study done by Kocaman et al., 2020, showing that the final BN layer, when placed before the softmax output layer, has a considerable impact in highly imbalanced image classification problems as well as undermines the role of the softmax outputs as an uncertainty measure. This current study addresses additional hypotheses and reports on the following findings: (i) the performance gain after adding the final BN layer in highly imbalanced settings could still be achieved after removing this additional BN layer in inference; (ii) there is a certain threshold for the imbalance ratio upon which the progress gained by the final BN layer reaches its peak; (iii) the batch size also plays a role and affects the outcome of the final BN application; (iv) the impact of the BN application is also reproducible on other datasets and when utilizing much simpler neural architectures; (v) the reported BN effect occurs only per a single majority class and multiple minority classes i.e., no improvements are evident when there are two majority classes; and finally, (vi) utilizing this BN layer with sigmoid activation has almost no impact when dealing with a strongly imbalanced image classification tasks.
翻訳日:2021-09-23 09:04:38 公開日:2021-09-18
# (参考訳) マルチモーダル分類 : 現在の景観, 分類, 今後の方向性 [全文訳有]

Multimodal Classification: Current Landscape, Taxonomy and Future Directions ( http://arxiv.org/abs/2109.09020v1 )

ライセンス: CC BY 4.0
William C. Sleeman IV, Rishabh Kapoor and Preetam Ghosh(参考訳) マルチモーダル分類研究は、衛星画像、バイオメトリックス、医学など複数のソースからより多くのデータを収集する多くのドメインで人気を集めている。 しかし、一貫した用語やアーキテクチャ記述がないため、既存のソリューションを比較することは困難である。 本稿では,近年のマルチモーダル分類の動向に基づいて,このようなシステムを記述するための新しい分類法を提案する。 ユニモーダル分類の最も難しい側面の多くは、ビッグデータ、クラス不均衡、インスタンスレベルの難易度を含むマルチモーダルデータセットに対して、まだ完全に対処されていない。 これらの課題と今後の方向性についても議論する。

Multimodal classification research has been gaining popularity in many domains that collect more data from multiple sources including satellite imagery, biometrics, and medicine. However, the lack of consistent terminology and architectural descriptions makes it difficult to compare different existing solutions. We address these challenges by proposing a new taxonomy for describing such systems based on trends found in recent publications on multimodal classification. Many of the most difficult aspects of unimodal classification have not yet been fully addressed for multimodal datasets including big data, class imbalance, and instance level difficulty. We also provide a discussion of these challenges and future directions.
翻訳日:2021-09-23 08:51:24 公開日:2021-09-18
# (参考訳) COVID-19におけるヒトの移動性の変化--米国における事例研究 [全文訳有]

Change of human mobility during COVID-19: A United States case study ( http://arxiv.org/abs/2109.09022v1 )

ライセンス: CC BY 4.0
Justin Elarde, Joon-Seok Kim, Hamdi Kavak, Andreas Z\"ufle, Taylor Anderson(参考訳) 新型コロナウイルス(COVID-19)の感染拡大と、遠隔勤務の慣行が組み合わさり、2020年の人間の移動が劇的に影響した。 既存の研究では、特定の地域における移動性が特定の時点において増加するか減少するかを調べ、これらの変化を特定のパンデミックや政策イベントに関連付けている。 本稿では,移動フットプリントデータを用いて,米国における移動量変化を5段階のプロセスで研究する。 (ステップ) 1)2019~2020年の米国各郡の移動率の日次変化を定量化する手段として、公共の場所におけるデルタ時間間隔(Delta-TSPP)を提案する。 (ステップ) 2) 各郡のデルタ-TSPP時系列を移動度変化の低次元潜在成分に還元する主成分分析(PCA)を行った。 (ステップ) 3) 同様の潜在成分を示す郡を見つけるためにクラスタリング分析を行う。 (ステップ) 4)各成分の局所的・大域的空間的自己相関を考察する。 (ステップ) 5) 個体群の特徴と行動がモビリティパターンとどのように相関するかを検討するために相関分析を行う。 その結果、各郡を3つの潜在成分の線形結合として記述することで、アメリカ合衆国全郡における移動性トレンドの59%を説明できることがわかった。 具体的には、2020年の米国の郡における移動性の変化は、3つの潜在コンポーネントの組み合わせとして説明できる。 1)モビリティの長期的削減 2)移動性の変化がなく 3) モビリティの短期的削減。 モビリティ変化の潜在成分である3つの要因と,政治的傾向,人口,covid-19感染者,死亡,失業など,様々な人口特性との間に有意な相関関係が観察された。 新型コロナウイルスのパンデミックに対する我々の分析は、モビリティの変化を包括的に理解している。

With the onset of COVID-19 and the resulting shelter in place guidelines combined with remote working practices, human mobility in 2020 has been dramatically impacted. Existing studies typically examine whether mobility in specific localities increases or decreases at specific points in time and relate these changes to certain pandemic and policy events. In this paper, we study mobility change in the US through a five-step process using mobility footprint data. (Step 1) Propose the delta Time Spent in Public Places (Delta-TSPP) as a measure to quantify daily changes in mobility for each US county from 2019-2020. (Step 2) Conduct Principal Component Analysis (PCA) to reduce the Delta-TSPP time series of each county to lower-dimensional latent components of change in mobility. (Step 3) Conduct clustering analysis to find counties that exhibit similar latent components. (Step 4) Investigate local and global spatial autocorrelation for each component. (Step 5) Conduct correlation analysis to investigate how various population characteristics and behavior correlate with mobility patterns. Results show that by describing each county as a linear combination of the three latent components, we can explain 59% of the variation in mobility trends across all US counties. Specifically, change in mobility in 2020 for US counties can be explained as a combination of three latent components: 1) long-term reduction in mobility, 2) no change in mobility, and 3) short-term reduction in mobility. We observe significant correlations between the three latent components of mobility change and various population characteristics, including political leaning, population, COVID-19 cases and deaths, and unemployment. We find that our analysis provides a comprehensive understanding of mobility change in response to the COVID-19 pandemic.
翻訳日:2021-09-23 08:07:05 公開日:2021-09-18
# (参考訳) 反ニューロン透かし:無許可のニューラルモデルトレーニングに対する個人情報保護

Anti-Neuron Watermarking: Protecting Personal Data Against Unauthorized Neural Model Training ( http://arxiv.org/abs/2109.09023v1 )

ライセンス: CC BY 4.0
Zihang Zou, Boqing Gong, Liqiang Wang(参考訳) 本稿では,ユーザの個人情報(画像など)を不適切に利用して,許可なくディープニューラルネットワークモデルをトレーニングする,新たなパーソナルデータ保護問題を提起する。 この問題を解決するため、先進的な機械学習環境で従来の透かしを再検討する。 特殊な線形色変換を使用して透かしシグネチャをユーザイメージに埋め込むことで、トレーニングデータが透かし画像を含む場合、ニューラルモデルにそのようなシグネチャを印字する。 そして、第三者検証者は、ニューラルモデルからの透かし署名を推論することにより、潜在的な不正使用を検証することができる。 さらに、検証のための透かしと署名空間の望ましい性質について検討する。 広範にわたる実験を通して,ユーザイメージを様々な現実的な設定で保護する上で,線形色変換が有効であることを示す。 私たちの知る限りでは、ニューラルネットワークトレーニングにおいて、ユーザの個人情報を不正使用から保護する最初の作業です。

In this paper, we raise up an emerging personal data protection problem where user personal data (e.g. images) could be inappropriately exploited to train deep neural network models without authorization. To solve this problem, we revisit traditional watermarking in advanced machine learning settings. By embedding a watermarking signature using specialized linear color transformation to user images, neural models will be imprinted with such a signature if training data include watermarked images. Then, a third-party verifier can verify potential unauthorized usage by inferring the watermark signature from neural models. We further explore the desired properties of watermarking and signature space for convincing verification. Through extensive experiments, we show empirically that linear color transformation is effective in protecting user's personal images for various realistic settings. To the best of our knowledge, this is the first work to protect users' personal data from unauthorized usage in neural network training.
翻訳日:2021-09-23 07:49:56 公開日:2021-09-18
# (参考訳) 音声感情認識のためのハイブリッドデータ拡張と深層注意型拡張畳み込み-リカレントニューラルネットワーク [全文訳有]

Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurr ent Neural Networks for Speech Emotion Recognition ( http://arxiv.org/abs/2109.09026v1 )

ライセンス: CC BY 4.0
Nhat Truong Pham, Duc Ngoc Minh Dang, Sy Dzung Nguyen(参考訳) 音声感情認識(ser)は、人間-コンピュータインタラクション(hci)アプリケーションにおける重要なタスクの1つである。 しかし、最適な特徴を選択し、不均衡なラベル付きデータを扱うのは難しい。 本稿では,従来のgan(generative adversarial networks)法に基づくハイブリッドデータ拡張法(hybrid data augmentation,hda)について検討する。 HDA法の有効性を評価するため,ディープラーニングフレームワークであるADCRNN(Deep Learning framework)を,深部拡張畳み込みリカレントニューラルネットワークとアテンション機構を統合して設計する。 さらに、ディープラーニングフレームワークの入力として、3DログのMel-spectrogram(MelS pec)機能を選択します。 さらに,ソフトマックス損失と中心損失を組み合わせて損失関数を再構成し,感情を分類する。 提案手法の検証には,不均衡なサンプルを含む複数の感情からなるEmoDBデータセットを用いる。 実験の結果,提案手法は従来の手法とGAN法でそれぞれ87.12%,88.47%の精度でEmoDBの最先端手法よりも精度が高いことがわかった。

Speech emotion recognition (SER) has been one of the significant tasks in Human-Computer Interaction (HCI) applications. However, it is hard to choose the optimal features and deal with imbalance labeled data. In this article, we investigate hybrid data augmentation (HDA) methods to generate and balance data based on traditional and generative adversarial networks (GAN) methods. To evaluate the effectiveness of HDA methods, a deep learning framework namely (ADCRNN) is designed by integrating deep dilated convolutional-recurr ent neural networks with an attention mechanism. Besides, we choose 3D log Mel-spectrogram (MelSpec) features as the inputs for the deep learning framework. Furthermore, we reconfigure a loss function by combining a softmax loss and a center loss to classify the emotions. For validating our proposed methods, we use the EmoDB dataset that consists of several emotions with imbalanced samples. Experimental results prove that the proposed methods achieve better accuracy than the state-of-the-art methods on the EmoDB with 87.12% and 88.47% for the traditional and GAN-based methods, respectively.
翻訳日:2021-09-23 07:49:01 公開日:2021-09-18
# (参考訳) メタ強化学習の今後の展望 [全文訳有]

Hindsight Foresight Relabeling for Meta-Reinforcement Learning ( http://arxiv.org/abs/2109.09031v1 )

ライセンス: CC BY 4.0
Michael Wan, Jian Peng, Tanmay Gangwani(参考訳) メタ強化学習(Meta-RL)アルゴリズムは、エージェントが少量の経験から新しい振る舞いを学習し、RLのサンプル非効率問題を緩和する。 しかし、メタRLエージェントは、わずかの軌道を経験した後、テスト時に新しいタスクに迅速に適応できるが、メタトレーニングプロセスはサンプリング非効率である。 従来の研究では、マルチタスクのRL設定では、過去の遷移を緩和し、タスク間の共有経験がサンプル効率と漸近的なパフォーマンスを向上させることが判明している。 このアイデアをメタRL設定に適用し、HFR(Hindsight Foresight Relabeling)と呼ばれる新しいラベリング手法を考案する。 我々は,訓練タスク分布から報酬関数を用いたリラベリングトラジェクタをリラベリングする"hindsight"と,リラベリングトラジェクタを取り込み,各タスクに対する各軌道の有用性を計算する"foresight"を組み合わせたリラベリング分布を構築した。 HFRは実装が容易で、既存のメタRLアルゴリズムと容易に互換性がある。 HFRは,様々なメタRLタスクにおいて,他の拡張メソッドと比較して性能が向上することがわかった。

Meta-reinforcement learning (meta-RL) algorithms allow for agents to learn new behaviors from small amounts of experience, mitigating the sample inefficiency problem in RL. However, while meta-RL agents can adapt quickly to new tasks at test time after experiencing only a few trajectories, the meta-training process is still sample-inefficient. Prior works have found that in the multi-task RL setting, relabeling past transitions and thus sharing experience among tasks can improve sample efficiency and asymptotic performance. We apply this idea to the meta-RL setting and devise a new relabeling method called Hindsight Foresight Relabeling (HFR). We construct a relabeling distribution using the combination of "hindsight", which is used to relabel trajectories using reward functions from the training task distribution, and "foresight", which takes the relabeled trajectories and computes the utility of each trajectory for each task. HFR is easy to implement and readily compatible with existing meta-RL algorithms. We find that HFR improves performance when compared to other relabeling methods on a variety of meta-RL tasks.
翻訳日:2021-09-23 07:26:38 公開日:2021-09-18
# MetaMedSeg: Few-Shot Organ Segmentationのためのボリュームメタ学習

MetaMedSeg: Volumetric Meta-learning for Few-Shot Organ Segmentation ( http://arxiv.org/abs/2109.09734v1 )

ライセンス: Link先を確認
Anastasia Makarevich, Azade Farshad, Vasileios Belagiannis, Nassir Navab(参考訳) 十分な注釈付き画像データの欠如は、医用画像のセグメンテーションにおいて一般的な問題である。 一部の臓器や密度では、アノテーションは乏しく、モデルトレーニングの収束が悪くなり、他の臓器には多くの注釈付きデータがある。 本稿では,ボリューム医療データのメタラーニングタスクを再定義し,スライス間の多様性を捉えることを目的とした,勾配に基づくメタラーニングアルゴリズムであるmetamedsegを提案する。 勾配集約のための異なる重み付けスキームについても検討し、異なるタスクは異なる複雑さを持ち、したがって初期化に異なる貢献をするかもしれないと論じた。 モデル学習のための重要度対応重み付けスキームを提案する。 実験では, 異なる臓器のCTおよびMRIボリュームから2Dスライスを抽出し, セマンティックセグメンテーションを行うことにより, 医療用デカトロンデータセットの評価を行った。 その結果,提案したボリュームタスク定義は,関連するベースラインと比較してIoUで最大30%改善することがわかった。 提案する更新規則は, 対象臓器のデータ分布がソース臓器と大きく異なる複雑なシナリオにおいて, 性能を向上させることも示されている。

The lack of sufficient annotated image data is a common issue in medical image segmentation. For some organs and densities, the annotation may be scarce, leading to poor model training convergence, while other organs have plenty of annotated data. In this work, we present MetaMedSeg, a gradient-based meta-learning algorithm that redefines the meta-learning task for the volumetric medical data with the goal to capture the variety between the slices. We also explore different weighting schemes for gradients aggregation, arguing that different tasks might have different complexity, and hence, contribute differently to the initialization. We propose an importance-aware weighting scheme to train our model. In the experiments, we present an evaluation of the medical decathlon dataset by extracting 2D slices from CT and MRI volumes of different organs and performing semantic segmentation. The results show that our proposed volumetric task definition leads to up to 30% improvement in terms of IoU compared to related baselines. The proposed update rule is also shown to improve the performance for complex scenarios where the data distribution of the target organ is very different from the source organs.
翻訳日:2021-09-22 14:29:34 公開日:2021-09-18
# speechnas:大規模話者照合におけるレイテンシと精度のトレードオフ改善に向けて

SpeechNAS: Towards Better Trade-off between Latency and Accuracy for Large-Scale Speaker Verification ( http://arxiv.org/abs/2109.08839v1 )

ライセンス: Link先を確認
Wentao Zhu, Tianlong Kong, Shun Lu, Jixiang Li, Dawei Zhang, Feng Deng, Xiaorui Wang, Sen Yang, Ji Liu(参考訳) 近年,時間遅延ニューラルネットワーク(TDNN)と統計プールを用いて,可変長音声から話者特徴化埋め込みを抽出する話者検証手法が成功し,普及している。 xベクターの改良は活発な研究領域であり、巨大なニューラルネットワークは、xベクター、eg、拡張TDNN(E-TDNN)、分解TDNN(F-TDNN)、密結合TDNN(D-TDNN)に基づいて精巧に設計されている。 本研究では,ニューラルアーキテクチャサーチ(NAS)を用いて,TDNNに基づく探索空間から最適なアーキテクチャを同定する。 high-order statistics pooling, multi-branch mechanism, d-tdnn and angular additive margin softmax (aam) loss with a minimum hyper-spherical energy (mhe) などの最近の話者認識の進歩を活用して、 speechnasは、様々なパラメータの speechnas-1 から speechnas-5 までの5つのネットワークアーキテクチャを、大規模テキスト非依存話者認識データセット voxceleb1 上で自動的に発見する。 得られたベストニューラルネットワークは,従来のtdnnベースの最先端アプローチを大差で上回るvoxceleb1の標準テストセットにおいて,1.02%の誤差率(eer)を達成している。 コードとトレーニングされた重みはhttps://github.com/w entaozhu/speechnas.g itにある。

Recently, x-vector has been a successful and popular approach for speaker verification, which employs a time delay neural network (TDNN) and statistics pooling to extract speaker characterizing embedding from variable-length utterances. Improvement upon the x-vector has been an active research area, and enormous neural networks have been elaborately designed based on the x-vector, eg, extended TDNN (E-TDNN), factorized TDNN (F-TDNN), and densely connected TDNN (D-TDNN). In this work, we try to identify the optimal architectures from a TDNN based search space employing neural architecture search (NAS), named SpeechNAS. Leveraging the recent advances in the speaker recognition, such as high-order statistics pooling, multi-branch mechanism, D-TDNN and angular additive margin softmax (AAM) loss with a minimum hyper-spherical energy (MHE), SpeechNAS automatically discovers five network architectures, from SpeechNAS-1 to SpeechNAS-5, of various numbers of parameters and GFLOPs on the large-scale text-independent speaker recognition dataset VoxCeleb1. Our derived best neural network achieves an equal error rate (EER) of 1.02% on the standard test set of VoxCeleb1, which surpasses previous TDNN based state-of-the-art approaches by a large margin. Code and trained weights are in https://github.com/w entaozhu/speechnas.g it
翻訳日:2021-09-21 17:01:15 公開日:2021-09-18
# タスク指向対話システムにおけるゼロとFew-shotの知識探索ターン検出に向けて

Towards Zero and Few-shot Knowledge-seeking Turn Detection in Task-orientated Dialogue Systems ( http://arxiv.org/abs/2109.08820v1 )

ライセンス: Link先を確認
Di Jin, Shuyang Gao, Seokhwan Kim, Yang Liu, Dilek Hakkani-Tur(参考訳) タスク指向の対話システムに関するほとんどの先行作業はドメインapiのサポートに限定されている。 しかし、ユーザはこれらのAPIの範囲外にあるリクエストを持つかもしれません。 この作業は、そのようなユーザリクエストを特定することに焦点を当てます。 このタスクの既存の方法は、主に大きな注釈付きデータの微調整済みモデルに依存している。 本稿では,適応表現学習と密度推定に基づく新しい手法であるredeを提案する。 REDEはゼロショットケースに適用でき、3K未満のパラメータを更新することで、わずか数ショットで高性能な検出器を素早く学習する。 DSTC9データと新たに収集したテストセットにREDEの競合性能を示す。

Most prior work on task-oriented dialogue systems is restricted to supporting domain APIs. However, users may have requests that are out of the scope of these APIs. This work focuses on identifying such user requests. Existing methods for this task mainly rely on fine-tuning pre-trained models on large annotated data. We propose a novel method, REDE, based on adaptive representation learning and density estimation. REDE can be applied to zero-shot cases, and quickly learns a high-performing detector with only a few shots by updating less than 3K parameters. We demonstrate REDE's competitive performance on DSTC9 data and our newly collected test set.
翻訳日:2021-09-21 17:00:17 公開日:2021-09-18
# 場所を学習して振り返る学習

Learning to Regrasp by Learning to Place ( http://arxiv.org/abs/2109.08817v1 )

ライセンス: Link先を確認
Shuo Cheng, Kaichun Mo, Lin Shao(参考訳) 本稿では,ロボットが多様な対象の集合を再現し,様々な所望の把持動作を実現することができるかを検討する。 ロボットの現在の把握ポーズが望ましい操作タスクの実行に失敗した場合、レギュラピングが必要である。 このような能力を持つ内転ロボットは、製造や国内サービスといった多くの分野に応用されている。 しかし、これは日常の物体における幾何の多様性と状態と行動空間の高次元性のために難しい課題である。 本稿では,ロボットが対象物と支援環境の部分点雲を入力として取り出し,対象物の把握ポーズに初期オブジェクトの把握ポーズを変換するための一連のピック・アンド・プレイス操作を出力するシステムを提案する。 鍵となる手法は、周囲の環境を活用・変更することで、神経安定配置予測器と、グラフベースソリューションを含む。 提案手法を学習し,評価するための新しい,挑戦的な合成データセットを提案する。 このデータセットでは、我々のシステムは多様なオブジェクトを認識して73.3%の成功率を達成できることを示した。

In this paper, we explore whether a robot can learn to regrasp a diverse set of objects to achieve various desired grasp poses. Regrasping is needed whenever a robot's current grasp pose fails to perform desired manipulation tasks. Endowing robots with such an ability has applications in many domains such as manufacturing or domestic services. Yet, it is a challenging task due to the large diversity of geometry in everyday objects and the high dimensionality of the state and action space. In this paper, we propose a system for robots to take partial point clouds of an object and the supporting environment as inputs and output a sequence of pick-and-place operations to transform an initial object grasp pose to the desired object grasp poses. The key technique includes a neural stable placement predictor and a regrasp graph based solution through leveraging and changing the surrounding environment. We introduce a new and challenging synthetic dataset for learning and evaluating the proposed approach. In this dataset, we show that our system is able to achieve 73.3% success rate of regrasping diverse objects.
翻訳日:2021-09-21 16:59:41 公開日:2021-09-18
# マニフォールド保存ガン

Manifold-preserved GANs ( http://arxiv.org/abs/2109.08955v1 )

ライセンス: Link先を確認
Haozhe Liu, Hanbang Liang, Xianxu Hou, Haoqian Wu, Feng Liu, Linlin Shen(参考訳) GAN(Generative Adversarial Networks)は様々な分野で広く採用されている。 しかし、既存のganは一般にデータ空間の多様体を保存することができない。 このようなオープンな課題に対処するために、ワッサーシュタインGANを高次元形式に一般化するマニフォールド保存GAN(MaF-GAN)を提案する。 具体的には、データの表現を改善するために、MaF-GANの判別器は、データを高次元多様体にマッピングするように設計されている。 さらに,MaF-GANsのトレーニングを安定させるために,位相整合性と呼ばれる任意のK-Lipschitz連続性に対する正確で普遍的な解法を提案する。 提案手法の有効性は理論解析と実験結果の両方によって正当化される。 celeba (256*256) のバックボーンとして dcgan を採用すると、提案手法は 12.43 fid を達成し、これは実数 gan (23.51 fid) のような最先端のモデルを上回る。 コードは公開される予定だ。

Generative Adversarial Networks (GANs) have been widely adopted in various fields. However, existing GANs generally are not able to preserve the manifold of data space, mainly due to the simple representation of discriminator for the real/generated data. To address such open challenges, this paper proposes Manifold-preserved GANs (MaF-GANs), which generalize Wasserstein GANs into high-dimensional form. Specifically, to improve the representation of data, the discriminator in MaF-GANs is designed to map data into a high-dimensional manifold. Furthermore, to stabilize the training of MaF-GANs, an operation with precise and universal solution for any K-Lipschitz continuity, called Topological Consistency is proposed. The effectiveness of the proposed method is justified by both theoretical analysis and empirical results. When adopting DCGAN as the backbone on CelebA (256*256), the proposed method achieved 12.43 FID, which outperforms the state-of-the-art model like Realness GAN (23.51 FID) by a large margin. Code will be made publicly available.
翻訳日:2021-09-21 16:59:24 公開日:2021-09-18
# サブピクセル埋め込みを用いた脳MRIにおける小病変分割

Small Lesion Segmentation in Brain MRIs with Subpixel Embedding ( http://arxiv.org/abs/2109.08791v1 )

ライセンス: Link先を確認
Alex Wong, Allison Chen, Yangchao Wu, Safa Cicek, Alexandre Tiard, Byung-Woo Hong, Stefano Soatto(参考訳) ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。 本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。 我々の埋め込みネットワークは、高解像度のトレーニングイメージを必要とせずに、脳の詳細な構造を解決できる機能を学びます。 あるいは、エンコーダデコーダは、ストライドと最大プーリングによってグローバル構造を学習する。 我々の組込みネットワークはエンコーダ・デコーダのアーキテクチャを補完し、エンコーダの段階で空間的なダウンサンプリングによって失われた細かな詳細をデコーダに案内する。 従来の処理とは異なり、デコーダは入力解像度の2倍の出力を行い、入力解像度の1ピクセルは出力の4つの隣接するサブピクセルによって予測される。 元のスケールで出力を得るために、サブピクセル予測を組み合わせた学習可能なダウンサンプラー(バイリニアなど手作りのものとは対照的に)を提案する。 提案手法はベースラインアーキテクチャを約11.7%改善し,最大競合するメソッドよりもメモリフットプリントが小さく,実行速度も速いATLAS公開ベンチマークデータセット上でのテクニックの状態を達成している。 私たちのソースコードは、https://github.com/a lexklwong/subpixel-e mbedding-segmentatio nで利用可能です。

We present a method to segment MRI scans of the human brain into ischemic stroke lesion and normal tissues. We propose a neural network architecture in the form of a standard encoder-decoder where predictions are guided by a spatial expansion embedding network. Our embedding network learns features that can resolve detailed structures in the brain without the need for high-resolution training images, which are often unavailable and expensive to acquire. Alternatively, the encoder-decoder learns global structures by means of striding and max pooling. Our embedding network complements the encoder-decoder architecture by guiding the decoder with fine-grained details lost to spatial downsampling during the encoder stage. Unlike previous works, our decoder outputs at 2 times the input resolution, where a single pixel in the input resolution is predicted by four neighboring subpixels in our output. To obtain the output at the original scale, we propose a learnable downsampler (as opposed to hand-crafted ones e.g. bilinear) that combines subpixel predictions. Our approach improves the baseline architecture by approximately 11.7% and achieves the state of the art on the ATLAS public benchmark dataset with a smaller memory footprint and faster runtime than the best competing method. Our source code has been made available at: https://github.com/a lexklwong/subpixel-e mbedding-segmentatio n.
翻訳日:2021-09-21 16:58:11 公開日:2021-09-18
# S$3$VAADA: Virtual Adversarial Active Domain Adaptationのためのサブモジュールサブセット選択

S$^3$VAADA: Submodular Subset Selection for Virtual Adversarial Active Domain Adaptation ( http://arxiv.org/abs/2109.08901v1 )

ライセンス: Link先を確認
Harsh Rangwani, Arihant Jain, Sumukh K Aithal and R. Venkatesh Babu(参考訳) 非教師なしドメイン適応(DA)手法は、ターゲットドメインにラベル付きデータを用いることなく、ソースドメインとターゲットドメインの特徴を整列させることにより、最大性能を達成することに重点を置いている。 一方、現実のシナリオでは、少数のターゲットデータのラベルを取得することは可能かもしれない。 これらのシナリオでは、ラベル付けするために最大形標本を選択し、ソースデータから既存の知識と組み合わせる効果的な方法を見つけることが重要である。 これを達成するために,我々はs$^3$vaadaを提案する。 i) ラベルの最大有益部分集合を選択するために、新規なサブモジュラー基準を導入する 二 新たな改良によりクラスタベースのDA手順を強化し、利用可能なすべてのデータを効果的に活用し、ターゲットの一般化を改善する。 我々のアプローチは、ドメインシフトの度合いの異なるデータセットにおける競合する最先端のアプローチよりも一貫して優れています。

Unsupervised domain adaptation (DA) methods have focused on achieving maximal performance through aligning features from source and target domains without using labeled data in the target domain. Whereas, in the real-world scenario's it might be feasible to get labels for a small proportion of target data. In these scenarios, it is important to select maximally-informativ e samples to label and find an effective way to combine them with the existing knowledge from source data. Towards achieving this, we propose S$^3$VAADA which i) introduces a novel submodular criterion to select a maximally informative subset to label and ii) enhances a cluster-based DA procedure through novel improvements to effectively utilize all the available data for improving generalization on target. Our approach consistently outperforms the competing state-of-the-art approaches on datasets with varying degrees of domain shifts.
翻訳日:2021-09-21 16:57:47 公開日:2021-09-18
# 正規化を用いた構造化パターンプルーニング

Structured Pattern Pruning Using Regularization ( http://arxiv.org/abs/2109.08814v1 )

ライセンス: Link先を確認
Dongjun Park, Geung-Hee Lee(参考訳) イテレーティブ・マグニチュード・プルーニング(英語版)(imp)はネットワーク・プルーニング法であり、最小のマグニチュードで重みを取り除き、モデルを再訓練するプロセスを繰り返す。 IMPにより計算された言語モデルの重み行列を可視化すると、構造化されたパターンが出現し、結果として得られた重みが行列のいくつかの行や列に顕著に集まる傾向が示されている。 これらの構造化パターンをパフォーマンス向上に利用するためのさらなる研究の必要性は以前から示されているが、まだ十分に研究されていない。 本研究では、IMPの目的関数に正規化項を追加することで、圧縮において構造化パターンをプリエンプティブに誘導する新しいプルーニング機構であるSPURを提案する。 この結果から,SPURは言語やタスクに関わらず,高い空間設定下でモデル性能を著しく維持できることがわかった。 私たちの貢献は次のとおりです。 (i)言語やタスクに関わらずIMPを改善するネットワークプルーニング機構であるSPURを提案する。 (II) プレニング研究で観察された「構造化パターン」の有効性を実証的に検証したのは, 初めてである。 (iii)SPURは資源効率のよいメカニズムであり、追加の計算は不要である。

Iterative Magnitude Pruning (IMP) is a network pruning method that repeats the process of removing weights with the least magnitudes and retraining the model. When visualizing the weight matrices of language models pruned by IMP, previous research has shown that a structured pattern emerges, wherein the resulting surviving weights tend to prominently cluster in a select few rows and columns of the matrix. Though the need for further research in utilizing these structured patterns for potential performance gains has previously been indicated, it has yet to be thoroughly studied. We propose SPUR (Structured Pattern pruning Using Regularization), a novel pruning mechanism that preemptively induces structured patterns in compression by adding a regularization term to the objective function in the IMP. Our results show that SPUR can significantly preserve model performance under high sparsity settings regardless of the language or the task. Our contributions are as follows: (i) We propose SPUR, a network pruning mechanism that improves upon IMP regardless of the language or the task. (ii) We are the first to empirically verify the efficacy of "structured patterns" observed previously in pruning research. (iii) SPUR is a resource-efficient mechanism in that it does not require significant additional computations.
翻訳日:2021-09-21 16:56:51 公開日:2021-09-18
# DuRecDial 2.0:会話勧告のためのバイリンガル並列コーパス

DuRecDial 2.0: A Bilingual Parallel Corpus for Conversational Recommendation ( http://arxiv.org/abs/2109.08877v1 )

ライセンス: Link先を確認
Zeming Liu, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che(参考訳) 本稿では,多言語間および多言語間対話型リコメンデーションの課題を探索するために,多言語間人間間リコメンデーションダイアログデータセット(durecdial 2.0)を提案する。 DuRecDial 2.0と既存の会話レコメンデーションデータセットの違いは、DuRecDial 2.0のデータ項目(Profile, Goal, Knowledge, Context, Response)が英語と中国語の2言語で注釈付けされているのに対して、他のデータセットは単一の言語の設定で構築されていることだ。 8.2kのダイアログを英語と中国語(16.5kのダイアログと255kの発話)で収集し,厳格な品質管理手順でクラウドソース作業者が注釈を付ける。 次に、durecdial 2.0上で、単言語、多言語、多言語間会話推奨ベースラインを構築する。 実験結果から、追加の英語データを使用することで、中国の会話レコメンデーションのパフォーマンスが向上し、DuRecDial 2.0の利点が示された。 最後に、このデータセットは、モノリンガル、多言語、多言語間の会話レコメンデーションの今後の研究に挑戦的なテストベッドを提供する。

In this paper, we provide a bilingual parallel human-to-human recommendation dialog dataset (DuRecDial 2.0) to enable researchers to explore a challenging task of multilingual and cross-lingual conversational recommendation. The difference between DuRecDial 2.0 and existing conversational recommendation datasets is that the data item (Profile, Goal, Knowledge, Context, Response) in DuRecDial 2.0 is annotated in two languages, both English and Chinese, while other datasets are built with the setting of a single language. We collect 8.2k dialogs aligned across English and Chinese languages (16.5k dialogs and 255k utterances in total) that are annotated by crowdsourced workers with strict quality control procedure. We then build monolingual, multilingual, and cross-lingual conversational recommendation baselines on DuRecDial 2.0. Experiment results show that the use of additional English data can bring performance improvement for Chinese conversational recommendation, indicating the benefits of DuRecDial 2.0. Finally, this dataset provides a challenging testbed for future studies of monolingual, multilingual, and cross-lingual conversational recommendation.
翻訳日:2021-09-21 16:56:28 公開日:2021-09-18
# ディープハッシュに基づく検索に対するクリーンラベルバックドア攻撃

Clean-label Backdoor Attack against Deep Hashing based Retrieval ( http://arxiv.org/abs/2109.08868v1 )

ライセンス: Link先を確認
Kuofeng Gao, Jiawang Bai, Bin Chen, Dongxian Wu, Shu-Tao Xia(参考訳) ディープハッシュはその計算効率とストレージ効率から,大規模画像検索において一般的な手法となっている。 しかし、最近の研究はディープハッシュのセキュリティ上の懸念を提起している。 既存の研究は、敵対的摂動の観点から深いハッシュの脆弱性に焦点を当てていますが、攻撃者がトレーニングデータにアクセスした場合には、より圧力のかかる脅威、バックドア攻撃を特定します。 バックドアのディープハッシュモデルは通常、元のクエリイメージで動作し、トリガーが現れるとターゲットラベルでイメージを返すため、攻撃を検出しにくくする。 本稿では,このセキュリティ上の懸念をクリーンラベルデータ中毒を用いて明らかにする。 私たちの知る限りでは、これはディープハッシュモデルに対するバックドア攻撃の最初の試みである。 毒入り画像を作成するために、まずターゲットの敵パッチをバックドアトリガーとして生成します。 さらに,ハッシュモデルがトリガーについてより詳しく学習できるように,ハッシュ化コード学習を乱すため,混乱する摂動を提案する。 混乱した摂動は、ハミング空間内のターゲットラベルで画像を分散させることで、認識不能で発生します。 各種環境下でのバックドア攻撃の有効性を検証するための広範囲な実験を行った。 例えば、48ビットのコード長でイメージネットの平均平均精度を63%達成でき、わずか40枚の画像しか検出できない。

Deep hashing has become a popular method in large-scale image retrieval due to its computational and storage efficiency. However, recent works raise the security concerns of deep hashing. Although existing works focus on the vulnerability of deep hashing in terms of adversarial perturbations, we identify a more pressing threat, backdoor attack, when the attacker has access to the training data. A backdoored deep hashing model behaves normally on original query images, while returning the images with the target label when the trigger presents, which makes the attack hard to be detected. In this paper, we uncover this security concern by utilizing clean-label data poisoning. To the best of our knowledge, this is the first attempt at the backdoor attack against deep hashing models. To craft the poisoned images, we first generate the targeted adversarial patch as the backdoor trigger. Furthermore, we propose the confusing perturbations to disturb the hashing code learning, such that the hashing model can learn more about the trigger. The confusing perturbations are imperceptible and generated by dispersing the images with the target label in the Hamming space. We have conducted extensive experiments to verify the efficacy of our backdoor attack under various settings. For instance, it can achieve 63% targeted mean average precision on ImageNet under 48 bits code length with only 40 poisoned images.
翻訳日:2021-09-21 16:55:52 公開日:2021-09-18
# 大規模事前学習ニューラルモデルを用いたテキストデトキサイゼーション

Text Detoxification using Large Pre-trained Neural Models ( http://arxiv.org/abs/2109.08914v1 )

ライセンス: Link先を確認
David Dale, Anton Voronov, Daryna Dementieva, Varvara Logacheva, Olga Kozlova, Nikita Semenov and Alexander Panchenko(参考訳) テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。 第1の方法は,(1) 生成過程を小さなスタイル条件付き言語モデルで指導すること,(2) 言い換えモデルを用いてスタイル伝達を行うこと,である。 スタイル学習された言語モデルに導かれた高性能のパラフレーザーを用いて,テキスト内容の保持と毒性の除去を行う。 第2の方法は、有害な単語を非攻撃的同義語に置き換えるためにBERTを使用する。 BERTがマスクトークンを可変数の単語で置き換えることにより、より柔軟にする方法を提案する。 最後に, 毒性除去作業におけるスタイル伝達モデルの大規模比較研究について紹介する。 モデルとスタイル転送のいくつかの方法を比較した。 モデルは教師なしのスタイル転送メトリクスの組み合わせを使って参照フリーで評価される。 どちらの方法も新しいSOTA結果をもたらす。

We present two novel unsupervised methods for eliminating toxicity in text. Our first method combines two recent ideas: (1) guidance of the generation process with small style-conditional language models and (2) use of paraphrasing models to perform style transfer. We use a well-performing paraphraser guided by style-trained language models to keep the text content and remove toxicity. Our second method uses BERT to replace toxic words with their non-offensive synonyms. We make the method more flexible by enabling BERT to replace mask tokens with a variable number of words. Finally, we present the first large-scale comparative study of style transfer models on the task of toxicity removal. We compare our models with a number of methods for style transfer. The models are evaluated in a reference-free way using a combination of unsupervised style transfer metrics. Both methods we suggest yield new SOTA results.
翻訳日:2021-09-21 16:54:08 公開日:2021-09-18
# ボックス埋め込みを用いた時間知識グラフ補完

Temporal Knowledge Graph Completion using Box Embeddings ( http://arxiv.org/abs/2109.08970v1 )

ライセンス: Link先を確認
Johannes Messner, Ralph Abboud, \.Ismail \.Ilkan Ceylan(参考訳) 知識グラフ補完は、知識グラフの既存のデータに基づいて、行方不明の事実を推測するタスクである。 時間的知識グラフ補完(TKGC)は、時間的知識グラフへのタスクの拡張であり、それぞれの事実がタイムスタンプに付加される。 TKGCの現在のアプローチは、主に知識グラフの補完のために開発された既存の埋め込みモデルに基づいて構築され、これらのモデルを時間を含むように拡張している。 本稿では,静的知識グラフ埋め込みモデルboxeに基づいて,tkgcのためのボックス埋め込みモデルboxteを提案する。 BoxTEは完全に表現力があり,時間的環境において強い誘導能力を有することを示す。 次に,本モデルの有効性を実証的に評価し,いくつかのTKGCベンチマークで最先端の結果が得られたことを示す。

Knowledge graph completion is the task of inferring missing facts based on existing data in a knowledge graph. Temporal knowledge graph completion (TKGC) is an extension of this task to temporal knowledge graphs, where each fact is additionally associated with a time stamp. Current approaches for TKGC primarily build on existing embedding models which are developed for (static) knowledge graph completion, and extend these models to incorporate time, where the idea is to learn latent representations for entities, relations, and timestamps and then use the learned representations to predict missing facts at various time steps. In this paper, we propose BoxTE, a box embedding model for TKGC, building on the static knowledge graph embedding model BoxE. We show that BoxTE is fully expressive, and possesses strong inductive capacity in the temporal setting. We then empirically evaluate our model and show that it achieves state-of-the-art results on several TKGC benchmarks.
翻訳日:2021-09-21 16:53:23 公開日:2021-09-18
# コンピュータイメージングと人工知能:モバイルビジョンの次の革命

Computational Imaging and Artificial Intelligence: The Next Revolution of Mobile Vision ( http://arxiv.org/abs/2109.08880v1 )

ライセンス: Link先を確認
Jinli Suo, Weihang Zhang, Jin Gong, Xin Yuan, David J. Brady, Qionghai Dai(参考訳) 信号キャプチャーは、環境を知覚し理解するために最前線に立っており、イメージングはモバイルビジョンにおいて重要な役割を果たす。 人工知能(AI)の最近の爆発的な進歩は、新しいイメージングデバイスを使った高度なモバイルプラットフォームを開発する大きな可能性を示している。 従来の撮像システムは「まず画像を取得し、その後に処理する」機構に基づくものでは、この前例のない要求を満たせない。 Differently, Computational Imaging (CI) systems are designed to capture high-dimensional data in an encoded manner to provide more information for mobile vision systems.Thanks to AI, CI can now be used in real systems by integrating deep learning algorithms into the mobile vision platform to achieve the closed loop of intelligent acquisition, processing and decision making, thus leading to the next revolution of mobile vision.Starting from the history of mobile vision using digital cameras, this work first introduces the advances of CI in diverse applications and then conducts a comprehensive review of current research topics combining CI and AI. 既存のほとんどの研究は、CIとAIを緩やかに接続する(通常、AIを使用してCIのパフォーマンスを改善し、限られた作業のみを深く結び付けている)という事実によって動機づけられたこの研究では、高速通信、エッジコンピューティング、交通計画を備えた自動運転車の例を用いて、CIとAIを深く統合するフレームワークを提案する。 最後に、新しい材料、脳科学、新しいコンピューティング技術を調べて、モバイルビジョンシステムの新たな方向性を明かすことで、CIとAIの将来を見通します。

Signal capture stands in the forefront to perceive and understand the environment and thus imaging plays the pivotal role in mobile vision. Recent explosive progresses in Artificial Intelligence (AI) have shown great potential to develop advanced mobile platforms with new imaging devices. Traditional imaging systems based on the "capturing images first and processing afterwards" mechanism cannot meet this unprecedented demand. Differently, Computational Imaging (CI) systems are designed to capture high-dimensional data in an encoded manner to provide more information for mobile vision systems.Thanks to AI, CI can now be used in real systems by integrating deep learning algorithms into the mobile vision platform to achieve the closed loop of intelligent acquisition, processing and decision making, thus leading to the next revolution of mobile vision.Starting from the history of mobile vision using digital cameras, this work first introduces the advances of CI in diverse applications and then conducts a comprehensive review of current research topics combining CI and AI. Motivated by the fact that most existing studies only loosely connect CI and AI (usually using AI to improve the performance of CI and only limited works have deeply connected them), in this work, we propose a framework to deeply integrate CI and AI by using the example of self-driving vehicles with high-speed communication, edge computing and traffic planning. Finally, we outlook the future of CI plus AI by investigating new materials, brain science and new computing techniques to shed light on new directions of mobile vision systems.
翻訳日:2021-09-21 16:47:54 公開日:2021-09-18
# MM-Deacon:コントラスト学習によるマルチモーダル分子ドメイン埋め込み解析

MM-Deacon: Multimodal molecular domain embedding analysis via contrastive learning ( http://arxiv.org/abs/2109.08830v1 )

ライセンス: Link先を確認
Zhihui Guo, Pramod Kumar Sharma, Liang Du and Robin Abraham(参考訳) 分子表現学習は化学情報学において重要な役割を果たす。 近年、言語モデルに基づくアプローチは、分子をエンコードする伝統的な専門家設計機能に代わるものとして人気がある。 しかしながら、これらのアプローチは分子を表現するために単一のモダリティのみを利用する。 任意の分子が単純分子線入力系(smiles)、iupac(international union of pure and applied chemistry)、inchi(iupac international chemical identifier)といった異なるモダリティを通じて記述できるという事実に触発され、mm-deacon(multimodal molecular domain embedded analysis via contrastive learning)と呼ばれるマルチモーダル分子埋め込み生成アプローチを提案する。 MM-DeaconはSMILESとIUPAC分子表現を2つの異なるモードとして訓練する。 まず、スマイルとiupac文字列は、2つの異なるトランスフォーマーベースの言語モデルを使って独立にエンコードされ、対照的な損失は、それらが同じ分子に属する場合、異なるモダリティからのエンコード表現を互いに近づけ、異なる分子に属する場合、埋め込みを互いに遠くにプッシュするために利用される。 分子クラスタリング,クロスモーダル分子探索,薬物類似性評価,薬物と薬物の相互作用タスクに対する分子埋め込みの堅牢性を評価する。

Molecular representation learning plays an essential role in cheminformatics. Recently, language model-based approaches have been popular as an alternative to traditional expert-designed features to encode molecules. However, these approaches only utilize a single modality for representing molecules. Driven by the fact that a given molecule can be described through different modalities such as Simplified Molecular Line Entry System (SMILES), The International Union of Pure and Applied Chemistry (IUPAC), and The IUPAC International Chemical Identifier (InChI), we propose a multimodal molecular embedding generation approach called MM-Deacon (multimodal molecular domain embedding analysis via contrastive learning). MM-Deacon is trained using SMILES and IUPAC molecule representations as two different modalities. First, SMILES and IUPAC strings are encoded by using two different transformer-based language models independently, then the contrastive loss is utilized to bring these encoded representations from different modalities closer to each other if they belong to the same molecule, and to push embeddings farther from each other if they belong to different molecules. We evaluate the robustness of our molecule embeddings on molecule clustering, cross-modal molecule search, drug similarity assessment and drug-drug interaction tasks.
翻訳日:2021-09-21 16:47:31 公開日:2021-09-18
# 単語埋め込みと転送学習を用いた意味語彙の強化

Augmenting semantic lexicons using word embeddings and transfer learning ( http://arxiv.org/abs/2109.09010v1 )

ライセンス: Link先を確認
Thayer Alshaabi, Colin Van Oort, Mikaela Fudolig, Michael V. Arnold, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 感性を考慮したインテリジェントシステムは、マーケティング、政治キャンペーン、推薦システム、行動経済学、社会心理学、国家安全保障など、幅広い応用に不可欠である。 これらの感情を意識したインテリジェントシステムは、言語モデルによって駆動される。 1.レキシコンベース、及び 2. コンテキスト。 最近のコンテキストモデルはますます支配的になっているが、解釈性や使いやすさから、レキシコンベースのモデルに対する需要が依然として残っている。 例えば、辞書ベースのモデルでは、研究者はどの単語やフレーズが測定された感情の変化に最も寄与するかを簡単に決定できる。 レキシコンベースのアプローチの課題は、レキシコンを新しい単語と表現で日常的に拡張する必要があることである。 セマンティック辞書のためのクラウドソーシングアノテーションは、費用がかかり、時間がかかるタスクである。 本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。 最初のモデルは、非文脈的アプローチを用いて、事前学習された単語の埋め込みを初期化した、単純で浅いニューラルネットワークを用いたベースラインを確立する。 第2のモデルはベースラインを改善し、語彙の極性を評価するために単語定義を持つ深いトランスフォーマーベースのネットワークを特徴としている。 評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかであることがわかった。

Sentiment-aware intelligent systems are essential to a wide array of applications including marketing, political campaigns, recommender systems, behavioral economics, social psychology, and national security. These sentiment-aware intelligent systems are driven by language models which broadly fall into two paradigms: 1. Lexicon-based and 2. Contextual. Although recent contextual models are increasingly dominant, we still see demand for lexicon-based models because of their interpretability and ease of use. For example, lexicon-based models allow researchers to readily determine which words and phrases contribute most to a change in measured sentiment. A challenge for any lexicon-based approach is that the lexicon needs to be routinely expanded with new words and expressions. Crowdsourcing annotations for semantic dictionaries may be an expensive and time-consuming task. Here, we propose two models for predicting sentiment scores to augment semantic lexicons at a relatively low cost using word embeddings and transfer learning. Our first model establishes a baseline employing a simple and shallow neural network initialized with pre-trained word embeddings using a non-contextual approach. Our second model improves upon our baseline, featuring a deep Transformer-based network that brings to bear word definitions to estimate their lexical polarity. Our evaluation shows that both models are able to score new words with a similar accuracy to reviewers from Amazon Mechanical Turk, but at a fraction of the cost.
翻訳日:2021-09-21 16:47:08 公開日:2021-09-18
# 議会演説による政治バイアス検査のための機械学習パイプライン

A Machine Learning Pipeline to Examine Political Bias with Congressional Speeches ( http://arxiv.org/abs/2109.09014v1 )

ライセンス: Link先を確認
Prasad hajare, Sadia Kamal, Siddharth Krishnan, and Arunkumar Bagavathi(参考訳) ソーシャルメディアにおける政治的バイアスをモデル化する計算手法には、異質性、高次元、多重モダリティ、データのスケールなど、いくつかの課題がある。 ソーシャルメディアにおける政治バイアスは、メディアバイアス、政治的イデオロギー、エコーチャンバー、機械学習パイプラインを用いた論争など、さまざまな視点で研究されている。 現在の手法のほとんどは、基礎となる政治的バイアス予測タスクのために、手動でラベルされた地上データに大きく依存している。 このような手法の限界には、人間集約的なラベリング、特定の問題のみに関連するラベル、ソーシャルメディア会話の近い将来のバイアス状態を決定することができないことが含まれる。 本研究では、このような問題に対処し、2つのイデオロギー的に多様なソーシャルメディアフォーラムで政治的偏見を研究するための機械学習アプローチを提供する。 提案手法は,米国議会における政治演説から収集した原稿を用いて,そのデータをラベル付けし,twitterおよびgabデータにおいて,70.5%,65.1%の精度をそれぞれ達成し,政治的バイアスを予測する。 また、カスケードとテキストの特徴を組み合わせて、カスケードの政治的偏見を約85%の精度で予測する機械学習アプローチを提案する。

Computational methods to model political bias in social media involve several challenges due to heterogeneity, high-dimensional, multiple modalities, and the scale of the data. Political bias in social media has been studied in multiple viewpoints like media bias, political ideology, echo chambers, and controversies using machine learning pipelines. Most of the current methods rely heavily on the manually-labeled ground-truth data for the underlying political bias prediction tasks. Limitations of such methods include human-intensive labeling, labels related to only a specific problem, and the inability to determine the near future bias state of a social media conversation. In this work, we address such problems and give machine learning approaches to study political bias in two ideologically diverse social media forums: Gab and Twitter without the availability of human-annotated data. Our proposed methods exploit the use of transcripts collected from political speeches in US congress to label the data and achieve the highest accuracy of 70.5% and 65.1% in Twitter and Gab data respectively to predict political bias. We also present a machine learning approach that combines features from cascades and text to forecast cascade's political bias with an accuracy of about 85%.
翻訳日:2021-09-21 16:46:46 公開日:2021-09-18
# 階層型勾配圧縮によるマルチチャネル移動エッジネットワークの効率的なフェデレーション学習に向けて

Toward Efficient Federated Learning in Multi-Channeled Mobile Edge Network with Layerd Gradient Compression ( http://arxiv.org/abs/2109.08819v1 )

ライセンス: Link先を確認
Haizhou Du, Xiaojie Feng, Qiao Xiang, Haoyu Liu(参考訳) 連合学習(FL)の基本的な課題は、高度に動的な通信環境下で最適なモデル性能を実現する方法である。 この問題は、現代のエッジデバイスが複数の通信チャネル(例えば、4G、LTE、5G)を介してエッジFLサーバに接続できるという事実によって緩和できる。 しかし、エッジデバイスが複数のチャネルに沿ってローカルモデルのコピーをFLサーバに送信することは冗長であり、時間がかかり、リソースを浪費する(例えば、帯域幅、バッテリ寿命、金銭的コスト)。 本稿では,ビデオストリーミングにおける階層化符号化技術に動機付けられ,階層化勾配圧縮(LGC)と呼ばれる新しいFLフレームワークを提案する。 特にLGCでは、デバイスからの局所勾配は複数の層にコード化され、各層は異なるチャネルに沿ってFLサーバに送られる。 FLサーバは、受信したローカル勾配の層をデバイスから集約してグローバルモデルを更新し、その結果をデバイスに返送する。 我々はlgcの収束を証明し,lgcを用いた資源効率のよい連合学習の問題を形式的に定義する。 次に,各装置の局所計算量(局所確率降下数)を動的に調整し,各イテレーションにおける通信決定(異なるレイヤの圧縮レベルとチャネルマッピング)を行うための学習に基づくアルゴリズムを提案する。 広範な実験の結果,lgcはトレーニング時間を大幅に削減し,リソース利用率を向上させるとともに,fl機構と同等の精度を実現していることがわかった。

A fundamental issue for federated learning (FL) is how to achieve optimal model performance under highly dynamic communication environments. This issue can be alleviated by the fact that modern edge devices usually can connect to the edge FL server via multiple communication channels (e.g., 4G, LTE and 5G). However, having an edge device send copies of local models to the FL server along multiple channels is redundant, time-consuming, and would waste resources (e.g., bandwidth, battery life and monetary cost). In this paper, motivated by the layered coding techniques in video streaming, we propose a novel FL framework called layered gradient compression (LGC). Specifically, in LGC, local gradients from a device is coded into several layers and each layer is sent to the FL server along a different channel. The FL server aggregates the received layers of local gradients from devices to update the global model, and sends the result back to the devices. We prove the convergence of LGC, and formally define the problem of resource-efficient federated learning with LGC. We then propose a learning based algorithm for each device to dynamically adjust its local computation (i.e., the number of local stochastic descent) and communication decisions (i.e.,the compression level of different layers and the layer to channel mapping) in each iteration. Results from extensive experiments show that using our algorithm, LGC significantly reduces the training time, improves the resource utilization, while achieving a similar accuracy, compared with well-known FL mechanisms.
翻訳日:2021-09-21 16:46:04 公開日:2021-09-18
# レジリエント人工知能を目指して : 調査と研究課題

Towards Resilient Artificial Intelligence: Survey and Research Issues ( http://arxiv.org/abs/2109.08904v1 )

ライセンス: Link先を確認
Oliver Eigner, Sebastian Eresheim, Peter Kieseberg, Lukas Daniel Klausner, Martin Pirker, Torsten Priebe, Simon Tjoa, Fiammetta Marulli, Francesco Mercaldo(参考訳) 人工知能(AI)システムは、今日のITランドスケープの重要なコンポーネントになりつつある。 攻撃やその他の環境影響に対する彼らのレジリエンスは、他のIT資産と同じように確保する必要があります。 本稿では,AIの特殊性,特に機械学習(ML)を考慮し,レジリエンスAIの新たな分野の概要と,著者らが将来的な仕事とみなす研究課題について述べる。

Artificial intelligence (AI) systems are becoming critical components of today's IT landscapes. Their resilience against attacks and other environmental influences needs to be ensured just like for other IT assets. Considering the particular nature of AI, and machine learning (ML) in particular, this paper provides an overview of the emerging field of resilient AI and presents research issues the authors identify as potential future work.
翻訳日:2021-09-21 16:45:38 公開日:2021-09-18
# 多変量心信号の自己教師あり学習

Intra-Inter Subject Self-supervised Learning for Multivariate Cardiac Signals ( http://arxiv.org/abs/2109.08908v1 )

ライセンス: Link先を確認
Xiang Lan, Dianwen Ng, Shenda Hong, Mengling Feng(参考訳) 心不整脈 (cardiac arrhythmias) を同定するためにラベルのない多変量心信号から効果的に情報豊かで一般化可能な表現を学習することは、実際の臨床環境では有用であるが、複雑な時間的ダイナミクスのためにしばしば困難である。 心臓不整脈は、同じ患者であっても、時間パターンによって大きく変化する(すなわち、被験者内差)。 一方、同じタイプの心不整脈は、異なる心構造(すなわち、対象間差)により、異なる患者間で異なる時間パターンを示すことができる。 本稿では,多変量心信号用にカスタマイズされた自己教師付き学習モデルであるinter-inter subject self-supervised learning(isl)を提案する。 提案するISLモデルは,医学知識を自己スーパービジョンに統合し,内科間の違いから効果的に学習する。 被写体内自己スーパービジョンにおいて、islモデルはまずチャネルワイズ注意型cnn-rnnエンコーダを用いて各被写体から心拍レベルの特徴を抽出する。 次に定常性テストモジュールを使用して、心拍間の時間的依存関係をキャプチャする。 被検者間自己監督では,心臓信号の臨床的特徴に応じてデータ拡張のセットを設計し,患者間でコントラスト学習を行い,様々な種類の患者に特徴的な表現を学習する。 3つの実世界のデータセットに関する広範な実験が行われた。 半教師あり移行学習のシナリオでは、事前訓練されたISLモデルは、1%のラベル付きデータが利用できる場合、教師付きトレーニングよりも約10%改善され、モデルの強い一般化性と堅牢性を示す。

Learning information-rich and generalizable representations effectively from unlabeled multivariate cardiac signals to identify abnormal heart rhythms (cardiac arrhythmias) is valuable in real-world clinical settings but often challenging due to its complex temporal dynamics. Cardiac arrhythmias can vary significantly in temporal patterns even for the same patient ($i.e.$, intra subject difference). Meanwhile, the same type of cardiac arrhythmia can show different temporal patterns among different patients due to different cardiac structures ($i.e.$, inter subject difference). In this paper, we address the challenges by proposing an Intra-inter Subject self-supervised Learning (ISL) model that is customized for multivariate cardiac signals. Our proposed ISL model integrates medical knowledge into self-supervision to effectively learn from intra-inter subject differences. In intra subject self-supervision, ISL model first extracts heartbeat-level features from each subject using a channel-wise attentional CNN-RNN encoder. Then a stationarity test module is employed to capture the temporal dependencies between heartbeats. In inter subject self-supervision, we design a set of data augmentations according to the clinical characteristics of cardiac signals and perform contrastive learning among subjects to learn distinctive representations for various types of patients. Extensive experiments on three real-world datasets were conducted. In a semi-supervised transfer learning scenario, our pre-trained ISL model leads about 10% improvement over supervised training when only 1% labeled data is available, suggesting strong generalizability and robustness of the model.
翻訳日:2021-09-21 16:45:31 公開日:2021-09-18
# G-CoS: GNN-Acceleratorの共同検索で精度と効率性の向上を目指す

G-CoS: GNN-Accelerator Co-Search Towards Both Better Accuracy and Efficiency ( http://arxiv.org/abs/2109.08983v1 )

ライセンス: Link先を確認
Yongan Zhang, Haoran You, Yonggan Fu, Tong Geng, Ang Li, Yingyan Lin(参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの学習タスクのための最先端(SOTA)メソッドとして登場した。 しかし、大規模なグラフデータセットに対してGNNを推論することは違法に困難であり、大規模な実世界のタスクに制限されている。 エンドツーエンドでGNNとそのアクセラレーターを最適化することは、GNNの推論効率の向上と設計プロセスの高速化を約束するが、GNNとそのアクセラレーターの広範かつ異なる設計空間のために、まだ未探索である。 本研究では,GNNと加速器の協調探索フレームワークであるG-CoSを提案する。 具体的には、(1)様々なGNN構造に適用可能な汎用的なGNNアクセラレータサーチスペース、(2)最適なGNN構造とその一致したアクセラレータの同時かつ効率的な探索を可能にするワンショットGNNとアクセラレータコサーチアルゴリズムである。 我々の知る限りでは、G-CoSはGNNとそのアクセラレーターのための最初の共同研究フレームワークである。 G-CoSが生成したGNNとアクセラレータは、タスク精度とハードウェア効率の両方において、SOTA GNNとGNNアクセラレータを一貫して上回り、最も適合したGNNとそのアクセラレータのエンドツーエンド生成には数時間しかかからない。

Graph Neural Networks (GNNs) have emerged as the state-of-the-art (SOTA) method for graph-based learning tasks. However, it still remains prohibitively challenging to inference GNNs over large graph datasets, limiting their application to large-scale real-world tasks. While end-to-end jointly optimizing GNNs and their accelerators is promising in boosting GNNs' inference efficiency and expediting the design process, it is still underexplored due to the vast and distinct design spaces of GNNs and their accelerators. In this work, we propose G-CoS, a GNN and accelerator co-search framework that can automatically search for matched GNN structures and accelerators to maximize both task accuracy and acceleration efficiency. Specifically, GCoS integrates two major enabling components: (1) a generic GNN accelerator search space which is applicable to various GNN structures and (2) a one-shot GNN and accelerator co-search algorithm that enables simultaneous and efficient search for optimal GNN structures and their matched accelerators. To the best of our knowledge, G-CoS is the first co-search framework for GNNs and their accelerators. Extensive experiments and ablation studies show that the GNNs and accelerators generated by G-CoS consistently outperform SOTA GNNs and GNN accelerators in terms of both task accuracy and hardware efficiency, while only requiring a few hours for the end-to-end generation of the best matched GNNs and their accelerators.
翻訳日:2021-09-21 16:45:07 公開日:2021-09-18
# 運転行動分析のための深層学習アプローチの動的・系統的研究

Dynamic and Systematic Survey of Deep Learning Approaches for Driving Behavior Analysis ( http://arxiv.org/abs/2109.08996v1 )

ライセンス: Link先を確認
Farid Talebloo, Emad A. Mohammed, Behrouz H. Far(参考訳) 不適切な運転は死亡率、損傷、エネルギー消費の増加、車両の劣化をもたらす。 運転行動の分析は、前述の問題を最適化し、回避する可能性がある。 運転のタイプを特定して、そのタイプの運転の結果にマッピングすることで、それを防ぐモデルを得ることができるのです。 そこで本研究では,将来の研究者を対象とした運転行動調査データをレビューし,提示するための動的調査論文を作成しようとしている。 58の論文を分析し,標準手法を分類し,今後の論文を異なるダッシュボードで検討・検討し,トレンドについて更新するためのフレームワークを提供する。

Improper driving results in fatalities, damages, increased energy consumptions, and depreciation of the vehicles. Analyzing driving behaviour could lead to optimize and avoid mentioned issues. By identifying the type of driving and mapping them to the consequences of that type of driving, we can get a model to prevent them. In this regard, we try to create a dynamic survey paper to review and present driving behaviour survey data for future researchers in our research. By analyzing 58 articles, we attempt to classify standard methods and provide a framework for future articles to be examined and studied in different dashboards and updated about trends.
翻訳日:2021-09-21 16:44:36 公開日:2021-09-18
# 浅層reluニューラルネットワークを用いた最小近距離推定

Near-Minimax Optimal Estimation With Shallow ReLU Neural Networks ( http://arxiv.org/abs/2109.08844v1 )

ライセンス: Link先を確認
Rahul Parhi and Robert D. Nowak(参考訳) 浅層(単層)ReLUニューラルネットワークを用いた雑音データから未知関数を推定する問題について検討する。 本研究では,2乗データフィッティング誤差の和と,ネットワーク重みのユークリッドノルムに比例する正規化項を最小化する。 この最小化は、重み付きニューラルネットワークをトレーニングする一般的なアプローチに対応する。 データ生成関数がラドン領域の第2次有界変動関数の空間に属する場合、これらのニューラルネットワーク推定器の性能(平均二乗誤差)を定量化する。 この関数空間は、浅層reluニューラルネットワークに関連する自然関数空間として最近提案された。 この関数空間の推定問題に対してミニマックス下界を導出し、ニューラルネットワーク推定器が対数因子に最適であることを示す。 また、これはある種のソボレフ空間や特定のスペクトルバロン空間を含む古典的多変量函数空間を含む「混合変分」函数空間であることを示す。 最後に、これらの結果を用いて、ニューラルネットワークと線形メソッド(カーネルメソッドを含む)の間のギャップを定量化する。 この論文は、ニューラルネットワークが次元の呪いを破っているように見える現象に光を当てている。

We study the problem of estimating an unknown function from noisy data using shallow (single-hidden layer) ReLU neural networks. The estimators we study minimize the sum of squared data-fitting errors plus a regularization term proportional to the Euclidean norm of the network weights. This minimization corresponds to the common approach of training a neural network with weight decay. We quantify the performance (mean-squared error) of these neural network estimators when the data-generating function belongs to the space of functions of second-order bounded variation in the Radon domain. This space of functions was recently proposed as the natural function space associated with shallow ReLU neural networks. We derive a minimax lower bound for the estimation problem for this function space and show that the neural network estimators are minimax optimal up to logarithmic factors. We also show that this is a "mixed variation" function space that contains classical multivariate function spaces including certain Sobolev spaces and certain spectral Barron spaces. Finally, we use these results to quantify a gap between neural networks and linear methods (which include kernel methods). This paper sheds light on the phenomenon that neural networks seem to break the curse of dimensionality.
翻訳日:2021-09-21 16:43:51 公開日:2021-09-18
# MCP/SCADペナライズされた最小正方形に対する線形収束座標

Coordinate Descent for MCP/SCAD Penalized Least Squares Converges Linearly ( http://arxiv.org/abs/2109.08850v1 )

ライセンス: Link先を確認
Yuling Jiao, Dingwei Li, Min Liu and Xiliang Lu(参考訳) 観測データからスパース信号を復元することは、信号/イメージング処理、統計、機械学習において重要なトピックである。 非凸ペナルティ化された最小四角形は、素晴らしい統計特性を享受するため、多くの注目を集めています。 計算学的には、座標降下(CD)は、その単純さとスケーラビリティのために非凸最小二乗基準を最小化するための作業である。 本研究では,MPP/SCADの最小二乗問題を解くために,CDに対する線形収束率を証明した。

Recovering sparse signals from observed data is an important topic in signal/imaging processing, statistics and machine learning. Nonconvex penalized least squares have been attracted a lot of attentions since they enjoy nice statistical properties. Computationally, coordinate descent (CD) is a workhorse for minimizing the nonconvex penalized least squares criterion due to its simplicity and scalability. In this work, we prove the linear convergence rate to CD for solving MCP/SCAD penalized least squares problems.
翻訳日:2021-09-21 16:43:32 公開日:2021-09-18
# 乳癌診断のためのディープラーニングアプローチに関する調査研究

A survey on deep learning approaches for breast cancer diagnosis ( http://arxiv.org/abs/2109.08853v1 )

ライセンス: Link先を確認
Timothy Kwong, Samaneh Mazaheri(参考訳) 深層学習は、乳腺腫瘍を認識するための学習ベースのいくつかの方法を導入し、乳癌の診断に高い適用性を示している。 コンピュータ支援診断システム(CAD)の実践的な導入として、放射線科医が様々なモダリティの診断を行う際の支援を行っている。 病院や公共データベースが提供する画像に基づいて訓練されたディープラーニングネットワークは、病変の分類、検出、セグメンテーションを行うことができる。 2d画像の腫瘍の認識には大きな進歩が見られたが、3d画像の認識はいまだにフロンティアである。 異なる研究分野間のディープラーニングネットワークの相互接続により、より効率的で正確で堅牢なネットワークの発見が促進される。 本稿では,以下の話題について考察する。 (i)深層学習の理論と応用 (ii)乳腺腫瘍認識における2d,2.5d,3d cnnアプローチの進歩 : パフォーマンス指標の観点から (iii)cnnアプローチで直面する課題。

Deep learning has introduced several learning-based methods to recognize breast tumours and presents high applicability in breast cancer diagnostics. It has presented itself as a practical installment in Computer-Aided Diagnostic (CAD) systems to further assist radiologists in diagnostics for different modalities. A deep learning network trained on images provided by hospitals or public databases can perform classification, detection, and segmentation of lesion types. Significant progress has been made in recognizing tumours on 2D images but recognizing 3D images remains a frontier so far. The interconnection of deep learning networks between different fields of study help propels discoveries for more efficient, accurate, and robust networks. In this review paper, the following topics will be explored: (i) theory and application of deep learning, (ii) progress of 2D, 2.5D, and 3D CNN approaches in breast tumour recognition from a performance metric perspective, and (iii) challenges faced in CNN approaches.
翻訳日:2021-09-21 16:41:37 公開日:2021-09-18
# DyLex: 動的レキシコンをBERTにコピーしてシーケンスラベリング

DyLex: Incoporating Dynamic Lexicons into BERT for Sequence Labeling ( http://arxiv.org/abs/2109.08818v1 )

ライセンス: Link先を確認
Baojun Wang, Zhao Zhang, Kun Xu, Guang-Yuan Hao, Yuyang Zhang, Lifeng Shang, Linlin Li, Xiao Chen, Xin Jiang and Qun Liu(参考訳) ディープラーニングモデルに語彙知識を組み込むことは、シーケンスラベリングタスクに非常に有効であることが証明されている。 しかし、従来の研究は、しばしば過度に一致したノイズや頻繁な更新の問題を引き起こす大規模な動的レキシコンを扱うのが困難であった。 本稿では,BERTに基づくシーケンスラベリングタスクのためのプラグイン辞書の組込み手法であるDyLexを提案する。 従来の方法のように語彙への単語の埋め込みを活用する代わりに、単語に依存しないタグ埋め込みを採用し、語彙を更新しながら表現の再学習を避ける。 さらに,マッチングノイズを円滑に除去するために,効率的な教師付き語彙知識復調手法を用いる。 最後に,提案フレームワークのプラグイン性を保証するために,協調注意に基づく知識融合機構を導入する。 3つのタスクからなる10のデータセットの実験により、非常に大規模な語彙であっても、提案するフレームワークが新しいSOTAを実現することが示された。

Incorporating lexical knowledge into deep learning models has been proved to be very effective for sequence labeling tasks. However, previous works commonly have difficulty dealing with large-scale dynamic lexicons which often cause excessive matching noise and problems of frequent updates. In this paper, we propose DyLex, a plug-in lexicon incorporation approach for BERT based sequence labeling tasks. Instead of leveraging embeddings of words in the lexicon as in conventional methods, we adopt word-agnostic tag embeddings to avoid re-training the representation while updating the lexicon. Moreover, we employ an effective supervised lexical knowledge denoising method to smooth out matching noise. Finally, we introduce a col-wise attention based knowledge fusion mechanism to guarantee the pluggability of the proposed framework. Experiments on ten datasets of three tasks show that the proposed framework achieves new SOTA, even with very large scale lexicons.
翻訳日:2021-09-21 16:40:03 公開日:2021-09-18
# 感情要因に着目した共感反応生成の視点と実践

Perspective-taking and Pragmatics for Generating Empathetic Responses Focused on Emotion Causes ( http://arxiv.org/abs/2109.08828v1 )

ライセンス: Link先を確認
Hyunwoo Kim, Byeongchang Kim, Gunhee Kim(参考訳) 共感は、他人の感情状態の推論に基づく複雑な認知能力である。 他者をよりよく理解し、対話においてより強い共感を示すためには、同時に2つの問題に取り組む必要があると論じる。 (i)相手の発声から相手の感情の原因となる単語を識別すること。 (ii)応答生成中の特定の単語を反映する。 しかし、感情を認識する以前のアプローチでは、テキスト中の単語を認識するには、サブ発話レベルのアノテーションが必要である。 社会的認知から着想を得て,生成的推定器を用いて単語レベルラベルのない発話から感情を推定する。 また,対話モデルが入力中の対象語に焦点を合わせられるように,実用的手法に基づく新しい手法を提案する。 本手法は,任意の対話モデルに適用できるが,追加の訓練は行わない。 提案手法は,自動評価と人間評価の両方の観点から,より集中した共感応答を生成することにより,複数のベストパフォーマンス対話エージェントを改善する。

Empathy is a complex cognitive ability based on the reasoning of others' affective states. In order to better understand others and express stronger empathy in dialogues, we argue that two issues must be tackled at the same time: (i) identifying which word is the cause for the other's emotion from his or her utterance and (ii) reflecting those specific words in the response generation. However, previous approaches for recognizing emotion cause words in text require sub-utterance level annotations, which can be demanding. Taking inspiration from social cognition, we leverage a generative estimator to infer emotion cause words from utterances with no word-level label. Also, we introduce a novel method based on pragmatics to make dialogue models focus on targeted words in the input during generation. Our method is applicable to any dialogue models with no additional training on the fly. We show our approach improves multiple best-performing dialogue agents on generating more focused empathetic responses in terms of both automatic and human evaluation.
翻訳日:2021-09-21 16:39:49 公開日:2021-09-18
# TVRecap: キャラクタ記述によるストーリー生成用データセット

TVRecap: A Dataset for Generating Stories with Character Descriptions ( http://arxiv.org/abs/2109.08833v1 )

ライセンス: Link先を確認
Mingda Chen, Kevin Gimpel(参考訳) 本稿では,短い要約と関連するキャラクターを記述した一連の文書から,詳細なテレビ番組エピソードの要約を生成する必要があるストーリー生成データセットであるTVRecapを紹介する。 他のストーリー生成データセットとは異なり、TVRecapにはプロの脚本家によって書かれたストーリーが含まれており、複数のキャラクターの間で複雑な相互作用が特徴である。 tvrecapでストーリーを生成するには、短い要約に基づいて文字に関する長い文書から関連する情報を描画する必要がある。 さらに、入力と出力を切り替えることで、TVRecapは抽象的な要約のための挑戦的なテストベッドとして機能する。 ファンが配信するウェブサイトからTVRecapを作成し、平均して1868.7トークンで26kエピソードのリキャップを収集できる。 経験的に、私たちは階層的なストーリー生成アプローチを採用し、キャラクター記述にoracleコンテンツセレクタを使用するニューラルモデルが自動メトリクスで最高のパフォーマンスを示し、制約付きストーリー生成に関する今後の研究を刺激するデータセットの可能性を示しています。 質的分析は、最良のパフォーマンスモデルが短い要約に不利なコンテンツを生成する場合があり、将来の作業に有望な方向性を示唆していることを示している。

We introduce TVRecap, a story generation dataset that requires generating detailed TV show episode recaps from a brief summary and a set of documents describing the characters involved. Unlike other story generation datasets, TVRecap contains stories that are authored by professional screenwriters and that feature complex interactions among multiple characters. Generating stories in TVRecap requires drawing relevant information from the lengthy provided documents about characters based on the brief summary. In addition, by swapping the input and output, TVRecap can serve as a challenging testbed for abstractive summarization. We create TVRecap from fan-contributed websites, which allows us to collect 26k episode recaps with 1868.7 tokens on average. Empirically, we take a hierarchical story generation approach and find that the neural model that uses oracle content selectors for character descriptions demonstrates the best performance on automatic metrics, showing the potential of our dataset to inspire future research on story generation with constraints. Qualitative analysis shows that the best-performing model sometimes generates content that is unfaithful to the short summaries, suggesting promising directions for future work.
翻訳日:2021-09-21 16:39:32 公開日:2021-09-18
# Emily:知識グラフを用いた感情影響のあるオープンドメインチャットボットの開発

Emily: Developing An Emotion-affective Open-Domain Chatbot with Knowledge Graph-based Persona ( http://arxiv.org/abs/2109.08875v1 )

ライセンス: Link先を確認
Weixuan Wang, Xiaoling Cai, Chong Hsuan Huang, Haoran Wang, Haonan Lu, Ximing Liu, Wei Peng(参考訳) 本稿では,感情に影響を及ぼすオープンドメインチャットボットであるemilyの開発手法について述べる。 Emilyはユーザの負の感情状態を認識し、ユーザの感情状態を肯定的に変換することでサポートを提供する。 これは、会話コンテキストと望ましい感情状態遷移をキャプチャするデータに基づいて、事前訓練された対話モデルを微調整することで実行される。 Emilyは、一般のオープンドメイン対話発話を、個人情報に関する質問と区別することができる。 ナレッジグラフに基づく質問応答アプローチを利用して個人情報を扱うことで、emilyはパーソナリティ一貫性を維持する。 エミリーを最先端のオープンドメインチャットボットに対して評価し,提案手法が人格不整合に影響を与え,対処していることを示す。

In this paper, we describe approaches for developing Emily, an emotion-affective open-domain chatbot. Emily can perceive a user's negative emotion state and offer supports by positively converting the user's emotion states. This is done by finetuning a pretrained dialogue model upon data capturing dialogue contexts and desirable emotion states transition across turns. Emily can differentiate a general open-domain dialogue utterance with questions relating to personal information. By leveraging a question-answering approach based on knowledge graphs to handle personal information, Emily maintains personality consistency. We evaluate Emily against a few state-of-the-art open-domain chatbots and show the effects of the proposed approaches in emotion affecting and addressing personality inconsistency.
翻訳日:2021-09-21 16:39:11 公開日:2021-09-18
# 高次注意による関節インテント検出とスロット充満に向けて

Towards Joint Intent Detection and Slot Filling via Higher-order Attention ( http://arxiv.org/abs/2109.08890v1 )

ライセンス: Link先を確認
Dongsheng Chen, Zhiqi Huang, Xian Wu, Shen Ge, Yuexian Zou(参考訳) Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。 近年,これら2つのタスクの対話的最適化に注意機構が有効であることが示されている。 しかし、最新の注意に基づく研究は、高次注意機構の探索を無視しながら、1次注意設計のみに集中している。 本稿では,双方向のプーリングを活用し,入力意図とスロット特徴の2次相互作用を捉えるために,文脈的およびチャネル的双方向の注意分布を同時に活用するバイリニア・アテンションブロックを提案する。 高次および無限次相互作用は、多数のブロックを積み重ね、指数線形ユニット(ELU)をブロックに割り当てることによって構築される。 復号化の前には,インテントとスロット情報を暗黙的に融合する動的機能融合層を,より効果的な方法で導入する。 技術的には、単にインテントとスロット機能を結合するのではなく、2つの相関行列を2つの特徴に重み付けて計算します。 さらに,SLUタスクに対する高次注意ネットワークを提案する。 2つのベンチマークデータセットの実験により、我々のアプローチは最先端のアプローチと比較して改善をもたらすことが示された。 また,提案手法の有効性を示すための議論を行う。

Intent detection (ID) and Slot filling (SF) are two major tasks in spoken language understanding (SLU). Recently, attention mechanism has been shown to be effective in jointly optimizing these two tasks in an interactive manner. However, latest attention-based works concentrated only on the first-order attention design, while ignoring the exploration of higher-order attention mechanisms. In this paper, we propose a BiLinear attention block, which leverages bilinear pooling to simultaneously exploit both the contextual and channel-wise bilinear attention distributions to capture the second-order interactions between the input intent or slot features. Higher and even infinity order interactions are built by stacking numerous blocks and assigning Exponential Linear Unit (ELU) to blocks. Before the decoding stage, we introduce the Dynamic Feature Fusion Layer to implicitly fuse intent and slot information in a more effective way. Technically, instead of simply concatenating intent and slot features, we first compute two correlation matrices to weight on two features. Furthermore, we present Higher-order Attention Network for the SLU tasks. Experiments on two benchmark datasets show that our approach yields improvements compared with the state-of-the-art approach. We also provide discussion to demonstrate the effectiveness of the proposed approach.
翻訳日:2021-09-21 16:38:59 公開日:2021-09-18
# 知識グラフに基づく複雑な問合せ回答の組合せ一般化可能性のベンチマーク

Benchmarking the Combinatorial Generalizability of Complex Query Answering on Knowledge Graphs ( http://arxiv.org/abs/2109.08925v1 )

ライセンス: Link先を確認
Zihao Wang, Hang Yin, Yangqiu Song(参考訳) CQA(complex Query Answering)は知識グラフの重要な推論タスクである。 現在のCQA学習モデルは、原子演算子からより複雑な公式への一般化が可能であることが示されている。 本稿では,既存のデータセットの20倍の301種類のクエリタイプを含むことで,CQAモデルの組合せ一般化性をベンチマークする新しいデータセットであるEFO-1-QAを提案する。 さらに、我々の研究は、初めて、異なる演算子と通常の形式の影響を評価し、分析するベンチマークを提供する。 (a)オペレータシステムと7つの選択肢 (b)9種類の複雑な問合せ。 具体的には、一般的な2つの演算子、すなわち射影と交叉の組合せ汎化可能性に関する詳細な研究を行い、演算子の標準選択によるクエリ形式の影響を正当化する。 私たちのコードとデータは、CQAモデルをベンチマークするための効果的なパイプラインを提供することができます。

Complex Query Answering (CQA) is an important reasoning task on knowledge graphs. Current CQA learning models have been shown to be able to generalize from atomic operators to more complex formulas, which can be regarded as the combinatorial generalizability. In this paper, we present EFO-1-QA, a new dataset to benchmark the combinatorial generalizability of CQA models by including 301 different queries types, which is 20 times larger than existing datasets. Besides, our work, for the first time, provides a benchmark to evaluate and analyze the impact of different operators and normal forms by using (a) 7 choices of the operator systems and (b) 9 forms of complex queries. Specifically, we provide the detailed study of the combinatorial generalizability of two commonly used operators, i.e., projection and intersection, and justify the impact of the forms of queries given the canonical choice of operators. Our code and data can provide an effective pipeline to benchmark CQA models.
翻訳日:2021-09-21 16:38:38 公開日:2021-09-18
# iccma2021の設計と結果

Design and Results of ICCMA 2021 ( http://arxiv.org/abs/2109.08884v1 )

ライセンス: Link先を確認
Jean-Marie Lagniez, Emmanuel Lonca, Jean-Guy Mailly, Julien Rossit(参考訳) 2015年以降、ICCMA (International Competition on Computational Models of Argumentation) は抽象論の領域における古典的推論問題を解くための異なるアルゴリズムを体系的に比較している。 本稿では,第4回国際算術モデルコンペティションの設計について論じる。 本稿では,コンペティションのルールと,使用するベンチマーク選択手法について述べる。 コンペティタの簡単なプレゼンテーションの後、結果を概観する。

Since 2015, the International Competition on Computational Models of Argumentation (ICCMA) provides a systematic comparison of the different algorithms for solving some classical reasoning problems in the domain of abstract argumentation. This paper discusses the design of the Fourth International Competition on Computational Models of Argumentation. We describe the rules of the competition and the benchmark selection method that we used. After a brief presentation of the competitors, we give an overview of the results.
翻訳日:2021-09-21 16:34:43 公開日:2021-09-18
# リスク・アバース自律システム: 最適制御の観点からの簡単な歴史と最近の展開

Risk-averse autonomous systems: A brief history and recent developments from the perspective of optimal control ( http://arxiv.org/abs/2109.08947v1 )

ライセンス: Link先を確認
Yuheng Wang and Margaret P. Chapman(参考訳) 安全を重要視するリスク回避設定に重点を置いた,リスク概念の定量化とリスク対応自律システムの最適化のための方法論の歴史的概要を提供する。 我々は,最先端のアプローチの分類と現状について述べるとともに,意思決定理論,運用研究,強化学習,確率的制御といった分野のアプローチとアイデアの関連について述べる。 レビューの最初の部分は、モデルに基づくリスク回避手法に焦点を当てている。 第2部では,適応能力を向上させたポリシ設計を目的として,モデルベースとモデルフリーの手法をブレンドする手法について論じる。 我々は今後の研究の分野を強調して結論付ける。

We offer a historical overview of methodologies for quantifying the notion of risk and optimizing risk-aware autonomous systems, with emphasis on risk-averse settings in which safety may be critical. We categorize and present state-of-the-art approaches, and we describe connections between such approaches and ideas from the fields of decision theory, operations research, reinforcement learning, and stochastic control. The first part of the review focuses on model-based risk-averse methods. The second part discusses methods that blend model-based and model-free techniques for the purpose of designing policies with improved adaptive capabilities. We conclude by highlighting areas for future research.
翻訳日:2021-09-21 16:34:32 公開日:2021-09-18
# 可視赤外人物再識別のための同種・異種関係グラフ

Homogeneous and Heterogeneous Relational Graph for Visible-infrared Person Re-identification ( http://arxiv.org/abs/2109.08811v1 )

ライセンス: Link先を確認
Yujian Feng, Feng Chen, Jian Yu, Yimu Ji, Fei Wu, Shangdong Liu(参考訳) Visible-infrared person re-identification (VI Re-ID) は、可視光と赤外線のモダリティ間の人物像のマッチングを目的としている。 既存のvi re-id法は主に単一画像からの均質な構造的関係の抽出に焦点を合わせ、一方、相互モダリティ画像間の不均一な相関を無視する。 等質的および異質な構造的関係は、効果的なアイデンティティ表現と相互モダリティマッチングを学ぶために重要である。 本稿では,各モダリティ内におけるモダリティ固有グラフによる同種構造関係を別々にモデル化し,この2つのモダリティ固有グラフにおける異種構造相関を抽出する。 まず、同次構造グラフ (HOSG) は 1-vs をマイニングする。 -任意のノード(ローカル機能)と可視または赤外線画像内の残りのすべてのノードの関係を保ち、効果的なアイデンティティ表現を学習する。 第2に, 異種グラフアライメントモジュール (HGAM) は, 2モードの局所ノード特徴間の経路探索により, さらに関係エッジ強度を測定する。 第3に、異種グローバルグラフ表現におけるモダリティ不変性を抽出するために、CMCC損失を提案する。 CMCCは、モダリティ間の相互情報を計算し、セマンティック冗長性を排除する。 SYSU-MM01とRegDBデータセットの大規模な実験により、我々の手法は13.73\%と9.45\%のRan1/mAPで最先端の性能を発揮することが示された。 コードはhttps://github.com/f egnyujian/homogeneou s-and-heterogeneous- Relational-Graphで公開されている。

Visible-infrared person re-identification (VI Re-ID) aims to match person images between the visible and infrared modalities. Existing VI Re-ID methods mainly focus on extracting homogeneous structural relationships from a single image, while ignoring the heterogeneous correlation between cross-modality images. The homogenous and heterogeneous structured relationships are crucial to learning effective identity representation and cross-modality matching. In this paper, we separately model the homogenous structural relationship by a modality-specific graph within individual modality and then mine the heterogeneous structural correlation in these two modality-specific graphs. First, the homogeneous structured graph (HOSG) mines one-vs.-rest relation between an arbitrary node (local feature) and all the rest nodes within a visible or infrared image to learn effective identity representation. Second, to find cross-modality identity-consistent correspondence, the heterogeneous graph alignment module (HGAM) further measures the relational edge strength by route search between two-modality local node features. Third, we propose the cross-modality cross-correlation (CMCC) loss to extract the modality invariance in heterogeneous global graph representation. CMCC computes the mutual information between modalities and expels semantic redundancy. Extensive experiments on SYSU-MM01 and RegDB datasets demonstrate that our method outperforms state-of-the-arts with a gain of 13.73\% and 9.45\% Rank1/mAP. The code is available at https://github.com/f egnyujian/Homogeneou s-and-Heterogeneous- Relational-Graph.
翻訳日:2021-09-21 16:32:15 公開日:2021-09-18
# 自己適応型部分領域適応

Self-Adaptive Partial Domain Adaptation ( http://arxiv.org/abs/2109.08829v1 )

ライセンス: Link先を確認
Jian Hu, Hongya Tuo, Shizhao Zhang, Chao Wang, Haowen Zhong, Zhikang Zou, Zhongliang Jing, Henry Leung, Ruping Zou(参考訳) 部分的ドメイン適応(PDA)は、ターゲットラベル空間がソースラベル空間のサブセットであると仮定する、より実用的なクロスドメイン学習問題を解決することを目的としている。 しかし、不一致のラベル空間は大きな負の転送を引き起こす。 従来のソリューションでは、ソース共有ドメインの重量を増やし、ソースアウトリーチドメインの重量を減らすために、ソフトウェイトを使用する。 しかし、それでも異常値の特徴を学習し、マイナスの移民につながる。 もう1つの主流の考えは、ソースドメインを共有部分と外れ値の部分とをハードバイナリ重みで区別することであり、絡み合った共有部分と外れ値のクラスを修正することは不可能である。 本稿では、エンドツーエンドの自己適応部分領域適応(SAPDA)ネットワークを提案する。 クラス重み評価機構は、共有クラス、外層クラス、混乱クラスの重みを動的に自己修正するために導入され、高い信頼度サンプルはより十分な重みを持つ。 一方、ラベル空間のミスマッチによる負の転送を著しく排除することができる。 さらに,提案手法はより広い意味で試料の移動性を効率的に測定できるため,教師なしのdaタスクでも競合結果が得られる。 複数のベンチマークで多数の実験を行い、SAPDAの有効性を実証した。

Partial Domain adaptation (PDA) aims to solve a more practical cross-domain learning problem that assumes target label space is a subset of source label space. However, the mismatched label space causes significant negative transfer. A traditional solution is using soft weights to increase weights of source shared domain and reduce those of source outlier domain. But it still learns features of outliers and leads to negative immigration. The other mainstream idea is to distinguish source domain into shared and outlier parts by hard binary weights, while it is unavailable to correct the tangled shared and outlier classes. In this paper, we propose an end-to-end Self-Adaptive Partial Domain Adaptation(SAPDA) Network. Class weights evaluation mechanism is introduced to dynamically self-rectify the weights of shared, outlier and confused classes, thus the higher confidence samples have the more sufficient weights. Meanwhile it can eliminate the negative transfer caused by the mismatching of label space greatly. Moreover, our strategy can efficiently measure the transferability of samples in a broader sense, so that our method can achieve competitive results on unsupervised DA task likewise. A large number of experiments on multiple benchmarks have demonstrated the effectiveness of our SAPDA.
翻訳日:2021-09-21 16:31:45 公開日:2021-09-18
# rgb-infrared personに対する記憶制御とアライメント

Memory Regulation and Alignment toward Generalizer RGB-Infrared Person ( http://arxiv.org/abs/2109.08843v1 )

ライセンス: Link先を確認
Feng Chen, Fei Wu, Qi Wu, Zhiguo Wan(参考訳) トレーニングとテストセットの間の不要なモダリティギャップとオーバーラップされていないidクラスから生じるドメインシフトは、rgb-infrared person re-identificationの重要な問題である。 ドメインシフトという本質的な問題に取り組む鍵は、2つのドメインのデータ分散を同じようなものに強制することだ。 しかし、RGB-IR ReIDは常に差別的特徴を要求しており、注意に基づく特徴アライメントやメートル法学習を通じて、見受けられるクラスの過剰な特徴感度である \textit{e.g.} が生じる。 したがって、事前定義されたトレーニングクラスから見当たらないクエリカテゴリを予測することは正確ではなく、最適な逆勾配をもたらす可能性がある。 本稿では、より説明しやすい方法でこれを明らかにし、この問題を解決するための新しい多粒性メモリ制御およびアライメントモジュール(MG-MRA)を提案する。 細粒度から粗い意味的粒度まで,潜在変数属性を明示的に中間的特徴に組み込むことで,参照クラスの識別的特徴に関するモデルの過信を緩和できる。 さらに、最寄りの近傍を横切ることで識別的特徴をマッチングする代わりに、グローバル構造パターンであるスパース属性を特徴に関して再集計し、ハッシュ化において対方向の画像類似度を測定するように割り当てる。 RegDB \cite{RegDB} と SYSU-MM01 \cite{SYSU} の広範な実験は、既存の最先端手法よりも優れていることを示す。 私たちのコードはhttps://github.com/C henfeng1271/MGMRAで利用可能です。

The domain shift, coming from unneglectable modality gap and non-overlapped identity classes between training and test sets, is a major issue of RGB-Infrared person re-identification. A key to tackle the inherent issue -- domain shift -- is to enforce the data distributions of the two domains to be similar. However, RGB-IR ReID always demands discriminative features, leading to over-rely feature sensitivity of seen classes, \textit{e.g.}, via attention-based feature alignment or metric learning. Therefore, predicting the unseen query category from predefined training classes may not be accurate and leads to a sub-optimal adversarial gradient. In this paper, we uncover it in a more explainable way and propose a novel multi-granularity memory regulation and alignment module (MG-MRA) to solve this issue. By explicitly incorporating a latent variable attribute, from fine-grained to coarse semantic granularity, into intermediate features, our method could alleviate the over-confidence of the model about discriminative features of seen classes. Moreover, instead of matching discriminative features by traversing nearest neighbor, sparse attributes, \textit{i.e.}, global structural pattern, are recollected with respect to features and assigned to measure pair-wise image similarity in hashing. Extensive experiments on RegDB \cite{RegDB} and SYSU-MM01 \cite{SYSU} show the superiority of the proposed method that outperforms existing state-of-the-art methods. Our code is available in https://github.com/C henfeng1271/MGMRA.
翻訳日:2021-09-21 16:31:25 公開日:2021-09-18
# スパース提案による高品質時間行動検出に向けて

Towards High-Quality Temporal Action Detection with Sparse Proposals ( http://arxiv.org/abs/2109.08847v1 )

ライセンス: Link先を確認
Jiannan Wu, Peize Sun, Shoufa Chen, Jiewen Yang, Zihao Qi, Lan Ma, Ping Luo(参考訳) 時間的行動検出(TAD)はビデオ理解において不可欠で困難なトピックであり、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。 以前の作品は、様々なアンカーを設計するか、ビデオシーケンス上の境界の組み合わせを全て列挙することで、密集した候補に大きく依存しており、複雑なパイプラインや繊細な手作りデザインに関係している。 最近のtransformerの復活により、クエリベースのメソッドは、そのシンプルさと柔軟性のための上昇するソリューションになりがちである。 しかし、クエリベースのメソッドと確立されたメソッドの間には、まだパフォーマンスのギャップがある。 本稿では,アクションの持続時間と短いアクションインスタンスのあいまいな境界が主な課題であることを示す。しかしながら,2次計算的グローバルアテンションは,クエリベースのマルチスケール特徴写像構築の手法を阻害する。 高品質な時間的行動検出に向けて,階層的特徴と相互作用するスパース提案を導入する。 提案手法sp-tadでは,各提案が時間的特徴ピラミッドの局所的特徴量に対応する。 ローカルインタラクションは、アクションインスタンスの詳細を保存するために高解像度機能の利用を可能にする。 特に高いtIoU閾値下では,本手法の有効性を示した。 例えば、THUMOS14の最先端パフォーマンス(mAP@0.6で45.7%、mAP@0.7で33.4%、mAP@Avgで53.5%)とActivityNet-1.3(mAP@ Avgで32.99%)の競合結果を達成する。 コードはhttps://github.com/w jn922/sp-tadで入手できる。

Temporal Action Detection (TAD) is an essential and challenging topic in video understanding, aiming to localize the temporal segments containing human action instances and predict the action categories. The previous works greatly rely upon dense candidates either by designing varying anchors or enumerating all the combinations of boundaries on video sequences; therefore, they are related to complicated pipelines and sensitive hand-crafted designs. Recently, with the resurgence of Transformer, query-based methods have tended to become the rising solutions for their simplicity and flexibility. However, there still exists a performance gap between query-based methods and well-established methods. In this paper, we identify the main challenge lies in the large variants of action duration and the ambiguous boundaries for short action instances; nevertheless, quadratic-computatio nal global attention prevents query-based methods to build multi-scale feature maps. Towards high-quality temporal action detection, we introduce Sparse Proposals to interact with the hierarchical features. In our method, named SP-TAD, each proposal attends to a local segment feature in the temporal feature pyramid. The local interaction enables utilization of high-resolution features to preserve action instances details. Extensive experiments demonstrate the effectiveness of our method, especially under high tIoU thresholds. E.g., we achieve the state-of-the-art performance on THUMOS14 (45.7% on mAP@0.6, 33.4% on mAP@0.7 and 53.5% on mAP@Avg) and competitive results on ActivityNet-1.3 (32.99% on mAP@Avg). Code will be made available at https://github.com/w jn922/SP-TAD.
翻訳日:2021-09-21 16:30:54 公開日:2021-09-18
# 低レベルエッジ情報転送による意味セグメンテーションのための教師なし領域適応

Unsupervised Domain Adaptation for Semantic Segmentation via Low-level Edge Information Transfer ( http://arxiv.org/abs/2109.08912v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Chen Wu and Yonghao Xu and Bo Du(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応は、合成データ(ソースドメイン)で訓練されたモデルを実際の画像(ターゲットドメイン)に適応させることを目的としている。 従来の特徴レベルの逆学習手法は、高レベルの意味的特徴に適応するモデルのみを考慮する。 しかし、高レベルの意味的特徴におけるソースドメインとターゲットドメインの間の大きなドメイン間ギャップは、正確な適応を困難にしている。 本稿では、ドメイン間ギャップが小さい低レベルエッジ情報を明示的に使用して意味情報の伝達を誘導する最初の試みを提案する。 この目的のために,独立したエッジストリームを用いてエッジ情報を処理するセマンティックエッジドメイン適応アーキテクチャを提案し,対象領域を越えた高品質なセマンティクスバウンダリを生成する。 そして、エッジ整合性損失を示し、ターゲットセマンティック予測を生成セマンティックバウンダリと整合させる。 さらに,本研究は,本研究のアーキテクチャの適応性能をさらに高めるための,意味的逆学習と自己教師付き学習のための2つのエントロピー重み付け手法を提案する。 2つのUDAベンチマークデータセットに関する総合的な実験は、最先端の手法と比較してアーキテクチャの優位性を示している。

Unsupervised domain adaptation for semantic segmentation aims to make models trained on synthetic data (source domain) adapt to real images (target domain). Previous feature-level adversarial learning methods only consider adapting models on the high-level semantic features. However, the large domain gap between source and target domains in the high-level semantic features makes accurate adaptation difficult. In this paper, we present the first attempt at explicitly using low-level edge information, which has a small inter-domain gap, to guide the transfer of semantic information. To this end, a semantic-edge domain adaptation architecture is proposed, which uses an independent edge stream to process edge information, thereby generating high-quality semantic boundaries over the target domain. Then, an edge consistency loss is presented to align target semantic predictions with produced semantic boundaries. Moreover, we further propose two entropy reweighting methods for semantic adversarial learning and self-supervised learning, respectively, which can further enhance the adaptation performance of our architecture. Comprehensive experiments on two UDA benchmark datasets demonstrate the superiority of our architecture compared with state-of-the-art methods.
翻訳日:2021-09-21 16:30:26 公開日:2021-09-18
# 自然ブラリ画像上での動作不良のためのエッジ事前拡張ネットワーク

Edge Prior Augmented Networks for Motion Deblurring on Naturally Blurry Images ( http://arxiv.org/abs/2109.08915v1 )

ライセンス: Link先を確認
Yuedong Chen, Junjia Huang, Jianfeng Wang and Xiaohua Xie(参考訳) 近年,動作不良は急速に進展しており,近年の手法の多くは,様々な事前知識の助けを借りて,深層学習技術を用いて対処している。 ブラッシングが画像のシャープネスを向上させることが本質的に期待されているため、エッジ情報は重要な事前情報として機能することができる。 しかし、エッジは、深いモデルを設計する際、以前の方法では真剣に考慮されていない。 そこで本研究では,エッジ事前知識を深層モデルに組み込む新しい枠組みであるエッジ事前拡張ネットワーク(epan)を提案する。 EPANはコンテンツベースのメインブランチとエッジベースの補助ブランチを持ち、それぞれコンテンツデブロアリングネット(CDN)とエッジエンハンスメントネット(EEN)として構築されている。 EENは、エッジ特徴を空間マスクとしてマッピングし、特徴ベースの階層的な方法でコンテンツ特徴をガイドする、注意深い融合機構を通じて、デブロアリングプロセスにおけるCDNを増大させるように設計されている。 エッジ領域に焦点を絞ることで、EPANの最適化をさらに規制するためにエッジ誘導損失関数を提案する。 さらに、デュアルカメラによる画像キャプチャ設定を設計し、新しいデータセットであるReal Object Motion Blur(ROMB)を構築し、高速移動車のシャープで自然にぼやけた画像をペア化して、モーションデブロアリングモデルを訓練し、実際に動作デブロアリングアルゴリズムの能力をベンチマークする。 提案されたROMBや他の既存のデータセットに対する大規模な実験は、EPANが最先端のアプローチを質的かつ定量的に上回ることを示した。

Motion deblurring has witnessed rapid development in recent years, and most of the recent methods address it by using deep learning techniques, with the help of different kinds of prior knowledge. Concerning that deblurring is essentially expected to improve the image sharpness, edge information can serve as an important prior. However, the edge has not yet been seriously taken into consideration in previous methods when designing deep models. To this end, we present a novel framework that incorporates edge prior knowledge into deep models, termed Edge Prior Augmented Networks (EPAN). EPAN has a content-based main branch and an edge-based auxiliary branch, which are constructed as a Content Deblurring Net (CDN) and an Edge Enhancement Net (EEN), respectively. EEN is designed to augment CDN in the deblurring process via an attentive fusion mechanism, where edge features are mapped as spatial masks to guide content features in a feature-based hierarchical manner. An edge-guided loss function is proposed to further regulate the optimization of EPAN by enforcing the focus on edge areas. Besides, we design a dual-camera-based image capturing setting to build a new dataset, Real Object Motion Blur (ROMB), with paired sharp and naturally blurry images of fast-moving cars, so as to better train motion deblurring models and benchmark the capability of motion deblurring algorithms in practice. Extensive experiments on the proposed ROMB and other existing datasets demonstrate that EPAN outperforms state-of-the-art approaches qualitatively and quantitatively.
翻訳日:2021-09-21 16:30:07 公開日:2021-09-18
# 半教師付き学習へのstudiousアプローチ

A Studious Approach to Semi-Supervised Learning ( http://arxiv.org/abs/2109.08924v1 )

ライセンス: Link先を確認
Sahil Khose, Shruti Jain, V Manushree(参考訳) ラベルなしデータを大量に使用しながら、ラベル付き例から学習する問題は、様々な半教師付き手法によってアプローチされてきた。 これらの手法は優れた性能を達成することができるが、多くのパラメータのためにモデルが展開できないことが多い。 本論文は, 半教師付き環境下での蒸留のアブレーション研究であり, モデルのパラメータ数を削減できるだけでなく, ベースライン教師付きモデルよりも性能を向上し, 一般化の促進を図ることができる。 教師付きプレトレーニング後、教師モデルとしてネットワークを使用し、教師モデルが未ラベルデータ全体にわたって生成するソフトラベルに基づいて学生ネットワークを訓練する。 ラベルが少なくなればなるほど、このアプローチはより小さな学生ネットワークの恩恵を受ける。 これにより、半教師付きコンピュータビジョンタスクのパフォーマンス向上のための効果的なソリューションとしての蒸留の可能性が高まり、デプロイ性が維持される。

The problem of learning from few labeled examples while using large amounts of unlabeled data has been approached by various semi-supervised methods. Although these methods can achieve superior performance, the models are often not deployable due to the large number of parameters. This paper is an ablation study of distillation in a semi-supervised setting, which not just reduces the number of parameters of the model but can achieve this while improving the performance over the baseline supervised model and making it better at generalizing. After the supervised pretraining, the network is used as a teacher model, and a student network is trained over the soft labels that the teacher model generates over the entire unlabeled data. We find that the fewer the labels, the more this approach benefits from a smaller student network. This brings forward the potential of distillation as an effective solution to enhance performance in semi-supervised computer vision tasks while maintaining deployability.
翻訳日:2021-09-21 16:29:39 公開日:2021-09-18
# 効率的なハイブリッドトランスフォーマ:都市センスセグメンテーションのためのグローバルローカルコンテキストの学習

Efficient Hybrid Transformer: Learning Global-local Context for Urban Sence Segmentation ( http://arxiv.org/abs/2109.08937v1 )

ライセンス: Link先を確認
Libo Wang, Shenghui Fang, Ce Zhang, Rui Li and Chenxi Duan(参考訳) 詳細な都市景観画像のセマンティックセグメンテーションは, 土地被覆マッピング, 都市変化検出, 環境保護, 経済評価など, 広範な実践的応用において重要な役割を担っている。 ディープラーニング技術の急速な発展により、畳み込みニューラルネットワーク(CNN)は、長年にわたってセマンティックセグメンテーションタスクを支配してきた。 畳み込みニューラルネットワークは階層的特徴表現を採用し、強い局所的コンテキスト抽出を持つ。 しかし、畳み込み層の局所的な特性は、微細解像度画像のセグメンテーション改善に不可欠なグローバル情報をネットワークが捉えることを制限する。 近年,トランスフォーマーはコンピュータビジョン領域においてホットトピックとなっている。 vision transformerは、グローバル情報モデリングの優れた能力を示し、画像分類、オブジェクト検出、特にセマンティックセグメンテーションといった多くのビジョンタスクを加速する。 本稿では,都市景観画像の意味セグメンテーションのための効率的なハイブリッドトランス(eht)を提案する。 EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。 大規模な実験により、EHTは最先端のベンチマーク手法と比較して競争精度が高いことが示されている。 具体的には、提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。 コードはもうすぐ入手できる。

Semantic segmentation of fine-resolution urban scene images plays a vital role in extensive practical applications, such as land cover mapping, urban change detection, environmental protection and economic assessment. Driven by rapid developments in deep learning technologies, convolutional neural networks (CNNs) have dominated the semantic segmentation task for many years. Convolutional neural networks adopt hierarchical feature representation and have strong local context extraction. However, the local property of the convolution layer limits the network from capturing global information that is crucial for improving fine-resolution image segmentation. Recently, Transformer comprise a hot topic in the computer vision domain. Vision Transformer demonstrates the great capability of global information modelling, boosting many vision tasks, such as image classification, object detection and especially semantic segmentation. In this paper, we propose an efficient hybrid Transformer (EHT) for semantic segmentation of urban scene images. EHT takes advantage of CNNs and Transformer, learning global-local context to strengthen the feature representation. Extensive experiments demonstrate that EHT has higher efficiency with competitive accuracy compared with state-of-the-art benchmark methods. Specifically, the proposed EHT achieves a 67.0% mIoU on the UAVid test set and outperforms other lightweight models significantly. The code will be available soon.
翻訳日:2021-09-21 16:29:25 公開日:2021-09-18
# キーワード抽出とディープニューラルネットワークを用いた太陽電池特許分類法

Solar cell patent classification method based on keyword extraction and deep neural network ( http://arxiv.org/abs/2109.08796v1 )

ライセンス: Link先を確認
Yongmin Yoo, Dongjin Lim, Tak-Sung Heo(参考訳) ESGが企業に与える影響の増大に伴い、再生可能エネルギーに関する研究が注目されている。 太陽電池はその1つであり、それゆえ、太陽電池特許分析の研究価値は非常に高いと言える。 特許文書は研究価値が高い。 特許書類を正確に分析し分類できることは、いくつかの重要な技術的関係を明らかにすることができる。 また、その技術におけるビジネストレンドを記述できる。 そして投資に関して言えば、新しい産業的ソリューションもインスパイアされ、重要な決定を下すために提案される。 したがって、特許文書を慎重に分析し、特許の価値を利用する必要がある。 太陽電池特許分類問題を解決するために,キーワード抽出法とディープニューラルネットワークを用いた太陽電池特許分類法を提案する。 まず、太陽電池特許を前処理のために分析する。 その後、KeyBERTアルゴリズムを使用して、特許抽象化からキーワードとキーフレーズを抽出し、語彙辞書を構築する。 次に、ディープニューラルネットワークに基づいて太陽電池特許の分類モデルを構築します。 最後に、深層ニューラルネットワークに基づく太陽電池特許分類モデルを用いて電力特許を分類し、トレーニング精度は95%以上である。 また、検証精度は約87.5%である。 深層ニューラルネットワーク法は、複雑な太陽電池の特許の分類を実現できるだけでなく、分類効果も高いことが分かる。

With the growing impact of ESG on businesses, research related to renewable energy is receiving great attention. Solar cells are one of them, and accordingly, it can be said that the research value of solar cell patent analysis is very high. Patent documents have high research value. Being able to accurately analyze and classify patent documents can reveal several important technical relationships. It can also describe the business trends in that technology. And when it comes to investment, new industrial solutions will also be inspired and proposed to make important decisions. Therefore, we must carefully analyze patent documents and utilize the value of patents. To solve the solar cell patent classification problem, we propose a keyword extraction method and a deep neural network-based solar cell patent classification method. First, solar cell patents are analyzed for pretreatment. It then uses the KeyBERT algorithm to extract keywords and key phrases from the patent abstract to construct a lexical dictionary. We then build a solar cell patent classification model according to the deep neural network. Finally, we use a deep neural network-based solar cell patent classification model to classify power patents, and the training accuracy is greater than 95%. Also, the validation accuracy is about 87.5%. It can be seen that the deep neural network method can not only realize the classification of complex and difficult solar cell patents, but also have a good classification effect.
翻訳日:2021-09-21 16:24:24 公開日:2021-09-18
# 米国議会公聴会の特徴工学:スタンス、アフィリエーション、婚約、欠席者

Feature Engineering for US State Legislative Hearings: Stance, Affiliation, Engagement and Absentees ( http://arxiv.org/abs/2109.08855v1 )

ライセンス: Link先を確認
Josh Grace and Foaad Khosmood(参考訳) アメリカ合衆国政府の立法府では、ほとんどの活動は法案を議論する議員からなる委員会で行われている。 これらの委員会手続きを分析、分類、または要約する際には、いくつかの重要な特徴が広く興味深いものとなる。 本稿では,4つの有用な特徴を創出し,2つを議員に適用し,2つを非法律家に適用した。 本稿では,公開コメントにおける組織の所属や,組織代表者が法案を支持するか反対するかを自動的に追跡するシステムを提案する。 モデル追跡アフィリエイトは0.872のF1を達成する一方、支持判定は0.979のF1を有する。 さらに、議会の関与と欠席を計算するための基準も提案され、概念実証として、カリフォルニア州全会期で最も重要かつ最も関与の少ない議員の一覧が提示される。

In US State government legislatures, most of the activity occurs in committees made up of lawmakers discussing bills. When analyzing, classifying or summarizing these committee proceedings, some important features become broadly interesting. In this paper, we engineer four useful features, two applying to lawmakers (engagement and absence), and two to non-lawmakers (stance and affiliation). We propose a system to automatically track the affiliation of organizations in public comments and whether the organizational representative supports or opposes the bill. The model tracking affiliation achieves an F1 of 0.872 while the support determination has an F1 of 0.979. Additionally, a metric to compute legislator engagement and absenteeism is also proposed and as proof-of-concept, a list of the most and least engaged legislators over one full California legislative session is presented.
翻訳日:2021-09-21 16:24:07 公開日:2021-09-18
# 依存距離最小化は圧縮を予測する

Dependency distance minimization predicts compression ( http://arxiv.org/abs/2109.08900v1 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho and Carlos G\'omez-Rodr\'iguez(参考訳) 依存距離最小化(ddm)は語順の確立された原則である。 DDmは圧縮,すなわち単語長の最小化を意味すると理論的に予測されている。 これは二階予測であり、一階予測のように原理と表現ではなく、原理と他の原理を関連付けている。 ここでは,Universal Dependencies と Surface-Syntactic Universal Dependencies によるアノテーションスタイルを制御するツリーバンクの並列コレクションによる2次予測をテストする。 それをテストするために、最近導入されたスコアは、広く使われる依存距離の和に対して、多くの数学的、統計的利点を持っている。 単語長を音素で測定した場合,アノテーションスタイルとは無関係に,単語長を音節で測定した場合に,新たなスコアで予測が確認された。 対照的に、最も広く使われているスコアの1つ、すなわち依存距離の和は、その予測の確認に失敗し、単語順の研究に生の依存距離の弱さを示す。 最後に,構文(単語順)と単語内部構造という2つの異なるレベルの組織をリンクすることで,自然コミュニケーションの理論を拡張した。

Dependency distance minimization (DDm) is a well-established principle of word order. It has been predicted theoretically that DDm implies compression, namely the minimization of word lengths. This is a second order prediction because it links a principle with another principle, rather than a principle and a manifestation as in a first order prediction. Here we test that second order prediction with a parallel collection of treebanks controlling for annotation style with Universal Dependencies and Surface-Syntactic Universal Dependencies. To test it, we use a recently introduced score that has many mathematical and statistical advantages with respect to the widely used sum of dependency distances. We find that the prediction is confirmed by the new score when word lengths are measured in phonemes, independently of the annotation style, but not when word lengths are measured in syllables. In contrast, one of the most widely used scores, i.e. the sum of dependency distances, fails to confirm that prediction, showing the weakness of raw dependency distances for research on word order. Finally, our findings expand the theory of natural communication by linking two distinct levels of organization, namely syntax (word order) and word internal structure.
翻訳日:2021-09-21 16:23:52 公開日:2021-09-18
# 知識グラフに基づく複合時間質問応答

Complex Temporal Question Answering on Knowledge Graphs ( http://arxiv.org/abs/2109.08935v1 )

ライセンス: Link先を確認
Zhen Jia, Soumajit Pramanik, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフ(KG-QA)に対する質問応答は、IRにおいて重要なトピックである。 時間的意図を持つ質問は、実用上重要な特別なクラスであるが、研究ではあまり注目されていない。 この研究は、複数の実体と述語を持ち、関連する時間的条件を持つ複雑な時間的問題に答える最初のエンドツーエンドシステムEXAQTを示す。 exaqtは2つの段階において、自然言語に関する2つの質問に答える。 最初のステップは、KG内の質問関連コンパクト部分グラフを計算し、グループスタイナーツリーと細調整されたBERTモデルを用いて、関連する時間的事実でそれらを指数関数的に拡張する。 第2のステップは、第1のステップの出力からリレーショナルグラフ畳み込みネットワーク(R-GCN)を構築し、タイムアウェアなエンティティの埋め込みと時間的関係に対する注意によってR-GCNを強化する。 我々は、様々な汎用KG-QAベンチマークから収集した16kの時間的質問の大規模なデータセットであるTimeQuestionsのEXAQTを評価する。 以上の結果から,EXAQTは3つの最先端システムより優れており,時間的QAの専門的治療を正当化していることがわかった。

Question answering over knowledge graphs (KG-QA) is a vital topic in IR. Questions with temporal intent are a special class of practical importance, but have not received much attention in research. This work presents EXAQT, the first end-to-end system for answering complex temporal questions that have multiple entities and predicates, and associated temporal conditions. EXAQT answers natural language questions over KGs in two stages, one geared towards high recall, the other towards precision at top ranks. The first step computes question-relevant compact subgraphs within the KG, and judiciously enhances them with pertinent temporal facts, using Group Steiner Trees and fine-tuned BERT models. The second step constructs relational graph convolutional networks (R-GCNs) from the first step's output, and enhances the R-GCNs with time-aware entity embeddings and attention over temporal relations. We evaluate EXAQT on TimeQuestions, a large dataset of 16k temporal questions we compiled from a variety of general purpose KG-QA benchmarks. Results show that EXAQT outperforms three state-of-the-art systems for answering complex questions over KGs, thereby justifying specialized treatment of temporal QA.
翻訳日:2021-09-21 16:23:33 公開日:2021-09-18
# コントラスト学習による興味指向ユニバーサルユーザ表現

Interest-oriented Universal User Representation via Contrastive Learning ( http://arxiv.org/abs/2109.08865v1 )

ライセンス: Link先を確認
Qinghui Sun, Jie Gu, Bei Yang, XiaoXiao Xu, Renjun Xu, Shangde Gao, Hong Liu, Huan Xu(参考訳) 企業における高品質な商用サービスの提供には,ユーザ表現が不可欠だ。 ユニバーサルユーザ表現は最近多くの関心を集めており、ダウンストリームアプリケーションごとに特定のモデルをトレーニングするという面倒な作業から解放されています。 本稿では,2つの視点から普遍的なユーザ表現を改善することを試みる。 まず、表現モデルトレーニングの指針として、対照的な自己指導型学習パラダイムを示す。 データ駆動型の長期的あるいは短期的な関心表現学習を可能にする統一的なフレームワークを提供する。 さらに、新規な多目的抽出モジュールを示す。 このモジュールは、あるユーザの主興味を捉え、行動アグリゲーションを介して彼の関心指向の表現を生成するための興味辞書を導入する。 実験結果は,学習したユーザ表現の有効性と適用性を示す。

User representation is essential for providing high-quality commercial services in industry. Universal user representation has received many interests recently, with which we can be free from the cumbersome work of training a specific model for each downstream application. In this paper, we attempt to improve universal user representation from two points of views. First, a contrastive self-supervised learning paradigm is presented to guide the representation model training. It provides a unified framework that allows for long-term or short-term interest representation learning in a data-driven manner. Moreover, a novel multi-interest extraction module is presented. The module introduces an interest dictionary to capture principal interests of the given user, and then generate his/her interest-oriented representations via behavior aggregation. Experimental results demonstrate the effectiveness and applicability of the learned user representations.
翻訳日:2021-09-21 16:22:18 公開日:2021-09-18
# AutoInit: ニューラルネットワークのための分析信号保存重み初期化

AutoInit: Analytic Signal-Preserving Weight Initialization for Neural Networks ( http://arxiv.org/abs/2109.08958v1 )

ライセンス: Link先を確認
Garrett Bingham and Risto Miikkulainen(参考訳) ニューラルネットワークは、信号の爆発や消滅を防ぐために、注意深い初期化を必要とする。 既存の初期化スキームは、ネットワークが特定の活性化関数やトポロジを持つと仮定して、特定のケースでこの問題を解決する。 このような重み初期化戦略を導出することは困難であり、従って現代のアーキテクチャではこれらの同じ初期化スキームを使うことが多い。 本稿では,異なるニューラルネットワークアーキテクチャに自動適応する重み初期化アルゴリズムであるautoinitについて述べる。 ネットワークを伝搬する信号の平均とばらつきを分析的に追跡することで、autoinitは各層における重みを適切にスケーリングすることで、信号の爆発や消滅を避けることができる。 AutoInitは、アクティベーション関数、ドロップアウト、ウェイト崩壊、学習速度、正規化器設定など、さまざまな畳み込みネットワークや残差ネットワークの性能を改善している。 さらに、ニューラルネットワークの検索および活性化関数メタラーニングにおいて、autoinitは、数千のユニークなアーキテクチャと数百のユニークなアクティベーション関数に対する特殊ウェイト初期化戦略を自動的に計算し、視覚、言語、表、マルチタスク、転送学習シナリオのパフォーマンスを向上させる。 したがってAutoInitは、新しいニューラルネットワークアーキテクチャの設計をより堅牢にする自動設定ツールとして機能する。 AutoInitパッケージは、既存のTensorFlowモデルのラッパーを提供し、https://github.com/c ognizant-ai-labs/aut oinitで利用できる。

Neural networks require careful weight initialization to prevent signals from exploding or vanishing. Existing initialization schemes solve this problem in specific cases by assuming that the network has a certain activation function or topology. It is difficult to derive such weight initialization strategies, and modern architectures therefore often use these same initialization schemes even though their assumptions do not hold. This paper introduces AutoInit, a weight initialization algorithm that automatically adapts to different neural network architectures. By analytically tracking the mean and variance of signals as they propagate through the network, AutoInit is able to appropriately scale the weights at each layer to avoid exploding or vanishing signals. Experiments demonstrate that AutoInit improves performance of various convolutional and residual networks across a range of activation function, dropout, weight decay, learning rate, and normalizer settings. Further, in neural architecture search and activation function meta-learning, AutoInit automatically calculates specialized weight initialization strategies for thousands of unique architectures and hundreds of unique activation functions, and improves performance in vision, language, tabular, multi-task, and transfer learning scenarios. AutoInit thus serves as an automatic configuration tool that makes design of new neural network architectures more robust. The AutoInit package provides a wrapper around existing TensorFlow models and is available at https://github.com/c ognizant-ai-labs/aut oinit.
翻訳日:2021-09-21 16:22:06 公開日:2021-09-18
# PluGeN:事前学習モデルによる複数ラベル条件生成

PluGeN: Multi-Label Conditional Generation From Pre-Trained Models ( http://arxiv.org/abs/2109.09011v1 )

ライセンス: Link先を確認
Maciej Wo{\l}czyk, Magdalena Proszewska, {\L}ukasz Maziarka, Maciej Zi\k{e}ba, Patryk Wielopolski, Rafa{\l} Kurczab, Marek \'Smieja(参考訳) 現代の生成モデルは、画像やテキスト生成、化学分子モデリングなど様々なタスクにおいて優れた品質を達成する。 しかし、既存の方法では、写真中の人物の年齢や生成分子の重量など、要求された特性を持つサンプルを生成する能力が欠如していることが多い。 このような追加の条件付け要素を組み込むには、アーキテクチャ全体を再構築し、パラメータをスクラッチから最適化する必要がある。 また、他の属性をそのまま残しながら一つの属性のみの編集を行うように、選択した属性を切り離すことも困難である。 このような制限を克服するため,我々は,事前学習した生成モデルのプラグインとして使用可能な,単純かつ効果的な生成手法である plugen (plugin generative network) を提案する。 提案手法の背景にある考え方は,フローベースモジュールを用いた絡み合った潜在表現を,各属性の値が独立な一次元分布としてモデル化された多次元空間に変換することである。 その結果、PluGeNは望ましい属性を持つ新しいサンプルを生成し、既存の例のラベル付き属性を操作することができる。 潜在表現の混乱により、白髪の若者、化粧をした男性、ひげを生やした女性など、データセットに珍しい、あるいは目に見えない属性の組み合わせを持つサンプルを生成できるようになりました。 我々はPluGeNをGANおよびVAEモデルと組み合わせ、画像の条件付き生成と操作と化学分子モデリングに応用した。 実験によると、PluGeNはラベル付き属性の値を制御する機能を加えながら、バックボーンモデルの品質を保っている。

Modern generative models achieve excellent quality in a variety of tasks including image or text generation and chemical molecule modeling. However, existing methods often lack the essential ability to generate examples with requested properties, such as the age of the person in the photo or the weight of the generated molecule. Incorporating such additional conditioning factors would require rebuilding the entire architecture and optimizing the parameters from scratch. Moreover, it is difficult to disentangle selected attributes so that to perform edits of only one attribute while leaving the others unchanged. To overcome these limitations we propose PluGeN (Plugin Generative Network), a simple yet effective generative technique that can be used as a plugin to pre-trained generative models. The idea behind our approach is to transform the entangled latent representation using a flow-based module into a multi-dimensional space where the values of each attribute are modeled as an independent one-dimensional distribution. In consequence, PluGeN can generate new samples with desired attributes as well as manipulate labeled attributes of existing examples. Due to the disentangling of the latent representation, we are even able to generate samples with rare or unseen combinations of attributes in the dataset, such as a young person with gray hair, men with make-up, or women with beards. We combined PluGeN with GAN and VAE models and applied it to conditional generation and manipulation of images and chemical molecule modeling. Experiments demonstrate that PluGeN preserves the quality of backbone models while adding the ability to control the values of labeled attributes.
翻訳日:2021-09-21 16:21:43 公開日:2021-09-18
# 人間-ロボットチームにおける能動的探索計画の作成

Generating Active Explicable Plans in Human-Robot Teaming ( http://arxiv.org/abs/2109.08834v1 )

ライセンス: Link先を確認
Akkamahadevi Hanni and Yu Zhang(参考訳) インテリジェントなロボットは、多くの重要な領域を再定義しているが、日々のタスクで人間の仲間を助ける能力には程遠い。 コラボレーションの重要な要件は、各チームメイトが他者の期待に対する理解を維持し、尊重することである。 チームメイト間の緩やかな調整、状況意識の低下、最終的には失敗への対処など、深刻な問題が発生する場合もあります。 したがって、ロボットが人間の期待を満たして、わかりやすく振る舞うことが重要である。 ここでの課題の1つは、人間の期待が隠され、人間がロボットと対話するときに動的に変化することだ。 しかしながら、説明可能な計画を生成する既存のアプローチは、しばしば人間の期待が知られ静的であると仮定する。 本稿では,この仮定を緩和する能動的説明可能な計画法を提案する。 ベイズ的アプローチをモデルとし、動的な人間の信念と期待を予測し、説明可能な計画をより予測可能にします。 提案手法では, 既存の方法と比べ, 有効利用可能な計画の方が効率が高く, 有効利用が可能であると仮定する。 実験評価では,人間のチームメイトの動的信念変化を把握しながら,より効率的な説明可能な計画を生成することを検証する。

Intelligent robots are redefining a multitude of critical domains but are still far from being fully capable of assisting human peers in day-to-day tasks. An important requirement of collaboration is for each teammate to maintain and respect an understanding of the others' expectations of itself. Lack of which may lead to serious issues such as loose coordination between teammates, reduced situation awareness, and ultimately teaming failures. Hence, it is important for robots to behave explicably by meeting the human's expectations. One of the challenges here is that the expectations of the human are often hidden and can change dynamically as the human interacts with the robot. However, existing approaches to generating explicable plans often assume that the human's expectations are known and static. In this paper, we propose the idea of active explicable planning to relax this assumption. We apply a Bayesian approach to model and predict dynamic human belief and expectations to make explicable planning more anticipatory. We hypothesize that active explicable plans can be more efficient and explicable at the same time, when compared to explicable plans generated by the existing methods. In our experimental evaluation, we verify that our approach generates more efficient explicable plans while successfully capturing the dynamic belief change of the human teammate.
翻訳日:2021-09-21 16:16:24 公開日:2021-09-18
# 残り物に対する嫌悪感:効率的かつ公平な割り当てを達成する

Favoring Eagerness for Remaining Items: Achieving Efficient and Fair Assignments ( http://arxiv.org/abs/2109.08856v1 )

ライセンス: Link先を確認
Xiaoxi Guo, Sujoy Sikdar, Lirong Xia, Hanpin Wang, and Yongzhi Cao(参考訳) 割り当て問題では、アイテムは、エージェントの順序選択に基づいて、単位要求を持つエージェントに割り当てられなければならない。 多くの場合、目標は公平かつ効率的なメカニズムを設計することです。 本稿では、まず、各項目を最高位にランク付けするエージェントに割り当てることを目的とした、ランク最大性、元ポスト優越性、元アンテ優越性といった望ましい効率概念が、SETEとsd-weak-envy-freenes s(sd-WEF)を同時に扱うという望ましい公平性概念とは相容れないことを証明した。 そこで我々は,各項目が最上位のエージェントに割り当てられることを保証することを目的として,上位の項目に優良さを優先して,下位の項目を優先するという,微妙に異なる概念に基づく効率性の新たな特性を提案する。 具体的には,ea-FERI(ep-FERI)とex-ante(ea-FERI)を提案する。 ボストンの運動機構がep-FERIとsd-WSPを満足し、均一な確率論的尊敬機構がea-FERIを満足していることを証明する。 また,両機構がSETEおよびsd-WEFを満たすことを証明し,SETEとea-FERIの双方を同時に維持しながら,エンビーフリーネスとストラテジーセーフネスの強いバージョンを満足できるメカニズムは存在しないことを示した。

In the assignment problem, items must be assigned to agents who have unit demands, based on agents' ordinal preferences. Often the goal is to design a mechanism that is both fair and efficient. In this paper, we first prove that, unfortunately, the desirable efficiency notions rank-maximality, ex-post favoring-higher-rank s, and ex-ante favoring-higher-rank s, which aim to allocate each item to agents who rank it highest over all the items, are incompatible with the desirable fairness notions strong equal treatment of equals (SETE) and sd-weak-envy-freenes s (sd-WEF) simultaneously. In light of this, we propose novel properties of efficiency based on a subtly different notion to favoring higher ranks, by favoring "eagerness" for remaining items and aiming to guarantee that each item is allocated to agents who rank it highest among remaining items. Specifically, we propose ex-post favoring-eagerness-f or-remaining-items (ep-FERI) and ex-ante favoring-eagerness-f or-remaining-items (ea-FERI). We prove that the eager Boston mechanism satisfies ep-FERI and sd-WSP and that the uniform probabilistic respecting eagerness mechanism satisfies ea-FERI. We also prove that both mechanisms satisfy SETE and sd-WEF, and show that no mechanism can satisfy stronger versions of envy-freeness and strategyproofness while simultaneously maintaining SETE, and either ep-FERI or ea-FERI.
翻訳日:2021-09-21 16:16:05 公開日:2021-09-18
# PCNN: 多相流のための物理制約ニューラルネットワーク

PCNN: A physics-constrained neural network for multiphase flows ( http://arxiv.org/abs/2109.08965v1 )

ライセンス: Link先を確認
Haoyang Zheng, Ziyang Huang, Guang Lin(参考訳) 本研究では,様々な流体相間の強い相互作用を含む多相流の逐次パターンと運動を予測する物理拘束型ニューラルネットワーク(PCNN)を開発した。 将来、個々の位相を特定する順序パラメータを予測するために、条件付きニューラルプロセスと長い短期記憶(CNP-LSTM)を適用し、わずかな観測を符号化した後、位相のダイナミクスを迅速に推測する。 その後、CNP-LSTMから予測される秩序パラメータを補正するために、多相一貫した保守的境界性マッピングアルゴリズム(MCBOM)が実装され、質量保存を厳密に満たし、相の体積分数の和、縮退の整合、秩序パラメータの有界性の補正を行う。 そして、補正された順序パラメータから流体混合物の密度を更新する。 最後に, 物理インフォームドCNP-LSTM (PICNP-LSTM) を用いて, 観測された密度と速度を入力として損失関数に運動量の保存を含む将来速度を予測する。 CNP-LSTM)-(MCBOM)-(P ICNP-LSTM)は、順序パラメータの不物理な振る舞いを回避し、収束を加速し、予測するデータが少ない。 数値実験により提案したPCNNはMPFを効果的に予測できることを示した。

The present study develops a physics-constrained neural network (PCNN) to predict sequential patterns and motions of multiphase flows (MPFs), which includes strong interactions among various fluid phases. To predict the order parameters, which locate individual phases, in the future time, the conditional neural processes and long short-term memory (CNP-LSTM) are applied to quickly infer the dynamics of the phases after encoding only a few observations. After that, the multiphase consistent and conservative boundedness mapping algorithm (MCBOM) is implemented to correct the order parameters predicted from CNP-LSTM in order to strictly satisfy the mass conservation, the summation of the volume fractions of the phases to be unity, the consistency of reduction, and the boundedness of the order parameters. Then, the density of the fluid mixture is updated from the corrected order parameters. Finally, the velocity in the future time is predicted by a physics-informed CNP-LSTM (PICNP-LSTM) where conservation of momentum is included in the loss function with the observed density and velocity as the inputs. The proposed PCNN for MPFs sequentially performs (CNP-LSTM)-(MCBOM)-( PICNP-LSTM), which avoids unphysical behaviors of the order parameters, accelerates the convergence, and requires fewer data to make predictions. Numerical experiments demonstrate that the proposed PCNN is capable of predicting MPFs effectively.
翻訳日:2021-09-21 16:15:31 公開日:2021-09-18
# 非知覚領域一般化医用画像セグメンテーションのためのドメイン構成と注意

Domain Composition and Attention for Unseen-Domain Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2109.08852v1 )

ライセンス: Link先を確認
Ran Gu, Jingyang Zhang, Rui Huang, Wenhui Lei, Guotai Wang, Shaoting Zhang(参考訳) 様々な画像プロトコルとスキャナーを持つ異なる機関からデータが取得されるため、ドメイン一般化可能なモデルは、医療画像解析において注目を集めている。 この課題に対処するため、ドメイン表現と一般化の能力を向上させるためにドメイン構成と注意に基づくネットワーク(DCA-Net)を提案する。 まず,基底表現の集合(つまり表現バンク)の線形結合により,ある領域を表現するドメイン合成法を提案する。 次に、これらの基底表現を学習するために、新しいプラグ・アンド・プレイ並列ドメイン・プリセプタを提案し、基底表現を可能な限り多様化させるために、分岐制約関数を導入する。 そして,その基底表現の線形結合係数を学習するために,領域注目モジュールを提案する。 線形結合の結果は入力画像の特徴マップを校正するために使用され、モデルが異なる領域や目に見えない領域に一般化することができる。 6つの異なる施設から取得した公共前立腺mriデータセットを用いて,この手法を検証した。 実験結果から,提案手法は異なる領域や見えない領域でもよく一般化でき,多領域前立腺分割タスクにおける最先端手法よりも優れることがわかった。

Domain generalizable model is attracting increasing attention in medical image analysis since data is commonly acquired from different institutes with various imaging protocols and scanners. To tackle this challenging domain generalization problem, we propose a Domain Composition and Attention-based network (DCA-Net) to improve the ability of domain representation and generalization. First, we present a domain composition method that represents one certain domain by a linear combination of a set of basis representations (i.e., a representation bank). Second, a novel plug-and-play parallel domain preceptor is proposed to learn these basis representations and we introduce a divergence constraint function to encourage the basis representations to be as divergent as possible. Then, a domain attention module is proposed to learn the linear combination coefficients of the basis representations. The result of linear combination is used to calibrate the feature maps of an input image, which enables the model to generalize to different and even unseen domains. We validate our method on public prostate MRI dataset acquired from six different institutions with apparent domain shift. Experimental results show that our proposed model can generalize well on different and even unseen domains and it outperforms state-of-the-art methods on the multi-domain prostate segmentation task.
翻訳日:2021-09-21 16:13:06 公開日:2021-09-18
# FastHyMix:高速かつパラメータフリーなハイパースペクトル画像混合ノイズ除去

FastHyMix: Fast and Parameter-free Hyperspectral Image Mixed Noise Removal ( http://arxiv.org/abs/2109.08879v1 )

ライセンス: Link先を確認
Lina Zhuang and Michael K. Ng(参考訳) 高スペクトル分解能のハイパースペクトルイメージングは、物体の発見、材料同定、プロセス検出において重要な役割を果たす。 スペクトル帯域幅の減少は、測定の信号-雑音比(SNR)の減少につながる。 SNRの低下は、HSIから抽出した計測特徴や情報の信頼性を低下させる。 さらに、様々なメカニズムに関連付けられた画像劣化は、ガウスノイズ、インパルスノイズ、期限、ストライプといった様々な種類のノイズを引き起こす。 本稿では,ガウス混合モデルを用いて混合雑音の複雑な分布を特徴付ける高速かつパラメータフリーな高スペクトル画像混合ノイズ除去法(fasthymix)を提案し,スペクトル領域の低ランク性と空間領域の高相関性という超スペクトルデータの2つの特徴を生かした。 ガウス混合モデルにより,ガウス雑音強度とスパースノイズの位置を良好に推定できる。 提案手法は,ニューラルネットワークから抽出した強力な深部画像に先行することにより,サブスペース表現を用いた低ランク性とhsisの空間相関性を活用する。 実験の網羅的配列と最先端デノイザーとの比較を行った。 実験結果は, 合成データと実データの両方において有意な改善を示した。 この作業のMATLABデモは再現性のためにhttps://github.com/L inaZhuangで公開される。

Hyperspectral imaging with high spectral resolution plays an important role in finding objects, identifying materials, or detecting processes. The decrease of the widths of spectral bands leads to a decrease in the signal-to-noise ratio (SNR) of measurements. The decreased SNR reduces the reliability of measured features or information extracted from HSIs. Furthermore, the image degradations linked with various mechanisms also result in different types of noise, such as Gaussian noise, impulse noise, deadlines, and stripes. This paper introduces a fast and parameter-free hyperspectral image mixed noise removal method (termed FastHyMix), which characterizes the complex distribution of mixed noise by using a Gaussian mixture model and exploits two main characteristics of hyperspectral data, namely low-rankness in the spectral domain and high correlation in the spatial domain. The Gaussian mixture model enables us to make a good estimation of Gaussian noise intensity and the location of sparse noise. The proposed method takes advantage of the low-rankness using subspace representation and the spatial correlation of HSIs by adding a powerful deep image prior, which is extracted from a neural denoising network. An exhaustive array of experiments and comparisons with state-of-the-art denoisers were carried out. The experimental results show significant improvement in both synthetic and real datasets. A MATLAB demo of this work will be available at https://github.com/L inaZhuang for the sake of reproducibility.
翻訳日:2021-09-21 16:12:45 公開日:2021-09-18
# AirLoop:生涯のループクロージャ検出

AirLoop: Lifelong Loop Closure Detection ( http://arxiv.org/abs/2109.08975v1 )

ライセンス: Link先を確認
Dasong Gao, Chen Wang, Sebastian Scherer(参考訳) ループクロージャ検出は、同時ローカライゼーションとマッピング(SLAM)システムの精度と堅牢性を保証する重要なビルディングブロックである。 一般化能力により、cnnベースのアプローチが注目を集めている。 通常、さまざまな環境を反映したデータセットのトレーニングの恩恵を受けるが、モデルがデプロイされた後に新しい環境が出現することが多い。 したがって、インクリメンタル学習のために、操作中に新たに収集したデータを組み込むことが望ましい。 それにもかかわらず、新しいデータに対するモデルの微調整は、以前に学習したデータに対するモデルの性能が時間の経過とともに劣化する可能性があるため、実現不可能である。 本稿では,生涯学習の手法を活用し,ループ閉包検出モデルのトレーニング時に忘れを最小化する手法であるairloopを提案する。 本研究では,AirLoopがTartanAir,Northland, RobotCarの各データセットに与える影響を実験的に示す。 われわれの知る限りでは、airloopはディープループクロージャ検出器の生涯学習を達成する最初の仕事の1つだ。

Loop closure detection is an important building block that ensures the accuracy and robustness of simultaneous localization and mapping (SLAM) systems. Due to their generalization ability, CNN-based approaches have received increasing attention. Although they normally benefit from training on datasets that are diverse and reflective of the environments, new environments often emerge after the model is deployed. It is therefore desirable to incorporate the data newly collected during operation for incremental learning. Nevertheless, simply finetuning the model on new data is infeasible since it may cause the model's performance on previously learned data to degrade over time, which is also known as the problem of catastrophic forgetting. In this paper, we present AirLoop, a method that leverages techniques from lifelong learning to minimize forgetting when training loop closure detection models incrementally. We experimentally demonstrate the effectiveness of AirLoop on TartanAir, Nordland, and RobotCar datasets. To the best of our knowledge, AirLoop is one of the first works to achieve lifelong learning of deep loop closure detectors.
翻訳日:2021-09-21 16:12:24 公開日:2021-09-18
# 多重蛍光イメージングのためのランダム多チャンネル画像合成

Random Multi-Channel Image Synthesis for Multiplexed Immunofluorescence Imaging ( http://arxiv.org/abs/2109.09004v1 )

ライセンス: Link先を確認
Shunxing Bao, Yucheng Tang, Ho Hin Lee, Riqiang Gao, Sophie Chiron, Ilwoo Lyu, Lori A. Coburn, Keith T. Wilson, Joseph T. Roland, Bennett A. Landman, Yuankai Huo(参考訳) multiplex immunofluorescence (mxif) は、単細胞マッピングの感度と特異性を高める新しいイメージング技術である。 mxifは、"seeing is believe"のテネットで、反復的な染色と広範囲な抗体のイメージングを可能にし、単一の組織に異なる細胞を分割してグループ化する包括的なバイオマーカーを提供する。 しかし、少量の組織のかなりの枯渇は、広範囲にわたる染色と漂白("missing tissue")によって避けられない。 さらに、免疫蛍光(IF)イメージングは特定のラウンド(「染色を欠く」)で世界中で失敗することがある。 この作業では、"ミスステンズ"の問題に焦点を合わせます。 組織を物理的に失わずに、失明した染色画像を復元するためのデジタル画像合成アプローチを開発することが望ましいだろう。 本稿では,11個のMxIF構造分子マーカー(上皮およびストローム)を実検体上で画像合成する方法を開発することを目的とする。 そこで本研究では,高分解能生成逆数ネットワーク(GAN)を用いた多チャンネル高分解能画像合成手法であるPixN2N-HDを提案する。 1つのディープネットワークフレームワークがmxifの欠落汚れに対処するために提案されている;(2)提案されている「n-to-n」戦略は、最大5つの欠落汚れ(例えば'(n-1)-to-1'、'(n-2)-to-2')を含む全ての欠落汚れシナリオをカバーする場合の計算時間の理論的4年間を20時間に短縮する;(3)mxifにおけるクロスステイン合成を調査する最初の包括的な実験研究である。 以上の結果から,深部画像合成によるMxIF画像の進展が期待できる。

Multiplex immunofluorescence (MxIF) is an emerging imaging technique that produces the high sensitivity and specificity of single-cell mapping. With a tenet of 'seeing is believing', MxIF enables iterative staining and imaging extensive antibodies, which provides comprehensive biomarkers to segment and group different cells on a single tissue section. However, considerable depletion of the scarce tissue is inevitable from extensive rounds of staining and bleaching ('missing tissue'). Moreover, the immunofluorescence (IF) imaging can globally fail for particular rounds ('missing stain''). In this work, we focus on the 'missing stain' issue. It would be appealing to develop digital image synthesis approaches to restore missing stain images without losing more tissue physically. Herein, we aim to develop image synthesis approaches for eleven MxIF structural molecular markers (i.e., epithelial and stromal) on real samples. We propose a novel multi-channel high-resolution image synthesis approach, called pixN2N-HD, to tackle possible missing stain scenarios via a high-resolution generative adversarial network (GAN). Our contribution is three-fold: (1) a single deep network framework is proposed to tackle missing stain in MxIF; (2) the proposed 'N-to-N' strategy reduces theoretical four years of computational time to 20 hours when covering all possible missing stains scenarios, with up to five missing stains (e.g., '(N-1)-to-1', '(N-2)-to-2'); and (3) this work is the first comprehensive experimental study of investigating cross-stain synthesis in MxIF. Our results elucidate a promising direction of advancing MxIF imaging with deep image synthesis.
翻訳日:2021-09-21 16:12:07 公開日:2021-09-18
# FPGA上のスパーステンソル時間カトリラオ生成のための再構成可能な低レイテンシメモリシステム

Reconfigurable Low-latency Memory System for Sparse Matricized Tensor Times Khatri-Rao Product on FPGA ( http://arxiv.org/abs/2109.08874v1 )

ライセンス: Link先を確認
Sasindu Wijeratne, Rajgopal Kannan, Viktor Prasanna(参考訳) テンソル分解は、機械学習を含む様々な分野の多くのアプリケーションで必須のツールとなっている。 Sparse Matricized Tensor Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も計算コストのかかるカーネルの1つである。 MTTKRPは計算並列性が高いにもかかわらず、不規則なメモリアクセス特性のため最適化が難しいカーネルである。 本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。 さらに、FPGAアクセラレータで使用される計算ユニットの動作に応じて、設計を再構成することができる。 分散キャッシュとdma(direct memory access)サブシステムを用いて,全メモリアクセス時間を短縮しつつ,mttkrpデータ構造を効率的にアクセスする。 さらに,商用メモリコントローラIPと比較してメモリアクセス時間を3.5倍改善する。 また,キャッシュオンリーとDMAオンリーのメモリシステムと比較して2倍,1.26倍の高速化を実現している。

Tensor decomposition has become an essential tool in many applications in various domains, including machine learning. Sparse Matricized Tensor Times Khatri-Rao Product (MTTKRP) is one of the most computationally expensive kernels in tensor computations. Despite having significant computational parallelism, MTTKRP is a challenging kernel to optimize due to its irregular memory access characteristics. This paper focuses on a multi-faceted memory system, which explores the spatial and temporal locality of the data structures of MTTKRP. Further, users can reconfigure our design depending on the behavior of the compute units used in the FPGA accelerator. Our system efficiently accesses all the MTTKRP data structures while reducing the total memory access time, using a distributed cache and Direct Memory Access (DMA) subsystem. Moreover, our work improves the memory access time by 3.5x compared with commercial memory controller IPs. Also, our system shows 2x and 1.26x speedups compared with cache-only and DMA-only memory systems, respectively.
翻訳日:2021-09-21 16:08:42 公開日:2021-09-18
# 大規模データ設定のための非同期および分散データ拡張

Asynchronous and Distributed Data Augmentation for Massive Data Settings ( http://arxiv.org/abs/2109.08969v1 )

ライセンス: Link先を確認
Jiayuan Zhou, Kshitij Khare, and Sanvesh Srivastava(参考訳) データ拡張(DA)アルゴリズムは、その単純さからベイズ推論に広く用いられている。 しかし、大規模なデータ設定では、DAアルゴリズムはあらゆるイテレーションで全データを通過するため、その利点にもかかわらず、利用に深刻な制限を課すため、極めて遅い。 この問題に対処するため,非同期および分散コンピューティングを利用したDAの拡張フレームワークを開発した。 拡張DAアルゴリズムはパラメータ $r \in (0, 1)$ でインデックスされ、元のDAを親として Asynchronous and Distributed (AD) DA と呼ばれる。 任意のADDAは、全データを$k$小さな不整合サブセットに分割し、マシンまたはプロセッサである$k$プロセスに保存することから始まる。 addaの各イテレーションは、何らかの正の確率で$k$データサブセットの$r$-fractionのみを補強し、拡張データの残りの$(1-r)$-fractionを変更せずに残します。 パラメータドローは、newの$r$-fractionとold augmented dataの$(1-r)$fractionを用いて得られる。 多くの$k$と$r$の選択肢において、ADDAの分数的な更新は、大規模なデータ設定において親DAよりも大幅にスピードアップし、$r=1$のときに親DAの分散バージョンに還元される。 我々は,ADDAマルコフ連鎖がハリスエルゴードであり,親DAアルゴリズムの軽度条件下で所望の定常分布を持つことを示す。 我々はADDAの数値的な利点をアプリケーションで遭遇する様々な種類の大規模データ設定に対応する3つの代表的な例で示す。 これらすべての例において、我々のDA一般化は、$k$と$r$のすべての選択に対して、親DAアルゴリズムよりもはるかに高速である。 また、3つの例すべてに対してADDAマルコフ連鎖の幾何学的エルゴディディティを確立し、それによって所望の余剰量の推定に対する漸近的に有効な標準誤差が得られる。

Data augmentation (DA) algorithms are widely used for Bayesian inference due to their simplicity. In massive data settings, however, DA algorithms are prohibitively slow because they pass through the full data in any iteration, imposing serious restrictions on their usage despite the advantages. Addressing this problem, we develop a framework for extending any DA that exploits asynchronous and distributed computing. The extended DA algorithm is indexed by a parameter $r \in (0, 1)$ and is called Asynchronous and Distributed (AD) DA with the original DA as its parent. Any ADDA starts by dividing the full data into $k$ smaller disjoint subsets and storing them on $k$ processes, which could be machines or processors. Every iteration of ADDA augments only an $r$-fraction of the $k$ data subsets with some positive probability and leaves the remaining $(1-r)$-fraction of the augmented data unchanged. The parameter draws are obtained using the $r$-fraction of new and $(1-r)$-fraction of old augmented data. For many choices of $k$ and $r$, the fractional updates of ADDA lead to a significant speed-up over the parent DA in massive data settings, and it reduces to the distributed version of its parent DA when $r=1$. We show that the ADDA Markov chain is Harris ergodic with the desired stationary distribution under mild conditions on the parent DA algorithm. We demonstrate the numerical advantages of the ADDA in three representative examples corresponding to different kinds of massive data settings encountered in applications. In all these examples, our DA generalization is significantly faster than its parent DA algorithm for all the choices of $k$ and $r$. We also establish geometric ergodicity of the ADDA Markov chain for all three examples, which in turn yields asymptotically valid standard errors for estimates of desired posterior quantities.
翻訳日:2021-09-21 16:08:14 公開日:2021-09-18
# 公正になるための学習: 等価意思決定への連続的アプローチ

Learning to be Fair: A Consequentialist Approach to Equitable Decision-Making ( http://arxiv.org/abs/2109.08792v1 )

ライセンス: Link先を確認
Alex Chohlas-Wood, Madison Coots, Emma Brunskill, Sharad Goel(参考訳) 公平な機械学習システムを設計するための支配的なパラダイムでは、モデル予測が人種、性別、その他の法的に保護された特性に対する誤り率のパリティなどの様々な公正性基準を満たすことを保証する。 しかし、このアプローチは一般的に、最終的に影響する下流の結果から予測を離し、その結果、予期せぬ危害を引き起こす可能性がある。 ここでは、アクションの結果を直接予測する公平性のための代替フレームワークを提案する。 利害関係者はまず、アルゴリズム的に情報を得た意思決定プロセスの結果よりも優先事項を指定する。 例えば、貸し手はローンを返済する可能性が最も高い者に信用を広げる一方、近隣諸国でも同様の貸付率を好む。 次に、指定されたユーティリティを最大化するために決定ポリシーの空間を検索する。 本研究では,表現力のあるユーティリティ関数の大規模なファミリーのデータから,これらの最適なポリシを効率的に学習する手法を開発し,提案する。

In the dominant paradigm for designing equitable machine learning systems, one works to ensure that model predictions satisfy various fairness criteria, such as parity in error rates across race, gender, and other legally protected traits. That approach, however, typically divorces predictions from the downstream outcomes they ultimately affect, and, as a result, can induce unexpected harms. Here we present an alternative framework for fairness that directly anticipates the consequences of actions. Stakeholders first specify preferences over the possible outcomes of an algorithmically informed decision-making process. For example, lenders may prefer extending credit to those most likely to repay a loan, while also preferring similar lending rates across neighborhoods. One then searches the space of decision policies to maximize the specified utility. We develop and describe a method for efficiently learning these optimal policies from data for a large family of expressive utility functions, facilitating a more holistic approach to equitable decision-making.
翻訳日:2021-09-21 16:06:43 公開日:2021-09-18
# 並列微分可能シミュレーションによるシミュレーションパラメータの確率的推論

Probabilistic Inference of Simulation Parameters via Parallel Differentiable Simulation ( http://arxiv.org/abs/2109.08815v1 )

ライセンス: Link先を確認
Eric Heiden, Christopher E. Denniston, David Millard, Fabio Ramos, Gaurav S. Sukhatme(参考訳) 実世界の計測を正確に再現するには、シミュレータは物理系の適切なモデルを持ち、モデルのパラメータを特定する必要がある。 本研究では,実センサ計測によるシミュレーションパラメータの後方分布を近似するベイズ推定手法によるパラメータ推定の後者の問題に対処する。 マルチシューティングの定式化により, 一般に使用されるガウス確率モデルを拡張することにより, 選択された粒子ベース推論アルゴリズムstein変分勾配降下により, 高度に非線形で不動な系を同定できる。 我々は,gpuコード生成と微分可能なシミュレーションを利用して,並列に多数の粒子の確率とその勾配を評価する。 本アルゴリズムは,パラメータの非パラメトリック分布を推定し,勾配に基づく最適化によりパラメータの制約を効率的に処理する。 いくつかの物理実験における評価性能を評価する。 7自由度ロボットアームが未知の質量配置で物体を励起するメカニズムについて,提案手法がパラメータ間の対称性を識別し,高精度な予測を行う方法を示す。 プロジェクトwebサイト: https://uscresl.gith ub.io/prob-diff-sim

To accurately reproduce measurements from the real world, simulators need to have an adequate model of the physical system and require the parameters of the model be identified. We address the latter problem of estimating parameters through a Bayesian inference approach that approximates a posterior distribution over simulation parameters given real sensor measurements. By extending the commonly used Gaussian likelihood model for trajectories via the multiple-shooting formulation, our chosen particle-based inference algorithm Stein Variational Gradient Descent is able to identify highly nonlinear, underactuated systems. We leverage GPU code generation and differentiable simulation to evaluate the likelihood and its gradient for many particles in parallel. Our algorithm infers non-parametric distributions over simulation parameters more accurately than comparable baselines and handles constraints over parameters efficiently through gradient-based optimization. We evaluate estimation performance on several physical experiments. On an underactuated mechanism where a 7-DOF robot arm excites an object with an unknown mass configuration, we demonstrate how our inference technique can identify symmetries between the parameters and provide highly accurate predictions. Project website: https://uscresl.gith ub.io/prob-diff-sim
翻訳日:2021-09-21 16:06:27 公開日:2021-09-18
# 帰納的共形推薦システム

Inductive Conformal Recommender System ( http://arxiv.org/abs/2109.08949v1 )

ライセンス: Link先を確認
Venkateswara Rao Kagita, Arun K Pujari, Vineet Padmanabhan and Vikas Kumar(参考訳) 従来のレコメンデーションアルゴリズムは、人々が望ましいアイテムを選択するのに役立つ技術を開発する。 しかし、現実世界の多くのアプリケーションでは、一連のレコメンデーションとともに、それぞれのレコメンデーション(un)認定を定量化することが不可欠である。 コンフォメーションレコメンデーションシステムは、ユーザの体験を利用して、それぞれに正確な信頼度を関連付ける一連のレコメンデーションを出力する。 意味レベル$\varepsilon$を与えられた場合、間違った推奨を行う確率で有界な$\varepsilon$を提供する。 コンフォメーション・フレームワークは、他のアイテムに関するアイテムの奇妙さを測定する非整合測度と呼ばれる重要な概念を使用する。 コンフォーマルレコメンデーションフレームワークの重要な設計課題の1つは、非共形性尺度とレコメンデーションアルゴリズムを統合することである。 本稿では,共形レコメンデータシステムの帰納的変種を提案する。 インダクティブ・セッティングにおける異なる非整合性対策を提案し解析する。 また、エラーバウンドと時間複雑性に関する理論的証明も提供する。 10のベンチマークデータセットに対する大規模な実験分析により、インダクティブ変種は精度を保ちながら計算時間における性能を大幅に改善することを示した。

Traditional recommendation algorithms develop techniques that can help people to choose desirable items. However, in many real-world applications, along with a set of recommendations, it is also essential to quantify each recommendation's (un)certainty. The conformal recommender system uses the experience of a user to output a set of recommendations, each associated with a precise confidence value. Given a significance level $\varepsilon$, it provides a bound $\varepsilon$ on the probability of making a wrong recommendation. The conformal framework uses a key concept called nonconformity measure that measure the strangeness of an item concerning other items. One of the significant design challenges of any conformal recommendation framework is integrating nonconformity measure with the recommendation algorithm. In this paper, we introduce an inductive variant of a conformal recommender system. We propose and analyze different nonconformity measures in the inductive setting. We also provide theoretical proofs on the error-bound and the time complexity. Extensive empirical analysis on ten benchmark datasets demonstrates that the inductive variant substantially improves the performance in computation time while preserving the accuracy.
翻訳日:2021-09-21 16:06:06 公開日:2021-09-18
# 次世代燃焼プラズマトカマクのシナリオ適応破壊予測に関する研究

Scenario adaptive disruption prediction study for next generation burning-plasma tokamaks ( http://arxiv.org/abs/2109.08956v1 )

ライセンス: Link先を確認
J. Zhu, C. Rea, R.S. Granetz, E. S. Marmar, K. J. Montes, R. Sweeney, R.A. Tinguely, D. L. Chen, B. Shen, B. J. Xiao, D. Humphreys, J. Barr, O. Meneghini(参考訳) 次世代高性能トカマク(HP)は、高電流および電力の未緩和破壊によるリスク損傷を発生させる。 低パフォーマンス(lp)データに基づくデバイスのhp操作の信頼性の高い破壊予測を実現することが、成功の鍵となる。 本稿では,複数の既存トカマクについて探索的データ解析と専用数値実験を行い,トカマクの運用体制が訓練された破壊予測器のパワーに与える影響を実証する。 まず,lp放電を豊富に訓練したデータ駆動破壊予測器は,同一トカマクのhpレジームでは不十分な働きをすることが示唆された。 第2に,tokamaks間の操作パラメータのマッチングは,q_{95}, \beta_{p}などの無次元物理パラメータの基盤となるスケーリングからモデルが学習するクロスマシン精度を強く改善し,破壊物理学やデータ駆動の観点からのクロスマシン領域マッチングにおいて,これらのパラメータの重要性を確認した。 最後に, 対象機器からのHPデータがない場合, 対象機器からのLPデータと他の機器からのHPデータとを組み合わせることにより, 対象機器のHPレジームの最良の予測性を実現することができることを示す。 これらの結果から,ITERやSPARCといった次世代トカマクの破壊予測開発戦略が実現され,今後のトカマクのベースラインシナリオ放電による破壊的データ収集の重要性が浮き彫りになる。

Next generation high performance (HP) tokamaks risk damage from unmitigated disruptions at high current and power. Achieving reliable disruption prediction for a device's HP operation based on its low performance (LP) data is key to success. In this letter, through explorative data analysis and dedicated numerical experiments on multiple existing tokamaks, we demonstrate how the operational regimes of tokamaks can affect the power of a trained disruption predictor. First, our results suggest data-driven disruption predictors trained on abundant LP discharges work poorly on the HP regime of the same tokamak, which is a consequence of the distinct distributions of the tightly correlated signals related to disruptions in these two regimes. Second, we find that matching operational parameters among tokamaks strongly improves cross-machine accuracy which implies our model learns from the underlying scalings of dimensionless physics parameters like q_{95}, \beta_{p} and confirms the importance of these parameters in disruption physics and cross machine domain matching from the data-driven perspective. Finally, our results show how in the absence of HP data from the target devices, the best predictivity of the HP regime for the target machine can be achieved by combining LP data from the target with HP data from other machines. These results provide a possible disruption predictor development strategy for next generation tokamaks, such as ITER and SPARC, and highlight the importance of developing on existing machines baseline scenario discharges of future tokamaks to collect more relevant disruptive data.
翻訳日:2021-09-21 16:05:48 公開日:2021-09-18
# 嗜好認識経路計画のための視覚表現学習

Visual Representation Learning for Preference-Aware Path Planning ( http://arxiv.org/abs/2109.08968v1 )

ライセンス: Link先を確認
Kavan Singh Sikand, Sadegh Rabiee, Adam Uccello, Xuesu Xiao, Garrett Warnell, Joydeep Biswas(参考訳) 屋外環境に配備される自律移動ロボットは、安全(例えば泥よりも泥を好む)とデプロイ(例えば花壇よりも土の道を好む)の両方のために異なるタイプの地形を推論する必要がある。 この選好認識経路計画問題に対する既存のソリューションのほとんどは、セマンティックセグメンテーションを使用して、カメライメージから地形タイプを分類し、各タイプにコストを負担する。 残念ながら、このようなアプローチには3つの重要な制限がある。 1) 離散地形タイプの事前列挙が必要である。 2)ハイブリッド地形(草地など)を扱えないこと、及び 3)ビジュアルセマンティクスのセグメンテーションを訓練するには高価なラベル付きデータが必要である。 VRL-PAPは、ナビゲーションのラベルのない人間のデモを利用して、視点不変な地形の視覚的表現を自律的に生成し、連続的な表現空間における地形のタイプをエンコードする、視覚的表現学習(Visual Representation Learning for Preference-Aware Path Planning, VRL-PAP)を提案する。 学習された表現は、同じラベルのない人間のナビゲーションデモと一緒に使用され、表現空間から地形コストへのマッピングを学ぶ。 実行時に、VRL-PAPは画像から表現にマップし、その後、好みに合った経路計画を実行するコストにマップする。 屋外環境におけるVRL-PAPの実証実験結果 1) 実証された嗜好を反映した経路を選択できる。 2) 高度に詳細なアノテーション付きマップによる幾何学的ナビゲーションの実行に匹敵する(このようなアノテーションは不要)。 3) 新たな地形タイプを最小限の追加的なラベルなしのデモで一般化することができる。

Autonomous mobile robots deployed in outdoor environments must reason about different types of terrain for both safety (e.g., prefer dirt over mud) and deployer preferences (e.g., prefer dirt path over flower beds). Most existing solutions to this preference-aware path planning problem use semantic segmentation to classify terrain types from camera images, and then ascribe costs to each type. Unfortunately, there are three key limitations of such approaches -- they 1) require pre-enumeration of the discrete terrain types, 2) are unable to handle hybrid terrain types (e.g., grassy dirt), and 3) require expensive labelled data to train visual semantic segmentation. We introduce Visual Representation Learning for Preference-Aware Path Planning (VRL-PAP), an alternative approach that overcomes all three limitations: VRL-PAP leverages unlabeled human demonstrations of navigation to autonomously generate triplets for learning visual representations of terrain that are viewpoint invariant and encode terrain types in a continuous representation space. The learned representations are then used along with the same unlabeled human navigation demonstrations to learn a mapping from the representation space to terrain costs. At run time, VRL-PAP maps from images to representations and then representations to costs to perform preference-aware path planning. We present empirical results from challenging outdoor settings that demonstrate VRL-PAP 1) is successfully able to pick paths that reflect demonstrated preferences, 2) is comparable in execution to geometric navigation with a highly detailed manually annotated map (without requiring such annotations), 3) is able to generalize to novel terrain types with minimal additional unlabeled demonstrations.
翻訳日:2021-09-21 16:05:20 公開日:2021-09-18
# 長期記憶(LSTM)に基づくトルコの深層学習モデルを用いた水力発電予測

Hydroelectric Generation Forecasting with Long Short Term Memory (LSTM) Based Deep Learning Model for Turkey ( http://arxiv.org/abs/2109.09013v1 )

ライセンス: Link先を確認
Mehmet Bulut(参考訳) 水力発電はトルコで長年使われてきた再生可能エネルギー源の1つである。 貯水池に基づく水力発電所の生産は、異なるパラメータに基づいて異なる。 このため、発電計画において水力発電量の推定が重要となる。 本稿では,長期記憶(LSTM)ネットワークに基づくディープラーニングモデルを用いて,トルコの月間水力発電量の推定を行った。 設計されたディープラーニングモデルは、長年の油圧生産時系列と将来の生産計画に基づいている。 実生産データと各種LSTM深層学習モデルを用いて,来年の水力発電の月次予測の性能について検討した。 その結果, 実生産データに基づく時系列の長期的利用と, ディープラーニングモデルとの併用が長期的予測に成功していることがわかった。 本研究では,水力発電時間データをRMSE値とMAPE値に基づいて120ヶ月(10年)使用した100層LSTMモデルが推定精度が最も高く,MAPE値が年平均0.1311(13.1%),月間平均分布が1.09%であった。 本モデルでは,水力発電データ144ヶ月(12年)の時間データを用いて,年間29,689,月2474.08のrmse値を用いた100層lstmモデルにおいて,最も優れた結果を得た。 本研究の結果によると, 許容可能な水力発電量予測モデルの構築には, 生産から少なくとも120ヶ月にわたる時間データが推奨されている。

Hydroelectricity is one of the renewable energy source, has been used for many years in Turkey. The production of hydraulic power plants based on water reservoirs varies based on different parameters. For this reason, the estimation of hydraulic production gains importance in terms of the planning of electricity generation. In this article, the estimation of Turkey's monthly hydroelectricity production has been made with the long-short-term memory (LSTM) network-based deep learning model. The designed deep learning model is based on hydraulic production time series and future production planning for many years. By using real production data and different LSTM deep learning models, their performance on the monthly forecast of hydraulic electricity generation of the next year has been examined. The obtained results showed that the use of time series based on real production data for many years and deep learning model together is successful in long-term prediction. In the study, it is seen that the 100-layer LSTM model, in which 120 months (10 years) hydroelectric generation time data are used according to the RMSE and MAPE values, are the highest model in terms of estimation accuracy, with a MAPE value of 0.1311 (13.1%) in the annual total and 1.09% as the monthly average distribution. In this model, the best results were obtained for the 100-layer LSTM model, in which the time data of 144 months (12 years) hydroelectric generation data are used, with a RMSE value of 29,689 annually and 2474.08 in monthly distribution. According to the results of the study, time data covering at least 120 months of production is recommended to create an acceptable hydropower forecasting model with LSTM.
翻訳日:2021-09-21 16:04:56 公開日:2021-09-18
# 効率的な視覚音分離のためのV-SlowFastネットワーク

V-SlowFast Network for Efficient Visual Sound Separation ( http://arxiv.org/abs/2109.08867v1 )

ライセンス: Link先を確認
Lingyu Zhu and Esa Rahtu(参考訳) 本論文の目的は,視聴覚分離を行うことである。 一 時間分解能の異なる分光図における視覚的音分離の研究。 2)視覚フレーム,スロースペクトログラム,高速スペクトログラムで動作する,軽量で効率的な3ストリームフレームワーク V-SlowFast を提案する。 Slow Spectrogramは粗い時間分解能を捉え、Fast Spectrogramは微細な時間分解能を含む。 三 音声分離のための識別的視覚特徴の学習をネットワークに促すための2つの対比目的について紹介する。 iv)音声・視覚機能融合のための視聴覚グローバルアテンションモジュールを提案する。 v) 導入したV-SlowFastモデルは,MUSIC-21,AVV,VGG-So undといった小規模・大規模データセット上で,単一フレームによる視覚的音源分離において,先行技術よりも優れていた。 また,従来のマルチステージモデルと比較してモデルパラメータの74.2%削減,GMACの81.4%削減を実現した小型なV-SlowFastアーキテクチャ変種を提案する。 プロジェクトページ: \href{https://ly-zhu.githu b.io/V-SlowFast}{https://ly-zhu.githu b.io/V-SlowFast}

The objective of this paper is to perform visual sound separation: i) we study visual sound separation on spectrograms of different temporal resolutions; ii) we propose a new light yet efficient three-stream framework V-SlowFast that operates on Visual frame, Slow spectrogram, and Fast spectrogram. The Slow spectrogram captures the coarse temporal resolution while the Fast spectrogram contains the fine-grained temporal resolution; iii) we introduce two contrastive objectives to encourage the network to learn discriminative visual features for separating sounds; iv) we propose an audio-visual global attention module for audio and visual feature fusion; v) the introduced V-SlowFast model outperforms previous state-of-the-art in single-frame based visual sound separation on small- and large-scale datasets: MUSIC-21, AVE, and VGG-Sound. We also propose a small V-SlowFast architecture variant, which achieves 74.2% reduction in the number of model parameters and 81.4% reduction in GMACs compared to the previous multi-stage models. Project page: \href{https://ly-zhu.githu b.io/V-SlowFast}{https://ly-zhu.githu b.io/V-SlowFast}.
翻訳日:2021-09-21 16:01:54 公開日:2021-09-18
# 深層学習によるガウス摂動から引き起こされるローグ波パターンの測定

Measuring the rogue wave pattern triggered from Gaussian perturbations by deep learning ( http://arxiv.org/abs/2109.08909v1 )

ライセンス: Link先を確認
Liwen Zou, XinHang Luo, Delu Zeng, Liming Ling, Li-Chen Zhao(参考訳) 平面波背景上の弱いガウス摂動は、変調不安定性のために多くのローグ波を引き起こす可能性がある。 数値シミュレーションにより、これらのローグ波は同様の単位構造を持つように見えた。 しかしながら、我々の知る限りでは、これらのローグ波が異なる摂動に対して同様のパターンを持つことを証明する相対的な結果は存在せず、ローグ波パターンを自動的に測定することは困難である。 本研究では,深層ニューラルネットワークを用いて,コンピュータビジョンの観点からこれらの問題に対処する。 本稿では,画像上のrwを自動的かつ正確に検出するrogue wave detection network(rwd-net)モデルを提案する。 この目的のために、我々はRogue Wave Dataset-$10$K (RWD-$10$K)と呼ばれる関連するデータセットを設計した。 検出実験では、RWD-$10$Kデータセットのテスト分割の平均精度が99.29\%である。 最後に、ガウス摂動の進化を特徴付けるため、我々の新しい計量、RW単位密度(DRW)を導出し、それらの統計的結果を得る。

Weak Gaussian perturbations on a plane wave background could trigger lots of rogue waves, due to modulational instability. Numerical simulations showed that these rogue waves seemed to have similar unit structure. However, to the best of our knowledge, there is no relative result to prove that these rogue waves have the similar patterns for different perturbations, partly due to that it is hard to measure the rogue wave pattern automatically. In this work, we address these problems from the perspective of computer vision via using deep neural networks. We propose a Rogue Wave Detection Network (RWD-Net) model to automatically and accurately detect RWs on the images, which directly indicates they have the similar computer vision patterns. For this purpose, we herein meanwhile have designed the related dataset, termed as Rogue Wave Dataset-$10$K (RWD-$10$K), which has $10,191$ RW images with bounding box annotations for each RW unit. In our detection experiments, we get $99.29\%$ average precision on the test splits of the RWD-$10$K dataset. Finally, we derive our novel metric, the density of RW units (DRW), to characterize the evolution of Gaussian perturbations and obtain the statistical results on them.
翻訳日:2021-09-21 16:01:36 公開日:2021-09-18
# ロバストかつ効率的な多スケール季節トレンド分解

A Robust and Efficient Multi-Scale Seasonal-Trend Decomposition ( http://arxiv.org/abs/2109.08800v1 )

ライセンス: Link先を確認
Linxiao Yang, Qingsong Wen, Bo Yang, Liang Sun(参考訳) 多くの現実世界の時系列は、異なる長さの複数の季節性を示す。 季節成分の除去は、予測や異常検出を含む時系列の多くの応用において重要である。 しかし、多くの季節分解アルゴリズムは計算コストが高く、複数の季節成分が存在する場合、特に周期長が長い場合、大量のデータを必要とする。 本稿では,複数の季節性を有する時系列の汎用的かつ効率的なマルチスケール・季節-トレンド分解アルゴリズムを提案する。 まず最初に、オリジナルの時系列を低い解像度にダウンサンプルし、その後、単一の季節の時系列に変換する。 これにより、既存の季節-トレンド分解アルゴリズムを直接適用して、より長い周期長に対応する傾向と季節成分の粗い推定を行うことができる。 異なる分解能間の関係を考慮し、最適化問題として高分解能上の異なる成分の回収を定式化し、代替方向乗算器法(ADMM)に基づくアルゴリズムにより効率よく解決する。 実験の結果, 効率が大幅に向上した正確な分解結果が得られた。

Many real-world time series exhibit multiple seasonality with different lengths. The removal of seasonal components is crucial in numerous applications of time series, including forecasting and anomaly detection. However, many seasonal-trend decomposition algorithms suffer from high computational cost and require a large amount of data when multiple seasonal components exist, especially when the periodic length is long. In this paper, we propose a general and efficient multi-scale seasonal-trend decomposition algorithm for time series with multiple seasonality. We first down-sample the original time series onto a lower resolution, and then convert it to a time series with single seasonality. Thus, existing seasonal-trend decomposition algorithms can be applied directly to obtain the rough estimates of trend and the seasonal component corresponding to the longer periodic length. By considering the relationship between different resolutions, we formulate the recovery of different components on the high resolution as an optimization problem, which is solved efficiently by our alternative direction multiplier method (ADMM) based algorithm. Our experimental results demonstrate the accurate decomposition results with significantly improved efficiency.
翻訳日:2021-09-21 16:00:17 公開日:2021-09-18
# 完全畳み込み復号オートエンコーダを用いた細胞外神経記録からのノイズ除去

Removing Noise from Extracellular Neural Recordings Using Fully Convolutional Denoising Autoencoders ( http://arxiv.org/abs/2109.08945v1 )

ライセンス: Link先を確認
Christodoulos Kechris, Alexandros Delitzas, Vasileios Matsoukas, Panagiotis C. Petrantonakis(参考訳) 細胞外記録は大量のノイズ源によって著しく汚染されており、効率的なスパイクソートのために対処すべき極めて困難な作業である。 そこで本研究では,ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学ぶ完全畳み込み復号化オートエンコーダを用いたエンドツーエンドのディープラーニング手法を提案する。 シミュレーションデータを用いた実験結果から,提案手法は雑音分解ニューラル信号の品質を著しく向上し,広く用いられているウェーブレット雑音化手法を上回っていることがわかった。

Extracellular recordings are severely contaminated by a considerable amount of noise sources, rendering the denoising process an extremely challenging task that should be tackled for efficient spike sorting. To this end, we propose an end-to-end deep learning approach to the problem, utilizing a Fully Convolutional Denoising Autoencoder, which learns to produce a clean neuronal activity signal from a noisy multichannel input. The experimental results on simulated data show that our proposed method can improve significantly the quality of noise-corrupted neural signals, outperforming widely-used wavelet denoising techniques.
翻訳日:2021-09-21 16:00:00 公開日:2021-09-18
# AI加速器の調査と動向

AI Accelerator Survey and Trends ( http://arxiv.org/abs/2109.08957v1 )

ライセンス: Link先を確認
Albert Reuther, Peter Michaleas, Michael Jones, Vijay Gadepally, Siddharth Samsi, Jeremy Kepner(参考訳) 過去数年間、音声認識、ビデオオブジェクト検出、アシスト駆動、および多くのデータセンターアプリケーションなど、さまざまなアプリケーション向けに、新しい機械学習アクセラレータが発表され、毎月リリースされている。 本稿では,過去2年間のAIアクセラレータとプロセッサの調査を更新する。 本稿では,ピーク性能と電力消費数で公表されている現在の商用アクセラレータをまとめ,要約する。 散乱グラフ上で性能とパワー値がプロットされ、このプロットの傾向から多くの次元と観測結果が再度議論され、分析される。 また今年は,ベンチマーク結果のリストをコンパイルし,ピーク性能に関する計算効率を計算した。

Over the past several years, new machine learning accelerators were being announced and released every month for a variety of applications from speech recognition, video object detection, assisted driving, and many data center applications. This paper updates the survey of AI accelerators and processors from past two years. This paper collects and summarizes the current commercial accelerators that have been publicly announced with peak performance and power consumption numbers. The performance and power values are plotted on a scatter graph, and a number of dimensions and observations from the trends on this plot are again discussed and analyzed. This year, we also compile a list of benchmarking performance results and compute the computational efficiency with respect to peak performance.
翻訳日:2021-09-21 15:59:49 公開日:2021-09-18
# 誤り訂正出力符号を用いたアンサンブル学習:新しい分類誤り境界

Ensemble Learning using Error Correcting Output Codes: New Classification Error Bounds ( http://arxiv.org/abs/2109.08967v1 )

ライセンス: Link先を確認
Hieu D. Nguyen, Mohammed Sarosh Khan, Nicholas Kaegi, Shen-Shyang Ho, Jonathan Moore, Logan Borys, Lucas Lavalva(参考訳) 機械学習における誤り訂正出力コード(ECOC)の分類誤り率の新たな境界について述べる。 これらの境界はコードワード長に関して指数関数的な減衰複雑性を持ち、ECOCアプローチの有効性を理論的に検証する。 境界は2つの異なるモデルに対して導出される: 第一はすべての基底分類器が独立であると仮定し、第二はすべての基底分類器が一階まで相互に関連付けられるという仮定で導かれる。 さらに,6つのデータセット上でECOC分類を行い,その誤差率と境界値との相関関係を実験的に検証し,相関が分類精度に与える影響を示す。

New bounds on classification error rates for the error-correcting output code (ECOC) approach in machine learning are presented. These bounds have exponential decay complexity with respect to codeword length and theoretically validate the effectiveness of the ECOC approach. Bounds are derived for two different models: the first under the assumption that all base classifiers are independent and the second under the assumption that all base classifiers are mutually correlated up to first-order. Moreover, we perform ECOC classification on six datasets and compare their error rates with our bounds to experimentally validate our work and show the effect of correlation on classification accuracy.
翻訳日:2021-09-21 15:59:39 公開日:2021-09-18
# 補綴物の局所筋制御のためのKNN学習技術

KNN Learning Techniques for Proportional Myocontrol in Prosthetics ( http://arxiv.org/abs/2109.08917v1 )

ライセンス: Link先を確認
Tim Sziburis, Markus Nowak, Davide Brunelli(参考訳) この研究は、筋電図補綴のパターン認識に基づく制御の文脈において行われた。 比例法により拡張されたジェスチャー認識のためのk-nearest neighbor(kNN)分類手法を提案する。 提案手法は実際に実装され検証される。 前腕に位置するemg(state-of-the-art 8-channel electromyography)アームバンドによってデータセットをキャプチャする。 このデータに基づいて、kNNのパラメータの影響をパイロット実験で分析する。 さらに,比例性スケーリングとrestしきい値スキームの効果について検討した。 提案手法は,ランダム・フーリエ特徴量(rr-rff)を用いて,ジェスチャ・エクセルションの異なるレベルに対して,提案手法を探索アルゴリズムリッジ回帰法と比較した。 これらの実験の結果,knnに基づくアルゴリズムは統計的に有意な改善を示した。

This work has been conducted in the context of pattern-recognition- based control for electromyographic prostheses. It presents a k-nearest neighbour (kNN) classification technique for gesture recognition, extended by a proportionality scheme. The methods proposed are practically implemented and validated. Datasets are captured by means of a state-of-the-art 8-channel electromyography (EMG) armband positioned on the forearm. Based on this data, the influence of kNN's parameters is analyzed in pilot experiments. Moreover, the effect of proportionality scaling and rest thresholding schemes is investigated. A randomized, double-blind user study is conducted to compare the implemented method with the state-of-research algorithm Ridge Regression with Random Fourier Features (RR-RFF) for different levels of gesture exertion. The results from these experiments show a statistically significant improvement in favour of the kNN-based algorithm.
翻訳日:2021-09-21 15:58:22 公開日:2021-09-18
# 物体検出のためのラベル割り当て蒸留

Label Assignment Distillation for Object Detection ( http://arxiv.org/abs/2109.07843v2 )

ライセンス: Link先を確認
Minghao Gao, Hailun Zhang (1) and Yige Yan (2) ((1) Beijing Institute of Technology, (2) Hohai University)(参考訳) 知識蒸留法はニューラルネットワークの性能向上に有望であることが証明され、推論時間の間に追加の計算コストは必要とされない。 オブジェクト検出の精度を高めるため,特にオブジェクト検出のために多くの知識蒸留法が提案されている。 しかし、これらの方法のほとんどは機能レベルの蒸留とラベルレベルの蒸留のみに焦点を当てており、ラベル割当てステップは、オブジェクト検出のためのユニークかつパラマウントな手順である。 本研究では,学習者ネットワークの正と負のサンプルが教師ネットワークの予測に従って選択されるオブジェクト検出におけるラベル割り当てに着目した,シンプルだが効果的な知識蒸留手法を提案する。 本手法は, MSCOCO2017ベンチマークにおいて, 1段検出器と2段検出器の両方に適用できるだけでなく, 他の知識蒸留法と直交的に利用できることを示す。

Knowledge distillation methods are proved to be promising in improving the performance of neural networks and no additional computational expenses are required during the inference time. For the sake of boosting the accuracy of object detection, a great number of knowledge distillation methods have been proposed particularly designed for object detection. However, most of these methods only focus on feature-level distillation and label-level distillation, leaving the label assignment step, a unique and paramount procedure for object detection, by the wayside. In this work, we come up with a simple but effective knowledge distillation approach focusing on label assignment in object detection, in which the positive and negative samples of student network are selected in accordance with the predictions of teacher network. Our method shows encouraging results on the MSCOCO2017 benchmark, and can not only be applied to both one-stage detectors and two-stage detectors but also be utilized orthogonally with other knowledge distillation methods.
翻訳日:2021-09-21 11:20:20 公開日:2021-09-18
# objectfolder:暗黙の視覚的、聴覚的、触覚的な表現を持つオブジェクトのデータセット

ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations ( http://arxiv.org/abs/2109.07991v2 )

ライセンス: Link先を確認
Ruohan Gao, Yen-Yu Chang, Shivani Mall, Li Fei-Fei, Jiajun Wu(参考訳) 近年、多感覚オブジェクト中心の知覚、推論、相互作用が重要な研究課題となっている。 しかし、これらの方向の進歩は、利用可能な小さなオブジェクトセットによって制限されている。合成オブジェクトは十分に現実的ではなく、主に幾何学を中心にしているが、ycbのような実際のオブジェクトデータセットは、国際的な出荷、在庫、財務コストのために、事実上困難で不安定である。 ObjectFolderは100の仮想オブジェクトからなるデータセットで、両方の課題に2つの重要なイノベーションで対処します。 まず、ObjectFolderは視覚的、聴覚的、触覚的な感覚データをすべてのオブジェクトにエンコードし、オブジェクトの幾何学に純粋にフォーカスする既存のデータセットを超えて、多くのマルチセンサーオブジェクト認識タスクを可能にします。 第二に、ObjectFolderは各オブジェクトの視覚的テクスチャ、音響シミュレーション、触覚的な読みに一様でオブジェクト中心で暗黙的な表現を採用しており、データセットを柔軟に使いやすく、共有しやすくしている。 本稿では,多感覚知覚と制御のためのテストベッドとしてのデータセットの有用性を,インスタンス認識,クロスセンサ検索,3次元再構成,ロボット認識など,さまざまなベンチマークタスクで評価する。

Multisensory object-centric perception, reasoning, and interaction have been a key research topic in recent years. However, the progress in these directions is limited by the small set of objects available -- synthetic objects are not realistic enough and are mostly centered around geometry, while real object datasets such as YCB are often practically challenging and unstable to acquire due to international shipping, inventory, and financial cost. We present ObjectFolder, a dataset of 100 virtualized objects that addresses both challenges with two key innovations. First, ObjectFolder encodes the visual, auditory, and tactile sensory data for all objects, enabling a number of multisensory object recognition tasks, beyond existing datasets that focus purely on object geometry. Second, ObjectFolder employs a uniform, object-centric, and implicit representation for each object's visual textures, acoustic simulations, and tactile readings, making the dataset flexible to use and easy to share. We demonstrate the usefulness of our dataset as a testbed for multisensory perception and control by evaluating it on a variety of benchmark tasks, including instance recognition, cross-sensory retrieval, 3D reconstruction, and robotic grasping.
翻訳日:2021-09-21 11:20:05 公開日:2021-09-18
# 共感対話生成のための感情コンセンサスの構築と非ペアデータの利用

Constructing Emotion Consensus and Utilizing Unpaired Data for Empathetic Dialogue Generation ( http://arxiv.org/abs/2109.07779v2 )

ライセンス: Link先を確認
Lei Shen, Jinchao Zhang, Jiao Ou, Xiaofang Zhao, Jie Zhou(参考訳) 対話共感の研究は、感情に対する正確な理解と適切な反応の能力を持つエージェントを養うことを目的としている。 共感的対話生成のための既存のモデルでは、感情の流れを文脈から反応へと一方向に集中している。 我々は、共感的な会話を行うことは双方向のプロセスであり、2人の対話者の感情が同じ点、すなわち感情のコンセンサスに達するときに共感が起こると論じている。 また,共感的対話コーパスは極めて限定的であり,モデル性能がさらに制限されることがわかった。 上記の問題に対処するために,感情コンセンサスの構築と外部非ペアデータの利用を同時に行うために,デュアル生成モデルであるdual-empを提案する。 具体的には,前方対話モデル,後方対話モデル,感情コンセンサスを表す離散的潜在変数を統一アーキテクチャに統合する。 次に、ペアデータの制約を緩和するために、オープンドメイン会話から非ペア感情データを抽出し、デュアルempを用いて擬似ペア共感サンプルを作成し、人間のアノテーションよりも効率的で低コストな方法を提案する。 自動評価と人的評価は,コヒーレントで共感的な反応を生み出す際の競争基準よりも優れていることを示す。

Researches on dialogue empathy aim to endow an agent with the capacity of accurate understanding and proper responding for emotions. Existing models for empathetic dialogue generation focus on the emotion flow in one direction, that is, from the context to response. We argue that conducting an empathetic conversation is a bidirectional process, where empathy occurs when the emotions of two interlocutors could converge on the same point, i.e., reaching an emotion consensus. Besides, we also find that the empathetic dialogue corpus is extremely limited, which further restricts the model performance. To address the above issues, we propose a dual-generative model, Dual-Emp, to simultaneously construct the emotion consensus and utilize some external unpaired data. Specifically, our model integrates a forward dialogue model, a backward dialogue model, and a discrete latent variable representing the emotion consensus into a unified architecture. Then, to alleviate the constraint of paired data, we extract unpaired emotional data from open-domain conversations and employ Dual-Emp to produce pseudo paired empathetic samples, which is more efficient and low-cost than the human annotation. Automatic and human evaluations demonstrate that our method outperforms competitive baselines in producing coherent and empathetic responses.
翻訳日:2021-09-21 11:19:15 公開日:2021-09-18