このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211019となっている論文です。

PDF登録状況(公開日: 20211019)

TitleAuthorsAbstract論文公表日・翻訳日
# 時間間社会ジレンマ課題における探索と搾取のバランスによる協力の改善

Improved cooperation by balancing exploration and exploitation in intertemporal social dilemma tasks ( http://arxiv.org/abs/2111.09152v1 )

ライセンス: Link先を確認
Zhenbo Cheng, Xingguang Liu, Leilei Zhang, Hangcheng Meng, Qin Li, Xiao Gang(参考訳) 個人の行動が合理的な特性を持つとき、これは集団に対する不合理な集団行動につながる可能性がある。 動物から人間まで幅広い生物が、この課題を満たすために協力の社会的特性を進化させる。 したがって、社会生物が自然環境の変化に適応できるようにする上で、個人間の協力は非常に重要である。 マルチエージェント強化学習に基づいて,探索と搾取のバランスをとる学習率を組み込むことで協調を実現するための新しい学習戦略を提案する。 簡単な戦略を用いたエージェントは、時間的社会的ジレンマと呼ばれる決定タスクにおいて、個人とグループの対立が特に鋭い場合において、相対的に集団的リターンを改善することを実証する。 また,強化学習エージェントの集団に対する学習率の多様性の影響を考察し,異種集団で訓練されたエージェントが,均質集団で訓練されたエージェントと比較して,特に協調した政策を展開することを示した。

When an individual's behavior has rational characteristics, this may lead to irrational collective actions for the group. A wide range of organisms from animals to humans often evolve the social attribute of cooperation to meet this challenge. Therefore, cooperation among individuals is of great significance for allowing social organisms to adapt to changes in the natural environment. Based on multi-agent reinforcement learning, we propose a new learning strategy for achieving coordination by incorporating a learning rate that can balance exploration and exploitation. We demonstrate that agents that use the simple strategy improve a relatively collective return in a decision task called the intertemporal social dilemma, where the conflict between the individual and the group is particularly sharp. We also explore the effects of the diversity of learning rates on the population of reinforcement learning agents and show that agents trained in heterogeneous populations develop particularly coordinated policies relative to those trained in homogeneous populations.
翻訳日:2021-11-21 15:07:06 公開日:2021-10-19
# (参考訳) スマートヘルスケアのための自然言語処理 [全文訳有]

Natural Language Processing for Smart Healthcare ( http://arxiv.org/abs/2110.15803v1 )

ライセンス: CC BY 4.0
Binggui Zhou, Guanghua Yang, Zheng Shi, Shaodan Ma(参考訳) 近年、スマートヘルスケアは大きな進歩を遂げている。 新興人工知能(AI)技術は、さまざまな医療シナリオにまたがるさまざまなスマートアプリケーションを実現する。 AIを活用した必須技術として、自然言語処理(NLP)は、人間の言語を分析し理解する能力のために、スマートヘルスケアにおいて重要な役割を果たす。 本研究は、スマートヘルスケアにおけるNLPに関する既存の研究を、技術と応用の観点からレビューする。 我々は、技術的観点から、スマートヘルスケアで遭遇する様々なNLPタスクの機能抽出とモデリングに焦点を当てる。 nlp技術を用いたスマートヘルスケアアプリケーションという文脈では、医療行為、病院管理、パーソナルケア、公衆衛生、薬物開発など、典型的なスマートヘルスケアシナリオに主に対応している。 さらに,現在の作業の限界と今後の作業の方向性について考察する。

Smart healthcare has achieved significant progress in recent years. Emerging artificial intelligence (AI) technologies enable various smart applications across various healthcare scenarios. As an essential technology powered by AI, natural language processing (NLP) plays a key role in smart healthcare due to its capability of analysing and understanding human language. In this work we review existing studies that concern NLP for smart healthcare from the perspectives of technique and application. We focus on feature extraction and modelling for various NLP tasks encountered in smart healthcare from a technical point of view. In the context of smart healthcare applications employing NLP techniques, the elaboration largely attends to representative smart healthcare scenarios, including clinical practice, hospital management, personal care, public health, and drug development. We further discuss the limitations of current works and identify the directions for future works.
翻訳日:2021-11-07 14:43:15 公開日:2021-10-19
# (参考訳) 解釈的盲目 [全文訳有]

Interpretive Blindness ( http://arxiv.org/abs/2111.00867v1 )

ライセンス: CC BY 4.0
Nicholas Asher and Julie Hunter(参考訳) ここでは「textit{interpretive blindness} (IB)」と呼ばれるてんかんバイアスをモデル化する。 IBは証言から学ぶための特別な問題であり、テキストや会話からのみ情報を取得する。 我々は,背景信念とベイズ的文脈における解釈と現代的証言の性質の共存から,IBが従うことを示す。 優れた疫学的実践を促進するために設計された制約が存在する場合でも,特定の特徴的現代的証言である「textit{argumentative completeness}」は階層的ベイズ的環境下での学習を妨げうると論じる。

We model here an epistemic bias we call \textit{interpretive blindness} (IB). IB is a special problem for learning from testimony, in which one acquires information only from text or conversation. We show that IB follows from a co-dependence between background beliefs and interpretation in a Bayesian setting and the nature of contemporary testimony. We argue that a particular characteristic contemporary testimony, \textit{argumentative completeness}, can preclude learning in hierarchical Bayesian settings, even in the presence of constraints that are designed to promote good epistemic practices.
翻訳日:2021-11-07 13:53:17 公開日:2021-10-19
# コンテンツベースルーティングプロセスを用いたマルチラベル残差畳み込みニューラルネットワークテキスト分類器の応用

Application of the Multi-label Residual Convolutional Neural Network text classifier using Content-Based Routing process ( http://arxiv.org/abs/2110.15801v1 )

ライセンス: Link先を確認
Tounsi Achraf, Elkefi Safa(参考訳) 本稿では,コンテンツベースルータを用いたテキスト分類プロセスにおいて,NLPアプリケーションを提案する。 この記事の最終的な目標は、広告のプレーンテキストから法的広告によって記述されたイベントを予測することだ。 この問題は、テキスト分類に多ラベルResidual Convolutional Neural Networkを用いることで、NLP技術と従来のモデリング手法の使用を含む教師付き問題である。 本稿では、分類広告の問題を解決するためのアプローチ、遭遇した困難、実験結果について説明する。

In this article, we will present an NLP application in text classifying process using the content-based router. The ultimate goal throughout this article is to predict the event described by a legal ad from the plain text of the ad. This problem is purely a supervised problem that will involve the use of NLP techniques and conventional modeling methodologies through the use of the Multi-label Residual Convolutional Neural Network for text classification. We will explain the approach put in place to solve the problem of classified ads, the difficulties encountered and the experimental results.
翻訳日:2021-11-07 11:44:13 公開日:2021-10-19
# DetectorNet:トラフィック予測のためのトランスフォーマー強化時空間グラフニューラルネットワーク

DetectorNet: Transformer-enhanced Spatial Temporal Graph Neural Network for Traffic Prediction ( http://arxiv.org/abs/2111.00869v1 )

ライセンス: Link先を確認
He Li, Shiyu Zhang, Xuejiao Li, Liangcai Su, Hongjie Huang, Duo Jin, Linghao Chen, Jianbing Huang, Jaesoo Yoo(参考訳) 高カバレッジの検出器は、経路計画や交通渋滞の回避において、道路利用者にとって直接的かつ広範囲な利点があるが、これらのデータを活用すると、動的な時間的相関、道路環境の変化による動的空間的相関など、ユニークな課題が生じる。 既存の研究は、空間的時間的相関によるモデリングの重要性を考慮しているが、彼らが学んだことは、まだ静的な道路ネットワーク構造であり、道路の動的変化を反映できず、最終的には非常に価値のある情報を失う。 これらの課題に対処するため,Transformer で拡張された DetectorNet を提案する。 従来の研究と異なり,本モデルでは,長距離時間と短距離時間との時間的相関に着目したマルチビュー・テンポラル・アテンション・モジュールと動的アテンション・モジュールと,学習した知識を動的に更新し,正確な予測を行う動的空間的相関を含む。 さらに,2つの公開データセットに対する実験結果と4つのアブレーション実験との比較結果から,インタクタネットの性能が11の高度なベースラインよりも優れていることが示された。

Detectors with high coverage have direct and far-reaching benefits for road users in route planning and avoiding traffic congestion, but utilizing these data presents unique challenges including: the dynamic temporal correlation, and the dynamic spatial correlation caused by changes in road conditions. Although the existing work considers the significance of modeling with spatial-temporal correlation, what it has learned is still a static road network structure, which cannot reflect the dynamic changes of roads, and eventually loses much valuable potential information. To address these challenges, we propose DetectorNet enhanced by Transformer. Differs from previous studies, our model contains a Multi-view Temporal Attention module and a Dynamic Attention module, which focus on the long-distance and short-distance temporal correlation, and dynamic spatial correlation by dynamically updating the learned knowledge respectively, so as to make accurate prediction. In addition, the experimental results on two public datasets and the comparison results of four ablation experiments proves that the performance of DetectorNet is better than the eleven advanced baselines.
翻訳日:2021-11-07 11:43:17 公開日:2021-10-19
# (参考訳) 星座線図形のネットワークシグネチャ [全文訳有]

The network signature of constellation line figures ( http://arxiv.org/abs/2110.12329v1 )

ライセンス: CC BY 4.0
Doina Bucur(参考訳) 世界中の伝統的な天文学では、夜空の星群は星座に関連付けられ、天球の象徴的な表現であり、意味に富み、実用的な役割を持つ。 線や結線図が記録されている文化では、これらの視覚表現は恒星の固定背景に制約されるが、星や線を自由に選択できる。 50の天文学的文化から得られた1591の星座線図のデータセット上で、星座の視覚的シグネチャ(または複雑さ)を測定するためにメトリクスを定義し、(1) 星座の視覚的シグネチャに関連付けられた文化の種類は? 2) 空域は星座の視覚的シグネチャと関連しているか? 1) 個々の文化は滅多に弱く関連付けられていないが, 文化の種類(実践的利用, 発達水準, 祖先)は関連性を示す。 本研究は,メソポタミア語,N,Sアメリカン,オーストロネシア語,ポリネシア語とは大きく異なり,視覚的シグネチャにおけるクロスカルチャーとクロスタイプ類似性の明確なクラスタを見出した。 また、(2)空域ごとの星座のシグネチャの多様性は予想以上に高く、多くの人気星の周囲には多様なデザインがある。

In traditional astronomies across the world, groups of stars in the night sky were linked into constellations -- symbolic representations on the celestial sphere, rich in meaning and with practical roles. In cultures where line or connect-the-dot figures were documented, these visual representations are constrained to the fixed background of stars, but are free in their choice of stars and lines to draw. Over a dataset of 1591 constellation line figures from 50 astronomical cultures, we define metrics to measure the visual signature (or complexity) of a constellation, and answer two questions: (1) does the type of culture associate with the visual signature of constellations? 2) does the sky region associate with the visual signature of constellations? We find that (1) individual cultures are only rarely and weakly thus associated, but the type of culture (by practical use, level of development, and ancestry) show an association. We find clear clusters of cross-culture and cross-type similarity in visual signatures, with SE Asian traditions far apart from Mesopotamian, N and S American, Austronesian and Polynesian traditions, which are similar. We also find (2) more diversity of constellation signature per sky region than expected, with diverse designs around the majority of popular stars.
翻訳日:2021-11-01 07:18:56 公開日:2021-10-19
# (参考訳) 臨床検索エンジンの結果の地域的説明 [全文訳有]

Local Explanations for Clinical Search Engine results ( http://arxiv.org/abs/2110.12891v1 )

ライセンス: CC BY 4.0
Edeline Contempr\'e, Zolt\'an Szl\'avik, Majid Mohammadi, Erick Velazquez, Annette ten Teije, Ilaria Tiddi(参考訳) 医療専門家は、患者の適切な臨床試験と早期アクセスプログラムを効率的に見つけるために、治療検索エンジンに依存している。 しかし、基礎プロセスが明確で説明がつかない場合、医師はシステムへの信頼を失う。 本稿では,問合せに応じて治験が検索される理由について,さらに詳細な情報を提供するためのモデル非依存的な説明方法を開発した。 これを実現するために、知識グラフ、臨床試験データおよび追加医療資源を用いて、臨床試験から特徴を生成する。 クラウドソーシングの方法論は、その重要性を判断するために使われます。 提案手法を基礎として, 臨床治験の回収の根拠は, 医療機関が積極的に知覚できるように, 平凡な条件で説明される。 さらに,検索した各項目について,各項目をランク付け可能な説明可能性スコアを算出する。 医療専門家が検証した実験は,提案手法が対象者および非対象ユーザへの信頼を誘導し,検索項目の信頼性の高い説明とランキングを与えることを示唆している。

Health care professionals rely on treatment search engines to efficiently find adequate clinical trials and early access programs for their patients. However, doctors lose trust in the system if its underlying processes are unclear and unexplained. In this paper, a model-agnostic explainable method is developed to provide users with further information regarding the reasons why a clinical trial is retrieved in response to a query. To accomplish this, the engine generates features from clinical trials using by using a knowledge graph, clinical trial data and additional medical resources. and a crowd-sourcing methodology is used to determine their importance. Grounded on the proposed methodology, the rationale behind retrieving the clinical trials is explained in layman's terms so that healthcare processionals can effortlessly perceive them. In addition, we compute an explainability score for each of the retrieved items, according to which the items can be ranked. The experiments validated by medical professionals suggest that the proposed methodology induces trust in targeted as well as in non-targeted users, and provide them with reliable explanations and ranking of retrieved items.
翻訳日:2021-11-01 06:34:26 公開日:2021-10-19
# 最適ランダム化分類木

Optimal randomized classification trees ( http://arxiv.org/abs/2110.11952v1 )

ライセンス: Link先を確認
Rafael Blanquero, Emilio Carrizosa, Cristina Molero-R\'io, Dolores Romero Morales(参考訳) 分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。 CARTは伝統的にgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。 この強欲なアプローチは木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。 また,各クラスにおける誤分類率などの重要な問題を制御することは困難である。 これらの欠点に対処するために、各観測の経路をモデル化するために決定変数を個別に使用する最適決定木が最近文献で提案されている。 代わりに、継続的な最適化に基づく新しいアプローチを提案する。 我々の分類器は、決定木の各ノードでランダムな決定が行われるため、ランダム化された木と見なすことができる。 報告した計算経験は,本手法の良好な性能を示す。

Classification and Regression Trees (CARTs) are off-the-shelf techniques in modern Statistics and Machine Learning. CARTs are traditionally built by means of a greedy procedure, sequentially deciding the splitting predictor variable(s) and the associated threshold. This greedy approach trains trees very fast, but, by its nature, their classification accuracy may not be competitive against other state-of-the-art procedures. Moreover, controlling critical issues, such as the misclassification rates in each of the classes, is difficult. To address these shortcomings, optimal decision trees have been recently proposed in the literature, which use discrete decision variables to model the path each observation will follow in the tree. Instead, we propose a new approach based on continuous optimization. Our classifier can be seen as a randomized tree, since at each node of the decision tree a random decision is made. The computational experience reported demonstrates the good performance of our procedure.
翻訳日:2021-10-31 09:11:05 公開日:2021-10-19
# 複雑構造的選好の情報の効率的な学習--不確実性下の意思決定への応用

Information efficient learning of complexly structured preferences: Elicitation procedures and their application to decision making under uncertainty ( http://arxiv.org/abs/2110.12879v1 )

ライセンス: Link先を確認
Christoph Jansen, Hannah Blocher, Thomas Augustin, Georg Schollmeyer(参考訳) 本稿では,複雑に構造化された選好を効率よく適用し,不確実性を考慮した意思決定問題に活用する手法を提案する。 jansen, schollmeyer and augustin (2018, int. j. approx. reason) で導入された一般的なフレームワークに基づいて、私たちは、意思決定者が基礎となる選好システム(順序をエンコードする2つの関係と選好の基部分)を、可能な限り単純なランキング質問に答えることなく、公開手順とアルゴリズムを設計しました。 ここでは、2つの異なるアプローチが従う。 第1のアプローチは、選好の順序部分を取得するために収集されたランキングデータを直接利用し、その基数部分は意思決定者の考慮時間に関するメタデータを用いて暗黙的に構築される。 対照的に、第2のアプローチは意思決定者の選好システムの基部分も明示的に解明するが、その近似バージョンのみである。 この近似は、導出手順中に選好強度のラベルを付加して得られる。 いずれのアプローチにおいても,意思決定者の真の選好システムを構築する条件を与え,その効率性について検討する。 後者の目的については,データフリーなアプローチに加えて,前回のelicitationラウンドのデータが利用可能であれば,elicitation手順を効果的に導く方法について論じる。 最後に,提案手法が不確実性の下での意思決定問題にどのように活用できるかを示す。 正確には、ある条件下では、選好システムを完全に指定せずに最適な決定が見つかることを示す。

In this paper we propose efficient methods for elicitation of complexly structured preferences and utilize these in problems of decision making under (severe) uncertainty. Based on the general framework introduced in Jansen, Schollmeyer and Augustin (2018, Int. J. Approx. Reason), we now design elicitation procedures and algorithms that enable decision makers to reveal their underlying preference system (i.e. two relations, one encoding the ordinal, the other the cardinal part of the preferences) while having to answer as few as possible simple ranking questions. Here, two different approaches are followed. The first approach directly utilizes the collected ranking data for obtaining the ordinal part of the preferences, while their cardinal part is constructed implicitly by measuring meta data on the decision maker's consideration times. In contrast, the second approach explicitly elicits also the cardinal part of the decision maker's preference system, however, only an approximate version of it. This approximation is obtained by additionally collecting labels of preference strength during the elicitation procedure. For both approaches, we give conditions under which they produce the decision maker's true preference system and investigate how their efficiency can be improved. For the latter purpose, besides data-free approaches, we also discuss ways for effectively guiding the elicitation procedure if data from previous elicitation rounds is available. Finally, we demonstrate how the proposed elicitation methods can be utilized in problems of decision under (severe) uncertainty. Precisely, we show that under certain conditions optimal decisions can be found without fully specifying the preference system.
翻訳日:2021-10-31 09:10:18 公開日:2021-10-19
# 私について語る限り:家族企業ブランドの重要性と家族確認アイデンティティの役割

As long as you talk about me: The importance of family firm brands and the contingent role of family-firm identity ( http://arxiv.org/abs/2110.13815v1 )

ライセンス: Link先を確認
P. Rovelli, C. Benedetti, A. Fronzetti Colladon, A. De Massis(参考訳) 本研究は,家族企業ブランドの重要性と企業業績との関係を判断する上での外部オーディエンスの役割について検討する。 テキストマイニングとソーシャル・ネットワーク分析技術に基づき,ブランドの普及率,多様性,コネクティビティの次元を考慮し,意味的ブランドスコアを用いて,メディアが家族企業ブランドに与える重要性を計測した。 2017年に発行された、63のイタリアの起業家ファミリーに関する52,555のニュース記事のサンプルの分析によると、ブランドの重要性は、ファミリーファームの収益と肯定的に関連している。 本研究は,ブランド型ファミリーファームのパフォーマンスに対する外部視聴者の認識について,リッチで多面的な視点を提供することにより,現在の文学を進歩させる。

This study explores the role of external audiences in determining the importance of family firm brands and the relationship with firm performance. Drawing on text mining and social network analysis techniques, and considering the brand prevalence, diversity, and connectivity dimensions, we use the semantic brand score to measure the importance the media give to family firm brands. The analysis of a sample of 52,555 news articles published in 2017 about 63 Italian entrepreneurial families reveals that brand importance is positively associated with family firm revenues, and this relationship is stronger when there is identity match between the family and the firm. This study advances current literature by offering a rich and multifaceted perspective on how external audiences perceptions of the brand shape family firm performance.
翻訳日:2021-10-31 09:09:45 公開日:2021-10-19
# SOSP:2次構造解析によるグローバル相関の効率的な捕捉

SOSP: Efficiently Capturing Global Correlations by Second-Order Structured Pruning ( http://arxiv.org/abs/2110.11395v1 )

ライセンス: Link先を確認
Manuel Nonnenmacher, Thomas Pfeil, Ingo Steinwart, David Reeb(参考訳) プルーニングニューラルネットワークは、推論時間とメモリコストを削減する。 標準ハードウェアでは、機能マップのような粗い粒度構造が刈り取られれば、これらの利点は特に顕著になる。 我々は,すべての構造と層間の相関を含む2次構造解析法(SOSP)を考案した。 提案手法は,高速なヘッセンベクター製品によるサリエンシ評価を実現するために,革新的な2次近似を用いている。 したがって、ssp-h は全ヘッシアンを考慮しつつも一階法のようにスケールする。 sosp-h を、確立されたヘッセン近似を用いた2番目の sosp-i 法と、多くの最先端法と比較して検証する。 SOSP-Hは精度で同等かそれ以上の性能を発揮するが、スケーラビリティと効率の点で明らかな利点がある。 これにより、ネットワークのすべての層にまたがる相関を捉えながら、SOSP-Hを大規模ビジョンタスクにスケールすることが可能になった。 本手法のグローバルな性質を明らかにするため,プレトレーニング済みネットワークから構造を取り除き,アーキテクチャ上のボトルネックを検出することにより,その性能を評価する。 我々のアルゴリズムは、アーキテクチャ上のボトルネックを体系的に明らかにし、ネットワークの精度をさらに高めるために取り除くことができることを示す。

Pruning neural networks reduces inference time and memory costs. On standard hardware, these benefits will be especially prominent if coarse-grained structures, like feature maps, are pruned. We devise two novel saliency-based methods for second-order structured pruning (SOSP) which include correlations among all structures and layers. Our main method SOSP-H employs an innovative second-order approximation, which enables saliency evaluations by fast Hessian-vector products. SOSP-H thereby scales like a first-order method despite taking into account the full Hessian. We validate SOSP-H by comparing it to our second method SOSP-I that uses a well-established Hessian approximation, and to numerous state-of-the-art methods. While SOSP-H performs on par or better in terms of accuracy, it has clear advantages in terms of scalability and efficiency. This allowed us to scale SOSP-H to large-scale vision tasks, even though it captures correlations across all layers of the network. To underscore the global nature of our pruning methods, we evaluate their performance not only by removing structures from a pretrained network, but also by detecting architectural bottlenecks. We show that our algorithms allow to systematically reveal architectural bottlenecks, which we then remove to further increase the accuracy of the networks.
翻訳日:2021-10-31 08:51:44 公開日:2021-10-19
# 放射トモグラフィにおけるニュートン法に基づくデータ駆動型再構成法

A Data-Driven Reconstruction Technique based on Newton's Method for Emission Tomography ( http://arxiv.org/abs/2110.11396v1 )

ライセンス: Link先を確認
Loizos Koutsantonis, Tiago Carneiro, Emmanuel Kieffer, Frederic Pinel, Pascal Bouvry(参考訳) 本研究では,newton法に触発された放射トモグラフィのためのハイブリッドデータ駆動型再構成手法であるdeep newton reconstruction network (dnr-net)を提案する。 DNR-Netは、プロジェクション演算子が提供するトモグラフィー問題に関する事前情報を用いて、深層学習アプローチを活用している。 a)ニュートン降下方向の近似によるニュートンの方法の模倣 b) データ駆動の規則化 そこで,dnr-netは,スペクトルファントムシミュレーションから得られたデータを用いて,24個の投影画像を含むノイズシノグラム画像の再構成を行うことができることを示す。 画像品質の定量化には,構造類似度指数 (SSIM) とコントラスト-雑音比 (CNR) が用いられた。 また,OSEM法で得られた結果と比較した。 定量的結果によると、DNR-Netは高コントラストと低ノイズを特徴としたOSEMに匹敵する再構成を生成する。

In this work, we present the Deep Newton Reconstruction Network (DNR-Net), a hybrid data-driven reconstruction technique for emission tomography inspired by Newton's method, a well-known iterative optimization algorithm. The DNR-Net employs prior information about the tomographic problem provided by the projection operator while utilizing deep learning approaches to a) imitate Newton's method by approximating the Newton descent direction and b) provide data-driven regularisation. We demonstrate that DNR-Net is capable of providing high-quality image reconstructions using data from SPECT phantom simulations by applying it to reconstruct images from noisy sinograms, each one containing 24 projections. The Structural Similarity Index (SSIM) and the Contrast-to-Noise ratio (CNR) were used to quantify the image quality. We also compare our results to those obtained by the OSEM method. According to the quantitative results, the DNR-Net produces reconstructions comparable to the ones produced by OSEM while featuring higher contrast and less noise.
翻訳日:2021-10-31 08:51:23 公開日:2021-10-19
# FedParking: 駐車車両支援エッジコンピューティングによるフェデレーション学習に基づくパーキング空間の推定

FedParking: A Federated Learning based Parking Space Estimation with Parked Vehicle assisted Edge Computing ( http://arxiv.org/abs/2110.12876v1 )

ライセンス: Link先を確認
Xumin Huang, Peichun Li, Rong Yu, Yuan Wu, Kan Xie, Shengli Xie(参考訳) 分散学習アプローチとして、フェデレーション学習は、トレーニングデータのプライバシを維持しながら、分散データセット上の共有学習モデルをトレーニングする。 我々は、駐車場管理へのフェデレートラーニングの適用を拡張し、FedParkingを導入し、Parking Lot Operators(PLO)が協力して、生データを交換することなく、駐車空間推定のための長期記憶モデルを訓練する。 さらに,FedParking による PVEC (Parked Vehicle Assisted Edge Computing) の管理について検討した。 PVECでは、異なるPLOが、FedParkingの計算要求と駐車容量制約に基づいて設計されたインセンティブメカニズムを通じて、サービスをオフロードするためのエッジコンピューティングノードとしてPVを採用する。 PLOと車両間の相互作用をマルチリードマルチフォローのStackelbergゲームとして定式化する。 車両の動的到着と時変駐車能力の制約を考慮すると、分散したプライバシ保存方式でスタックルバーグ均衡に徐々に到達するマルチエージェントの深層強化学習手法を提案する。 最後に,提案手法の有効性と有効性を示す数値的な結果を提供する。

As a distributed learning approach, federated learning trains a shared learning model over distributed datasets while preserving the training data privacy. We extend the application of federated learning to parking management and introduce FedParking in which Parking Lot Operators (PLOs) collaborate to train a long short-term memory model for parking space estimation without exchanging the raw data. Furthermore, we investigate the management of Parked Vehicle assisted Edge Computing (PVEC) by FedParking. In PVEC, different PLOs recruit PVs as edge computing nodes for offloading services through an incentive mechanism, which is designed according to the computation demand and parking capacity constraints derived from FedParking. We formulate the interactions among the PLOs and vehicles as a multi-lead multi-follower Stackelberg game. Considering the dynamic arrivals of the vehicles and time-varying parking capacity constraints, we present a multi-agent deep reinforcement learning approach to gradually reach the Stackelberg equilibrium in a distributed yet privacy-preserving manner. Finally, numerical results are provided to demonstrate the effectiveness and efficiency of our scheme.
翻訳日:2021-10-31 08:50:56 公開日:2021-10-19
# (参考訳) 勾配ブースティングマシンモデルによるcovid-19早期診断 [全文訳有]

Early Diagnostic Prediction of Covid-19 using Gradient-Boosting Machine Model ( http://arxiv.org/abs/2110.09436v2 )

ライセンス: CC BY 4.0
Satvik Tripathi(参考訳) 世界中の新型コロナウイルス感染者の急増と逆転写酵素-ポリメラーゼ連鎖反応(RT-PCR)は、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)の迅速かつ正確な検出の鍵となる。 近年,開発途上国では医療物資の不足が深刻化しており,特にRT-PCR検査の欠如により入院が遅れ,感染率が高くなっている。 RT-PCR試験におけるSARS-CoV-2の診断結果を8つのバイナリー特徴を用いて予測する勾配ブースティングマシンモデルを提案する。 イスラエル保健省が公開している全国的なデータセットを使いました。

With the huge spike in the COVID-19 cases across the globe and reverse transcriptase-polyme rase chain reaction (RT-PCR) test remains a key component for rapid and accurate detection of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). In recent months there has been an acute shortage of medical supplies in developing countries, especially a lack of RT-PCR testing resulting in delayed patient care and high infection rates. We present a gradient-boosting machine model that predicts the diagnostics result of SARS-CoV- 2 in an RT-PCR test by utilizing eight binary features. We used the publicly available nationwide dataset released by the Israeli Ministry of Health.
翻訳日:2021-10-24 12:27:24 公開日:2021-10-19
# (参考訳) 運動に基づく擬似ラベルと誘導進行ラベル補正による物体接触予測 [全文訳有]

Hand-Object Contact Prediction via Motion-Based Pseudo-Labeling and Guided Progressive Label Correction ( http://arxiv.org/abs/2110.10174v1 )

ライセンス: CC BY 4.0
Takuma Yagi, Md Tasnimul Hasan, Yoichi Sato(参考訳) すべてのハンドオブジェクトインタラクションは、コンタクトから始まります。 手と物体の接触状態を予測することは、手と物体の相互作用を理解するのに有用であるが、手と物体の相互作用が知られていると推定され、詳細は研究されていない。 本研究では,手と物体の接触をビデオで予測する手法を提案する。 具体的には、ビデオと一対の手とオブジェクトのトラックから、各フレームのバイナリ接触状態(接触または非接触)を予測する。 しかし、多数のハンドオブジェクトトラックとコンタクトラベルに注釈をつけるのはコストがかかる。 難易度を克服するために,我々は半教師付きフレームワークを提案する。 一 動きに基づく擬似ラベルによるトレーニングデータの自動収集 (II)少ない信頼データでノイズのある擬似ラベルを補正するプログレッシブラベル補正法(gPLC)を導出する。 我々は,手動接触予測のための新しいベンチマークデータセット上で,フレームワークの有効性を検証し,既存のベースライン手法よりも優れた性能を示した。 コードとデータはhttps://github.com/t akumayagi/hand_objec t_contact_prediction で入手できる。

Every hand-object interaction begins with contact. Despite predicting the contact state between hands and objects is useful in understanding hand-object interactions, prior methods on hand-object analysis have assumed that the interacting hands and objects are known, and were not studied in detail. In this study, we introduce a video-based method for predicting contact between a hand and an object. Specifically, given a video and a pair of hand and object tracks, we predict a binary contact state (contact or no-contact) for each frame. However, annotating a large number of hand-object tracks and contact labels is costly. To overcome the difficulty, we propose a semi-supervised framework consisting of (i) automatic collection of training data with motion-based pseudo-labels and (ii) guided progressive label correction (gPLC), which corrects noisy pseudo-labels with a small amount of trusted data. We validated our framework's effectiveness on a newly built benchmark dataset for hand-object contact prediction and showed superior performance against existing baseline methods. Code and data are available at https://github.com/t akumayagi/hand_objec t_contact_prediction .
翻訳日:2021-10-24 11:02:56 公開日:2021-10-19
# (参考訳) GenNI: データベースのテキスト生成のためのヒューマンAIコラボレーション [全文訳有]

GenNI: Human-AI Collaboration for Data-Backed Text Generation ( http://arxiv.org/abs/2110.10185v1 )

ライセンス: CC BY-SA 4.0
Hendrik Strobelt, Jambay Kinley, Robert Krueger, Johanna Beyer, Hanspeter Pfister, Alexander M. Rush(参考訳) Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。 これらのシステムは、仮想アシスタントのようなツールにおける流動的な自然言語インタフェースに不可欠であるが、これらのMLシステムは、しばしば誤解を招くか予期せぬ出力を生成する。 genni(ジェネレーション・ネゴシエーション・インタフェース)は、対話型ビジュアルシステムで、記述テキストを作成する際に高レベルな人間とaiのコラボレーションを行う。 このツールは、明示的な制御状態で設計されたディープラーニングモデルを利用する。 これらのコントロールにより、ディープラーニングモデルの表現力を犠牲にすることなく、モデル世代を世界規模で制約することができる。 ビジュアルインターフェースにより、ユーザーはRefine-Forecastパラダイムに従ってAIシステムと対話し、生成システムが人間のユーザが適切な方法で動作することを保証することができる。 非制御型生成アプローチを改良した2つの実験において,複数のユースケースを報告し,同時に細粒度制御を提供する。 デモとソースコードはhttps://genni.vizhub .aiで入手できる。

Table2Text systems generate textual output based on structured data utilizing machine learning. These systems are essential for fluent natural language interfaces in tools such as virtual assistants; however, left to generate freely these ML systems often produce misleading or unexpected outputs. GenNI (Generation Negotiation Interface) is an interactive visual system for high-level human-AI collaboration in producing descriptive text. The tool utilizes a deep learning model designed with explicit control states. These controls allow users to globally constrain model generations, without sacrificing the representation power of the deep learning models. The visual interface makes it possible for users to interact with AI systems following a Refine-Forecast paradigm to ensure that the generation system acts in a manner human users find suitable. We report multiple use cases on two experiments that improve over uncontrolled generation approaches, while at the same time providing fine-grained control. A demo and source code are available at https://genni.vizhub .ai .
翻訳日:2021-10-24 10:47:44 公開日:2021-10-19
# (参考訳) fairadapt: 公正データ前処理のための因果推論 [全文訳有]

fairadapt: Causal Reasoning for Fair Data Pre-processing ( http://arxiv.org/abs/2110.10200v1 )

ライセンス: CC BY 4.0
Drago Ple\v{c}ko, Nicolas Bennett, Nicolai Meinshausen(参考訳) 機械学習アルゴリズムは、さまざまな予測タスクに有用であるが、性別、人種、その他のセンシティブな属性に基づいて、識別方法を学ぶこともできる。 この実現は、アルゴリズムバイアスの測定と緩和を目的とした、公正な機械学習の分野を生み出した。 因果推論前処理方式を実装したR-package fairadaptについて述べる。 因果的グラフィカルモデルと観察されたデータを利用することで、この手法は「私の給料は何か、私は別の性別/人種であったのか?」という形の仮説的な疑問に対処することができる。 このような個人レベルの反実的推論は差別を排除し、公正な判断を正当化するのに役立ちます。 また,敏感な属性から結果への因果経路を想定した適切な緩和は差別的ではない。

Machine learning algorithms are useful for various predictions tasks, but they can also learn how to discriminate, based on gender, race or other sensitive attributes. This realization gave rise to the field of fair machine learning, which aims to measure and mitigate such algorithmic bias. This manuscript describes the R-package fairadapt, which implements a causal inference pre-processing method. By making use of a causal graphical model and the observed data, the method can be used to address hypothetical questions of the form "What would my salary have been, had I been of a different gender/race?". Such individual level counterfactual reasoning can help eliminate discrimination and help justify fair decisions. We also discuss appropriate relaxations which assume certain causal pathways from the sensitive attribute to the outcome are not discriminatory.
翻訳日:2021-10-24 10:30:14 公開日:2021-10-19
# (参考訳) 長いランダム行列とテンソル展開 [全文訳有]

Long Random Matrices and Tensor Unfolding ( http://arxiv.org/abs/2110.10210v1 )

ライセンス: CC BY 4.0
G\'erard Ben Arous, Daniel Zhengyu Huang, Jiaoyang Huang(参考訳) 本稿では,大矩形ランダム行列の低階摂動の特異値と特異ベクトルについて考察し,行列は「長い」状態であり,列数(列)が列数(行数)で多項式的に増加することを許容する。 我々は(行列の次元に依存する)臨界信号対雑音比が存在することを証明し、極端特異値と特異ベクトルはbbp型相転移を示す。 主応用として,非対称階数 1 スパイクテンソルモデルのテンソル展開アルゴリズムを調査し,テンソル展開の手順とは独立な正確なしきい値を求める。 信号対雑音比が閾値を超えている場合、テンソル展開は信号を検出する。

In this paper, we consider the singular values and singular vectors of low rank perturbations of large rectangular random matrices, in the regime the matrix is "long": we allow the number of rows (columns) to grow polynomially in the number of columns (rows). We prove there exists a critical signal-to-noise ratio (depending on the dimensions of the matrix), and the extreme singular values and singular vectors exhibit a BBP type phase transition. As a main application, we investigate the tensor unfolding algorithm for the asymmetric rank-one spiked tensor model, and obtain an exact threshold, which is independent of the procedure of tensor unfolding. If the signal-to-noise ratio is above the threshold, tensor unfolding detects the signals; otherwise, it fails to capture the signals.
翻訳日:2021-10-24 10:14:06 公開日:2021-10-19
# (参考訳) データ拡張とメタラーニングを備えたDLを使用した市場価格予測: ARIMAがまだ勝利している! [全文訳有]

Forecasting Market Prices using DL with Data Augmentation and Meta-learning: ARIMA still wins! ( http://arxiv.org/abs/2110.10233v1 )

ライセンス: CC BY 4.0
Vedant Shah, Gautam Shroff(参考訳) ディープラーニング技術は時系列予測に成功しており、従来の手法に比べて多くの標準ベンチマークデータセットで優れたパフォーマンスを示している。 本稿では、金融市場における価格予測のためのディープラーニング技術の性能に関する総合的比較研究を紹介する。 我々は、通貨や株式市場のデータに基づいて、NBeatsなどの最先端のディープラーニングベースラインをベンチマークする。 また,移動平均などの技術ルールによって駆動される需要のファジィ論理に基づくモデルを用いて合成データを生成する。 この合成データに対するベースライン手法をベンチマークし,データ拡張に使用する。 また,金融時系列の非定常性を考慮するために,勾配に基づくメタラーニングを適用する。 ARIMAの標準モデルは、データ拡張やメタ学習でもディープラーニングよりも優れています。 われわれはなぜそうなるのかを推測して結論付けている。

Deep-learning techniques have been successfully used for time-series forecasting and have often shown superior performance on many standard benchmark datasets as compared to traditional techniques. Here we present a comprehensive and comparative study of performance of deep-learning techniques for forecasting prices in financial markets. We benchmark state-of-the-art deep-learning baselines, such as NBeats, etc., on data from currency as well as stock markets. We also generate synthetic data using a fuzzy-logic based model of demand driven by technical rules such as moving averages, which are often used by traders. We benchmark the baseline techniques on this synthetic data as well as use it for data augmentation. We also apply gradient-based meta-learning to account for non-stationarity of financial time-series. Our extensive experiments notwithstanding, the surprising result is that the standard ARIMA models outperforms deep-learning even using data augmentation or meta-learning. We conclude by speculating as to why this might be the case.
翻訳日:2021-10-24 09:38:17 公開日:2021-10-19
# (参考訳) エンジニアリングとサイロ: 機械学習プロジェクトのための学際チーム間のコラボレーションにおけるプロセスとインターフェースの再考 [全文訳有]

More Engineering, No Silos: Rethinking Processes and Interfaces in Collaboration between Interdisciplinary Teams for Machine Learning Projects ( http://arxiv.org/abs/2110.10234v1 )

ライセンス: CC BY-SA 4.0
Nadia Nahar, Shurui Zhou, Grace Lewis, Christian K\"astner(参考訳) ソフトウェアプロジェクトにおける機械学習(ML)コンポーネントの導入は、ソフトウェアエンジニアがデータサイエンティストや他の専門家と協力する必要性を生み出した。 コラボレーションは常に困難だが、MLは探索的モデル開発プロセス、必要なスキルと知識の追加、MLシステムのテストの難しさ、継続的な進化と監視の必要性、公正さや説明可能性といった非伝統的な品質要件によって、さらなる課題を導入している。 28の組織から45人の実践者とのインタビューを通じて、本番環境へのmlシステムの構築とデプロイにおいてチームが直面する重要なコラボレーションの課題を特定しました。 要件,データ,統合のための運用mlシステムの開発において共通するコラボレーションポイントと,それに対応するチームのパターンや課題について報告する。 これらの課題のほとんどはコミュニケーション、ドキュメンテーション、エンジニアリング、プロセスに集中しており、これらの課題に対処するためのレコメンデーションを集めている。

The introduction of machine learning (ML) components in software projects has created the need for software engineers to collaborate with data scientists and other specialists. While collaboration can always be challenging, ML introduces additional challenges with its exploratory model development process, additional skills and knowledge needed, difficulties testing ML systems, need for continuous evolution and monitoring, and non-traditional quality requirements such as fairness and explainability. Through interviews with 45 practitioners from 28 organizations, we identified key collaboration challenges that teams face when building and deploying ML systems into production. We report on common collaboration points in the development of production ML systems for requirements, data, and integration, as well as corresponding team patterns and challenges. We find that most of these challenges center around communication, documentation, engineering, and process and collect recommendations to address these challenges.
翻訳日:2021-10-24 09:32:11 公開日:2021-10-19
# (参考訳) 画像に基づくオープンワールドセグメンテーション2021におけるuvoチャレンジの1位 [全文訳有]

1st Place Solution for the UVO Challenge on Image-based Open-World Segmentation 2021 ( http://arxiv.org/abs/2110.10239v1 )

ライセンス: CC BY 4.0
Yuming Du, Wen Guo, Yang Xiao, Vincent Lepetit(参考訳) チャレンジで競うために使用する2段階のインスタンスセグメンテーションフレームワークについて説明します。 フレームワークの第1段階はオブジェクト検出器で構成されており、バウンディングボックスの形式でオブジェクト提案を生成する。 次に、画像及び検出された境界ボックスを第2ステージに供給し、境界ボックス内のオブジェクトを分割するためにセグメンテーションネットワークを適用する。 すべてのネットワークをクラスに依存しない方法でトレーニングします。 提案手法は, UVO 2021 Image-based Open-World Segmentation Challengeにおける第1位を達成している。

We describe our two-stage instance segmentation framework we use to compete in the challenge. The first stage of our framework consists of an object detector, which generates object proposals in the format of bounding boxes. Then, the images and the detected bounding boxes are fed to the second stage, where a segmentation network is applied to segment the objects in the bounding boxes. We train all our networks in a class-agnostic way. Our approach achieves the first place in the UVO 2021 Image-based Open-World Segmentation Challenge.
翻訳日:2021-10-24 08:47:35 公開日:2021-10-19
# (参考訳) 局所的な局所的相互情報の局所的成長と重み付けに基づく新しい自動変化検出フレームワーク:MR画像における化学療法による乳房腫瘍反応の解析 [全文訳有]

A New Automatic Change Detection Frame-work Based on Region Growing and Weighted Local Mutual Information: Analysis of Breast Tumor Response to Chemotherapy in Serial MR Images ( http://arxiv.org/abs/2110.10242v1 )

ライセンス: CC BY 4.0
Narges Norouzi, Reza Azmi, Nooshin Noshiri, Robab Anbiaee(参考訳) 経時的MRI画像間の微妙な変化の自動解析は、乳房画像処理の範囲ではまだ難しい課題であるため、重要な課題である。 本稿では,従来の手法では特徴が低いため,2つの位相からなる効率的な自動変化検出フレームワークを提案する。 まず,前処理段階では,従来の手法よりも雑音に頑健な階層ヒストグラムマッチング(hhm)に基づいて強度正規化法を提案する。 望ましくない変化を排除し,重要な変化を含む領域を抽出するために,強度分布とヒルクライミングアルゴリズムに基づいて提案手法を適用した。 第2に,検出段階では,領域成長に基づくアプローチが,非現実的な変化と大きく異なることを示唆する。 重み付き局所相互情報(WLMI)法を用いて高次特徴を抽出し,また局所的な変化の一貫性の原理を利用するため,提案手法は妥当な性能を享受できる。 シミュレーションおよび実縦型胸部mr画像における実験結果から,提案手法の有効性を確認した。 また、このフレームワークは、専門家が見逃した多くの病変の進化を検出できるいくつかのケースにおいて、人間専門家を上回る。

The automatic analysis of subtle changes between longitudinal MR images is an important task as it is still a challenging issue in scope of the breast medical image processing. In this paper we propose an effective automatic change detection framework composed of two phases since previously used methods have features with low distinctive power. First, in the preprocessing phase an intensity normalization method is suggested based on Hierarchical Histogram Matching (HHM) that is more robust to noise than previous methods. To eliminate undesirable changes and extract the regions containing significant changes the proposed Extraction Region of Changes (EROC) method is applied based on intensity distribution and Hill-Climbing algorithm. Second, in the detection phase a region growing-based approach is suggested to differentiate significant changes from unreal ones. Due to using proposed Weighted Local Mutual Information (WLMI) method to extract high level features and also utilizing the principle of the local consistency of changes, the proposed approach enjoys reasonable performance. The experimental results on both simulated and real longitudinal Breast MR Images confirm the effectiveness of the proposed framework. Also, this framework outperforms the human expert in some cases which can detect many lesion evolutions that are missed by expert.
翻訳日:2021-10-24 08:40:27 公開日:2021-10-19
# (参考訳) スキルパラメータの伝達による連続学習への簡易的アプローチ [全文訳有]

A Simple Approach to Continual Learning by Transferring Skill Parameters ( http://arxiv.org/abs/2110.10255v1 )

ライセンス: CC BY-SA 4.0
K.R. Zentner, Ryan Julian, Ujjwal Puri, Yulun Zhang, Gaurav S. Sukhatme(参考訳) 現実の環境で効果的な汎用機械を実現するためには、ロボットは既存の操作スキルを新しい状況に適応させるだけでなく、全く新しいスキルをオンザフライで獲得する必要がある。 継続的学習の大きな約束は、事前のスキルから蓄積された知識と経験を利用することで、ロボットにこの能力を与えることです。 我々は、ロボットが学習スキルポリシーの形でのみその知識と経験を保存することに限定される設定を考えることにより、この問題を新たに見ていく。 ロボット操作の文脈で連続学習者を構築するには,スキルポリシーの保存,事前学習の注意,およびこれらのスキルポリシーの転送時期の選択が十分であることを示す。 難解なメタワールドシミュレーションベンチマークにおいて,スキルの伝達に必要な条件を分析する。 この分析を用いて,タスク間のスキル伝達の有効性を予測し,それを用いてカリキュラム選択への継続的学習の問題を軽減できるスキルのペアワイズメトリックを提案する。 適切なカリキュラムが与えられたら、忘れずにロボット操作スキルを継続的に習得する方法を示し、スクラッチからトレーニングするために必要なサンプルをはるかに少なくする。

In order to be effective general purpose machines in real world environments, robots not only will need to adapt their existing manipulation skills to new circumstances, they will need to acquire entirely new skills on-the-fly. A great promise of continual learning is to endow robots with this ability, by using their accumulated knowledge and experience from prior skills. We take a fresh look at this problem, by considering a setting in which the robot is limited to storing that knowledge and experience only in the form of learned skill policies. We show that storing skill policies, careful pre-training, and appropriately choosing when to transfer those skill policies is sufficient to build a continual learner in the context of robotic manipulation. We analyze which conditions are needed to transfer skills in the challenging Meta-World simulation benchmark. Using this analysis, we introduce a pair-wise metric relating skills that allows us to predict the effectiveness of skill transfer between tasks, and use it to reduce the problem of continual learning to curriculum selection. Given an appropriate curriculum, we show how to continually acquire robotic manipulation skills without forgetting, and using far fewer samples than needed to train them from scratch.
翻訳日:2021-10-24 08:16:53 公開日:2021-10-19
# (参考訳) 画像生成における芸術スタイルの細粒度制御 [全文訳有]

Fine-Grained Control of Artistic Styles in Image Generation ( http://arxiv.org/abs/2110.10278v1 )

ライセンス: CC BY 4.0
Xin Miao, Huayan Wang, Jun Fu, Jiayi Liu, Shen Wang, Zhenyu Liao(参考訳) 生成モデルと敵対的トレーニングの最近の進歩により、様々な芸術様式で人工的にアートワークを作成できるようになった。 実際に生成されたスタイルをよりコントロールすることが非常に望ましい。 しかし、芸術的なスタイルは対象のカテゴリと異なり、微妙な違いによって区別されるスタイルの連続的なスペクトルがある。 スタイルの連続的なスペクトルを捕捉し、スタイル生成タスクに適用するための研究はほとんど行われていない。 本稿では,オリジナルアートの例を連続的なスタイル空間に埋め込むことで,これを実現することを提案する。 スタイルベクトルは、ジェネレータおよび判別器に供給され、きめ細かい制御を実現する。 本手法は,一般的な生成型逆ネットワーク (stylegan など) で使用可能である。 FIDで測定したバニラスタイルGANよりも精細な芸術的スタイルを正確に制御できるだけでなく,画質の向上も図っている。

Recent advances in generative models and adversarial training have enabled artificially generating artworks in various artistic styles. It is highly desirable to gain more control over the generated style in practice. However, artistic styles are unlike object categories -- there are a continuous spectrum of styles distinguished by subtle differences. Few works have been explored to capture the continuous spectrum of styles and apply it to a style generation task. In this paper, we propose to achieve this by embedding original artwork examples into a continuous style space. The style vectors are fed to the generator and discriminator to achieve fine-grained control. Our method can be used with common generative adversarial networks (such as StyleGAN). Experiments show that our method not only precisely controls the fine-grained artistic style but also improves image quality over vanilla StyleGAN as measured by FID.
翻訳日:2021-10-24 07:52:02 公開日:2021-10-19
# (参考訳) 合同ガウス図形モデルの推定:サーベイ [全文訳有]

Joint Gaussian Graphical Model Estimation: A Survey ( http://arxiv.org/abs/2110.10281v1 )

ライセンス: CC BY 4.0
Katherine Tsai, Oluwasanmi Koyejo, Mladen Kolar(参考訳) 複雑なシステムのグラフは、個々の特徴を維持しながらドメイン全体の部分的な基盤構造を共有することが多い。 したがって、例えば科学的な発見や臨床診断に適用する場合、共通の構造を特定することは、基礎となる信号に光を放つことができる。 さらに、領域間の共有構造がグラフ、特に高次元データの推定能力を高めることが証明されている。 しかし、共通の構造を抽出するための共同推定器の構築は、おそらくは、ソース間のデータの不均一性のため、より複雑である。 本稿では,様々なデータ生成プロセスに適合するモデル構造を同定し,共同ガウス図形モデルの統計的推測に関する最近の研究について述べる。 異なるデータ生成プロセス下でのシミュレーションは、モデルの選択に関する詳細な議論によって実装される。

Graphs from complex systems often share a partial underlying structure across domains while retaining individual features. Thus, identifying common structures can shed light on the underlying signal, for instance, when applied to scientific discoveries or clinical diagnoses. Furthermore, growing evidence shows that the shared structure across domains boosts the estimation power of graphs, particularly for high-dimensional data. However, building a joint estimator to extract the common structure may be more complicated than it seems, most often due to data heterogeneity across sources. This manuscript surveys recent work on statistical inference of joint Gaussian graphical models, identifying model structures that fit various data generation processes. Simulations under different data generation processes are implemented with detailed discussions on the choice of models.
翻訳日:2021-10-24 07:37:00 公開日:2021-10-19
# (参考訳) シャーコフスキー理論を超えたカオスイテナリーによるニューラルネットワークの表現性

Expressivity of Neural Networks via Chaotic Itineraries beyond Sharkovsky's Theorem ( http://arxiv.org/abs/2110.10295v1 )

ライセンス: CC BY 4.0
Clayton Sanford, and Vaggos Chatziafratis(参考訳) ターゲット関数が$f$であれば、ニューラルネットワークは$f$を近似するためにどのくらいの大きさでなければならないか? 最近の研究は、力学系のレンズからニューラルネットワークの \textit{expressivity}に関するこの基本的な問題を調べ、関数の大規模なファミリーに対して、新しい ``depth-vs-width''' トレードオフを提供する。 これらのトレードオフは、$f$ における \textit{ periodic} point または \emph{cycles} の存在によって支配される。 我々の研究は、動的システムの概念をさらに展開することで、周期性と表現性の間のより微妙な関係を照らし、周期的な点のみが最適深度-幅のトレードオフにつながることを証明し、より強い指数的なトレードオフを与えることを示す。 以前の仕事とは対照的に、我々の境界はほぼ最適であり、周期が増加するにつれて引き締まり、近似可能性の強い概念(例えば、定数 $l_1$ エラー)を扱う。 より広くは、VC次元やトポロジカルエントロピーを含む他の関数複雑性の概念の急激なシフトと正確に一致する「textit{chaotic regime}」への相転移を特定する。

Given a target function $f$, how large must a neural network be in order to approximate $f$? Recent works examine this basic question on neural network \textit{expressivity} from the lens of dynamical systems and provide novel ``depth-vs-width'' tradeoffs for a large family of functions $f$. They suggest that such tradeoffs are governed by the existence of \textit{periodic} points or \emph{cycles} in $f$. Our work, by further deploying dynamical systems concepts, illuminates a more subtle connection between periodicity and expressivity: we prove that periodic points alone lead to suboptimal depth-width tradeoffs and we improve upon them by demonstrating that certain ``chaotic itineraries'' give stronger exponential tradeoffs, even in regimes where previous analyses only imply polynomial gaps. Contrary to prior works, our bounds are nearly-optimal, tighten as the period increases, and handle strong notions of inapproximability (e.g., constant $L_1$ error). More broadly, we identify a phase transition to the \textit{chaotic regime} that exactly coincides with an abrupt shift in other notions of function complexity, including VC-dimension and topological entropy.
翻訳日:2021-10-24 07:03:37 公開日:2021-10-19
# (参考訳) 階層型適応モデルアグリゲーションによるスケーラブルフェデレーション学習 [全文訳有]

Layer-wise Adaptive Model Aggregation for Scalable Federated Learning ( http://arxiv.org/abs/2110.10302v1 )

ライセンス: CC BY 4.0
Sunwoo Lee, Tuo Zhang, Chaoyang He, Salman Avestimehr(参考訳) フェデレーション学習では、クライアント間でローカルモデルを集約する一般的なアプローチは、モデルパラメータ全体の周期平均化である。 しかし、ニューラルネットワークの異なる層は、クライアント間で異なるレベルのモデルの不一致を持つことが知られている。 従来のフルアグリゲーション方式はそのような違いを考慮せず、モデル全体のパラメータを一度に同期させ、効率の悪いネットワーク帯域幅の消費をもたらす。 クライアント間で類似するパラメータを集約することは、通信コストを増加させながら、有意義なトレーニングを進展させることはない。 我々は,スケーラブルなフェデレート学習のためのレイヤワイドモデルアグリゲーションスキームであるFedLAMAを提案する。 FedLAMAは、モデルの相違と通信コストを共同で考慮して、階層的にアグリゲーション間隔を適応的に調整する。 モデル精度に大きな影響を与えることなく、凝集間隔を微調整して凝集周波数を緩和することができる。 実験により,FedLAMAはIIDデータに対して最大60%,非IIDデータに対して70%の通信コストを削減し,FedAvgに匹敵する精度を実現した。

In Federated Learning, a common approach for aggregating local models across clients is periodic averaging of the full model parameters. It is, however, known that different layers of neural networks can have a different degree of model discrepancy across the clients. The conventional full aggregation scheme does not consider such a difference and synchronizes the whole model parameters at once, resulting in inefficient network bandwidth consumption. Aggregating the parameters that are similar across the clients does not make meaningful training progress while increasing the communication cost. We propose FedLAMA, a layer-wise model aggregation scheme for scalable Federated Learning. FedLAMA adaptively adjusts the aggregation interval in a layer-wise manner, jointly considering the model discrepancy and the communication cost. The layer-wise aggregation method enables to finely control the aggregation interval to relax the aggregation frequency without a significant impact on the model accuracy. Our empirical study shows that FedLAMA reduces the communication cost by up to 60% for IID data and 70% for non-IID data while achieving a comparable accuracy to FedAvg.
翻訳日:2021-10-24 07:02:14 公開日:2021-10-19
# (参考訳) ダウトの時、タイタンのサムモン:大型モデルによる効率的な推論 [全文訳有]

When in Doubt, Summon the Titans: Efficient Inference with Large Models ( http://arxiv.org/abs/2110.10305v1 )

ライセンス: CC BY 4.0
Ankit Singh Rawat, Manzil Zaheer, Aditya Krishna Menon, Amr Ahmed, Sanjiv Kumar(参考訳) 数十億のパラメータを持つ「大きな」サイズにニューラルネットワークをスケールすることは、多くの困難な問題に対して印象的な結果をもたらすことが示されている。 しかし、そのような大きなモデルによって引き起こされる推論コストは、多くの場合、実際のほとんどの設定でアプリケーションを妨げます。 本稿では,より軽量なモデルによる推論の計算的利点を保ちながら,大規模モデルのモデリング的利点を実現する蒸留に基づく2段階のフレームワークを提案する。 簡単に言うと、私たちは、大きな教師モデルを使って、軽量の学生モデルをガイドし、"簡単"な例のサブセットでのみ正確な予測を行う。 このようなアプローチにより、簡単な例が稀なハード例よりもはるかに頻度の高い実践シナリオにおいて、大きなモデルを効率的に利用することが可能になります。 提案手法では, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論コストの低減と標準蒸留よりも精度の向上が期待できる。 画像分類と自然言語処理ベンチマークにおけるアプローチの利点を実証的に示す。

Scaling neural networks to "large" sizes, with billions of parameters, has been shown to yield impressive results on many challenging problems. However, the inference cost incurred by such large models often prevents their application in most real-world settings. In this paper, we propose a two-stage framework based on distillation that realizes the modelling benefits of the large models, while largely preserving the computational benefits of inference with more lightweight models. In a nutshell, we use the large teacher models to guide the lightweight student models to only make correct predictions on a subset of "easy" examples; for the "hard" examples, we fall-back to the teacher. Such an approach allows us to efficiently employ large models in practical scenarios where easy examples are much more frequent than rare hard examples. Our proposed use of distillation to only handle easy instances allows for a more aggressive trade-off in the student size, thereby reducing the amortized cost of inference and achieving better accuracy than standard distillation. Empirically, we demonstrate the benefits of our approach on both image classification and natural language processing benchmarks.
翻訳日:2021-10-24 05:49:48 公開日:2021-10-19
# (参考訳) 表現学習のための制約付き平均シフト [全文訳有]

Constrained Mean Shift for Representation Learning ( http://arxiv.org/abs/2110.10309v1 )

ライセンス: CC BY 4.0
Ajinkya Tejankar, Soroush Abbasi Koohpayegani, and Hamed Pirsiavash(参考訳) ラベル付きデータやラベルなしデータから学ぶ表現に興味があります。 近年の自己教師型学習(SSL)の成功に触発されて,新たな知識を活用できる非コントラスト表現学習法を開発した。 この追加知識は、教師付き設定のアノテートラベルやSSL設定の別のモダリティからのSSLモデルに由来する可能性がある。 我々の主なアイデアは、近接する探索空間を制約することで平均シフトアルゴリズムを一般化し、意味的に純粋に表現することである。 提案手法は, 探索空間に隣接した近傍のインスタンスの埋め込みを, 付加的な知識を用いて制約するだけである。 この非競合的損失を活用することで,教師付き ImageNet-1k の事前訓練により,ベースラインに比べて高い転送性能が得られることを示す。 さらに,本手法はラベルノイズに対して比較的頑健であることを示す。 最後に,自己教師付ビデオモデルの学習には,モダリティをまたいだノイズ制約を用いることが可能であることを示す。

We are interested in representation learning from labeled or unlabeled data. Inspired by recent success of self-supervised learning (SSL), we develop a non-contrastive representation learning method that can exploit additional knowledge. This additional knowledge may come from annotated labels in the supervised setting or an SSL model from another modality in the SSL setting. Our main idea is to generalize the mean-shift algorithm by constraining the search space of nearest neighbors, resulting in semantically purer representations. Our method simply pulls the embedding of an instance closer to its nearest neighbors in a search space that is constrained using the additional knowledge. By leveraging this non-contrastive loss, we show that the supervised ImageNet-1k pretraining with our method results in better transfer performance as compared to the baselines. Further, we demonstrate that our method is relatively robust to label noise. Finally, we show that it is possible to use the noisy constraint across modalities to train self-supervised video models.
翻訳日:2021-10-24 05:17:59 公開日:2021-10-19
# 機械学習による極端事象の発生予測

Prediction of Occurrence of Extreme Events using Machine Learning ( http://arxiv.org/abs/2110.09304v2 )

ライセンス: Link先を確認
J. Meiyazhagan, S. Sudharsan, A. Venkatasen and M. Senthilvelan(参考訳) 機械学習モデルは、いくつかの研究分野における予測タスクにおいて重要な役割を果たす。 本研究では,非線形機械系における極端な事象の発生を予測するために,機械学習アルゴリズムの能力を利用する。 極端な出来事は自然界で普遍的に起こる稀な出来事である。 予測タスクでは,ロジスティック回帰,サポートベクターマシン,ランダムフォレスト,多層パーセプトロンという4つの機械学習モデルを検討した。 これら4つの機械学習モデルをトレーニングセットデータを用いてトレーニングし,テストセットデータを用いて各モデルのパフォーマンスを算出する。 考察したシステムにおける極端な事象の予測において,多層パーセプトロンモデルの方が4つのモデルで優れた性能を示すことを示す。 考慮された機械学習モデルの永続的な振る舞いは、ランダムにシャッフルされたトレーニングセットとテストセットデータでクロスチェックされる。

Machine learning models play a vital role in the prediction task in several fields of study. In this work, we utilize the ability of machine learning algorithms for the prediction of occurrence of extreme events in a nonlinear mechanical system. Extreme events are rare events which occur ubiquitously in nature. We consider four machine learning models, namely Logistic Regression, Support Vector Machine, Random Forest and Multi-Layer Perceptron in our prediction task. We train these four machine learning models using training set data and compute the performance of each model using the test set data. We show that Multi-Layer Perceptron model performs better among the four models in the prediction of extreme events in the considered system. The persistent behaviour of the considered machine learning models are cross-checked with randomly shuffled training set and test set data.
翻訳日:2021-10-24 04:35:32 公開日:2021-10-19
# CoFi: 高速長点クラウドマップにおけるLiDARローカライゼーションのための粗いICP

CoFi: Coarse-to-Fine ICP for LiDAR Localization in an Efficient Long-lasting Point Cloud Map ( http://arxiv.org/abs/2110.10194v1 )

ライセンス: Link先を確認
Yecheng Lyu, Xinming Huang, Ziming Zhang(参考訳) 近年、LiDAR計測と局在化が研究の関心を集めている。 既存の研究では、反復的最近点(ICP)が正確かつ効率的であるため広く使われている。 しかし、その非凸性とその局所的反復戦略により、ICPベースの手法は局所最適に陥りやすくなり、それによって正確な初期化が要求される。 本稿では,LiDARローカライゼーションのための粗いICPアルゴリズムであるCoFiを提案する。 具体的には、提案アルゴリズムは複数のボクセル解像度で入力点集合をダウンサンプリングし、粗い点集合から細かな点集合への変換を徐々に洗練する。 さらに,LiDARフレームから意味的特徴点を抽出し,CoFiを適用して効率的な点クラウドマップ上でのポーズを推定する,地図に基づくLiDARローカライゼーションアルゴリズムを提案する。 LiDARスキャンセマンティックセグメンテーションのためのCylinder3Dアルゴリズムの助けを借りて、提案したCoFiローカライゼーションアルゴリズムは、KITTIオドメトリーベンチマークの最先端性能を実証し、文献よりも大幅に改善した。

LiDAR odometry and localization has attracted increasing research interest in recent years. In the existing works, iterative closest point (ICP) is widely used since it is precise and efficient. Due to its non-convexity and its local iterative strategy, however, ICP-based method easily falls into local optima, which in turn calls for a precise initialization. In this paper, we propose CoFi, a Coarse-to-Fine ICP algorithm for LiDAR localization. Specifically, the proposed algorithm down-samples the input point sets under multiple voxel resolution, and gradually refines the transformation from the coarse point sets to the fine-grained point sets. In addition, we propose a map based LiDAR localization algorithm that extracts semantic feature points from the LiDAR frames and apply CoFi to estimate the pose on an efficient point cloud map. With the help of the Cylinder3D algorithm for LiDAR scan semantic segmentation, the proposed CoFi localization algorithm demonstrates the state-of-the-art performance on the KITTI odometry benchmark, with significant improvement over the literature.
翻訳日:2021-10-22 18:47:31 公開日:2021-10-19
# 遅延とサムパイプラインを用いた最小可変ビームフォーマ画像近似のためのパッチベース変換

Patch Based Transformation for Minimum Variance Beamformer Image Approximation Using Delay and Sum Pipeline ( http://arxiv.org/abs/2110.10220v1 )

ライセンス: Link先を確認
Sairoop Bodepudi, A N Madhavanunni, Mahesh Raveendranatha Panicker(参考訳) 近年,DASビームフォーミングに匹敵するリアルタイム性能を実現するために,最小分散歪み無振応答(MVDR)ビームフォーミングなど,計算的に重いビームフォーミングアルゴリズムの高速化が試みられている。 これは、完全に接続されたニューラルネットワーク(FCNN)、畳み込みニューラルネットワーク(CNN)、一般敵ネットワーク(GAN)など、さまざまなニューラルネットワークアーキテクチャを使用して実現されている。 しかし、これらのアプローチのほとんどは画像レベルの損失を考慮した最適化に取り組んでおり、ビームフォーミングのプロセスが学習されることを保証するために大量のデータセットが必要である。 本研究では、空間内の固定領域(例えば32x32)に対する遅延補償無線周波数(RF)パッチをU-Netアーキテクチャを通して変換し、DASアポッド化重みを乗じてパッチのMVDR画像と類似性に最適化するパッチレベルU-Netベースニューラルネットワークを提案する。 アポッド化重みを推定する回帰問題としてビームフォーミング問題をフレーミングする代わりに、提案手法は、ネットワークのパラメータにおけるMVDRアプローチによって行われるデータ駆動重み適応を考慮に入れた、RFデータ空間の非線形変換を扱う。 このようにして、パッチへの入力を制限することで、モデルが画像の非線形変換問題としてビームフォーミングパイプラインを学ぶことも観察される。

In the recent past, there have been several efforts in accelerating computationally heavy beamforming algorithms such as minimum variance distortionless response (MVDR) beamforming to achieve real-time performance comparable to the popular delay and sum (DAS) beamforming. This has been achieved using a variety of neural network architectures ranging from fully connected neural networks (FCNNs), convolutional neural networks (CNNs) and general adversarial networks (GANs). However most of these approaches are working with optimizations considering image level losses and hence require a significant amount of dataset to ensure that the process of beamforming is learned. In this work, a patch level U-Net based neural network is proposed, where the delay compensated radio frequency (RF) patch for a fixed region in space (e.g. 32x32) is transformed through a U-Net architecture and multiplied with DAS apodization weights and optimized for similarity with MVDR image of the patch. Instead of framing the beamforming problem as a regression problem to estimate the apodization weights, the proposed approach treats the non-linear transformation of the RF data space that can account for the data driven weight adaptation done by the MVDR approach in the parameters of the network. In this way, it is also observed that by restricting the input to a patch the model will learn the beamforming pipeline as an image non-linear transformation problem.
翻訳日:2021-10-22 18:25:08 公開日:2021-10-19
# 低複素行列完備問題に対する因子化アプローチ--スプリアス解の指数関数数と勾配法の故障

Factorization Approach for Low-complexity Matrix Completion Problems: Exponential Number of Spurious Solutions and Failure of Gradient Methods ( http://arxiv.org/abs/2110.10279v1 )

ライセンス: Link先を確認
Baturalp Yalcin, Haixiang Zhang, Javad Lavaei, Somayeh Sojoudi(参考訳) burer-monteiro(b-m)因子分解アプローチがrip条件下での低ランク行列最適化問題を効率的に解決できることはよく知られている。 B-M分解に基づく手法が、情報理論の複雑さの低い低ランク行列最適化問題、すなわちユニークな解法を持つ多項式時間可解問題で成功するかどうかを問うのは当然である。 本稿では、上記の質問に対する否定的な回答を提供する。 RIP条件のない低ランク行列最適化問題の最も一般的なサブクラスであるB-M因子化多項式時間可解行列完備化問題(MC)の展望について検討する。 指数関数的に多くの局所最小値を持つ多項式時間可解MC問題の例を構築し、ほとんどの勾配法が失敗する。 これらの結果に基づいて,b-m因子分解法に基づく低ランク行列最適化問題の可解性を測定する新しい複雑性指標を定義する。 さらに,基底真理行列のさらなる測定が景観を悪化させる可能性を示し,一般の低ランク行列最適化問題に対するb-m因子分解の不利な挙動を明らかにした。

It is well-known that the Burer-Monteiro (B-M) factorization approach can efficiently solve low-rank matrix optimization problems under the RIP condition. It is natural to ask whether B-M factorization-based methods can succeed on any low-rank matrix optimization problems with a low information-theoreti c complexity, i.e., polynomial-time solvable problems that have a unique solution. In this work, we provide a negative answer to the above question. We investigate the landscape of B-M factorized polynomial-time solvable matrix completion (MC) problems, which are the most popular subclass of low-rank matrix optimization problems without the RIP condition. We construct an instance of polynomial-time solvable MC problems with exponentially many spurious local minima, which leads to the failure of most gradient-based methods. Based on those results, we define a new complexity metric that potentially measures the solvability of low-rank matrix optimization problems based on the B-M factorization approach. In addition, we show that more measurements of the ground truth matrix can deteriorate the landscape, which further reveals the unfavorable behavior of the B-M factorization on general low-rank matrix optimization problems.
翻訳日:2021-10-22 18:24:41 公開日:2021-10-19
# スパイクニューラルネットワークの静的画像符号化のための適応サンプリングとエッジ検出手法

An Adaptive Sampling and Edge Detection Approach for Encoding Static Images for Spiking Neural Networks ( http://arxiv.org/abs/2110.10217v1 )

ライセンス: Link先を確認
Peyton Chandarana, Junlin Ou, Ramtin Zand(参考訳) 畳み込みニューラルネットワークを用いた画像分類の現在の手法は、レイテンシと消費電力の両方によって制約されることが多い。 これはデバイス、特に低消費電力エッジデバイスに制限を課し、これらの方法を利用することができる。 スパイキングニューラルネットワーク(SNN)は、生物学的神経通信プロセスからインスピレーションを得て、これらのレイテンシと電力制約に対処することを目的とした、第3世代の人工ニューラルネットワークであると考えられている。 しかし、画像などのデータがSNNに入力される前には、まずスパイク列車にエンコードする必要がある。 本稿では,エッジ検出を用いた時空スパイク列車に静的画像を符号化する手法と,SNNにおける適応信号サンプリング手法を提案する。 エッジ検出プロセスは、まず2次元静止画像上でキャニーエッジ検出を行い、次に画像信号変換法を用いてエッジ検出画像を2つのx信号およびy信号に変換する。 アダプティブ・シグナリングのアプローチは、信号が十分に細部を保ち、信号の突然の変化に敏感になるような信号をサンプリングする。 しきい値に基づく表現(TBR)やステップフォワード(SF)のような時間符号化機構は、サンプル信号のスパイク列車への変換に利用できる。 本稿では,画像符号化手法の効率と精度を最適化し,評価するために,様々な誤差・指標指標を用いる。 エッジ検出と適応時間符号化機構を用いて生成されたスパイク列からの信号と再構成信号の比較結果は,従来のsfおよびtbr符号化に比べて平均根平均二乗誤差(rmse)が18倍,7倍減少した。

Current state-of-the-art methods of image classification using convolutional neural networks are often constrained by both latency and power consumption. This places a limit on the devices, particularly low-power edge devices, that can employ these methods. Spiking neural networks (SNNs) are considered to be the third generation of artificial neural networks which aim to address these latency and power constraints by taking inspiration from biological neuronal communication processes. Before data such as images can be input into an SNN, however, they must be first encoded into spike trains. Herein, we propose a method for encoding static images into temporal spike trains using edge detection and an adaptive signal sampling method for use in SNNs. The edge detection process consists of first performing Canny edge detection on the 2D static images and then converting the edge detected images into two X and Y signals using an image-to-signal conversion method. The adaptive signaling approach consists of sampling the signals such that the signals maintain enough detail and are sensitive to abrupt changes in the signal. Temporal encoding mechanisms such as threshold-based representation (TBR) and step-forward (SF) are then able to be used to convert the sampled signals into spike trains. We use various error and indicator metrics to optimize and evaluate the efficiency and precision of the proposed image encoding approach. Comparison results between the original and reconstructed signals from spike trains generated using edge-detection and adaptive temporal encoding mechanism exhibit 18x and 7x reduction in average root mean square error (RMSE) compared to the conventional SF and TBR encoding, respectively, while used for encoding MNIST dataset.
翻訳日:2021-10-22 17:43:03 公開日:2021-10-19
# 平均が教えてくれないもの - シークエンシャルディープラーニングによる実生活のプロセス予測

What Averages Do Not Tell -- Predicting Real Life Processes with Sequential Deep Learning ( http://arxiv.org/abs/2110.10225v1 )

ライセンス: Link先を確認
Istv\'an Ketyk\'o, Felix Mannhardt, Marwan Hassani, Boudewijn van Dongen(参考訳) ディープラーニングは、自然言語、コンピュータビジョン、信号処理の成功によって示されているように、シーケンシャルデータのモデリングに有効なツールであることが証明されている。 プロセスマイニング(Process Mining)は、情報システムのサポートによってログされる実行データからビジネスプロセスに関する洞察を発見すること。 ログ化されたデータ(イベントログ)は、プロセスの実行に対応するイベントシーケンス(トレース)で構成されています。 多くのディープラーニング技術が、プロセスの結果、残り時間、次のイベント、さらには実行中のトレースのサフィックスを予測することを目的とした予測プロセスマイニングにうまく適応している。 プロセスマイニングの痕跡はマルチモーダルシーケンスであり、自然言語文や画像とは全く異なる構造である。 これは処理に異なるアプローチを必要とするかもしれない。 これまでのところ、これらの違いと導入される課題にはほとんど焦点が当てられていない。 suffix予測をこれらのタスクの最も難しい課題として捉えると、ディープラーニングモデルのパフォーマンスは、平均的な測定値と少数の実際のイベントログでのみ評価された。 論文間の比較は,前処理と評価戦略の違いから困難である。 関連する課題は、トレース長分布の歪度と実際のイベントログにおけるアクティビティ分布の歪度である。 7つの最先端シーケンシャルアーキテクチャのパフォーマンスを共通設定で比較可能なエンドツーエンドフレームワークを提供する。 結果から、より複雑なデータセットの大部分に対して、シーケンスモデリングには改善の余地がまだたくさんあることが分かる。 平均的な測定値だけでなく、すべてのプレフィックスに対して一貫したパフォーマンスを得るには、さらなる研究と洞察が必要です。

Deep Learning is proven to be an effective tool for modeling sequential data as shown by the success in Natural Language, Computer Vision and Signal Processing. Process Mining concerns discovering insights on business processes from their execution data that are logged by supporting information systems. The logged data (event log) is formed of event sequences (traces) that correspond to executions of a process. Many Deep Learning techniques have been successfully adapted for predictive Process Mining that aims to predict process outcomes, remaining time, the next event, or even the suffix of running traces. Traces in Process Mining are multimodal sequences and very differently structured than natural language sentences or images. This may require a different approach to processing. So far, there has been little focus on these differences and the challenges introduced. Looking at suffix prediction as the most challenging of these tasks, the performance of Deep Learning models was evaluated only on average measures and for a small number of real-life event logs. Comparing the results between papers is difficult due to different pre-processing and evaluation strategies. Challenges that may be relevant are the skewness of trace-length distribution and the skewness of the activity distribution in real-life event logs. We provide an end-to-end framework which enables to compare the performance of seven state-of-the-art sequential architectures in common settings. Results show that sequence modeling still has a lot of room for improvement for majority of the more complex datasets. Further research and insights are required to get consistent performance not just in average measures but additionally over all the prefixes.
翻訳日:2021-10-22 17:38:09 公開日:2021-10-19
# 神経確率偏微分方程式

Neural Stochastic Partial Differential Equations ( http://arxiv.org/abs/2110.10249v1 )

ライセンス: Link先を確認
Cristopher Salvi, Maud Lemercier(参考訳) 確率偏微分方程式(Stochastic partial differential equations、SPDE)は、ランダム性の影響を受ける系の複雑な時空間力学をモデル化するための数学的ツールである。 物理に着想を得たニューラルアーキテクチャの2つの重要なクラスの拡張を提供するニューラルSPDEモデルを導入する。 一方、通常の、制御された、確率的な、粗い、微分方程式のモデルを全て拡張し、後者が無限次元の状態空間で進化しても入ってくる情報を処理できる。 一方、ニューラル演算子(関数空間間のマッピングをモデル化するニューラルネットワークの最近の一般化)を拡張し、複雑なSPDEソリューション演算子$(u_0,\xi) \mapsto u$を初期条件$u_0$と確率論的強制項$\xi$で同時に学習するために使用できる。 ニューラルSPDEは実際の物理力学を尊重することを制約されており、従ってトレーニングするデータ量はわずかであり、非常に少ないパラメータに依存し、ニューラル演算子よりも優れた一般化特性を持つ。 加法と乗法ノイズ(確率ナビエ-ストークス方程式を含む)を持つ半線形spedの様々な実験を通じて、教師付き学習環境において神経spedが柔軟にどのように使用できるかを示し、また、条件付き生成モデルを用いて事前知識に基づくspedの解をサンプリングし、どちらのモデルよりも優れた性能を体系的に達成するかを実証する。

Stochastic partial differential equations (SPDEs) are the mathematical tool of choice to model complex spatio-temporal dynamics of systems subject to the influence of randomness. We introduce the Neural SPDE model providing an extension to two important classes of physics-inspired neural architectures. On the one hand, it extends all the popular neural -- ordinary, controlled, stochastic, rough -- differential equation models in that it is capable of processing incoming information even when the latter evolves in an infinite dimensional state space. On the other hand, it extends Neural Operators -- recent generalizations of neural networks modelling mappings between functional spaces -- in that it can be used to learn complex SPDE solution operators $(u_0,\xi) \mapsto u$ depending simultaneously on an initial condition $u_0$ and on a stochastic forcing term $\xi$, while remaining resolution-invariant and equation-agnostic. A Neural SPDE is constrained to respect real physical dynamics and consequently requires only a modest amount of data to train, depends on a significantly smaller amount of parameters and has better generalization properties compared to Neural Operators. Through various experiments on semilinear SPDEs with additive and multiplicative noise (including the stochastic Navier-Stokes equations) we demonstrate how Neural SPDEs can flexibly be used in a supervised learning setting as well as conditional generative models to sample solutions of SPDEs conditioned on prior knowledge, systematically achieving in both cases better performance than all alternative models.
翻訳日:2021-10-22 17:37:46 公開日:2021-10-19
# 自己組織化マップを用いたGANを用いたロバスト半監督分類

Robust Semi-Supervised Classification using GANs with Self-Organizing Maps ( http://arxiv.org/abs/2110.10286v1 )

ライセンス: Link先を確認
Ronald Fick, Paul Gader, Alina Zare(参考訳) GAN(Generative Adversarial Network)は,データ生成の学習と,半教師付き分類支援に有効であることを示す。 しかし、この点において、半教師付きgan法は、ラベルのないデータセットが興味のあるクラスの合同分布のサンプルのみを含むことを仮定している。 従って、アウトリアーと呼ばれる他の分布からのサンプルを提示すると、ganはサンプルで決定する資格がないと判断することができない。 分類精度を維持しながら異常値から外れ値を判別する問題は、ここではdoic問題と呼ぶ。 本研究では,自己組織化マップ(SOM)とSS-GANSを組み合わせたアーキテクチャを,DOIC問題を緩和する目的と,そのアーキテクチャが目標を達成することを示す実験結果について述べる。 ハイパースペクトル画像データセット上で複数の実験を行った。 SS-GANSは、SOMと非対応の分類問題において、監督されたGANSよりも若干優れていた。 SOMをSS-GANと監督されたGANSに組み込むことは、SOMを含まないSS-GANSやGANと比較して、DOICの問題を大幅に緩和する結果となった。 さらに, SS-GANSはSOMがなくても, DOIC問題においてGANSよりも優れた性能を示した。

Generative adversarial networks (GANs) have shown tremendous promise in learning to generate data and effective at aiding semi-supervised classification. However, to this point, semi-supervised GAN methods make the assumption that the unlabeled data set contains only samples of the joint distribution of the classes of interest, referred to as inliers. Consequently, when presented with a sample from other distributions, referred to as outliers, GANs perform poorly at determining that it is not qualified to make a decision on the sample. The problem of discriminating outliers from inliers while maintaining classification accuracy is referred to here as the DOIC problem. In this work, we describe an architecture that combines self-organizing maps (SOMs) with SS-GANS with the goal of mitigating the DOIC problem and experimental results indicating that the architecture achieves the goal. Multiple experiments were conducted on hyperspectral image data sets. The SS-GANS performed slightly better than supervised GANS on classification problems with and without the SOM. Incorporating the SOMs into the SS-GANs and the supervised GANS led to substantially mitigation of the DOIC problem when compared to SS-GANS and GANs without the SOMs. Furthermore, the SS-GANS performed much better than GANS on the DOIC problem, even without the SOMs.
翻訳日:2021-10-22 17:37:13 公開日:2021-10-19
# マルチヘッドマルチモーダル深層関心推薦ネットワーク

MultiHead MultiModal Deep Interest Recommendation Network ( http://arxiv.org/abs/2110.10205v1 )

ライセンス: Link先を確認
Mingbao Yang, ShaoBo Li, Zhou Peng, Ansi Zhang, Yuanmeng Zhang(参考訳) 情報技術の発展とともに、人間は常に大量の情報を常に生成している。 大量の情報からユーザが関心を持っている情報を取得する方法は、ユーザやビジネスマネージャにとっても大きな関心事となっている。 この問題を解決するために、従来の機械学習からディープラーニングレコメンデーションシステムまで、研究者は最適化モデルの改善とソリューションの探索を続けている。 研究者はレコメンデーションモデルネットワーク構造をより最適化しているため、レコメンデーションモデル機能の充実に関する研究は少なく、詳細なレコメンデーションモデル最適化の余地は残っている。 DIN\cite{Authors01} モデルに基づく本論文では,マルチヘッドおよびマルチモーダルモジュールを追加し,モデルが使用可能な機能セットを充実させると同時に,モデルのクロスコンビネーションと適合性を強化する。 実験により,マルチヘッドマルチモーダルdinは推奨予測効果を向上し,様々な包括的指標において現在の最先端手法を上回った。

With the development of information technology, human beings are constantly producing a large amount of information at all times. How to obtain the information that users are interested in from the large amount of information has become an issue of great concern to users and even business managers. In order to solve this problem, from traditional machine learning to deep learning recommendation systems, researchers continue to improve optimization models and explore solutions. Because researchers have optimized more on the recommendation model network structure, they have less research on enriching recommendation model features, and there is still room for in-depth recommendation model optimization. Based on the DIN\cite{Authors01} model, this paper adds multi-head and multi-modal modules, which enriches the feature sets that the model can use, and at the same time strengthens the cross-combination and fitting capabilities of the model. Experiments show that the multi-head multi-modal DIN improves the recommendation prediction effect, and outperforms current state-of-the-art methods on various comprehensive indicators.
翻訳日:2021-10-22 17:31:12 公開日:2021-10-19
# クロスサイズNGF:正規化勾配場を用いた画像ボリュームのFFTに基づくグローバル剛性多モードアライメント

Cross-Sim-NGF: FFT-Based Global Rigid Multimodal Alignment of Image Volumes using Normalized Gradient Fields ( http://arxiv.org/abs/2110.10156v1 )

ライセンス: Link先を確認
Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) マルチモーダル画像アライメントは、外観と構造によって異なるボリューム間の空間対応を見つけることを含む。 自動アライメント法はしばしば、初期化に非常に敏感な局所最適化に基づいている。 本稿では、周波数領域における正規化勾配場(NGF)の類似性を計算するための新しいアルゴリズムに基づいて、剛性多モード3次元画像アライメントのグローバル最適化手法を提案する。 本手法は、4つのモード(T1w, Flair, CT, [18F] FDG PET)で得られた20個の脳ボリュームからなるデータセットを用いて実験的に検証した。 提案手法は、6つの可能なモダリティの組み合わせすべてにおいて優れた性能を示し、4つの参照メソッドを大差で上回る。 この手法は高速であり、3.4Mvoxelの大域的剛性アライメントはおよそ40秒の計算を必要とする。 オープンソース実装が提供されている。

Multimodal image alignment involves finding spatial correspondences between volumes varying in appearance and structure. Automated alignment methods are often based on local optimization that can be highly sensitive to their initialization. We propose a global optimization method for rigid multimodal 3D image alignment, based on a novel efficient algorithm for computing similarity of normalized gradient fields (NGF) in the frequency domain. We validate the method experimentally on a dataset comprised of 20 brain volumes acquired in four modalities (T1w, Flair, CT, [18F] FDG PET), synthetically displaced with known transformations. The proposed method exhibits excellent performance on all six possible modality combinations, and outperforms all four reference methods by a large margin. The method is fast; a 3.4Mvoxel global rigid alignment requires approximately 40 seconds of computation, and the proposed algorithm outperforms a direct algorithm for the same task by more than three orders of magnitude. Open-source implementation is provided.
翻訳日:2021-10-22 17:28:38 公開日:2021-10-19
# ラフ集合を用いたストローク指標の同定

Identifying Stroke Indicators Using Rough Sets ( http://arxiv.org/abs/2110.10152v1 )

ライセンス: Link先を確認
Muhammad Salman Pathan, Jianbiao Zhang, Deepu John, Avishek Nag, and Soumyabrata Dev(参考訳) 脳卒中は死亡の2番目に多い原因と考えられている。 脳卒中による悪影響は、脳卒中の管理と診断を改善するための国際的関心と努力につながった。 データマイニングの様々な技術は、患者の電子医療記録(ehrs)に関連する危険因子に基づいて、脳卒中の発生を正確に予測するために世界中で用いられている。 特に、EHRは、通常、数千のフィーチャを含んでおり、そのほとんどは、予測精度を高めるために破棄される必要のある冗長で無関係である。 特徴選択手法の選択は、モデルの予測精度の向上と、アーカイブされた入力機能の効率的なデータ管理に役立つ。 本稿では,脳卒中検出のためのERHレコードの諸特徴を系統的に解析する。 そこで本研究では,脳卒中検出における各種EMHレコードの重要性をランキングする手法を提案する。 従来のラフセット手法とは異なり、提案手法はバイナリ特徴集合を含む任意のデータセットに適用できる。 提案法をehrの公開データセットで評価し, 年齢, 平均血糖値, 心臓病, 高血圧が脳卒中の検出に最も不可欠であると判断した。 さらに,提案手法を他の一般的な特徴選択手法とベンチマークした。 脳卒中検出における個々の特徴の重要性をランク付けする上で,最高の性能を得た。

Stroke is widely considered as the second most common cause of mortality. The adverse consequences of stroke have led to global interest and work for improving the management and diagnosis of stroke. Various techniques for data mining have been used globally for accurate prediction of occurrence of stroke based on the risk factors that are associated with the electronic health care records (EHRs) of the patients. In particular, EHRs routinely contain several thousands of features and most of them are redundant and irrelevant that need to be discarded to enhance the prediction accuracy. The choice of feature-selection methods can help in improving the prediction accuracy of the model and efficient data management of the archived input features. In this paper, we systematically analyze the various features in EHR records for the detection of stroke. We propose a novel rough-set based technique for ranking the importance of the various EHR records in detecting stroke. Unlike the conventional rough-set techniques, our proposed technique can be applied on any dataset that comprises binary feature sets. We evaluated our proposed method in a publicly available dataset of EHR, and concluded that age, average glucose level, heart disease, and hypertension were the most essential attributes for detecting stroke in patients. Furthermore, we benchmarked the proposed technique with other popular feature-selection techniques. We obtained the best performance in ranking the importance of individual features in detecting stroke.
翻訳日:2021-10-22 17:05:11 公開日:2021-10-19
# CoRaテンソルコンパイラ:最小パディング付きラグテンソルのコンパイル

The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal Padding ( http://arxiv.org/abs/2110.10221v1 )

ライセンス: Link先を確認
Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry(参考訳) ディープラーニングに使用される入力データの形状とサイズには、しばしばバリエーションがある。 多くの場合、そのようなデータは一様でない形を持つテンソルやぼろぼろのテンソルを使って表現することができる。 現在のディープラーニングフレームワークは、タグ付きテンソル上での効率的な実行を限定的かつ非可搬的にサポートしているため、データ形状を均一にするためにパディングやマスキングなどの技術を使い、高密度テンソル代数のために最適化されたカーネルに計算をオフロードする。 しかし、このようなテクニックは、多くの無駄な計算につながるため、パフォーマンスが低下する可能性がある。 本稿では,幅広いcpuとgpuを対象としたラギングテンソル演算子の効率的なコード生成を可能にするテンソルコンパイラcoraを提案する。 ロータテンソル上の様々な作用素およびトランスモデルのエンコーダ層上でのCoRaの評価により、CoRaが得られた。 (i)演算子と変換器エンコーダのハンド最適化実装と競合する性能 (ii)pytorchでは、nvidia gpu上のエンコーダの1.6倍のジオメアンスピードアップと、armcpu上のトランスフォーマーで使用されるマルチヘッドアテンションモジュールの1.26倍のジオメアンスピードアップを実現している。

There is often variation in the shape and size of input data used for deep learning. In many cases, such data can be represented using tensors with non-uniform shapes, or ragged tensors. Due to limited and non-portable support for efficient execution on ragged tensors, current deep learning frameworks generally use techniques such as padding and masking to make the data shapes uniform and then offload the computations to optimized kernels for dense tensor algebra. Such techniques can, however, lead to a lot of wasted computation and therefore, a loss in performance. This paper presents CoRa, a tensor compiler that allows users to easily generate efficient code for ragged tensor operators targeting a wide range of CPUs and GPUs. Evaluating CoRa on a variety of operators on ragged tensors as well as on an encoder layer of the transformer model, we find that CoRa (i)performs competitively with hand-optimized implementations of the operators and the transformer encoder and (ii) achieves, over PyTorch, a 1.6X geomean speedup for the encoder on an Nvidia GPU and a 1.86X geomean speedup for the multi-head attention module used in transformers on an ARM CPU.
翻訳日:2021-10-22 17:04:52 公開日:2021-10-19
# データからの学習等分散と部分等分散

Learning Equivariances and Partial Equivariances from Data ( http://arxiv.org/abs/2110.10211v1 )

ライセンス: Link先を確認
David W. Romero, Suhas Lohit(参考訳) 群同変畳み込みニューラルネットワーク(G-CNN)は、選択した対称性を尊重する特徴を制約し、これらの対称性がデータに現れるとより一般化する。 しかし、選択された対称性が存在しない場合、群同変アーキテクチャは過度に制約されたモデルにつながり、パフォーマンスが悪化する。 多くの場合、データの分布はグループ全体、例えば$[-90^{\circ}, 90^{\circ}]$の回転よりもグループの部分集合によって表現される。 そのような場合、同値を部分的に尊重するモデルはデータを表現するのに適している。 さらに、例えば、顔のエッジ方向やカメラに対する顔ポーズなど、低レベルおよび高レベルの特徴については、関連する対称性が異なる場合がある。 その結果、最適等分散のレベルは層ごとに異なる可能性がある。 本稿では,各層でデータから部分的かつ完全な等分散を学習できる同変ネットワークの族である部分的g-cnnsを導入する。 部分的なG-CNNは、例えば回転したMNISTに対して有益であればいつでも完全同値を保持するが、有害となる場合、例えば6~/〜9または自然画像分類のために制限することができる。 部分的なG-CNNは、完全同値が必要な場合、G-CNNと同等に動作し、それ以外は性能が向上する。 本手法は離散群,連続群,それらの組合せに適用できる。

Group equivariant Convolutional Neural Networks (G-CNNs) constrain features to respect the chosen symmetries, and lead to better generalization when these symmetries appear in the data. However, if the chosen symmetries are not present, group equivariant architectures lead to overly constrained models and worse performance. Frequently, the distribution of the data can be better represented by a subset of a group than by the group as a whole, e.g., rotations in $[-90^{\circ}, 90^{\circ}]$. In such cases, a model that respects equivariance partially is better suited to represent the data. Moreover, relevant symmetries may differ for low and high-level features, e.g., edge orientations in a face, and face poses relative to the camera. As a result, the optimal level of equivariance may differ per layer. In this work, we introduce Partial G-CNNs: a family of equivariant networks able to learn partial and full equivariances from data at every layer end-to-end. Partial G-CNNs retain full equivariance whenever beneficial, e.g., for rotated MNIST, but are able to restrict it whenever it becomes harmful, e.g., for 6~/~9 or natural image classification. Partial G-CNNs perform on par with G-CNNs when full equivariance is necessary, and outperform them otherwise. Our method is applicable to discrete groups, continuous groups and combinations thereof.
翻訳日:2021-10-22 16:38:00 公開日:2021-10-19
# 摂動ロバスト性によるテスト時間適応

Test time Adaptation through Perturbation Robustness ( http://arxiv.org/abs/2110.10232v1 )

ライセンス: Link先を確認
Prabhu Teja Sivaprasad, Fran\c{c}ois Fleuret(参考訳) いくつかの実世界のプロセスが生成するデータサンプルは自然に動的であり、その特性は時間によって異なる。 したがって、文学におけるトランスファー学習の手法のホストを用いて、トレーニングと推論の間のあらゆる分散シフトを訓練し、取り組めない。 本稿では,推論時間 \textit{i.e} におけるドメインシフトへの適応という問題に取り組む。トレーニングプロセスを変更するのではなく,テスト時にモデルを迅速に適用して任意のドメインシフトを処理する。 そこで本研究では,画像多様体上のテスト試料近傍でサンプリングされたデータの予測一貫性を強制する。 汚職処理(CIFAR-10-CとCIFAR-100-C)やドメイン適応(VisDA-C)といったテストシナリオにおいて,本手法は従来手法と同等あるいは著しく優れていた。

Data samples generated by several real world processes are dynamic in nature \textit{i.e.}, their characteristics vary with time. Thus it is not possible to train and tackle all possible distributional shifts between training and inference, using the host of transfer learning methods in literature. In this paper, we tackle this problem of adapting to domain shift at inference time \textit{i.e.}, we do not change the training process, but quickly adapt the model at test-time to handle any domain shift. For this, we propose to enforce consistency of predictions of data sampled in the vicinity of test sample on the image manifold. On a host of test scenarios like dealing with corruptions (CIFAR-10-C and CIFAR-100-C), and domain adaptation (VisDA-C), our method is at par or significantly outperforms previous methods.
翻訳日:2021-10-22 16:37:37 公開日:2021-10-19
# 現生の真理を示さない初期・季節作物型マッピング--トポロジー的アプローチによる歴史情報からラベルを生成する

Early- and in-season crop type mapping without current-year ground truth: generating labels from historical information via a topology-based approach ( http://arxiv.org/abs/2110.10275v1 )

ライセンス: Link先を確認
Chenxi Lin, Liheng Zhong, Xiao-Peng Song, Jinwei Dong, David B.Lobell, Zhenong Jin(参考訳) リモートセンシングにおける土地被覆分類は、しばしば限定的な地上真実の挑戦に直面している。 歴史的情報を組み込むことは、真理の収集に伴うコストを大幅に削減する可能性があり、さらに重要なのは、多くのプレハーベストト決定に役立つ早期およびシーズン内のマッピングを可能にすることである。 本研究では,スペクトル特徴空間(例えば,swir1とrdeg1バンドのヒストグラム)における異なる作物種のトポロジー(すなわち相対位置)に関する知識を効果的に伝達してラベルを生成し,異なる年で作物の分類を支援する新しい手法を提案する。 重要なのは,気候と管理の経年変化の影響を受けやすい分類決定境界を転送しようとするのではなく,より堅牢でシフト不変なトポロジ情報に依存することである。 米国中西部のトウモロコシ・豆類と中国北東部の米・トウモロコシ・豆類をランドサット-8とセンチネル-2データを用いてマッピングした。 その結果,各画像が利用可能になった直後,作物の良質なラベルを自動生成する手法が得られた。 提案手法から得られたこれらのラベルに基づいて, ランダム森林分類器を用いた作物型マッピングは, 早生期はトウモロコシの0.887点, 開花期は大豆の0.851点, アイオワ州では0.873点まで到達した。 中国北東部では、水稲、トウモロコシ、大豆のF1スコアと全体的な精度は収穫の2ヶ月半前に0.85を超える。 これらの結果は,歴史的知識の伝達と作物地図の時系列の最大化において,我々のアプローチの独特な利点を浮き彫りにしている。 本手法は,土地被覆分類を容易にするため,移動可能かつ一般化可能な知識を学習するためのパラダイムシフトを支援する。

Land cover classification in remote sensing is often faced with the challenge of limited ground truth. Incorporating historical information has the potential to significantly lower the expensive cost associated with collecting ground truth and, more importantly, enable early- and in-season mapping that is helpful to many pre-harvest decisions. In this study, we propose a new approach that can effectively transfer knowledge about the topology (i.e. relative position) of different crop types in the spectral feature space (e.g. the histogram of SWIR1 vs RDEG1 bands) to generate labels, thereby support crop classification in a different year. Importantly, our approach does not attempt to transfer classification decision boundaries that are susceptible to inter-annual variations of weather and management, but relies on the more robust and shift-invariant topology information. We tested this approach for mapping corn/soybeans in the US Midwest and paddy rice/corn/soybeans in Northeast China using Landsat-8 and Sentinel-2 data. Results show that our approach automatically generates high-quality labels for crops in the target year immediately after each image becomes available. Based on these generated labels from our approach, the subsequent crop type mapping using a random forest classifier reach the F1 score as high as 0.887 for corn as early as the silking stage and 0.851 for soybean as early as the flowering stage and the overall accuracy of 0.873 in Iowa. In Northeast China, F1 scores of paddy rice, corn and soybeans and the overall accuracy can exceed 0.85 two and half months ahead of harvest. Overall, these results highlight unique advantages of our approach in transferring historical knowledge and maximizing the timeliness of crop maps. Our approach supports a general paradigm shift towards learning transferrable and generalizable knowledge to facilitate land cover classification.
翻訳日:2021-10-22 16:37:20 公開日:2021-10-19
# 自己教師付きアンサンブルから富裕な隣接表現を学ぶ

Learning Rich Nearest Neighbor Representations from Self-supervised Ensembles ( http://arxiv.org/abs/2110.10293v1 )

ライセンス: Link先を確認
Bram Wallace, Devansh Arpit, Huan Wang, Caiming Xiong(参考訳) 自己超越による畳み込みニューラルネットワークの事前トレーニングと、それらをトランスファーラーニングに適用することは、事実上すべての画像ドメインのパフォーマンスを迅速かつ反復的に向上させる、信じられないほど急速に成長する分野である。 一方、model ensemblingは、教師付き学習文献と実践において最も広く適用可能なテクニックの1つであり、パフォーマンスを確実に改善するための簡単なソリューションを提供する。 しかし、自己教師付きモデルを最適に組み合わせて表現品質を最大化する方法は、ほとんど未適応のままである。 本研究では,推論時間における勾配降下から直接表現を学習する新しい手法により,自己教師型モデルアンサンブルを行うためのフレームワークを提供する。 このテクニックは、ドメイン内データセットと転送設定の両方において、k-nearestの隣人が測定した表現品質を改善し、前者設定から後者にモデルを転送可能にする。 さらに、バックプロパゲーションによるこの機能の直接的な学習は、単一のモデルからでも表現を改善する。

Pretraining convolutional neural networks via self-supervision, and applying them in transfer learning, is an incredibly fast-growing field that is rapidly and iteratively improving performance across practically all image domains. Meanwhile, model ensembling is one of the most universally applicable techniques in supervised learning literature and practice, offering a simple solution to reliably improve performance. But how to optimally combine self-supervised models to maximize representation quality has largely remained unaddressed. In this work, we provide a framework to perform self-supervised model ensembling via a novel method of learning representations directly through gradient descent at inference time. This technique improves representation quality, as measured by k-nearest neighbors, both on the in-domain dataset and in the transfer setting, with models transferable from the former setting to the latter. Additionally, this direct learning of feature through backpropagation improves representations from even a single model, echoing the improvements found in self-distillation.
翻訳日:2021-10-22 16:36:44 公開日:2021-10-19
# 運動量コントラストオートエンコーダ:waeにおける潜在空間分布マッチングのためのコントラスト学習

Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent Space Distribution Matching in WAE ( http://arxiv.org/abs/2110.10303v1 )

ライセンス: Link先を確認
Devansh Arpit, Aadyot, Bhatnagar, Huan Wang, Caiming Xiong(参考訳) Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示した。 この潜在空間分布マッチングはWAEのコアコンポーネントであり、課題である。 本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。 対照的な学習目的が、単位超球面上で一様となる潜在空間分布を最適化するという事実を利用して、容易にサンプル化できる。 コントラスト学習フレームワークを用いてwae損失を最適化することで、既存のwaeアルゴリズムと比較して、より高速に収束し、より安定した最適化を実現することを示す。 これはcelebaとcifar-10データセットのfidスコアやceleba-hqデータセットの現実的な画像品質にも反映されている。

Wasserstein autoencoder (WAE) shows that matching two distributions is equivalent to minimizing a simple autoencoder (AE) loss under the constraint that the latent space of this AE matches a pre-specified prior distribution. This latent space distribution matching is a core component of WAE, and a challenging task. In this paper, we propose to use the contrastive learning framework that has been shown to be effective for self-supervised representation learning, as a means to resolve this problem. We do so by exploiting the fact that contrastive learning objectives optimize the latent space distribution to be uniform over the unit hyper-sphere, which can be easily sampled from. We show that using the contrastive learning framework to optimize the WAE loss achieves faster convergence and more stable optimization compared with existing popular algorithms for WAE. This is also reflected in the FID scores on CelebA and CIFAR-10 datasets, and the realistic generated image quality on the CelebA-HQ dataset.
翻訳日:2021-10-22 16:36:26 公開日:2021-10-19
# 普及型計算のためのフェデレーション学習集約アルゴリズムの評価と比較

A Federated Learning Aggregation Algorithm for Pervasive Computing: Evaluation and Comparison ( http://arxiv.org/abs/2110.10223v1 )

ライセンス: Link先を確認
Sannara Ek, Fran\c{c}ois Portet, Philippe Lalanda, German Vega(参考訳) 広範コンピューティングは、サービス提供のために、リビングスペースに接続デバイスをインストールすることを促進する。 エッジリソースの高度な利用と、エンジニアリングアプリケーションのための機械学習技術の統合だ。 この進化は、特にエッジからクラウドへの連続体に沿ったコンピューティング要素の適切な分布に関連する大きな課題を提起する。 これに関して、Federated Learningは、エッジでの分散モデルトレーニングのために最近提案されている。 このアプローチの原則は、新しいより一般的なモデルを得るために、分散クライアントで学習したモデルを集約することです。 得られたモデルは、さらなるトレーニングのためにクライアントに再配布される。 現在最も人気のあるフェデレーション学習アルゴリズムは、アグリゲーションのためのモデルパラメータの座標的平均化を用いている。 しかし、この手法は、データが同一かつ独立に分散されていない異種環境には適用されないことが示されている。 これは、デバイスとユーザの異質性が一般化とパーソナライゼーションの二重目的によって機械学習に挑戦する、広範なコンピューティングシナリオと直接対応している。 本稿では,フェデストと呼ばれる新しい凝集アルゴリズムを提案する。このアルゴリズムは,クライアント間の特定のニューロン間の類似性を識別することで,そのモデルアーキテクチャ(ディープニューラルネットワーク)を変更することができる。 これにより、一般化を損なうことなく、クライアントの特異性を考慮できる。 さらに、一般化とパーソナライゼーションを考慮して、現実的な方法でフェデレーション学習を評価するための完全な方法を定義する。 この手法を用いてFedDistを広範にテストし、スマートフォンによるヒューマンアクティビティ認識の広範領域における最先端の3つのフェデレーション学習アルゴリズムと比較する。

Pervasive computing promotes the installation of connected devices in our living spaces in order to provide services. Two major developments have gained significant momentum recently: an advanced use of edge resources and the integration of machine learning techniques for engineering applications. This evolution raises major challenges, in particular related to the appropriate distribution of computing elements along an edge-to-cloud continuum. About this, Federated Learning has been recently proposed for distributed model training in the edge. The principle of this approach is to aggregate models learned on distributed clients in order to obtain a new, more general model. The resulting model is then redistributed to clients for further training. To date, the most popular federated learning algorithm uses coordinate-wise averaging of the model parameters for aggregation. However, it has been shown that this method is not adapted in heterogeneous environments where data is not identically and independently distributed (non-iid). This corresponds directly to some pervasive computing scenarios where heterogeneity of devices and users challenges machine learning with the double objective of generalization and personalization. In this paper, we propose a novel aggregation algorithm, termed FedDist, which is able to modify its model architecture (here, deep neural network) by identifying dissimilarities between specific neurons amongst the clients. This permits to account for clients' specificity without impairing generalization. Furthermore, we define a complete method to evaluate federated learning in a realistic way taking generalization and personalization into account. Using this method, FedDist is extensively tested and compared with three state-of-the-art federated learning algorithms on the pervasive domain of Human Activity Recognition with smartphones.
翻訳日:2021-10-22 16:29:26 公開日:2021-10-19
# ニューラルメディケーション抽出:教師付きおよび半教師付き学習環境における最近のモデルの比較

Neural Medication Extraction: A Comparison of Recent Models in Supervised and Semi-supervised Learning Settings ( http://arxiv.org/abs/2110.10213v1 )

ライセンス: Link先を確認
Ali Can Kocabiyikoglu, Fran\c{c}ois Portet, Raheel Qader, Jean-Marc Babouchkine(参考訳) 薬物処方は電子カルテにエンコードしなければならない必須情報である。 しかし、これらの情報の多くはフリーテキストレポートに隠されている。 そのため、薬品抽出作業が開始された。 これまでの研究はほとんどが少量のデータに焦点を合わせてきたが、最近になって深層学習の方法が検討されたばかりである。 本稿では,教師付きおよび半教師付き設定の両方において,i2b2医療処方抽出タスクにおける最先端のニューラルネットワークアーキテクチャの独立的かつ包括的評価を行う。 この研究は、タスク上の単純なDNNモデルの非常に競争力のある性能と、事前訓練されたモデルの高い関心を示す。 I2B2データセットに後者のモデルを適用することで、治療薬の抽出性能を最先端よりも上に押し上げることができる。 最後に、半教師技術は、ラベル付きデータが取得にコストがかかりすぎる場合、特に低リソース設定において、大量のラベル付きデータを活用することを約束していることも確認した。

Drug prescriptions are essential information that must be encoded in electronic medical records. However, much of this information is hidden within free-text reports. This is why the medication extraction task has emerged. To date, most of the research effort has focused on small amount of data and has only recently considered deep learning methods. In this paper, we present an independent and comprehensive evaluation of state-of-the-art neural architectures on the I2B2 medical prescription extraction task both in the supervised and semi-supervised settings. The study shows the very competitive performance of simple DNN models on the task as well as the high interest of pre-trained models. Adapting the latter models on the I2B2 dataset enables to push medication extraction performances above the state-of-the-art. Finally, the study also confirms that semi-supervised techniques are promising to leverage large amounts of unlabeled data in particular in low resource setting when labeled data is too costly to acquire.
翻訳日:2021-10-22 16:15:48 公開日:2021-10-19
# flip-hoisting: 離散確率プログラムにおける繰り返しパラメータの活用

flip-hoisting: Exploiting Repeated Parameters in Discrete Probabilistic Programs ( http://arxiv.org/abs/2110.10284v1 )

ライセンス: Link先を確認
Yu-Hsi Cheng, Todd Millstein, Guy Van den Broeck, Steven Holtzen(参考訳) 確率的プログラミングは確率的モデリングの一般的かつ効果的な方法として現れており、確率的グラフィカルモデルに代わるものである。 確率的プログラムは、グラフィカルモデルよりも確率的システムのモデリングにおいて、より表現力と柔軟性を提供するが、この柔軟性はコストがかかる。 本研究では,プログラム解析とそれに関連する最適化,フリップホスティングを提案し,離散確率プログラムにおける繰り返しパラメータを分解し,推論性能を向上させる。 flip-hoistingはパラメータ共有を一般化する - 離散グラフィカルモデルから確率的プログラムまで、よく知られた重要な最適化である。 既存の確率型プログラミング言語でフリップホスティングを実装し、確率型プログラムの性能と確率型グラフィカルモデルとのギャップを狭め、推論性能を著しく改善することを示す。

Probabilistic programming is emerging as a popular and effective means of probabilistic modeling and an alternative to probabilistic graphical models. Probabilistic programs provide greater expressivity and flexibility in modeling probabilistic systems than graphical models, but this flexibility comes at a cost: there remains a significant disparity in performance between specialized Bayesian network solvers and probabilistic program inference algorithms. In this work we present a program analysis and associated optimization, flip-hoisting, that collapses repetitious parameters in discrete probabilistic programs to improve inference performance. flip-hoisting generalizes parameter sharing - a well-known important optimization from discrete graphical models - to probabilistic programs. We implement flip-hoisting in an existing probabilistic programming language and show empirically that it significantly improves inference performance, narrowing the gap between the performances of probabilistic programs and probabilistic graphical models.
翻訳日:2021-10-22 16:10:06 公開日:2021-10-19
# クロスビュー画像変換のためのケースドクロスMLPミクサGAN

Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation ( http://arxiv.org/abs/2110.10183v1 )

ライセンス: Link先を確認
Bin Ren, Hao Tang, Nicu Sebe(参考訳) 単純なエンコーダデコーダやU-Net構造を直接採用する従来のクロスビュー画像変換手法では,特に大々的に異なるビューや厳しい変形の場合において,ターゲットビューで画像を生成することは困難である。 この問題を軽減するため,第1段階ではCrossMLP(CrossMLP)サブネットワーク,第2段では改良されたピクセルレベルの損失を持つ新しい2段階フレームワークを提案する。 最初の段階では、CrossMLPサブネットワークは、新しいCrossMLPブロックを介して、画像コードとセマンティックマップコードの間の潜時変換キューを学習する。 そして、これらの手がかりの指導の下、粗い結果が漸進的に生成される。 さらに,第2段階では,よりコンパクトな方法でより合理的な正規化を施し,よりノイズの多いセマンティックラベル問題を緩和する,改良されたピクセルレベルの損失を設計する。 Dayton~\cite{vo2016localizing} と CVUSA~\cite{workman2015wide} データセットの大規模な実験結果から,本手法は最先端の手法よりもはるかに優れた結果が得られることが示された。 ソースコードとトレーニングされたモデルはhttps://github.com/a mazingren/crossmlpで入手できる。

It is hard to generate an image at target view well for previous cross-view image translation methods that directly adopt a simple encoder-decoder or U-Net structure, especially for drastically different views and severe deformation cases. To ease this problem, we propose a novel two-stage framework with a new Cascaded Cross MLP-Mixer (CrossMLP) sub-network in the first stage and one refined pixel-level loss in the second stage. In the first stage, the CrossMLP sub-network learns the latent transformation cues between image code and semantic map code via our novel CrossMLP blocks. Then the coarse results are generated progressively under the guidance of those cues. Moreover, in the second stage, we design a refined pixel-level loss that eases the noisy semantic label problem with more reasonable regularization in a more compact fashion for better optimization. Extensive experimental results on Dayton~\cite{vo2016localizing} and CVUSA~\cite{workman2015wide} datasets show that our method can generate significantly better results than state-of-the-art methods. The source code and trained models are available at https://github.com/A mazingren/CrossMLP.
翻訳日:2021-10-22 16:09:05 公開日:2021-10-19
# また来る? 表現の理解における再クエリ

Come Again? Re-Query in Referring Expression Comprehension ( http://arxiv.org/abs/2110.10206v1 )

ライセンス: Link先を確認
Stephan J. Lemmer and Jason J. Corso(参考訳) 世界の共通認識を構築するために、人間は誤解を解決し、明確化を要請し受け入れる能力に頼っている。 しかし、視覚言語モデルを評価する際、精度などの指標は、一つの証拠に基づいて決定を下さなければならないという仮定を強制する。 本研究では,モデルが信頼度が低い場合に支援を求めることによって,表現理解を参照するタスクに対するこの仮定を緩和する。 マルチモーダル・リクェリ(マルチモーダル・リクェリ)では,ユーザがモデルに付加的な情報を提供するためにポイントやクリックを許されるが,リフレーズ・リクェリ(リクェリ)では,ユーザが参照表現を提供するのみを許される。 本稿では,すべてのオブジェクトに対して最高の参照表現を提供することで,最大21.9%の精度向上を実現し,この精度を初期参照表現の12%しか再クエリできないことを示す。 さらに,マルチモーダル・リプラーゼ・リクェリのリクエリ関数を3つの現代的なアプローチで評価し,リプラーゼ・リクェリ(rephrase re-query)を組み合わせることで,平均的なリクェリ性能を最大6.5%向上し,最大1.6%の単一クェリ性能に収束することを示した。

To build a shared perception of the world, humans rely on the ability to resolve misunderstandings by requesting and accepting clarifications. However, when evaluating visiolinguistic models, metrics such as accuracy enforce the assumption that a decision must be made based on a single piece of evidence. In this work, we relax this assumption for the task of referring expression comprehension by allowing the model to request help when its confidence is low. We consider two ways in which this help can be provided: multimodal re-query, where the user is allowed to point or click to provide additional information to the model, and rephrase re-query, where the user is only allowed to provide another referring expression. We demonstrate the importance of re-query by showing that providing the best referring expression for all objects can increase accuracy by up to 21.9% and that this accuracy can be matched by re-querying only 12% of initial referring expressions. We further evaluate re-query functions for both multimodal and rephrase re-query across three modern approaches and demonstrate combined replacement for rephrase re-query, which improves average single-query performance by up to 6.5% and converges to as close as 1.6% of the upper bound of single-query performance.
翻訳日:2021-10-22 16:08:42 公開日:2021-10-19
# NAS-HPO-Bench-II:畳み込みニューラルネットワークアーキテクチャとトレーニングハイパーパラメータの協調最適化に関するベンチマークデータセット

NAS-HPO-Bench-II: A Benchmark Dataset on Joint Optimization of Convolutional Neural Network Architecture and Training Hyperparameters ( http://arxiv.org/abs/2110.10165v1 )

ライセンス: Link先を確認
Yoichi Hirose, Nozomu Yoshinari, Shinichi Shirakawa(参考訳) ニューラルネットワーク探索のためのベンチマークデータセット(NAS)は、計算コストの高い評価プロセスを緩和し、公正な比較を保証するために開発された。 最近のNASベンチマークはアーキテクチャ最適化のみに焦点を当てているが、トレーニングハイパーパラメータは得られたモデル性能に影響を与える。 アーキテクチャの協調最適化とトレーニングハイパーパラメータのためのベンチマークデータセットの構築は、nas研究に不可欠である。 既存のNAS-HPO-Benchは共同最適化のベンチマークであるが、現在のNASアルゴリズムのようにネットワーク接続設計を考慮していない。 本稿ではNAS-HPO-Bench-IIと呼ぶ,ネットワーク接続の協調最適化とハイパーパラメータのトレーニングのためのベンチマークデータセットを提案する。 学習速度とバッチサイズ設定の異なるcifar-10データセットでトレーニングされた4kセル型畳み込みニューラルネットワークアーキテクチャのパフォーマンスデータを収集し,192k構成のデータを得る。 データセットには、12エポックトレーニングの正確なデータが含まれている。 さらに,200エポックトレーニング後の精度を予測するサロゲートモデルを構築し,より長いトレーニングエポックのパフォーマンスデータを提供する。 NAS-HPO-Bench-IIを解析することにより、アーキテクチャとトレーニングハイパーパラメータの依存性と共同最適化の必要性を確認する。 最後に,NAS-HPO-Bench-IIを用いたベースライン最適化アルゴリズムのベンチマークを行った。

The benchmark datasets for neural architecture search (NAS) have been developed to alleviate the computationally expensive evaluation process and ensure a fair comparison. Recent NAS benchmarks only focus on architecture optimization, although the training hyperparameters affect the obtained model performances. Building the benchmark dataset for joint optimization of architecture and training hyperparameters is essential to further NAS research. The existing NAS-HPO-Bench is a benchmark for joint optimization, but it does not consider the network connectivity design as done in modern NAS algorithms. This paper introduces the first benchmark dataset for joint optimization of network connections and training hyperparameters, which we call NAS-HPO-Bench-II. We collect the performance data of 4K cell-based convolutional neural network architectures trained on the CIFAR-10 dataset with different learning rate and batch size settings, resulting in the data of 192K configurations. The dataset includes the exact data for 12 epoch training. We further build the surrogate model predicting the accuracies after 200 epoch training to provide the performance data of longer training epoch. By analyzing NAS-HPO-Bench-II, we confirm the dependency between architecture and training hyperparameters and the necessity of joint optimization. Finally, we demonstrate the benchmarking of the baseline optimization algorithms using NAS-HPO-Bench-II.
翻訳日:2021-10-22 14:38:57 公開日:2021-10-19
# キーポイント推定タスクの座標復号について

On Coordinate Decoding for Keypoint Estimation Tasks ( http://arxiv.org/abs/2110.10289v1 )

ライセンス: Link先を確認
Anargyros Chatzitofis, Nikolaos Zioulis, Georgios Nikolaos Albanis, Dimitrios Zarpalas, Petros Daras(参考訳) 一連の2d(および3d)キーポイント推定タスクは、ヒートマップ座標表現、すなわち、グリッド上のキーポイント座標を学習可能かつ空間的に認識し、かつサブピクセルの座標精度を許容する確率マップに基づいて構築される。 本稿では,DARKによる2次元熱マップ表現の再現を目標とし,地中真熱マップの符号化の重要性と,予測熱マップのキーポイント座標への復号の重要性を強調した。 作者はそう主張する a) 文献で広く使用されている標準技術の限界を克服する、より原則化された分散対応座標復号法 b) 入力画像グリッドの解像度でキーポイント座標を定量化する標準座標符号化プロセスとは対照的に,高精度かつ連続的なヒートマップ分布の生成による地対地座標からのヒートマップの再構成が偏りのないモデルトレーニングにつながること。

A series of 2D (and 3D) keypoint estimation tasks are built upon heatmap coordinate representation, i.e. a probability map that allows for learnable and spatially aware encoding and decoding of keypoint coordinates on grids, even allowing for sub-pixel coordinate accuracy. In this report, we aim to reproduce the findings of DARK that investigated the 2D heatmap representation by highlighting the importance of the encoding of the ground truth heatmap and the decoding of the predicted heatmap to keypoint coordinates. The authors claim that a) a more principled distribution-aware coordinate decoding method overcomes the limitations of the standard techniques widely used in the literature, and b), that the reconstruction of heatmaps from ground-truth coordinates by generating accurate and continuous heatmap distributions lead to unbiased model training, contrary to the standard coordinate encoding process that quantizes the keypoint coordinates on the resolution of the input image grid.
翻訳日:2021-10-22 13:56:26 公開日:2021-10-19
# 多概念対立攻撃

Multi-concept adversarial attacks ( http://arxiv.org/abs/2110.10287v1 )

ライセンス: Link先を確認
Vibha Belavadi, Yan Zhou, Murat Kantarcioglu, Bhavani M. Thuraisingham(参考訳) 多くのアプリケーションで機械学習(ML)技術がますます使われているため、敵攻撃に対する脆弱性はよく知られている。 テストインスタンスに対向ノイズを追加することで起動されるテスト時間攻撃は、デプロイされたMLモデルに対して有効であることが示されている。 実際には、1つのテスト入力は異なるMLモデルによって利用することができる。 単一のMLモデルをターゲットにしたテストタイムアタックは、他のMLモデルへの影響を無視することが多い。 本研究は,ある概念を学習することで,他概念を学習するために訓練された分類器に悪影響を及ぼす可能性があることを実証的に示す。 例えば、オンライン画像分類シナリオでは、性別分類器が攻撃されている場合、(着用)眼鏡分類器が98.69から88.42に精度が低下して同時に攻撃される。 同じテストインスタンスを使用する他のセットに影響を与えることなく、ひとつの分類器を攻撃することは可能ですか? 上記の研究に対する回答は、MLモデルの誤用に対するプライバシー保護に興味深い意味を持っている。 プライバシー侵害の不要なリスクをもたらすmlモデルへの攻撃は、個人を有害なプライバシー侵害から守るための重要なツールとなる。 本稿では,一方のMLモデルの精度を維持しつつ,一方のMLモデルの同時攻撃が可能な新たな攻撃手法を開発することにより,上記の研究課題に対処する。 線形分類器の場合、そのような逆例を生成する最適解を見つけるための理論的枠組みを提供する。 この理論的枠組みを用いて,深層学習における多概念攻撃戦略を開発する。 提案手法は,既存のテスト時アタック・シングル戦略では不可能な,多くの異なる設定で保護されたクラスを保護しながら,ターゲットクラスを攻撃できることを示す。

As machine learning (ML) techniques are being increasingly used in many applications, their vulnerability to adversarial attacks becomes well-known. Test time attacks, usually launched by adding adversarial noise to test instances, have been shown effective against the deployed ML models. In practice, one test input may be leveraged by different ML models. Test time attacks targeting a single ML model often neglect their impact on other ML models. In this work, we empirically demonstrate that naively attacking the classifier learning one concept may negatively impact classifiers trained to learn other concepts. For example, for the online image classification scenario, when the Gender classifier is under attack, the (wearing) Glasses classifier is simultaneously attacked with the accuracy dropped from 98.69 to 88.42. This raises an interesting question: is it possible to attack one set of classifiers without impacting the other set that uses the same test instance? Answers to the above research question have interesting implications for protecting privacy against ML model misuse. Attacking ML models that pose unnecessary risks of privacy invasion can be an important tool for protecting individuals from harmful privacy exploitation. In this paper, we address the above research question by developing novel attack techniques that can simultaneously attack one set of ML models while preserving the accuracy of the other. In the case of linear classifiers, we provide a theoretical framework for finding an optimal solution to generate such adversarial examples. Using this theoretical framework, we develop a multi-concept attack strategy in the context of deep learning. Our results demonstrate that our techniques can successfully attack the target classes while protecting the protected classes in many different settings, which is not possible with the existing test-time attack-single strategies.
翻訳日:2021-10-22 13:53:20 公開日:2021-10-19
# StructFormer:新しい物体の言語誘導セマンティック再構成のための空間構造学習

StructFormer: Learning Spatial Structure for Language-Guided Semantic Rearrangement of Novel Objects ( http://arxiv.org/abs/2110.10189v1 )

ライセンス: Link先を確認
Weiyu Liu, Chris Paxton, Tucker Hermans, Dieter Fox(参考訳) 意味的に意味のあるアレンジメントへのオブジェクトの幾何学的組織化は、構築された世界に広がります。 そのため、倉庫、オフィス、家庭で動く補助ロボットは、これらの意味論的意味のある構造にオブジェクトを認識し、再配置する能力から大きな恩恵を受けるだろう。 有用にするためには、これらのロボットは未確認のオブジェクトと競合し、重要なプログラミングなしに命令を受け取る必要がある。 以前の研究では、ペアワイズな意味関係の認識とシーケンシャルな操作による単純な関係の変更を検討したが、オブジェクトを円やテーブルの設定のような複雑な構造に配置する能力は示されていない。 この問題に対処するため,新しいトランスフォーマーベースニューラルネットワークであるStructFormerを提案し,現在のオブジェクト配置の部分ビューポイントクラウドと,所望のオブジェクト構成を符号化する構造化言語コマンドを入力とする。 我々は、structformerが、言語コマンドから推測される多目的関係制約により、新しいオブジェクトを意味的に意味のある構造に再構成できることを厳密な実験を通して示す。

Geometric organization of objects into semantically meaningful arrangements pervades the built world. As such, assistive robots operating in warehouses, offices, and homes would greatly benefit from the ability to recognize and rearrange objects into these semantically meaningful structures. To be useful, these robots must contend with previously unseen objects and receive instructions without significant programming. While previous works have examined recognizing pairwise semantic relations and sequential manipulation to change these simple relations none have shown the ability to arrange objects into complex structures such as circles or table settings. To address this problem we propose a novel transformer-based neural network, StructFormer, which takes as input a partial-view point cloud of the current object arrangement and a structured language command encoding the desired object configuration. We show through rigorous experiments that StructFormer enables a physical robot to rearrange novel objects into semantically meaningful structures with multi-object relational constraints inferred from the language command.
翻訳日:2021-10-22 13:36:13 公開日:2021-10-19
# ノイズロバストクラスタリング

Noise-robust Clustering ( http://arxiv.org/abs/2110.08871v2 )

ライセンス: Link先を確認
Rahmat Adesunkanmi, Ratnesh Kumar(参考訳) 本稿では,教師なし機械学習におけるノイズロバストクラスタリング手法を提案する。 ノイズや一貫性、その他の曖昧さに関する不確実性は、データ分析において深刻な障害となる可能性がある。 その結果、ビッグデータを扱う場合、データ品質、クリーニング、管理、ガバナンスは重要な規律のままである。 この複雑さにより、古典的な設定のように決定論的にデータを扱うのに十分ではなく、ノイズ分布とデータサンプル値への影響を考慮することが意味を持つようになった。 古典的なクラスタリング手法は、データをその相対距離や基礎空間の類似度に応じて「類似クラス」に分類する。 本稿では,古典的な$K$-meansと$K$-medoidsを拡張して,(生データではなく)データ分散をクラスタリングすることでこの問題に対処する。 これには、最適質量輸送(ワッサーシュタイン距離、$W_2$とも表記される)と、確率変数距離(EDと表記される)の期待値である新しい距離測度という2種類の測度を用いて分布間の距離を測定することが含まれる。 提示された分散ベースの$k$-meansと$k$-medoidsアルゴリズムは、まずデータ分布をクラスタ化し、次に各生データをデータの分散クラスタに割り当てる。

This paper presents noise-robust clustering techniques in unsupervised machine learning. The uncertainty about the noise, consistency, and other ambiguities can become severe obstacles in data analytics. As a result, data quality, cleansing, management, and governance remain critical disciplines when working with Big Data. With this complexity, it is no longer sufficient to treat data deterministically as in a classical setting, and it becomes meaningful to account for noise distribution and its impact on data sample values. Classical clustering methods group data into "similarity classes" depending on their relative distances or similarities in the underlying space. This paper addressed this problem via the extension of classical $K$-means and $K$-medoids clustering over data distributions (rather than the raw data). This involves measuring distances among distributions using two types of measures: the optimal mass transport (also called Wasserstein distance, denoted $W_2$) and a novel distance measure proposed in this paper, the expected value of random variable distance (denoted ED). The presented distribution-based $K$-means and $K$-medoids algorithms cluster the data distributions first and then assign each raw data to the cluster of data's distribution.
翻訳日:2021-10-22 11:42:11 公開日:2021-10-19
# (参考訳) 知識蒸留を用いた変圧器のマルチモーダルから一様注意へ [全文訳有]

From Multimodal to Unimodal Attention in Transformers using Knowledge Distillation ( http://arxiv.org/abs/2110.08270v2 )

ライセンス: CC BY 4.0
Dhruv Agarwal, Tanay Agrawal, Laura M. Ferrari, Fran\c{c}ois Bremond(参考訳) マルチモーダルディープラーニングは多くの関心を集めており、トランスフォーマーはクロスアテンションメカニズムのおかげで新しいアプローチを生み出している。 本稿では,高計算資源要求と欠落モダリティ問題という,既存の2つの課題に対処する手法を提案する。 本稿では, 変圧器における知識蒸留の概念を初めて導入し, 推論時に1つのモダリティのみを使用する。 本報告では,複数の学生・教員構成,蒸留が適用されるレベル,および異なる方法について検討した。 最適構成により、最先端の精度を3%向上し、パラメータの数を2.5倍、推論時間を22%削減した。 このような性能計算のトレードオフは多くのアプリケーションで利用でき、限られたリソースを持つ複雑なモデルの展開が要求される新しい研究領域を開くことを目指している。

Multimodal Deep Learning has garnered much interest, and transformers have triggered novel approaches, thanks to the cross-attention mechanism. Here we propose an approach to deal with two key existing challenges: the high computational resource demanded and the issue of missing modalities. We introduce for the first time the concept of knowledge distillation in transformers to use only one modality at inference time. We report a full study analyzing multiple student-teacher configurations, levels at which distillation is applied, and different methodologies. With the best configuration, we improved the state-of-the-art accuracy by 3%, we reduced the number of parameters by 2.5 times and the inference time by 22%. Such performance-computat ion tradeoff can be exploited in many applications and we aim at opening a new research area where the deployment of complex models with limited resources is demanded.
翻訳日:2021-10-22 03:50:33 公開日:2021-10-19
# (参考訳) オンラインターゲットq-learning with reverse experience replay: 線形mdpのための最適ポリシーの探索

Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs ( http://arxiv.org/abs/2110.08440v2 )

ライセンス: CC BY 4.0
Naman Agarwal, Syomantak Chaudhuri, Prateek Jain, Dheeraj Nagaraj, Praneeth Netrapalli(参考訳) Q-learningは一般的な強化学習(RL)アルゴリズムで、関数近似(Mnih et al., 2015)で広く使われている。 対照的に、既存の理論的結果はQ学習に関する悲観的である。 例えば (Baird, 1995) は、線形 MDP に対する線形関数近似でさえ Q-ラーニングは収束しないことを示した。 さらに,同期更新を施した表型MDPであっても,Qラーニングは準最適サンプルの複雑性が認められた(Li et al., 2021;Azar et al., 2013)。 本研究の目的は,q-learningの実践的成功と比較的悲観的な理論結果とのギャップを埋めることである。 私たちの研究の出発点は、実際、q-learningは2つの重要な変更で使われているという観察です。 (i)オンラインネットワークとターゲットネットワーク(online target learning, otl)と呼ばれる2つのネットワークによるトレーニング、及び (II)エクスペリエンス・リプレイ(ER) (Mnih et al., 2015)。 Q-ラーニングの実践的成功に重要な役割を果たすことが観察されているが、これらの2つの修正がQ-ラーニングの収束挙動をどのように改善するかについての理論的理解は文献に欠落している。 OTLと逆体験再生(RER)を慎重に組み合わせることで、新しいQ-Rex法とQ-RexDaRe(Q-Rex + データ再利用)を提案する。 Q-Rex は線形 MDP に対して,線形近似(ZIBEL) によるゼロ固有なベルマン誤差を持つ MDP に対して,より効率的に最適条件を導出し,サンプルの複雑性を非漸近的に制限することを示し,これは標準仮定の下での MDP のクラスに対するQ-ラーニング手法における最初の結果である。 さらに,q-rexdareは表式設定においてほぼ最適のサンプル複雑性を達成し,既往の結果を改良できることを実証した。

Q-learning is a popular Reinforcement Learning (RL) algorithm which is widely used in practice with function approximation (Mnih et al., 2015). In contrast, existing theoretical results are pessimistic about Q-learning. For example, (Baird, 1995) shows that Q-learning does not converge even with linear function approximation for linear MDPs. Furthermore, even for tabular MDPs with synchronous updates, Q-learning was shown to have sub-optimal sample complexity (Li et al., 2021;Azar et al., 2013). The goal of this work is to bridge the gap between practical success of Q-learning and the relatively pessimistic theoretical results. The starting point of our work is the observation that in practice, Q-learning is used with two important modifications: (i) training with two networks, called online network and target network simultaneously (online target learning, or OTL) , and (ii) experience replay (ER) (Mnih et al., 2015). While they have been observed to play a significant role in the practical success of Q-learning, a thorough theoretical understanding of how these two modifications improve the convergence behavior of Q-learning has been missing in literature. By carefully combining Q-learning with OTL and reverse experience replay (RER) (a form of experience replay), we present novel methods Q-Rex and Q-RexDaRe (Q-Rex + data reuse). We show that Q-Rex efficiently finds the optimal policy for linear MDPs (or more generally for MDPs with zero inherent Bellman error with linear approximation (ZIBEL)) and provide non-asymptotic bounds on sample complexity -- the first such result for a Q-learning method for this class of MDPs under standard assumptions. Furthermore, we demonstrate that Q-RexDaRe in fact achieves near optimal sample complexity in the tabular setting, improving upon the existing results for vanilla Q-learning.
翻訳日:2021-10-21 18:44:23 公開日:2021-10-19
# (参考訳) 字幕上への高速投射とバイオインフォマティクスのスパース回帰への応用 [全文訳有]

Fast Projection onto the Capped Simplex withApplications to Sparse Regression in Bioinformatics ( http://arxiv.org/abs/2110.08471v2 )

ライセンス: CC BY 4.0
Andersen Ang, Jianzhu Ma, Nianjun Liu, Kun Huang, Yijie Wang(参考訳) ベクトルを、超平面によって切断された超キューブであるいわゆる k-キャッピング・シンプレックスに投影する問題を考える。 有界要素を持つn次元入力ベクトルに対して,ニュートン法に基づく単純なアルゴリズムは,従来のソートベース手法に比べて計算コストがはるかに低いo(n)前後の複雑性で,高い精度で投影問題を解くことができることがわかった。 我々は,その方法の部分的説明と正当化の理論を提供する。 提案アルゴリズムは,大規模データセット上で高い精度でプロジェクション問題の解を生成できることを示すとともに,実行時(100万変数以上の入力ベクトルのCPU時間に対して,商用ソフトウェアよりも約6~8倍高速)で最先端の手法を大幅に上回っていることを示す。 さらに,バイオインフォマティクス問題における疎回帰問題に対する提案アルゴリズムの有効性について述べる。 gwasデータセット(シングルヌクレオチド多型1,500,000)の実証結果から,提案手法を用いて投影型準ニュートン法(pqn)を高速化した場合,pqnアルゴリズムは大規模回帰問題に対処でき,現在の手法よりも効率的(約3~6倍高速)であることが示された。

We consider the problem of projecting a vector onto the so-called k-capped simplex, which is a hyper-cube cut by a hyperplane. For an n-dimensional input vector with bounded elements, we found that a simple algorithm based on Newton's method is able to solve the projection problem to high precision with a complexity roughly about O(n), which has a much lower computational cost compared with the existing sorting-based methods proposed in the literature. We provide a theory for partial explanation and justification of the method. We demonstrate that the proposed algorithm can produce a solution of the projection problem with high precision on large scale datasets, and the algorithm is able to significantly outperform the state-of-the-art methods in terms of runtime (about 6-8 times faster than a commercial software with respect to CPU time for input vector with 1 million variables or more). We further illustrate the effectiveness of the proposed algorithm on solving sparse regression in a bioinformatics problem. Empirical results on the GWAS dataset (with 1,500,000 single-nucleotide polymorphisms) show that, when using the proposed method to accelerate the Projected Quasi-Newton (PQN) method, the accelerated PQN algorithm is able to handle huge-scale regression problem and it is more efficient (about 3-6 times faster) than the current state-of-the-art methods.
翻訳日:2021-10-21 17:25:57 公開日:2021-10-19
# (参考訳) ノイズNona-Bayer再建に対する逆向き空間非対称注意法 [全文訳有]

SAGAN: Adversarial Spatial-asymmetric Attention for Noisy Nona-Bayer Reconstruction ( http://arxiv.org/abs/2110.08619v2 )

ライセンス: CC BY 4.0
S M A Sharif, Rizwan Ali Naqvi, Mithun Biswas(参考訳) Nona-Bayer Color Filter Array (CFA) パターンは、伝統的なベイアパターンの最も有効な代替品の1つである。 このような非Bayer CFAパターンは、大きな利点にもかかわらず、ノイズの多いセンサデータからRGBイメージを再構成しながら視覚的アーチファクトを生成することができる。 本研究では,ノイズの多いnona-bayer cfaからrgb画像再構成の課題を包括的に解決する。 両方向変換と大カーネルグローバルアテンションを共同で学習し,視覚的アーチファクトを減らすための空間非対称アテンションモジュールを提案する。 提案モジュールと逆学習を組み合わせることで,Nona-Bayer CFAから可視画像を生成する。 提案手法の有効性を検証し,最新の画像再構成法と比較した。 実験の結果,提案手法はノイズの多いNona-Bayer CFAからRGB画像を再構成できることがわかった。 また, 質的, 定量的に比較すれば, 最先端画像再構成法を上回ることができる。 コード:https://github.com/ sharif-apu/SAGAN_BMV C21。

Nona-Bayer colour filter array (CFA) pattern is considered one of the most viable alternatives to traditional Bayer patterns. Despite the substantial advantages, such non-Bayer CFA patterns are susceptible to produce visual artefacts while reconstructing RGB images from noisy sensor data. This study addresses the challenges of learning RGB image reconstruction from noisy Nona-Bayer CFA comprehensively. We propose a novel spatial-asymmetric attention module to jointly learn bi-direction transformation and large-kernel global attention to reduce the visual artefacts. We combine our proposed module with adversarial learning to produce plausible images from Nona-Bayer CFA. The feasibility of the proposed method has been verified and compared with the state-of-the-art image reconstruction method. The experiments reveal that the proposed method can reconstruct RGB images from noisy Nona-Bayer CFA without producing any visually disturbing artefacts. Also, it can outperform the state-of-the-art image reconstruction method in both qualitative and quantitative comparison. Code available: https://github.com/s harif-apu/SAGAN_BMVC 21.
翻訳日:2021-10-21 10:58:52 公開日:2021-10-19
# (参考訳) NeuralArTS: 型理論によるニューラルネットワーク検索の構造化 [全文訳有]

NeuralArTS: Structuring Neural Architecture Search with Type Theory ( http://arxiv.org/abs/2110.08710v2 )

ライセンス: CC BY 4.0
Robert Wu, Nayan Saxena, Rohan Jain(参考訳) neural architecture search (nas)アルゴリズムは、可能な操作の最初の検索空間から最適なディープラーニングアーキテクチャを見つけるタスクを自動化する。 これらの検索空間の開発は、通常、スクラッチから検索するよりも、事前最適化された検索空間の方が効率的である手作業による作業である。 本稿では,ニューラルネットワーク型システム(NeuralArTS)と呼ばれる,構造化型システムにおけるネットワーク操作の無限集合を分類するフレームワークを提案する。 我々はさらに,NeuralArTSを畳み込み層に適用し,今後の方向性を提案する。

Neural Architecture Search (NAS) algorithms automate the task of finding optimal deep learning architectures given an initial search space of possible operations. Developing these search spaces is usually a manual affair with pre-optimized search spaces being more efficient, rather than searching from scratch. In this paper we present a new framework called Neural Architecture Type System (NeuralArTS) that categorizes the infinite set of network operations in a structured type system. We further demonstrate how NeuralArTS can be applied to convolutional layers and propose several future directions.
翻訳日:2021-10-21 08:26:47 公開日:2021-10-19
# (参考訳) 複数のパーティにまたがるデータ間の非線形相関のプライベート測定 [全文訳有]

Private measurement of nonlinear correlations between data hosted across multiple parties ( http://arxiv.org/abs/2110.09670v1 )

ライセンス: CC BY 4.0
Praneeth Vepakomma, Subha Nawer Pushpita, Ramesh Raskar(参考訳) 2つのエンティティにまたがる機密データ間の非線形相関を計測する微分プライベート手法を提案する。 個人的推定器の公益保証を提供する。 非線形相関のそのようなプライベートな推定器は、マルチパーティの設定において、私たちの知識の最高のものとなる。 非線形相関の重要な尺度は距離相関である。 この研究は、プライベート機能スクリーニング、プライベート独立テスト、プライベートkサンプルテスト、プライベートマルチパーティ因果推論、プライベートデータ合成、探索データ分析への直接的な応用がある。 コードアクセス: コードにパブリックアクセスするためのリンクは、補足ファイルで提供される。

We introduce a differentially private method to measure nonlinear correlations between sensitive data hosted across two entities. We provide utility guarantees of our private estimator. Ours is the first such private estimator of nonlinear correlations, to the best of our knowledge within a multi-party setup. The important measure of nonlinear correlation we consider is distance correlation. This work has direct applications to private feature screening, private independence testing, private k-sample tests, private multi-party causal inference and private data synthesis in addition to exploratory data analysis. Code access: A link to publicly access the code is provided in the supplementary file.
翻訳日:2021-10-21 01:39:36 公開日:2021-10-19
# (参考訳) 適応蒸留:効率的な蒸留のための複数経路からの知識の集約 [全文訳有]

Adaptive Distillation: Aggregating Knowledge from Multiple Paths for Efficient Distillation ( http://arxiv.org/abs/2110.09674v1 )

ライセンス: CC BY 4.0
Sumanth Chennupati, Mohammad Mahdi Kamani, Zhongwei Cheng, Lin Chen(参考訳) ニューラルネットワーク圧縮アルゴリズムでは,より大規模な教師モデルからの指導により,より小さな学生モデルの一般化性能を向上させるため,知識蒸留が主要なトレンドとなっている。 知識蒸留の応用のこの瞬間的な増加は、ソフトターゲットやヒント層などの知識を蒸留するための多数のアルゴリズムの導入に伴う。 このような知識の蒸留技術の発展にもかかわらず、蒸留のための異なる経路の集約は包括的に研究されていない。 これは特に重要なことであり、異なる経路が異なる重要性を持つだけでなく、ある経路が学生モデルの一般化性能に悪影響を及ぼすという事実によってもたらされる。 したがって,蒸留が学生モデルに与える影響を最大化するために,各経路の重要性を適応的に調整する必要がある。 本稿では,これらの経路を集約するための異なるアプローチを検討し,マルチタスク学習法に基づく適応的アプローチを提案する。 分類,意味セグメンテーション,オブジェクト検出タスクにおける知識蒸留の応用において,提案手法が他のベースラインよりも有効であることを実証的に示す。

Knowledge Distillation is becoming one of the primary trends among neural network compression algorithms to improve the generalization performance of a smaller student model with guidance from a larger teacher model. This momentous rise in applications of knowledge distillation is accompanied by the introduction of numerous algorithms for distilling the knowledge such as soft targets and hint layers. Despite this advancement in different techniques for distilling the knowledge, the aggregation of different paths for distillation has not been studied comprehensively. This is of particular significance, not only because different paths have different importance, but also due to the fact that some paths might have negative effects on the generalization performance of the student model. Hence, we need to adaptively adjust the importance of each path to maximize the impact of distillation on the student model. In this paper, we explore different approaches for aggregating these different paths and introduce our proposed adaptive approach based on multitask learning methods. We empirically demonstrate the effectiveness of the proposed approach over other baselines on the applications of knowledge distillation in classification, semantic segmentation, and object detection tasks.
翻訳日:2021-10-21 01:22:05 公開日:2021-10-19
# (参考訳) 大量医療記録におけるマルチレベル確率最適化 [全文訳有]

Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records ( http://arxiv.org/abs/2110.09680v1 )

ライセンス: CC BY 4.0
Xiaoyu Wang, Wenrui Li, Yuetian Sun, Snezana Milanovic, Mark Kon, Julio Enrique Castrillon-Candas(参考訳) 大規模データセットの探索と分析は、最近研究と開発コミュニティへの関心が高まっている。 多くのデータセットが欠落した数値データを含むことは、長い間認識されてきた問題である。 Krigingの理論に基づく数学的に原理化された確率的最適化計算法を提案する。 これは、インプテーションの強力な方法であることが示されている。 しかし、その計算努力と潜在的な数値不安定性は、コストと信頼性の低い予測を生み出し、大規模なデータセットでの使用を制限する可能性がある。 本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録の計算問題に適用する。 このアプローチは計算応用数学技術に基づいており、非常に正確である。 特に、Best Linear Unbiased Predictor (BLUP) では、このマルチレベル定式化は正確であり、さらにはるかに高速でより数値的に安定である。 これにより、Kriging法を大規模データセットのデータ計算問題に適用することができる。 本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。 数値計算の結果, マルチレベル法は現在の手法よりも優れ, 数値的に堅牢であることがわかった。 特に、HCUPの最近のレポートで推奨されているデータ不足に関する重要な問題についての手法と比較して精度が優れており、これは準最適かつ低ベースな資金調達政策決定につながる可能性がある。 比較ベンチマークテストでは, 予測平均マッチング (PMM) や予測後分布 (PPD) など, 最大75%の誤差で, マルチレベル確率法が推奨手法よりもはるかに優れていることが示された。

Exploration and analysis of massive datasets has recently generated increasing interest in the research and development communities. It has long been a recognized problem that many datasets contain significant levels of missing numerical data. We introduce a mathematically principled stochastic optimization imputation method based on the theory of Kriging. This is shown to be a powerful method for imputation. However, its computational effort and potential numerical instabilities produce costly and/or unreliable predictions, potentially limiting its use on large scale datasets. In this paper, we apply a recently developed multi-level stochastic optimization approach to the problem of imputation in massive medical records. The approach is based on computational applied mathematics techniques and is highly accurate. In particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level formulation is exact, and is also significantly faster and more numerically stable. This permits practical application of Kriging methods to data imputation problems for massive datasets. We test this approach on data from the National Inpatient Sample (NIS) data records, Healthcare Cost and Utilization Project (HCUP), Agency for Healthcare Research and Quality. Numerical results show the multi-level method significantly outperforms current approaches and is numerically robust. In particular, it has superior accuracy as compared with methods recommended in the recent report from HCUP on the important problem of missing data, which could lead to sub-optimal and poorly based funding policy decisions. In comparative benchmark tests it is shown that the multilevel stochastic method is significantly superior to recommended methods in the report, including Predictive Mean Matching (PMM) and Predicted Posterior Distribution (PPD), with up to 75% reductions in error.
翻訳日:2021-10-21 01:02:47 公開日:2021-10-19
# (参考訳) データ駆動による容量劣化前のバッテリサイクル寿命予測 [全文訳有]

Data Driven Prediction of Battery Cycle Life Before Capacity Degradation ( http://arxiv.org/abs/2110.09687v1 )

ライセンス: CC0 1.0
Anmol Singh, Caitlin Feltner, Jamie Peck, Kurt I. Kuhn(参考訳) 複数の産業にまたがるリチウムイオン電池のユビキタス利用は、競争環境において価格対パフォーマンス比が継続的に低下するため、コスト削減イニシアチブを探求する機会となる。 携帯電話から電気自動車まで、さまざまなアプリケーションでリチウムイオン電池を使用しているメーカーは、特定のサービス期間のバッテリー寿命を知る必要がある。 これを理解するには、高価なテストが必要です。 本稿では、Kristen A. Seversonらによるデータと手法を用いて、研究チームが使用した方法論を探索し、予測結果と実際のバッテリー容量のフェードに関するテストデータを比較する別の方法を提案する。 基本的な取り組みは、機械学習技術が、バッテリーライフサイクルのバッテリー容量を正確に予測するために、早期ライフサイクルデータを使用するように訓練されているかどうかを調べることである。 その結果,Gaussian Process Regression (GPR) と Elastic Net Regression (ENR) を比較し,Severson などの作業で発見された広範囲なデータセットから得られた重要なデータ特徴を強調した。

Ubiquitous use of lithium-ion batteries across multiple industries presents an opportunity to explore cost saving initiatives as the price to performance ratio continually decreases in a competitive environment. Manufacturers using lithium-ion batteries ranging in applications from mobile phones to electric vehicles need to know how long batteries will last for a given service life. To understand this, expensive testing is required. This paper utilizes the data and methods implemented by Kristen A. Severson, et al, to explore the methodologies that the research team used and presents another method to compare predicted results vs. actual test data for battery capacity fade. The fundamental effort is to find out if machine learning techniques may be trained to use early life cycle data in order to accurately predict battery capacity over the battery life cycle. Results show comparison of methods between Gaussian Process Regression (GPR) and Elastic Net Regression (ENR) and highlight key data features used from the extensive dataset found in the work of Severson, et al.
翻訳日:2021-10-21 00:47:07 公開日:2021-10-19
# (参考訳) CVH-CTを用いたクロスベンダCT画像の高調波化 [全文訳有]

Cross-Vendor CT Image Data Harmonization Using CVH-CT ( http://arxiv.org/abs/2110.09693v1 )

ライセンス: CC BY 4.0
Md Selim, Jie Zhang, Baowei Fei, Guo-Qiang Zhang, Gary Yeeming Ge, Jin Chen(参考訳) CT(Computed Tomography)では顕著な進歩があったが、既存の取り組みのほとんどは放射線線量を減らすことによる画像強調に焦点を当てている。 異なるスキャナーで撮影されたct画像データの調和は、クロスセンターの大規模放射能研究において不可欠であるが、探索すべき境界は依然として残っている。 さらに、ペアのトレーニング画像問題がないため、既存のディープラーニングモデルを採用することは計算的に困難である。 %であった。 %) より困難である。 本稿では,異なるベンダーのスキャナーを用いたCT画像の調和のための,CVH-CTと呼ばれる新しいディープラーニング手法を提案する。 CVH-CTのジェネレータは自己認識機構を使用してスキャナ関連情報を学習する。 また,画像データからテクスチャ特性を効果的に抽出し,スキャナに基づくテクスチャ分布を学習するためのVGG特徴量に基づくドメイン損失を提案する。 実験の結果, CVH-CTはドメイン損失が提案されているため, ベースラインよりも明らかに優れており, CVH-CTは放射線学的特徴の点において, スキャナー関連変動を効果的に低減できることがわかった。

While remarkable advances have been made in Computed Tomography (CT), most of the existing efforts focus on imaging enhancement while reducing radiation dose. How to harmonize CT image data captured using different scanners is vital in cross-center large-scale radiomics studies but remains the boundary to explore. Furthermore, the lack of paired training image problem makes it computationally challenging to adopt existing deep learning models. %developed for CT image standardization. %this problem more challenging. We propose a novel deep learning approach called CVH-CT for harmonizing CT images captured using scanners from different vendors. The generator of CVH-CT uses a self-attention mechanism to learn the scanner-related information. We also propose a VGG feature-based domain loss to effectively extract texture properties from unpaired image data to learn the scanner-based texture distributions. The experimental results show that CVH-CT is clearly better than the baselines because of the use of the proposed domain loss, and CVH-CT can effectively reduce the scanner-related variability in terms of radiomic features.
翻訳日:2021-10-21 00:24:32 公開日:2021-10-19
# (参考訳) インターセンス:フィクションにおける感覚ブレンドの検討 [全文訳有]

Inter-Sense: An Investigation of Sensory Blending in Fiction ( http://arxiv.org/abs/2110.09710v1 )

ライセンス: CC BY 4.0
Roxana Girju and Charlotte Lambert(参考訳) 本研究では,視覚,聴覚,触覚,味覚,嗅覚の5つの基本感覚の英国感覚記述者の意味的構成について,8000冊以上のフィクション書籍の大きなコーパスで報告する。 本稿では,分布論的単語埋め込みに基づく大規模テキストデータ駆動アプローチを導入し,これらの記述子を識別・抽出し,それらの概念的・知覚的な空間における混合相互関係を解析する。 この発見は、概念の獲得と表現に関する研究や、知覚経験の知覚空間、フィクション、特にフィクション、および言語全般のより良い理解から恩恵を受けることができるアプリケーションに関係している。

This study reports on the semantic organization of English sensory descriptors of the five basic senses of sight, hearing, touch, taste, and smell in a large corpus of over 8,000 fiction books. We introduce a large-scale text data-driven approach based on distributional-seman tic word embeddings to identify and extract these descriptors as well as analyze their mixing interconnections in the resulting conceptual and sensory space. The findings are relevant for research on concept acquisition and representation, as well as for applications that can benefit from a better understanding of perceptual spaces of sensory experiences, in fiction, in particular, and in language in general.
翻訳日:2021-10-21 00:13:29 公開日:2021-10-19
# (参考訳) 最小情報を用いた商用音声プラットフォームにおけるブラックボックス攻撃 [全文訳有]

Black-box Adversarial Attacks on Commercial Speech Platforms with Minimal Information ( http://arxiv.org/abs/2110.09714v1 )

ライセンス: CC BY 4.0
Baolin Zheng, Peipei Jiang, Qian Wang, Qi Li, Chao Shen, Cong Wang, Yunjie Ge, Qingyang Teng, Shenyi Zhang(参考訳) クラウド音声APIや音声制御デバイスを含む商用のブラックボックス音声プラットフォームに対する敵対的攻撃は、近年までほとんど注目されていない。 現在の"ブラックボックス"攻撃は、効果的な敵の例を作るために予測/信頼スコアの知識に大きく依存しているため、これらのメッセージを返すことなく、サービスプロバイダによって直感的に防御できる。 本稿では,より現実的で厳密なシナリオにおける2つの新たな敵攻撃を提案する。 商用のクラウド音声APIでは、決定のみのブラックボックス攻撃であるOccamを提案する。 オッカムでは、決定のみのAE生成を不連続な大規模グローバル最適化問題として定式化し、この複雑な問題を一連のサブプロブレムに適応的に分解し、それぞれを協調的に最適化することで解決する。 私たちのOccamは、Google、Alibaba、Microsoft、Tencent、iFlytek、Jingdongなど、幅広い一般的な音声および話者認識APIにおいて、平均14.23dBのSNRによる攻撃の100%の成功率を達成する、オールサイズのアプローチである。 商用音声制御装置において, NI-Occamは最初の非対話的物理的敵対攻撃であり, 敵は託宣を問い合わせる必要がなく, 内部情報や訓練データにアクセスできない。 敵攻撃とモデル逆転攻撃を組み合わせ、ターゲット装置との相互作用を伴わずに高い転送性を有する物理効率のオーディオAEを生成する。 実験の結果、ni-occamはapple siri、microsoft cortana、google assistant、iflytek、amazon echoを52%、snrが9.65dbで騙し、音声コントロールデバイスに対する非対話的な物理的攻撃に光を当てることに成功した。

Adversarial attacks against commercial black-box speech platforms, including cloud speech APIs and voice control devices, have received little attention until recent years. The current "black-box" attacks all heavily rely on the knowledge of prediction/confidenc e scores to craft effective adversarial examples, which can be intuitively defended by service providers without returning these messages. In this paper, we propose two novel adversarial attacks in more practical and rigorous scenarios. For commercial cloud speech APIs, we propose Occam, a decision-only black-box adversarial attack, where only final decisions are available to the adversary. In Occam, we formulate the decision-only AE generation as a discontinuous large-scale global optimization problem, and solve it by adaptively decomposing this complicated problem into a set of sub-problems and cooperatively optimizing each one. Our Occam is a one-size-fits-all approach, which achieves 100% success rates of attacks with an average SNR of 14.23dB, on a wide range of popular speech and speaker recognition APIs, including Google, Alibaba, Microsoft, Tencent, iFlytek, and Jingdong, outperforming the state-of-the-art black-box attacks. For commercial voice control devices, we propose NI-Occam, the first non-interactive physical adversarial attack, where the adversary does not need to query the oracle and has no access to its internal information and training data. We combine adversarial attacks with model inversion attacks, and thus generate the physically-effective audio AEs with high transferability without any interaction with target devices. Our experimental results show that NI-Occam can successfully fool Apple Siri, Microsoft Cortana, Google Assistant, iFlytek and Amazon Echo with an average SRoA of 52% and SNR of 9.65dB, shedding light on non-interactive physical attacks against voice control devices.
翻訳日:2021-10-20 23:56:31 公開日:2021-10-19
# (参考訳) 自然言語データにおける英語知覚動詞の知覚空間の探索 [全文訳有]

Exploring the Sensory Spaces of English Perceptual Verbs in Natural Language Data ( http://arxiv.org/abs/2110.09721v1 )

ライセンス: CC BY 4.0
Roxana Girju and David Peng(参考訳) 本研究では,言語が単語の意味をどのように捉えているか,特にテキスト間の統計的分布から得られた感覚経験に関連して検討する。 視覚(見るか見るか)、聴覚(聞くか聞くか)、触覚(触るか感じるか)、嗅覚(嗅覚か)、味覚(味覚か)の5つの基本的な感覚的様相から分析した、英語の最も頻繁な知覚動詞に注目した。 本研究では,分布論的単語埋め込みとクラスタリングモデルに基づくデータ駆動アプローチについて報告し,知覚動詞の記述体知覚空間を同定し,解明する。 分析では,それらが示す知覚経験の質的,定量的な差異に基づいて,生成された記述子の違いと類似性を同定した。 例えば, 経験動詞の知覚空間は, より分離し, 論理的に理解し, 学習する方法を示す一方で, エージェント的対応者(見る, 聞く)は, より意図的かつ直感的に, 周囲の世界を発見し, 対話する手段を提供する。 このようなアプローチは、社会的・文化的分析の異なる分野への理解と感覚空間の適用性を広げる可能性が高いと信じている。 様々な応用のための感覚空間のセマンティックな構成に関する研究は、まだ探索されていない方法で相互に繋がる複数の感覚の複雑さに対処するエージェント/経験的アカウントの恩恵を受けるかもしれない。

In this study, we explore how language captures the meaning of words, in particular meaning related to sensory experiences learned from statistical distributions across texts. We focus on the most frequent perception verbs of English analyzed from an and Agentive vs. Experiential distinction across the five basic sensory modalities: Visual (to look vs. to see), Auditory (to listen vs. to hear), Tactile (to touch vs. to feel), Olfactory (to smell), and Gustatory (to taste). In this study we report on a data-driven approach based on distributional-seman tic word embeddings and clustering models to identify and uncover the descriptor sensory spaces of the perception verbs. In the analysis, we identified differences and similarities of the generated descriptors based on qualitative and quantitative differences of the perceptual experience they denote. For instance, our results show that while the perceptual spaces of the experiential verbs like to see, to hear show a more detached, logical way of knowing and learning, their agentive counterparts (to look, listen) provide a more intentional as well as more intimate and intuitive way of discovering and interacting with the world around us. We believe that such an approach has a high potential to expand our understanding and the applicability of such sensory spaces to different fields of social and cultural analysis. Research on the semantic organization of sensory spaces for various applications might benefit from an the Agentive/Experientia l account to address the complexity of multiple senses wired with each other in still unexplored ways.
翻訳日:2021-10-20 23:19:29 公開日:2021-10-19
# (参考訳) リアルタイムインスタンス分割におけるアンカー割り当てのためのマスク対応IoU [全文訳有]

Mask-aware IoU for Anchor Assignment in Real-time Instance Segmentation ( http://arxiv.org/abs/2110.09734v1 )

ライセンス: CC BY 4.0
Kemal Oksuz and Baris Can Cam and Fehmi Kahraman and Zeynep Sonat Baltaci and Sinan Kalkan and Emre Akbas(参考訳) 本稿では,インスタンスセグメンテーション法のトレーニング中に,アンカーボックスを正と負として割り当てるためのマスク対応インターセクション・オーバー・ユニオン(maIoU)を提案する。 従来のIoUやその変種とは異なり、2つの箱の近さしか考慮していないが、maIoUは、基底真理箱だけでなく、関連する基底真理マスクによるアンカーボックスの近さを一貫して測定している。 したがって、実際に物体の形状を表すマスクを考えると、maIoUは訓練中により正確な監視を可能にする。 我々は,maIoUによるIoU操作を置き換え,SOTAリアルタイムインスタンスセグメンテーションであるYOLACTを訓練することにより,最先端のSOTAアサインラであるATSSにmaIoUの有効性を示す。 maIoUでATSSを使用する場合、一貫してパフォーマンスが向上する (i)iouとのatsは$\sim 1$ mask apである。 (ii)固定iouしきい値アサイン付きベースラインyolactは、異なる画像サイズと異なるサイズで$\sim 2$ mask apである。 (iii)アンカーを少なくすることで、推論時間を25ドル$%減少させる。 そして、この効率を利用して、YOLACTよりも高速で6ドル以上のAP検出器であるmaYOLACTを考案した。 当社のベストモデルは,リアルタイムインスタンスセグメンテーションのための新たな最先端技術を確立するCOCO test-devで,37.7ドルのマスクAPを25ドルfpsで達成しています。 コードはhttps://github.com/k emaloksuz/Mask-aware -IoUで公開されている。

This paper presents Mask-aware Intersection-over-Un ion (maIoU) for assigning anchor boxes as positives and negatives during training of instance segmentation methods. Unlike conventional IoU or its variants, which only considers the proximity of two boxes; maIoU consistently measures the proximity of an anchor box with not only a ground truth box but also its associated ground truth mask. Thus, additionally considering the mask, which, in fact, represents the shape of the object, maIoU enables a more accurate supervision during training. We present the effectiveness of maIoU on a state-of-the-art (SOTA) assigner, ATSS, by replacing IoU operation by our maIoU and training YOLACT, a SOTA real-time instance segmentation method. Using ATSS with maIoU consistently outperforms (i) ATSS with IoU by $\sim 1$ mask AP, (ii) baseline YOLACT with fixed IoU threshold assigner by $\sim 2$ mask AP over different image sizes and (iii) decreases the inference time by $25 \%$ owing to using less anchors. Then, exploiting this efficiency, we devise maYOLACT, a faster and $+6$ AP more accurate detector than YOLACT. Our best model achieves $37.7$ mask AP at $25$ fps on COCO test-dev establishing a new state-of-the-art for real-time instance segmentation. Code is available at https://github.com/k emaloksuz/Mask-aware -IoU
翻訳日:2021-10-20 23:00:01 公開日:2021-10-19
# (参考訳) キーフレーズ抽出のための多視点からの重要度推定 [全文訳有]

Importance Estimation from Multiple Perspectives for Keyphrase Extraction ( http://arxiv.org/abs/2110.09749v1 )

ライセンス: CC BY 4.0
Mingyang Song, Liping Jing and Lin Xiao(参考訳) キーフレーズ抽出は自然言語処理において基本的なタスクであり、通常、候補キーフレーズ抽出とキーフレーズ重要度推定の2つの主要部分を含んでいる。 人間の理解文書の観点からは,構文的正確性,情報保存性,概念整合性を同時に測定するのが一般的である。 しかしながら、ほとんどの既存のキーフレーズ抽出アプローチは、その部分のみに焦点を当て、バイアスのある結果をもたらす。 本稿では,複数の視点からキーフレーズの重要性を推定する新しい手法を提案し,キーフレーズ抽出の性能をさらに向上させる。 具体的には、音節の重要性を3つのモジュールで見積もる: 構文的精度を測定するチャンキングモジュール、情報の正確性をチェックするランク付けモジュール、およびフレーズと文書全体の間の概念(トピック)の一貫性を判断するマッチングモジュール。 これら3つのモジュールは、エンドツーエンドのマルチタスク学習モデルを介してシームレスに結合される。 6つのベンチマークデータセットによる実験結果から, <textit{KIEMP} は既存の最先端キーフレーズ抽出手法よりも優れていることがわかった。

Keyphrase extraction is a fundamental task in Natural Language Processing, which usually contains two main parts: candidate keyphrase extraction and keyphrase importance estimation. From the view of human understanding documents, we typically measure the importance of phrase according to its syntactic accuracy, information saliency, and concept consistency simultaneously. However, most existing keyphrase extraction approaches only focus on the part of them, which leads to biased results. In this paper, we propose a new approach to estimate the importance of keyphrase from multiple perspectives (called as \textit{KIEMP}) and further improve the performance of keyphrase extraction. Specifically, \textit{KIEMP} estimates the importance of phrase with three modules: a chunking module to measure its syntactic accuracy, a ranking module to check its information saliency, and a matching module to judge the concept (i.e., topic) consistency between phrase and the whole document. These three modules are seamlessly jointed together via an end-to-end multi-task learning model, which is helpful for three parts to enhance each other and balance the effects of three perspectives. Experimental results on six benchmark datasets show that \textit{KIEMP} outperforms the existing state-of-the-art keyphrase extraction approaches in most cases.
翻訳日:2021-10-20 22:42:40 公開日:2021-10-19
# (参考訳) 圧縮センシングのためのメモリ拡張Deep Unfolding Network [全文訳有]

Memory-Augmented Deep Unfolding Network for Compressive Sensing ( http://arxiv.org/abs/2110.09766v1 )

ライセンス: CC BY 4.0
Jiechong Song, Bin Chen and Jian Zhang(参考訳) 切断最適化法をディープニューラルネットワークにマッピングするdeep unfolding network (dun) は,その解釈性と高性能性から,圧縮センシング (cs) に注目が集まっている。 DUNのそれぞれのステージは最適化の1つのイテレーションに対応する。 人間の脳のメモリ処理の観点からDUNを理解することで、既存のDUNには2つの問題があることが分かる。 1つは、短期記憶と見なすことができる2つの隣り合うステージ間の情報であり、通常は深刻に失われる。 もう1つは、前のステージが現在のステージに影響を与えることを保証する明示的なメカニズムではない。 この問題を解決するため,本論文では,csのための永続記憶を持つ新しいdun, memory-augmented deep unfolding network (madun) を提案する。 本稿では,HSM(High-throughput Short-term Memory)とCLM(Cross-stage Long-term Memory)の2種類のメモリ拡張機構を組み合わせることで,メモリ拡張近位写像モジュール(MAPMM)を設計する。 HSMを利用してDUNがマルチチャネル短期記憶を送信し、隣接ステージ間の情報損失を大幅に低減する。 clmは、カスケードステージ間の深い情報の依存関係を開発するために利用され、ネットワーク表現能力が大幅に向上する。 自然画像とMR画像の広範囲にわたるCS実験により、MADUNは情報の維持とバランスの強い能力により、既存の最先端の手法よりも大きなマージンで優れていることが示された。 ソースコードはhttps://github.com/j ianzhangcs/MADUN/で入手できる。

Mapping a truncated optimization method into a deep neural network, deep unfolding network (DUN) has attracted growing attention in compressive sensing (CS) due to its good interpretability and high performance. Each stage in DUNs corresponds to one iteration in optimization. By understanding DUNs from the perspective of the human brain's memory processing, we find there exists two issues in existing DUNs. One is the information between every two adjacent stages, which can be regarded as short-term memory, is usually lost seriously. The other is no explicit mechanism to ensure that the previous stages affect the current stage, which means memory is easily forgotten. To solve these issues, in this paper, a novel DUN with persistent memory for CS is proposed, dubbed Memory-Augmented Deep Unfolding Network (MADUN). We design a memory-augmented proximal mapping module (MAPMM) by combining two types of memory augmentation mechanisms, namely High-throughput Short-term Memory (HSM) and Cross-stage Long-term Memory (CLM). HSM is exploited to allow DUNs to transmit multi-channel short-term memory, which greatly reduces information loss between adjacent stages. CLM is utilized to develop the dependency of deep information across cascading stages, which greatly enhances network representation capability. Extensive CS experiments on natural and MR images show that with the strong ability to maintain and balance information our MADUN outperforms existing state-of-the-art methods by a large margin. The source code is available at https://github.com/j ianzhangcs/MADUN/.
翻訳日:2021-10-20 22:24:52 公開日:2021-10-19
# (参考訳) 3次元点雲列に対する空間時間変換器 [全文訳有]

Spatial-Temporal Transformer for 3D Point Cloud Sequences ( http://arxiv.org/abs/2110.09783v1 )

ライセンス: CC BY 4.0
Yimin Wei, Hao Liu, Tingting Xie, Qiuhong Ke, Yulan Guo(参考訳) 4次元セマンティックセグメンテーションや3次元行動認識といった下流タスクにおいて,ポイントクラウドシーケンス内の時空間情報の効果的な学習は極めて重要である。 本稿では,動的3次元点雲列から時空間表現を学習するためのPST(Point Spatial-Temporal Transformer)という新しいフレームワークを提案する。 我々のPST2は2つの主要なモジュールからなる: 時空間自己認識(STSA)モジュールと分解能埋め込み(RE)モジュール。 我々のSTSAモジュールは隣接するフレーム間の空間的時間的文脈情報をキャプチャするために導入され、REモジュールは特徴マップの解像度を高めるために隣り合った特徴を集約するために提案されている。 PST2の有効性を、ポイントクラウドシーケンス上の2つの異なるタスク、すなわち4Dセマンティックセグメンテーションと3Dアクション認識で検証する。 3つのベンチマークに関する広範な実験では、すべてのデータセットで既存のメソッドよりもpst2の方が優れています。 また,STSAおよびREモジュールの有効性をアブレーション実験により検証した。

Effective learning of spatial-temporal information within a point cloud sequence is highly important for many down-stream tasks such as 4D semantic segmentation and 3D action recognition. In this paper, we propose a novel framework named Point Spatial-Temporal Transformer (PST2) to learn spatial-temporal representations from dynamic 3D point cloud sequences. Our PST2 consists of two major modules: a Spatio-Temporal Self-Attention (STSA) module and a Resolution Embedding (RE) module. Our STSA module is introduced to capture the spatial-temporal context information across adjacent frames, while the RE module is proposed to aggregate features across neighbors to enhance the resolution of feature maps. We test the effectiveness our PST2 with two different tasks on point cloud sequences, i.e., 4D semantic segmentation and 3D action recognition. Extensive experiments on three benchmarks show that our PST2 outperforms existing methods on all datasets. The effectiveness of our STSA and RE modules have also been justified with ablation experiments.
翻訳日:2021-10-20 22:06:19 公開日:2021-10-19
# (参考訳) ssast: 自己教師付きオーディオスペクトログラムトランスフォーマ [全文訳有]

SSAST: Self-Supervised Audio Spectrogram Transformer ( http://arxiv.org/abs/2110.09784v1 )

ライセンス: CC BY 4.0
Yuan Gong, Cheng-I Jeff Lai, Yu-An Chung, James Glass(参考訳) 近年、視覚トランスフォーマー(vit)のような純粋に自己愛に基づくニューラルネットワークは、様々な視覚タスクにおいて畳み込みニューラルネットワーク(cnns)で構築されたディープラーニングモデルよりも優れており、言語処理のために当初開発されたトランスフォーマーの成功を視覚ドメインに広げている。 最近の研究では、同様の手法が音声領域にも適用可能であることが示されている。 具体的には、オーディオスペクトログラムトランスフォーマ(ast)は、様々なオーディオ分類ベンチマークで最先端の結果を得る。 しかし、純粋なTransformerモデルはCNNよりも多くのトレーニングデータを必要とする傾向にあり、ASTの成功は大量のラベル付きデータと複雑なトレーニングパイプラインを必要とする教師付き事前トレーニングに依存しており、ASTの実用的使用を制限する。 本稿では,音声と音声の分類に着目し,ラベルなしデータを用いた自己教師あり学習を活用し,astによるデータ要求問題を軽減することを目的とする。 具体的には,AudioSet と Librispeech の未収録音声を用いて,共同識別型および生成型マスク付きスペクトログラムパッチモデリング(MSPM)によるASTモデルの事前学習を提案する。 我々は,音声イベント分類,キーワードスポッティング,感情認識,話者識別を含む音声と音声の分類タスクにおいて,事前学習したモデルを評価する。 提案された自己監督フレームワークは、すべてのタスクにおけるASTパフォーマンスを著しく向上させ、平均60.9%の改善を実現し、教師付き事前訓練されたASTと同じような結果またはさらに良い結果をもたらす。 我々の知る限り、これはオーディオおよび音声領域におけるパッチベースの初めての自己教師型学習フレームワークであり、ASTのための最初の自己教師型学習フレームワークでもある。

Recently, neural networks based purely on self-attention, such as the Vision Transformer (ViT), have been shown to outperform deep learning models constructed with convolutional neural networks (CNNs) on various vision tasks, thus extending the success of Transformers, which were originally developed for language processing, to the vision domain. A recent study showed that a similar methodology can also be applied to the audio domain. Specifically, the Audio Spectrogram Transformer (AST) achieves state-of-the-art results on various audio classification benchmarks. However, pure Transformer models tend to require more training data compared to CNNs, and the success of the AST relies on supervised pretraining that requires a large amount of labeled data and a complex training pipeline, thus limiting the practical usage of AST. This paper focuses on audio and speech classification, and aims to alleviate the data requirement issues with the AST by leveraging self-supervised learning using unlabeled data. Specifically, we propose to pretrain the AST model with joint discriminative and generative masked spectrogram patch modeling (MSPM) using unlabeled audio from AudioSet and Librispeech. We evaluate our pretrained models on both audio and speech classification tasks including audio event classification, keyword spotting, emotion recognition, and speaker identification. The proposed self-supervised framework significantly boosts AST performance on all tasks, with an average improvement of 60.9%, leading to similar or even better results than a supervised pretrained AST. To the best of our knowledge, it is the first patch-based self-supervised learning framework in the audio and speech domain, and also the first self-supervised learning framework for AST.
翻訳日:2021-10-20 21:50:13 公開日:2021-10-19
# (参考訳) 物理インフォームド深層学習のための多目的損失分散 [全文訳有]

Multi-Objective Loss Balancing for Physics-Informed Deep Learning ( http://arxiv.org/abs/2110.09813v1 )

ライセンス: CC BY 4.0
Rafael Bischof, Michael Kraus(参考訳) 物理学インフォームドニューラルネットワーク(英: physics informed neural networks、pinn)は、物理法則を利用したディープラーニングのアルゴリズムであり、各境界条件と初期条件(bc/ic)をペナルティ項として加えた偏微分方程式(pde)を損失関数に含む。 PDE、BC、IC損失関数の部分は、基礎となる物理単位や初期化の確率性によって大きく異なる可能性があるため、PINNの訓練は厳しい収束と効率の問題に悩まされ、PINNは望ましい近似品質を超えていなければならない。 本研究では,PINNを効果的に訓練するために,複数の競合損失関数の組み合わせを正しく重み付けする重要な役割について考察する。 そこで我々は,PINNの損失関数の複数項の寄与とそれらの勾配のバランスをとるために,異なる手法を実装し,評価する。 既存の3つのロススケーリングアプローチ(learning rate annealing, gradnorm, softadapt)をレビューした後、我々はrelobralo(relative loss balancing with random lookback)と呼ばれるピンの自己適応型ロスバランスを提案する。 最後に, バーガーズ方程式, キルヒホフ板曲げ方程式, ヘルムホルツ方程式の3つのベンチマーク pdes において, 前方問題と逆問題の両方を解いて, レロブラロの性能を比較, 検証した。 シミュレーションにより、ReLoBRaLoトレーニングは、他のバランス手法によるPINNのトレーニングよりもはるかに高速で精度が高く、PINNアルゴリズムの持続可能性を高めることが示されている。 ReLoBRaLoの適応性は、異なるPDE問題設定間の堅牢性を示している。 提案手法は,PDE制約やソボレフトレーニングを含む,より広範なペナル化最適化問題にも適用可能である。

Physics Informed Neural Networks (PINN) are algorithms from deep learning leveraging physical laws by including partial differential equations (PDE) together with a respective set of boundary and initial conditions (BC / IC) as penalty terms into their loss function. As the PDE, BC and IC loss function parts can significantly differ in magnitudes, due to their underlying physical units or stochasticity of initialisation, training of PINNs may suffer from severe convergence and efficiency problems, causing PINNs to stay beyond desirable approximation quality. In this work, we observe the significant role of correctly weighting the combination of multiple competitive loss functions for training PINNs effectively. To that end, we implement and evaluate different methods aiming at balancing the contributions of multiple terms of the PINNs loss function and their gradients. After review of three existing loss scaling approaches (Learning Rate Annealing, GradNorm as well as SoftAdapt), we propose a novel self-adaptive loss balancing of PINNs called ReLoBRaLo (Relative Loss Balancing with Random Lookback). Finally, the performance of ReLoBRaLo is compared and verified against these approaches by solving both forward as well as inverse problems on three benchmark PDEs for PINNs: Burgers' equation, Kirchhoff's plate bending equation and Helmholtz's equation. Our simulation studies show that ReLoBRaLo training is much faster and achieves higher accuracy than training PINNs with other balancing methods and hence is very effective and increases sustainability of PINNs algorithms. The adaptability of ReLoBRaLo illustrates robustness across different PDE problem settings. The proposed method can also be employed to the wider class of penalised optimisation problems, including PDE-constrained and Sobolev training apart from the studied PINNs examples.
翻訳日:2021-10-20 21:34:24 公開日:2021-10-19
# (参考訳) LSTC:長期コンテキストによる原子行動検出の高速化 [全文訳有]

LSTC: Boosting Atomic Action Detection with Long-Short-Term Context ( http://arxiv.org/abs/2110.09819v1 )

ライセンス: CC BY 4.0
Yuxi Li, Boshen Zhang, Jian Li, Yabiao Wang, Weiyao Lin, Chengjie Wang, Jilin Li, Feiyue Huang(参考訳) 本稿では,映像信号間の時間的依存が動作検出に与える影響を分析するために,原子行動検出問題をLong-Short Term Context (LSTC) に配置する。 そこで本研究では,行動認識パイプラインを短期的・長期的信頼に分解し,目的の行動インスタンスから2種類の文脈が条件的に独立であるという仮説を導出する。 本設計では, 局所集約分枝を用いて, 高密度かつ情報的な短期的手がかりを収集する一方, 高次長期推論分枝は, 客行動クラスを, アクタと他者または対の高次相互作用から推論するように設計する。 どちらのブランチも独立してコンテキスト固有のアクションを予測し、結果が最後にマージされます。 いずれの時間的粒も原子の作用認識に有益であることを示す。 アトミックアクション検出の主流ベンチマークでは、我々の設計は既存の最先端パイプラインから大きなパフォーマンス向上をもたらす可能性がある。 このプロジェクトのコードは[ this url](https://github.com/ TencentYoutuResearch /ActionDetection-LST C)で見ることができる。

In this paper, we place the atomic action detection problem into a Long-Short Term Context (LSTC) to analyze how the temporal reliance among video signals affect the action detection results. To do this, we decompose the action recognition pipeline into short-term and long-term reliance, in terms of the hypothesis that the two kinds of context are conditionally independent given the objective action instance. Within our design, a local aggregation branch is utilized to gather dense and informative short-term cues, while a high order long-term inference branch is designed to reason the objective action class from high-order interaction between actor and other person or person pairs. Both branches independently predict the context-specific actions and the results are merged in the end. We demonstrate that both temporal grains are beneficial to atomic action recognition. On the mainstream benchmarks of atomic action detection, our design can bring significant performance gain from the existing state-of-the-art pipeline. The code of this project can be found at [this url](https://github.com/ TencentYoutuResearch /ActionDetection-LST C)
翻訳日:2021-10-20 21:04:49 公開日:2021-10-19
# (参考訳) 広範囲な深部時間点過程 [全文訳有]

Extensive Deep Temporal Point Process ( http://arxiv.org/abs/2110.09823v1 )

ライセンス: CC BY 4.0
Haitao Lin, Cheng Tan, Lirong Wu, Zhangyang Gao, and Stan. Z. Li(参考訳) 連続的な時間領域上の確率的プロセスとしての時間的ポイントプロセスは、通常、発生時のタイムスタンプを特徴とする非同期イベントシーケンスをモデル化するために使用される。 ディープラーニングの台頭に伴い、深層ニューラルネットワークの強い表現力により、時間的ポイントプロセスの設定において、非同期シーケンスのパターンをキャプチャする上で、有望な選択肢として現れている。 本稿では,非同期イベントシーケンスを深部時間点プロセスでモデル化することの課題と課題を,履歴シーケンスの符号化,条件強度関数の定式化,イベントのリレーショナル発見,最適化のための学習アプローチの4つの分野にまとめる。 本稿では,最近提案されたモデルのほとんどを4部に分けて紹介し,最初の3部を同一の学習戦略で修正し,公平な実験評価を行う。 また、履歴エンコーダと条件強度関数ファミリを拡張し、イベントの多種間の関係を利用するためのグランジャー因果関係発見フレームワークを提案する。 変分推論の枠組みにおける離散グラフ構造学習を用いて,グランガー因果グラフの潜時構造を明らかにする。さらに,学習された潜時グラフを用いて提案したフレームワークは,関係を捕捉し,適合性の向上と予測性能の向上を図っている。

Temporal point process as the stochastic process on continuous domain of time is usually used to model the asynchronous event sequence featuring with occurence timestamps. With the rise of deep learning, due to the strong expressivity of deep neural networks, they are emerging as a promising choice for capturing the patterns in asynchronous sequences, in the setting of temporal point process. In this paper, we first review recent research emphasis and difficulties in modeling asynchronous event sequences with deep temporal point process, which can be concluded into four fields: encoding of history sequence, formulation of conditional intensity function, relational discovery of events and learning approaches for optimization. We introduce most of recently proposed models by dismantling them as the four parts, and conduct experiments by remodularizing the first three parts with the same learning strategy for a fair empirical evaluation. Besides, we extend the history encoders and conditional intensity function family, and propose a Granger causality discovery framework for exploiting the relations among multi-types of events. Discrete graph structure learning in the framework of Variational Inference is employed to reveal latent structures of Granger causality graph, and further experiments shows the proposed framework with learned latent graph can both capture the relations and achieve an improved fitting and predicting performance.
翻訳日:2021-10-20 20:51:28 公開日:2021-10-19
# (参考訳) サポートエージェントの社会的状況認識に向けて [全文訳有]

Towards Social Situation Awareness in Support Agents ( http://arxiv.org/abs/2110.09829v1 )

ライセンス: CC BY-SA 4.0
Ilir Kola, Catholijn M. Jonker, M. Birna van Riemsdijk(参考訳) 日常的な活動(仮想コーチやパーソナルアシスタントなど)で人々を支援するエージェントがますます普及しています。 多くの日常活動は本質的に社会的であるため、サポートエージェントはユーザーの社会的状況を理解し、包括的支援を提供する必要がある。 しかし,社会状況に配慮した支援エージェントの開発には体系的なアプローチは存在しない。 サポートエージェントが社会的状況を認識するための重要な要件を特定し,その要件を実現するためのステップを提案する。 これらのステップは、(1)「一般的な」状況意識のインスタンス化としての社会的状況意識の概念化、(2)そのようなインスタンス化のキー要素として状況分類を用いるという2つの主要な考え方を中心にした概念的アーキテクチャを通して提示される。 これにより、サポートエージェントはユーザの社会的状況を表現し、その意味を理解し、そのユーザの行動への影響を評価することができる。 本稿では,提案手法が効果的であることを示す実証的な結果について考察し,そのアーキテクチャをユースケースを通じてサポートエージェントにどのように使用できるかを説明する。

Artificial agents that support people in their daily activities (e.g., virtual coaches and personal assistants) are increasingly prevalent. Since many daily activities are social in nature, support agents should understand a user's social situation to offer comprehensive support. However, there are no systematic approaches for developing support agents that are social situation aware. We identify key requirements for a support agent to be social situation aware and propose steps to realize those requirements. These steps are presented through a conceptual architecture that centers around two key ideas: (1) conceptualizing social situation awareness as an instantiation of `general' situation awareness, and (2) using situation taxonomies as the key element of such instantiation. This enables support agents to represent a user's social situation, comprehend its meaning, and assess its impact on the user's behavior. We discuss empirical results supporting that the proposed approach can be effective and illustrate how the architecture can be used in support agents through a use case.
翻訳日:2021-10-20 20:12:20 公開日:2021-10-19
# (参考訳) 人種的表現型による顔認識内隠れバイアスの測定 [全文訳有]

Measuring Hidden Bias within Face Recognition via Racial Phenotypes ( http://arxiv.org/abs/2110.09839v1 )

ライセンス: CC BY 4.0
Seyma Yucer, Furkan Tektas, Noura Al Moubayed and Toby P. Breckon(参考訳) 最近の研究報告では、顔認証と識別という、顔認証タスクの横断的な人種集団に対する異なるパフォーマンスが報告されている。 しかし、これらの人種集団の定義は、このような人種バイアス分析の基盤となる結果に大きな影響を与えている。 以前の研究では、これらのグループを人口統計情報(アフリカ、アジアなど)または肌色(より軽い肌、より暗い肌など)に基づいて定義している。 このようなセンシティブあるいは広義のグループ定義の使用は、バイアス調査とその後の反バイアスソリューション設計に欠点がある。 対照的に、顔認識のための顔表現型属性を用いた代替の人種バイアス分析手法を提案する。 人種に関連する顔の表現型が人間の顔に特有であり、対象者の人種的特徴と相関する個々の顔の観察可能な特徴のセットを用いる。 顔認識タスクにおける属性の個人的影響を調べるための分類的テストケースを提案する。 我々は,表現型に基づくグループ化手法と過去のグループ化戦略を比較し,表現型に基づくグループ化が潜在的に保護された属性や定義されていないグループ化戦略に依存することなく隠れバイアスを明らかにすることを示す。 さらに,顔認証のためのrfwと顔識別のためのvggface2(テストセット)という2つの顔認識タスクに対して,対応する表現型属性カテゴリラベルを提案する。

Recent work reports disparate performance for intersectional racial groups across face recognition tasks: face verification and identification. However, the definition of those racial groups has a significant impact on the underlying findings of such racial bias analysis. Previous studies define these groups based on either demographic information (e.g. African, Asian etc.) or skin tone (e.g. lighter or darker skins). The use of such sensitive or broad group definitions has disadvantages for bias investigation and subsequent counter-bias solutions design. By contrast, this study introduces an alternative racial bias analysis methodology via facial phenotype attributes for face recognition. We use the set of observable characteristics of an individual face where a race-related facial phenotype is hence specific to the human face and correlated to the racial profile of the subject. We propose categorical test cases to investigate the individual influence of those attributes on bias within face recognition tasks. We compare our phenotype-based grouping methodology with previous grouping strategies and show that phenotype-based groupings uncover hidden bias without reliance upon any potentially protected attributes or ill-defined grouping strategies. Furthermore, we contribute corresponding phenotype attribute category labels for two face recognition tasks: RFW for face verification and VGGFace2 (test set) for face identification.
翻訳日:2021-10-20 20:01:07 公開日:2021-10-19
# (参考訳) 3次元コーンビームCT演算子構築のための新しいボクセルプロジェクタ [全文訳有]

Cutting Voxel Projector a New Approach to Construct 3D Cone Beam CT Operator ( http://arxiv.org/abs/2110.09841v1 )

ライセンス: CC BY-SA 4.0
Vojt\v{e}ch Kulvait (1), Georg Rose (1) ((1) Institute for Medical Engineering and Research Campus STIMULATE, University of Magdeburg, Magdeburg, Germany)(参考訳) 本稿では,3次元コーンビームトモグラフィ再構成のための新しいプロジェクタについて紹介する。 与えられた検出器画素に投影されたボクセル体積と、その画素に検出された絶滅値への寄与との関係に関する解析式を求める。 このアプローチを用いることで、特に代数的再構成技術に使用できるほぼコンパクトなプロジェクタとバックプロジェクタを構築する。 Siddonのアルゴリズムに基づくレイトレーシングプロジェクターとTTフットプリントプロジェクターの2つの既存のプロジェクターとともに、この切断ボクセルプロジェクターと、より精度の低い速度最適化バージョンを実装した。 カットボクセルプロジェクターは、特に大きなコーンビーム角に対して、TTプロジェクターよりも顕著に高い精度で達成できることを示す。 さらに,カットボクセルプロジェクタの緩和版の実装は,現在のフットプリントプロジェクタ実装よりもはるかに高速である。 さらに、Siddonのアルゴリズムの精度は、カットボクセルプロジェクターよりもはるかに遅くなることを示した。 すべてのアルゴリズムはOpenCL 1.2とC++の代数的再構成のためのオープンソースフレームワーク内に実装され、GPU計算に最適化されている。 GNU GPL 3ライセンスの下でオープンソースソフトウェアとして公開されており、https://github.com/k ulvait/KCT_cbctを参照。

In this paper, we introduce a new class of projectors for 3D cone beam tomographic reconstruction. We find analytical formulas for the relationship between the voxel volume projected onto a given detector pixel and its contribution to the extinction value detected on that pixel. Using this approach, we construct a near-exact projector and backprojector that can be used especially for algebraic reconstruction techniques. We have implemented this cutting voxel projector and a less accurate, speed-optimized version of it together with two established projectors, a ray tracing projector based on Siddon's algorithm and a TT footprint projector. We show that the cutting voxel projector achieves, especially for large cone beam angles, noticeably higher accuracy than the TT projector. Moreover, our implementation of the relaxed version of the cutting voxel projector is significantly faster than current footprint projector implementations. We further show that Siddon's algorithm with comparable accuracy would be much slower than the cutting voxel projector. All algorithms are implemented within an open source framework for algebraic reconstruction in OpenCL 1.2 and C++ and are optimized for GPU computation. They are published as open-source software under the GNU GPL 3 license, see https://github.com/k ulvait/KCT_cbct.
翻訳日:2021-10-20 19:45:10 公開日:2021-10-19
# (参考訳) 生成画像合成による自己監督対象検出 [全文訳有]

Self-Supervised Object Detection via Generative Image Synthesis ( http://arxiv.org/abs/2110.09848v1 )

ライセンス: CC BY 4.0
Siva Karthik Mustikovela, Shalini De Mello, Aayush Prakash, Umar Iqbal, Sifei Liu, Thu Nguyen-Phuoc, Carsten Rother, Jan Kautz(参考訳) 本稿では,自己教師対象検出のための制御可能なGANを用いた初のエンドツーエンド分析合成フレームワークであるSSODを提案する。 オブジェクトの合成と検出を学習するために,ボックスアノテーションを使用せずに実世界の画像のコレクションを使用する。 我々は、制御可能なganを用いて、予め定義されたオブジェクト特性を持つ画像を合成し、それらをオブジェクト検出器のトレーニングに利用する。 本稿では,システムの最適学習のために,合成ネットワークと検出ネットワークの緊密なエンドツーエンド結合を提案する。 最後に,目的とするデータに対して,ラベルを必要とせずにSSODを最適に適応させる手法を提案する。 自動車検出の課題として,KITTI と Cityscapes のデータセットに挑戦する上で,SSOD が従来の純画像に基づく自己監督型オブジェクト検出手法であるWetectron よりも優れていることを示す。 3D CADアセットを一切必要とせずに、最先端のレンダリングベースのMeta-Sim2を超える。 本研究は,制御可能なganベースの画像合成を成功させる新しいパラダイムを導入し,タスクのベースライン精度を大幅に向上させることにより,自己教師付き物体検出の分野を前進させる。 ソースコードはhttps://github.com/N Vlabs/SSOD.comで公開しています。

We present SSOD, the first end-to-end analysis-by synthesis framework with controllable GANs for the task of self-supervised object detection. We use collections of real world images without bounding box annotations to learn to synthesize and detect objects. We leverage controllable GANs to synthesize images with pre-defined object properties and use them to train object detectors. We propose a tight end-to-end coupling of the synthesis and detection networks to optimally train our system. Finally, we also propose a method to optimally adapt SSOD to an intended target data without requiring labels for it. For the task of car detection, on the challenging KITTI and Cityscapes datasets, we show that SSOD outperforms the prior state-of-the-art purely image-based self-supervised object detection method Wetectron. Even without requiring any 3D CAD assets, it also surpasses the state-of-the-art rendering based method Meta-Sim2. Our work advances the field of self-supervised object detection by introducing a successful new paradigm of using controllable GAN-based image synthesis for it and by significantly improving the baseline accuracy of the task. We open-source our code at https://github.com/N Vlabs/SSOD.
翻訳日:2021-10-20 19:27:49 公開日:2021-10-19
# (参考訳) ボルテラ畳み込みによる理論的観点からの畳み込みニューラルネットワークの理解

Understanding Convolutional Neural Networks from Theoretical Perspective via Volterra Convolution ( http://arxiv.org/abs/2110.09902v1 )

ライセンス: CC BY 4.0
Tenghui Li and Guoxu Zhou and Yuning Qiu and Qibin Zhao(参考訳) 本研究では,(深い)畳み込みニューラルネットワークと有限ボルテラ畳み込みの関係を明らかにすることにより,畳み込みニューラルネットワークの汎用的かつ統一的な展望を提案する。 複雑なネットワークアーキテクチャに邪魔されることなく、ニューラルネットワークの全体的な特性を説明し、研究するための新しいアプローチを提供する。 具体的には,有限項Volterra畳み込みと畳み込みニューラルネットワークの基本構造について検討する。 その結果、畳み込みニューラルネットワークは有限項ボルテラ畳み込みの近似であり、その順序は層数で指数関数的に増加し、カーネルサイズはストライド数で指数関数的に増加する。 この観点からは、特殊摂動は反復生成逆例ではなく近似された核から直接得られる。 合成および実世界のデータセットに対する大規模な実験は、結果の正しさと有効性を示している。

This study proposes a general and unified perspective of convolutional neural networks by exploring the relationship between (deep) convolutional neural networks and finite Volterra convolutions. It provides a novel approach to explain and study the overall characteristics of neural networks without being disturbed by the complex network architectures. Concretely, we examine the basic structures of finite term Volterra convolutions and convolutional neural networks. Our results show that convolutional neural network is an approximation of the finite term Volterra convolution, whose order increases exponentially with the number of layers and kernel size increases exponentially with the strides. With this perspective, the specialized perturbations are directly obtained from the approximated kernels rather than iterative generated adversarial examples. Extensive experiments on synthetic and real-world data sets show the correctness and effectiveness of our results.
翻訳日:2021-10-20 19:06:25 公開日:2021-10-19
# (参考訳) 機械学習を用いた完全運動シミュレーションによる高次閉鎖項の同定

Identification of high order closure terms from fully kinetic simulations using machine learning ( http://arxiv.org/abs/2110.09916v1 )

ライセンス: CC BY 4.0
Brecht Laperre, Jorge Amaya and Giovanni Lapenta(参考訳) 大規模プラズマシステムのシミュレーションは典型的には流体近似に基づいている。 しかし、これらの手法は完全な運動論的モデルで利用可能な小さな物理過程を捉えない。 伝統的に、経験的閉包項はボルツマン方程式の高次モーメント、例えば圧力テンソルや熱流束を表現するために用いられる。 本稿では,機械学習手法を代替として抽出した異なる閉鎖用語を提案する。 本研究では,多層パーセプトロンと勾配昇降レグレッセプタという2つの異なる機械学習モデルを用いて,完全運動シミュレーションから抽出した高次モーメントを合成する方法を示す。 モデルの精度と一般化能力を評価し,ベースラインモデルと比較した。 より極端なシミュレーションからトレーニングすると、モデルは従来のシミュレーションと比べてより良い外挿を示し、外挿の重要性を示した。 どちらのモデルも熱流束と圧力テンソルを非常によく捉えることができ、勾配昇圧レグレッサーは精度の面では2つのモデルの中で最も安定していることが分かっている。 回帰タスクにおけるテストされたモデルの性能は、マルチスケールモデリングにおける新しい実験の道を開く。

Simulations of large-scale plasma systems are typically based on fluid approximations. However, these methods do not capture the small-scale physical processes available to fully kinetic models. Traditionally, empirical closure terms are used to express high order moments of the Boltzmann equation, e.g. the pressure tensor and heat flux. In this paper, we propose different closure terms extracted using machine learning techniques as an alternative. We show in this work how two different machine learning models, a multi-layer perceptron and a gradient boosting regressor, can synthesize higher-order moments extracted from a fully kinetic simulation. The accuracy of the models and their ability to generalize are evaluated and compared to a baseline model. When trained from more extreme simulations, the models showed better extrapolation in comparison to traditional simulations, indicating the importance of outliers. We learn that both models can capture heat flux and pressure tensor very well, with the gradient boosting regressor being the most stable of the two models in terms of the accuracy. The performance of the tested models in the regression task opens the way for new experiments in multi-scale modelling.
翻訳日:2021-10-20 19:05:31 公開日:2021-10-19
# (参考訳) toffi -- 周波数ベースの脳信号のフィンガープリント用ツールボックス [全文訳有]

ToFFi -- Toolbox for Frequency-based Fingerprinting of Brain Signals ( http://arxiv.org/abs/2110.09919v1 )

ライセンス: CC BY 4.0
Micha{\l} K. Komorowski, Krzysztof Rykaczewski, Tomasz Piotrowski, Katarzyna Jurewicz, Jakub Wojciechowski, Anne Keitel, Joanna Dreszer, W{\l}odzis{\l}aw Duch(参考訳) スペクトル指紋(英: Spectral fingerprints、SFs)は、人間の脳の関心領域(ROIs, Keitel & Gross, 2016)のユニークなパワースペクトルである。 SFは正確なROI識別を可能にし、非ニューロタイプグループによって示される差のバイオマーカーとして機能する。 現在、スペクトル指紋を計算するためのオープンソースで多用途なツールは存在しない。 我々は、周波数ベースのフィンガープリント(ToFFi)のためのモジュールで高度に構成可能なMATLABツールボックスを作成することで、このギャップを埋めました。 MEG/EEG信号は、解剖学的(AAL、Desikan-Killiany)、機能的(Schaefer)、その他のカスタムボリューム脳パーセレーションによって提供されるROIを用いて、独自のスペクトル表現に変換することができる。 ツールボックス設計は再現性と並列計算をサポートする。

Spectral fingerprints (SFs) are unique power spectra signatures of human brain regions of interest (ROIs, Keitel & Gross, 2016). SFs allow for accurate ROI identification and can serve as biomarkers of differences exhibited by non-neurotypical groups. At present, there are no open-source, versatile tools to calculate spectral fingerprints. We have filled this gap by creating a modular, highly-configurable MATLAB Toolbox for Frequency-based Fingerprinting (ToFFi). It can transform MEG/EEG signals into unique spectral representations using ROIs provided by anatomical (AAL, Desikan-Killiany), functional (Schaefer), or other custom volumetric brain parcellations. Toolbox design supports reproducibility and parallel computations.
翻訳日:2021-10-20 19:01:24 公開日:2021-10-19
# (参考訳) 予測子のロバスト移動を支援する学習表現 [全文訳有]

Learning Representations that Support Robust Transfer of Predictors ( http://arxiv.org/abs/2110.09940v1 )

ライセンス: CC BY 4.0
Yilun Xu, Tommi Jaakkola(参考訳) 見えない環境への一般化の確保は依然として課題である。 ドメインシフトは、利用可能なトレーニング環境内でシフトが十分に実行されない限り、実質的なパフォーマンス低下につながる可能性がある。 われわれは、新しい環境への移動を最適化するためのシンプルなロバストな見積もり基準、転送リスクを導入している。 効果的な基準は、ある環境において訓練された任意の最適な予測器を別の環境に適用するリスクを最小限に抑える表現を見つけることである。 伝達リスクは基本的に、環境ごとの予測器の最適性から生じる直接伝達項と重み付き勾配整合項の2つの項に分解される。 IRMにインスパイアされたものの、伝達リスクは理論上も経験上も、分布外一般化の基準として優れていることを示す。 さらに,環境変化の異なるパターンを表す2つの制御された設定と,現実世界の2つのデータセットに対して,転送リスクを最適化することで,その影響を実証する。 実験的に、このアプローチは様々な分散の一般化タスクでベースラインを上回る。 コードは \url{https://github.com/N ewbeeer/TRM} で入手できる。

Ensuring generalization to unseen environments remains a challenge. Domain shift can lead to substantially degraded performance unless shifts are well-exercised within the available training environments. We introduce a simple robust estimation criterion -- transfer risk -- that is specifically geared towards optimizing transfer to new environments. Effectively, the criterion amounts to finding a representation that minimizes the risk of applying any optimal predictor trained on one environment to another. The transfer risk essentially decomposes into two terms, a direct transfer term and a weighted gradient-matching term arising from the optimality of per-environment predictors. Although inspired by IRM, we show that transfer risk serves as a better out-of-distribution generalization criterion, both theoretically and empirically. We further demonstrate the impact of optimizing such transfer risk on two controlled settings, each representing a different pattern of environment shift, as well as on two real-world datasets. Experimentally, the approach outperforms baselines across various out-of-distribution generalization tasks. Code is available at \url{https://github.com/N ewbeeer/TRM}.
翻訳日:2021-10-20 18:49:18 公開日:2021-10-19
# (参考訳) プログラム合成と帰納論理プログラミングを用いたbongard問題の解法 [全文訳有]

Using Program Synthesis and Inductive Logic Programming to solve Bongard Problems ( http://arxiv.org/abs/2110.09947v1 )

ライセンス: CC BY 4.0
Atharv Sonwane, Sharad Chitlangia, Tirtharaj Dash, Lovekesh Vig, Gautam Shroff, Ashwin Srinivasan(参考訳) 類似を認識・生成する能力は、人間の知能の尺度またはテストとしてしばしば用いられる。 ボンガード問題を解く能力は、そのようなテストの例である。 また、新しい抽象概念を迅速に構築する能力は、類推的な問題を解くために重要であるとも推測されている。 イメージが与えられた場合、そのイメージを生成するプログラムを構築する能力は、dreamcoderプロジェクトで例示されるように、抽象化の一形態である。 本稿では,Dreamcoderによって構築されたプログラムが,ボンガード問題の解法として類似推論に利用できるかどうかを予備検討する。 我々はDreamcoderを用いて、ボンガード問題における画像を生成するプログラムを発見し、それらのそれぞれを状態遷移のシーケンスとして表現する。 位置情報を用いて状態を自動的にデコレーションし,結果のシーケンスをprologの論理的事実にエンコードする。 我々は、インダクティブ論理プログラミング(ILP)を用いて、ボンガード問題のインスタンスに関わる抽象概念の(解釈可能な)理論を学習する。 above/below' や 'clockwise/counterclo ckwise' といった概念を合成的に生成したbongard問題の実験は、エンド・ツー・エンドのシステムがこのような問題を解決できることを示しています。 我々は,我々のアプローチにおける各コンポーネントの重要性と完全性について検討し,その限界を浮き彫りにして,このアプローチで使用されるドリームコーダライクなプログラム合成システムの各要素の定式化における改善の方向性を指摘する。

The ability to recognise and make analogies is often used as a measure or test of human intelligence. The ability to solve Bongard problems is an example of such a test. It has also been postulated that the ability to rapidly construct novel abstractions is critical to being able to solve analogical problems. Given an image, the ability to construct a program that would generate that image is one form of abstraction, as exemplified in the Dreamcoder project. In this paper, we present a preliminary examination of whether programs constructed by Dreamcoder can be used for analogical reasoning to solve certain Bongard problems. We use Dreamcoder to discover programs that generate the images in a Bongard problem and represent each of these as a sequence of state transitions. We decorate the states using positional information in an automated manner and then encode the resulting sequence into logical facts in Prolog. We use inductive logic programming (ILP), to learn an (interpretable) theory for the abstract concept involved in an instance of a Bongard problem. Experiments on synthetically created Bongard problems for concepts such as 'above/below' and 'clockwise/counterclo ckwise' demonstrate that our end-to-end system can solve such problems. We study the importance and completeness of each component of our approach, highlighting its current limitations and pointing to directions for improvement in our formulation as well as in elements of any Dreamcoder-like program synthesis system used for such an approach.
翻訳日:2021-10-20 18:03:37 公開日:2021-10-19
# (参考訳) 音声および音声関連顔動作ユニットを用いた発話頭部生成 [全文訳有]

Talking Head Generation with Audio and Speech Related Facial Action Units ( http://arxiv.org/abs/2110.09951v1 )

ライセンス: CC BY 4.0
Sen Chen, Zhilei Liu, Jiaxing Liu, Zhengxiang Yan, Longbiao Wang(参考訳) 音声ヘッド生成の課題は、任意の顔画像と音声クリップを入力して、唇同期音声ヘッドビデオを合成することである。 既存のほとんどの方法は、口筋の局所的な運動情報を無視する。 本稿では,音声および音声関連顔行動単位(AU)を駆動情報として用いた,新たな繰り返し生成ネットワークを提案する。 口に関するAU情報は、口の動きをより正確に導くことができる。 音声は音声関連AUと強く相関しているため,音声関連AU情報を音声から予測するためのAUモジュールを本システムで提案する。 さらに、生成した画像が正しいAU情報を含むことを保証するために、AU分類器を使用する。 フレーム判別器は、生成した顔のリアリズムを改善するために、敵の訓練のために構築される。 GRIDデータセットとTCD-TIMITデータセットにおけるモデルの有効性を検証する。 また, モデルにおける各成分の寄与を検証するため, アブレーション研究を行った。 定量的および定性的な実験により,本手法は画像品質とリップシンク精度の両方において既存手法よりも優れていることが示された。

The task of talking head generation is to synthesize a lip synchronized talking head video by inputting an arbitrary face image and audio clips. Most existing methods ignore the local driving information of the mouth muscles. In this paper, we propose a novel recurrent generative network that uses both audio and speech-related facial action units (AUs) as the driving information. AU information related to the mouth can guide the movement of the mouth more accurately. Since speech is highly correlated with speech-related AUs, we propose an Audio-to-AU module in our system to predict the speech-related AU information from speech. In addition, we use AU classifier to ensure that the generated images contain correct AU information. Frame discriminator is also constructed for adversarial training to improve the realism of the generated face. We verify the effectiveness of our model on the GRID dataset and TCD-TIMIT dataset. We also conduct an ablation study to verify the contribution of each component in our model. Quantitative and qualitative experiments demonstrate that our method outperforms existing methods in both image quality and lip-sync accuracy.
翻訳日:2021-10-20 17:55:32 公開日:2021-10-19
# (参考訳) 最適相関対象探索に向けて [全文訳有]

Towards Optimal Correlational Object Search ( http://arxiv.org/abs/2110.09991v1 )

ライセンス: CC BY 4.0
Kaiyu Zheng, Rohan Chitnis, Yoonchang Sung, George Konidaris, Stefanie Tellex(参考訳) オブジェクト検索の現実的な応用では、ロボットは複雑な環境でターゲットの物体を見つけ、信頼性の低いセンサー、特に小さな物体や検出しにくい物体を扱う必要がある。 このような環境では、相関情報が効率的に計画するのに有用である:フォークを探すとき、ロボットは、検出しやすい冷蔵庫を見つけることから始めることができる。 相関情報を用いたオブジェクト探索への従来のアプローチは、通常アドホックまたは欲求的な検索戦略に頼っている。 本稿では,相関情報を用いた探索戦略を作成するために,相関オブジェクト探索POMDP (COS-POMDP) を提案する。 COS-POMDP には相関に基づく観測モデルが含まれており、この単純で指数関数的なPOMDP の定式化に対する最適解を保ちながら、全ての物体の連なる信念を維持する指数的な爆発を避けることができる。 本稿では,COS-POMDPを実用領域にスケールアップする階層的計画アルゴリズムを提案する。 我々は,家庭環境の現実的なシミュレータであるAI2-THORと,広く使用されている物体検出器であるYOLOv5を用いて実験を行った。 以上の結果から,スクラブブラシやリモートコントロールなど,特に検出困難なオブジェクトに対しては,相関を無視するベースラインよりも頑健な性能と,強欲で次世代のビューアプローチを提供することがわかった。

In realistic applications of object search, robots will need to locate target objects in complex environments while coping with unreliable sensors, especially for small or hard-to-detect objects. In such settings, correlational information can be valuable for planning efficiently: when looking for a fork, the robot could start by locating the easier-to-detect refrigerator, since forks would probably be found nearby. Previous approaches to object search with correlational information typically resort to ad-hoc or greedy search strategies. In this paper, we propose the Correlational Object Search POMDP (COS-POMDP), which can be solved to produce search strategies that use correlational information. COS-POMDPs contain a correlation-based observation model that allows us to avoid the exponential blow-up of maintaining a joint belief about all objects, while preserving the optimal solution to this naive, exponential POMDP formulation. We propose a hierarchical planning algorithm to scale up COS-POMDP for practical domains. We conduct experiments using AI2-THOR, a realistic simulator of household environments, as well as YOLOv5, a widely-used object detector. Our results show that, particularly for hard-to-detect objects, such as scrub brush and remote control, our method offers the most robust performance compared to baselines that ignore correlations as well as a greedy, next-best view approach.
翻訳日:2021-10-20 17:41:07 公開日:2021-10-19
# (参考訳) 欠落値を持つ脳波信号のリーマン的分類 [全文訳有]

Riemannian classification of EEG signals with missing values ( http://arxiv.org/abs/2110.10011v1 )

ライセンス: CC BY 4.0
Alexandre Hippert-Ferrer, Ammar Mian, Florent Bouchard and Fr\'ed\'eric Pascal(参考訳) 本稿では,共分散行列を用いた脳波の分類における欠落データを扱う2つの手法を提案する。 第1のアプローチは、インデュートデータと$k$-nearest近傍アルゴリズムの共分散を推定し、第2のアプローチは期待最大化アルゴリズム内の観測データ確率を活用することで観測データに依存する。 どちらの手法もリーマン平均分類器への最小距離と組み合わせられ、脳-コンピュータインタフェースのパラダイムとして広く知られているイベント関連ポテンシャルの分類タスクに適用される。 その結果,提案手法は観測データに基づく分類よりも優れた性能を示し,欠落データ比が増大しても高い精度を維持することができた。

This paper proposes two strategies to handle missing data for the classification of electroencephalogram s using covariance matrices. The first approach estimates the covariance from imputed data with the $k$-nearest neighbors algorithm; the second relies on the observed data by leveraging the observed-data likelihood within an expectation-maximiza tion algorithm. Both approaches are combined with the minimum distance to Riemannian mean classifier and applied to a classification task of event related-potentials, a widely known paradigm of brain-computer interface paradigms. As results show, the proposed strategies perform better than the classification based on observed data and allow to keep a high accuracy even when the missing data ratio increases.
翻訳日:2021-10-20 17:17:44 公開日:2021-10-19
# (参考訳) 教育におけるAI基盤モデルのリスク [全文訳有]

Risks of AI Foundation Models in Education ( http://arxiv.org/abs/2110.10024v1 )

ライセンス: CC BY 4.0
Su Lin Blodgett, Michael Madaio(参考訳) 最近のスタンフォード大学のレポート(Bommasani et al., 2021)の著者が、"基礎モデル"の機会とリスクを信じるならば、これらのモデルは、AIと、それらが使用されると思われる分野(教育を含む)のパラダイムシフトを表している。 名前は新しい(そして2021年のField)が、この用語は「大規模に広範に訓練された」アルゴリズムモデルと特定の下流タスクのための「微調整された」(すなわち適応された)アルゴリズムモデルであり、BERTやGPT-3のような大きな言語モデルやCLIPのようなコンピュータビジョンモデルを含むことを意図している。 このような技術は広く語られる可能性があり(例えば、ベンダーなど2021年)、教育分野での使用は、著者が主張する学習者にとって潜在的に有益であるにもかかわらず、特に不利である。 スタンフォード大学レポートのセクション3.3で、malikらは、すべての学習者に教育を提供するという目標を達成するには、教育ドメインと教育コンテキストにまたがって迅速に拡張可能な、より効率的な計算アプローチが必要であると主張している。 しかし, 基礎モデルが学習者にとってのメリットを達成できないだけでなく, 新たなリスクがもたらされる可能性が示唆されている。

If the authors of a recent Stanford report (Bommasani et al., 2021) on the opportunities and risks of "foundation models" are to be believed, these models represent a paradigm shift for AI and for the domains in which they will supposedly be used, including education. Although the name is new (and contested (Field, 2021)), the term describes existing types of algorithmic models that are "trained on broad data at scale" and "fine-tuned" (i.e., adapted) for particular downstream tasks, and is intended to encompass large language models such as BERT or GPT-3 and computer vision models such as CLIP. Such technologies have the potential for harm broadly speaking (e.g., Bender et al., 2021), but their use in the educational domain is particularly fraught, despite the potential benefits for learners claimed by the authors. In section 3.3 of the Stanford report, Malik et al. argue that achieving the goal of providing education for all learners requires more efficient computational approaches that can rapidly scale across educational domains and across educational contexts, for which they argue foundation models are uniquely well-suited. However, evidence suggests that not only are foundation models not likely to achieve the stated benefits for learners, but their use may also introduce new risks for harm.
翻訳日:2021-10-20 17:07:07 公開日:2021-10-19
# (参考訳) Coalitional Bayesian Autoencoders -- 説明可能な教師なしディープラーニングを目指して

Coalitional Bayesian Autoencoders -- Towards explainable unsupervised deep learning ( http://arxiv.org/abs/2110.10038v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong and Alexandra Brintrup(参考訳) 本稿では,BAE (Bayesian Autoencoder) と呼ばれるAEの確率的定式化から自然に生じる対数的推定値の平均的および認識的不確実性に基づく2つの説明手法を提案することにより,オートエンコーダ(AE)予測の妥当性を向上させることを目的とする。 説明手法の性能を定量的に評価するために,センサネットワークアプリケーションでテストを行い,(1)スピアマンドリフト係数のg平均,(2)説明ランキングの感度特異性のg平均,(3)上記の2つの指標を組み合わせたセンサ説明品質指標(seqi)の3つの指標を提案する。 驚くべきことに、baeの予測に関する説明は高い相関関係にあり、誤解を招く説明となる。 これを軽減するために、エージェントベースのシステム理論にインスパイアされた"Coalitional BAE"を提案する。 公開条件監視データセットに関する総合的な実験は、Coalitional BAEを用いた説明の質の向上を実証している。

This paper aims to improve the explainability of Autoencoder's (AE) predictions by proposing two explanation methods based on the mean and epistemic uncertainty of log-likelihood estimate, which naturally arise from the probabilistic formulation of the AE called Bayesian Autoencoders (BAE). To quantitatively evaluate the performance of explanation methods, we test them in sensor network applications, and propose three metrics based on covariate shift of sensors : (1) G-mean of Spearman drift coefficients, (2) G-mean of sensitivity-specific ity of explanation ranking and (3) sensor explanation quality index (SEQI) which combines the two aforementioned metrics. Surprisingly, we find that explanations of BAE's predictions suffer from high correlation resulting in misleading explanations. To alleviate this, a "Coalitional BAE" is proposed, which is inspired by agent-based system theory. Our comprehensive experiments on publicly available condition monitoring datasets demonstrate the improved quality of explanations using the Coalitional BAE.
翻訳日:2021-10-20 16:58:35 公開日:2021-10-19
# (参考訳) 対照的なアクティブ推論 [全文訳有]

Contrastive Active Inference ( http://arxiv.org/abs/2110.10083v1 )

ライセンス: CC BY 4.0
Pietro Mazzaglia and Tim Verbelen and Bart Dhoedt(参考訳) 能動推論(active inference)は、脳が自由エネルギーを最小化することで世界の内部モデルを維持しているという考えに基づく知覚と行動の統一理論である。 行動の観点からは、アクティブな推論エージェントは、楽観的な予測、すなわち望ましい結果や目標を達成するために行動する自己認識的な存在と見なすことができる。 対照的に強化学習は、望ましい結果を達成するために人間によって設計された報酬を必要とする。 アクティブ推論は、制御のためのより自然な自己監視目標を提供することができるが、複雑な環境へのアプローチのスケーリングの欠点のため、その適用性は制限されている。 本研究では,エージェントの生成モデル学習と今後の行動計画における計算負荷を強力に軽減する,アクティブ推論の対比目標を提案する。 提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。 我々は,人間によって設計された報酬関数にアクセス可能な強化学習エージェントと比較し,そのアプローチが性能と密接に一致していることを示す。 最後に,コントラスト的手法は,環境の注意をそらす場合に有意に優れた効果を示し,目的を背景のバリエーションに一般化できることを示した。

Active inference is a unifying theory for perception and action resting upon the idea that the brain maintains an internal model of the world by minimizing free energy. From a behavioral perspective, active inference agents can be seen as self-evidencing beings that act to fulfill their optimistic predictions, namely preferred outcomes or goals. In contrast, reinforcement learning requires human-designed rewards to accomplish any desired outcome. Although active inference could provide a more natural self-supervised objective for control, its applicability has been limited because of the shortcomings in scaling the approach to complex environments. In this work, we propose a contrastive objective for active inference that strongly reduces the computational burden in learning the agent's generative model and planning future actions. Our method performs notably better than likelihood-based active inference in image-based tasks, while also being computationally cheaper and easier to train. We compare to reinforcement learning agents that have access to human-designed reward functions, showing that our approach closely matches their performance. Finally, we also show that contrastive methods perform significantly better in the case of distractors in the environment and that our method is able to generalize goals to variations in the background.
翻訳日:2021-10-20 16:57:17 公開日:2021-10-19
# (参考訳) 音声強調のためのブートストラップリミックスによる連続自己学習 [全文訳有]

Continual self-training with bootstrapped remixing for speech enhancement ( http://arxiv.org/abs/2110.10103v1 )

ライセンス: CC BY 4.0
Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar(参考訳) 音声強調のための簡易かつ新しい自己教師型訓練手法であるRemixITを提案する。 提案手法は,領域内雑音分布の仮定やクリーンターゲット信号へのアクセスなど,従来研究の限界を克服した連続的自己学習方式に基づいている。 具体的には、分離教師モデルがドメイン外データセットで事前トレーニングされ、ドメイン内混合物のバッチに対する推定ターゲット信号を推測するために使用される。 次に, 推定クリーンおよびノイズ信号を用いた人工混合を生成させ, 混合過程をブートストラップする。 最後に、教師の重みを最新の学生モデルで定期的に更新する間、学生モデルは、変量推定源をターゲットとして訓練する。 実験の結果,RemixITは複数の音声強調タスクにおいて,従来の最先端の自己教師手法よりも優れていた。 さらに、RemixITは、音声強調タスクのための半教師付きおよび教師なしのドメイン適応のシームレスな代替を提供するが、任意の分離タスクに適用でき、任意の分離モデルと組み合わせられるほど一般的である。

We propose RemixIT, a simple and novel self-supervised training method for speech enhancement. The proposed method is based on a continuously self-training scheme that overcomes limitations from previous studies including assumptions for the in-domain noise distribution and having access to clean target signals. Specifically, a separation teacher model is pre-trained on an out-of-domain dataset and is used to infer estimated target signals for a batch of in-domain mixtures. Next, we bootstrap the mixing process by generating artificial mixtures using permuted estimated clean and noise signals. Finally, the student model is trained using the permuted estimated sources as targets while we periodically update teacher's weights using the latest student model. Our experiments show that RemixIT outperforms several previous state-of-the-art self-supervised methods under multiple speech enhancement tasks. Additionally, RemixIT provides a seamless alternative for semi-supervised and unsupervised domain adaptation for speech enhancement tasks, while being general enough to be applied to any separation task and paired with any separation model.
翻訳日:2021-10-20 16:35:22 公開日:2021-10-19
# (参考訳) モメンタム政策のグローバル収束性について [全文訳有]

On the Global Convergence of Momentum-based Policy Gradient ( http://arxiv.org/abs/2110.10116v1 )

ライセンス: CC BY 4.0
Yuhao Ding, Junzi Zhang, Javad Lavaei(参考訳) 政策勾配法(PG法)は, 相対的安定性と漸進性により, 大規模強化学習に有効である。 近年、PG法の実証的な成功により、これらの手法の理論的基礎が発展してきた。 本研究では, 確率的pg法を運動量項で大域的に収束させることにより, pg法を改善するための効率的なレシピであることを示す。 我々はソフトマックスとフィッシャー非退化政策のパラメトリゼーションの両方について検討し、モメンタがバニラPG法の大域的最適サンプル複雑性を$\tilde{\mathcal{O}}(\epsilon^{-1.5})$と$\tilde{\mathcal{O}}(\epsilon^{-1})$で改善することを示し、ここでは$\epsilon>0$が目標許容度である。 我々の研究は、運動量に基づくPG法に対する大域収束結果を得る最初のものである。 一般的なfisher-non-degenerat e policyパラメトリゼーションでは、最初のシングルループおよび有限バッチpgアルゴリズムが$\tilde{o}(\epsilon^{-3})$ global optimality sample complexityを達成する。 最後に, この手法は, 様々なPG推定器に容易に適用および拡張可能な, 確率PG法のグローバル収束率を解析するための一般的な枠組みを提供する。

Policy gradient (PG) methods are popular and efficient for large-scale reinforcement learning due to their relative stability and incremental nature. In recent years, the empirical success of PG methods has led to the development of a theoretical foundation for these methods. In this work, we generalize this line of research by studying the global convergence of stochastic PG methods with momentum terms, which have been demonstrated to be efficient recipes for improving PG methods. We study both the soft-max and the Fisher-non-degenerat e policy parametrizations, and show that adding a momentum improves the global optimality sample complexity of vanilla PG methods by $\tilde{\mathcal{O}}(\epsilon^{-1.5})$ and $\tilde{\mathcal{O}}(\epsilon^{-1})$, respectively, where $\epsilon>0$ is the target tolerance. Our work is the first one that obtains global convergence results for the momentum-based PG methods. For the generic Fisher-non-degenerat e policy parametrizations, our result is the first single-loop and finite-batch PG algorithm achieving $\tilde{O}(\epsilon^{-3})$ global optimality sample complexity. Finally, as a by-product, our methods also provide general framework for analyzing the global convergence rates of stochastic PG methods, which can be easily applied and extended to different PG estimators.
翻訳日:2021-10-20 16:20:02 公開日:2021-10-19
# (参考訳) 厳密なグラディエントを超えて:エントロピー規則化を伴う確率的ソフトマックスポリシーグラディエント手法の収束

Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization ( http://arxiv.org/abs/2110.10117v1 )

ライセンス: CC BY 4.0
Yuhao Ding, Junzi Zhang, Javad Lavaei(参考訳) エントロピー正則化(Entropy regularization)は、強化学習(RL)における(バニラ)政策勾配法の早期収束を促進・防止するための効率的な手法である。 しかし、エントロピー正規化RLアルゴリズムの理論的理解は限られている。 本稿では,従来のエントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。 このシナリオを超えて、軌道レベルのエントロピー正則性を持つ(ほぼ)確率的方針勾配推定器の第一セットを提案し、一方は非バイアス的訪問測度に基づく推定器であり、他方はほぼバイアスのない、より実用的な軌跡に基づく推定器である。 エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。 これにより、確率的エントロピー正規化政策勾配法における最初の収束結果が定常点とグローバル最適政策の両方に展開できる。 また、優れた初期化の下で、いくつかの改良されたサンプル複雑性結果も開発する。

Entropy regularization is an efficient technique for encouraging exploration and preventing a premature convergence of (vanilla) policy gradient methods in reinforcement learning (RL). However, the theoretical understanding of entropy regularized RL algorithms has been limited. In this paper, we revisit the classical entropy regularized policy gradient methods with the soft-max policy parametrization, whose convergence has so far only been established assuming access to exact gradient oracles. To go beyond this scenario, we propose the first set of (nearly) unbiased stochastic policy gradient estimators with trajectory-level entropy regularization, with one being an unbiased visitation measure-based estimator and the other one being a nearly unbiased yet more practical trajectory-based estimator. We prove that although the estimators themselves are unbounded in general due to the additional logarithmic policy rewards introduced by the entropy term, the variances are uniformly bounded. This enables the development of the first set of convergence results for stochastic entropy regularized policy gradient methods to both stationary points and globally optimal policies. We also develop some improved sample complexity results under a good initialization.
翻訳日:2021-10-20 15:14:22 公開日:2021-10-19
# ヤコビ多項式を用いたFrank-Wolfeアルゴリズムの高速化

Faster Rates for the Frank-Wolfe Algorithm Using Jacobi Polynomials ( http://arxiv.org/abs/2110.09738v1 )

ライセンス: Link先を確認
Robin Francis and Sundeep Prabhakar Chepuri(参考訳) フランク・ウルフアルゴリズム(FW)は、大規模制約付き最適化問題の解法として人気がある。 しかし、FWアルゴリズムはコンパクト凸集合上の滑らかな凸関数を最小化する際に、サブ線形収束率に悩まされる。 したがって、より高速な収束率をもたらす手法の探索が不可欠となる。 より速いレートを得る古典的なアプローチは、前のイテレートを結合して次のイテレートを得ることである。 本研究では,この手法を fw に拡張し,過去のイテレートを結合する最適な方法は直交ヤコビ多項式の組を用いることであることを示す。 我々はまた,ジャコビ多項式加速FWと呼ばれる多項式ベースの加速手法も導入し,ジャコビ再帰に関する重みを和らげることで,電流イテレートと過去のイテレートを結合する。 ヤコビ多項式のパラメータを慎重に選択することで、より高速な部分線形収束率が得られる。 提案アルゴリズムの有効性を示すために,実データを用いた数値実験を行った。

The Frank Wolfe algorithm (FW) is a popular projection-free alternative for solving large-scale constrained optimization problems. However, the FW algorithm suffers from a sublinear convergence rate when minimizing a smooth convex function over a compact convex set. Thus, exploring techniques that yield a faster convergence rate becomes crucial. A classic approach to obtain faster rates is to combine previous iterates to obtain the next iterate. In this work, we extend this approach to the FW setting and show that the optimal way to combine the past iterates is using a set of orthogonal Jacobi polynomials. We also a polynomial-based acceleration technique, referred to as Jacobi polynomial accelerated FW, which combines the current iterate with the past iterate using combing weights related to the Jacobi recursion. By carefully choosing parameters of the Jacobi polynomials, we obtain a faster sublinear convergence rate. We provide numerical experiments on real datasets to demonstrate the efficacy of the proposed algorithm.
翻訳日:2021-10-20 15:11:29 公開日:2021-10-19
# アダプティブ・フォース・インポンダンス・アクション・スペースを用いたロボットマニピュレーションスキルの学習

Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance Action Space ( http://arxiv.org/abs/2110.09904v1 )

ライセンス: Link先を確認
Maximilian Ulmer, Elie Aljalbout, Sascha Schwarz, and Sami Haddadin(参考訳) インテリジェントなエージェントは、精巧な操作タスクを実行するのに速くて遅いことを考えなければなりません。 強化学習(RL)は、様々な意思決定タスクにおいて多くの有望な結果をもたらした。 しかし、現実世界のロボット工学では、多くの高価なインタラクションを必要とし、フィードバックループが遅いため、これらの手法は依然として苦労している。 一方、高速人間ライクな適応制御手法は複雑なロボットインタラクションを最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。 本研究では,階層的学習と適応アーキテクチャにおける学習問題の要因として,両世界のベストを生かすことを提案する。 このフレームワークは、マルチモーダルな観察を与えられたタスク戦略を最適化する遅い強化学習ポリシーと、マニピュレータの動作、安定性、労力を継続的に最適化する高速でリアルタイムな適応制御ポリシーの2つのコンポーネントから構成される。 AFORCEと呼ばれるバイオインスパイアされたアクション空間を通じて、これらのコンポーネントを組み合わせる。 実ハードウェア上でのコンタクトリッチな操作タスクに新たなアクション空間を実演し、3つのシミュレーション操作タスクのパフォーマンスを評価する。 実験の結果,AFORCEはエネルギー消費を削減し,安全性を向上させるとともに,試料効率を大幅に向上することがわかった。

Intelligent agents must be able to think fast and slow to perform elaborate manipulation tasks. Reinforcement Learning (RL) has led to many promising results on a range of challenging decision-making tasks. However, in real-world robotics, these methods still struggle, as they require large amounts of expensive interactions and have slow feedback loops. On the other hand, fast human-like adaptive control methods can optimize complex robotic interactions, yet fail to integrate multimodal feedback needed for unstructured tasks. In this work, we propose to factor the learning problem in a hierarchical learning and adaption architecture to get the best of both worlds. The framework consists of two components, a slow reinforcement learning policy optimizing the task strategy given multimodal observations, and a fast, real-time adaptive control policy continuously optimizing the motion, stability, and effort of the manipulator. We combine these components through a bio-inspired action space that we call AFORCE. We demonstrate the new action space on a contact-rich manipulation task on real hardware and evaluate its performance on three simulated manipulation tasks. Our experiments show that AFORCE drastically improves sample efficiency while reducing energy consumption and improving safety.
翻訳日:2021-10-20 15:11:13 公開日:2021-10-19
# FedHe: 異種モデルとコミュニケーション効率のよいフェデレーション学習

FedHe: Heterogeneous Models and Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2110.09910v1 )

ライセンス: Link先を確認
Chan Yun Hin and Ngai Edith(参考訳) フェデレーション学習(fl)は、トレーニングデータをローカルおよびプライベートに維持しながら、モデルを協調的にトレーニングするためのエッジデバイスを管理することができる。 flの一般的な仮定の1つは、トレーニング中にすべてのエッジデバイスが同じ機械学習モデルを共有していることである。 しかし、異なるデバイスの計算と格納能力は同じではないかもしれない。 さらに、通信オーバーヘッドを減らすことで、FLでは依然として困難な問題であるが、トレーニング効率を向上させることができる。 本稿では,ヘテロジニアスモデルをトレーニングし,通信オーバーヘッドを大幅に低減した非同期学習プロセスをサポートする,知識蒸留に触発された新しいfl法であるfeedheを提案する。 解析および実験により,提案手法の性能は,通信オーバーヘッドやモデル精度の観点から,最先端のアルゴリズムよりも優れていることが示された。

Federated learning (FL) is able to manage edge devices to cooperatively train a model while maintaining the training data local and private. One common assumption in FL is that all edge devices share the same machine learning model in training, for example, identical neural network architecture. However, the computation and store capability of different devices may not be the same. Moreover, reducing communication overheads can improve the training efficiency though it is still a challenging problem in FL. In this paper, we propose a novel FL method, called FedHe, inspired by knowledge distillation, which can train heterogeneous models and support asynchronous training processes with significantly reduced communication overheads. Our analysis and experimental results demonstrate that the performance of our proposed method is better than the state-of-the-art algorithms in terms of communication overheads and model accuracy.
翻訳日:2021-10-20 15:10:51 公開日:2021-10-19
# オンライン非線形グラフトポロジー同定のためのランダム特徴近似

Random Feature Approximation for Online Nonlinear Graph Topology Identification ( http://arxiv.org/abs/2110.09935v1 )

ライセンス: Link先を確認
Rohan Money, Joshin Krishnan, Baltasar Beferull-Lozano(参考訳) グラフ連結時系列のオンライントポロジー推定は、多くの実世界のネットワークの因果依存性が非線形であるため、特に難しい。 本稿では,グラフトポロジ推定のためのカーネルベースアルゴリズムを提案する。 このアルゴリズムは、フーリエに基づくランダム特徴近似を用いて、カーネル表現に関連する次元の呪いに取り組む。 実世界のネットワークは、しばしば希少なトポロジを示すという事実を露呈し、反復的合成客観的ミラー降下法を用いて解決し、反復ごとに一定の複雑性を持つオンラインアルゴリズムを生成するグループラッソに基づく最適化フレームワークを提案する。 実データおよび合成データを用いて行った実験により,提案手法が競合より優れていることが示された。

Online topology estimation of graph-connected time series is challenging, especially since the causal dependencies in many real-world networks are nonlinear. In this paper, we propose a kernel-based algorithm for graph topology estimation. The algorithm uses a Fourier-based Random feature approximation to tackle the curse of dimensionality associated with the kernel representations. Exploiting the fact that the real-world networks often exhibit sparse topologies, we propose a group lasso based optimization framework, which is solve using an iterative composite objective mirror descent method, yielding an online algorithm with fixed computational complexity per iteration. The experiments conducted on real and synthetic data show that the proposed method outperforms its competitors.
翻訳日:2021-10-20 15:10:13 公開日:2021-10-19
# EEGminer:学習可能なフィルタによる脳活動の解釈可能な特徴の発見

EEGminer: Discovering Interpretable Features of Brain Activity with Learnable Filters ( http://arxiv.org/abs/2110.10009v1 )

ライセンス: Link先を確認
Siegfried Ludwig, Stylianos Bakas, Dimitrios A. Adamos, Nikolaos Laskaris, Yannis Panagakis, Stefanos Zafeiriou(参考訳) 脳の活動パターンは異なる脳のプロセスと関連付けられており、異なる脳の状態を特定し、行動予測を行うのに使用できる。 しかし、関連する機能はすぐには明らかでアクセスできない。 マルチチャネル脳波記録から有意な潜伏表現を抽出するために,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能な脳波復号パイプラインを提案する。 具体的には、安定なエンドツーエンドモデルトレーニングにスムーズな微分を与える一般化ガウス関数によってパラメータ化されたフィルタを導入し、解釈可能な特徴を学習できるようにする。 機能モジュールでは、信号の大きさと機能接続を使用します。 我々は,SEEDデータセット上の脳波信号から感情認識へのモデルの有用性を実証し,前例のない大きさの脳波データセット(773名)を用いて音楽知覚の一貫性のある傾向と関連する個人差を特定する。 発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。 これは文学で提案された音楽知覚に関する時間軸のそれぞれの特殊化と一致する。

Patterns of brain activity are associated with different brain processes and can be used to identify different brain states and make behavioral predictions. However, the relevant features are not readily apparent and accessible. To mine informative latent representations from multichannel EEG recordings, we propose a novel differentiable EEG decoding pipeline consisting of learnable filters and a pre-determined feature extraction module. Specifically, we introduce filters parameterized by generalized Gaussian functions that offer a smooth derivative for stable end-to-end model training and allow for learning interpretable features. For the feature module, we use signal magnitude and functional connectivity. We demonstrate the utility of our model towards emotion recognition from EEG signals on the SEED dataset, as well as on a new EEG dataset of unprecedented size (i.e., 763 subjects), where we identify consistent trends of music perception and related individual differences. The discovered features align with previous neuroscience studies and offer new insights, such as marked differences in the functional connectivity profile between left and right temporal areas during music listening. This agrees with the respective specialisation of the temporal lobes regarding music perception proposed in the literature.
翻訳日:2021-10-20 15:10:01 公開日:2021-10-19
# シングルGPUにおけるグラフ埋め込みの強化

Boosting Graph Embedding on a Single GPU ( http://arxiv.org/abs/2110.10049v1 )

ライセンス: Link先を確認
Amro Alabsi Aljundi, Taha Atahan Aky{\i}ld{\i}z, Kamer Kaya(参考訳) グラフはユビキタスであり、実際のシステムのユニークな特性と複雑な関係をモデル化することができる。 グラフ上で機械学習(ML)を使用することは有望だが、生の表現はMLアルゴリズムには適していない。 グラフ埋め込みは、グラフの各ノードを、よりMLタスクに適したd次元ベクトルとして表現する。 しかし、組み込みプロセスは高価であり、CPUベースのツールは実際のグラフにスケールしない。 本稿では,大規模グラフを最小限のハードウェア制約で埋め込むGPUベースのツールGOSHを提案する。 GOSHは、更新の影響を高め、埋め込み作業を最小限にするため、新しいグラフ粗化アルゴリズムを採用している。 また、任意の任意の大きなグラフを単一のGPUで埋め込むことができる分解スキーマも組み込まれている。 その結果、GOSHは、精度と速度の両方において、新しい最先端のリンク予測を設定し、最先端と比較して、ノード分類のための高品質な埋め込みを提供する。 例えば、6500万の頂点と18億のエッジを持つグラフを1つのGPUに30分以内で埋め込むことができる。

Graphs are ubiquitous, and they can model unique characteristics and complex relations of real-life systems. Although using machine learning (ML) on graphs is promising, their raw representation is not suitable for ML algorithms. Graph embedding represents each node of a graph as a d-dimensional vector which is more suitable for ML tasks. However, the embedding process is expensive, and CPU-based tools do not scale to real-world graphs. In this work, we present GOSH, a GPU-based tool for embedding large-scale graphs with minimum hardware constraints. GOSH employs a novel graph coarsening algorithm to enhance the impact of updates and minimize the work for embedding. It also incorporates a decomposition schema that enables any arbitrarily large graph to be embedded with a single GPU. As a result, GOSH sets a new state-of-the-art in link prediction both in accuracy and speed, and delivers high-quality embeddings for node classification at a fraction of the time compared to the state-of-the-art. For instance, it can embed a graph with over 65 million vertices and 1.8 billion edges in less than 30 minutes on a single GPU.
翻訳日:2021-10-20 15:08:27 公開日:2021-10-19
# リーフリファインメントによるランダム林の精度・メモリトレードオフの改善

Improving the Accuracy-Memory Trade-Off of Random Forests Via Leaf-Refinement ( http://arxiv.org/abs/2110.10075v1 )

ライセンス: Link先を確認
Sebastian Buschj\"ager, Katharina Morik(参考訳) ランダムフォレスト(rf)は多くの機械学習アプリケーションで最先端の分野である。 mlモデルの日常生活への継続的な統合により、モデルのデプロイと継続的適用はますます重要な問題になりつつある。 したがって、予測性能は良好だが少量のメモリを使用する小さなモデルが必要である。 アンサンブルプルーニング(英: Ensemble pruning)は、アンサンブルから不要な分類器を取り除き、リソース消費を減らし、時には元のアンサンブルの性能を向上する標準的な手法である。 本稿では,木がとても大きい「近代的」訓練されたランダム林の文脈で,アンサンブル・プルーニングを再考する。 刈り取りによる改良効果は,大きな木々のアンサンブルに対して低下するが,刈り取りはRFよりも全体的な精度・メモリトレードオフが優れていることを示す。 しかし、プルーニングは木全体をアンサンブルから取り除くため、このトレードオフに対するきめ細かい制御は行わない。 精度とメモリのトレードオフをさらに改善するために,確率勾配勾配による森林の葉ノードの予測を洗練させる,単純かつ驚くほど効果的なアルゴリズムを提案する。 提案手法を7つの最先端プルーニング法に対して評価し,提案手法が16のデータセットのうち11の他の手法よりも統計的に優れた精度・メモリトレードオフを有することを示す。 本手法が実世界の環境で適用可能であることを示すケーススタディを用いて,実験評価を行った。

Random Forests (RF) are among the state-of-the-art in many machine learning applications. With the ongoing integration of ML models into everyday life, the deployment and continuous application of models becomes more and more an important issue. Hence, small models which offer good predictive performance but use small amounts of memory are required. Ensemble pruning is a standard technique to remove unnecessary classifiers from an ensemble to reduce the overall resource consumption and sometimes even improve the performance of the original ensemble. In this paper, we revisit ensemble pruning in the context of `modernly' trained Random Forests where trees are very large. We show that the improvement effects of pruning diminishes for ensembles of large trees but that pruning has an overall better accuracy-memory trade-off than RF. However, pruning does not offer fine-grained control over this trade-off because it removes entire trees from the ensemble. To further improve the accuracy-memory trade-off we present a simple, yet surprisingly effective algorithm that refines the predictions in the leaf nodes in the forest via stochastic gradient descent. We evaluate our method against 7 state-of-the-art pruning methods and show that our method outperforms the other methods on 11 of 16 datasets with a statistically significant better accuracy-memory trade-off compared to most methods. We conclude our experimental evaluation with a case study showing that our method can be applied in a real-world setting.
翻訳日:2021-10-20 15:08:10 公開日:2021-10-19
# FriendlyCore: 差分的なプライベートアグリゲーション

FriendlyCore: Practical Differentially Private Aggregation ( http://arxiv.org/abs/2110.10132v1 )

ライセンス: Link先を確認
Eliad Tsfadia, Edith Cohen, Haim Kaplan, Yishay Mansour, Uri Stemmer(参考訳) クラスタリングや平均化のような一般的なメトリクス集約タスクのための微分プライベートアルゴリズムは、複雑さや正確な結果に必要とされる大量のデータポイントのため、実用性が限られることが多い。 我々は,非制限(pseudo)距離空間を入力として,点集合 ${\cal d}$ を取るための,単純かつ実用的なツール $\mathsf{friendlycore}$ を提案する。 ${\cal D}$ が有効径 $r$, $\mathsf{FriendlyCore}$ を持つとき、${\cal D}_G\subseteq {\cal D}$ はすべての点を含む「安定」部分集合を返します。 $\mathsf{FriendlyCore}$は、プライベートに集約する前に入力を前処理するために使用することができる。 驚いたことに、$\mathsf{FriendlyCore}$は次元に依存しない軽量である。 我々は,平均推定の精度を向上し,調整法を上回ってその利点を実証する。

Differentially private algorithms for common metric aggregation tasks, such as clustering or averaging, often have limited practicality due to their complexity or a large number of data points that is required for accurate results. We propose a simple and practical tool $\mathsf{FriendlyCore}$ that takes a set of points ${\cal D}$ from an unrestricted (pseudo) metric space as input. When ${\cal D}$ has effective diameter $r$, $\mathsf{FriendlyCore}$ returns a "stable" subset ${\cal D}_G\subseteq {\cal D}$ that includes all points, except possibly few outliers, and is {\em certified} to have diameter $r$. $\mathsf{FriendlyCore}$ can be used to preprocess the input before privately aggregating it, potentially simplifying the aggregation or boosting its accuracy. Surprisingly, $\mathsf{FriendlyCore}$ is light-weight with no dependence on the dimension. We empirically demonstrate its advantages in boosting the accuracy of mean estimation, outperforming tailored methods.
翻訳日:2021-10-20 15:07:46 公開日:2021-10-19
# ニューラルネットワーク性能のトポロジ的概要としての活性化景観

Activation Landscapes as a Topological Summary of Neural Network Performance ( http://arxiv.org/abs/2110.10136v1 )

ライセンス: Link先を確認
Matthew Wheeler, Jose Bouza, Peter Bubenik(参考訳) 我々は、トポロジカルデータ分析(TDA)を用いて、ディープニューラルネットワーク(DNN)の連続層を通過するデータがどのように変化するかを研究する。 ネットワークの各層におけるアクティベーションデータの永続的ホモロジーを計算し、その情報を永続的景観を用いて要約する。 得られた特徴マップは、ネットワークの視覚的情報化と、統計分析と機械学習のためのカーネルの両方を提供する。 トポロジカルな複雑性はしばしばトレーニングによって増大し、トポロジカルな複雑性は各層で減少しない。

We use topological data analysis (TDA) to study how data transforms as it passes through successive layers of a deep neural network (DNN). We compute the persistent homology of the activation data for each layer of the network and summarize this information using persistence landscapes. The resulting feature map provides both an informative visual- ization of the network and a kernel for statistical analysis and machine learning. We observe that the topological complexity often increases with training and that the topological complexity does not decrease with each layer.
翻訳日:2021-10-20 15:07:23 公開日:2021-10-19
# 逆問題の画像化のための確率的プリマル・デュアルディープ・アンロールネットワーク

Stochastic Primal-Dual Deep Unrolling Networks for Imaging Inverse Problems ( http://arxiv.org/abs/2110.10093v1 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本稿では,画像逆問題を解くための新しいタイプの高効率ディープロールネットワークを提案する。 古典的なDeep-Unrolling法は各層にまたがる完全フォワード演算子とその結合を必要とするため、特に3次元画像再構成タスクにおいて、FBP-ConvNetのような他のエンドツーエンド手法よりも計算コストが高い。 本稿では,最先端アンローリングネットワークであるLearned Primal-Dual(LPD)の確率的(順序付きサブセット)拡張を提案する。 アンローリングネットワークでは、計算効率を達成するためにフォワード演算子とアジョイント演算子のサブセットのみを使用する。 本研究では,(1)対数データに対する教師付きトレーニング,(2)対数接地データなしでネットワークを訓練できる非教師付き敵対的トレーニング,(3)多くの画像アプリケーションで普及する同変構造を利用した同変自己教師付きトレーニングアプローチ,など,トレーニングデータの可用性の異なるシナリオに対処するための3つの方法を検討する。 数値解析の結果,X線CT画像におけるアプローチの有効性が示され,我々のネットワークは計算のごく一部しか必要とせず,フルバッチLPDと類似の再構成精度を実現していることがわかった。

In this work we present a new type of efficient deep-unrolling networks for solving imaging inverse problems. Classical deep-unrolling methods require full forward operator and its adjoint across each layer, and hence can be computationally more expensive than other end-to-end methods such as FBP-ConvNet, especially in 3D image reconstruction tasks. We propose a stochastic (ordered-subsets) extension of the Learned Primal-Dual (LPD) which is the state-of-the-art unrolling network. In our unrolling network, we only use a subset of the forward and adjoint operator, to achieve computational efficiency. We consider 3 ways of training the proposed network to cope with different scenarios of the availability of the training data, including (1) supervised training on paired data, (2) unsupervised adversarial training which enable us to train the network without paired ground-truth data, (3) equivariant self-supervised training approach, which utilizes equivariant structure which is prevalent in many imaging applications, and only requires measurement data. Our numerical results demonstrate the effectiveness of our approach in X-ray CT imaging task, showing that our networks achieve similar reconstruction accuracies as the full-batch LPD, while require only a fraction of the computation.
翻訳日:2021-10-20 15:07:13 公開日:2021-10-19
# アクティブ騒音制御技術に関する調査研究 -その2:非線形システム-

A survey on active noise control techniques -- Part II: Nonlinear systems ( http://arxiv.org/abs/2110.09672v1 )

ライセンス: Link先を確認
Lu Lu, Kai-Li Yin, Rodrigo C. de Lamare, Zongsheng Zheng, Yi Yu, Xiaomin Yang, Badong Chen(参考訳) 本稿は,過去10年間の線形アクティブノイズコントロール(ANC)技術の発展について概説する。 しかし、ANCシステムはいくつかの非線形成分を扱う必要があり、このシナリオでは線形ANC技術の性能が低下する可能性がある。 この制限を克服するために非線形ANC(NLANC)アルゴリズムを開発した。 パートIIでは,過去10年間のNLANCアルゴリズムの開発について概観する。 ヒューリスティックANCアルゴリズムの貢献について概説する。 さらに, スプラインANCアルゴリズム, カーネル適応フィルタ, 非線形分散ANCアルゴリズムなど, NLANCアルゴリズムの最近の進歩を強調した。 次に、線形および非線形視点を含むANC手法の最近の応用について述べる。 ANC技術に関する今後の研究課題についても論じる。

Part I of this paper reviewed the development of the linear active noise control (ANC) technique in the past decade. However, ANC systems might have to deal with some nonlinear components and the performance of linear ANC techniques may degrade in this scenario. To overcome this limitation, nonlinear ANC (NLANC) algorithms were developed. In Part II, we review the development of NLANC algorithms during the last decade. The contributions of heuristic ANC algorithms are outlined. Moreover, we emphasize recent advances of NLANC algorithms, such as spline ANC algorithms, kernel adaptive filters, and nonlinear distributed ANC algorithms. Then, we present recent applications of ANC technique including linear and nonlinear perspectives. Future research challenges regarding ANC techniques are also discussed.
翻訳日:2021-10-20 15:04:50 公開日:2021-10-19
# ユーザ中心の連合学習

User-Centric Federated Learning ( http://arxiv.org/abs/2110.09869v1 )

ライセンス: Link先を確認
Mohamad Mestoukirdi, Matteo Zecchin, David Gesbert, Qianrui Li, and Nicolas Gresset(参考訳) 参加するデバイス間のデータの異質性は、その収束時間と一般化能力を著しく阻害することが示されているため、フェデレートラーニングにおける主要な課題の1つとなる。 本稿では,パラメータサーバにおいて複数のユーザ中心の集約ルールを用いてパーソナライズを行うことにより,この制限に対処する。 当社のアプローチは、ダウンリンク通信のオーバーヘッドを犠牲にして、各ユーザに対してパーソナライズされたモデルを生成する可能性がある。 本稿では,パーソナライズとコミュニケーション効率のトレードオフを打つために,学習方式の基本的利点を維持しつつ,パーソナライズされたストリーム数を制限するブロードキャストプロトコルを提案する。 シミュレーション結果を通じて,提案手法は,他の競合ソリューションと比較して,パーソナライズ能力,収束の高速化,通信効率の向上を享受できることが示された。

Data heterogeneity across participating devices poses one of the main challenges in federated learning as it has been shown to greatly hamper its convergence time and generalization capabilities. In this work, we address this limitation by enabling personalization using multiple user-centric aggregation rules at the parameter server. Our approach potentially produces a personalized model for each user at the cost of some extra downlink communication overhead. To strike a trade-off between personalization and communication efficiency, we propose a broadcast protocol that limits the number of personalized streams while retaining the essential advantages of our learning scheme. Through simulation results, our approach is shown to enjoy higher personalization capabilities, faster convergence, and better communication efficiency compared to other competing baseline solutions.
翻訳日:2021-10-20 15:04:41 公開日:2021-10-19
# (参考訳) 不完全実世界pmuデータを用いたロバストイベント分類 [全文訳有]

Robust Event Classification Using Imperfect Real-world PMU Data ( http://arxiv.org/abs/2110.10128v1 )

ライセンス: CC BY 4.0
Yunchuan Liu, Lei Yang, Amir Ghasemkhani, Hanif Livani, Virgilio A. Centeno, Pin-Yu Chen, Junshan Zhang(参考訳) 本稿では,不完全な実世界のファサー計測単位(PMU)データを用いたイベント分類について検討する。 実世界のPMUデータを分析することで,PMU測定やイベントログで観測されるデータ品質の低さから,このデータセットをイベント分類器に直接使用することは困難であることがわかった。 これらの課題に対処するために,我々は,データ前処理,きめ細かいイベントデータ抽出,特徴工学という3つの主要なステップからなる,堅牢なイベント分類器をトレーニングするための新しい機械学習フレームワークを開発した。 Specifically, the data preprocessing step addresses the data quality issues of PMU measurements (e.g., bad data and missing data); in the fine-grained event data extraction step, a model-free event detection method is developed to accurately localize the events from the inaccurate event timestamps in the event logs; and the feature engineering step constructs the event features based on the patterns of different event types, in order to improve the performance and the interpretability of the event classifiers. 提案するフレームワークに基づいて,実世界のPMUデータをリアルタイムにシステムにストリーミングするイベント分類ワークフローを開発する。 提案フレームワークを使用すると、ロバストなイベント分類器は、多くの市販の軽量機械学習モデルに基づいて効率的にトレーニングできる。 米国電力送電網のウエスタンインターコネクションから得られた実世界のデータセットを用いた数値実験により,提案手法でトレーニングしたイベント分類器は,低品質データに対して堅牢でありながら高い分類精度を達成できることを示した。

This paper studies robust event classification using imperfect real-world phasor measurement unit (PMU) data. By analyzing the real-world PMU data, we find it is challenging to directly use this dataset for event classifiers due to the low data quality observed in PMU measurements and event logs. To address these challenges, we develop a novel machine learning framework for training robust event classifiers, which consists of three main steps: data preprocessing, fine-grained event data extraction, and feature engineering. Specifically, the data preprocessing step addresses the data quality issues of PMU measurements (e.g., bad data and missing data); in the fine-grained event data extraction step, a model-free event detection method is developed to accurately localize the events from the inaccurate event timestamps in the event logs; and the feature engineering step constructs the event features based on the patterns of different event types, in order to improve the performance and the interpretability of the event classifiers. Based on the proposed framework, we develop a workflow for event classification using the real-world PMU data streaming into the system in real-time. Using the proposed framework, robust event classifiers can be efficiently trained based on many off-the-shelf lightweight machine learning models. Numerical experiments using the real-world dataset from the Western Interconnection of the U.S power transmission grid show that the event classifiers trained under the proposed framework can achieve high classification accuracy while being robust against low-quality data.
翻訳日:2021-10-20 15:01:45 公開日:2021-10-19
# 変分埋め込みリハーサルによるフェデレーションインクリメンタルラーニングにおけるタックリングダイナミクス

Tackling Dynamics in Federated Incremental Learning with Variational Embedding Rehearsal ( http://arxiv.org/abs/2110.09695v1 )

ライセンス: Link先を確認
Tae Jin Park and Kenichi Kumatani and Dimitrios Dimitriadis(参考訳) フェデレートラーニング(Federated Learning)は、トレーニングデータセットが極めて分散し、時間とともに動的に変化するMLの急成長する領域である。 モデルは、ローカルなプライベートデータの均一性または定常性を保証することなく、クライアントのデバイスでトレーニングする必要がある。 タスク内データの生産が増えているため、継続的なトレーニングの必要性も高まっている。 しかし、特にリハーサル手法では、クライアントデータプライバシが大きな制約であるため、両方の方向を同時に追求することは困難である。 本稿では,クライアントが動的に出入り可能な現実的なクライアント登録シナリオに基づいて,FLシナリオにおける漸進的な学習プロセスに対処する新しいアルゴリズムを提案する。 まず,クライアントデータのプライバシを保護するための,深い変動埋め込み方式を提案する。 第二に,モデルが学習した知識をリハーサルできるサーバサイドトレーニング手法を提案する。 最後に,動的クライアント登録シナリオにおけるフェデレーションインクリメンタル学習の性能について検討する。 提案手法は,クライアントの動的登録とクライアントデータのドメインシフトの両面での課題に対処し,ドメイン増分学習におけるオフライントレーニングと同等性を示す。

Federated Learning is a fast growing area of ML where the training datasets are extremely distributed, all while dynamically changing over time. Models need to be trained on clients' devices without any guarantees for either homogeneity or stationarity of the local private data. The need for continual training has also risen, due to the ever-increasing production of in-task data. However, pursuing both directions at the same time is challenging, since client data privacy is a major constraint, especially for rehearsal methods. Herein, we propose a novel algorithm to address the incremental learning process in an FL scenario, based on realistic client enrollment scenarios where clients can drop in or out dynamically. We first propose using deep Variational Embeddings that secure the privacy of the client data. Second, we propose a server-side training method that enables a model to rehearse the previously learnt knowledge. Finally, we investigate the performance of federated incremental learning in dynamic client enrollment scenarios. The proposed method shows parity with offline training on domain-incremental learning, addressing challenges in both the dynamic enrollment of clients and the domain shifting of client data.
翻訳日:2021-10-20 14:45:27 公開日:2021-10-19
# 現実的アクター批判による価値過小評価と過大評価のバランス

Balancing Value Underestimation and Overestimationwith Realistic Actor-Critic ( http://arxiv.org/abs/2110.09712v1 )

ライセンス: Link先を確認
Sicen Li, Gang Wang, Qinyun Tang, Liquan Wang(参考訳) モデルフリー深部強化学習(RL)は、連続制御領域の挑戦に成功している。 しかし、サンプル効率の低さは、これらの手法が現実世界のドメインで広く使われることを妨げている。 本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。 RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。 このような方針を学ぶために,複数の批判者からの不確実性を利用してq関数の様々な信頼度を構築できる不確実性検証q-learningを導入する。 我々はmujocoベンチマークでracを評価し、10倍のサンプル効率と25%の性能改善をsacと比較して達成した。

Model-free deep reinforcement learning (RL) has been successfully applied to challenging continuous control domains. However, poor sample efficiency prevents these methods from being widely used in real-world domains. This paper introduces a novel model-free algorithm, Realistic Actor-Critic(RAC), which can be incorporated with any off-policy RL algorithms to improve sample efficiency. RAC employs Universal Value Function Approximators (UVFA) to simultaneously learn a policy family with the same neural network, each with different trade-offs between underestimation and overestimation. To learn such policies, we introduce uncertainty punished Q-learning, which uses uncertainty from the ensembling of multiple critics to build various confidence-bounds of Q-function. We evaluate RAC on the MuJoCo benchmark, achieving 10x sample efficiency and 25% performance improvement on the most challenging Humanoid environment compared to SAC.
翻訳日:2021-10-20 14:45:09 公開日:2021-10-19
# バッチリプシッツバンド

Batched Lipschitz Bandits ( http://arxiv.org/abs/2110.09722v1 )

ライセンス: Link先を確認
Yasong Feng, Zengfeng Huang, Tianyu Wang(参考訳) 本稿では,リプシッツの報奨が期待され,報奨観測がバッチで収集されるバッチ化リプシッツバンディット問題について検討する。 バッチ化されたフィードバック設定に自然に適合する、Batched Lipschitz Narrowing (BLiN)と呼ばれる新しいランドスケープ認識アルゴリズムを導入する。 特に、ズーム次元 $d_z$ のリプシッツ報酬を持つ$t$ステップ問題に対して、このアルゴリズムは、$ \mathcal{o} \left(t^{\frac{d_z + 1}{d_z + 2}} \right) $ ( \mathcal{o} \left( \frac{\log t}{d_z} \right) $バッチのみを使用して理論的に最適の後悔率を達成する。 B$-バッチを持つ環境において、任意のポリシーに対して$\pi$に対して、期待される後悔が$ \widetilde{\Omega} \left(R_z(T)^\frac{1}{1-\left(\frac{1}{d+2}\right)^B}\right) $, $R_z(T)$はズームする次元の$d_z$に依存するバニラ・リプシッツ包帯の後悔の低い境界であり、$d$はアーム空間の次元であるような問題ケースが存在する。

In this paper, we study the batched Lipschitz bandit problem, where the expected reward is Lipschitz and the reward observations are collected in batches. We introduce a novel landscape-aware algorithm, called Batched Lipschitz Narrowing (BLiN), that naturally fits into the batched feedback setting. In particular, we show that for a $T$-step problem with Lipschitz reward of zooming dimension $d_z$, our algorithm achieves theoretically optimal regret rate of $ \widetilde{\mathcal{O}} \left( T^{\frac{d_z + 1}{d_z + 2}} \right) $ using only $ \mathcal{O} \left( \frac{\log T}{d_z} \right) $ batches. For the lower bound, we show that in an environment with $B$-batches, for any policy $\pi$, there exists a problem instance such that the expected regret is lower bounded by $ \widetilde{\Omega} \left(R_z(T)^\frac{1}{1-\left(\frac{1}{d+2}\right)^B}\right) $, where $R_z (T)$ is the regret lower bound for vanilla Lipschitz bandits that depends on the zooming dimension $d_z$, and $d$ is the dimension of the arm space.
翻訳日:2021-10-20 14:44:54 公開日:2021-10-19
# Deep Tractable Probabilistic Models: the sum-product network case

Explaining Deep Tractable Probabilistic Models: The sum-product network case ( http://arxiv.org/abs/2110.09778v1 )

ライセンス: Link先を確認
Athresh Karanam, Saurabh Mathur, Predrag Radivojac, Kristian Kersting, Sriraam Natarajan(参考訳) 本稿では,確率モデルであるsum-product network (spns) を説明する問題を考える。 本研究では,文脈固有の独立木の概念を定義し,SPNをCSI木に変換する反復アルゴリズムを提案する。 結果のCSIツリーは、ドメインエキスパートに解釈可能かつ説明可能である。 さらに木を圧縮するために、教師付き分類器を装着してCSIを近似する。 人工的, 標準的, 実世界の臨床データセットの広範な評価は, 結果のモデルが性能を損なわずに優れた説明可能性を示すことを示す。

We consider the problem of explaining a tractable deep probabilistic model, the Sum-Product Networks (SPNs).To this effect, we define the notion of a context-specific independence tree and present an iterative algorithm that converts an SPN to a CSI-tree. The resulting CSI-tree is both interpretable and explainable to the domain expert. To further compress the tree, we approximate the CSIs by fitting a supervised classifier. Our extensive empirical evaluations on synthetic, standard, and real-world clinical data sets demonstrate that the resulting models exhibit superior explainability without loss in performance.
翻訳日:2021-10-20 14:44:12 公開日:2021-10-19
# PR-CIM:プロセス耐性計算インメモリのための変分対応バイナリニューラルネットワークフレームワーク

PR-CIM: a Variation-Aware Binary-Neural-Networ k Framework for Process-Resilient Computation-in-memor y ( http://arxiv.org/abs/2110.09962v1 )

ライセンス: Link先を確認
Minh-Son Le, Thi-Nhan Pham, Thanh-Dat Nguyen and Ik-Joon Chang(参考訳) 1ビットの重みとアクティベーションを使用するバイナリニューラルネットワーク(BNN)は、極端量子化によって低消費電力となるため、関心を集めている。 CIM(Computer-in-Memo ry)としてBNNを実装し,メモリアレイ上の乗算と累積をアナログ的に計算することで,ニューラルネットワーク処理のエネルギー効率をさらに向上させることができる。 しかし、アナログcimはプロセス変動がbnnの精度を低下させる潜在的な問題に苦しむ。 モンテカルロシミュレーションにより,SRAMを用いたVGG-9のアナログCIMにおいて,CIFAR-10の分類精度は65nmCMOSのプロセス変動下でも20%以下に低下した。 この問題を克服するために,変動を考慮したBNNフレームワークを提案する。 提案するフレームワークは,SRAMがオンチップメモリとして広く使用されているため,他のメモリをベースとしたBNN CIMに容易に拡張可能であるため,SRAMベースのBNN CIM向けに開発された。 我々は,65nmCMOSのプロセス変動により,SRAMベースのBNN CIMのCIFAR-10精度を10%,10.1%から87.76%,77.74%に改善した。

Binary neural networks (BNNs) that use 1-bit weights and activations have garnered interest as extreme quantization provides low power dissipation. By implementing BNNs as computing-in-memory (CIM), which computes multiplication and accumulations on memory arrays in an analog fashion, namely analog CIM, we can further improve the energy efficiency to process neural networks. However, analog CIMs suffer from the potential problem that process variation degrades the accuracy of BNNs. Our Monte-Carlo simulations show that in an SRAM-based analog CIM of VGG-9, the classification accuracy of CIFAR-10 is degraded even below 20% under process variations of 65nm CMOS. To overcome this problem, we present a variation-aware BNN framework. The proposed framework is developed for SRAM-based BNN CIMs since SRAM is most widely used as on-chip memory, however easily extensible to BNN CIMs based on other memories. Our extensive experimental results show that under process variation of 65nm CMOS, our framework significantly improves the CIFAR-10 accuracies of SRAM-based BNN CIMs, from 10% and 10.1% to 87.76% and 77.74% for VGG-9 and RESNET-18 respectively.
翻訳日:2021-10-20 14:43:59 公開日:2021-10-19
# TsmoBN:フェデレートラーニングにおける未確認クライアントのインターベンショナル一般化

TsmoBN: Interventional Generalization for Unseen Clients in Federated Learning ( http://arxiv.org/abs/2110.09974v1 )

ライセンス: Link先を確認
Meirui Jiang, Xiaofei Zhang, Michael Kamp, Xiaoxiao Li, Qi Dou(参考訳) フェデレーションドラーニング(FL)モデルを非IDデータで見えないクライアントに一般化することは重要なトピックだが、これまで未解決だった。 本研究では,新しい因果的視点からこの問題に取り組むことを提案する。 具体的には,分散学習パラダイムにおけるモデル一般化の課題を説明するために,学習構造因果モデル(scm)を形成する。 そこで本研究では,テスト専用および運動量追跡バッチ正規化(tsmobn)を用いて,flモデルをテストクライアントに一般化する簡易かつ効果的な手法を提案する。 我々は、別のテスト SCM を定式化して因果解析を行い、TsmoBN の重要な要素が特徴の試験固有統計(平均と分散)であることを示す。 このような統計は因果的介入の代理変数と見なすことができる。 さらに,flの一般化境界を考えることで,tsmobn法は,標準モデルテストよりも一般化ギャップの小さいトレーニングとテスト機能分布の相違を低減できることを示す。 実験により,様々な特徴分布とクライアント数を持つ3つのデータセットにおいて,クライアントの非認識化に対する大幅な改善が示された。 提案手法は,既存のドメイン一般化手法と直交した,異なる最先端のフェデレーション学習アルゴリズムに柔軟に適用可能であることに留意すべきである。

Generalizing federated learning (FL) models to unseen clients with non-iid data is a crucial topic, yet unsolved so far. In this work, we propose to tackle this problem from a novel causal perspective. Specifically, we form a training structural causal model (SCM) to explain the challenges of model generalization in a distributed learning paradigm. Based on this, we present a simple yet effective method using test-specific and momentum tracked batch normalization (TsmoBN) to generalize FL models to testing clients. We give a causal analysis by formulating another testing SCM and demonstrate that the key factor in TsmoBN is the test-specific statistics (i.e., mean and variance) of features. Such statistics can be seen as a surrogate variable for causal intervention. In addition, by considering generalization bounds in FL, we show that our TsmoBN method can reduce divergence between training and testing feature distributions, which achieves a lower generalization gap than standard model testing. Our extensive experimental evaluations demonstrate significant improvements for unseen client generalization on three datasets with various types of feature distributions and numbers of clients. It is worth noting that our proposed approach can be flexibly applied to different state-of-the-art federated learning algorithms and is orthogonal to existing domain generalization methods.
翻訳日:2021-10-20 14:43:36 公開日:2021-10-19
# 文脈的MNL需要下における動的価格と取り決め

Dynamic pricing and assortment under a contextual MNL demand ( http://arxiv.org/abs/2110.10018v1 )

ライセンス: Link先を確認
Vineet Goyal and Noemie Perivier(参考訳) 各期間において、販売者は、未知のMNL(Multinomial Logit Model)に基づいて選択した顧客に対して、各商品の価格または商品の価格を決定する。 このような問題は、オンライン小売や広告を含む多くのアプリケーションで発生する。 オンラインニュートンステップアルゴリズム (ons) の変種に基づくランダム化動的価格ポリシーを提案し, 敵対的到着モデルの下では$o(d\sqrt{t}\log(t))$ regret 保証を実現する。 また,問題依存定数$\kappa$ (潜在的に指数関数的に小さい) において,最先端アルゴリズムよりも優れた依存性を実現する,敵対的mnlコンテキストバンディット問題に対する新しい楽観的アルゴリズムを提案する。 我々の後悔の上界は $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$ としてスケールし、既存の $\tilde{O}(d\sqrt{T}/\kappa)$ 保証よりもはるかに強い境界を与える。

We consider dynamic multi-product pricing and assortment problems under an unknown demand over T periods, where in each period, the seller decides on the price for each product or the assortment of products to offer to a customer who chooses according to an unknown Multinomial Logit Model (MNL). Such problems arise in many applications, including online retail and advertising. We propose a randomized dynamic pricing policy based on a variant of the Online Newton Step algorithm (ONS) that achieves a $O(d\sqrt{T}\log(T))$ regret guarantee under an adversarial arrival model. We also present a new optimistic algorithm for the adversarial MNL contextual bandits problem, which achieves a better dependency than the state-of-the-art algorithms in a problem-dependent constant $\kappa$ (potentially exponentially small). Our regret upper bounds scale as $\tilde{O}(d\sqrt{\kappa T}+ \log(T)/\kappa)$, which gives a significantly stronger bound than the existing $\tilde{O}(d\sqrt{T}/\kappa)$ guarantees.
翻訳日:2021-10-20 14:43:14 公開日:2021-10-19
# ハードウェア設計とモデル圧縮共最適化による変圧器の高速化

Accelerating Framework of Transformer by Hardware Design and Model Compression Co-Optimization ( http://arxiv.org/abs/2110.10030v1 )

ライセンス: Link先を確認
Panjie Qi, Edwin Hsing-Mean Sha, Qingfeng Zhuge, Hongwu Peng, Shaoyi Huang, Zhenglun Kong, Yuhong Song, and Bingbing Li(参考訳) 巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。 さらに、技術の発展により、トランスフォーマーモデルを実行するための組み込みデバイスがますます増えています。 異なる制約(密接または緩い)を持つトランスフォーマーモデルでは、異なる計算能力を持つデバイスにデプロイすることができる。 しかし、以前の研究では、デザイナーは複数のデバイスの中で最高のデバイスを選ばなかった。 代わりに、既存のデバイスを使ってモデルをデプロイしたが、それは必ずしも最適ではなく、リソースの未使用につながる可能性がある。 トランスフォーマーの展開課題と最善のデバイスの選択問題に対処するため,アルゴリズムとハードウェアのクローズドループ加速フレームワークを提案する。 データセット、モデル、レイテンシ制約LC、精度制約ACを前提として、我々のフレームワークは両方の制約を満たす最高のデバイスを提供することができる。 高スパース率の圧縮モデルを生成するために,新しい刈り込み手法である階層刈り込み (hp) を提案する。 FPGA実装におけるメモリ使用量を削減するため,HP行列のスパース行列ストレージフォーマットを最適化する。 我々は、並列ランダムアクセスの問題を解決するためにHPを利用するアクセラレータを設計する。 Transformer と TinyBert モデルによる実験により,私たちのフレームワークは,ローエンドデバイスからハイエンドデバイスまで,さまざまな LC と AC の異なるデバイスを見つけることができることがわかった。 私たちのhpは高いスパーシティ比を達成でき、他のスパーシティパターンよりも柔軟です。 本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現する。

State-of-the-art Transformer-based models, with gigantic parameters, are difficult to be accommodated on resource constrained embedded devices. Moreover, with the development of technology, more and more embedded devices are available to run a Transformer model. For a Transformer model with different constraints (tight or loose), it can be deployed onto devices with different computing power. However, in previous work, designers did not choose the best device among multiple devices. Instead, they just used an existing device to deploy model, which was not necessarily the best fit and may lead to underutilization of resources. To address the deployment challenge of Transformer and the problem to select the best device, we propose an algorithm & hardware closed-loop acceleration framework. Given a dataset, a model, latency constraint LC and accuracy constraint AC, our framework can provide a best device satisfying both constraints. In order to generate a compressed model with high sparsity ratio, we propose a novel pruning technique, hierarchical pruning (HP). We optimize the sparse matrix storage format for HP matrix to further reduce memory usage for FPGA implementation. We design a accelerator that takes advantage of HP to solve the problem of concurrent random access. Experiments on Transformer and TinyBert model show that our framework can find different devices for various LC and AC, covering from low-end devices to high-end devices. Our HP can achieve higher sparsity ratio and is more flexible than other sparsity pattern. Our framework can achieve 37x, 1.9x, 1.7x speedup compared to CPU, GPU and FPGA, respectively.
翻訳日:2021-10-20 14:42:51 公開日:2021-10-19
# 変圧器ganを用いた記号推論問題の生成

Generating Symbolic Reasoning Problems with Transformer GANs ( http://arxiv.org/abs/2110.10054v1 )

ライセンス: Link先を確認
Jens U. Kreber and Christopher Hahn(参考訳) シンボル推論ドメインのためのトレーニングデータの構築は困難である。 既存のインスタンスは通常、手作りであり、直接トレーニングするには少なすぎる。 トランスエンコーダを備えたgansおよびwasserstein gansの記号推論領域における有能かつ挑戦的なトレーニングデータを生成する能力について検討した。 我々は最近トランスフォーマーの応用が成功した2つの問題領域(記号数学と検証における時間的仕様)について実験を行った。 自己回帰がなくても、我々のGANモデルは構文的に正しいインスタンスを生成する。 生成したデータは、分類器を訓練する際に実際のトレーニングデータの代用として使用することができ、特に、直接訓練するには小さすぎる実際のデータセットからトレーニングデータを生成することができることを示す。 我々は、ジェネレータの目的に分類器の不確かさ部分を追加することで、元のデータセットよりも分類器の解くのがさらに難しいデータセットが得られることを示す。

Constructing training data for symbolic reasoning domains is challenging: Existing instances are typically hand-crafted and too few to be trained on directly and synthetically generated instances are often hard to evaluate in terms of their meaningfulness. We study the capabilities of GANs and Wasserstein GANs equipped with Transformer encoders to generate sensible and challenging training data for symbolic reasoning domains. We conduct experiments on two problem domains where Transformers have been successfully applied recently: symbolic mathematics and temporal specifications in verification. Even without autoregression, our GAN models produce syntactically correct instances. We show that the generated data can be used as a substitute for real training data when training a classifier, and, especially, that training data can be generated from a real dataset that is too small to be trained on directly. Using a GAN setting also allows us to alter the target distribution: We show that by adding a classifier uncertainty part to the generator objective, we obtain a dataset that is even harder to solve for a classifier than our original dataset.
翻訳日:2021-10-20 14:41:52 公開日:2021-10-19
# TESSERACT: モデル攻撃に対するフェデレーション学習を保護するためのグラディエントフリップスコア

TESSERACT: Gradient Flip Score to Secure Federated Learning Against Model Poisoning Attacks ( http://arxiv.org/abs/2110.10108v1 )

ライセンス: Link先を確認
Atul Sharma, Wei Chen, Joshua Zhao, Qiang Qiu, Somali Chaterji, Saurabh Bagchi(参考訳) 分散学習 - 分散環境でのマルチパーティ分散学習 - は、集中型学習アプローチよりも、モデル中毒攻撃に対して脆弱です。 これは、悪意のあるクライアントが慎重に調整されたモデルアップデートを送信して、グローバルモデルを不正確なものにすることができるためである。 これにより、Krum、Bulyan、FABA、FoolsGoldといったビザンチンに耐性のある連邦学習アルゴリズムの開発が動機となった。 しかし、最近開発された無標的のモデル中毒攻撃は、全ての以前の防御をバイパスできることを示した。 この攻撃は、単にオプティマイザが計算している勾配更新のサインを変更するだけで、悪意のあるクライアントのセットに対して、モデルがオプティマから逸脱してテストエラー率を増加させることができるという直感を使う。 本研究では,この指向性偏差攻撃(最先端のモデル中毒攻撃)に対する防御であるTESSERACTを開発する。 TESSERACTは単純な直観に基づいており、フェデレートされた学習環境では、勾配フリップの特定のパターンが攻撃を示す。 この直感は、異なる学習アルゴリズム、モデル、データセット間で著しく安定している。 TESSERACTは、トレーニング期間中の行動に基づいて、評価スコアを参加クライアントに割り当て、クライアントの重み付けによるコントリビューションを行う。 我々は、TESSERACTが攻撃のホワイトボックスバージョンに対しても堅牢性を提供することを示した。

Federated learning---multi-par ty, distributed learning in a decentralized environment---is vulnerable to model poisoning attacks, even more so than centralized learning approaches. This is because malicious clients can collude and send in carefully tailored model updates to make the global model inaccurate. This motivated the development of Byzantine-resilient federated learning algorithms, such as Krum, Bulyan, FABA, and FoolsGold. However, a recently developed untargeted model poisoning attack showed that all prior defenses can be bypassed. The attack uses the intuition that simply by changing the sign of the gradient updates that the optimizer is computing, for a set of malicious clients, a model can be diverted from the optima to increase the test error rate. In this work, we develop TESSERACT---a defense against this directed deviation attack, a state-of-the-art model poisoning attack. TESSERACT is based on a simple intuition that in a federated learning setting, certain patterns of gradient flips are indicative of an attack. This intuition is remarkably stable across different learning algorithms, models, and datasets. TESSERACT assigns reputation scores to the participating clients based on their behavior during the training phase and then takes a weighted contribution of the clients. We show that TESSERACT provides robustness against even a white-box version of the attack.
翻訳日:2021-10-20 14:41:35 公開日:2021-10-19
# 危険なアクターに気をつけて:安全な運転のための動的環境のリスクを評価する

Watch out for the risky actors: Assessing risk in dynamic environments for safe driving ( http://arxiv.org/abs/2110.09998v1 )

ライセンス: Link先を確認
Saurabh Jha, Yan Miao, Zbigniew Kalbarczyk, Ravishankar K. Iyer(参考訳) 他のアクターで構成される動的な環境での運転は、それぞれのアクターが運転決定に影響を与え、ナビゲーションと安全計画の観点で選択数を大幅に制限するので、本質的に危険なタスクである。 エゴ俳優が遭遇するリスクは、運転シナリオにおける他の俳優の将来の軌跡を予測することに関連する不確実性や運転シナリオに依存する。 しかし、全てのオブジェクトが同様のリスクを負うわけではない。 対象のタイプ、軌道、位置、それに付随する不確実性によっては、ある物体は他の物体よりもはるかに高いリスクを引き起こす。 アクタに関連するリスクが高いほど、リソースと安全計画の観点から、アクタに対してより注意を払う必要があります。 本稿では,世界における各アクターの重要性を計算し,その有用性を示す新たなリスク指標を提案する。

Driving in a dynamic environment that consists of other actors is inherently a risky task as each actor influences the driving decision and may significantly limit the number of choices in terms of navigation and safety plan. The risk encountered by the Ego actor depends on the driving scenario and the uncertainty associated with predicting the future trajectories of the other actors in the driving scenario. However, not all objects pose a similar risk. Depending on the object's type, trajectory, position, and the associated uncertainty with these quantities; some objects pose a much higher risk than others. The higher the risk associated with an actor, the more attention must be directed towards that actor in terms of resources and safety planning. In this paper, we propose a novel risk metric to calculate the importance of each actor in the world and demonstrate its usefulness through a case study.
翻訳日:2021-10-20 14:41:12 公開日:2021-10-19
# Neural Lexicon Reader:外部テキスト知識を活用したエンドツーエンドTSにおける発音誤りの低減

Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by Leveraging External Textual Knowledge ( http://arxiv.org/abs/2110.09698v1 )

ライセンス: Link先を確認
Mutian He, Jingzhou Yang, Lei He, Frank K. Soong(参考訳) エンド・ツー・エンドのttsは、高価な音声コーパスが知識を学ぶために必要な全ての知識と神経モデルをカバーすることが困難であるため、追加の知識を手動で注入する必要があるため、高いデータ要求に苦しむ。 例えば、正規の正書法を使わずに言語における発音の知識を捉えるためには、構造化された大きな発音レキシコンに基づいて複雑なGrapheme-to-phonemeパイプラインを構築する必要がある。 本論文では,token2knowledgeアテンションモジュールを用いて,非構造化外部リソースから知識を抽出するためのフレームワークを提案する。 このフレームワークは、新しいエンドツーエンドttsモデルであるneural lexicon readerを構築し、生のレキシコンテキストから発音を抽出する。 実験により,低リソース,エンドツーエンドの中国語 TTS における発音誤りを大幅に低減し,辞書読解能力は少ないデータ量で他言語に転送できる可能性が示唆された。

End-to-end TTS suffers from high data requirements as it is difficult for both costly speech corpora to cover all necessary knowledge and neural models to learn the knowledge, hence additional knowledge needs to be injected manually. For example, to capture pronunciation knowledge on languages without regular orthography, a complicated grapheme-to-phoneme pipeline needs to be built based on a structured, large pronunciation lexicon, leading to extra, sometimes high, costs to extend neural TTS to such languages. In this paper, we propose a framework to learn to extract knowledge from unstructured external resources using Token2Knowledge attention modules. The framework is applied to build a novel end-to-end TTS model named Neural Lexicon Reader that extracts pronunciations from raw lexicon texts. Experiments support the potential of our framework that the model significantly reduces pronunciation errors in low-resource, end-to-end Chinese TTS, and the lexicon-reading capability can be transferred to other languages with a smaller amount of data.
翻訳日:2021-10-20 14:40:58 公開日:2021-10-19
# 深部畳み込みニューラルネットワークを用いたパノラマX線撮影による骨粗しょう症のスクリーニング

Osteoporosis Prescreening using Panoramic Radiographs through a Deep Convolutional Neural Network with Attention Mechanism ( http://arxiv.org/abs/2110.09662v1 )

ライセンス: Link先を確認
Heng Fan, Jiaxiang Ren, Jie Yang, Yi-Xian Qin, and Haibin Ling(参考訳) 目的。 本研究の目的は,パノラマX線写真から深部畳み込みニューラルネットワーク(CNN)が骨粗しょうを検出できるかどうかを検討することである。 デザインを学ぶ。 70名のパノラマx線写真(prs)を49歳から60歳までの70名の被験者に提供し, 49名, 正常者21名について検討した。 退院型クロスバリデーション手法を用いて,70のトレーニングとテストスプリットを生成した。 具体的には、分割毎に1枚の画像がテストに使われ、残りの69枚の画像がトレーニングに使用された。 siameseアーキテクチャを用いた深層畳み込みニューラルネットワーク(cnn)を,8つの代表トラベキュラ骨領域から抽出したパッチを用いてpr画像の分類を行った(第1図)。 異なるPRパッチの重要性を自動的に学習するために,注目モジュールを深層CNNに統合した。 opa(osteporosis accuracy)、nopa(non-osteoporosi s accuracy)、oa( total accuracy)の3つの指標を用いて評価を行った。 結果だ 提案手法では,opa,nopa,oaスコアを0.667,0.878,0.814とした。 注意モジュールの助けを借りて、OPA、NOPA、OAのスコアは、それぞれ0.714、0.939、0.871に改善された。 結論だ 提案手法は,注意モジュール付き深層cnnを用いて骨粗しょう症前スクリーニングに応用できる有望な結果を得た。

Objectives. The aim of this study was to investigate whether a deep convolutional neural network (CNN) with an attention module can detect osteoporosis on panoramic radiographs. Study Design. A dataset of 70 panoramic radiographs (PRs) from 70 different subjects of age between 49 to 60 was used, including 49 subjects with osteoporosis and 21 normal subjects. We utilized the leave-one-out cross-validation approach to generate 70 training and test splits. Specifically, for each split, one image was used for testing and the remaining 69 images were used for training. A deep convolutional neural network (CNN) using the Siamese architecture was implemented through a fine-tuning process to classify an PR image using patches extracted from eight representative trabecula bone areas (Figure 1). In order to automatically learn the importance of different PR patches, an attention module was integrated into the deep CNN. Three metrics, including osteoporosis accuracy (OPA), non-osteoporosis accuracy (NOPA) and overall accuracy (OA), were utilized for performance evaluation. Results. The proposed baseline CNN approach achieved the OPA, NOPA and OA scores of 0.667, 0.878 and 0.814, respectively. With the help of the attention module, the OPA, NOPA and OA scores were further improved to 0.714, 0.939 and 0.871, respectively. Conclusions. The proposed method obtained promising results using deep CNN with an attention module, which might be applied to osteoporosis prescreening.
翻訳日:2021-10-20 14:40:38 公開日:2021-10-19
# 現代における画像品質評価

Image Quality Assessment in the Modern Age ( http://arxiv.org/abs/2110.09699v1 )

ライセンス: Link先を確認
Kede Ma and Yuming Fang(参考訳) このチュートリアルは、画像品質評価(IQA)の基本理論、方法論、現在の進歩を聴衆に提供する。 行動学的観点から、まず視覚刺激を適切に選択する方法に着目し、主観的品質評価手法を再考する。 次に, 客観的品質評価モデルの設計原則を詳細に提示し, その利点と欠点を詳細に分析した。 ハンドエンジニアリングと(深い)学習ベースの両方の方法がカバーされる。 さらに,従来の客観的品質モデルに対するモデル比較手法の限界を指摘し,「合成による分析」理論に基づく新たな比較手法を導入する。 我々は最後に、IQAの現実世界のマルチメディア応用について論じ、より才能のある研究者やエンジニアが、このエキサイティングで好意的な研究分野に取り組み、オープンな課題のリストを提供する。

This tutorial provides the audience with the basic theories, methodologies, and current progresses of image quality assessment (IQA). From an actionable perspective, we will first revisit several subjective quality assessment methodologies, with emphasis on how to properly select visual stimuli. We will then present in detail the design principles of objective quality assessment models, supplemented by an in-depth analysis of their advantages and disadvantages. Both hand-engineered and (deep) learning-based methods will be covered. Moreover, the limitations with the conventional model comparison methodology for objective quality models will be pointed out, and novel comparison methodologies such as those based on the theory of "analysis by synthesis" will be introduced. We will last discuss the real-world multimedia applications of IQA, and give a list of open challenging problems, in the hope of encouraging more and more talented researchers and engineers devoting to this exciting and rewarding research field.
翻訳日:2021-10-20 14:38:24 公開日:2021-10-19
# 3dmmと3dランドマークの正確な3d顔形状のための相乗効果

Synergy between 3DMM and 3D Landmarks for Accurate 3D Facial Geometry ( http://arxiv.org/abs/2110.09772v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Qiangeng Xu, Ulrich Neumann(参考訳) 本研究では,3次元形状モデル(3dmm)と3次元顔ランドマークの相乗過程から学習し,3次元アライメント,顔配向,3次元顔モデリングなど,完全な3次元顔形状を予測する。 我々のシナジープロセスは、3DMMパラメータと3Dランドマークの表現サイクルを利用する。 3DMMパラメータで構築されたフェイスメッシュから3Dランドマークを抽出し、洗練することができる。 次に、表現方向を反転させ、スパース3Dランドマークからの3DMMパラメータの予測が情報フローを改善することを示す。 3Dランドマークと3DMMパラメータの関係を利用して、協調的により良いパフォーマンスに寄与するシナジープロセスを作成する。 顔形状予測の完全なタスクに対する我々の貢献を広く検証し、様々なシナリオにおいてこれらのタスクに対する優れた、堅牢なパフォーマンスを示す。 特に,高速で正確な顔形状予測を実現するために,単純で広く利用されているネットワーク操作のみを採用する。 コードとデータ: https://choyingw.git hub.io/works/synergy net/

This work studies learning from a synergy process of 3D Morphable Models (3DMM) and 3D facial landmarks to predict complete 3D facial geometry, including 3D alignment, face orientation, and 3D face modeling. Our synergy process leverages a representation cycle for 3DMM parameters and 3D landmarks. 3D landmarks can be extracted and refined from face meshes built by 3DMM parameters. We next reverse the representation direction and show that predicting 3DMM parameters from sparse 3D landmarks improves the information flow. Together we create a synergy process that utilizes the relation between 3D landmarks and 3DMM parameters, and they collaboratively contribute to better performance. We extensively validate our contribution on full tasks of facial geometry prediction and show our superior and robust performance on these tasks for various scenarios. Particularly, we adopt only simple and widely-used network operations to attain fast and accurate facial geometry prediction. Codes and data: https://choyingw.git hub.io/works/Synergy Net/
翻訳日:2021-10-20 14:38:08 公開日:2021-10-19
# CIPS-3D:条件非依存の画素合成に基づくGANの3次元認識ジェネレータ

CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Indepe ndent Pixel Synthesis ( http://arxiv.org/abs/2110.09788v1 )

ライセンス: Link先を確認
Peng Zhou, Lingxi Xie, Bingbing Ni, Qi Tian(参考訳) スタイルベースのGAN(StyleGAN)アーキテクチャは、高品質な画像を生成するための最先端の結果を得たが、カメラのポーズを明確かつ正確に制御することができない。 最近提案されたNeRFベースのGANは、3D対応ジェネレータに大きく進歩したが、高品質な画像を生成することはできなかった。 本稿では,浅いNeRFネットワークと深い暗黙的ニューラル表現(INR)ネットワークからなるスタイルベースの3D対応ジェネレータであるCIPS-3Dを提案する。 生成器は、空間畳み込みやアップサンプリング操作なしに、各画素値を独立に合成する。 さらに,準最適解を示唆する鏡面対称性の問題を診断し,補助判別器を導入することで解決する。 cips-3dは生のシングルビュー画像で訓練され、ffhqの256\times256$の解像度で6.97の印象的なfidで3d認識画像合成の新しい記録を樹立した。 また, CIPS-3Dでは, 転送学習や3次元顔のスタイリングなど, 興味深い方向を示す。 合成結果はビデオとして最もよく見られているので、読者はgithubプロジェクトのhttps://github.com/P eterouZh/CIPS-3Dでチェックすることをお勧めします。

The style-based GAN (StyleGAN) architecture achieved state-of-the-art results for generating high-quality images, but it lacks explicit and precise control over camera poses. The recently proposed NeRF-based GANs made great progress towards 3D-aware generators, but they are unable to generate high-quality images yet. This paper presents CIPS-3D, a style-based, 3D-aware generator that is composed of a shallow NeRF network and a deep implicit neural representation (INR) network. The generator synthesizes each pixel value independently without any spatial convolution or upsampling operation. In addition, we diagnose the problem of mirror symmetry that implies a suboptimal solution and solve it by introducing an auxiliary discriminator. Trained on raw, single-view images, CIPS-3D sets new records for 3D-aware image synthesis with an impressive FID of 6.97 for images at the $256\times256$ resolution on FFHQ. We also demonstrate several interesting directions for CIPS-3D such as transfer learning and 3D-aware face stylization. The synthesis results are best viewed as videos, so we recommend the readers to check our github project at https://github.com/P eterouZh/CIPS-3D
翻訳日:2021-10-20 14:37:50 公開日:2021-10-19
# ニューラルネットワークによる微細構造の再構築:因果的および非因果的アプローチの組み合わせ

Microstructure reconstruction via artificial neural networks: A combination of causal and non-causal approach ( http://arxiv.org/abs/2110.09815v1 )

ライセンス: Link先を確認
Kry\v{s}tof Latka, Martin Do\v{s}k\'a\v{r}, and Jan Zeman(参考訳) 本研究では,スポンジ状構造のサンプル画像再構成におけるニューラルネットワーク(ANN)の適用性を検討した。 そこで本研究では,現在の画素の位相を因果関係に基づいて予測し,その後,非causal annモデルを用いて後処理として再構成画像を平滑化する手法を提案する。 また、参照の空間統計量と再構成標本との差によって定量化されたモデルの予測能力に対する、annモデルの異なる構成(例えば、密結合層数、各層におけるニューロン数、因果関係と非因果関係の両方の大きさ)の影響についても検討する。

We investigate the applicability of artificial neural networks (ANNs) in reconstructing a sample image of a sponge-like microstructure. We propose to reconstruct the image by predicting the phase of the current pixel based on its causal neighbourhood, and subsequently, use a non-causal ANN model to smooth out the reconstructed image as a form of post-processing. We also consider the impacts of different configurations of the ANN model (e.g. number of densely connected layers, number of neurons in each layer, the size of both the causal and non-causal neighbourhood) on the models' predictive abilities quantified by the discrepancy between the spatial statistics of the reference and the reconstructed sample.
翻訳日:2021-10-20 14:37:28 公開日:2021-10-19
# ロバストな焦点定位のためのバイラテラルViT

Bilateral-ViT for Robust Fovea Localization ( http://arxiv.org/abs/2110.09860v1 )

ライセンス: Link先を確認
Sifan Song, Kang Dang, Qinji Yu, Zilong Wang, Frans Coenen, Jionglong Su, Xiaowei Ding(参考訳) foveaは網膜の重要な解剖学的ランドマークである。 卵胞の位置を検出することは多くの網膜疾患の解析に不可欠である。 しかし、fovea領域はしばしばファジィに見えるため、ロバストなfovea局在は依然として困難な問題であり、網膜疾患はその外観をさらに曖昧にする可能性がある。 本稿では,葉の内外両方の情報を統合した視覚変換器 (ViT) による堅牢な葉の局所化を実現する手法を提案する。 提案するバイラテラル・ビジョン・トランスフォーマー(バイラテラル・ビジョン・トランスフォーマー、bilateral-vit)と呼ばれるネットワークは、2つのネットワーク・ブランチから構成されている。 両方のネットワークブランチから符号化された機能は、その後、カスタマイズされたマルチスケール機能融合(MFF)モジュールにマージされる。 包括的実験により,提案手法は病気の画像に対して極めて堅牢であり,MessidorデータセットとPALMデータセットの両方に新たな芸術的状態を確立していることが示された。

The fovea is an important anatomical landmark of the retina. Detecting the location of the fovea is essential for the analysis of many retinal diseases. However, robust fovea localization remains a challenging problem, as the fovea region often appears fuzzy, and retina diseases may further obscure its appearance. This paper proposes a novel vision transformer (ViT) approach that integrates information both inside and outside the fovea region to achieve robust fovea localization. Our proposed network named Bilateral-Vision-Tra nsformer (Bilateral-ViT) consists of two network branches: a transformer-based main network branch for integrating global context across the entire fundus image and a vessel branch for explicitly incorporating the structure of blood vessels. The encoded features from both network branches are subsequently merged with a customized multi-scale feature fusion (MFF) module. Our comprehensive experiments demonstrate that the proposed approach is significantly more robust for diseased images and establishes the new state of the arts on both Messidor and PALM datasets.
翻訳日:2021-10-20 14:37:13 公開日:2021-10-19
# 特徴コントラストマスキング損失による自己教師付きトーンマッピング演算子の学習

Learning a self-supervised tone mapping operator via feature contrast masking loss ( http://arxiv.org/abs/2110.09866v1 )

ライセンス: Link先を確認
Chao Wang, Bin Chen, Hans-Peter Seidel, Karol Myszkowski, and Ana Serrano(参考訳) 高ダイナミックレンジ(HDR)コンテンツは、キャプチャ技術の急速な発展により、ユビキタスになりつつある。 それでも、共通ディスプレイデバイスのダイナミックレンジはまだ限られているため、トーンマッピング(tm)は画像可視化の重要な課題である。 近年の研究では、従来の手法と比較してニューラルネットワークが優れた性能を発揮することが示されているが、これらの学習に基づく手法の結果の質は、トレーニングデータによって制限されている。 既存の作品の多くは、既存のトーンマッピング演算子(しばしば品質基準で導かれる)の最良の結果のキュレートされた選択をトレーニングセットとして使用するため、新たに生成された結果の品質は、そのような演算子のパフォーマンスによって根本的に制限される。 この品質は、トレーニングに使用されるHDRコンテンツのプールによってさらに制限される可能性がある。 本研究では,各hdr画像に対してテスト時間に訓練し,データラベリングを必要とせず,学習に基づく自己教師付きトーンマッピング演算子を提案する。 提案手法の重要な特徴は,コントラスト知覚の基本的な知識に基づいて,HDRとトーンマップ画像の内容を直接比較可能な,慎重に設計された損失関数である。 我々は,従来のVGG特徴マップを特徴コントラストマップに再構成し,地域住民の平均的特徴差を正規化することで,コントラストマスキング効果を考慮し,この目標を達成する。 我々は,パラメータの広範囲なアブレーション研究と探索を行い,客観的な指標と主観的な指標の両方で確認されたように,既存のアプローチを1セットの固定パラメータで上回っていることを示す。

High Dynamic Range (HDR) content is becoming ubiquitous due to the rapid development of capture technologies. Nevertheless, the dynamic range of common display devices is still limited, therefore tone mapping (TM) remains a key challenge for image visualization. Recent work has demonstrated that neural networks can achieve remarkable performance in this task when compared to traditional methods, however, the quality of the results of these learning-based methods is limited by the training data. Most existing works use as training set a curated selection of best-performing results from existing traditional tone mapping operators (often guided by a quality metric), therefore, the quality of newly generated results is fundamentally limited by the performance of such operators. This quality might be even further limited by the pool of HDR content that is used for training. In this work we propose a learning-based self-supervised tone mapping operator that is trained at test time specifically for each HDR image and does not need any data labeling. The key novelty of our approach is a carefully designed loss function built upon fundamental knowledge on contrast perception that allows for directly comparing the content in the HDR and tone mapped images. We achieve this goal by reformulating classic VGG feature maps into feature contrast maps that normalize local feature differences by their average magnitude in a local neighborhood, allowing our loss to account for contrast masking effects. We perform extensive ablation studies and exploration of parameters and demonstrate that our solution outperforms existing approaches with a single set of fixed parameters, as confirmed by both objective and subjective metrics.
翻訳日:2021-10-20 14:36:48 公開日:2021-10-19
# NeuralDiff:エゴ中心のビデオで動く3Dオブジェクトのセグメンテーション

NeuralDiff: Segmenting 3D objects that move in egocentric videos ( http://arxiv.org/abs/2110.09936v1 )

ライセンス: Link先を確認
Vadim Tschernezki, Diane Larlus, Andrea Vedaldi(参考訳) 移動自在なカメラから撮影した生の映像シーケンスを考慮し、観察された3Dシーンを静的な背景と動画シーケンス内を移動する物体を含む動的前景に分解する問題を考察した。 この課題は古典的な背景の減算問題を想起させるものであるが、シーンのすべての部分が静的で動的であるため、カメラの大きな視点の変化により大きな動きが生じるため、はるかに困難である。 特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。 この因子化は、トリプルストリームニューラルネットワークを用いて、対応する帰納バイアスに基づいて異なる動きを説明することによって実現される。 提案手法は,様々な動作を分離し,このタスクで最近のニューラルネットワークのベースラインを上回り,移動物体を正確にセグメント化できることを実証する。 そこで我々は,EPIC-KITCHENSデータセットから,制約のないビデオシーケンス上の動的オブジェクトセグメンテーションのタスクに対する,複雑な3D環境のための新しいベンチマークを作成するために,適切なアノテーションを付加した課題のビデオに対して,実証的に評価を行う。

Given a raw video sequence taken from a freely-moving camera, we study the problem of decomposing the observed 3D scene into a static background and a dynamic foreground containing the objects that move in the video sequence. This task is reminiscent of the classic background subtraction problem, but is significantly harder because all parts of the scene, static and dynamic, generate a large apparent motion due to the camera large viewpoint change. In particular, we consider egocentric videos and further separate the dynamic component into objects and the actor that observes and moves them. We achieve this factorization by reconstructing the video via a triple-stream neural rendering network that explains the different motions based on corresponding inductive biases. We demonstrate that our method can successfully separate the different types of motion, outperforming recent neural rendering baselines at this task, and can accurately segment moving objects. We do so by assessing the method empirically on challenging videos from the EPIC-KITCHENS dataset which we augment with appropriate annotations to create a new benchmark for the task of dynamic object segmentation on unconstrained video sequences, for complex 3D environments.
翻訳日:2021-10-20 14:36:22 公開日:2021-10-19
# ERQA:ビデオ超解法のエッジ保存品質評価

ERQA: Edge-Restoration Quality Assessment for Video Super-Resolution ( http://arxiv.org/abs/2110.09992v1 )

ライセンス: Link先を確認
Anastasia Kirillova, Eugene Lyapustin, Anastasia Antsiferova, Dmitry Vatolin(参考訳) ビデオ・スーパーレゾリューション(VSR)の人気が高まっているにもかかわらず、アップスケールフレームにおける復元された細部の品質を評価する良い方法はまだ存在しない。 いくつかのSR法は間違った数字や全く異なる顔を生成することがある。 メソッドの結果が信頼できるかどうかは、それがいかに真に詳しい詳細を回復するかに依存する。 画像超解像は自然分布を用いて、実際のものと少しだけ類似した高解像度画像を生成することができる。 vsrは、隣のフレームで追加情報を探索し、元のシーンから詳細を復元することができる。 本稿では,本論文で提案するERQA測度について,VSRを用いてモデルの詳細を復元する能力を推定することを目的とする。 エッジが細部や文字認識に重要であるという前提から,我々はエッジ忠実度を基準として選択した。 本研究の実験的検証はmsu video super- resolution benchmark(msu video super- resolution benchmark)に基づく。 提案されたメトリックのコードはhttps://github.com/m su-video-group/ERQAで公開されている。

Despite the growing popularity of video super-resolution (VSR), there is still no good way to assess the quality of the restored details in upscaled frames. Some SR methods may produce the wrong digit or an entirely different face. Whether a method's results are trustworthy depends on how well it restores truthful details. Image super-resolution can use natural distributions to produce a high-resolution image that is only somewhat similar to the real one. VSR enables exploration of additional information in neighboring frames to restore details from the original scene. The ERQA metric, which we propose in this paper, aims to estimate a model's ability to restore real details using VSR. On the assumption that edges are significant for detail and character recognition, we chose edge fidelity as the foundation for this metric. Experimental validation of our work is based on the MSU Video Super-Resolution Benchmark, which includes the most difficult patterns for detail restoration and verifies the fidelity of details from the original frame. Code for the proposed metric is publicly available at https://github.com/m su-video-group/ERQA.
翻訳日:2021-10-20 14:35:58 公開日:2021-10-19
# 自動音声認識のための音声パターンに基づくブラックボックスモデル透かし

Speech Pattern based Black-box Model Watermarking for Automatic Speech Recognition ( http://arxiv.org/abs/2110.09814v1 )

ライセンス: Link先を確認
Haozhe Chen, Weiming Zhang, Kunlin Liu, Kejiang Chen, Han Fang, Nenghai Yu(参考訳) 知的財産権(IP)保護の有効な方法として、音声分類モデルを含む多種多様なディープニューラルネットワーク(DNN)にモデル透かし技術が適用されている。 しかし、自動音声認識(ASR)モデルのためのブラックボックス透かし方式を設計する方法はまだ未解決の問題であり、クラウドサーバにデプロイされるリモートASRアプリケーションプログラミングインタフェース(API)を保護する上で大きな需要がある。 ASRモデルの条件付き独立仮定とラベル検出に基づく回避攻撃リスクのため、音声分類モデルのブラックボックスモデル透かし方式はASRモデルには適用できない。 本稿では,ASRモデルのIPを保護するための最初のブラックボックスモデル透かしフレームワークを提案する。 具体的には、モデル所有者の音声クリップを入力オーディオ全体にわたって広め、トリガーオーディオにステゴテキストをラベル付けすることでトリガーオーディオを合成し、著者情報を言語ステガノグラフィで隠蔽する。 最先端のオープンソースのASRシステムであるDeepSpeechの実験は、5種類の攻撃に対して堅牢で精度にはほとんど影響しないウォーターマーキング方式の実現可能性を示している。

As an effective method for intellectual property (IP) protection, model watermarking technology has been applied on a wide variety of deep neural networks (DNN), including speech classification models. However, how to design a black-box watermarking scheme for automatic speech recognition (ASR) models is still an unsolved problem, which is a significant demand for protecting remote ASR Application Programming Interface (API) deployed in cloud servers. Due to conditional independence assumption and label-detection-base d evasion attack risk of ASR models, the black-box model watermarking scheme for speech classification models cannot apply to ASR models. In this paper, we propose the first black-box model watermarking framework for protecting the IP of ASR models. Specifically, we synthesize trigger audios by spreading the speech clips of model owners over the entire input audios and labeling the trigger audios with the stego texts, which hides the authorship information with linguistic steganography. Experiments on the state-of-the-art open-source ASR system DeepSpeech demonstrate the feasibility of the proposed watermarking scheme, which is robust against five kinds of attacks and has little impact on accuracy.
翻訳日:2021-10-20 14:34:53 公開日:2021-10-19
# 短期負荷予測における統計的学習の高度化

Advanced Statistical Learning on Short Term Load Process Forecasting ( http://arxiv.org/abs/2110.09920v1 )

ライセンス: Link先を確認
Junjie Hu, Brenda L\'opez Cabrera, Awdesch Melzer(参考訳) 電力消費者の効果的なスケジューリング、運用最適化取引、意思決定には短期負荷予測(stlf)が必要である。 現代的かつ効率的な機械学習手法は、非線形時間依存構造を特徴とする複雑な構造的ビッグデータを管理するためにリコールされている。 ハードタイプデータセットの課題を管理するために, 異なる統計非線形モデルを提案し, 2日以内の電力負荷を15分程度予測する。 化学生産施設の生産ラインに適用された長短項メモリ(LSTM)とGRU(Gated Recurrent Unit)モデルは,Diebold-Mariano(DM) テストによるサンプル外予測精度において,他の予測モデルよりも優れていることを示す。 予測情報は電力消費者のリスクと生産管理の基盤である。

Short Term Load Forecast (STLF) is necessary for effective scheduling, operation optimization trading, and decision-making for electricity consumers. Modern and efficient machine learning methods are recalled nowadays to manage complicated structural big datasets, which are characterized by having a nonlinear temporal dependence structure. We propose different statistical nonlinear models to manage these challenges of hard type datasets and forecast 15-min frequency electricity load up to 2-days ahead. We show that the Long-short Term Memory (LSTM) and the Gated Recurrent Unit (GRU) models applied to the production line of a chemical production facility outperform several other predictive models in terms of out-of-sample forecasting accuracy by the Diebold-Mariano (DM) test with several metrics. The predictive information is fundamental for the risk and production management of electricity consumers.
翻訳日:2021-10-20 14:34:33 公開日:2021-10-19
# 滑らかな信号からの高速化グラフ学習

Accelerated Graph Learning from Smooth Signals ( http://arxiv.org/abs/2110.09677v1 )

ライセンス: Link先を確認
Seyed Saman Saboksayr and Gonzalo Mateos(参考訳) 結節観測に先立って,信号の滑らかさを考慮したネットワークトポロジ同定を行った。 高速双対型近位勾配アルゴリズムを開発し,高品位グラフ解を得られることで知られる,強凸,平滑度正規化ネットワーク逆問題に効率的に取り組む。 既存の解法とは異なり、新しい反復はグローバル収束率を保証するとともに、追加のステップサイズチューニングを必要としない。 再現可能なシミュレーションテストは, 提案手法の有効性を実証し, ランダムグラフや実世界のグラフを精度良く復元し, 最先端のグラフよりも著しく高速で, 余分な計算負荷を伴わないことを示した。

We consider network topology identification subject to a signal smoothness prior on the nodal observations. A fast dual-based proximal gradient algorithm is developed to efficiently tackle a strongly convex, smoothness-regulariz ed network inverse problem known to yield high-quality graph solutions. Unlike existing solvers, the novel iterations come with global convergence rate guarantees and do not require additional step-size tuning. Reproducible simulated tests demonstrate the effectiveness of the proposed method in accurately recovering random and real-world graphs, markedly faster than state-of-the-art alternatives and without incurring an extra computational burden.
翻訳日:2021-10-20 14:33:23 公開日:2021-10-19
# (参考訳) 意味的相性を用いた慣用的表現同定 [全文訳有]

Idiomatic Expression Identification using Semantic Compatibility ( http://arxiv.org/abs/2110.10064v1 )

ライセンス: CC BY 4.0
Ziheng Zeng and Suma Bhat(参考訳) 慣用表現は自然言語の不可欠な部分であり、常に言語に追加される。 それらの非構成性や、知覚的文脈によって表現的あるいは文字通りの意味をとる能力から、それらはNLPシステムにおける古典的な挑戦である。 この課題に対処するために、文が慣用的な表現を持つかどうかを検出し、それを局所化するタスクについて検討する。 このタスクの先行技術は、新しいイディオムへの一般化可能性の限られた見解を提供する慣用表現の特定のクラスを研究していた。 本稿では,これらの表現を識別するための注意フロー機構を備えた多段階ニューラルアーキテクチャを提案する。 このネットワークは、単語とサブワードの表現を用いて、文脈情報と語彙情報を異なるレベルで効果的に融合する。 様々な構文パターンの慣用的表現と非構成性の度合いを持つ最大3つのベンチマークデータセットの実証的評価により,提案モデルが新たな最先端結果を得ることを示す。 このモデルの注目すべき特徴は、トレーニング中に認識できないイディオムを識別する能力であり、最大のデータセットの競合ベースラインよりも1.4%から30.8%向上している。

Idiomatic expressions are an integral part of natural language and constantly being added to a language. Owing to their non-compositionality and their ability to take on a figurative or literal meaning depending on the sentential context, they have been a classical challenge for NLP systems. To address this challenge, we study the task of detecting whether a sentence has an idiomatic expression and localizing it. Prior art for this task had studied specific classes of idiomatic expressions offering limited views of their generalizability to new idioms. We propose a multi-stage neural architecture with the attention flow mechanism for identifying these expressions. The network effectively fuses contextual and lexical information at different levels using word and sub-word representations. Empirical evaluations on three of the largest benchmark datasets with idiomatic expressions of varied syntactic patterns and degrees of non-compositionality show that our proposed model achieves new state-of-the-art results. A salient feature of the model is its ability to identify idioms unseen during training with gains from 1.4% to 30.8% over competitive baselines on the largest dataset.
翻訳日:2021-10-20 14:32:11 公開日:2021-10-19
# 異常を再構築しない学習

Learning Not to Reconstruct Anomalies ( http://arxiv.org/abs/2110.09742v1 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Jae-Yeong Lee, Seung-Ik Lee(参考訳) ビデオ異常検出は、異常例が限られているため、一級分類(OCC)問題と見なされることが多い。 通常、この問題に対処するために、オートエンコーダ(AE)が訓練され、通常のデータのみからなるトレーニングセットで入力を再構築する。 テスト時には、AEは異常なデータを十分に再構成しつつ、正常なデータを適切に再構成することが期待される。 しかしながら、いくつかの研究は、通常のデータトレーニングのみであっても、AEは異常検出性能を低下させるような異常の再構築を始めることができることを示した。 この問題を緩和するために,入力(通常または異常)に関係なく,通常のデータのみを再構成する目的でAEを訓練する新しい手法を提案する。 OCC設定では実際の異常は利用できないため、トレーニングは通常のデータを操作して正規データ分布をシミュレートする擬似異常によって支援される。 さらに,パッチとスキップフレームに基づく擬似異常を生成する2つの方法を提案する。 3つの難解なビデオ異常データセットに関する広範囲な実験により、従来のaesの改善と最先端の性能向上に本手法の有効性が示された。

Video anomaly detection is often seen as one-class classification (OCC) problem due to the limited availability of anomaly examples. Typically, to tackle this problem, an autoencoder (AE) is trained to reconstruct the input with training set consisting only of normal data. At test time, the AE is then expected to well reconstruct the normal data while poorly reconstructing the anomalous data. However, several studies have shown that, even with only normal data training, AEs can often start reconstructing anomalies as well which depletes the anomaly detection performance. To mitigate this problem, we propose a novel methodology to train AEs with the objective of reconstructing only normal data, regardless of the input (i.e., normal or abnormal). Since no real anomalies are available in the OCC settings, the training is assisted by pseudo anomalies that are generated by manipulating normal data to simulate the out-of-normal-data distribution. We additionally propose two ways to generate pseudo anomalies: patch and skip frame based. Extensive experiments on three challenging video anomaly datasets demonstrate the effectiveness of our method in improving conventional AEs, achieving state-of-the-art performance.
翻訳日:2021-10-20 14:07:17 公開日:2021-10-19
# ぼやけた地面ベースの空/雲画像の検出

Detecting Blurred Ground-based Sky/Cloud Images ( http://arxiv.org/abs/2110.09764v1 )

ライセンス: Link先を確認
Mayank Jain, Navya Jain, Yee Hui Lee, Stefan Winkler, and Soumyabrata Dev(参考訳) 地上のスカイイメージ装置(WSI)は、様々な分野の研究者によって大気イベントの研究に利用されている。 これらの地上カメラは、定期的に空の可視光画像を撮影する。 大気干渉とカメラセンサノイズのため、撮像された画像はしばしばノイズとぼやけを示す。 これはその後の画像処理段階で問題を引き起こす可能性がある。 したがって、ぼやけた画像を正確に識別することが重要である。 雲は様々な形状、テクスチャ、柔らかい縁を持ち、空は均質で均一な背景として振る舞うため、これは難しい作業である。 本稿では,ぼやけた空/雲の画像を識別する効率的なフレームワークを提案する。 提案手法では,静的な外部マーカーを用いて94\%の検出精度を示す。 私たちの知る限りでは、地上の空/雲画像のぼやけた画像を自動的に識別する手法は、私たちのアプローチが初めてです。

Ground-based whole sky imagers (WSIs) are being used by researchers in various fields to study the atmospheric events. These ground-based sky cameras capture visible-light images of the sky at regular intervals of time. Owing to the atmospheric interference and camera sensor noise, the captured images often exhibit noise and blur. This may pose a problem in subsequent image processing stages. Therefore, it is important to accurately identify the blurred images. This is a difficult task, as clouds have varying shapes, textures, and soft edges whereas the sky acts as a homogeneous and uniform background. In this paper, we propose an efficient framework that can identify the blurred sky/cloud images. Using a static external marker, our proposed methodology has a detection accuracy of 94\%. To the best of our knowledge, our approach is the first of its kind in the automatic identification of blurred images for ground-based sky/cloud images.
翻訳日:2021-10-20 14:07:00 公開日:2021-10-19
# 合成時間異常ガイドによるエンドツーエンドビデオ異常検出

Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection ( http://arxiv.org/abs/2110.09768v1 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee(参考訳) 異常な例が限られているため、ビデオ異常検出はワンクラス分類(OCC)問題と見なされることが多い。 この問題に対処する一般的な方法は、通常のデータのみに基づいてトレーニングされたオートエンコーダ(AE)を使用することである。 テスト時には、AEは正常な入力を十分に再構成し、異常を十分に再構築することが期待される。 しかし、いくつかの研究では、通常のデータのみのトレーニングであっても、aesは異常を再構築し始め、異常検出性能を損なうことが示されている。 そこで本研究では,正規データのみを用いて偽異常を生成する時間的擬似異常シンセサイザーを提案する。 AEは、通常のデータでこの損失を最小化しつつ、擬似異常の復元損失を最大化するように訓練される。 このようにして、AEは通常のフレームと異常フレームの区別可能な再構築を推奨する。 3つの挑戦的ビデオ異常データセットの大規模な実験と解析により、既存の最先端モデルに対して優位性を得る上で、基本AEを改善するアプローチの有効性が示された。

Due to the limited availability of anomaly examples, video anomaly detection is often seen as one-class classification (OCC) problem. A popular way to tackle this problem is by utilizing an autoencoder (AE) trained only on normal data. At test time, the AE is then expected to reconstruct the normal input well while reconstructing the anomalies poorly. However, several studies show that, even with normal data only training, AEs can often start reconstructing anomalies as well which depletes their anomaly detection performance. To mitigate this, we propose a temporal pseudo anomaly synthesizer that generates fake-anomalies using only normal data. An AE is then trained to maximize the reconstruction loss on pseudo anomalies while minimizing this loss on normal data. This way, the AE is encouraged to produce distinguishable reconstructions for normal and anomalous frames. Extensive experiments and analysis on three challenging video anomaly datasets demonstrate the effectiveness of our approach to improve the basic AEs in achieving superiority against several existing state-of-the-art models.
翻訳日:2021-10-20 14:06:47 公開日:2021-10-19
# HM-Net:広域動画像のオブジェクトセンター検出と追跡のための回帰ネットワーク

HM-Net: A Regression Network for Object Center Detection and Tracking on Wide Area Motion Imagery ( http://arxiv.org/abs/2110.09881v1 )

ライセンス: Link先を確認
Hakki Motorcu, Hasan F. Ates, H. Fatih Ugurdag, and Bahadir Gunturk(参考訳) ワイド・エリア・モーション・イメージリー(WAMI)は、多数の非常に小さなオブジェクトを持つ高解像度画像を生成する。 ターゲットオブジェクトは連続したフレームを通して大きな空間変位を持つ。 このwami画像の性質は、物体の追跡と検出を困難にする。 本稿では,深層ニューラルネットワークを用いた物体検出・追跡モデルであるヒートマップネットワーク(hm-net)について述べる。 HM-Netは、検出と追跡性能を損なうことなく、最先端のフレーム差分法やバックグラウンドサブトラクション法よりも大幅に高速である。 HM-Netはオブジェクト中心に基づく共同検出と追跡のパラダイムに従う。 単純なヒートマップに基づく予測は、無限個の同時検出をサポートする。 提案手法では,従来のフレームから得られた物体検出ヒートマップを入力として,フレーム間の時空間変化をhm-netが監視し,予測した物体の追跡を行う。 事前の物体検出熱マップの再利用は、重要なフィードバックに基づくメモリ要素として機能するが、意図しない偽陽性検出の急増につながる可能性がある。 偽陽性に対する手法の堅牢性を高め、信頼性の低い検出をなくすため、HM-Netは新たなフィードバックフィルタと高度なデータ拡張を採用している。 HM-Netは、96.2%のF1と94.4%のmAP検出スコアでWPAFBデータセット上で、最先端のWAMI移動物体検出と追跡手法を上回り、同じデータセット上で61.8%のmAPトラッキングスコアを達成した。

Wide Area Motion Imagery (WAMI) yields high resolution images with a large number of extremely small objects. Target objects have large spatial displacements throughout consecutive frames. This nature of WAMI images makes object tracking and detection challenging. In this paper, we present our deep neural network-based combined object detection and tracking model, namely, Heat Map Network (HM-Net). HM-Net is significantly faster than state-of-the-art frame differencing and background subtraction-based methods, without compromising detection and tracking performances. HM-Net follows object center-based joint detection and tracking paradigm. Simple heat map-based predictions support unlimited number of simultaneous detections. The proposed method uses two consecutive frames and the object detection heat map obtained from the previous frame as input, which helps HM-Net monitor spatio-temporal changes between frames and keeps track of previously predicted objects. Although reuse of prior object detection heat map acts as a vital feedback-based memory element, it can lead to unintended surge of false positive detections. To increase robustness of the method against false positives and to eliminate low confidence detections, HM-Net employs novel feedback filters and advanced data augmentations. HM-Net outperforms state-of-the-art WAMI moving object detection and tracking methods on WPAFB dataset with its 96.2% F1 and 94.4% mAP detection scores, while achieving a 61.8% mAP tracking score on the same dataset.
翻訳日:2021-10-20 14:05:07 公開日:2021-10-19
# セントロイドコントラスト学習によるテールクラス表現の改善

Improving Tail-Class Representation with Centroid Contrastive Learning ( http://arxiv.org/abs/2110.10048v1 )

ライセンス: Link先を確認
Anthony Meng Huat Tiong, Junnan Li, Guosheng Lin, Boyang Li, Caiming Xiong, Steven C.H. Hoi(参考訳) 視覚領域では、大規模自然データセットは通常、頭と尾の間の大きなクラス不均衡を持つ長い尾の分布を示す。 この分布はテールクラスのよい表現を学ぶのに困難をもたらす。 最近の研究では、トレーニングを表現学習と分類器のバランスに分離することで、優れたロングテールモデルが学習できることが示されている。 しかし,これらの研究は,表現学習に対する長期的影響について十分考慮していない。 本研究では,長期表現学習を改善するために,補間型セントロイドコントラスト学習(ICCL)を提案する。 ICCLは、クラス別サンプルとクラス別サンプルの2つの画像を補間し、補間画像の表現を使って、両方のソースクラスのセントロイドを検索できるようにモデルを訓練する。 提案手法の有効性を複数の長期画像分類ベンチマークで示す。 その結果,実世界のロングテール分布を持つinaturalist 2018データセットの精度は2.8%向上した。

In vision domain, large-scale natural datasets typically exhibit long-tailed distribution which has large class imbalance between head and tail classes. This distribution poses difficulty in learning good representations for tail classes. Recent developments have shown good long-tailed model can be learnt by decoupling the training into representation learning and classifier balancing. However, these works pay insufficient consideration on the long-tailed effect on representation learning. In this work, we propose interpolative centroid contrastive learning (ICCL) to improve long-tailed representation learning. ICCL interpolates two images from a class-agnostic sampler and a class-aware sampler, and trains the model such that the representation of the interpolative image can be used to retrieve the centroids for both source classes. We demonstrate the effectiveness of our approach on multiple long-tailed image classification benchmarks. Our result shows a significant accuracy gain of 2.8% on the iNaturalist 2018 dataset with a real-world long-tailed distribution.
翻訳日:2021-10-20 14:04:24 公開日:2021-10-19
# 個人行動認識における聴覚的相対ノルムアライメントによるドメインの一般化

Domain Generalization through Audio-Visual Relative Norm Alignment in First Person Action Recognition ( http://arxiv.org/abs/2110.10101v1 )

ライセンス: Link先を確認
Mirco Planamente, Chiara Plizzari, Emanuele Alberti, Barbara Caputo(参考訳) first person action recognitionは、ウェアラブルカメラの人気が高まり、ますます研究されている分野になりつつある。 これは、この文脈でまだ解決されていない、軽いドメイン横断の問題をもたらします。 実際、学習された表現から抽出された情報は内在的な「環境バイアス」に苦しむ。 これは、見えないシナリオに一般化する能力に強く影響し、トレーニング中にラベル付きデータが利用できない実際の設定に現在のメソッドの適用を制限する。 本研究では,自己中心的活動認識のための最初の領域一般化手法として,相対ノルムアライメント損失(Relative Norm Alignment loss)という新たな聴覚的損失を提案する。 トレーニング中の2つのモダリティからの貢献を、機能規範表現の調整によって、異なるドメインで再バランスさせる。 提案手法は, EPIC-Kitchens-55とEPIC-Kitchens-100の両領域の一般化において, 広範な実験により実証され, ドメイン適応設定にも拡張可能である。

First person action recognition is becoming an increasingly researched area thanks to the rising popularity of wearable cameras. This is bringing to light cross-domain issues that are yet to be addressed in this context. Indeed, the information extracted from learned representations suffers from an intrinsic "environmental bias". This strongly affects the ability to generalize to unseen scenarios, limiting the application of current methods to real settings where labeled data are not available during training. In this work, we introduce the first domain generalization approach for egocentric activity recognition, by proposing a new audio-visual loss, called Relative Norm Alignment loss. It re-balances the contributions from the two modalities during training, over different domains, by aligning their feature norm representations. Our approach leads to strong results in domain generalization on both EPIC-Kitchens-55 and EPIC-Kitchens-100, as demonstrated by extensive experiments, and can be extended to work also on domain adaptation settings with competitive results.
翻訳日:2021-10-20 14:04:07 公開日:2021-10-19
# テンプレートなし逆合成と反応予測のための置換不変グラフ列列モデル

Permutation invariant graph-to-sequence model for template-free retrosynthesis and reaction prediction ( http://arxiv.org/abs/2110.09681v1 )

ライセンス: Link先を確認
Zhengkai Tu, Connor W. Coley(参考訳) 合成計画と反応結果予測は、様々なデータ駆動アプローチが出現したコンピュータ支援有機化学における2つの基本的な問題である。 各問題をSMILESからSMILESへの変換としてモデル化する自然言語アプローチは、単純なエンドツーエンドの定式化をもたらし、データ前処理の必要性を低減し、最適化された機械翻訳モデルアーキテクチャの使用を可能にする。 しかし、SMILESの表現は、経験的性能を高めるためのSMILES増強の成功によって証明されたように、分子構造に関する情報を取得するための効率的な表現ではない。 本稿では、テキスト生成のためのTransformerモデルのパワーと、入力データ拡張の必要性を緩和する分子グラフエンコーダの置換不変性を組み合わせた、新しいGraph2SMILESモデルについて述べる。 エンドツーエンドアーキテクチャとして、Graph2SMILESは、分子から分子への変換を含むあらゆるタスクにおいて、Transformerのドロップイン置換として使用できる。 我々のエンコーダでは,D-MPNN(At attention-augmented Direct Message Passing Neural Network)が局所的な化学環境を捕捉し,グローバルアテンションエンコーダは,グラフ認識位置埋め込みによって強化された長距離および分子間相互作用を可能にする。 Graph2SMILESは、USPTO_480kデータセットとUSPTO_STEREOデータセットの反応結果予測で1.7\%と1.9\%、USPTO_50kデータセットで1段階の逆合成で9.8\%の改善を行う。

Synthesis planning and reaction outcome prediction are two fundamental problems in computer-aided organic chemistry for which a variety of data-driven approaches have emerged. Natural language approaches that model each problem as a SMILES-to-SMILES translation lead to a simple end-to-end formulation, reduce the need for data preprocessing, and enable the use of well-optimized machine translation model architectures. However, SMILES representations are not an efficient representation for capturing information about molecular structures, as evidenced by the success of SMILES augmentation to boost empirical performance. Here, we describe a novel Graph2SMILES model that combines the power of Transformer models for text generation with the permutation invariance of molecular graph encoders that mitigates the need for input data augmentation. As an end-to-end architecture, Graph2SMILES can be used as a drop-in replacement for the Transformer in any task involving molecule(s)-to-molec ule(s) transformations. In our encoder, an attention-augmented directed message passing neural network (D-MPNN) captures local chemical environments, and the global attention encoder allows for long-range and intermolecular interactions, enhanced by graph-aware positional embedding. Graph2SMILES improves the top-1 accuracy of the Transformer baselines by $1.7\%$ and $1.9\%$ for reaction outcome prediction on USPTO_480k and USPTO_STEREO datasets respectively, and by $9.8\%$ for one-step retrosynthesis on the USPTO_50k dataset.
翻訳日:2021-10-20 14:03:15 公開日:2021-10-19
# (参考訳) ステートフルオフライン環境政策評価と学習

Stateful Offline Contextual Policy Evaluation and Learning ( http://arxiv.org/abs/2110.10081v1 )

ライセンス: CC BY 4.0
Nathan Kallus, Angela Zhou(参考訳) エージェント行動に対する未知の個人レベルの応答を発生させる,コンテキストとの出現列との反復的な相互作用から生じるマルコフ決定過程の構造化クラスにおいて,オフ・ポリシー評価と逐次データからの学習について検討した。 このモデルは、リソース制約を伴うコンテキストバンディットのオフラインの一般化と考えることができる。 動的なパーソナライズ価格や運用管理の問題といった問題の関連する因果構造を,高次元ユーザ型の存在下で定式化する。 重要な洞察は、個々のレベルの応答は状態変数に因果的に影響されず、したがって時間ステップや状態間で容易に一般化できるということである。 このことが真実であれば,単一の時間ステップ評価を活用し,集団からのデータによる1回の到着に対する期待値を推定し,限界mdpにおける適合価値反復を行うことで,オフ・ポリシー評価と学習の意義について検討する。 我々はサンプルの複雑さを調査し、時間とともにエラーを結合する永続性に繋がるエラー増幅を分析する。 動的および静電容量化価格のシミュレーションでは,本クラスにおける外部ポリシー性能の改善が示された。

We study off-policy evaluation and learning from sequential data in a structured class of Markov decision processes that arise from repeated interactions with an exogenous sequence of arrivals with contexts, which generate unknown individual-level responses to agent actions. This model can be thought of as an offline generalization of contextual bandits with resource constraints. We formalize the relevant causal structure of problems such as dynamic personalized pricing and other operations management problems in the presence of potentially high-dimensional user types. The key insight is that an individual-level response is often not causally affected by the state variable and can therefore easily be generalized across timesteps and states. When this is true, we study implications for (doubly robust) off-policy evaluation and learning by instead leveraging single time-step evaluation, estimating the expectation over a single arrival via data from a population, for fitted-value iteration in a marginal MDP. We study sample complexity and analyze error amplification that leads to the persistence, rather than attenuation, of confounding error over time. In simulations of dynamic and capacitated pricing, we show improved out-of-sample policy performance in this class of relevant problems.
翻訳日:2021-10-20 14:01:58 公開日:2021-10-19
# a picture is worth a thousand words: 多様なキャプションと豊かな画像生成のための統一システム

A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation ( http://arxiv.org/abs/2110.09756v1 )

ライセンス: Link先を確認
Yupan Huang, Bei Liu, Jianlong Fu, Yutong Lu(参考訳) 創造的な画像とテキスト生成AIシステムは、人間の異常な能力を模倣し、多様な包括的なキャプション提案とリッチな画像生成を提供する。 本研究では,多彩なキャプションと豊かな画像を生成するようなai生成システムを提案する。 ユーザがイメージを想像して複数のキャプションに関連付けると、システムはリッチな画像を描き、すべてのキャプションを忠実に反映する。 同様に、ユーザーが画像をアップロードすると、システムはそれを複数のキャプションで表現する。 我々は,この目標を達成するための統合マルチモーダルフレームワークを提案する。 具体的には,複数のキャプションを入力として入力することでリッチな画像生成をサポートするトランスフォーマーネットワークを用いて,画像とテキストの表現を協調的にモデル化する。 入力キャプション間の関係は,訓練における多様性を奨励し,非自己回帰的復号化戦略を採用してリアルタイム推論を可能にする。 これらのことから,本システムは多様なキャプションとリッチ画像の生成をサポートする。 私たちのコードはオンラインで入手できる。

A creative image-and-text generative AI system mimics humans' extraordinary abilities to provide users with diverse and comprehensive caption suggestions, as well as rich image creations. In this work, we demonstrate such an AI creation system to produce both diverse captions and rich images. When users imagine an image and associate it with multiple captions, our system paints a rich image to reflect all captions faithfully. Likewise, when users upload an image, our system depicts it with multiple diverse captions. We propose a unified multi-modal framework to achieve this goal. Specifically, our framework jointly models image-and-text representations with a Transformer network, which supports rich image creation by accepting multiple captions as input. We consider the relations among input captions to encourage diversity in training and adopt a non-autoregressive decoding strategy to enable real-time inference. Based on these, our system supports both diverse captions and rich images generations. Our code is available online.
翻訳日:2021-10-20 14:00:19 公開日:2021-10-19
# GANのほぼ自由な改善である潜時再重み付け

Latent reweighting, an almost free improvement for GANs ( http://arxiv.org/abs/2110.09803v1 )

ライセンス: Link先を確認
Thibaut Issenhuth, Ugo Tanielian, David Picard, Jeremie Mary(参考訳) 連続関数が連結潜在空間を変形するGANの標準定式化は、画像の異なるクラスに適合するときに誤特定されることが示されている。 特に、ジェネレータはクラス間の低品質なイメージを必ずサンプリングします。 アーキテクチャを変更するのではなく、計算コストの増大を犠牲にして、事前訓練された発電機からのサンプリング品質を改善することを目的としている。 そこで本研究では, 潜在重要度を予測するネットワークと, 最も貧弱なサンプルを避けるための2つのサンプリング手法を提案する。 このアイデアにはいくつかの利点があります 1)任意のGANアーキテクチャに接続不能を注入する方法を提供する。 2) 遅延空間で拒絶が発生するため, 発生器と判別器の両方を通さず, 計算時間を節約できる。 3) この重要性重み付けの定式化は、ワッサースタインの距離を目標分布に還元する原理的な方法を提供する。 本研究では,合成データと高次元データの両方において,提案手法の有効性を示す。

Standard formulations of GANs, where a continuous function deforms a connected latent space, have been shown to be misspecified when fitting different classes of images. In particular, the generator will necessarily sample some low-quality images in between the classes. Rather than modifying the architecture, a line of works aims at improving the sampling quality from pre-trained generators at the expense of increased computational cost. Building on this, we introduce an additional network to predict latent importance weights and two associated sampling methods to avoid the poorest samples. This idea has several advantages: 1) it provides a way to inject disconnectedness into any GAN architecture, 2) since the rejection happens in the latent space, it avoids going through both the generator and the discriminator, saving computation time, 3) this importance weights formulation provides a principled way to reduce the Wasserstein's distance to the target distribution. We demonstrate the effectiveness of our method on several datasets, both synthetic and high-dimensional.
翻訳日:2021-10-20 14:00:02 公開日:2021-10-19
# クラスインクリメンタルなぼやけたタスク構成に関するオンライン連続学習

Online Continual Learning on Class Incremental Blurry Task Configuration with Anytime Inference ( http://arxiv.org/abs/2110.10031v1 )

ライセンス: Link先を確認
Hyunseo Koh, Dahyun Kim, Jung-Woo Ha, Jonghyun Choi(参考訳) 継続的学習の急速な進歩にもかかわらず、既存のセットアップのパフォーマンス向上に多くの研究が費やされている。 少数の研究が新しい連続的な学習環境を提案する一方で、特定の面では実用性に欠けています。 そこで我々はまず,オンライン,タスクフリー,クラスインクリメンタルな,ぼやけたタスク境界をもち,いつでも推論クエリを適用可能な,新しい連続学習環境を提案する。 また,任意のタイミングで推論クエリの対象となる連続学習手法の性能を測定するための新しい指標を提案する。 そこで本研究では,新しいメモリ管理手法と新しい学習手法を用いた効果的な手法を提案する。 実験により,提案手法が先行技術よりも高い性能を示した。

Despite rapid advances in continual learning, a large body of research is devoted to improving performance in the existing setups. While a handful of work do propose new continual learning setups, they still lack practicality in certain aspects. For better practicality, we first propose a novel continual learning setup that is online, task-free, class-incremental, of blurry task boundaries and subject to inference queries at any moment. We additionally propose a new metric to better measure the performance of the continual learning methods subject to inference queries at any moment. To address the challenging setup and evaluation protocol, we propose an effective method that employs a new memory management scheme and novel learning techniques. Our empirical validation demonstrates that the proposed method outperforms prior arts by large margins.
翻訳日:2021-10-20 13:59:47 公開日:2021-10-19
# インテリジェントパーソナルアシスタントにおける未処理発話のための2段階音声レコメンダシステム

Two-stage Voice Application Recommender System for Unhandled Utterances in Intelligent Personal Assistant ( http://arxiv.org/abs/2110.09877v1 )

ライセンス: Link先を確認
Wei Xiao, Qian Hu, Thahir Mohamed, Zheng Gao, Xibin Gao, Radhika Arava, Mohamed AbdelHady(参考訳) インテリジェントパーソナルアシスタント(IPA)は、人々の日々の作業を容易にする音声アプリケーションを可能にする。 しかしながら、音声要求の複雑さとあいまいさのため、いくつかの要求は標準自然言語理解(NLU)コンポーネントによって適切に処理されない場合がある。 そのような場合、"Sorry, I don't know"のような単純な応答は、ユーザの経験を傷つけ、IPAの機能を制限する。 本稿では,サードパーティ製音声アプリケーション (skills) と未処理発話をマッチングする2段階のショートリストリクターレコメンダシステムを提案する。 本手法では,スキルとユーザ要求の語彙的・意味的類似性を算出し,スキルカタログから候補スキルを抽出するためのスキルショートリストを提案する。 また、ベースラインルールベースのシステムから収集した観測データを用いて新しいシステムを構築する方法や、露光バイアスがオフラインと人間のメトリクスの相違を生じさせる方法について説明する。 最後に,不完全な根拠の真理を処理し,露出バイアスを軽減できる2つのリラベリング手法を提案する。 提案システムの有効性を大規模オフライン実験により実証する。 さらに,ユーザエクスペリエンスの満足度が大幅に向上するオンラインa/bテスト結果も提示する。

Intelligent personal assistants (IPA) enable voice applications that facilitate people's daily tasks. However, due to the complexity and ambiguity of voice requests, some requests may not be handled properly by the standard natural language understanding (NLU) component. In such cases, a simple reply like "Sorry, I don't know" hurts the user's experience and limits the functionality of IPA. In this paper, we propose a two-stage shortlister-reranker recommender system to match third-party voice applications (skills) to unhandled utterances. In this approach, a skill shortlister is proposed to retrieve candidate skills from the skill catalog by calculating both lexical and semantic similarity between skills and user requests. We also illustrate how to build a new system by using observed data collected from a baseline rule-based system, and how the exposure biases can generate discrepancy between offline and human metrics. Lastly, we present two relabeling methods that can handle the incomplete ground truth, and mitigate exposure bias. We demonstrate the effectiveness of our proposed system through extensive offline experiments. Furthermore, we present online A/B testing results that show a significant boost on user experience satisfaction.
翻訳日:2021-10-20 13:59:34 公開日:2021-10-19
# スケーラブルな統計的関係モデル発見のためのプレ・ポストカウント

Pre and Post Counting for Scalable Statistical-Relation al Model Discovery ( http://arxiv.org/abs/2110.09767v1 )

ライセンス: Link先を確認
Richard Mar and Oliver Schulte(参考訳) 統計的関係モデル発見は、関係データに統計的に関連するパターンを見つけることを目的としている。 例えば、関係依存パターンは、ユーザの性別が友人の性別に関連付けられることを規定することができる。 命題的(非関係的)なグラフィカルモデルと同様に、モデル発見の主要なスケーラビリティボトルネックはインスタンス数を計算することである。 命題学習に関する以前の研究は、この問題を解決するために事前集計や後集計を利用した。 本稿では,リレーショナル学習における事前集計とポストカウンティング戦略間のメモリとスピードのトレードオフを詳細に検討する。 事前カウントアプローチは、モデル検索の前に大量のリレーショナルパターンのインスタンス数を計算しキャッシュする。 ポストカウントアプローチは、モデル検索中に生成された候補パターン毎に動的にインスタンス数を算出する。 本研究では,ポジティブな関係性(例えば,友人であるユーザのペア)や,ネガティブな関係性(例えば,友人でないユーザのペア)を含むパターンのポストカウントといったパターンを事前にカウントする,新たなハイブリッドアプローチについて説明する。 私たちのハイブリッドアプローチは、モデル発見を数百万のデータ事実にスケールします。

Statistical-Relation al Model Discovery aims to find statistically relevant patterns in relational data. For example, a relational dependency pattern may stipulate that a user's gender is associated with the gender of their friends. As with propositional (non-relational) graphical models, the major scalability bottleneck for model discovery is computing instantiation counts: the number of times a relational pattern is instantiated in a database. Previous work on propositional learning utilized pre-counting or post-counting to solve this task. This paper takes a detailed look at the memory and speed trade-offs between pre-counting and post-counting strategies for relational learning. A pre-counting approach computes and caches instantiation counts for a large set of relational patterns before model search. A post-counting approach computes an instantiation count dynamically on-demand for each candidate pattern generated during the model search. We describe a novel hybrid approach, tailored to relational data, that achieves a sweet spot with pre-counting for patterns involving positive relationships (e.g. pairs of users who are friends) and post-counting for patterns involving negative relationships (e.g. pairs of users who are not friends). Our hybrid approach scales model discovery to millions of data facts.
翻訳日:2021-10-20 13:59:15 公開日:2021-10-19
# 多エージェント強化学習のための状態ベースエピソディックメモリ

State-based Episodic Memory for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2110.09817v1 )

ライセンス: Link先を確認
Xiao Ma, Wu-Jun Li(参考訳) マルチエージェント強化学習(MARL)アルゴリズムは,CTDEパラダイムを活用することで,近年,有望な進歩を遂げている。 しかし、既存のmarlアルゴリズムは依然としてサンプル非効率の問題に苦しんでいる。 本稿では,marlのサンプル効率を改善するために,状態ベースエピソディックメモリ(sem)と呼ばれる簡易かつ効果的な手法を提案する。 sem は marl における ctde の集中訓練手順を監督するためにエピソディックメモリ (em) を採用している。 私たちの知る限りでは、SEMはEMをMARLに導入する最初の試みです。 理論的には、SEMがMARLを使用する場合、SEMは単一エージェント強化学習のために提案された状態と動作に基づくEM(SAEM)よりも空間複雑性と時間複雑性が低いことが証明できる。 starcraft multi-agent challenge (smac) の実験結果は、marlにエピソディックメモリを導入するとサンプル効率が向上し、semはsaemに比べてストレージコストと時間コストを削減できることを示した。

Multi-agent reinforcement learning (MARL) algorithms have made promising progress in recent years by leveraging the centralized training and decentralized execution (CTDE) paradigm. However, existing MARL algorithms still suffer from the sample inefficiency problem. In this paper, we propose a simple yet effective approach, called state-based episodic memory (SEM), to improve sample efficiency in MARL. SEM adopts episodic memory (EM) to supervise the centralized training procedure of CTDE in MARL. To the best of our knowledge, SEM is the first work to introduce EM into MARL. We can theoretically prove that, when using for MARL, SEM has lower space complexity and time complexity than state and action based EM (SAEM), which is originally proposed for single-agent reinforcement learning. Experimental results on StarCraft multi-agent challenge (SMAC) show that introducing episodic memory into MARL can improve sample efficiency and SEM can reduce storage cost and time cost compared with SAEM.
翻訳日:2021-10-20 13:57:14 公開日:2021-10-19
# 実証からのアクション量子化による連続制御

Continuous Control with Action Quantization from Demonstrations ( http://arxiv.org/abs/2110.10149v1 )

ライセンス: Link先を確認
Robert Dadashi, L\'eonard Hussenot, Damien Vincent, Sertan Girgin, Anton Raichuk, Matthieu Geist, Olivier Pietquin(参考訳) 強化学習(rl)では、連続的なアクションとは対照的に離散的なアクションは、より複雑な探索問題や、動的プログラミングに基づくメソッドの中心となるアクション値関数の最大値の即時計算をもたらす。 本稿では,実演の事前情報を利用して連続的な動作空間の離散化を学ぶために,実演からの動作量子化(aquadem)を提案する。 これは、エージェントが直面したアクションが有限数であるだけでなく、実証者の行動に照らしても妥当であるため、探索問題を劇的に減少させる。 作用空間を離散化することにより、任意の離散的な作用深度RLアルゴリズムを連続制御問題に適用できる。 提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。 これら3つの設定は、合成データよりも難しい人間のデータのみを考慮に入れます。 AQuaDemは、パフォーマンスとサンプル効率の両面で、最先端の継続的制御方法よりも一貫して優れています。 論文のWebサイトでは、視覚化とビデオを提供しています。

In Reinforcement Learning (RL), discrete actions, as opposed to continuous actions, result in less complex exploration problems and the immediate computation of the maximum of the action-value function which is central to dynamic programming-based methods. In this paper, we propose a novel method: Action Quantization from Demonstrations (AQuaDem) to learn a discretization of continuous action spaces by leveraging the priors of demonstrations. This dramatically reduces the exploration problem, since the actions faced by the agent not only are in a finite number but also are plausible in light of the demonstrator's behavior. By discretizing the action space we can apply any discrete action deep RL algorithm to the continuous control problem. We evaluate the proposed method on three different setups: RL with demonstrations, RL with play data --demonstrations of a human playing in an environment but not solving any specific task-- and Imitation Learning. For all three setups, we only consider human data, which is more challenging than synthetic data. We found that AQuaDem consistently outperforms state-of-the-art continuous control methods, both in terms of performance and sample efficiency. We provide visualizations and videos in the paper's website: https://google-resea rch.github.io/aquade m.
翻訳日:2021-10-20 13:56:54 公開日:2021-10-19
# abess: PythonとRの高速なベストサブセット選択ライブラリ

abess: A Fast Best Subset Selection Library in Python and R ( http://arxiv.org/abs/2110.09697v1 )

ライセンス: Link先を確認
Jin Zhu, Liyuan Hu, Junhao Huang, Kangkang Jiang, Yanhang Zhang, Shiyun Lin, Junxian Zhu, Xueqin Wang(参考訳) 本稿では,線形回帰,分類,主成分分析といった多様な機械学習問題を解決するために,ベストサブセット選択の統一フレームワークを実装した新しいライブラリabessを紹介する。 特に、アブスは線形モデルの下で多項式時間内に最適解を得る。 我々の効率的な実装は、Abessが既存の競合する変数(モデル)選択ツールボックスの100倍の速さでベストサブセット選択問題の解を得ることを可能にする。 さらに、best group subset selectionや$\ell_2$ regularized best-subset selectionといった一般的な変種をサポートする。 ライブラリのコアはC++でプログラムされている。 使いやすくするために、PythonライブラリはScikit-learnと便利な統合用に設計されており、Pythonライブラリインデックスからインストールすることができる。 さらに、ユーザフレンドリーなRライブラリがComprehensive R Archive Networkで利用可能である。 ソースコードはhttps://github.com/a bess-team/abess.com/ 。

We introduce a new library named abess that implements a unified framework of best-subset selection for solving diverse machine learning problems, e.g., linear regression, classification, and principal component analysis. Particularly, the abess certifiably gets the optimal solution within polynomial times under the linear model. Our efficient implementation allows abess to attain the solution of best-subset selection problems as fast as or even 100x faster than existing competing variable (model) selection toolboxes. Furthermore, it supports common variants like best group subset selection and $\ell_2$ regularized best-subset selection. The core of the library is programmed in C++. For ease of use, a Python library is designed for conveniently integrating with scikit-learn, and it can be installed from the Python library Index. In addition, a user-friendly R library is available at the Comprehensive R Archive Network. The source code is available at: https://github.com/a bess-team/abess.
翻訳日:2021-10-20 13:56:06 公開日:2021-10-19
# カーネルとニューラルファンクション近似を用いたリワードフリーRLについて:シングルエージェントMDPとマルコフゲーム

On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game ( http://arxiv.org/abs/2110.09771v1 )

ライセンス: Link先を確認
Shuang Qiu, Jieping Ye, Zhaoran Wang, Zhuoran Yang(参考訳) 強化学習(RL)におけるサンプル効率を達成するには,基礎となる環境を効率的に探索する必要がある。 オフライン設定では、調査課題に対処するには、十分なカバレッジを備えたオフラインデータセットの収集が不可欠だ。 このような課題に動機付けられ、エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題を研究する。 そして、外因的な報酬が与えられた場合、エージェントは探索フェーズで収集されたオフラインデータを含む計画アルゴリズムを介してポリシーを算出する。 さらに,関数近似の文脈でこの問題に対処し,強力な関数近似器を活用する。 具体的には,カーネルとニューラルファンクション近似を組み込んだ,楽観的なバリューイテレーションアルゴリズムを用いて探索を行い,探索報酬として関連する探索ボーナスを採用することを提案する。 さらに,単エージェントMDPとゼロサムマルコフゲームの両方の探索および計画アルゴリズムを設計し,任意の外因性報酬を与えられた場合,$\varepsilon$-subop timal Policyや$\varepsilon$-approx imate Nash平衡を生成する際のサンプル複雑性を$\widetilde{\mathcal{O}}(1 /\varepsilon^2)で実現できることを示す。 我々の知識を最大限に活用するために,カーネルおよび神経関数近似器を用いた報酬フリーrlアルゴリズムを初めて確立した。

To achieve sample efficiency in reinforcement learning (RL), it necessitates efficiently exploring the underlying environment. Under the offline setting, addressing the exploration challenge lies in collecting an offline dataset with sufficient coverage. Motivated by such a challenge, we study the reward-free RL problem, where an agent aims to thoroughly explore the environment without any pre-specified reward function. Then, given any extrinsic reward, the agent computes the policy via a planning algorithm with offline data collected in the exploration phase. Moreover, we tackle this problem under the context of function approximation, leveraging powerful function approximators. Specifically, we propose to explore via an optimistic variant of the value-iteration algorithm incorporating kernel and neural function approximations, where we adopt the associated exploration bonus as the exploration reward. Moreover, we design exploration and planning algorithms for both single-agent MDPs and zero-sum Markov games and prove that our methods can achieve $\widetilde{\mathcal{O}}(1 /\varepsilon^2)$ sample complexity for generating a $\varepsilon$-subopt imal policy or $\varepsilon$-approx imate Nash equilibrium when given an arbitrary extrinsic reward. To the best of our knowledge, we establish the first provably efficient reward-free RL algorithm with kernel and neural function approximators.
翻訳日:2021-10-20 13:55:51 公開日:2021-10-19
# グラフトポロジを学ぶための学習

Learning to Learn Graph Topologies ( http://arxiv.org/abs/2110.09807v1 )

ライセンス: Link先を確認
Xingyue Pu, Tianyue Cao, Xiaoyun Zhang, Xiaowen Dong and Siheng Chen(参考訳) データエンティティ間の基盤となる関係を明らかにするためにグラフトポロジを学ぶことは、さまざまな機械学習やデータ分析タスクにおいて重要な役割を果たす。 構造化データがグラフ上でスムーズに変化すると仮定すると、問題は正の半定値円錐上の正規化凸最適化として定式化し、反復アルゴリズムによって解くことができる。 古典的な手法では、一般的なトポロジカルな先行を反映するために明示的な凸関数を必要とする(例えば、空間性を強制する$\ell_1$のペナルティ)。 本稿では,最適化学習(l2o)の考え方に基づいて,ノードデータからグラフ構造へのマッピングを学ぶことを提案する。 特に,本モデルでは,反復原始的分割アルゴリズムをニューラルネットワークに展開する。 主要な構造的近位射影は、位相特性が強化された推定グラフを洗練する変分オートエンコーダに置き換えられる。 このモデルは、ノードデータとグラフサンプルのペアでエンドツーエンドでトレーニングされる。 合成データと実世界のデータの両方の実験により、我々のモデルは特定の位相特性を持つグラフを学習する際の古典的反復アルゴリズムよりも効率的であることが示された。

Learning a graph topology to reveal the underlying relationship between data entities plays an important role in various machine learning and data analysis tasks. Under the assumption that structured data vary smoothly over a graph, the problem can be formulated as a regularised convex optimisation over a positive semidefinite cone and solved by iterative algorithms. Classic methods require an explicit convex function to reflect generic topological priors, e.g. the $\ell_1$ penalty for enforcing sparsity, which limits the flexibility and expressiveness in learning rich topological structures. We propose to learn a mapping from node data to the graph structure based on the idea of learning to optimise (L2O). Specifically, our model first unrolls an iterative primal-dual splitting algorithm into a neural network. The key structural proximal projection is replaced with a variational autoencoder that refines the estimated graph with enhanced topological properties. The model is trained in an end-to-end fashion with pairs of node data and graph samples. Experiments on both synthetic and real-world data demonstrate that our model is more efficient than classic iterative algorithms in learning a graph with specific topological properties.
翻訳日:2021-10-20 13:53:52 公開日:2021-10-19
# 線形混合マルコフ決定過程における局所的個人強化学習

Locally Differentially Private Reinforcement Learning for Linear Mixture Markov Decision Processes ( http://arxiv.org/abs/2110.10133v1 )

ライセンス: Link先を確認
Chonghua Liao and Jiafan He and Quanquan Gu(参考訳) 強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用できる。 ユーザのプライバシを保護するために,プライバシ保存型rlアルゴリズムが求められている。 本稿では,線形関数近似と局所微分プライバシー(LDP)保証を用いたRLについて検討する。 線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学ぶための新しい$(\varepsilon, \delta)$-LDPアルゴリズムを提案し、$\tilde{\mathcal{O}}(d^{5/4}H^{7/4}T^{3/4}\left(\log(1/\delta) \right)^{1/4}\sqrt{1/\varepsilon})$ regret, ここで$d$は特徴マッピングの次元であり、$H$は計画的地平線の長さであり、$T$は環境との相互作用の数である。 また、$\Omega(dH\sqrt{T}/\left(e^{\varepsilon}(e^{\varepsilon}-1)\right)$を$\varepsilon$-LDP制約の下で線形混合MDPを学習するためにも証明する。 合成データセットの実験は、我々のアルゴリズムの有効性を検証する。 我々の知る限りでは、これは線形関数近似を用いた最初の証明可能なプライバシ保存RLアルゴリズムである。

Reinforcement learning (RL) algorithms can be used to provide personalized services, which rely on users' private and sensitive data. To protect the users' privacy, privacy-preserving RL algorithms are in demand. In this paper, we study RL with linear function approximation and local differential privacy (LDP) guarantees. We propose a novel $(\varepsilon, \delta)$-LDP algorithm for learning a class of Markov decision processes (MDPs) dubbed linear mixture MDPs, and obtains an $\tilde{\mathcal{O}}( d^{5/4}H^{7/4}T^{3/4}\left(\log(1/\delta) \right)^{1/4}\sqrt{1/\varepsilon})$ regret, where $d$ is the dimension of feature mapping, $H$ is the length of the planning horizon, and $T$ is the number of interactions with the environment. We also prove a lower bound $\Omega(dH\sqrt{T}/\left(e^{\varepsilon}(e^{\varepsilon}-1)\right))$ for learning linear mixture MDPs under $\varepsilon$-LDP constraint. Experiments on synthetic datasets verify the effectiveness of our algorithm. To the best of our knowledge, this is the first provable privacy-preserving RL algorithm with linear function approximation.
翻訳日:2021-10-20 13:53:33 公開日:2021-10-19
# フル3次元ラジアル可視化

Fully Three-dimensional Radial Visualization ( http://arxiv.org/abs/2110.09971v1 )

ライセンス: Link先を確認
Yifan Zhu, Fan Dai and Ranjan Maitra(参考訳) 多次元データセットの3次元ラジアル可視化(RadViz)のための方法論を開発した。 古典的な2次元 (2d) radvizは、2次元平面内の多変量データを視覚化し、すべての観測を単位円内の点にマッピングする。 我々のツールRadViz3Dは3次元単位球上にアンカーポイントを均一に分配する。 この一様分布は,非相関変数を持つデータに対して,最小の人工視覚相関を持つ最善の可視化を提供することを示す。 しかし、5つのプラトン固体に対してのみ、アンカー点を正確に等距離に配置できるので、これらの5つの設定に対して等距離アンカー点を提供し、他の場合ではフィボナッチ格子を介してほぼ等距離アンカー点を与える。 r パッケージ $radviz3d$ で実装された本手法は,完全な 3d radviz が可能であり,カニ,オリーブオイル,ワインデータセットだけでなく,より忠実にシミュレーションデータを表示することにより,この非線形手法の能力を向上させることが示されている。 さらに、放射状可視化は自然に合成データに適しているため、radviz3dを用いて (i)何世紀にもわたって長尺セラドンセラミックスの化学組成とジンデッシェンの模倣 (II)米国の地域SARS-Cov-2型は、2021年夏にデルタ型が急増したコビッド19型パンデミックで流行した。

We develop methodology for three-dimensional (3D) radial visualization (RadViz) of multidimensional datasets. The classical two-dimensional (2D) RadViz visualizes multivariate data in the 2D plane by mapping every observation to a point inside the unit circle. Our tool, RadViz3D, distributes anchor points uniformly on the 3D unit sphere. We show that this uniform distribution provides the best visualization with minimal artificial visual correlation for data with uncorrelated variables. However, anchor points can be placed exactly equi-distant from each other only for the five Platonic solids, so we provide equi-distant anchor points for these five settings, and approximately equi-distant anchor points via a Fibonacci grid for the other cases. Our methodology, implemented in the R package $radviz3d$, makes fully 3D RadViz possible and is shown to improve the ability of this nonlinear technique in more faithfully displaying simulated data as well as the crabs, olive oils and wine datasets. Additionally, because radial visualization is naturally suited for compositional data, we use RadViz3D to illustrate (i) the chemical composition of Longquan celadon ceramics and their Jingdezhen imitation over centuries, and (ii) US regional SARS-Cov-2 variants' prevalence in the Covid-19 pandemic during the summer 2021 surge of the Delta variant.
翻訳日:2021-10-20 13:52:58 公開日:2021-10-19
# スペクトル変動によるハイパースペクトル画像のスパースアンミックス

Spectral Variability Augmented Sparse Unmixing of Hyperspectral Images ( http://arxiv.org/abs/2110.09744v1 )

ライセンス: Link先を確認
Ge Zhang, Shaohui Mei, Mingyang Ma, and Yan Feng(参考訳) スペクトルアンミキシング (SU) は、超スペクトル画像に存在する混合画素を、超スペクトル画像解析に広く用いられているエンドメンバーとアバンダンスの積として表現する。 しかし、光、取得条件、および材料の固有特性の影響により、識別されたエンドメンバーは(スペクトル変動性として表現される)所定の画像内でスペクトル的に変化することができる。 この問題に対処するために、最近の手法では、通常、同じ対象の複数の特性スペクトルを表すために、事前取得したスペクトルライブラリを使用するが、スペクトルの変動を明示的に抽出する手法はほとんどない。 本稿では,スペクトル変動を初めて抽出するスペクトル変動性拡張スパース混合モデル(svasu)を提案する。 可変スペクトルは、スペクトル再構成のための内在スペクトルとスペクトル変動性の2つの部分に分割され、存在量のスパーシティと変動係数の一般化を制限する正規項を付加したsuモデルで同期的にモデル化される。 スペクトル変動ライブラリーと固有スペクトルライブラリーはいずれもIn-situ観測画像から構築されている。 合成, 実世界の両方のデータセットに対する実験結果から, スペクトル変動による拡張分解は, スペクトルライブラリのみによる分解よりも, および最先端のアルゴリズムと比較して, 未混合性能を著しく向上させることが示された。

Spectral unmixing (SU) expresses the mixed pixels existed in hyperspectral images as the product of endmember and abundance, which has been widely used in hyperspectral imagery analysis. However, the influence of light, acquisition conditions and the inherent properties of materials, results in that the identified endmembers can vary spectrally within a given image (construed as spectral variability). To address this issue, recent methods usually use a priori obtained spectral library to represent multiple characteristic spectra of the same object, but few of them extracted the spectral variability explicitly. In this paper, a spectral variability augmented sparse unmixing model (SVASU) is proposed, in which the spectral variability is extracted for the first time. The variable spectra are divided into two parts of intrinsic spectrum and spectral variability for spectral reconstruction, and modeled synchronously in the SU model adding the regular terms restricting the sparsity of abundance and the generalization of the variability coefficient. It is noted that the spectral variability library and the intrinsic spectral library are all constructed from the In-situ observed image. Experimental results over both synthetic and real-world data sets demonstrate that the augmented decomposition by spectral variability significantly improves the unmixing performance than the decomposition only by spectral library, as well as compared to state-of-the-art algorithms.
翻訳日:2021-10-20 13:52:36 公開日:2021-10-19
# Geo-DefakeHop: 高性能な地理フェイク画像検出

Geo-DefakeHop: High-Performance Geographic Fake Image Detection ( http://arxiv.org/abs/2110.09795v1 )

ライセンス: Link先を確認
Hong-Shuo Chen, Kaitai Zhang, Shuowen Hu, Suya You and C.-C. Jay Kuo(参考訳) 本研究では,Geo-DefakeHopと呼ばれる,ロバストな衛星画像検出手法を提案する。 Geo-DefakeHopは並列部分空間学習法(PSL)に基づいて開発された。 PSLは入力画像空間を複数のフィルタバンクを用いていくつかの特徴部分空間にマッピングする。 Geo-DefakeHopは、フィルタバンクの実際の画像と偽画像の異なるチャンネルの応答差を調べることで、最も差別的なチャンネルを学び、ソフトな判定スコアを特徴として利用する。 次にGeo-DefakeHopは、各フィルタバンクからいくつかの識別機能を選択し、それらをアンサンブルして最終的なバイナリ決定を行う。 Geo-DefakeHopは、偽衛星画像検出のための軽量な高性能ソリューションを提供する。 モデルサイズは0.8から62kのパラメータで分析される。 さらに, 縮小, 圧縮, ノイズ劣化など, 様々な画像操作において, F1スコアが95%以上に達することを示す実験結果を得た。

A robust fake satellite image detection method, called Geo-DefakeHop, is proposed in this work. Geo-DefakeHop is developed based on the parallel subspace learning (PSL) methodology. PSL maps the input image space into several feature subspaces using multiple filter banks. By exploring response differences of different channels between real and fake images for a filter bank, Geo-DefakeHop learns the most discriminant channels and uses their soft decision scores as features. Then, Geo-DefakeHop selects a few discriminant features from each filter bank and ensemble them to make a final binary decision. Geo-DefakeHop offers a light-weight high-performance solution to fake satellite images detection. Its model size is analyzed, which ranges from 0.8 to 62K parameters. Furthermore, it is shown by experimental results that it achieves an F1-score higher than 95\% under various common image manipulations such as resizing, compression and noise corruption.
翻訳日:2021-10-20 13:52:11 公開日:2021-10-19
# 永続ホモロジーを用いたデータ駆動・自動表面テクスチャ解析

Data-driven and Automatic Surface Texture Analysis Using Persistent Homology ( http://arxiv.org/abs/2110.10005v1 )

ライセンス: Link先を確認
Melih C. Yesilli and Firas A. Khasawneh(参考訳) 表面粗さは工学的表面分析において重要な役割を担っている。 表面トポグラフィーを定量化し、その結果の表面フィニッシュが許容されるか否かを決定するために使用できる。 それでも、表面粗さを計算するための既存のツールや標準はいくつかあるが、これらの手法はユーザー入力に大きく依存しているため、分析が遅くなり製造コストが増加する。 そのため, 表面粗さの迅速かつ自動判定は, 許容不可能な仕上げ面やユーザ集中分析によるコストの低減に不可欠である。 本研究では,合成表面の粗さレベルをアラル画像とプロファイルの両方を用いて分類するためのトポロジカルデータ解析(TDA)に基づくアプローチを提案する。 我々は, tda からの永続的ホモロジーを用いて, 表面形状に関する情報をカプセル化する永続性図を作成する。 次に,carlsson座標,永続化画像,テンプレート関数を用いて,各面やプロファイルの特徴行列を求める。 本稿では,Fast Fourier Transform (FFT) とGaussian Filtering (Gaussian Filtering) の2つの手法を比較した。 その結果,提案手法は最大97%の確率で得られることがわかった。 また、既存の表面分析ツールとは対照的に、我々のTDAベースのアプローチは完全に自動化可能であり、適応的な特徴抽出を提供することを示す。

Surface roughness plays an important role in analyzing engineering surfaces. It quantifies the surface topography and can be used to determine whether the resulting surface finish is acceptable or not. Nevertheless, while several existing tools and standards are available for computing surface roughness, these methods rely heavily on user input thus slowing down the analysis and increasing manufacturing costs. Therefore, fast and automatic determination of the roughness level is essential to avoid costs resulting from surfaces with unacceptable finish, and user-intensive analysis. In this study, we propose a Topological Data Analysis (TDA) based approach to classify the roughness level of synthetic surfaces using both their areal images and profiles. We utilize persistent homology from TDA to generate persistence diagrams that encapsulate information on the shape of the surface. We then obtain feature matrices for each surface or profile using Carlsson coordinates, persistence images, and template functions. We compare our results to two widely used methods in the literature: Fast Fourier Transform (FFT) and Gaussian filtering. The results show that our approach yields mean accuracies as high as 97%. We also show that, in contrast to existing surface analysis tools, our TDA-based approach is fully automatable and provides adaptive feature extraction.
翻訳日:2021-10-20 13:51:57 公開日:2021-10-19
# マルチモーダル対話システムにおけるテキスト応答生成のためのモダリティドロップアウトを有する非階層型アテンションネットワーク

A non-hierarchical attention network with modality dropout for textual response generation in multimodal dialogue systems ( http://arxiv.org/abs/2110.09702v1 )

ライセンス: Link先を確認
Rongyi Sun, Borun Chen, Qingyu Zhou, Yinghui Li, YunBo Cao, Hai-Tao Zheng(参考訳) 既存のテキストおよび画像に基づくマルチモーダル対話システムは、従来の階層的並行エンコーダ・デコーダ(HRED)フレームワークを使用しており、発話レベルエンコーダは発話レベルの表現をモデル化し、コンテキストレベルエンコーダはコンテキストレベルの表現をモデル化する。 先駆的な試みは有望なパフォーマンスを示しているが、それでも、(1)テキストの特徴と視覚的特徴の相互作用は、十分にきめ細かいものではない、という課題に苦しめられている。 (2)コンテキスト表現は、コンテキストの完全な表現を提供できない。 上記の問題に対処するため,我々はhredフレームワークを放棄し,アテンションモジュールを用いて各発話をエンコードし,文脈表現をモデル化するモダリティドロップアウトを用いた非階層的アテンションネットワークを提案する。 提案モデルを評価するため,公開マルチモーダル対話データセットの総合的な実験を行った。 自動評価と人的評価は,提案モデルが既存手法より優れ,最先端性能を実現することを示す。

Existing text- and image-based multimodal dialogue systems use the traditional Hierarchical Recurrent Encoder-Decoder (HRED) framework, which has an utterance-level encoder to model utterance representation and a context-level encoder to model context representation. Although pioneer efforts have shown promising performances, they still suffer from the following challenges: (1) the interaction between textual features and visual features is not fine-grained enough. (2) the context representation can not provide a complete representation for the context. To address the issues mentioned above, we propose a non-hierarchical attention network with modality dropout, which abandons the HRED framework and utilizes attention modules to encode each utterance and model the context representation. To evaluate our proposed model, we conduct comprehensive experiments on a public multimodal dialogue dataset. Automatic and human evaluation demonstrate that our proposed model outperforms the existing methods and achieves state-of-the-art performance.
翻訳日:2021-10-20 13:50:34 公開日:2021-10-19
# 質問例のないオープンドメイン明確化質問生成

Open-domain clarification question generation without question examples ( http://arxiv.org/abs/2110.09779v1 )

ライセンス: Link先を確認
Julia White and Gabriel Poesia and Robert Hawkins and Dorsa Sadigh and Noah Goodman(参考訳) 自然言語処理の全体的な目標は、機械が人間とシームレスにコミュニケーションできるようにすることである。 しかし、自然言語は曖昧もしくは不明瞭である。 不確実性の場合、人間は修復と呼ばれる対話的なプロセスに関与し、不確実性が解決されるまで質問し、明確化を求める。 本稿では,対話における誤解を解決するために,極性(yes-no)明確化問題を生成することのできる視覚的接地質問生成モデルを構築するための枠組みを提案する。 本モデルでは, 教師付き質問応答データを必要としない, 市販画像キャプタから情報収集目標を導出する。 我々は,目標志向の20質問ゲームにおいて,人間と合成者によるコミュニケーションの成功を促す質問を提示するモデルの能力を実証する。

An overarching goal of natural language processing is to enable machines to communicate seamlessly with humans. However, natural language can be ambiguous or unclear. In cases of uncertainty, humans engage in an interactive process known as repair: asking questions and seeking clarification until their uncertainty is resolved. We propose a framework for building a visually grounded question-asking model capable of producing polar (yes-no) clarification questions to resolve misunderstandings in dialogue. Our model uses an expected information gain objective to derive informative questions from an off-the-shelf image captioner without requiring any supervised question-answer data. We demonstrate our model's ability to pose questions that improve communicative success in a goal-oriented 20 questions game with synthetic and human answerers.
翻訳日:2021-10-20 13:50:15 公開日:2021-10-19
# 知識グラフの埋め込みで学んだこと

What is Learned in Knowledge Graph Embeddings? ( http://arxiv.org/abs/2110.09978v1 )

ライセンス: Link先を確認
Michael R. Douglas, Michael Simkin, Omri Ben-Eliezer, Tianqi Wu, Peter Chin, Trung V. Dang and Andrew Wood(参考訳) 知識グラフ(英: knowledge graph、kg)は、エッジ型を持つ有向グラフの頂点と辺として実体と関係を表すデータ構造である。 KGは現代の機械学習と人工知能において重要なプリミティブである。 セミナルTransE (Bordes et al., 2013) や最近のPairRE (Chao et al., 2020) のような埋め込み型モデルは、KGを表現し、欠落したエッジ(リンク補完)を推測する最も人気で成功したアプローチの一つである。 彼らの相対的な成功は、しばしば文学において、関係の間の論理的な規則を学ぶ能力によって評価される。 本研究では,関係性間の規則の学習が,組込み型手法の性能向上の要因であるかどうかを考察する。 モチーフ学習と,ネットワーク学習(KGの接続性のみに基づいて,関係型を無視した)と非構造化統計学習(グラフの接続性を無視した)という2つの代替メカニズムを定義した。 合成KGの実験を用いて、KGモデルがモチーフを学習し、この能力が非モチーフ(ノイズ)エッジによってどのように劣化するかを示す。 本稿では,3つのメカニズムの貢献を識別するテストを提案し,それをKGベンチマークに適用する。 また、標準性能テストプロトコルの問題点を議論し、改善を提案する。 複合ネットワーク2021の手続きに登場。

A knowledge graph (KG) is a data structure which represents entities and relations as the vertices and edges of a directed graph with edge types. KGs are an important primitive in modern machine learning and artificial intelligence. Embedding-based models, such as the seminal TransE [Bordes et al., 2013] and the recent PairRE [Chao et al., 2020] are among the most popular and successful approaches for representing KGs and inferring missing edges (link completion). Their relative success is often credited in the literature to their ability to learn logical rules between the relations. In this work, we investigate whether learning rules between relations is indeed what drives the performance of embedding-based methods. We define motif learning and two alternative mechanisms, network learning (based only on the connectivity of the KG, ignoring the relation types), and unstructured statistical learning (ignoring the connectivity of the graph). Using experiments on synthetic KGs, we show that KG models can learn motifs and how this ability is degraded by non-motif (noise) edges. We propose tests to distinguish the contributions of the three mechanisms to performance, and apply them to popular KG benchmarks. We also discuss an issue with the standard performance testing protocol and suggest an improvement. To appear in the proceedings of Complex Networks 2021.
翻訳日:2021-10-20 13:50:01 公開日:2021-10-19
# 離散的および連続的な行動を伴う勾配に基づく混合計画法

Gradient-Based Mixed Planning with Discrete and Continuous Actions ( http://arxiv.org/abs/2110.10007v1 )

ライセンス: Link先を確認
Kebing Jin, Hankz Hankui Zhuo, Zhanhao Xiao, Hai Wan, Subbarao Kambhampati(参考訳) 実世界の動的環境における離散的論理関係と連続的な数値変化による計画問題に対処することは困難である。 この問題の既存の数値計画システムは、しばしば数値変数を離散化したり、数値変数に凸二次制約を課したりする。 本稿では,勾配降下に基づく離散的および連続的動作と混合する数値計画問題を解くための新しいアルゴリズムフレームワークを提案する。 離散効果に基づくヒューリスティック関数を統合することにより、離散的かつ連続的な行動を最適化問題とする数値計画を行った。 具体的には,連続パラメータと候補計画の動作を同時に最適化する勾配ベースフレームワークを提案する。 このフレームワークはヒューリスティックモジュールと組み合わせることで、リラクゼーションに基づいて初期状態を目標に移行するための最良のプラン候補を見積もる。 我々は,計画問題の有効な計画に収束するまで,数値パラメータと候補計画の繰り返し更新を行う。 実験では,特に非凸計画問題を解く場合,アルゴリズムフレームワークが効率的かつ効率的であることを示す。

Dealing with planning problems with both discrete logical relations and continuous numeric changes in real-world dynamic environments is challenging. Existing numeric planning systems for the problem often discretize numeric variables or impose convex quadratic constraints on numeric variables, which harms the performance when solving the problem. In this paper, we propose a novel algorithm framework to solve the numeric planning problems mixed with discrete and continuous actions based on gradient descent. We cast the numeric planning with discrete and continuous actions as an optimization problem by integrating a heuristic function based on discrete effects. Specifically, we propose a gradient-based framework to simultaneously optimize continuous parameters and actions of candidate plans. The framework is combined with a heuristic module to estimate the best plan candidate to transit initial state to the goal based on relaxation. We repeatedly update numeric parameters and compute candidate plan until it converges to a valid plan to the planning problem. In the empirical study, we exhibit that our algorithm framework is both effective and efficient, especially when solving non-convex planning problems.
翻訳日:2021-10-20 13:49:36 公開日:2021-10-19
# (参考訳) 階層型ガンマプロセスによる非パラメトリックスパーステンソル因子化 [全文訳有]

Nonparametric Sparse Tensor Factorization with Hierarchical Gamma Processes ( http://arxiv.org/abs/2110.10082v1 )

ライセンス: CC BY 4.0
Conor Tillinghast, Zheng Wang, Shandian Zhe(参考訳) 疎観測テンソルに対する非パラメトリック分解法を提案する。 スパーシティはゼロ値のエントリが大量あるいは支配的であるという意味ではない。 むしろ、観測されたエントリはテンソルの成長とともに非常に少なく、さらに少ないことを意味する。 既存の研究と比較すると,本モデルは,観測された入力指標の基盤となる構造情報を活用するだけでなく,さらなる解釈可能性や柔軟性も提供し,テンソルノードの内在的特性に関する位置要因のセットと,他と相互作用する際の外向的活動を反映する他の社会的要因のセットを同時に推定することができる。 具体的には、階層的ガンマ過程とポアソン確率測度を用いてテンソル値プロセスを構築し、テンソルを生成するために2つの種類の因子を自由にサンプリングし、漸近的スパーシティを常に保証する。 次にテンソル過程を正規化し、観測された各エントリーインデックスをサンプリングするために階層的ディリクレ過程を取得し、ガウス過程を用いて要素の非線形関数としてエントリ値をサンプリングし、スパース構造特性と複素ノード関係の両方を捉える。 効率的な推論のために, 有限標本分割, 密度変換, ランダム特徴に対するディリクレ過程特性を用いて確率的変動推定アルゴリズムを開発した。 本手法の利点をいくつかのベンチマークデータセットで実証する。

We propose a nonparametric factorization approach for sparsely observed tensors. The sparsity does not mean zero-valued entries are massive or dominated. Rather, it implies the observed entries are very few, and even fewer with the growth of the tensor; this is ubiquitous in practice. Compared with the existent works, our model not only leverages the structural information underlying the observed entry indices, but also provides extra interpretability and flexibility -- it can simultaneously estimate a set of location factors about the intrinsic properties of the tensor nodes, and another set of sociability factors reflecting their extrovert activity in interacting with others; users are free to choose a trade-off between the two types of factors. Specifically, we use hierarchical Gamma processes and Poisson random measures to construct a tensor-valued process, which can freely sample the two types of factors to generate tensors and always guarantees an asymptotic sparsity. We then normalize the tensor process to obtain hierarchical Dirichlet processes to sample each observed entry index, and use a Gaussian process to sample the entry value as a nonlinear function of the factors, so as to capture both the sparse structure properties and complex node relationships. For efficient inference, we use Dirichlet process properties over finite sample partitions, density transformations, and random features to develop a stochastic variational estimation algorithm. We demonstrate the advantage of our method in several benchmark datasets.
翻訳日:2021-10-20 13:47:08 公開日:2021-10-19
# 言語表現を用いた軌道予測

Trajectory Prediction with Linguistic Representations ( http://arxiv.org/abs/2110.09741v1 )

ライセンス: Link先を確認
Yen-Ling Kuo, Xin Huang, Andrei Barbu, Stephen G. McGill, Boris Katz, John J. Leonard, Guy Rosman(参考訳) 言語によって、人間は周囲の出来事を解釈し、より正確な長期的な予測を可能にするメンタルモデルを構築することができる。 本稿では, 言語的中間表現を用いた軌跡予測モデルを提案し, 部分的に注釈付きキャプションを用いた軌跡サンプルを用いて訓練を行う。 モデルは単語ごとの直接監督なしに各単語の意味を学習する。 推定時には、長い時間間隔で操作や相互作用をキャプチャする軌道の言語記述を生成する。 この生成した記述は、複数のエージェントの軌道の予測を洗練するために使われる。 我々は,argoverseデータセット上でモデルをトレーニングし,検証し,軌道予測における精度の向上を示す。 さらに,本モデルはより解釈可能であり,平易な言語での推論の一部をキャプションとして表現し,モデル開発を支援するとともに,デプロイ前にモデルの信頼性構築を支援する。

Language allows humans to build mental models that interpret what is happening around them resulting in more accurate long-term predictions. We present a novel trajectory prediction model that uses linguistic intermediate representations to forecast trajectories, and is trained using trajectory samples with partially annotated captions. The model learns the meaning of each of the words without direct per-word supervision. At inference time, it generates a linguistic description of trajectories which captures maneuvers and interactions over an extended time interval. This generated description is used to refine predictions of the trajectories of multiple agents. We train and validate our model on the Argoverse dataset, and demonstrate improved accuracy results in trajectory prediction. In addition, our model is more interpretable: it presents part of its reasoning in plain language as captions, which can aid model development and can aid in building confidence in the model before deploying it.
翻訳日:2021-10-20 13:19:10 公開日:2021-10-19
# ビジュアルリッチドキュメントにおける依存性解析としてのエンティティ関係抽出

Entity Relation Extraction as Dependency Parsing in Visually Rich Documents ( http://arxiv.org/abs/2110.09915v1 )

ライセンス: Link先を確認
Yue Zhang, Bo Zhang, Rui Wang, Junjie Cao, Chen Li, Zuyi Bao(参考訳) 視覚的にリッチなドキュメント(VRD)からキー情報を抽出する以前の研究は、主に境界ボックス(セマンティック・エンティティ)内のテキストのラベル付けに重点を置いている。 本稿では,このエンティティ関係抽出タスクに対して,一般的な依存性解析モデルであるbiaffine parserを適用する。 単語間の依存関係関係を認識する依存性解析モデルとは異なることから,単語群間の関係をレイアウト情報で識別する。 我々は、セマンティックエンティティの異なる表現、異なるvrdエンコーダ、異なる関係デコーダを比較した。 その結果,FUNSDデータセットの65.96%のF1スコアが得られた。 実世界のアプリケーションに関しては、当社のモデルは社内のカスタムデータに適用され、本番環境での信頼性の高いパフォーマンスを実現しています。

Previous works on key information extraction from visually rich documents (VRDs) mainly focus on labeling the text within each bounding box (i.e., semantic entity), while the relations in-between are largely unexplored. In this paper, we adapt the popular dependency parsing model, the biaffine parser, to this entity relation extraction task. Being different from the original dependency parsing model which recognizes dependency relations between words, we identify relations between groups of words with layout information instead. We have compared different representations of the semantic entity, different VRD encoders, and different relation decoders. The results demonstrate that our proposed model achieves 65.96% F1 score on the FUNSD dataset. As for the real-world application, our model has been applied to the in-house customs data, achieving reliable performance in the production setting.
翻訳日:2021-10-20 13:18:57 公開日:2021-10-19
# ECG信号分類のためのニューラルネットワークの逆ロバスト性向上のための正規化法

A Regularization Method to Improve Adversarial Robustness of Neural Networks for ECG Signal Classification ( http://arxiv.org/abs/2110.09759v1 )

ライセンス: Link先を確認
Linhai Ma and Liang Liang(参考訳) 心電図(Electrocardiogram、ECG)は、ヒトの心臓の状態をモニターする最も広く用いられる診断ツールである。 ディープニューラルネットワーク(DNN)を使用することで、心電図信号の解釈を完全に自動化し、患者の心臓の潜在的な異常を1秒で識別することができる。 十分な量のトレーニングデータがあれば、心電図分類のDNN精度は、人間の専門的な心臓科医レベルに達する可能性がある。 しかし、分類精度が優れているにもかかわらず、DNNは、DNNの入力に微妙な変化があり、誤ったクラスラベル予測をもたらす可能性のある敵雑音に対して非常に脆弱である。 ライフクリティカルなアプリケーションに対する脅威である敵対的ノイズに対するDNNの堅牢性を改善することは困難かつ不可欠である。 そこで本研究では,ECG信号分類への応用を目的としたノイズ・信号比(NSR)の観点から,DNNのロバスト性向上のための正規化手法を提案する。 提案手法をPhystoNet MIT-BIHデータセットとCPSC2018 ECGデータセットで評価し,本手法は敵の攻撃による敵の雑音に対するDNNの頑健性を大幅に向上させることができることを示した。

Electrocardiogram (ECG) is the most widely used diagnostic tool to monitor the condition of the human heart. By using deep neural networks (DNNs), interpretation of ECG signals can be fully automated for the identification of potential abnormalities in a patient's heart in a fraction of a second. Studies have shown that given a sufficiently large amount of training data, DNN accuracy for ECG classification could reach human-expert cardiologist level. However, despite of the excellent performance in classification accuracy, DNNs are highly vulnerable to adversarial noises that are subtle changes in the input of a DNN and may lead to a wrong class-label prediction. It is challenging and essential to improve robustness of DNNs against adversarial noises, which are a threat to life-critical applications. In this work, we proposed a regularization method to improve DNN robustness from the perspective of noise-to-signal ratio (NSR) for the application of ECG signal classification. We evaluated our method on PhysioNet MIT-BIH dataset and CPSC2018 ECG dataset, and the results show that our method can substantially enhance DNN robustness against adversarial noises generated from adversarial attacks, with a minimal change in accuracy on clean data.
翻訳日:2021-10-20 13:18:27 公開日:2021-10-19
# ALBERTをSQuAD 2.0に組み込む

Ensemble ALBERT on SQuAD 2.0 ( http://arxiv.org/abs/2110.09665v1 )

ライセンス: Link先を確認
Shilun Li, Renee Li, Veronica Peng(参考訳) 機械質問応答は自然言語処理において不可欠だが難しい課題である。 近年、トランスフォーマー (bert) や lite bert (albert) からの双方向エンコーダ表現のような事前学習された文脈埋め込み (pce) モデルが、幅広い nlp タスクでの性能の高さから多くの注目を集めている。 本稿では,ALBERTモデルを微調整し,その上に追加レイヤ(注意層,RNN層など)を組み合わせて,SQuAD 2.0(Stanford Question Answering Dataset)のモデル性能を改善した。 ALBERTベースモデルとALBERT-xlargeとALBERT-xxlargeに基づく2つのモデルを用いて,異なる層を持つ4つのモデルを実装した。 ベースラインモデル ALBERT-base-v2 + ALBERT-SQuAD-out と比較した。 我々の最も優れた個別モデルはALBERT-xxlarge + ALBERT-SQuAD-outであり、開発セットでF1スコア88.435に達した。 さらに,性能向上のために3種類のアンサンブルアルゴリズムを実装した。 いくつかの最高の性能のモデルの結果を重み付けされた投票アンサンブルアルゴリズムに渡すことで、最終結果はStanford CS224N Test PCE SQuAD Leaderboard with F1 = 90.123にランク付けされる。

Machine question answering is an essential yet challenging task in natural language processing. Recently, Pre-trained Contextual Embeddings (PCE) models like Bidirectional Encoder Representations from Transformers (BERT) and A Lite BERT (ALBERT) have attracted lots of attention due to their great performance in a wide range of NLP tasks. In our Paper, we utilized the fine-tuned ALBERT models and implemented combinations of additional layers (e.g. attention layer, RNN layer) on top of them to improve model performance on Stanford Question Answering Dataset (SQuAD 2.0). We implemented four different models with different layers on top of ALBERT-base model, and two other models based on ALBERT-xlarge and ALBERT-xxlarge. We compared their performance to our baseline model ALBERT-base-v2 + ALBERT-SQuAD-out with details. Our best-performing individual model is ALBERT-xxlarge + ALBERT-SQuAD-out, which achieved an F1 score of 88.435 on the dev set. Furthermore, we have implemented three different ensemble algorithms to boost overall performance. By passing in several best-performing models' results into our weighted voting ensemble algorithm, our final result ranks first on the Stanford CS224N Test PCE SQuAD Leaderboard with F1 = 90.123.
翻訳日:2021-10-20 13:18:06 公開日:2021-10-19
# 深層強化学習による審美写真コラージュ

Aesthetic Photo Collage with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.09775v1 )

ライセンス: Link先を確認
Mingrui Zhang, Mading Li, Li Chen, Jiahao Yu(参考訳) photo collageは、所定のキャンバスに複数の写真を自動的に配置し、高い美的品質で提供する。 既存の手法は主に手作りの特徴最適化に基づいており、高いレベルの人間の美意識を適切に捉えることはできない。 ディープラーニングは有望な方法を提供するが、コラージュの複雑さとトレーニングデータの欠如のため、まだ解決策が見つかっていない。 本稿では,特定コラージュのアスペクト比自動生成のための新しいパイプラインを提案し,コラージュにおける強化学習手法を初めて紹介する。 手動コラージュにインスパイアされたコラージュ生成を逐次決定プロセスとしてモデル化し,空間的位置,方向角,配置順序,大域的レイアウトを調整する。 エージェントに全体レイアウトと局所的詳細の両方を改善するよう指示するため、報酬関数は主観的および客観的要因を考慮して特別にコラージュ用に設計されている。 トレーニングデータの欠如を克服するため,我々は大規模画像美的データセット(CPC)を用いて,一般的な美的特徴抽出のための深層美的ネットワークを事前訓練し,構造的コラージュ特徴表現のための注意融合モジュールを提案する。 2つの映画データセット上で競合する手法に対して本モデルを検証し,美的品質評価において他者よりも優れた結果を得た。 さらなるユーザスタディも実施し、その効果を実証する。

Photo collage aims to automatically arrange multiple photos on a given canvas with high aesthetic quality. Existing methods are based mainly on handcrafted feature optimization, which cannot adequately capture high-level human aesthetic senses. Deep learning provides a promising way, but owing to the complexity of collage and lack of training data, a solution has yet to be found. In this paper, we propose a novel pipeline for automatic generation of aspect ratio specified collage and the reinforcement learning technique is introduced in collage for the first time. Inspired by manual collages, we model the collage generation as sequential decision process to adjust spatial positions, orientation angles, placement order and the global layout. To instruct the agent to improve both the overall layout and local details, the reward function is specially designed for collage, considering subjective and objective factors. To overcome the lack of training data, we pretrain our deep aesthetic network on a large scale image aesthetic dataset (CPC) for general aesthetic feature extraction and propose an attention fusion module for structural collage feature representation. We test our model against competing methods on two movie datasets and our results outperform others in aesthetic quality evaluation. Further user study is also conducted to demonstrate the effectiveness.
翻訳日:2021-10-20 13:17:41 公開日:2021-10-19
# 回転物体検出器による毒性・鎮静剤検出に向けて

Towards Toxic and Narcotic Medication Detection with Rotated Object Detector ( http://arxiv.org/abs/2110.09777v1 )

ライセンス: Link先を確認
Jiao Peng, Feifan Wang, Zhongqiang Fu, Yiying Hu, Zichen Chen, Xinghan Zhou, Lijun Wang(参考訳) 近年、医学分野におけるディープラーニングビジョン技術の進歩と応用が注目されている。 特殊な医薬品管理のためのインテリジェントデバイスは非常に必要であり、仕様や場所を特定するためにより正確な検出アルゴリズムを必要とする。 この研究で、YOLO(一度だけ見える)ベースの物体検出器は、毒性のある麻薬検出タスク用に調整されている。 具体的には, 任意指向のバウンディングボックスを対象とし, 有効かつ効率的な薬剤検出を実現するため, 回転度が0^\circ$から90^\circ$までのより柔軟なアノテーションとマスクマッピングベースの非最大抑制法を提案する。 大規模な実験により、回転したYOLO検出器は密に配列された薬物を識別するのにより適していることが示された。 提案ネットワークの最適ショット平均精度は0.811であり、推論時間は300ms未満である。

Recent years have witnessed the advancement of deep learning vision technologies and applications in the medical industry. Intelligent devices for special medication management are in great need of, which requires more precise detection algorithms to identify the specifications and locations. In this work, YOLO (You only look once) based object detectors are tailored for toxic and narcotic medications detection tasks. Specifically, a more flexible annotation with rotated degree ranging from $0^\circ$ to $90^\circ$ and a mask-mapping-based non-maximum suppression method are proposed to achieve a feasible and efficient medication detector aiming at arbitrarily oriented bounding boxes. Extensive experiments demonstrate that the rotated YOLO detectors are more suitable for identifying densely arranged drugs. The best shot mean average precision of the proposed network reaches 0.811 while the inference time is less than 300ms.
翻訳日:2021-10-20 13:17:18 公開日:2021-10-19
# DPFM: 深い部分関数型マップ

DPFM: Deep Partial Functional Maps ( http://arxiv.org/abs/2110.09994v1 )

ライセンス: Link先を確認
Souhaib Attaiki, Gautam Pai, Maks Ovsjanikov(参考訳) 我々は、潜在的に有意な部分性を有する非剛体形状間の密接な対応を計算する問題を考える。 既存の定式化は、手作り形状記述子を与えられたスペクトル領域の重い多様体最適化によってこの問題に対処する。 本稿では,部分的非剛性形状対応を指向した最初の学習法を提案する。 提案手法では, 関数マップフレームワークを用いて, 教師なしあるいは教師なしの方法で訓練し, データから直接記述子を学習することにより, 難題の堅牢性と精度を向上させる。 さらに, 従来の手法と異なり, 本手法は, 両形状の共通領域が未知である部分的・部分的非剛性マッチングにも適用可能である。 本手法はデータ効率が良く,いくつかのベンチマークデータセットにおいて最先端の結果が得られることを示す。 私たちのコードとデータはオンラインで見つけることができます。

We consider the problem of computing dense correspondences between non-rigid shapes with potentially significant partiality. Existing formulations tackle this problem through heavy manifold optimization in the spectral domain, given hand-crafted shape descriptors. In this paper, we propose the first learning method aimed directly at partial non-rigid shape correspondence. Our approach uses the functional map framework, can be trained in a supervised or unsupervised manner, and learns descriptors directly from the data, thus both improving robustness and accuracy in challenging cases. Furthermore, unlike existing techniques, our method is also applicable to partial-to-partial non-rigid matching, in which the common regions on both shapes are unknown a priori. We demonstrate that the resulting method is data-efficient, and achieves state-of-the-art results on several benchmark datasets. Our code and data can be found online: https://github.com/p vnieo/DPFM
翻訳日:2021-10-20 13:16:30 公開日:2021-10-19
# AequeVox:音声認識システムのフェアネス自動テスト

AequeVox: Automated Fairness Testing of Speech Recognition Systems ( http://arxiv.org/abs/2110.09843v1 )

ライセンス: Link先を確認
Sai Sathiesh Rajan (1), Sakshi Udeshi (1), and Sudipta Chattopadhyay (1) ((1) Singapore University of Technology and Design)(参考訳) 音声認識システム(ASR)が普及している。 様々な形態の要素から発見することができ、私たちの日常生活においてますます重要になっている。 したがって、これらのシステムが人口の異なる部分群に等しくしていることを保証することは重要である。 本稿では,ASRシステムの公正性を評価する自動テストフレームワークであるAequeVoxを紹介する。 AequeVoxは異なる環境をシミュレートし、異なる人口に対するASRシステムの有効性を評価する。 また,選択したシミュレーションが人間に理解できるかどうかについても検討する。 さらに,これらの環境に対して頑健でない単語を識別できる障害位置推定手法を提案する。 AequeVoxのどちらのコンポーネントも、真理データがない状態で動作可能である。 AequeVoxを3種類の商用ASRを用いて4種類のデータセットから評価した。 実験の結果,非ネイティブ英語話者,女性英語話者,ナイジェリア英語話者が,それぞれ109%,528.5%,および156.9%のエラーを発生させることがわかった。 ユーザ調査の結果、82.9%のシミュレーション(音声変換による雇用)が7点(10点満点中)以上で、最も低い評価は6.78点であった。 これにより、AequeVoxによって発見された公正違反がさらに検証される。 最後に,aequevoxに具現化された故障位置推定手法によって予測される非ロバスト語は,すべてのasrで予測された頑健な単語よりも223.8%高い誤差を示した。

Automatic Speech Recognition (ASR) systems have become ubiquitous. They can be found in a variety of form factors and are increasingly important in our daily lives. As such, ensuring that these systems are equitable to different subgroups of the population is crucial. In this paper, we introduce, AequeVox, an automated testing framework for evaluating the fairness of ASR systems. AequeVox simulates different environments to assess the effectiveness of ASR systems for different populations. In addition, we investigate whether the chosen simulations are comprehensible to humans. We further propose a fault localization technique capable of identifying words that are not robust to these varying environments. Both components of AequeVox are able to operate in the absence of ground truth data. We evaluated AequeVox on speech from four different datasets using three different commercial ASRs. Our experiments reveal that non-native English, female and Nigerian English speakers generate 109%, 528.5% and 156.9% more errors, on average than native English, male and UK Midlands speakers, respectively. Our user study also reveals that 82.9% of the simulations (employed through speech transformations) had a comprehensibility rating above seven (out of ten), with the lowest rating being 6.78. This further validates the fairness violations discovered by AequeVox. Finally, we show that the non-robust words, as predicted by the fault localization technique embodied in AequeVox, show 223.8% more errors than the predicted robust words across all ASRs.
翻訳日:2021-10-20 13:15:56 公開日:2021-10-19
# DEEPAG\'E:ブラジルの環境に関するポルトガル語の質問に答える

DEEPAG\'E: Answering Questions in Portuguese about the Brazilian Environment ( http://arxiv.org/abs/2110.10015v1 )

ライセンス: Link先を確認
Fl\'avio Nakasato Ca\c{c}\~ao, Marcos Menon Jos\'e, Andr\'e Seidel Oliveira, Stefano Spindola, Anna Helena Reali Costa, F\'abio Gagliardi Cozman(参考訳) 気候変動とバイオマス保護の課題は、特に重要な環境保護区があるブラジルにおいて、我々の時代で最も差し迫った問題の一つである。 生態学的なテーマに大規模なテキストデータベースが利用できることを考えると、これらのトピックに対する社会的意識と理解を高めるために質問応答(QA)システムを利用するのが自然である。 本研究では,BM25アルゴリズム,スパース検索手法と,事前訓練された最先端言語モデルであるPTT5を組み合わせた複数のQAシステムを提案する。 当社のqaシステムはポルトガル語に重点を置いており、文献にはないリソースを提供しています。 トレーニングデータとして、オープンドメインデータセットからの質問、ポルトガルのウィキペディアからのコンテンツ、報道からのニュースを収集しました。 したがって、革新的なアーキテクチャや新しいアプリケーションに貢献し、最良のモデルで36.2のf1-scoreを達成します。

The challenge of climate change and biome conservation is one of the most pressing issues of our time - particularly in Brazil, where key environmental reserves are located. Given the availability of large textual databases on ecological themes, it is natural to resort to question answering (QA) systems to increase social awareness and understanding about these topics. In this work, we introduce multiple QA systems that combine in novel ways the BM25 algorithm, a sparse retrieval technique, with PTT5, a pre-trained state-of-the-art language model. Our QA systems focus on the Portuguese language, thus offering resources not found elsewhere in the literature. As training data, we collected questions from open-domain datasets, as well as content from the Portuguese Wikipedia and news from the press. We thus contribute with innovative architectures and novel applications, attaining an F1-score of 36.2 with our best model.
翻訳日:2021-10-20 13:15:30 公開日:2021-10-19
# CGNN:グラフニューラルネットワークによる交通分類

CGNN: Traffic Classification with Graph Neural Network ( http://arxiv.org/abs/2110.09726v1 )

ライセンス: Link先を確認
Bo Pang, Yongquan Fu, Siyuan Ren, Ye Wang, Qing Liao, Yan Jia(参考訳) トラフィック分類は、パケットストリームと既知のアプリケーションラベルを関連付ける。 NAT、ポートダイナミクス、暗号化トラフィックの増加に伴い、正確な分類のために統一されたトラフィック機能を取得することはますます困難になっている。 多くの最先端のトラフィック分類器は、畳み込みネットワークのようなディープラーニングモデルに基づいてパケットストリームから自動的に特徴を抽出する。 残念ながら、これらの深層学習モデルでは、パケット間の構成的および因果関係は十分に抽出されておらず、異なるトラフィックタイプにおける予測精度と一般化の両方に影響を与える。 本稿では,パケットストリーム上の連鎖グラフモデルを提案する。 次に,連鎖グラフ上で自動的に抽出された特徴の上にグラフ分類を行う,グラフニューラルネットワークに基づくトラフィック分類手法であるcgnnを提案する。 通常の,暗号化された,悪意のあるラベルを含む実世界のトラフィックデータセットに対する広範な評価から,cgnnは,アプリケーション分類の予測精度を23\%から29\%,悪意のあるトラフィック分類を2\%から37\%,暗号化トラフィック分類の精度を同じレベルに向上させることが示された。 CGNNはリコールと精度の指標に関して非常に堅牢である。 我々は,交通分類に非常に有効な最適化パラメータであるCGNNのパラメータ感度を広範囲に評価した。

Traffic classification associates packet streams with known application labels, which is vital for network security and network management. With the rise of NAT, port dynamics, and encrypted traffic, it is increasingly challenging to obtain unified traffic features for accurate classification. Many state-of-the-art traffic classifiers automatically extract features from the packet stream based on deep learning models such as convolution networks. Unfortunately, the compositional and causal relationships between packets are not well extracted in these deep learning models, which affects both prediction accuracy and generalization on different traffic types. In this paper, we present a chained graph model on the packet stream to keep the chained compositional sequence. Next, we propose CGNN, a graph neural network based traffic classification method, which builds a graph classifier over automatically extracted features over the chained graph. Extensive evaluation over real-world traffic data sets, including normal, encrypted and malicious labels, show that, CGNN improves the prediction accuracy by 23\% to 29\% for application classification, by 2\% to 37\% for malicious traffic classification, and reaches the same accuracy level for encrypted traffic classification. CGNN is quite robust in terms of the recall and precision metrics. We have extensively evaluated the parameter sensitivity of CGNN, which yields optimized parameters that are quite effective for traffic classification.
翻訳日:2021-10-20 13:15:16 公開日:2021-10-19
# AEFE: カテゴリ機能のための自動組込み機能エンジニアリング

AEFE: Automatic Embedded Feature Engineering for Categorical Features ( http://arxiv.org/abs/2110.09770v1 )

ライセンス: Link先を確認
Zhenyuan Zhong, Jie Yang, Yacong Ma, Shoubin Dong, Jinlong Hu(参考訳) 推薦システム(RS)やクリックスルーレート(CTR)予測などの電子商取引アプリケーションにおけるデータマイニングの課題は,多数のカテゴリの特徴から組合せ的特徴を構築し,解釈可能性を維持しながら推論する方法である。 本稿では,カスタムパラダイム機能構築や複数機能選択など,さまざまなコンポーネントで構成されるカテゴリ的特徴を表現する自動機能エンジニアリングフレームワークである,efe(automatic embedded feature engineering)を提案する。 潜在フィールドペアをインテリジェントに選択し,一連の解釈可能な組合せ的特徴を生成することにより,モデル性能を向上させるための未認識の機能セットを提供するとともに,特定のデータマイニングタスクにおける機能の重要性をデータアナリストが発見するのを支援する。 さらに、AEFEは、Matrix Factorizationフィールドの組み合わせに基づくタスク並列処理、データサンプリング、検索スキーマによって実装され、パフォーマンスを最適化し、フレームワークの効率性とスケーラビリティを向上させる。 典型的なeコマースデータセットで行った実験では、従来の機械学習モデルや最先端のディープラーニングモデルよりも優れています。

The challenge of solving data mining problems in e-commerce applications such as recommendation system (RS) and click-through rate (CTR) prediction is how to make inferences by constructing combinatorial features from a large number of categorical features while preserving the interpretability of the method. In this paper, we propose Automatic Embedded Feature Engineering(AEFE), an automatic feature engineering framework for representing categorical features, which consists of various components including custom paradigm feature construction and multiple feature selection. By selecting the potential field pairs intelligently and generating a series of interpretable combinatorial features, our framework can provide a set of unseen generated features for enhancing model performance and then assist data analysts in discovering the feature importance for particular data mining tasks. Furthermore, AEFE is distributed implemented by task-parallelism, data sampling, and searching schema based on Matrix Factorization field combination, to optimize the performance and enhance the efficiency and scalability of the framework. Experiments conducted on some typical e-commerce datasets indicate that our method outperforms the classical machine learning models and state-of-the-art deep learning models.
翻訳日:2021-10-20 13:14:54 公開日:2021-10-19
# value-based episodic memoryを用いたオフライン強化学習

Offline Reinforcement Learning with Value-based Episodic Memory ( http://arxiv.org/abs/2110.09796v1 )

ライセンス: Link先を確認
Xiaoteng Ma, Yiqin Yang, Hao Hu, Qihan Liu, Jun Yang, Chongjie Zhang, Qianchuan Zhao, Bin Liang(参考訳) オフライン強化学習(RL)は、以前に収集したデータを効果的に活用することにより、実世界の問題にRLを適用することを約束する。 既存のオフラインRLアルゴリズムの多くは、データセット外のアクションに対する外挿エラーを抑制するために正規化や制約を使用している。 本稿では、Q関数の代わりにV関数を学習する異なるフレームワークを採用し、学習手順をオフラインデータセットのサポート内で自然に維持する。 オフライン学習における適切な保守性を維持しつつ効果的な一般化を実現するために,最適値学習と行動クローニングを円滑に補間する期待型Vラーニング(EVL)を提案する。 さらに,オフライントラジェクタに暗黙的計画を導入し,学習したv値を高め,収束を加速する。 本稿では,新しいオフライン手法であるValue-based Episodic Memory (VEM)を提案する。 本稿では,提案手法の収束特性に関する理論的解析を行い,D4RLベンチマークにおける実験結果から,本手法が多くのタスク,特にスパース・リワードタスクにおいて優れた性能を発揮することを示す。

Offline reinforcement learning (RL) shows promise of applying RL to real-world problems by effectively utilizing previously collected data. Most existing offline RL algorithms use regularization or constraints to suppress extrapolation error for actions outside the dataset. In this paper, we adopt a different framework, which learns the V-function instead of the Q-function to naturally keep the learning procedure within the support of an offline dataset. To enable effective generalization while maintaining proper conservatism in offline learning, we propose Expectile V-Learning (EVL), which smoothly interpolates between the optimal value learning and behavior cloning. Further, we introduce implicit planning along offline trajectories to enhance learned V-values and accelerate convergence. Together, we present a new offline method called Value-based Episodic Memory (VEM). We provide theoretical analysis for the convergence properties of our proposed VEM method, and empirical results in the D4RL benchmark show that our method achieves superior performance in most tasks, particularly in sparse-reward tasks.
翻訳日:2021-10-20 13:14:34 公開日:2021-10-19
# 在宅モニタリングデータを用いた認知症者の神経精神症状同定のための臨床応用深部再発モデルの設計

Designing A Clinically Applicable Deep Recurrent Model to Identify Neuropsychiatric Symptoms in People Living with Dementia Using In-Home Monitoring Data ( http://arxiv.org/abs/2110.09868v1 )

ライセンス: Link先を確認
Francesca Palermo, Honglin Li, Alexander Capstick, Nan Fletcher-Lloyd, Yuchen Zhao, Samaneh Kouchaki, Ramin Nilforooshan, David Sharp, Payam Barnaghi(参考訳) 鎮静は認知症に高い有病率を持つ神経精神医学症状の1つであり、日常生活活動(ADL)や個人の自立に悪影響を及ぼす可能性がある。 扇動エピソードの検出は、認知症に生きる人々(PLWD)に早期かつタイムリーな介入を提供するのに役立つ。 興奮のエピソードを分析することで、周囲の温度や睡眠などの調節可能な要因を、個人の動揺を引き起こすコンポーネントとして特定することができる。 本研究は,家庭内モニタリングデータを用いてPLWDの動揺リスクを分析するための教師付き学習モデルを提案する。 家庭内モニタリングデータには、モーションセンサー、生理計測、2019年4月から2021年6月までの46戸のPLWDのキッチン機器の使用が含まれている。 臨床モニタリングチームにより検証・記録された扇動エピソードの同定に,繰り返しディープラーニングモデルを適用した。 本研究は,提案モデルの有効性を評価する実験である。 提案モデルでは,最適パラメータを用いた場合,平均79.78%のリコール,27.66%の精度,37.64%のF1スコアを達成し,扇動現象の認識能力の向上が示唆された。 また、継続的モニタリングデータを用いた行動パターンの分析に機械学習モデルを用いることで、臨床応用可能性と、在宅モニタリングアプリケーションにおける感度と特異性の選択について検討する。

Agitation is one of the neuropsychiatric symptoms with high prevalence in dementia which can negatively impact the Activities of Daily Living (ADL) and the independence of individuals. Detecting agitation episodes can assist in providing People Living with Dementia (PLWD) with early and timely interventions. Analysing agitation episodes will also help identify modifiable factors such as ambient temperature and sleep as possible components causing agitation in an individual. This preliminary study presents a supervised learning model to analyse the risk of agitation in PLWD using in-home monitoring data. The in-home monitoring data includes motion sensors, physiological measurements, and the use of kitchen appliances from 46 homes of PLWD between April 2019-June 2021. We apply a recurrent deep learning model to identify agitation episodes validated and recorded by a clinical monitoring team. We present the experiments to assess the efficacy of the proposed model. The proposed model achieves an average of 79.78% recall, 27.66% precision and 37.64% F1 scores when employing the optimal parameters, suggesting a good ability to recognise agitation events. We also discuss using machine learning models for analysing the behavioural patterns using continuous monitoring data and explore clinical applicability and the choices between sensitivity and specificity in-home monitoring applications.
翻訳日:2021-10-20 13:14:17 公開日:2021-10-19
# ニューラルネットワーク互換のオフポリシー自然アクター-クリティックアルゴリズム

Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm ( http://arxiv.org/abs/2110.10017v1 )

ライセンス: Link先を確認
Raghuram Bharadwaj Diddigi, Prateek Jain, Prabuchandran K.J., Shalabh Bhatnagar(参考訳) 既存のデータから最適な行動を学ぶことは強化学習(rl)において最も重要な問題の1つである。 これはrlにおいて「オフ・ポリシー・コントロール」と呼ばれ、エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。 最適政策は行動方針と大きく異なる可能性があるため、政策更新から新たなデータが学習に活用される「オン・ポリシー」設定に比べて、「オフ・ポリシー」設定では最適な行動の学習は非常に困難である。 本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。 既存の自然勾配に基づく収束保証付きアクタ-クリティックアルゴリズムは、ポリシー関数と値関数の両方を近似する固定的な特徴を必要とする。 これは多くのRLアプリケーションで準最適学習につながることが多い。 一方,提案アルゴリズムでは,任意のニューラルネットワークを用いてポリシと値関数を近似し,局所的最適ポリシへの収束を保証する,互換性のある特徴を利用する。 提案するオフポリシック自然勾配アルゴリズムの利点を,ベンチマークrlタスクにおけるバニラ勾配アクター-クリティックアルゴリズムとの比較により示す。

Learning optimal behavior from existing data is one of the most important problems in Reinforcement Learning (RL). This is known as "off-policy control" in RL where an agent's objective is to compute an optimal policy based on the data obtained from the given policy (known as the behavior policy). As the optimal policy can be very different from the behavior policy, learning optimal behavior is very hard in the "off-policy" setting compared to the "on-policy" setting where new data from the policy updates will be utilized in learning. This work proposes an off-policy natural actor-critic algorithm that utilizes state-action distribution correction for handling the off-policy behavior and the natural policy gradient for sample efficiency. The existing natural gradient-based actor-critic algorithms with convergence guarantees require fixed features for approximating both policy and value functions. This often leads to sub-optimal learning in many RL applications. On the other hand, our proposed algorithm utilizes compatible features that enable one to use arbitrary neural networks to approximate the policy and the value function and guarantee convergence to a locally optimal policy. We illustrate the benefit of the proposed off-policy natural gradient algorithm by comparing it with the vanilla gradient actor-critic algorithm on benchmark RL tasks.
翻訳日:2021-10-20 13:13:05 公開日:2021-10-19
# CORA:継続的強化学習エージェントのプラットフォームとしてのベンチマーク、ベースライン、メトリクス

CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual Reinforcement Learning Agents ( http://arxiv.org/abs/2110.10067v1 )

ライセンス: Link先を確認
Sam Powers, Eliot Xing, Eric Kolve, Roozbeh Mottaghi, Abhinav Gupta(参考訳) コード不足、高い計算要求、適切なベンチマークの欠如など、いくつかの障壁があるため、継続的な強化学習の進歩は制限されている。 本研究では,ベンチマーク,ベースライン,メトリクスを単一コードパッケージで提供する継続的強化学習エージェントのプラットフォームであるCORAを紹介する。 私たちが提供しているベンチマークは、破滅的な忘れ、可塑性、一般化能力、サンプル効率の学習など、連続的なRL課題のさまざまな側面を評価するように設計されています。 3つのベンチマークはビデオゲーム環境(atari、procgen、nethack)を使用している。 第4のベンチマークであるCHORESは、4つの異なるタスクシーケンスで構成されており、多様なタスクとシーンパラメータから描画される視覚的に現実的なホームシミュレータである。 これらのベンチマークで連続rl法を比較するために,連続評価,忘れ,ゼロショットフォワード転送という3つの指標をcoraで作成する。 最後に、CORAには、研究者が使用および拡張するための既存のアルゴリズムの、パフォーマンスの高いオープンソースのベースラインが含まれている。 我々はCORAをリリースし、継続RLコミュニティが我々の貢献の恩恵を受けることを期待し、新しい連続RLアルゴリズムの開発を加速する。

Progress in continual reinforcement learning has been limited due to several barriers to entry: missing code, high compute requirements, and a lack of suitable benchmarks. In this work, we present CORA, a platform for Continual Reinforcement Learning Agents that provides benchmarks, baselines, and metrics in a single code package. The benchmarks we provide are designed to evaluate different aspects of the continual RL challenge, such as catastrophic forgetting, plasticity, ability to generalize, and sample-efficient learning. Three of the benchmarks utilize video game environments (Atari, Procgen, NetHack). The fourth benchmark, CHORES, consists of four different task sequences in a visually realistic home simulator, drawn from a diverse set of task and scene parameters. To compare continual RL methods on these benchmarks, we prepare three metrics in CORA: continual evaluation, forgetting, and zero-shot forward transfer. Finally, CORA includes a set of performant, open-source baselines of existing algorithms for researchers to use and expand on. We release CORA and hope that the continual RL community can benefit from our contributions, to accelerate the development of new continual RL algorithms.
翻訳日:2021-10-20 13:12:43 公開日:2021-10-19
# 信頼によるパレート効率の良い意思決定の学習

Learning Pareto-Efficient Decisions with Confidence ( http://arxiv.org/abs/2110.09864v1 )

ライセンス: Link先を確認
Sofia Ek, Dave Zachariah, Petre Stoica(参考訳) 本稿では,結果が不確実な場合の多目的意思決定支援の問題について考察する。 我々は,パレート効率の高い意思決定の概念を拡張し,様々な文脈における意思決定結果の不確実性を考慮する。 これにより、安全クリティカルなアプリケーションに関連するテール結果の観点から、意思決定間のトレードオフを定量化することができる。 本稿では,コンフォーメーショナル予測文献から得られた結果をもとに,統計的自信を持って効率的な意思決定を行う手法を提案する。 弱もしくは非存在の文脈共変重なりに適応し、その統計的保証を合成データと実データの両方を用いて評価する。

The paper considers the problem of multi-objective decision support when outcomes are uncertain. We extend the concept of Pareto-efficient decisions to take into account the uncertainty of decision outcomes across varying contexts. This enables quantifying trade-offs between decisions in terms of tail outcomes that are relevant in safety-critical applications. We propose a method for learning efficient decisions with statistical confidence, building on results from the conformal prediction literature. The method adapts to weak or nonexistent context covariate overlap and its statistical guarantees are evaluated using both synthetic and real data.
翻訳日:2021-10-20 13:12:24 公開日:2021-10-19
# bamld: 不一致によるベイズアクティブメタラーニング

BAMLD: Bayesian Active Meta-Learning by Disagreement ( http://arxiv.org/abs/2110.09943v1 )

ライセンス: Link先を確認
Ivana Nikoloska and Osvaldo Simeone(参考訳) データ効率の良い学習アルゴリズムは、自動運転車など、データ収集やラベリングが高価あるいは実現不可能である多くの実用的なアプリケーションにおいて不可欠である。 この問題に対処するためにメタラーニングは、少数のサンプルを使って新しいが関連するタスクを学ぶために、一連のメタトレーニングタスクから帰納的バイアスを推測する。 ほとんどの研究はメタリーナーが多くのタスクからラベル付きデータセットにアクセスすることを想定している。 実際には、タスクからラベル付きデータセットのみを利用でき、標準のメタラーニングスキームで使用する前にコストのかかるラベル付け手順が必要となる。 本稿では,メタトレーニングタスクのラベリング要求数を減らすために,異なる帰納的バイアス下で得られる予測間の不一致を通じて認識的不確実性を定量化する情報理論的アクティブタスク選択機構を提案する。 ガウス過程回帰に基づく非パラメトリック手法のインスタンス化を詳述し,既存のヒューリスティック獲得機構と比較して好適な評価結果を示す。

Data-efficient learning algorithms are essential in many practical applications for which data collection and labeling is expensive or infeasible, e.g., for autonomous cars. To address this problem, meta-learning infers an inductive bias from a set of meta-training tasks in order to learn new, but related, task using a small number of samples. Most studies assume the meta-learner to have access to labeled data sets from a large number of tasks. In practice, one may have available only unlabeled data sets from the tasks, requiring a costly labeling procedure to be carried out before use in standard meta-learning schemes. To decrease the number of labeling requests for meta-training tasks, this paper introduces an information-theoreti c active task selection mechanism which quantifies the epistemic uncertainty via disagreements among the predictions obtained under different inductive biases. We detail an instantiation for nonparametric methods based on Gaussian Process Regression, and report its empirical performance results that compare favourably against existing heuristic acquisition mechanisms.
翻訳日:2021-10-20 13:12:16 公開日:2021-10-19
# 一般化線形モデルにおけるカテゴリー予測子のクラスタリングカテゴリについて

On Clustering Categories of Categorical Predictors in Generalized Linear Models ( http://arxiv.org/abs/2110.10059v1 )

ライセンス: Link先を確認
Emilio Carrizosa and Marcela Galvis Restrepo and Dolores Romero Morales(参考訳) 本稿では,分類予測器の存在下での一般化線形モデルの複雑性を低減する手法を提案する。 各カテゴリがダミー変数で表される伝統的なワンホットエンコーディングは、特に高カーディナリティのカテゴリー予測器を扱う場合、無駄で、解釈が難しく、オーバーフィットしがちである。 本稿では,カテゴリをクラスタリングすることでカテゴリ予測器の表現を小さくすることで,これらの課題に対処する。 これは、カテゴリー予測器で推定される係数の数を減らしながら、精度を保存(あるいは改善)することを目的とした数値的な方法によって行われる。 その設計により、分類的予測器のカテゴリ間の近接測度を導出することができ、容易に視覚化できる。 実世界の分類とカウントデータデータセットでは,分類予測器をクラスタ化することで,精度を損なうことなく,複雑性を大幅に低減できることを示す。

We propose a method to reduce the complexity of Generalized Linear Models in the presence of categorical predictors. The traditional one-hot encoding, where each category is represented by a dummy variable, can be wasteful, difficult to interpret, and prone to overfitting, especially when dealing with high-cardinality categorical predictors. This paper addresses these challenges by finding a reduced representation of the categorical predictors by clustering their categories. This is done through a numerical method which aims to preserve (or even, improve) accuracy, while reducing the number of coefficients to be estimated for the categorical predictors. Thanks to its design, we are able to derive a proximity measure between categories of a categorical predictor that can be easily visualized. We illustrate the performance of our approach in real-world classification and count-data datasets where we see that clustering the categorical predictors reduces complexity substantially without harming accuracy.
翻訳日:2021-10-20 13:11:58 公開日:2021-10-19
# 自己保持機構における誘導的ビアーゼと可変生成

Inductive Biases and Variable Creation in Self-Attention Mechanisms ( http://arxiv.org/abs/2110.10090v1 )

ライセンス: Link先を確認
Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Cyril Zhang(参考訳) シーケンシャルデータにおける長距離インタラクションをモデル化するアーキテクチャモチーフであるSelf-attentionは、自然言語処理などにおける最近のブレークスルーを招いている。 この研究は自己着脱加群の帰納的バイアスの理論的な分析を提供し、我々の焦点はどの関数と長距離依存性の自己着脱ブロックが表現するのを好むかを厳密に確立することである。 我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している:それらは入力シーケンスのスパース関数を表現でき、サンプル複雑性は、コンテキストの長さで対数的にしかスケーリングできない。 さらに,この分析を支援するための新しい実験プロトコルを提案し,スパースブール関数を確実に学習する大規模作業を中心に構築されたトランスフォーマーの訓練を指導する。

Self-attention, an architectural motif designed to model long-range interactions in sequential data, has driven numerous recent breakthroughs in natural language processing and beyond. This work provides a theoretical analysis of the inductive biases of self-attention modules, where our focus is to rigorously establish which functions and long-range dependencies self-attention blocks prefer to represent. Our main result shows that bounded-norm Transformer layers create sparse variables: they can represent sparse functions of the input sequence, with sample complexity scaling only logarithmically with the context length. Furthermore, we propose new experimental protocols to support this analysis and to guide the practice of training Transformers, built around the large body of work on provably learning sparse Boolean functions.
翻訳日:2021-10-20 13:11:42 公開日:2021-10-19
# 双方向画像とテキスト生成のための統一マルチモーダルトランス

Unifying Multimodal Transformer for Bi-directional Image and Text Generation ( http://arxiv.org/abs/2110.09753v1 )

ライセンス: Link先を確認
Yupan Huang, Hongwei Xue, Bei Liu, Yutong Lu(参考訳) 本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。 典型的な既存の作業では、タスクごとに2つのタスク固有のモデルを設計する。 本稿では,双方向タスクを共同研究するために,単一マルチモーダルモデルに基づく統一的な画像・テキスト生成フレームワークを提案する。 強力なパフォーマンスとタスクに依存しない設計のために、統合アーキテクチャとしてTransformerを採用しています。 具体的には、両方のタスクをシーケンス生成タスクとして定式化し、画像とテキストをトークンの統一シーケンスとして表現し、Transformerはシーケンスを生成するマルチモーダルインタラクションを学習する。 さらに,トランスフォーマティブベースの統一フレームワークを改善するために,2段階の粒度特徴表現とシーケンスレベルのトレーニングを提案する。 実験により,従来のトランスフォーマーベースモデルであるX-LXMERTのFIDを37.0から29.9に改善し,CIDEr-Dスコアを100.9%から122.6%に改善した。 私たちのコードはオンラインで入手できる。

We study the joint learning of image-to-text and text-to-image generations, which are naturally bi-directional tasks. Typical existing works design two separate task-specific models for each task, which impose expensive design efforts. In this work, we propose a unified image-and-text generative framework based on a single multimodal model to jointly study the bi-directional tasks. We adopt Transformer as our unified architecture for its strong performance and task-agnostic design. Specifically, we formulate both tasks as sequence generation tasks, where we represent images and text as unified sequences of tokens, and the Transformer learns multimodal interactions to generate sequences. We further propose two-level granularity feature representations and sequence-level training to improve the Transformer-based unified framework. Experiments show that our approach significantly improves previous Transformer-based model X-LXMERT's FID from 37.0 to 29.9 (lower is better) for text-to-image generation, and improves CIDEr-D score from 100.9% to 122.6% for fine-tuned image-to-text generation on the MS-COCO dataset. Our code is available online.
翻訳日:2021-10-20 13:11:27 公開日:2021-10-19
# (参考訳) 対向訓練による電力系統制御のための強化学習のロバスト性向上 [全文訳有]

Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training ( http://arxiv.org/abs/2110.08956v2 )

ライセンス: CC BY 4.0
Alexander Pan, Yongkyun Lee, Huan Zhang, Yize Chen, Yuanyuan Shi(参考訳) 再生可能エネルギーの増殖と本質的な断続性と確率性により、現在の電力システムは厳しい運用上の課題に直面している。 データ駆動による強化学習(RL)による意思決定アルゴリズムはクリーンエネルギーシステムを効率的に運用するためのソリューションを提供する。 rlアルゴリズムはモデルベースの制御モデルと比較して有望な性能を発揮するが、安全性クリティカルな物理システムにおけるrlの堅牢性に関する調査は限られている。 本研究では,電力系統制御のために提案された競争に勝る最先端のRLエージェントが,敵攻撃に対して脆弱であることを示す。 具体的には,攻撃方針を学習するために敵対的マルコフ決定プロセスを使用し,ホワイトボックスおよびブラックボックス攻撃設定下で,学習から複数の勝利エージェントを攻撃し,パワーネットワーク(l2rpn)チャレンジを実行することにより,攻撃の威力を示す。 次に,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。 我々の知る限り、我々の研究はグリッド制御RLアルゴリズムの脆弱性を初めて強調し、その堅牢性とセキュリティを改善するための効果的な防御スキームに貢献する。

Due to the proliferation of renewable energy and its intrinsic intermittency and stochasticity, current power systems face severe operational challenges. Data-driven decision-making algorithms from reinforcement learning (RL) offer a solution towards efficiently operating a clean energy system. Although RL algorithms achieve promising performance compared to model-based control models, there has been limited investigation of RL robustness in safety-critical physical systems. In this work, we first show that several competition-winning, state-of-the-art RL agents proposed for power system control are vulnerable to adversarial attacks. Specifically, we use an adversary Markov Decision Process to learn an attack policy, and demonstrate the potency of our attack by successfully attacking multiple winning agents from the Learning To Run a Power Network (L2RPN) challenge, under both white-box and black-box attack settings. We then propose to use adversarial training to increase the robustness of RL agent against attacks and avoid infeasible operational decisions. To the best of our knowledge, our work is the first to highlight the fragility of grid control RL algorithms, and contribute an effective defense scheme towards improving their robustness and security.
翻訳日:2021-10-20 12:15:29 公開日:2021-10-19
# (参考訳) Wasserstein Barycenter の次元化

Dimensionality Reduction for Wasserstein Barycenter ( http://arxiv.org/abs/2110.08991v2 )

ライセンス: CC BY 4.0
Zachary Izzo, Sandeep Silwal, Samson Zhou(参考訳) wasserstein barycenterは、確率分布間の中心性の概念を捉えた幾何学的構成であり、機械学習に多くの応用がある。 しかし、近似的なバリーセンターを見つけるアルゴリズムの多くは、分布の基底空間の次元 $d$ に指数関数的に依存する。 この「次元の曲線」に対処するために,ワッサースタイン・バリセンター問題の次元性低減手法について検討した。 barycenter が $n$ の大きさのサポートに制限されている場合、ランダム化された次元の縮小は、その問題を $d$ と $k$ の両方に依存しない次元 $o(\log n)$ の空間にマッピングするのに使用され、縮小次元にある \emph{any} の解は元の空間における任意の小さな誤差までコストが保たれることを示した。 縮小次元の大きさの上限値と下限値とを一致させて,本手法が定数因子まで最適であることを示す。 また,wasserstein barycenter問題に対するコアセット構成も提供し,入力分布の数を大幅に減少させる。 コアセットはランダムなプロジェクションと組み合わせて使用することができ、計算時間をさらに改善することができる。 最後に, ソリューションの品質を維持しつつ, 次元減少によるスピードアップを検証した。

The Wasserstein barycenter is a geometric construct which captures the notion of centrality among probability distributions, and which has found many applications in machine learning. However, most algorithms for finding even an approximate barycenter suffer an exponential dependence on the dimension $d$ of the underlying space of the distributions. In order to cope with this "curse of dimensionality," ; we study dimensionality reduction techniques for the Wasserstein barycenter problem. When the barycenter is restricted to support of size $n$, we show that randomized dimensionality reduction can be used to map the problem to a space of dimension $O(\log n)$ independent of both $d$ and $k$, and that \emph{any} solution found in the reduced dimension will have its cost preserved up to arbitrary small error in the original space. We provide matching upper and lower bounds on the size of the reduced dimension, showing that our methods are optimal up to constant factors. We also provide a coreset construction for the Wasserstein barycenter problem that significantly decreases the number of input distributions. The coresets can be used in conjunction with random projections and thus further improve computation time. Lastly, our experimental results validate the speedup provided by dimensionality reduction while maintaining solution quality.
翻訳日:2021-10-20 12:01:29 公開日:2021-10-19
# (参考訳) ViraPart: ペルシアのASRおよびNLPタスクのためのテキストリファインメントフレームワーク [全文訳有]

ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian ( http://arxiv.org/abs/2110.09086v2 )

ライセンス: CC BY 4.0
Narges Farokhshad, Milad Molazadeh, Saman Jamalabbasi, Hamed Babaei Giglou, Saeed Bibak(参考訳) ペルシア語は屈折型SOV言語である。 この事実はペルシア語をより不確実な言語にする。 しかし、zwnj認識、句読点復元、ペルシャのezafe構築などの技術を使用することで、より理解しやすく正確な言語につながります。 ペルシアのほとんどの作品において、これらの技法は個別に扱われている。 それにもかかわらず、ペルシア語のテキストの洗練には、これらすべてのタスクが必要であると信じています。 そこで本研究では,テキストの明確化に組込みparsbertを用いたvirapartフレームワークを提案する。 まず、分類手順の分類レイヤーに従って、ペルシャのBERT変種を使用した。 次に、モデル出力を組み合わせてcleartextを出力する。 最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。 実験の結果,提案手法はペルシャ語のテキストの洗練に非常に有効であることがわかった。

The Persian language is an inflectional SOV language. This fact makes Persian a more uncertain language. However, using techniques such as ZWNJ recognition, punctuation restoration, and Persian Ezafe construction will lead us to a more understandable and precise language. In most of the works in Persian, these techniques are addressed individually. Despite that, we believe that for text refinement in Persian, all of these tasks are necessary. In this work, we proposed a ViraPart framework that uses embedded ParsBERT in its core for text clarifications. First, used the BERT variant for Persian following by a classifier layer for classification procedures. Next, we combined models outputs to output cleartext. In the end, the proposed model for ZWNJ recognition, punctuation restoration, and Persian Ezafe construction performs the averaged F1 macro scores of 96.90%, 92.13%, and 98.50%, respectively. Experimental results show that our proposed approach is very effective in text refinement for the Persian language.
翻訳日:2021-10-20 12:00:20 公開日:2021-10-19
# (参考訳) lifted dynamic junction treeアルゴリズムの完全性と複雑性について [全文訳有]

On the Completeness and Complexity of the Lifted Dynamic Junction Tree Algorithm ( http://arxiv.org/abs/2110.09197v2 )

ライセンス: CC BY 4.0
Marcel Gehrke(参考訳) lifted inferenceは多項式時間 w.r.t. ドメインサイズでの推論を可能にする。 解き上げられたアルゴリズムに対して、完全性は解き上げられた解を計算することが保証されるモデルクラスを調べる。 我々は,時間的昇降アルゴリズム,いわゆる昇降動的ジャンクションツリーアルゴリズム(LDJT)の最初の完全性と複雑性の解析に,私たちの知る限り貢献する。 LDJTは、時間を第一級市民として扱うために、いくつかの制約を導入する。 これらの制約から、持ち上げ可能なモデルのクラスを分析する。 さらに、LDJTは、命題時間推定アルゴリズムw.r.t.ドメインサイズと比較して複雑さの観点から多くの利点があることを示す。 したがって、LDJTは現実的な観点からだけでなく、理論的観点からも合理的に推論タスクを解くことができるモデルの数を推し進める。

Lifted inference allows to perform inference in polynomial time w.r.t. domain sizes. For a lifted algorithm, completeness investigates model classes for which the algorithm is guaranteed to compute a lifted solution. We contribute, to the best of our knowledge, the first completeness and complexity analysis for a temporal lifted algorithm, the so-called lifted dynamic junction tree algorithm (LDJT). To treat time as a first class citizen, LDJT introduces some constraints. Given these constraints, we analyse the classes of liftable models. Further, we show that LDJT has many advantages from a complexity point of view compared to a propositional temporal inference algorithm w.r.t. domain sizes. Therefore, LDJT advances the number of models for which inference tasks can be solved in reasonable time not only from a practically point of view, but also from a theoretical point of view.
翻訳日:2021-10-20 11:49:45 公開日:2021-10-19
# DPNAS: 異なるプライバシーを持つディープラーニングのためのニューラルネットワーク検索

DPNAS: Neural Architecture Search for Deep Learning with Differential Privacy ( http://arxiv.org/abs/2110.08557v2 )

ライセンス: Link先を確認
Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng(参考訳) 意味のある差分プライバシー(DP)のためのディープニューラルネットワーク(DNN)のトレーニングは、モデルの有用性を著しく低下させる。 本稿では,DNNのアーキテクチャが私的深層学習の文脈におけるモデルユーティリティに多大な影響を与えていることを実証する。 この欠如を鑑みて,我々は,DPNASと呼ばれるプライベートディープラーニングのためのモデル自動設計にニューラルアーキテクチャサーチを利用する,最初のフレームワークを提案する。 アーキテクチャ検索とプライベート学習を統合するため,新しい検索空間を微妙に設計し,候補モデルを学習するためのDP対応手法を提案する。 提案手法の有効性を実証的に検証する。 例えば、プライバシ予算が$(\epsilon, \delta)=(3, 1\times10^{-5})$である場合には、mnistで$8.57\%、fashionmnistで$8.09\%、cifar-10で$8.33\%となる。 さらに、生成したアーキテクチャを研究することにより、プライベートな学習に適したDNNを設計する際の興味深い発見をいくつか提供する。

Training deep neural networks (DNNs) for meaningful differential privacy (DP) guarantees severely degrades model utility. In this paper, we demonstrate that the architecture of DNNs has a significant impact on model utility in the context of private deep learning, whereas its effect is largely unexplored in previous studies. In light of this missing, we propose the very first framework that employs neural architecture search to automatic model design for private deep learning, dubbed as DPNAS. To integrate private learning with architecture search, we delicately design a novel search space and propose a DP-aware method for training candidate models. We empirically certify the effectiveness of the proposed framework. The searched model DPNASNet achieves state-of-the-art privacy/utility trade-offs, e.g., for the privacy budget of $(\epsilon, \delta)=(3, 1\times10^{-5})$, our model obtains test accuracy of $98.57\%$ on MNIST, $88.09\%$ on FashionMNIST, and $68.33\%$ on CIFAR-10. Furthermore, by studying the generated architectures, we provide several intriguing findings of designing private-learning-fri endly DNNs, which can shed new light on model design for deep learning with differential privacy.
翻訳日:2021-10-20 11:35:20 公開日:2021-10-19
# loveda: ドメイン適応意味セグメンテーションのためのリモートセンシング土地被覆データセット

LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2110.08733v2 )

ライセンス: Link先を確認
Junjue Wang, Zhuo Zheng, Ailong Ma, Xiaoyan Lu and Yanfei Zhong(参考訳) 深層学習アプローチは、リモートセンシング高空間解像度(HSR)土地被覆マッピングにおいて有望な結果を示している。 しかし、都市と農村の風景は全く異なる地理的景観を示し、これらのアルゴリズムの不十分な一般化は、都市レベルのマッピングや国家レベルのマッピングを妨げる。 既存のHSRランドカバーデータセットのほとんどは、主に学習意味表現の研究を促進し、モデル転送可能性を無視している。 本稿では,ランドカバードメイン適応意味セグメンテーション(loveda)データセットを導入し,セマンティクスと転送可能な学習を前進させる。 LoveDAデータセットには、5927個のHSR画像と166768個の注釈付きオブジェクトが含まれている。 既存のデータセットと比較して、loveaデータセットは2つのドメイン(都市と農村)を包含している。 1) マルチスケールオブジェクト 2) 複雑な背景サンプル,及び 3) 一貫性のないクラス分布。 LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。 その結果,11つのセマンティックセグメンテーション手法と8つのUDA手法でLoveDAデータセットをベンチマークした。 これらの課題に対処するために,マルチスケールアーキテクチャや戦略,追加の背景監督,擬似ラベル分析などの探索的な研究も行われた。 コードはhttps://github.com/J unjue-Wang/LoveDA.co mで入手できる。

Deep learning approaches have shown promising results in remote sensing high spatial resolution (HSR) land-cover mapping. However, urban and rural scenes can show completely different geographical landscapes, and the inadequate generalizability of these algorithms hinders city-level or national-level mapping. Most of the existing HSR land-cover datasets mainly promote the research of learning semantic representation, thereby ignoring the model transferability. In this paper, we introduce the Land-cOVEr Domain Adaptive semantic segmentation (LoveDA) dataset to advance semantic and transferable learning. The LoveDA dataset contains 5927 HSR images with 166768 annotated objects from three different cities. Compared to the existing datasets, the LoveDA dataset encompasses two domains (urban and rural), which brings considerable challenges due to the: 1) multi-scale objects; 2) complex background samples; and 3) inconsistent class distributions. The LoveDA dataset is suitable for both land-cover semantic segmentation and unsupervised domain adaptation (UDA) tasks. Accordingly, we benchmarked the LoveDA dataset on eleven semantic segmentation methods and eight UDA methods. Some exploratory studies including multi-scale architectures and strategies, additional background supervision, and pseudo-label analysis were also carried out to address these challenges. The code are available at https://github.com/J unjue-Wang/LoveDA.
翻訳日:2021-10-20 11:34:27 公開日:2021-10-19
# 自己スーパービジョンによる単一視点からの多面体画像の学習

Learning multiplane images from single views with self-supervision ( http://arxiv.org/abs/2110.09380v2 )

ライセンス: Link先を確認
Gustavo Sutter P. Carvalho, Diogo C. Luvizon, Antonio Joia Neto, Andre G. C. Pacheco, Otavio A. B. Penatti(参考訳) すでにキャプチャされた画像から静的にノベルなビューを生成することは、コンピュータビジョンやグラフィックス、特に1つの入力画像が人や動くオブジェクトのような動的な部分を持っている場合、難しい作業である。 本稿では,自己スーパービジョンのための巡回学習戦略を通じて,単一画像から多面画像表現を学習できる新しいフレームワークであるcyclempiを提案することで,この問題に取り組む。 我々のフレームワークは、トレーニングのためにステレオデータを必要としないため、インターネットから大量のビジュアルデータでトレーニングすることが可能であり、非常に困難な場合であっても、より良い一般化能力が得られる。 本手法は, 監視のためにステレオデータを必要としないが, ゼロショットシナリオにおいて, 技術状況に匹敵するステレオデータセットの結果が得られる。 本手法をrealestate10kおよびmannequin challengeデータセットで評価し,places iiデータセットの質的評価を行った。

Generating static novel views from an already captured image is a hard task in computer vision and graphics, in particular when the single input image has dynamic parts such as persons or moving objects. In this paper, we tackle this problem by proposing a new framework, called CycleMPI, that is capable of learning a multiplane image representation from single images through a cyclic training strategy for self-supervision. Our framework does not require stereo data for training, therefore it can be trained with massive visual data from the Internet, resulting in a better generalization capability even for very challenging cases. Although our method does not require stereo data for supervision, it reaches results on stereo datasets comparable to the state of the art in a zero-shot scenario. We evaluated our method on RealEstate10K and Mannequin Challenge datasets for view synthesis and presented qualitative results on Places II dataset.
翻訳日:2021-10-20 11:34:05 公開日:2021-10-19
# 非凸間隔正規化を用いた定常フレームレット変換に基づく塩と唐辛子ノイズ除去法

Salt and pepper noise removal method based on stationary Framelet transform with non-convex sparsity regularization ( http://arxiv.org/abs/2110.09113v2 )

ライセンス: Link先を確認
Yingpin Chen, Lingzhi Wang, Huiying Huang, Jianhua Song, Chaoqun Yu, Yanping Xu(参考訳) ソルトとペッパーのノイズ除去は画像処理において一般的な逆問題であり,高品質で画像情報を復元することを目的としている。 伝統的な塩分とコショウ分別法には2つの制限がある。 まず、ノイズ特性が正確に記述されないことが多い。 例えば、ノイズ位置情報は無視されることが多く、塩と唐辛子音の空間性はしばしばL1ノルムによって説明され、スパース変数を明確に説明できない。 第2に、従来の方法では、汚染された画像を復元された画像とノイズ部分とに分離し、不満足な滑らかな部分と詳細部分の像を復元する。 本研究では,雑音の位置を決定するためのノイズ検出手法を導入し,Lp準ノルムで表される非凸間隔正規化を用いてノイズの疎度を記述することにより,第1の制限に対処する。 静止フレームレット変換を伴う形態素成分分析フレームワークを用いて、処理された画像をマンガ、テクスチャ、ノイズ部品に分解し、第2の制限を解決する。 このフレームワークでは、パラメータの異なる静止フレームレット正規化が漫画やテクスチャ部品の復元を制御する。 このようにして、2つの部品は相互干渉を避けるために別々に回収される。 次に,乗算器の交互方向法 (ADMM) を用いて提案モデルの解法を提案する。 最後に,提案手法を検証し,現在最先端の復調法と比較する実験を行った。 実験の結果,提案手法は処理画像の細部を保存しつつ,塩と唐辛子ノイズを除去できることがわかった。

Salt and pepper noise removal is a common inverse problem in image processing, and it aims to restore image information with high quality. Traditional salt and pepper denoising methods have two limitations. First, noise characteristics are often not described accurately. For example, the noise location information is often ignored and the sparsity of the salt and pepper noise is often described by L1 norm, which cannot illustrate the sparse variables clearly. Second, conventional methods separate the contaminated image into a recovered image and a noise part, thus resulting in recovering an image with unsatisfied smooth parts and detail parts. In this study, we introduce a noise detection strategy to determine the position of the noise, and a non-convex sparsity regularization depicted by Lp quasi-norm is employed to describe the sparsity of the noise, thereby addressing the first limitation. The morphological component analysis framework with stationary Framelet transform is adopted to decompose the processed image into cartoon, texture, and noise parts to resolve the second limitation. In this framework, the stationary Framelet regularizations with different parameters control the restoration of the cartoon and texture parts. In this way, the two parts are recovered separately to avoid mutual interference. Then, the alternating direction method of multipliers (ADMM) is employed to solve the proposed model. Finally, experiments are conducted to verify the proposed method and compare it with some current state-of-the-art denoising methods. The experimental results show that the proposed method can remove salt and pepper noise while preserving the details of the processed image.
翻訳日:2021-10-20 11:33:50 公開日:2021-10-19
# 確率遷移行列を用いた画像分類におけるノイズラベル効果の緩和

Alleviating Noisy-label Effects in Image Classification via Probability Transition Matrix ( http://arxiv.org/abs/2110.08866v2 )

ライセンス: Link先を確認
Ziqi Zhang, Yuexiang Li, Hongxin Wei, Kai Ma, Tao Xu, Yefeng Zheng(参考訳) ディープラーニングに基づく画像分類フレームワークは、しばしば、サーバ間変動に起因するノイズの多いラベル問題に悩まされる。 近年の研究では、学習から学習までのパラダイム(コティーチングやJoCoRなど)を用いて、トレーニングセットからノイズのあるラベルでサンプルをフィルタリングしている。 しかし,ほとんどの場合,ノイズラベル識別基準として単純なクロスエントロピー損失を用いる。 分類器学習に有益であるハードサンプルは、ハードサンプルとノイズラベルの両方が容易なケースよりも比較的大きな損失値をもたらすため、この設定では誤ってノイズとして扱われることが多い。 本稿では,ノイズ無視ブロック (NIB) と呼ばれる,確率遷移行列とクラス間相関 (IC) 損失からなるプラグインモジュールを提案する。 具体的には、ネットワーク予測と確率遷移行列によって生成された累積ソフトラベルとのクルバック・リーブラー分岐として、IC損失を算出する。 これにより、ic損失の値が低い場合には、誤記の場合と容易に区別することができる。 自然・医用画像データセット(CIFAR-10、ISIC 2019)について大規模な実験を行った。 実験の結果,NIBモジュールは最先端のロバストなトレーニング手法の性能を一貫して改善することがわかった。

Deep-learning-based image classification frameworks often suffer from the noisy label problem caused by the inter-observer variation. Recent studies employed learning-to-learn paradigms (e.g., Co-teaching and JoCoR) to filter the samples with noisy labels from the training set. However, most of them use a simple cross-entropy loss as the criterion for noisy label identification. The hard samples, which are beneficial for classifier learning, are often mistakenly treated as noises in such a setting since both the hard samples and ones with noisy labels lead to a relatively larger loss value than the easy cases. In this paper, we propose a plugin module, namely noise ignoring block (NIB), consisting of a probability transition matrix and an inter-class correlation (IC) loss, to separate the hard samples from the mislabeled ones, and further boost the accuracy of image classification network trained with noisy labels. Concretely, our IC loss is calculated as Kullback-Leibler divergence between the network prediction and the accumulative soft label generated by the probability transition matrix. Such that, with the lower value of IC loss, the hard cases can be easily distinguished from mislabeled cases. Extensive experiments are conducted on natural and medical image datasets (CIFAR-10 and ISIC 2019). The experimental results show that our NIB module consistently improves the performances of the state-of-the-art robust training methods.
翻訳日:2021-10-20 11:30:56 公開日:2021-10-19
# 実験室SR-30ガスタービンエンジンのオンボード故障診断

On-board Fault Diagnosis of a Laboratory Mini SR-30 Gas Turbine Engine ( http://arxiv.org/abs/2110.08820v2 )

ライセンス: Link先を確認
Richa Singh(参考訳) 近年の機械学習の進歩にインスパイアされたFDI(Data-driven fault diagnosis and isolation)スキームは, 燃料供給システムの故障と, 実験室のガスタービンシステムのセンサ測定のために, 明確に開発されている。 障害診断の受動的アプローチは、機械学習の分類器を使ってモデルが訓練された時に、与えられた障害シナリオのセットをリアルタイムで検出する。 最後に, ベクトル分類器, 線形判別分析, k-neighbor, 決定木などの既知の分類手法について比較検討を行った。 提案手法の利点, 性能, 性能を実証し, 実証するために, いくつかのシミュレーション実験を行った。

Inspired by recent progress in machine learning, a data-driven fault diagnosis and isolation (FDI) scheme is explicitly developed for failure in the fuel supply system and sensor measurements of the laboratory gas turbine system. A passive approach of fault diagnosis is implemented where a model is trained using machine learning classifiers to detect a given set of fault scenarios in real-time on which it is trained. Towards the end, a comparative study is presented for well-known classification techniques, namely Support vector classifier, linear discriminant analysis, K-neighbor, and decision trees. Several simulation studies were carried out to demonstrate and illustrate the proposed fault diagnosis scheme's advantages, capabilities, and performance.
翻訳日:2021-10-20 11:30:36 公開日:2021-10-19