このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211122となっている論文です。

PDF登録状況(公開日: 20211122)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 皮膚病変診断のための説明可能な深部画像分類器 [全文訳有]

Explainable Deep Image Classifiers for Skin Lesion Diagnosis ( http://arxiv.org/abs/2111.11863v1 )

ライセンス: CC BY 4.0
Carlo Metta, Andrea Beretta, Riccardo Guidotti, Yuan Yin, Patrick Gallinari, Salvatore Rinzivillo, Fosca Giannotti(参考訳) 医療診断などの重要な文脈における重要な問題は、意思決定システムで採用されるディープラーニングモデルの解釈可能性である。 eXplainable Artificial Intelligence (XAI)の研究は、この問題を解決しようとしている。 しかしながら、XAIアプローチは一般的な分類法でのみテストされ、診断などの現実的な問題を表現していないことが多い。 本稿では,既存のXAIアプローチをカスタマイズして,異なる種類の皮膚病変を認識可能な深層学習モデルを説明する,皮膚病変画像のケーススタディを分析する。 この説明は、皮膚病変の合成例と対例画像によって形成され、その分類決定に重要な特徴を強調する方法を提供する。 ドメインの専門家、初心者、未熟練者の調査は、説明の使用が自動意思決定システムにおける信頼と信頼を高めることを証明している。 また、説明者によって採用された潜伏空間の分析により、最も頻繁な皮膚病変のクラスが明確に分離されていることが明らかとなった。 この現象は、それぞれのクラスの本質的な特徴から派生し、願わくば、人間の専門家による最も頻繁な誤分類の解決を支援することができる。

A key issue in critical contexts such as medical diagnosis is the interpretability of the deep learning models adopted in decision-making systems. Research in eXplainable Artificial Intelligence (XAI) is trying to solve this issue. However, often XAI approaches are only tested on generalist classifier and do not represent realistic problems such as those of medical diagnosis. In this paper, we analyze a case study on skin lesion images where we customize an existing XAI approach for explaining a deep learning model able to recognize different types of skin lesions. The explanation is formed by synthetic exemplar and counter-exemplar images of skin lesion and offers the practitioner a way to highlight the crucial traits responsible for the classification decision. A survey conducted with domain experts, beginners and unskilled people proof that the usage of explanations increases the trust and confidence in the automatic decision system. Also, an analysis of the latent space adopted by the explainer unveils that some of the most frequent skin lesion classes are distinctly separated. This phenomenon could derive from the intrinsic characteristics of each class and, hopefully, can provide support in the resolution of the most frequent misclassifications by human experts.
翻訳日:2021-11-25 10:30:35 公開日:2021-11-22
# (参考訳) Fink: アクティブラーニングを用いた早期超新星Ia分類 [全文訳有]

Fink: early supernovae Ia classification using active learning ( http://arxiv.org/abs/2111.11438v1 )

ライセンス: CC BY 4.0
Marco Leoni, Emille E. O. Ishida, Julien Peloton and Anais M\"oller(参考訳) Finkブローカーの早期超新星Ia分類器は,アクティブラーニング戦略(AL)を用いてML分類を最適化する方法について述べる。 本稿は、現在のZwicky Transient Facility(ZTF)公開アラートデータストリームにおいて、このような戦略の実装の可能性を示す。 不確実性サンプリングとランダムサンプリングの2つのal戦略の性能を比較した。 パイプラインは,特徴抽出,分類,学習戦略の3段階で構成されている。 10のアラートの最初のサンプル(5つのSN Iaと5つの非Ia)から始めて、トレーニングサンプルにどのアラートを追加するべきかをアルゴリズムに特定します。 システムは300回のイテレーションで進化することができる。 我々のデータセットは、SIMBADデータベースとTransient Name Server (TNS)とのクロスマッチングによって、ZTFから23の840のアラートで構成されており、1600はSNe Ia (021のユニークなオブジェクト)である。 学習サイクルが完了すると、データ構成はトレーニング用の310のアラートとテスト用の23の530で構成される。 平均で100以上の実現を達成し、89%の純度と54%の効率を達成した。 01/2020年11月から2021年10月31日まで、フィンクは初期の超新星IaモジュールをZTFストリームに適用し、将来有望なSN Ia候補をTNSに通信した。 535の分光学的に分類されたフィンク候補から、459 (86%) がsne iaであることが証明された。 本報告では,天文分類器の最適トレーニングサンプル作成のためのアクティブラーニング戦略の有効性を確認した。 実データでは、余分な計算リソースや圧倒的に大きなトレーニングサンプルを必要とせずに、学習アルゴリズムのパフォーマンスを高度に改善できることが示されている。 これは私たちの知る限り、ALの実際のアラートデータへの最初の応用です。

We describe how the Fink broker early supernova Ia classifier optimizes its ML classifications by employing an active learning (AL) strategy. We demonstrate the feasibility of implementation of such strategies in the current Zwicky Transient Facility (ZTF) public alert data stream. We compare the performance of two AL strategies: uncertainty sampling and random sampling. Our pipeline consists of 3 stages: feature extraction, classification and learning strategy. Starting from an initial sample of 10 alerts (5 SN Ia and 5 non-Ia), we let the algorithm identify which alert should be added to the training sample. The system is allowed to evolve through 300 iterations. Our data set consists of 23 840 alerts from the ZTF with confirmed classification via cross-match with SIMBAD database and the Transient name server (TNS), 1 600 of which were SNe Ia (1 021 unique objects). The data configuration, after the learning cycle was completed, consists of 310 alerts for training and 23 530 for testing. Averaging over 100 realizations, the classifier achieved 89% purity and 54% efficiency. From 01/November/2020 to 31/October/2021 Fink has applied its early supernova Ia module to the ZTF stream and communicated promising SN Ia candidates to the TNS. From the 535 spectroscopically classified Fink candidates, 459 (86%) were proven to be SNe Ia. Our results confirm the effectiveness of active learning strategies for guiding the construction of optimal training samples for astronomical classifiers. It demonstrates in real data that the performance of learning algorithms can be highly improved without the need of extra computational resources or overwhelmingly large training samples. This is, to our knowledge, the first application of AL to real alerts data.
翻訳日:2021-11-25 10:15:47 公開日:2021-11-22
# (参考訳) LSTMモデルによる大気質の時系列予測:システムマッピング [全文訳有]

Time Series Prediction about Air Quality using LSTM-Based Models: A Systematic Mapping ( http://arxiv.org/abs/2111.11848v1 )

ライセンス: CC BY 4.0
Lucas L. S. Sachetti, Vinicius F. S. Mota(参考訳) 本研究は, 長期記憶ネットワークを用いて, 大気質に関する時系列データを予測し, 科学的文献で利用可能な理由, 特徴, 方法の解明, 研究領域におけるギャップの特定, 今後の研究に活用可能な潜在的アプローチについて検討する。

This systematic mapping study investigates the use of Long short-term memory networks to predict time series data about air quality, trying to understand the reasons, characteristics and methods available in the scientific literature, identify gaps in the researched area and potential approaches that can be exploited on later studies.
翻訳日:2021-11-25 10:01:07 公開日:2021-11-22
# (参考訳) 教師なし表現学習によるX線写真における関節炎進展予測 [全文訳有]

Predicting Osteoarthritis Progression in Radiographs via Unsupervised Representation Learning ( http://arxiv.org/abs/2111.11439v1 )

ライセンス: CC BY 4.0
Tianyu Han, Jakob Nikolas Kather, Federico Pedersoli, Markus Zimmermann, Sebastian Keil, Maximilian Schulze-Hagen, Marc Terwoelbeck, Peter Isfort, Christoph Haarburger, Fabian Kiessling, Volkmar Schulz, Christiane Kuhl, Sven Nebelung, and Daniel Truhn(参考訳) 変形性関節症 (OA) は, 人口のかなりの割合, 主に高齢者の関節症である。 個人的および社会経済的負担にもかかわらず、OAの発症と進行は確実に予測できない。 この診断ギャップを埋めるため,膝関節X線写真に基づくOAの今後の発展を予測するために,生成モデルに基づく教師なし学習手法を導入する。 変形性関節症研究の縦断的データを用いて,8年間の来院までの予後予測のための潜時的軌跡について検討した。 本モデルでは, OA に対する進行のリスクを予測し, 経験者7名による入力を監督対象に超えている。 モデルのサポートにより、感度、特異性、正の予測値、負の予測値が42.1%から51.6%に、72.3%から88.6%に、28.4%から57.6%に、そして83.9%から88.4%に増加した。 我々の予測モデルは、トレーニング段階で人間のアノテーションを必要としないにもかかわらず、OAの開始と進行の予測を改善する。

Osteoarthritis (OA) is the most common joint disorder affecting substantial proportions of the global population, primarily the elderly. Despite its individual and socioeconomic burden, the onset and progression of OA can still not be reliably predicted. Aiming to fill this diagnostic gap, we introduce an unsupervised learning scheme based on generative models to predict the future development of OA based on knee joint radiographs. Using longitudinal data from osteoarthritis studies, we explore the latent temporal trajectory to predict a patient's future radiographs up to the eight-year follow-up visit. Our model predicts the risk of progression towards OA and surpasses its supervised counterpart whose input was provided by seven experienced radiologists. With the support of the model, sensitivity, specificity, positive predictive value, and negative predictive value increased significantly from 42.1% to 51.6%, from 72.3% to 88.6%, from 28.4% to 57.6%, and from 83.9% to 88.4%, respectively, while without such support, radiologists performed only slightly better than random guessing. Our predictive model improves predictions on OA onset and progression, despite requiring no human annotation in the training phase.
翻訳日:2021-11-25 09:54:03 公開日:2021-11-22
# (参考訳) pmSensing:粒子状物質の予測モニタリングのための参加型センシングネットワーク [全文訳有]

pmSensing: A Participatory Sensing Network for Predictive Monitoring of Particulate Matter ( http://arxiv.org/abs/2111.11441v1 )

ライセンス: CC BY 4.0
Lucas L. S. Sachetti, Enzo B. Cussuol, Jos\'e Marcos S. Nogueira, Vinicius F. S. Mota(参考訳) 本稿では,高コスト気象観測ステーションの代替として,特に大気品質の監視と予測のために開発されたiotセンシングデバイスを用いた,参加型センシングのための無線センサネットワークの提案を行う。 pmSensingと呼ばれるこのシステムは、粒子状物質を測定することを目的としている。 プロトタイプが収集したデータとステーションのデータを比較して検証を行う。 比較の結果は結果が近いことを示し、この問題に対する低コストの解決を可能にする。 このシステムは、リカレントニューラルネットワークを用いて予測分析を行い、この場合、LSTM-RNNは、実際のデータに対して高い精度で予測を行う。

This work presents a proposal for a wireless sensor network for participatory sensing, with IoT sensing devices developed especially for monitoring and predicting air quality, as alternatives of high cost meteorological stations. The system, called pmSensing, aims to measure particulate material. A validation is done by comparing the data collected by the prototype with data from stations. The comparison shows that the results are close, which can enable low-cost solutions to the problem. The system still presents a predictive analysis using recurrent neural networks, in this case the LSTM-RNN, where the predictions presented high accuracy in relation to the real data.
翻訳日:2021-11-25 09:27:45 公開日:2021-11-22
# (参考訳) ビジュアル感情分析:memeval 2021における自然災害事例の課題 [全文訳有]

Visual Sentiment Analysis: A Natural DisasterUse-case Task at MediaEval 2021 ( http://arxiv.org/abs/2111.11471v1 )

ライセンス: CC BY 4.0
Syed Zohaib Hassan, Kashif Ahmad, Michael A. Riegler, Steven Hicks, Nicola Conci, Paal Halvorsen, Ala Al-Fuqaha(参考訳) Visual Sentiment AnalysisタスクがMediaEvalで初めて提供されている。 この課題の主な目的は、ソーシャルメディアで共有される自然災害の画像に対する感情的反応を予測することである。 災害関連画像は概して複雑であり、しばしば感情的な反応を引き起こし、視覚的感情分析の理想的なユースケースとなる。 我々は、自然災害関連データを有意義に分析できることは、社会的な重要性が大きいと信じており、この点での共同作業は、今後の研究にいくつかの興味深い方向を開くことができる。 タスクは3つのサブタスクで構成され、それぞれがチャレンジの異なる側面を探求することを目的としている。 本稿では,タスクの概要,タスクの一般的な動機,および提案手法の評価に使用するデータセットとメトリクスの概要について述べる。

The Visual Sentiment Analysis task is being offered for the first time at MediaEval. The main purpose of the task is to predict the emotional response to images of natural disasters shared on social media. Disaster-related images are generally complex and often evoke an emotional response, making them an ideal use case of visual sentiment analysis. We believe being able to perform meaningful analysis of natural disaster-related data could be of great societal importance, and a joint effort in this regard can open several interesting directions for future research. The task is composed of three sub-tasks, each aiming to explore a different aspect of the challenge. In this paper, we provide a detailed overview of the task, the general motivation of the task, and an overview of the dataset and the metrics to be used for the evaluation of the proposed solutions.
翻訳日:2021-11-25 09:16:12 公開日:2021-11-22
# (参考訳) 敵対的マルウェアバイナリ生成のための最先端技術の比較 [全文訳有]

A Comparison of State-of-the-Art Techniques for Generating Adversarial Malware Binaries ( http://arxiv.org/abs/2111.11487v1 )

ライセンス: CC BY 4.0
Prithviraj Dasgupta and Zachariah Osman(参考訳) 攻撃者のタスクは、既存のバイナリマルウェアファイル内の特定のバイトを戦略的に修正することであり、修正されたファイルは、機械学習ベースのマルウェア分類器のようなマルウェア検出を回避することができる。 我々は,1つの公開可能なマルウェアデータセットから抽出されたバイナリマルウェアサンプルを用いて,最近の3つのマルウェア生成手法を評価し,機械学習ベースのマルウェア分類器であるMalConvの回避性能を比較した。 その結果,比較手法の中で最も効果的な手法は,バイナリヘッダのバイトを戦略的に修飾する手法であることがわかった。 本稿では,敵対的マルウェアの発生に関する教訓と今後の研究方針について論じる。

We consider the problem of generating adversarial malware by a cyber-attacker where the attacker's task is to strategically modify certain bytes within existing binary malware files, so that the modified files are able to evade a malware detector such as machine learning-based malware classifier. We have evaluated three recent adversarial malware generation techniques using binary malware samples drawn from a single, publicly available malware data set and compared their performances for evading a machine-learning based malware classifier called MalConv. Our results show that among the compared techniques, the most effective technique is the one that strategically modifies bytes in a binary's header. We conclude by discussing the lessons learned and future research directions on the topic of adversarial malware generation.
翻訳日:2021-11-25 09:11:56 公開日:2021-11-22
# (参考訳) ブロックチェーンベースのレコメンダシステム - アプリケーション,課題,今後の機会 [全文訳有]

Blockchain-based Recommender Systems: Applications, Challenges and Future Opportunities ( http://arxiv.org/abs/2111.11509v1 )

ライセンス: CC BY 4.0
Yassine Himeur, Aya Sayed, Abdullah Alsalemi, Faycal Bensaali, Abbes Amira, Iraklis Varlamis, Magdalini Eirinaki, Christos Sardianos and George Dimitrakopoulos(参考訳) レコメンダシステムは、エネルギー保存、eコマース、ヘルスケア、ソーシャルメディアなど、さまざまなアプリケーションドメインで広く使われている。 このようなアプリケーションでは、正確なレコメンダシステムを開発するために、人口統計、好み、社会的相互作用などを含む、膨大な種類のユーザーデータの分析とマイニングが必要となる。 このようなデータセットにはセンシティブな情報が含まれることが多いが、ほとんどの推奨システムはモデルの正確性に注目し、セキュリティやユーザのプライバシーに関する問題を無視している。 異なるリスク低減技術を用いてこれらの問題を克服しようとする努力にもかかわらず、暗号化セキュリティとユーザの個人情報の保護の確保に成功していない。 このギャップを埋めるために、ブロックチェーン技術は、そのセキュリティとプライバシ保護機能だけでなく、レジリエンス、適応性、フォールトトレランス、信頼性特性によって、レコメンダシステムにおけるセキュリティとプライバシの保護を促進する、有望な戦略として提示されている。 本稿では,ブロックチェーンベースのレコメンダシステムの総括的レビューを行い,課題,オープンイシュー,ソリューションについて述べる。 したがって、セキュリティとプライバシの課題を記述し、既存のフレームワークを概説し、ブロックチェーンを使用する際のアプリケーションとメリットを議論し、今後の研究の機会を示すために、よく設計された分類法が導入された。

Recommender systems have been widely used in different application domains including energy-preservation, e-commerce, healthcare, social media, etc. Such applications require the analysis and mining of massive amounts of various types of user data, including demographics, preferences, social interactions, etc. in order to develop accurate and precise recommender systems. Such datasets often include sensitive information, yet most recommender systems are focusing on the models' accuracy and ignore issues related to security and the users' privacy. Despite the efforts to overcome these problems using different risk reduction techniques, none of them has been completely successful in ensuring cryptographic security and protection of the users' private information. To bridge this gap, the blockchain technology is presented as a promising strategy to promote security and privacy preservation in recommender systems, not only because of its security and privacy salient features, but also due to its resilience, adaptability, fault tolerance and trust characteristics. This paper presents a holistic review of blockchain-based recommender systems covering challenges, open issues and solutions. Accordingly, a well-designed taxonomy is introduced to describe the security and privacy challenges, overview existing frameworks and discuss their applications and benefits when using blockchain before indicating opportunities for future research.
翻訳日:2021-11-25 08:57:05 公開日:2021-11-22
# (参考訳) フローをブートストラップする [全文訳有]

Bootstrap Your Flow ( http://arxiv.org/abs/2111.11510v1 )

ライセンス: CC BY 4.0
Laurence Illing Midgley, Vincent Stimper, Gregor N. C. Simm, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 正規化フローは柔軟でパラメータ化された分布であり、重要度サンプリングによる難解な分布からの期待を近似するために使用できる。 しかし、現在のフローベースのアプローチは、モード探索行動やトレーニング損失の高分散に苦しむ、あるいは使用できないようなターゲット分布からのサンプルに依存する、挑戦的なターゲットに限られている。 これらの課題に対処するため,新たなトレーニング手順であるFAB(Flow AIS Bootstrap)において,フローとAIS(Annealed importance sample)を組み合わせて,$\alpha$-divergence を目標とした。 これにより、フローとAISは、ブートストラップ方式で互いに改善する。 従来のフローベース手法が失敗する問題に対して,boltzmann分布を含む複雑な対象分布の正確な近似をfabを用いて生成できることを実証する。

Normalising flows are flexible, parameterized distributions that can be used to approximate expectations from intractable distributions via importance sampling. However, current flow-based approaches are limited on challenging targets where they either suffer from mode seeking behaviour or high variance in the training loss, or rely on samples from the target distribution, which may not be available. To address these challenges, we combine flows with annealed importance sampling (AIS), while using the $\alpha$-divergence as our objective, in a novel training procedure, FAB (Flow AIS Bootstrap). Thereby, the flow and AIS to improve each other in a bootstrapping manner. We demonstrate that FAB can be used to produce accurate approximations to complex target distributions, including Boltzmann distributions, in problems where previous flow-based methods fail.
翻訳日:2021-11-25 08:08:23 公開日:2021-11-22
# (参考訳) グラフ分類のための学習可能な構造意味読み出し [全文訳有]

Learnable Structural Semantic Readout for Graph Classification ( http://arxiv.org/abs/2111.11523v1 )

ライセンス: CC BY 4.0
Dongha Lee, Su Kim, Seonghyeon Lee, Chanyoung Park, Hwanjo Yu(参考訳) 様々な領域におけるディープラーニングの成功により、グラフニューラルネットワーク(GNN)もグラフ分類の主要なアプローチとなっている。 すべてのノード(またはノードクラスタ)表現を単純に集約するグローバルな読み出し操作によって、既存のGNN分類器は入力グラフのグラフレベル表現を取得し、その表現を使用してそのクラスラベルを予測する。 しかし、このようなグローバルアグリゲーションは各ノードの構造情報を考慮せず、結果としてグローバル構造に関する情報が失われる。 特に、すべてのノード表現に対して分類器の同じ重みパラメータを強制することにより、識別力を制限している。 本研究では,位置レベルのノード表現を要約する構造的セマンティック・セマンティック・リードアウト(SSRead)を提案する。これにより,分類のための位置固有重みパラメータをモデル化し,グローバル構造に関連するグラフセマンティックスを効果的に捉えることができる。 入力グラフが与えられたssreadは、各位置の原型的特徴をエンコードするノードと構造プロトタイプ間の意味的アライメントを用いて、構造的に意味のある位置を特定することを目的としている。 構造的なプロトタイプはすべてのトレーニンググラフのアライメントコストを最小化するために最適化され、他のgnnパラメータはクラスラベルを予測するためにトレーニングされる。 実験の結果,SSRead は GNN 分類器の分類性能と解釈性を大幅に向上し,多様な集約関数や GNN アーキテクチャ,学習フレームワークと互換性があることが示されている。

With the great success of deep learning in various domains, graph neural networks (GNNs) also become a dominant approach to graph classification. By the help of a global readout operation that simply aggregates all node (or node-cluster) representations, existing GNN classifiers obtain a graph-level representation of an input graph and predict its class label using the representation. However, such global aggregation does not consider the structural information of each node, which results in information loss on the global structure. Particularly, it limits the discrimination power by enforcing the same weight parameters of the classifier for all the node representations; in practice, each of them contributes to target classes differently depending on its structural semantic. In this work, we propose structural semantic readout (SSRead) to summarize the node representations at the position-level, which allows to model the position-specific weight parameters for classification as well as to effectively capture the graph semantic relevant to the global structure. Given an input graph, SSRead aims to identify structurally-meaning ful positions by using the semantic alignment between its nodes and structural prototypes, which encode the prototypical features of each position. The structural prototypes are optimized to minimize the alignment cost for all training graphs, while the other GNN parameters are trained to predict the class labels. Our experimental results demonstrate that SSRead significantly improves the classification performance and interpretability of GNN classifiers while being compatible with a variety of aggregation functions, GNN architectures, and learning frameworks.
翻訳日:2021-11-25 08:00:30 公開日:2021-11-22
# (参考訳) 抽象表現に基づく深部RLの成分移動学習 [全文訳有]

Component Transfer Learning for Deep RL Based on Abstract Representations ( http://arxiv.org/abs/2111.11525v1 )

ライセンス: CC BY 4.0
Geoffrey van Driessel, Vincent Francois-Lavet(参考訳) 本研究では,2つのタスク間の内部ダイナミクスが同じだが視覚的表現が異なる状況下で,深層強化学習のための特定の伝達学習手法を検討する。 我々は環境の低次元エンコーディングを学習し、内部ダイナミクスと値関数が学習される抽象概念の要約を捉えることを目的としている。 次に、学習した内部ダイナミクスと値関数を凍結することにより、共有低次元埋め込み空間を再利用する。 転送のためにエンコーダを再トレーニングする場合、いくつかの観察を行います。 (i)小さな損失しか持たないがミスマッチした埋め込み空間を持つ局所的なミニマがあり、結果としてタスク性能が低下する場合がある。 (ii) 局所最小値がない場合, エンコーダの出力は実験中に同じ埋め込み空間に収束し, スクラッチからの学習に比べて高速かつ効率的に伝達する。 局所的なミニマは、凍結モデルによって引き起こされる最適化プロセスの自由度が低下することに起因する。 また、転送性能はベースモデルに大きく依存しており、ベースモデルによっては転送が成功することが多いが、他のベースモデルでは転送が失敗することが多い。

In this work we investigate a specific transfer learning approach for deep reinforcement learning in the context where the internal dynamics between two tasks are the same but the visual representations differ. We learn a low-dimensional encoding of the environment, meant to capture summarizing abstractions, from which the internal dynamics and value functions are learned. Transfer is then obtained by freezing the learned internal dynamics and value functions, thus reusing the shared low-dimensional embedding space. When retraining the encoder for transfer, we make several observations: (i) in some cases, there are local minima that have small losses but a mismatching embedding space, resulting in poor task performance and (ii) in the absence of local minima, the output of the encoder converges in our experiments to the same embedding space, which leads to a fast and efficient transfer as compared to learning from scratch. The local minima are caused by the reduced degree of freedom of the optimization process caused by the frozen models. We also find that the transfer performance is heavily reliant on the base model; some base models often result in a successful transfer, whereas other base models often result in a failing transfer.
翻訳日:2021-11-25 07:38:29 公開日:2021-11-22
# (参考訳) 火星探査のための機械学習 [全文訳有]

Machine Learning for Mars Exploration ( http://arxiv.org/abs/2111.11537v1 )

ライセンス: CC BY 4.0
Ali Momennasab(参考訳) 人類の宇宙飛行士へのリスクと惑星間距離の低下と通信の制限により、科学者は火星のような遠い惑星を探索するための自律的なアプローチを追求する。 火星探査の一部は、マーズ・ローバーやマーズ・エクスプレス・オービターなどの宇宙船による火星のデータの自律的な収集と分析を通じて行われている。 これらの火星探査宇宙船と地球で収集されたデータを分析するために使用される自律性は、主に人工知能の分野である機械学習であり、アルゴリズムがデータを収集し、データで自己改善を行う。 火星探査のための機械学習技術のさらなる応用は、惑星間探査の通信制限と人間のリスクを解決する可能性がある。 さらに、火星データを機械学習で分析することで、火星の気候、大気、将来の居住地など、多くの領域における火星の理解を深める可能性がある。 To explore further utilizations of machine learning techniques for Mars exploration, this paper will first summarize the general features and phenomena of Mars to provide a general overview of the planet, elaborate upon uncertainties of Mars that would be beneficial to explore and understand, summarize every current or previous usage of machine learning techniques in the exploration of Mars, explore implementations of machine learning that will be utilized in future Mars exploration missions, and explore machine learning techniques used in Earthly domains to provide solutions to the previously described uncertainties of Mars.

Risk to human astronauts and interplanetary distance causing slow and limited communication drives scientists to pursue an autonomous approach to exploring distant planets, such as Mars. A portion of exploration of Mars has been conducted through the autonomous collection and analysis of Martian data by spacecraft such as the Mars rovers and the Mars Express Orbiter. The autonomy used on these Mars exploration spacecraft and on Earth to analyze data collected by these vehicles mainly consist of machine learning, a field of artificial intelligence where algorithms collect data and self-improve with the data. Additional applications of machine learning techniques for Mars exploration have potential to resolve communication limitations and human risks of interplanetary exploration. In addition, analyzing Mars data with machine learning has the potential to provide a greater understanding of Mars in numerous domains such as its climate, atmosphere, and potential future habitation. To explore further utilizations of machine learning techniques for Mars exploration, this paper will first summarize the general features and phenomena of Mars to provide a general overview of the planet, elaborate upon uncertainties of Mars that would be beneficial to explore and understand, summarize every current or previous usage of machine learning techniques in the exploration of Mars, explore implementations of machine learning that will be utilized in future Mars exploration missions, and explore machine learning techniques used in Earthly domains to provide solutions to the previously described uncertainties of Mars.
翻訳日:2021-11-25 07:21:05 公開日:2021-11-22
# (参考訳) REPLICA:高分解能乳癌検出のための局所画像変換と結束注意による高機能ピラミッドネットワーク [全文訳有]

REPLICA: Enhanced Feature Pyramid Network by Local Image Translation and Conjunct Attention for High-Resolution Breast Tumor Detection ( http://arxiv.org/abs/2111.11546v1 )

ライセンス: CC BY 4.0
Yifan Zhang, Haoyu Dong, Nicolas Konz, Hanxue Gu, Maciej A. Mazurowski(参考訳) 本稿では,標準物体検出モデルの機能ピラミッドネットワークの改良を提案する。 本手法は,局所的な画像変換と結束注意による特徴ピラミッドネットワーク,あるいはレプリカと呼ぶ。 RePLICA は,(1) 現実的だが擬似な画像を生成することにより,オブジェクト検出性能を向上し,(1) 注目機構のデータ強調問題を軽減するとともに,(2) 画像特徴パッチへの注目の新たな修正による検出モデルアーキテクチャの進化を図る。 具体的には、畳み込みオートエンコーダをジェネレータとして使用し、局所補間により物体を画像に注入し、その特徴を隠蔽層で抽出した。 そして、シミュレーション画像の数が多いため、視覚変換器を使用して、特徴ピラミッドネットワークへの入力として機能する各ResNet層の出力を強化する。 本手法は乳がん検診において重要な高分解能医用画像撮影法であるDigital Breast Tomo synthesis scans (DBT) の病変検出問題に応用する。 我々は,REPLICAが実験結果により拡張標準物体検出フレームワークを用いて腫瘍検出の精度を向上させることを質的かつ定量的に示す。

We introduce an improvement to the feature pyramid network of standard object detection models. We call our method enhanced featuRE Pyramid network by Local Image translation and Conjunct Attention, or REPLICA. REPLICA improves object detection performance by simultaneously (1) generating realistic but fake images with simulated objects to mitigate the data-hungry problem of the attention mechanism, and (2) advancing the detection model architecture through a novel modification of attention on image feature patches. Specifically, we use a convolutional autoencoder as a generator to create new images by injecting objects into images via local interpolation and reconstruction of their features extracted in hidden layers. Then due to the larger number of simulated images, we use a visual transformer to enhance outputs of each ResNet layer that serve as inputs to a feature pyramid network. We apply our methodology to the problem of detecting lesions in Digital Breast Tomosynthesis scans (DBT), a high-resolution medical imaging modality crucial in breast cancer screening. We demonstrate qualitatively and quantitatively that REPLICA can improve the accuracy of tumor detection using our enhanced standard object detection framework via experimental results.
翻訳日:2021-11-25 07:00:56 公開日:2021-11-22
# (参考訳) ATLANTIS:水域画像のセマンティックセグメンテーションのためのベンチマーク [全文訳有]

ATLANTIS: A Benchmark for Semantic Segmentation of Waterbody Images ( http://arxiv.org/abs/2111.11567v1 )

ライセンス: CC0 1.0
Seyed Mohammad Hassan Erfani, Zhenyao Wu, Xinyi Wu, Song Wang, Erfan Goharian(参考訳) 視覚に基づくウォーターボディと周辺関連物体のセマンティクスセグメンテーションは、水資源の管理と洪水緊急時の対処に重要な情報を提供する。 しかし、大規模なラベル付きトレーニングや水関連カテゴリのデータセットの欠如により、研究者はコンピュータビジョン分野における水関連問題を研究できない。 この問題に対処するため,水系および関連オブジェクトのセマンティックセグメンテーションのための新しいベンチマークであるATLANTISを提案する。 アトランティスは5,195枚のウォーターボディーの画像と、17種類の人工物、18の自然物、21の一般的なクラスを含む56のクラスからなる高品質のピクセルレベルの手動アノテーションで構成されている。 本ベンチマークでは,atlantisを詳細に分析し,最先端セマンティクスセグメンテーションネットワークの評価を行った。 さらに,水性領域と非水性領域を2つの異なる経路で処理することで,水性セマンティックセグメンテーションのための新しいディープニューラルネットワークAquaNetを開発した。 AQUANetはまた、低レベルな特徴変調とクロスパス変調を組み込んで特徴表現を強化する。 実験の結果,提案したAquaNetは,ATLANTIS上の他の最先端セマンティックセマンティックセグメンテーションネットワークよりも優れていることがわかった。 ATLANTISはセマンティックセグメンテーションのための最大の水体画像データセットであり、幅広い水・水関連クラスを提供しており、コンピュータビジョンと水資源工学の両方の研究者に恩恵をもたらすだろう。

Vision-based semantic segmentation of waterbodies and nearby related objects provides important information for managing water resources and handling flooding emergency. However, the lack of large-scale labeled training and testing datasets for water-related categories prevents researchers from studying water-related issues in the computer vision field. To tackle this problem, we present ATLANTIS, a new benchmark for semantic segmentation of waterbodies and related objects. ATLANTIS consists of 5,195 images of waterbodies, as well as high quality pixel-level manual annotations of 56 classes of objects, including 17 classes of man-made objects, 18 classes of natural objects and 21 general classes. We analyze ATLANTIS in detail and evaluate several state-of-the-art semantic segmentation networks on our benchmark. In addition, a novel deep neural network, AQUANet, is developed for waterbody semantic segmentation by processing the aquatic and non-aquatic regions in two different paths. AQUANet also incorporates low-level feature modulation and cross-path modulation for enhancing feature representation. Experimental results show that the proposed AQUANet outperforms other state-of-the-art semantic segmentation networks on ATLANTIS. We claim that ATLANTIS is the largest waterbody image dataset for semantic segmentation providing a wide range of water and water-related classes and it will benefit researchers of both computer vision and water resources engineering.
翻訳日:2021-11-25 06:45:12 公開日:2021-11-22
# (参考訳) 天文画像生成のための生成的逆ネットワーク [全文訳有]

Generative Adversarial Networks for Astronomical Images Generation ( http://arxiv.org/abs/2111.11578v1 )

ライセンス: CC BY 4.0
Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi(参考訳) 宇宙探査は常に人類のインスピレーションの源であり、現代の望遠鏡のおかげで、地球から遠く離れた天体を観測することが可能になった。 Web上で利用可能な空間のリアルイメージや想像上のイメージが増え、ジェネレーティブ・アドバイサル・ネットワークのような現代のディープラーニングアーキテクチャを活用することで、空間の新しい表現を生成できるようになった。 本研究では、Webから得られた画像のデータセットである軽量GANと、Galaxy Zoo Datasetを用いて、何千もの天体、銀河、そしてそれらを組み合わせることで、宇宙の広い視野を新たに生成した。 結果の再現コードはhttps://github.com/d avide-coccomini/GAN- Universeで公開されている。

Space exploration has always been a source of inspiration for humankind, and thanks to modern telescopes, it is now possible to observe celestial bodies far away from us. With a growing number of real and imaginary images of space available on the web and exploiting modern deep Learning architectures such as Generative Adversarial Networks, it is now possible to generate new representations of space. In this research, using a Lightweight GAN, a dataset of images obtained from the web, and the Galaxy Zoo Dataset, we have generated thousands of new images of celestial bodies, galaxies, and finally, by combining them, a wide view of the universe. The code for reproducing our results is publicly available at https://github.com/d avide-coccomini/GAN- Universe, and the generated images can be explored at https://davide-cocco mini.github.io/GAN-U niverse/.
翻訳日:2021-11-25 06:31:24 公開日:2021-11-22
# (参考訳) リアルタイムモバイルアクセラレーションのための最良のDNNプルーニングスキームの自動マッピング [全文訳有]

Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration ( http://arxiv.org/abs/2111.11581v1 )

ライセンス: CC BY 4.0
Yifan Gong, Geng Yuan, Zheng Zhan, Wei Niu, Zhengang Li, Pu Zhao, Yuxuan Cai, Sijia Liu, Bin Ren, Xue Lin, Xulong Tang, Yanzhi Wang(参考訳) 軽量プルーニングは,モバイルデバイス上でリアルタイムディープニューラルネットワーク(DNN)推論を実現する上で,効果的なモデル圧縮手法である。 しかし, プレニング方式は, 精度劣化, ハードウェアアクセラレーションの難しさ, 特定のタイプのDNN層に対する制限などにより, 適用シナリオが限定されている。 本稿では,dnnの任意の層に適用可能な汎用的,きめ細かい構造的pruningスキームと対応するコンパイラ最適化を提案し,高い精度とハードウェア推論性能を実現する。 コンパイラ最適化によって実現される異なるレイヤに異なるプルーニングスキームを適用する柔軟性により、様々なプルーニングスキームの異なる加速度および精度性能を考慮した最適なプルーニングスキームを決定する新しい問題をさらに調査する。 与えられたDNNの各層に対して最適なプルーニング規則とブロックサイズを自動的に導出する2つのプルーニングスキームマッピング手法を提案する。 CIFAR-10およびImageNetデータセット上の2.48$\times$と1.73$\times$DNN推論アクセラレーションを精度の低下なく達成し,提案手法と一般のきめ細かな構造化プルーニング手法の併用により,最先端のDNN最適化フレームワークより優れていることを示す。

Weight pruning is an effective model compression technique to tackle the challenges of achieving real-time deep neural network (DNN) inference on mobile devices. However, prior pruning schemes have limited application scenarios due to accuracy degradation, difficulty in leveraging hardware acceleration, and/or restriction on certain types of DNN layers. In this paper, we propose a general, fine-grained structured pruning scheme and corresponding compiler optimizations that are applicable to any type of DNN layer while achieving high accuracy and hardware inference performance. With the flexibility of applying different pruning schemes to different layers enabled by our compiler optimizations, we further probe into the new problem of determining the best-suited pruning scheme considering the different acceleration and accuracy performance of various pruning schemes. Two pruning scheme mapping methods, one is search-based and the other is rule-based, are proposed to automatically derive the best-suited pruning regularity and block size for each layer of any given DNN. Experimental results demonstrate that our pruning scheme mapping methods, together with the general fine-grained structured pruning scheme, outperform the state-of-the-art DNN optimization framework with up to 2.48$\times$ and 1.73$\times$ DNN inference acceleration on CIFAR-10 and ImageNet dataset without accuracy loss.
翻訳日:2021-11-25 06:19:36 公開日:2021-11-22
# 通信障害時のマイクログリッドエネルギー管理のためのマルチエージェントベイズディープ強化学習

Multi-agent Bayesian Deep Reinforcement Learning for Microgrid Energy Management under Communication Failures ( http://arxiv.org/abs/2111.11868v1 )

ライセンス: Link先を確認
Hao Zhou, Atakan Aral, Ivona Brandic, Melike Erol-Kantarci(参考訳) マイクログリッド(MG)は、多くのインテリジェントなモノのインターネット(IoT)デバイスがスマートグリッド内のエネルギー管理と相互作用する未来のトランスアクティブエネルギーシステムにとって重要なプレーヤーである。 MGエネルギー管理に関する研究は数多く行われているが、ほとんどの研究はコミュニケーション障害が考慮されていない完璧な通信環境を前提としている。 本稿では、MGをIoTデバイスを用いたマルチエージェント環境とみなし、AIエージェントが同僚と情報を交換してコラボレーションを行う。 しかし、協調情報は通信障害やパケットロスによって失われることがある。 このような事象はMG全体の操作に影響を及ぼす可能性がある。 この目的のために,通信障害時のMGエネルギー管理のためのマルチエージェントベイズ深部強化学習法(BA-DRL)を提案する。 まず,マルチエージェント部分観測可能なマルコフ決定プロセス (MA-POMDP) を定義し,通信障害時のエージェントを記述し,各エージェントが仲間の行動に対する信念を更新できるようにする。 次に、BA-DRLにおけるQ値推定にDouble Deep Q-learning (DDQN)アーキテクチャを適用し、マルチエージェントBA-DRLの協調動作選択のための信念に基づく相関平衡を提案する。 最後に,BA-DRLは電源の不確実性と通信障害の不確実性の両方に対して堅牢であることを示す。 BA-DRL は Nash Deep Q-learning (Nash-DQN) よりも 4.1% と 10.3% 高い報酬率を持つ。

Microgrids (MGs) are important players for the future transactive energy systems where a number of intelligent Internet of Things (IoT) devices interact for energy management in the smart grid. Although there have been many works on MG energy management, most studies assume a perfect communication environment, where communication failures are not considered. In this paper, we consider the MG as a multi-agent environment with IoT devices in which AI agents exchange information with their peers for collaboration. However, the collaboration information may be lost due to communication failures or packet loss. Such events may affect the operation of the whole MG. To this end, we propose a multi-agent Bayesian deep reinforcement learning (BA-DRL) method for MG energy management under communication failures. We first define a multi-agent partially observable Markov decision process (MA-POMDP) to describe agents under communication failures, in which each agent can update its beliefs on the actions of its peers. Then, we apply a double deep Q-learning (DDQN) architecture for Q-value estimation in BA-DRL, and propose a belief-based correlated equilibrium for the joint-action selection of multi-agent BA-DRL. Finally, the simulation results show that BA-DRL is robust to both power supply uncertainty and communication failure uncertainty. BA-DRL has 4.1% and 10.3% higher reward than Nash Deep Q-learning (Nash-DQN) and alternating direction method of multipliers (ADMM) respectively under 1% communication failure probability.
翻訳日:2021-11-24 17:18:49 公開日:2021-11-22
# 動的関税下における住宅消費弾性の関数モデル

Functional Model of Residential Consumption Elasticity under Dynamic Tariffs ( http://arxiv.org/abs/2111.11875v1 )

ライセンス: Link先を確認
Kamalanathan Ganesan, Jo\~ao Tom\'e Saraiva and Ricardo J. Bessa(参考訳) 小売業者にとって大きな障壁の1つは、contracted demand response (dr)クライアントから期待できる消費弾力性を理解することである。 現在の小売業者によるDR製品の動向は消費者特有のものではなく、これらのプログラムにおける消費者の積極的な関与の障壁となっている。 消費者の要求行動の弾力性は個人によって異なる。 このユーティリティーは、価格の変化がクライアントの消費パターンをどのように変更するかをより正確に知ることができる。 本研究は,DR契約消費者の消費弾性に関する機能モデルを提案する。 このモデルは、DR消費者が小売業者やユーティリティに提供できる負荷調整を、異なる価格レベルで決定することを目的としている。 提案モデルはベイズ確率的アプローチを用いて、個々の契約クライアントが経験できる異なる価格レベルを提供することができる実際の負荷調整を識別する。 開発されたフレームワークは、小売業者やユーティリティーに、個々の消費者が異なる価格水準にどう反応するかの重要な情報を得るためのツールを提供する。 このアプローチは、消費者がDR信号に反応する可能性の定量化と、個々の契約されたDRクライアントが経験できる価格レベルの実際の負荷調整の特定を可能にする。 この情報は、小売業者やユーティリティがSystem Operatorsに提供するサービスの制御と信頼性を最大化するために使用できる。

One of the major barriers for the retailers is to understand the consumption elasticity they can expect from their contracted demand response (DR) clients. The current trend of DR products provided by retailers are not consumer-specific, which poses additional barriers for the active engagement of consumers in these programs. The elasticity of consumers demand behavior varies from individual to individual. The utility will benefit from knowing more accurately how changes in its prices will modify the consumption pattern of its clients. This work proposes a functional model for the consumption elasticity of the DR contracted consumers. The model aims to determine the load adjustment the DR consumers can provide to the retailers or utilities for different price levels. The proposed model uses a Bayesian probabilistic approach to identify the actual load adjustment an individual contracted client can provide for different price levels it can experience. The developed framework provides the retailers or utilities with a tool to obtain crucial information on how an individual consumer will respond to different price levels. This approach is able to quantify the likelihood with which the consumer reacts to a DR signal and identify the actual load adjustment an individual contracted DR client provides for different price levels they can experience. This information can be used to maximize the control and reliability of the services the retailer or utility can offer to the System Operators.
翻訳日:2021-11-24 17:18:21 公開日:2021-11-22
# 分類による近似ベイズ計算

Approximate Bayesian Computation via Classification ( http://arxiv.org/abs/2111.11507v1 )

ライセンス: Link先を確認
Yuexi Wang, Tetsuya Kaji and Veronika Ro\v{c}kov\'a(参考訳) 近似ベイズ計算(ABC)は、計算し難いがシミュレーションし易い複雑なモデルにおいて統計的推論を可能にする。 abcは、実データとシミュレーションデータの要約統計を比較するaccept/rejectメカニズムを用いて、カーネル型近似を後方分布に構築する。 要約統計学の必要性を回避するため,分類により得られた経験的分布とKL偏差推定器を直接比較する。 特に、abc内でフレキシブルな機械学習分類器をブレンドして、偽データ/実データの比較を自動化する。 我々は従来のaccept/reject kernelとabcの受け入れしきい値を必要としない指数重み付けスキームを考える。 その結果,abcの後続分布が真のパラメータを中心に集中する速度は,分類器の推定誤差に依存することがわかった。 後方形状の限界を導出し、適切にスケールされた指数関数核では漸近正規性が成立する。 本研究は,ストックボラティリティ推定の文脈における実データとシミュレーション例に対するアプローチの有用性を実証する。

Approximate Bayesian Computation (ABC) enables statistical inference in complex models whose likelihoods are difficult to calculate but easy to simulate from. ABC constructs a kernel-type approximation to the posterior distribution through an accept/reject mechanism which compares summary statistics of real and simulated data. To obviate the need for summary statistics, we directly compare empirical distributions with a Kullback-Leibler (KL) divergence estimator obtained via classification. In particular, we blend flexible machine learning classifiers within ABC to automate fake/real data comparisons. We consider the traditional accept/reject kernel as well as an exponential weighting scheme which does not require the ABC acceptance threshold. Our theoretical results show that the rate at which our ABC posterior distributions concentrate around the true parameter depends on the estimation error of the classifier. We derive limiting posterior shape results and find that, with a properly scaled exponential kernel, asymptotic normality holds. We demonstrate the usefulness of our approach on simulated examples as well as real data in the context of stock volatility estimation.
翻訳日:2021-11-24 16:07:20 公開日:2021-11-22
# 地上レーザースキャナ(TLS)を用いた雲点のリアルタイム地上フィルタリングアルゴリズム

Real-time ground filtering algorithm of cloud points acquired using Terrestrial Laser Scanner (TLS) ( http://arxiv.org/abs/2111.11481v1 )

ライセンス: Link先を確認
Nelson Diaz and Omar Gallo and Jhon Caceres and Hernan Porras(参考訳) 点雲に基づく3Dモデリングには、地面を非地上オブジェクトから分離する地上フィルタリングアルゴリズムが必要である。 本研究は2つの基底フィルタリングアルゴリズムを提案する。 1つ目は通常のベクトルに基づいている。 k-ネアレスト近傍を計算する手順によって2つの変種が存在する。 第2のアルゴリズムは、雲点をボクセル構造に変換することに基づいている。 これらを評価するために, 2つのアルゴリズムを実行時間, 有効性, 効率に応じて比較する。 その結果, ボクセル構造に基づく基底フィルタリングアルゴリズムは, 通常のベクトル基底フィルタリングよりも実行時間, 有効性, 効率の点で高速であることがわかった。

3D modeling based on point clouds requires ground-filtering algorithms that separate ground from non-ground objects. This study presents two ground filtering algorithms. The first one is based on normal vectors. It has two variants depending on the procedure to compute the k-nearest neighbors. The second algorithm is based on transforming the cloud points into a voxel structure. To evaluate them, the two algorithms are compared according to their execution time, effectiveness and efficiency. Results show that the ground filtering algorithm based on the voxel structure is faster in terms of execution time, effectiveness, and efficiency than the normal vector ground filtering.
翻訳日:2021-11-24 16:05:56 公開日:2021-11-22
# deep network priorsを用いた変形可能な画像登録:縦型pet画像の検討

Deformable Image Registration with Deep Network Priors: a Study on Longitudinal PET Images ( http://arxiv.org/abs/2111.11873v1 )

ライセンス: Link先を確認
Constance Fourcadea, Ludovic Ferrer, Noemie Moreau, Gianmarco Santini, Aishlinn Brennan, Caroline Rousseau, Marie Lacombe, Vincent Fleury, Mathilde Colombi\'e, Pascal J\'ez\'equel, Mario Campone, Mathieu Rubeaux, Diana Mateus(参考訳) 縦方向画像の登録は困難であり、ディープラーニングによる大きなパフォーマンス改善の恩恵を受けていない。 本稿では,deep image priorに触発されて,画像登録問題に取り組むためのレギュラライザとして,deep architecturesの異なる使用法を紹介する。 変形場を制約する従来のパラメトリックモデルである深層ピラミッド構造に頼って,MIRRBAと呼ばれる対象固有の変形可能な登録手法を提案する。 教師付き学習パラダイムから外れて、MIRRBAは学習データベースを必要としないが、ネットワークのパラメータを最適化し変形場を提供するために登録される画像のペアのみを必要とする。 深層建築の正規化力を実証し,登録のための深層学習手法におけるアーキテクチャの役割を理解するための新しい要素を提示する。 そこで,脳,膀胱,転移巣を手作業で分割した110個の転移乳がん全体pet画像のプライベートデータセットに,ネットワークパラメータの影響を調べるために,異なるアーキテクチャ構成の手法を適用した。 従来の反復登録手法と比較し,深層学習に基づくモデルと比較した。 大域的および局所的な登録精度をそれぞれ検出率とサイススコアを用いて評価し,ジャコビアン決定式を用いて登録リアリズムを評価した。 さらに,消失率で消失する病変を縮小する異なる手法の能力を計算した。 MIRRBAは、教師付きモデルの臓器と病変Diceスコアを大幅に改善する。 消失率に関して、MIRRBAは従来のSyNCCスコアの2倍以上の性能を持つ。 そこで本研究では,従来手法と深層学習手法のパフォーマンスギャップを埋める代替手法を提案し,深層アーキテクチャの正規化力を実証する。

Longitudinal image registration is challenging and has not yet benefited from major performance improvements thanks to deep-learning. Inspired by Deep Image Prior, this paper introduces a different use of deep architectures as regularizers to tackle the image registration question. We propose a subject-specific deformable registration method called MIRRBA, relying on a deep pyramidal architecture to be the prior parametric model constraining the deformation field. Diverging from the supervised learning paradigm, MIRRBA does not require a learning database, but only the pair of images to be registered to optimize the network's parameters and provide a deformation field. We demonstrate the regularizing power of deep architectures and present new elements to understand the role of the architecture in deep learning methods for registration. Hence, to study the impact of the network parameters, we ran our method with different architectural configurations on a private dataset of 110 metastatic breast cancer full-body PET images with manual segmentations of the brain, bladder and metastatic lesions. We compared it against conventional iterative registration approaches and supervised deep learning-based models. Global and local registration accuracies were evaluated using the detection rate and the Dice score respectively, while registration realism was evaluated using the Jacobian's determinant. Moreover, we computed the ability of the different methods to shrink vanishing lesions with the disappearing rate. MIRRBA significantly improves the organ and lesion Dice scores of supervised models. Regarding the disappearing rate, MIRRBA more than doubles the best performing conventional approach SyNCC score. Our work therefore proposes an alternative way to bridge the performance gap between conventional and deep learning-based methods and demonstrates the regularizing power of deep architectures.
翻訳日:2021-11-24 16:02:23 公開日:2021-11-22
# KML: 機械学習を使ってストレージシステムを改善する

KML: Using Machine Learning to Improve Storage Systems ( http://arxiv.org/abs/2111.11554v1 )

ライセンス: Link先を確認
Ibrahim Umit Akgun, Ali Selman Aydin, Aadil Shaikh, Lukas Velikov, Andrew Burford, Michael McNeill, Michael Arkhangelskiy, and Erez Zadok(参考訳) オペレーティングシステムには、全体的なストレージ性能とスループットを改善するために設計された多くのヒューリスティックアルゴリズムが含まれている。 このようなヒューリスティックは、すべての条件やワークロードでうまく機能しないため、システム設計者は、ユーザに多数のチューニング可能なパラメータを公開することに頼った。 ストレージシステムは通常、I/Oヘビーなアプリケーションでほとんどのレイテンシに責任があるため、全体のレイテンシが大幅に改善される可能性がある。 機械学習(ml)技術は、パターンを学習し、それらから一般化し、ワークロードの変化に対応する最適なソリューションを可能にする。 mlソリューションはossの第一級コンポーネントとなり,ストレージシステムを動的に最適化するために手動ヒューリスティックスを置き換えることを提案する。 本稿では,KMLと呼ばれるMLアーキテクチャについて述べる。 我々は,KMLアーキテクチャのプロトタイプを開発し,これを最適な読み出し値とNFS読み出しサイズ値の2つの問題に適用した。 我々の実験によると、KMLはOSリソースをほとんど消費せず、無視可能なレイテンシを追加し、そして2つのユースケースで最大2.3倍または15倍のI/Oスループットを向上できるパターンを学ぶことができる。

Operating systems include many heuristic algorithms designed to improve overall storage performance and throughput. Because such heuristics cannot work well for all conditions and workloads, system designers resorted to exposing numerous tunable parameters to users -- essentially burdening users with continually optimizing their own storage systems and applications. Storage systems are usually responsible for most latency in I/O heavy applications, so even a small overall latency improvement can be significant. Machine learning (ML) techniques promise to learn patterns, generalize from them, and enable optimal solutions that adapt to changing workloads. We propose that ML solutions become a first-class component in OSs and replace manual heuristics to optimize storage systems dynamically. In this paper, we describe our proposed ML architecture, called KML. We developed a prototype KML architecture and applied it to two problems: optimal readahead and NFS read-size values. Our experiments show that KML consumes little OS resources, adds negligible latency, and yet can learn patterns that can improve I/O throughput by as much as 2.3x or 15x for the two use cases respectively -- even for complex, never-before-seen, concurrently running mixed workloads on different storage devices.
翻訳日:2021-11-24 15:59:14 公開日:2021-11-22
# データ中心神話について

On Data-centric Myths ( http://arxiv.org/abs/2111.11514v1 )

ライセンス: Link先を確認
Antonia Marcu, Adam Pr\"ugel-Bennett(参考訳) コミュニティには、優れたデータセットを構築するための理論上のガイドラインが欠けている。 データの内容に関する理論的方向性を分析し、既存の文献から派生した直観が誤りで誤解を招くと結論づける。 経験的な反例を用いることで 1)データ次元を必ずしも最小化してはならない 2) データを操作する場合は, 分散保存が重要となる。 これにより、よりデータ対応の理論的理解が求められます。 本研究は検討されていないが,有望な研究方向として,データ修正が学習表現に与える影響について検討する。

The community lacks theory-informed guidelines for building good data sets. We analyse theoretical directions relating to what aspects of the data matter and conclude that the intuitions derived from the existing literature are incorrect and misleading. Using empirical counter-examples, we show that 1) data dimension should not necessarily be minimised and 2) when manipulating data, preserving the distribution is inessential. This calls for a more data-aware theoretical understanding. Although not explored in this work, we propose the study of the impact of data modification on learned representations as a promising research direction.
翻訳日:2021-11-24 15:19:30 公開日:2021-11-22
# 2次元表面検出による液体のイメージベース再構成

Image Based Reconstruction of Liquids from 2D Surface Detections ( http://arxiv.org/abs/2111.11491v1 )

ライセンス: Link先を確認
Florian Richter, Ryan K. Orosco, Michael C. Yip(参考訳) 本研究では,画像データから液体を再構成する問題に対する解決法を提案する。 従来のリコンストラクションでは表面の剛性や変形に直面することのない液体の再構成は、屈折率、不透明度、環境反射の変動指標による深度検知や色特徴の活用が困難である。 したがって、液体の表面検出(すなわち二成分マスク)のみを観察として限定し、液体の性質について事前の知識を仮定しない。 粒子からの描画面と表面検出との誤差を最小限に抑えながら、液体を粒子として再構成する新たな最適化問題を提案する。 この最適化問題の解法を提示し,それを適用するためのトレーニングデータを必要としない。 また、前回の時間ステップから再構成最適化をシードする動的予測も提案する。 提案手法をシミュレーションでテストし,新たな2つの液体データセットをオープンソースとして公開することで,より広範な研究コミュニティが検討中の領域で開発を続けられるようにした。

In this work, we present a solution to the challenging problem of reconstructing liquids from image data. The challenges in reconstructing liquids, which is not faced in previous reconstruction works on rigid and deforming surfaces, lies in the inability to use depth sensing and color features due the variable index of refraction, opacity, and environmental reflections. Therefore, we limit ourselves to only surface detections (i.e. binary mask) of liquids as observations and do not assume any prior knowledge on the liquids properties. A novel optimization problem is posed which reconstructs the liquid as particles by minimizing the error between a rendered surface from the particles and the surface detections while satisfying liquid constraints. Our solvers to this optimization problem are presented and no training data is required to apply them. We also propose a dynamic prediction to seed the reconstruction optimization from the previous time-step. We test our proposed methods in simulation and on two new liquid datasets which we open source so the broader research community can continue developing in this under explored area.
翻訳日:2021-11-24 14:59:49 公開日:2021-11-22
# トランスフォーマーによるアイスホッケー選手の識別

Ice hockey player identification via transformers ( http://arxiv.org/abs/2111.11535v1 )

ライセンス: Link先を確認
Kanav Vats, William McNally, Pascale Walters, David A. Clausi, John S. Zelek(参考訳) プレイヤーをビデオで識別することは、コンピュータビジョンに基づくスポーツ分析の基本的なステップである。 ゲーム分析にはプレイヤーのアイデンティティの取得が不可欠であり、ゲームイベント認識などの下流タスクで使用される。 トランスフォーマーは自然言語処理(NLP)の既存の標準であり、コンピュータビジョンにおいて急速に注目を集めている。 本稿では,コンピュータビジョンにおけるトランスフォーマーの成功に触発されて,NHL(National Hockey League)ビデオのジャージ番号でプレイヤーを識別するトランスフォーマーネットワークを提案する。 トランスフォーマーはプレイヤーフレーム(プレイヤートラックレットとも呼ばれる)の一時的なシーケンスを入力として、フレームに存在するジャージ番号の確率を出力する。 提案するネットワークは、使用したデータセットの以前のベンチマークよりもパフォーマンスがよい。 ジャージ数の存在を近似したフレームレベルラベルを生成し,フレームレベルラベルを用いて高速なトレーニングを行う。 また,光学式文字認識(OCR)を用いてゲーム時間を読み取ることで,NHLプレイバイプレイデータで利用可能なプレイヤーシフトを利用して,特定のゲーム時間でプレイヤーをアイスリンクさせる。 プレイヤーシフトを用いることで、プレイヤー識別精度が6%向上した。

Identifying players in video is a foundational step in computer vision-based sports analytics. Obtaining player identities is essential for analyzing the game and is used in downstream tasks such as game event recognition. Transformers are the existing standard in Natural Language Processing (NLP) and are swiftly gaining traction in computer vision. Motivated by the increasing success of transformers in computer vision, in this paper, we introduce a transformer network for recognizing players through their jersey numbers in broadcast National Hockey League (NHL) videos. The transformer takes temporal sequences of player frames (also called player tracklets) as input and outputs the probabilities of jersey numbers present in the frames. The proposed network performs better than the previous benchmark on the dataset used. We implement a weakly-supervised training approach by generating approximate frame-level labels for jersey number presence and use the frame-level labels for faster training. We also utilize player shifts available in the NHL play-by-play data by reading the game time using optical character recognition (OCR) to get the players on the ice rink at a certain game time. Using player shifts improved the player identification accuracy by 6%.
翻訳日:2021-11-24 14:59:31 公開日:2021-11-22
# ゼロショットオープンブック質問応答

Zero-Shot Open-Book Question Answering ( http://arxiv.org/abs/2111.11520v1 )

ライセンス: Link先を確認
Sia Gholami and Mehdi Noori(参考訳) オープンブック質問応答(Open Book Question answering)とは、特定の文書(オープンブック)の集合とトピックに関する共通知識に答えを見つけることを目的とした質問応答タスクのサブセットである。 この記事では、ドメイン固有のラベル付きデータ(ゼロショット)を持たないAmazon Web Services(AWS)技術ドキュメントのコーパスから、自然言語の質問に答えるソリューションを提案する。 これらの質問には、イエスノー回答、短い回答、長い回答、または上記の組み合わせがある。 このソリューションは、検索者が正しい文書を見つけ、抽出者が検索した文書の回答を見つける2段階のアーキテクチャを含む。 私たちは、AWSのテクニカルドキュメントに関する実際の顧客からの質問に基づいて、オープンブックのQAのための新しいテストデータセットを導入しています。 抽出言語モデルに基づく複数の情報検索システムと抽出器モデルを実験した後、この解法はイエスノーノー回答とテキスト回答を同じパスで見つけ出そうとする。 このモデルはThe Stanford Question Answering Dataset - SQuAD (Rajpurkaret al., 2016) と Natural Questions (Kwiatkowski et al., 2019) のデータセットでトレーニングされている。 49%のF1と39%の正確な一致スコア(EM)をドメイン固有のトレーニングなしで達成できた。

Open book question answering is a subset of question answering tasks where the system aims to find answers in a given set of documents (open-book) and common knowledge about a topic. This article proposes a solution for answering natural language questions from a corpus of Amazon Web Services (AWS) technical documents with no domain-specific labeled data (zero-shot). These questions can have yes-no-none answers, short answers, long answers, or any combination of the above. This solution comprises a two-step architecture in which a retriever finds the right document and an extractor finds the answers in the retrieved document. We are introducing a new test dataset for open-book QA based on real customer questions on AWS technical documentation. After experimenting with several information retrieval systems and extractor models based on extractive language models, the solution attempts to find the yes-no-none answers and text answers in the same pass. The model is trained on the The Stanford Question Answering Dataset - SQuAD (Rajpurkaret al., 2016) and Natural Questions (Kwiatkowski et al., 2019) datasets. We were able to achieve 49% F1 and 39% exact match score (EM) end-to-end with no domain-specific training.
翻訳日:2021-11-24 14:35:31 公開日:2021-11-22
# 新型コロナウイルスによる妊婦の死亡率予測モデル

Prediction Model for Mortality Analysis of Pregnant Women Affected With COVID-19 ( http://arxiv.org/abs/2111.11477v1 )

ライセンス: Link先を確認
Quazi Adibur Rahman Adib, Sidratul Tanzila Tasmi, Md. Shahriar Islam Bhuiyan, Md. Mohsin Sarker Raihan and Abdullah Bin Shams(参考訳) 新型コロナウイルスのパンデミックは、公衆衛生部門や世界経済に前例のない破壊をもたらした世界的なパンデミックである。 SARS-CoV-2は、新型コロナウイルスの急速な感染の原因となっている。 感染性があるため、ウイルスは、軽度から重篤な症状から、無防備で露出した個人に容易に感染することができる。 妊婦や新生児に対するウイルスの影響に関する研究は、現在、母親や新生児の健康にウイルスがどう影響するかを考える民間人や公衆衛生従事者の間で、世界規模で問題となっている。 本研究の目的は, 肺炎の診断, 呼吸困難, 不整脈, 鼻出血, 関節痛, 肺炎などの症状から, 母親の死亡確率を推定するための予測モデルを開発することである。 我々の研究で使用されている機械学習モデルは、サポートベクターマシン、決定ツリー、ランダムフォレスト、勾配押し上げ、人工ニューラルネットワークである。 3モデル(ANN, Gradient Boost, Random Forest)の精度は100%が最も高いスコア(Gradient Boosting,ANN)は95%、最も高いリコール(Support Vector Machine)は92.75%、最高のf1スコア(Gradient Boosting,ANN)は94.66%である。 モデルが正確であるため、妊婦はウイルスによる死亡の可能性に基づいてすぐに治療を受けることができる。 このモデルは世界中の医療従事者によって緊急患者のリストアップに利用でき、最終的に新型コロナウイルス(COVID-19)と診断された妊婦の死亡率を減らすことができる。

COVID-19 pandemic is an ongoing global pandemic which has caused unprecedented disruptions in the public health sector and global economy. The virus, SARS-CoV-2 is responsible for the rapid transmission of coronavirus disease. Due to its contagious nature, the virus can easily infect an unprotected and exposed individual from mild to severe symptoms. The study of the virus effects on pregnant mothers and neonatal is now a concerning issue globally among civilians and public health workers considering how the virus will affect the mother and the neonates health. This paper aims to develop a predictive model to estimate the possibility of death for a COVID-diagnosed mother based on documented symptoms: dyspnea, cough, rhinorrhea, arthralgia, and the diagnosis of pneumonia. The machine learning models that have been used in our study are support vector machine, decision tree, random forest, gradient boosting, and artificial neural network. The models have provided impressive results and can accurately predict the mortality of pregnant mothers with a given input.The precision rate for 3 models(ANN, Gradient Boost, Random Forest) is 100% The highest accuracy score(Gradient Boosting,ANN) is 95%,highest recall(Support Vector Machine) is 92.75% and highest f1 score(Gradient Boosting,ANN) is 94.66%. Due to the accuracy of the model, pregnant mother can expect immediate medical treatment based on their possibility of death due to the virus. The model can be utilized by health workers globally to list down emergency patients, which can ultimately reduce the death rate of COVID-19 diagnosed pregnant mothers.
翻訳日:2021-11-24 14:35:09 公開日:2021-11-22
# グラフ分類のための並列近傍アグリゲーションを持つグラフニューラルネットワーク

Graph Neural Networks with Parallel Neighborhood Aggregations for Graph Classification ( http://arxiv.org/abs/2111.11482v1 )

ライセンス: Link先を確認
Siddhant Doshi and Sundeep Prabhakar Chepuri(参考訳) グラフニューラルネットワーク(GNN)モデルを用いたグラフ分類に着目し、並列に配置された近傍グラフ演算子のバンクを用いてノード特徴をプリ計算する。 これらのGNNモデルは、事前計算によりトレーニングと推論時間を短縮する自然な利点があるが、トレーニング中のシーケンシャルな近所の集約手順を通じてノードの特徴を更新する一般的なGNNの変種と根本的に異なる。 並列近傍アグリゲーション(PA-GNN)を持つ一般GNNモデルが、非同型グラフの識別においてよく知られたWeisfeiler-Lehman(WL )グラフ同型テストと同じくらい強力である理論条件を提供する。 PA-GNNモデルはWLテストと明らかな関係はないが、これらの2つの手法から得られたグラフ埋め込みはインジェクティブに関連していることを示す。 そこで我々は,SPINと呼ばれる特殊なPA-GNNモデルを提案する。 我々は,WLテストの識別能力と,トレーニング前の前処理グラフの計算的優位性を維持しつつ,様々な実世界のデータセット上での最先端性能を実現することを数値実験により実証した。

We focus on graph classification using a graph neural network (GNN) model that precomputes the node features using a bank of neighborhood aggregation graph operators arranged in parallel. These GNN models have a natural advantage of reduced training and inference time due to the precomputations but are also fundamentally different from popular GNN variants that update node features through a sequential neighborhood aggregation procedure during training. We provide theoretical conditions under which a generic GNN model with parallel neighborhood aggregations (PA-GNNs, in short) are provably as powerful as the well-known Weisfeiler-Lehman (WL) graph isomorphism test in discriminating non-isomorphic graphs. Although PA-GNN models do not have an apparent relationship with the WL test, we show that the graph embeddings obtained from these two methods are injectively related. We then propose a specialized PA-GNN model, called SPIN, which obeys the developed conditions. We demonstrate via numerical experiments that the developed model achieves state-of-the-art performance on many diverse real-world datasets while maintaining the discriminative power of the WL test and the computational advantage of preprocessing graphs before the training process.
翻訳日:2021-11-24 14:34:09 公開日:2021-11-22
# FLIX:フェデレートラーニングにおける局所的手法の簡易かつコミュニケーション効率の良い代替手段

FLIX: A Simple and Communication-Effici ent Alternative to Local Methods in Federated Learning ( http://arxiv.org/abs/2111.11556v1 )

ライセンス: Link先を確認
Elnur Gasanov and Ahmed Khaled and Samuel Horv\'ath and Peter Richt\'arik(参考訳) Federated Learning(FL)は、複数のノードがプライバシ、コミュニケーション、複数の異種性制約の下で協調的に学習しようとする、ますます人気のある機械学習パラダイムである。 教師付き学習の標準的な平均リスク最小化は、コミュニケーション適応性やパーソナライズ制御など、連合型学習に特有のいくつかの主要な制約を扱うのに不十分である。 フェデレーション学習のためのフレームワークにおけるいくつかの重要なデシデラタを特定し、フェデレーション学習によってもたらされるユニークな課題を考慮した新しいフレームワークflixを導入しました。 FLIXは標準的な有限サム形式を持ち、実践者は分散最適化のために既存の(潜在的に非局所的な)メソッドの豊富な富を利用できる。 通信を必要としないスマート初期化によって、flixはローカルステップの使用を必要とせず、ローカルメソッドと同等の異種正規化を行うことができる。 通信制約下でのFLIX定式化を効率的に解くためのアルゴリズムをいくつか提供する。 最後に、我々の理論結果を広範な実験で裏付ける。

Federated Learning (FL) is an increasingly popular machine learning paradigm in which multiple nodes try to collaboratively learn under privacy, communication and multiple heterogeneity constraints. A persistent problem in federated learning is that it is not clear what the optimization objective should be: the standard average risk minimization of supervised learning is inadequate in handling several major constraints specific to federated learning, such as communication adaptivity and personalization control. We identify several key desiderata in frameworks for federated learning and introduce a new framework, FLIX, that takes into account the unique challenges brought by federated learning. FLIX has a standard finite-sum form, which enables practitioners to tap into the immense wealth of existing (potentially non-local) methods for distributed optimization. Through a smart initialization that does not require any communication, FLIX does not require the use of local steps but is still provably capable of performing dissimilarity regularization on par with local methods. We give several algorithms for solving the FLIX formulation efficiently under communication constraints. Finally, we corroborate our theoretical results with extensive experimentation.
翻訳日:2021-11-24 14:33:47 公開日:2021-11-22
# 生理的生体信号のカメラによる計測

Camera Measurement of Physiological Vital Signs ( http://arxiv.org/abs/2111.11547v1 )

ライセンス: Link先を確認
Daniel McDuff(参考訳) 医療監視のためのリモートツールの必要性は、これまでになく明白である。 バイタルサインのカメラ計測は、人体の画像を解析して生理学的変化を計算するためにイメージングデバイスを利用する。 光学、機械学習、コンピュータビジョン、医学の進歩に基づくこれらの技術は、デジタルカメラの発明以来大きく進歩してきた。 本稿では,生理的バイタルサインのカメラによる計測を包括的に調査し,測定可能なバイタルサインとその計算手法について述べる。 私は臨床応用と非臨床応用の両方を取り上げ、概念実証から前進するために克服すべき課題を取り上げます。 最後に、研究コミュニティで利用可能な現在のリソース(データセットとコード)を説明し、これらのリソースへのリンクと本記事で参照されているすべての論文の分類リストを包括的なWebページ(https://cameravital s.github.io/)で提供します。

The need for remote tools for healthcare monitoring has never been more apparent. Camera measurement of vital signs leverages imaging devices to compute physiological changes by analyzing images of the human body. Building on advances in optics, machine learning, computer vision and medicine these techniques have progressed significantly since the invention of digital cameras. This paper presents a comprehensive survey of camera measurement of physiological vital signs, describing they vital signs that can be measured and the computational techniques for doing so. I cover both clinical and non-clinical applications and the challenges that need to be overcome for these applications to advance from proofs-of-concept. Finally, I describe the current resources (datasets and code) available to the research community and provide a comprehensive webpage (https://cameravital s.github.io/) with links to these resource and a categorized list of all the papers referenced in this article.
翻訳日:2021-11-24 14:31:52 公開日:2021-11-22
# ワークライクな設定におけるユーザ顔の影響の推測

Inferring User Facial Affect in Work-like Settings ( http://arxiv.org/abs/2111.11862v1 )

ライセンス: Link先を確認
Chaudhary Muhammad Aqdus Ilyas, Siyang Song, Hatice Gunes(参考訳) 幸福、悲しみ、恐怖、怒り、嫌悪、驚きの6つの基本的な感情とは異なり、原子価(正負性 - 負性)と覚醒(強勢)はより柔軟で、自然主義的かつ現実的な設定に有用であることが証明されている。 本稿では,難易度 (ベースライン, 易度, 硬度, ストレス条件) の異なる複数の作業ライクなタスクにおいて, ユーザの顔への影響を推定することを目的とする。 (i)身体的な要求は少ないが、精神的な負担が大きい仕事を引き受けるオフィス的な設定 二 ファインモータースキルの使用を必要とする組立ラインライクな設定 (iii)テレワーク及びテレ会議を表すオフィス風の設定。 本研究の目的は,まず異なる条件の学習をデザインし,12名の被験者からマルチモーダルデータを収集することである。 次に、さまざまな機械学習モデルでいくつかの実験を行い、それを見つけます。 (i) 顔の影響の表示及び予測は、非作業から作業設定まで様々である。 (ii)ワークライクなコンテキストでキャプチャされたデータセットを使用することで予測能力を向上することができる。 (iii)セグメントレベルの情報(スペクトル表現)は、顔影響予測を改善する上で重要である。

Unlike the six basic emotions of happiness, sadness, fear, anger, disgust and surprise, modelling and predicting dimensional affect in terms of valence (positivity - negativity) and arousal (intensity) has proven to be more flexible, applicable and useful for naturalistic and real-world settings. In this paper, we aim to infer user facial affect when the user is engaged in multiple work-like tasks under varying difficulty levels (baseline, easy, hard and stressful conditions), including (i) an office-like setting where they undertake a task that is less physically demanding but requires greater mental strain; (ii) an assembly-line-like setting that requires the usage of fine motor skills; and (iii) an office-like setting representing teleworking and teleconferencing. In line with this aim, we first design a study with different conditions and gather multimodal data from 12 subjects. We then perform several experiments with various machine learning models and find that: (i) the display and prediction of facial affect vary from non-working to working settings; (ii) prediction capability can be boosted by using datasets captured in a work-like context; and (iii) segment-level (spectral representation) information is crucial in improving the facial affect prediction.
翻訳日:2021-11-24 14:31:36 公開日:2021-11-22
# DBIA: トランスネットワークに対するデータフリーバックドアインジェクション攻撃

DBIA: Data-free Backdoor Injection Attack against Transformer Networks ( http://arxiv.org/abs/2111.11870v1 )

ライセンス: Link先を確認
Peizhuo Lv, Hualong Ma, Jiachen Zhou, Ruigang Liang, Kai Chen, Shengzhi Zhang, Yunfei Yang(参考訳) 近年,自然言語処理(NLP)タスクとコンピュータビジョン(CV)タスクにおいて,トランスフォーマーアーキテクチャの重要性が証明されている。 他のネットワークモデルは、モデルにトリガーを埋め込み、トリガーが提示されたときにモデル動作を制御するバックドア攻撃に対して脆弱であることが知られているが、そのような攻撃がトランスフォーマーモデルでまだ有効であるかどうか、もしそうであれば、よりコスト効率のよい方法で実行できるかどうかはほとんど分かっていない。 本稿では,cv指向トランスフォーマネットワークに対する新たなデータフリーバックドア攻撃であるdbiaを提案し,トランスフォーマの固有の注意機構を利用してトリガーを生成し,毒付きサロゲートデータセットを用いてバックドアを注入する。 我々は,3つのベンチマーク変換器(ViT,DeiT,Swin Transformer)に基づいて,CIFAR10とImageNetの2つの主流画像分類タスクについて広範な実験を行った。 評価の結果, 資源消費が少なく, 高い成功率, 被害者のトランスフォーマーの性能への影響が低いバックドアを埋め込むことができることがわかった。 私たちのコードはhttps://anonymous.4o pen.science/r/DBIA-8 25Dで利用可能です。

Recently, transformer architecture has demonstrated its significance in both Natural Language Processing (NLP) and Computer Vision (CV) tasks. Though other network models are known to be vulnerable to the backdoor attack, which embeds triggers in the model and controls the model behavior when the triggers are presented, little is known whether such an attack is still valid on the transformer models and if so, whether it can be done in a more cost-efficient manner. In this paper, we propose DBIA, a novel data-free backdoor attack against the CV-oriented transformer networks, leveraging the inherent attention mechanism of transformers to generate triggers and injecting the backdoor using the poisoned surrogate dataset. We conducted extensive experiments based on three benchmark transformers, i.e., ViT, DeiT and Swin Transformer, on two mainstream image classification tasks, i.e., CIFAR10 and ImageNet. The evaluation results demonstrate that, consuming fewer resources, our approach can embed backdoors with a high success rate and a low impact on the performance of the victim transformers. Our code is available at https://anonymous.4o pen.science/r/DBIA-8 25D.
翻訳日:2021-11-24 14:31:18 公開日:2021-11-22
# GANによる機械学習

Machine unlearning via GAN ( http://arxiv.org/abs/2111.11869v1 )

ライセンス: Link先を確認
Kongyang Chen and Yao Huang and Yiwen Wang(参考訳) 機械学習モデル、特に深層モデルでは、意図せずにトレーニングデータに関する情報を記憶することがある。 したがって、悪意のある攻撃者は、メンバーシップ推論攻撃やモデル反転攻撃を通じてモデルを攻撃することによって、トレーニングデータに関するいくつかのプロパティをピルファーすることができる。 EUのGDPRなど一部の規制では、データのプライバシーを保護し、個人のデータに対する主権を高めるために、"The Right to Be Forgotten"を制定している。 そのため、トレーニングモデルからトレーニングデータ情報を削除することが重要な問題となっている。 本稿では,特に複雑なシナリオにおいて,スクラッチから再トレーニングするよりも,削除速度が大幅に向上する,深層モデルにおけるデータ削除のためのganアルゴリズムを提案する。 5つの一般的なデータセットを用いて実験を行い,本手法の有効性を示した。

Machine learning models, especially deep models, may unintentionally remember information about their training data. Malicious attackers can thus pilfer some property about training data by attacking the model via membership inference attack or model inversion attack. Some regulations, such as the EU's GDPR, have enacted "The Right to Be Forgotten" to protect users' data privacy, enhancing individuals' sovereignty over their data. Therefore, removing training data information from a trained model has become a critical issue. In this paper, we present a GAN-based algorithm to delete data in deep models, which significantly improves deleting speed compared to retraining from scratch, especially in complicated scenarios. We have experimented on five commonly used datasets, and the experimental results show the efficiency of our method.
翻訳日:2021-11-24 14:14:44 公開日:2021-11-22
# 魔法のない深さ:自然のグラディエントな輝きのインダクティブバイアス

Depth Without the Magic: Inductive Bias of Natural Gradient Descent ( http://arxiv.org/abs/2111.11542v1 )

ライセンス: Link先を確認
Anna Kerekes, Anna M\'esz\'aros, Ferenc Husz\'ar(参考訳) 勾配降下では、モデルをパラメータ化する方法を変えることで、大幅に異なる最適化軌道が生まれ、スパース分類器の同定や、明示的な正規化なしに低ランク行列の再構成といった、驚くほど有意義な帰納バイアスが発生する。 この暗黙の正規化は、ディープラーニングの優れた一般化に寄与する要因であると仮定されている。 しかし、自然勾配降下は再パラメータ化にほぼ不変であり、常に同じ軌道をたどり、同じ最適を求める。 パラメータ化の役割をなくしたらどうなるのか、どの解決策が見つかるのか、新しい特性はどうなるのか? 深い線形ネットワークにおける自然勾配流の挙動を,ロジスティックな損失と深い行列因数分解の下で分離可能な分類のために特徴づける。 以上の結果から, 十分だが過度な過度な非線形ニューラルネットワークが得られた。 自然勾配降下が一般化に失敗し、適切なアーキテクチャを持つ勾配降下がうまく機能する学習問題が存在することを実証する。

In gradient descent, changing how we parametrize the model can lead to drastically different optimization trajectories, giving rise to a surprising range of meaningful inductive biases: identifying sparse classifiers or reconstructing low-rank matrices without explicit regularization. This implicit regularization has been hypothesised to be a contributing factor to good generalization in deep learning. However, natural gradient descent is approximately invariant to reparameterization, it always follows the same trajectory and finds the same optimum. The question naturally arises: What happens if we eliminate the role of parameterization, which solution will be found, what new properties occur? We characterize the behaviour of natural gradient flow in deep linear networks for separable classification under logistic loss and deep matrix factorization. Some of our findings extend to nonlinear neural networks with sufficient but finite over-parametrization . We demonstrate that there exist learning problems where natural gradient descent fails to generalize, while gradient descent with the right architecture performs well.
翻訳日:2021-11-24 14:14:14 公開日:2021-11-22
# オンラインkrrの強適応法と最適性に対する動的後悔

Dynamic Regret for Strongly Adaptive Methods and Optimality of Online KRR ( http://arxiv.org/abs/2111.11550v1 )

ライセンス: Link先を確認
Dheeraj Baby, Hilaf Hasson, Yuyang Wang(参考訳) 本研究では,学習者が任意のコンパレータ列に対して動的後悔を制御しようとする非定常オンライン凸最適化の枠組みを検討する。 損失関数が強い凸あるいはexp-凹である場合、コンパレータ列の経路変動$V_T$という観点から、強い適応性(SA)アルゴリズムを動的後悔を制御する原理的な方法と見なすことができる。 具体的には、SAアルゴリズムが$\tilde O(\sqrt{TV_T} \vee \log T)$および$\tilde O(\sqrt{dTV_T} \vee d\log T)$ 強い凸とexp-凹の損失に対する動的後悔を、それぞれ$V_T$の予備知識なしで楽しむことを示す。 原理的アプローチの汎用性は、有界線形予測子に対する学習とガウス核を用いたオンライン回帰の新たな結果によってさらに証明される。 関連する設定の下で、論文の第2のコンポーネントは、zhdanov と kalnishkan (2010) が提起した、二乗誤差損失を伴うオンラインカーネル回帰に関するオープン質問に対処している。 我々は、オンラインのKernel Ridge Regression(KRR)の最小限の最適性を確立する、ある罰則による新たな下限を導出する。 我々の下限は、有限次元のオンライン線形回帰に対してvovk (2001) から導かれる下限への rkhs 拡張と見なすことができる。

We consider the framework of non-stationary Online Convex Optimization where a learner seeks to control its dynamic regret against an arbitrary sequence of comparators. When the loss functions are strongly convex or exp-concave, we demonstrate that Strongly Adaptive (SA) algorithms can be viewed as a principled way of controlling dynamic regret in terms of path variation $V_T$ of the comparator sequence. Specifically, we show that SA algorithms enjoy $\tilde O(\sqrt{TV_T} \vee \log T)$ and $\tilde O(\sqrt{dTV_T} \vee d\log T)$ dynamic regret for strongly convex and exp-concave losses respectively without apriori knowledge of $V_T$. The versatility of the principled approach is further demonstrated by the novel results in the setting of learning against bounded linear predictors and online regression with Gaussian kernels. Under a related setting, the second component of the paper addresses an open question posed by Zhdanov and Kalnishkan (2010) that concerns online kernel regression with squared error losses. We derive a new lower bound on a certain penalized regret which establishes the near minimax optimality of online Kernel Ridge Regression (KRR). Our lower bound can be viewed as an RKHS extension to the lower bound derived in Vovk (2001) for online linear regression in finite dimensions.
翻訳日:2021-11-24 14:13:56 公開日:2021-11-22
# 視覚環境を考慮したゴール指向対話システムの構築

Building Goal-Oriented Dialogue Systems with Situated Visual Context ( http://arxiv.org/abs/2111.11576v1 )

ライセンス: Link先を確認
Sanchit Agarwal, Jan Jezabek, Arijit Biswas, Emre Barut, Shuyang Gao, Tagyoung Chung(参考訳) 最も一般的な目標指向対話エージェントは会話の文脈を理解することができる。 しかし、画面付きバーチャルアシスタントの普及に伴い、対話的な体験を適切に提供し、ユーザの目標をよりよく理解するために、次世代エージェントもスクリーンコンテキストを理解する必要がある。 本稿では,対話エージェントの次のアクションとその引数が,対話エージェントと視覚コンテキストの両方で協調して引き出される,新たなマルチモーダル対話フレームワークを提案する。 具体的には,会話中の視覚的コンテキストを推論し,ユーザクエリによってAPI引数を視覚的エンティティに集約する新しいモデルを提案する。 我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星格などのメタデータに基づく特徴を認識することができる。 また,マルチモーダル対話型データセットが不足しているために,合成データを生成するためのマルチモーダルダイアログシミュレータを提案し,モデルロバスト性を向上させるためにmturkから現実的なユーザデータを収集する。 提案モデルでは,高い推論遅延を伴わずに,妥当な85%のモデル精度を実現する。 また,マルチモーダル仮想アシスタントのためのプロトタイプ型家具ショッピング体験において,提案手法を実証する。

Most popular goal-oriented dialogue agents are capable of understanding the conversational context. However, with the surge of virtual assistants with screen, the next generation of agents are required to also understand screen context in order to provide a proper interactive experience, and better understand users' goals. In this paper, we propose a novel multimodal conversational framework, where the dialogue agent's next action and their arguments are derived jointly conditioned both on the conversational and the visual context. Specifically, we propose a new model, that can reason over the visual context within a conversation and populate API arguments with visual entities given the user query. Our model can recognize visual features such as color and shape as well as the metadata based features such as price or star rating associated with a visual entity. In order to train our model, due to a lack of suitable multimodal conversational datasets, we also propose a novel multimodal dialog simulator to generate synthetic data and also collect realistic user data from MTurk to improve model robustness. The proposed model achieves a reasonable 85% model accuracy, without high inference latency. We also demonstrate the proposed approach in a prototypical furniture shopping experience for a multimodal virtual assistant.
翻訳日:2021-11-24 14:11:43 公開日:2021-11-22
# 騒音からのフリーランチ:表現学習のための確率的かつ実践的な探索

A Free Lunch from the Noise: Provable and Practical Exploration for Representation Learning ( http://arxiv.org/abs/2111.11485v1 )

ライセンス: Link先を確認
Tongzheng Ren, Tianjun Zhang, Csaba Szepesv\'ari, Bo Dai(参考訳) 表現学習は、次元の呪いに対処する深層学習の実証的な成功の核心にある。 しかし、表現学習の力は強化学習(RL)においてまだ十分に活用されていない。 一 表現力と忍耐力とのトレードオフ 二) 探索と表現学習の結合について。 本稿では, 確率制御モデルにおける雑音仮定の下では, 対応するマルコフ遷移作用素の線形スペクトル特徴を閉形式で自由に得ることができることを最初に明らかにする。 本研究は, スペクトルダイナミクス埋め込み (SPEDE) を提案する。これはトレードオフを破り, 雑音の構造を利用して表現学習のための楽観的な探索を完遂する。 我々はSPEDEの厳密な理論的解析を行い、いくつかのベンチマークで既存の最先端実証アルゴリズムよりも実用的な性能を示す。

Representation learning lies at the heart of the empirical success of deep learning for dealing with the curse of dimensionality. However, the power of representation learning has not been fully exploited yet in reinforcement learning (RL), due to i), the trade-off between expressiveness and tractability; and ii), the coupling between exploration and representation learning. In this paper, we first reveal the fact that under some noise assumption in the stochastic control model, we can obtain the linear spectral feature of its corresponding Markov transition operator in closed-form for free. Based on this observation, we propose Spectral Dynamics Embedding (SPEDE), which breaks the trade-off and completes optimistic exploration for representation learning by exploiting the structure of the noise. We provide rigorous theoretical analysis of SPEDE, and demonstrate the practical superior performance over the existing state-of-the-art empirical algorithms on several benchmarks.
翻訳日:2021-11-24 14:04:36 公開日:2021-11-22
# (参考訳) 解釈可能性のための特徴群に対する相関ドメイン適応のプライバシー保護 [全文訳有]

Privacy-preserving Federated Adversarial Domain Adaption over Feature Groups for Interpretability ( http://arxiv.org/abs/2111.10934v1 )

ライセンス: CC BY 4.0
Yan Kang, Yang Liu, Yuezhou Wu, Guoqiang Ma, Qiang Yang(参考訳) 対象ドメインの当事者がサンプルと機能の両方において不十分である未熟だが実用的なクロスサイロフェデレーションドメイン適応問題に対処するために,新たなプライバシー保護型フェデラルドメイン適応アプローチ(\textbf{prada}$)を提案する。 我々は,機能不足の問題に対処するために,機能豊富な当事者による垂直的フェデレーション学習を通じて機能空間を拡張し,サンプルリッチソースパーティーからターゲットパーティーへの対向ドメイン適応を行うことにより,サンプルスカース問題に対処する。 本研究では,解釈可能性が重要となる金融アプリケーションに焦点を当てる。 しかし、既存の逆数領域適応法は、通常、対象タスクに対して低い解釈が可能な特徴表現を学習するために単一の特徴抽出器を適用する。 解釈性を改善するために、ドメインの専門知識を活用して、それぞれが関連する機能を持つ複数のグループに特徴空間を分割し、各機能グループから意味的に有意義な高次機能を学びます。 さらに,各特徴群に対して特徴抽出器(ドメイン識別器とともに)を適用し,きめ細かいドメイン適応を可能にする。 PrADAをセキュアかつ効率的に実行するためのセキュアなプロトコルを設計する。 我々は2つの表付きデータセットに対するアプローチを評価する。 実験は、我々のアプローチの有効性と実用性を実証する。

We present a novel privacy-preserving federated adversarial domain adaptation approach ($\textbf{PrADA}$) to address an under-studied but practical cross-silo federated domain adaptation problem, in which the party of the target domain is insufficient in both samples and features. We address the lack-of-feature issue by extending the feature space through vertical federated learning with a feature-rich party and tackle the sample-scarce issue by performing adversarial domain adaptation from the sample-rich source party to the target party. In this work, we focus on financial applications where interpretability is critical. However, existing adversarial domain adaptation methods typically apply a single feature extractor to learn feature representations that are low-interpretable with respect to the target task. To improve interpretability, we exploit domain expertise to split the feature space into multiple groups that each holds relevant features, and we learn a semantically meaningful high-order feature from each feature group. In addition, we apply a feature extractor (along with a domain discriminator) for each feature group to enable a fine-grained domain adaptation. We design a secure protocol that enables performing the PrADA in a secure and efficient manner. We evaluate our approach on two tabular datasets. Experiments demonstrate both the effectiveness and practicality of our approach.
翻訳日:2021-11-24 04:07:43 公開日:2021-11-22
# (参考訳) モデルベース単一画像深部デハジング [全文訳有]

Model-Based Single Image Deep Dehazing ( http://arxiv.org/abs/2111.10943v1 )

ライセンス: CC BY-SA 4.0
Zhengguo Li, Chaobing Zheng, Haiyan Shu, Shiqian Wu(参考訳) モデルベース単一画像デハジングアルゴリズムは、低psnr値を犠牲にして、シャープエッジとリッチディテールで画像を復元する。 データ駆動のものは、高いPSNR値を持つが、コントラストの低いイメージを復元する。 本稿では,モデルベースおよびデータ駆動アプローチを用いて,新しい単一画像デハジングアルゴリズムを提案する。 トランスミッションマップと大気光はモデルに基づく手法によって初期化され、ニューラル拡張を形成する深層学習アプローチによって洗練される。 送信マップと大気光を用いて、ヘイズフリー画像を復元する。 実験結果から,提案アルゴリズムは実世界および合成ヘイズ画像からヘイズをうまく除去できることが示された。

Model-based single image dehazing algorithms restore images with sharp edges and rich details at the expense of low PSNR values. Data-driven ones restore images with high PSNR values but with low contrast, and even some remaining haze. In this paper, a novel single image dehazing algorithm is introduced by fusing model-based and data-driven approaches. Both transmission map and atmospheric light are initialized by the model-based methods, and refined by deep learning approaches which form a neural augmentation. Haze-free images are restored by using the transmission map and atmospheric light. Experimental results indicate that the proposed algorithm can remove haze well from real-world and synthetic hazy images.
翻訳日:2021-11-24 03:28:16 公開日:2021-11-22
# (参考訳) ExT5:トランスファー学習のための超多タスクスケーリングを目指す [全文訳有]

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning ( http://arxiv.org/abs/2111.10952v1 )

ライセンス: CC BY 4.0
Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler(参考訳) 近年、自然言語処理(NLP)におけるマルチタスク学習と伝達学習の成功にもかかわらず、事前学習中のタスク数をスケールアップする効果を体系的に研究する研究は少ない。 そこで本稿では,様々なドメインやタスクファミリにまたがる107個のnlpタスクの膨大なコレクションであるexmix(extreme mixed)を紹介する。 exmixを用いて,これまでで最大のスケールでマルチタスク事前トレーニングが与えた影響について検討し,共通のタスクファミリー間でのコトレーニング転送の分析を行った。 この分析により、マルチタスク事前学習のための理想的なタスクセットを手動でキュレートすることは簡単ではなく、マルチタスクスケーリングは独自のモデルを大幅に改善できることを示す。 最後に,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。 広範な実験の結果,ExT5はSuperGLUE, GEM, Rainbow, Closed-Book QAタスク, ExMix以外のタスクにおいて,強力なT5ベースラインを上回っていることがわかった。 ExT5はまた、事前トレーニング中にサンプル効率を大幅に改善する。

Despite the recent success of multi-task learning and transfer learning for natural language processing (NLP), few works have systematically studied the effect of scaling up the number of tasks during pre-training. Towards this goal, this paper introduces ExMix (Extreme Mixture): a massive collection of 107 supervised NLP tasks across diverse domains and task-families. Using ExMix, we study the effect of multi-task pre-training at the largest scale to date, and analyze co-training transfer amongst common families of tasks. Through this analysis, we show that manually curating an ideal set of tasks for multi-task pre-training is not straightforward, and that multi-task scaling can vastly improve models on its own. Finally, we propose ExT5: a model pre-trained using a multi-task objective of self-supervised span denoising and supervised ExMix. Via extensive experiments, we show that ExT5 outperforms strong T5 baselines on SuperGLUE, GEM, Rainbow, Closed-Book QA tasks, and several tasks outside of ExMix. ExT5 also significantly improves sample efficiency while pre-training.
翻訳日:2021-11-24 03:14:43 公開日:2021-11-22
# (参考訳) 医用eegis : 医用画像のロバストな対向プロテクター [全文訳有]

Medical Aegis: Robust adversarial protectors for medical images ( http://arxiv.org/abs/2111.10969v1 )

ライセンス: CC BY 4.0
Qingsong Yao, Zecheng He and S. Kevin Zhou(参考訳) ディープニューラルネットワークに基づく医療画像システムは、敵の例に弱い。 多くの防御機構が文献で提案されているが、既存の防御機構は防御システムについてほとんど知らない受動的攻撃者であり、防御に従って攻撃戦略を変更することはない。 近年の研究では、攻撃者が防衛システムに関する完全な知識を持っていると仮定された強力な適応攻撃は、既存の防御を容易にバイパスできることが示されている。 本稿では,医療用イージスと呼ばれる新しい敵用防御システムを提案する。 私たちの知る限りでは、医療用エージスは、医療画像に対する強力な適応的敵意攻撃にうまく対処した文献の中で、最初の防御力である。 クッションの第1層は、その高周波成分を除去することで攻撃の敵の操作能力を弱め、元の画像の分類性能に最小限の影響を及ぼし、シールドの第2層は保護されたモデルのロジットを予測するためにクラス毎のDNNモデルを学習する。 シールドの予測からの逸脱は敵の例を示している。 Shieldは、DNNモデルの浅い層にロバストなトレイルが存在するという、我々のストレステストの観察から着想を得たものです。 実験の結果,モデル推論のオーバーヘッドを無視して適応攻撃を正確に検出できることがわかった。

Deep neural network based medical image systems are vulnerable to adversarial examples. Many defense mechanisms have been proposed in the literature, however, the existing defenses assume a passive attacker who knows little about the defense system and does not change the attack strategy according to the defense. Recent works have shown that a strong adaptive attack, where an attacker is assumed to have full knowledge about the defense system, can easily bypass the existing defenses. In this paper, we propose a novel adversarial example defense system called Medical Aegis. To the best of our knowledge, Medical Aegis is the first defense in the literature that successfully addresses the strong adaptive adversarial example attacks to medical images. Medical Aegis boasts two-tier protectors: The first tier of Cushion weakens the adversarial manipulation capability of an attack by removing its high-frequency components, yet posing a minimal effect on classification performance of the original image; the second tier of Shield learns a set of per-class DNN models to predict the logits of the protected model. Deviation from the Shield's prediction indicates adversarial examples. Shield is inspired by the observations in our stress tests that there exist robust trails in the shallow layers of a DNN model, which the adaptive attacks can hardly destruct. Experimental results show that the proposed defense accurately detects adaptive attacks, with negligible overhead for model inference.
翻訳日:2021-11-24 02:33:58 公開日:2021-11-22
# (参考訳) 変形ロバストロトスケール変換同変CNN [全文訳有]

Deformation Robust Roto-Scale-Translati on Equivariant CNNs ( http://arxiv.org/abs/2111.10978v1 )

ライセンス: CC BY 4.0
Liyao Gao, Guang Lin, Wei Zhu(参考訳) 群対称性を学習プロセスに直接組み込むことがモデル設計の効果的な指針であることが証明された。 群等価畳み込みニューラルネットワーク(G-CNN)は,入力に対する群作用に共変的に変換することが保証される特徴を生成することにより,固有対称性を持つ学習タスクにおける一般化性能を著しく向上させる。 g-cnnsの一般理論と実用的実装は、回転変換またはスケーリング変換のいずれにおいても、個別にのみ研究されている。 本稿では,これら3つの群を結合した群畳み込みにより同値化することが保証されるロトスケール変換同変CNN(RST-CNN)について述べる。 さらに、実際の対称性変換は完全ではなく、典型的には入力変形の対象となるため、入力歪みに対する表現の同値性の安定性解析を行い、(予め固定された)低空間モード下での畳み込みフィルタの縮小を動機付ける。 結果として得られたモデルは変形-ロバスト rst 等分散(すなわち、rst対称性は、ニュアサンスデータ変形によって変換が「汚染された」ときでも「ほぼ」保存される。 MNIST, Fashion-MNIST, STL-10の数値実験により, 提案モデルが先行技術, 特にデータ内に回転とスケーリングのばらつきが存在する小さなデータ構造において, 顕著な利得が得られることを示した。

Incorporating group symmetry directly into the learning process has proved to be an effective guideline for model design. By producing features that are guaranteed to transform covariantly to the group actions on the inputs, group-equivariant convolutional neural networks (G-CNNs) achieve significantly improved generalization performance in learning tasks with intrinsic symmetry. General theory and practical implementation of G-CNNs have been studied for planar images under either rotation or scaling transformation, but only individually. We present, in this paper, a roto-scale-translati on equivariant CNN (RST-CNN), that is guaranteed to achieve equivariance jointly over these three groups via coupled group convolutions. Moreover, as symmetry transformations in reality are rarely perfect and typically subject to input deformation, we provide a stability analysis of the equivariance of representation to input distortion, which motivates the truncated expansion of the convolutional filters under (pre-fixed) low-frequency spatial modes. The resulting model provably achieves deformation-robust RST equivariance, i.e., the RST symmetry is still "approximately" preserved when the transformation is "contaminated" by a nuisance data deformation, a property that is especially important for out-of-distribution generalization. Numerical experiments on MNIST, Fashion-MNIST, and STL-10 demonstrate that the proposed model yields remarkable gains over prior arts, especially in the small data regime where both rotation and scaling variations are present within the data.
翻訳日:2021-11-24 02:16:55 公開日:2021-11-22
# (参考訳) CDistNet:ロバストテキスト認識のためのマルチドメイン文字距離の認識 [全文訳有]

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition ( http://arxiv.org/abs/2111.11011v1 )

ライセンス: CC BY 4.0
Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang(参考訳) 注意に基づくエンコーダ・デコーダフレームワークは、視覚領域と意味領域の両方からの認識手がかりの統合が優れているため、シーンのテキスト認識で人気が高まっている。 しかし、近年の研究では、この2つの手がかりが難解なテキスト(例:まれなテキストの形)に誤って一致していることを示し、問題を緩和するために文字位置などの制約を導入している。 一定の成功にもかかわらず、コンテンツのない位置埋め込みは、有意義な局所的な画像領域と安定的に結びつくことがほとんどない。 本稿では,MDCDP(Multi-Domain Character Distance Perception)と呼ばれる新しいモジュールを提案する。 MDCDPは位置埋め込みを用いて、注意機構に続く視覚的特徴と意味的特徴の両方を問う。 文字間の視覚的距離と意味的距離の両方を記述する位置手がかりを自然にエンコードする。 我々はMDCDPを数回積み重ねて正確な距離モデリングを行うCDistNetという新しいアーキテクチャを開発した。 このように、視覚的なアライメントは、提示される様々な困難さえも十分に構築されている。 2つの拡張データセットと6つの公開ベンチマークにCDistNetを適用します。 実験により,CDistNetが最先端の認識精度を実現することを示した。 ビジュアライゼーションはCDistNetが視覚領域と意味領域の両方で適切な注意を向けることを示す。 私たちは受け入れ次第コードを公開します。

The attention-based encoder-decoder framework is becoming popular in scene text recognition, largely due to its superiority in integrating recognition clues from both visual and semantic domains. However, recent studies show the two clues might be misaligned in the difficult text (e.g., with rare text shapes) and introduce constraints such as character position to alleviate the problem. Despite certain success, a content-free positional embedding hardly associates with meaningful local image regions stably. In this paper, we propose a novel module called Multi-Domain Character Distance Perception (MDCDP) to establish a visual and semantic related position encoding. MDCDP uses positional embedding to query both visual and semantic features following the attention mechanism. It naturally encodes the positional clue, which describes both visual and semantic distances among characters. We develop a novel architecture named CDistNet that stacks MDCDP several times to guide precise distance modeling. Thus, the visual-semantic alignment is well built even various difficulties presented. We apply CDistNet to two augmented datasets and six public benchmarks. The experiments demonstrate that CDistNet achieves state-of-the-art recognition accuracy. While the visualization also shows that CDistNet achieves proper attention localization in both visual and semantic domains. We will release our code upon acceptance.
翻訳日:2021-11-24 01:24:32 公開日:2021-11-22
# (参考訳) 大規模電子健康記録を有する救急部門における予測リスクモデルの検討 [全文訳有]

Benchmarking Predictive Risk Models for Emergency Departments with Large Public Electronic Health Records ( http://arxiv.org/abs/2111.11017v1 )

ライセンス: CC BY 4.0
Feng Xie, Jun Zhou, Jin Wee Lee, Mingrui Tan, Siqi Li, Logasan S/O Rajnthern, Marcel Lucas Chee, Bibhas Chakraborty, An-Kwok Ian Wong, Alon Dagan, Marcus Eng Hock Ong, Fei Gao, Nan Liu(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を受け、世界各国で救急部門(ED)サービスの需要が続いている。 リスクトリアージは、最も必要な患者のために限られた医療資源を優先する上で重要な役割を担っている。 近年,Electronic Health Records (EHR) の広汎な利用が大量の蓄積データを生み出し,救急医療を改善するための予測モデルを開発する大きな機会となっている。 しかし、大規模な公開EHRに基づく広く受け入れられているEDベンチマークがないため、新しい研究者が容易にアクセスできる。 このギャップを埋めることの成功により、研究者はデータ前処理を冗長にすることなくEDの研究をより迅速かつ便利に始め、異なる研究や方法論の比較を容易にすることができる。 本稿では,集中治療IV救急部門医療情報マート(MIMIC-IV-ED)データベースに基づいて,2011年から2019年までの50万回以上のED訪問を対象とするベンチマークデータセットを作成した。 3つのEDベースの予測タスク(ホスピタライゼーション、臨界結果、72時間ED再検討)を導入し、機械学習から臨床評価システムまで、様々な一般的な手法が導入された。 成績は評価され、比較された。 私たちのコードはオープンソースなので、MIMIC-IV-EDにアクセス可能な人は、データ処理の同じステップを辿り、ベンチマークを構築し、実験を再現できます。 この研究は、洞察、提案、および将来の研究者が生データを処理し、救急医療のためのモデルを構築するためのプロトコルを提供した。

There is a continuously growing demand for emergency department (ED) services across the world, especially under the COVID-19 pandemic. Risk triaging plays a crucial role in prioritizing limited medical resources for patients who need them most. Recently the pervasive use of Electronic Health Records (EHR) has generated a large volume of stored data, accompanied by vast opportunities for the development of predictive models which could improve emergency care. However, there is an absence of widely accepted ED benchmarks based on large-scale public EHR, which new researchers could easily access. Success in filling in this gap could enable researchers to start studies on ED more quickly and conveniently without verbose data preprocessing and facilitate comparisons among different studies and methodologies. In this paper, based on the Medical Information Mart for Intensive Care IV Emergency Department (MIMIC-IV-ED) database, we proposed a public ED benchmark suite and obtained a benchmark dataset containing over 500,000 ED visits episodes from 2011 to 2019. Three ED-based prediction tasks (hospitalization, critical outcomes, and 72-hour ED revisit) were introduced, where various popular methodologies, from machine learning methods to clinical scoring systems, were implemented. The results of their performance were evaluated and compared. Our codes are open-source so that anyone with access to MIMIC-IV-ED could follow the same steps of data processing, build the benchmarks, and reproduce the experiments. This study provided insights, suggestions, as well as protocols for future researchers to process the raw data and quickly build up models for emergency care.
翻訳日:2021-11-24 01:10:40 公開日:2021-11-22
# (参考訳) 3次元空間特徴を用いたマルチチャネルマルチスピーカASR [全文訳有]

Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature ( http://arxiv.org/abs/2111.11023v1 )

ライセンス: CC BY 4.0
Yiwen Shao, Shi-Xiong Zhang, Dong Yu(参考訳) マルチチャンネルマルチスピーカ重畳音声の自動音声認識(ASR)は,音声コミュニティにとって最も困難な課題の1つである。 本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,この課題を考察する。 提案する3次元空間特徴の強みを探るために,2つのパラダイムについて検討した。 1) マルチチャネル音声分離モジュールと最先端のシングルチャネルasrモジュールを備えたパイプラインシステム 2) 3次元空間特徴を明示的な分離加群を使わずにasrシステムへの入力として直接使用する「オール・イン・ワン」モデル。 どちらも完全に差別化可能であり、バックエンドのエンドツーエンドにすることができる。 重なり合う音声と実際の録音を模擬した実験を行った。 実験の結果 1) 提案するオールインワンモデルは, 推定時間を半減しながら, パイプラインシステムと同等の誤差率を達成した。 2) 提案した3次元空間的特徴は, 両パラダイムにおける1次元方向情報を用いた以前のすべての作業において, 顕著に優れていた(31 % CERR)。

Automatic speech recognition (ASR) of multi-channel multi-speaker overlapped speech remains one of the most challenging tasks to the speech community. In this paper, we look into this challenge by utilizing the location information of target speakers in the 3D space for the first time. To explore the strength of proposed the 3D spatial feature, two paradigms are investigated. 1) a pipelined system with a multi-channel speech separation module followed by the state-of-the-art single-channel ASR module; 2) a "All-In-One" model where the 3D spatial feature is directly used as an input to ASR system without explicit separation modules. Both of them are fully differentiable and can be back-propagated end-to-end. We test them on simulated overlapped speech and real recordings. Experimental results show that 1) the proposed ALL-In-One model achieved a comparable error rate to the pipelined system while reducing the inference time by half; 2) the proposed 3D spatial feature significantly outperformed (31\% CERR) all previous works of using the 1D directional information in both paradigms.
翻訳日:2021-11-24 00:57:54 公開日:2021-11-22
# (参考訳) 推薦のための明示的なユーザ関心境界の学習 [全文訳有]

Learning Explicit User Interest Boundary for Recommendation ( http://arxiv.org/abs/2111.11026v1 )

ライセンス: CC BY 4.0
Jianhuan Zhuo, Qiannan Zhu, Yinliang Yue and Yuhong Zhao(参考訳) 暗黙的なフィードバックからレコメンダシステムをモデル化する主な目的は、正のサンプルスコア$s_p$を最大化し、負のサンプルスコア$s_n$を最小化することである。 ポイントワイズアプローチは各サンプルに個別にラベルを付けることで、インスタンスレベルでの重み付けやサンプリングは柔軟だが、固有のランキングプロパティを無視する。 相対スコア$s_n - s_p$を定性的に最小化することで、ペアワイズアプローチはサンプルのランキングを自然に取得するが、トレーニング効率に苦しむ。 さらに、どちらのアプローチも、ユーザが目に見えないアイテムに興味があるかどうかを判断するために、パーソナライズされた決定境界を明示的に提供するのは難しい。 これらの問題に対処するために、各ユーザがユーザ関心境界(uib)を表す補助スコア$b_u$を革新的に導入し、ペアワイズパラダイムで境界を横断するサンプル、すなわちスコアが$b_u$未満の正のサンプルと、スコアが$b_u$以上の負のサンプルを個別にペナルティ化する。 このようにして、本手法は、両者の利点を組み合わせるために、ポイントワイドとペアワイドのハイブリッド損失をうまく達成する。 分析により,特別なサンプリング戦略を必要とせず,パーソナライズされた意思決定境界を提供し,トレーニング効率を大幅に向上できることを示した。 その結果,従来のポイントワイドモデルやペアワイドモデルだけでなく,複雑な損失関数と複雑な特徴符号化を備えた最先端モデルにも大きな改善が得られた。

The core objective of modelling recommender systems from implicit feedback is to maximize the positive sample score $s_p$ and minimize the negative sample score $s_n$, which can usually be summarized into two paradigms: the pointwise and the pairwise. The pointwise approaches fit each sample with its label individually, which is flexible in weighting and sampling on instance-level but ignores the inherent ranking property. By qualitatively minimizing the relative score $s_n - s_p$, the pairwise approaches capture the ranking of samples naturally but suffer from training efficiency. Additionally, both approaches are hard to explicitly provide a personalized decision boundary to determine if users are interested in items unseen. To address those issues, we innovatively introduce an auxiliary score $b_u$ for each user to represent the User Interest Boundary(UIB) and individually penalize samples that cross the boundary with pairwise paradigms, i.e., the positive samples whose score is lower than $b_u$ and the negative samples whose score is higher than $b_u$. In this way, our approach successfully achieves a hybrid loss of the pointwise and the pairwise to combine the advantages of both. Analytically, we show that our approach can provide a personalized decision boundary and significantly improve the training efficiency without any special sampling strategy. Extensive results show that our approach achieves significant improvements on not only the classical pointwise or pairwise models but also state-of-the-art models with complex loss function and complicated feature encoding.
翻訳日:2021-11-24 00:45:44 公開日:2021-11-22
# (参考訳) 行動品質評価のための自動エンコードスコア分布回帰 [全文訳有]

Auto-Encoding Score Distribution Regression for Action Quality Assessment ( http://arxiv.org/abs/2111.11029v1 )

ライセンス: CC BY 4.0
Boyu Zhang, Jiayuan Chen, Yinfei Xu, Hui Zhang, Xu Yang and Xin Geng(参考訳) ビデオからのアクション品質評価(AQA)は、ビデオとアクションスコアの関係をモデル化することが困難であるため、難しい視力課題である。 このように、行動品質評価は文献で広く研究されている。 伝統的に、AQAタスクは、ビデオとアクションスコアの間の基盤となるマッピングを学ぶための回帰問題として扱われる。 近年,ラベル分布学習(LDL)の導入により,不確実性スコア分布学習(USDL)が成功している。 しかし、USDLは連続ラベル付きデータセットには適用せず、トレーニングに一定の分散が必要である。 本稿では,上記の問題に対処するため,分散オートエンコーダ(dae)をさらに開発する。 DAEは回帰アルゴリズムとラベル分布学習(LDL)の両方の利点がある。 具体的には、動画を配信にエンコードし、変分自動エンコーダ(VAE)で再パラメータ化トリックを使用してスコアをサンプリングし、ビデオとスコアのより正確なマッピングを確立する。 一方、DAEの訓練を加速するために複合的な損失を構築する。 DAE-MTはマルチタスクデータセットのAQAを扱うためにさらに提案されている。 MTL-AQAおよびJIGSAWSデータセットに対するDAEアプローチの評価を行った。 公開データセットを用いた実験結果から,本手法がSpearman's Rank correlation(MTL-AQA) の0.9449,JIGSAWS(JIGSA WS)の0.73の最先端技術を実現することが示された。

Action quality assessment (AQA) from videos is a challenging vision task since the relation between videos and action scores is difficult to model. Thus, action quality assessment has been widely studied in the literature. Traditionally, AQA task is treated as a regression problem to learn the underlying mappings between videos and action scores. More recently, the method of uncertainty score distribution learning (USDL) made success due to the introduction of label distribution learning (LDL). But USDL does not apply to dataset with continuous labels and needs a fixed variance in training. In this paper, to address the above problems, we further develop Distribution Auto-Encoder (DAE). DAE takes both advantages of regression algorithms and label distribution learning (LDL).Specifically, it encodes videos into distributions and uses the reparameterization trick in variational auto-encoders (VAE) to sample scores, which establishes a more accurate mapping between videos and scores. Meanwhile, a combined loss is constructed to accelerate the training of DAE. DAE-MT is further proposed to deal with AQA on multi-task datasets. We evaluate our DAE approach on MTL-AQA and JIGSAWS datasets. Experimental results on public datasets demonstrate that our method achieves state-of-the-arts under the Spearman's Rank Correlation: 0.9449 on MTL-AQA and 0.73 on JIGSAWS.
翻訳日:2021-11-23 23:50:57 公開日:2021-11-22
# (参考訳) Few-Shotテキスト生成適応のための強化学習 [全文訳有]

Reinforcement Learning for Few-Shot Text Generation Adaptation ( http://arxiv.org/abs/2111.11030v1 )

ライセンス: CC BY 4.0
Cheng Pengsen, Dai Jinqiao, Liu Jiayong(参考訳) 新しいドメインを限られたサンプルで適応させるために生成モデルを制御することは難しい課題であり、注目を集めています。 近年,ドメイン適応に有望なプロセスが示されている。 しかし、数少ない学習によって生成されたテキストは、通常、言語的な多様性が欠如している。 この欠点に対処するために,テキスト生成システムの適応化を強化学習問題として定式化し,テキスト生成モデルを最小のドメイン内データ量で対象領域に容易に適応させる新しい手法を提案する。 2つの複数ショット構成の5つの対象ドメインに対する実験結果から,本手法はドメイン内サンプルが少ない場合に,ドメイン適応性を大幅に向上することが示された。

Controlling the generative model to adapt a new domain with limited samples is a difficult challenge and it is receiving increasing attention. Recently, few-shot learning has shown promising process in domain adaptation. However, the texts generated by few-shot learning are typically devoid of linguistic diversity. To address this shortcoming, we frame the adaptation of text generation systems as a reinforcement learning problem and provide a new approach to make text generation models easily adaptable to target domain with the minimal amount of in-domain data. Experimental results on five target domains in two few-shot configurations demonstrate that our method significantly outperforms domain adaptation when very few in-domain samples are available.
翻訳日:2021-11-23 23:34:55 公開日:2021-11-22
# (参考訳) IAD:クラウド環境における間接的異常VMM検出 [全文訳有]

IAD: Indirect Anomalous VMMs Detection in the Cloud-based Environment ( http://arxiv.org/abs/2111.11052v1 )

ライセンス: CC BY 4.0
Anshul Jindal, Ilya Shakhat, Jorge Cardoso, Michael Gerndt, Vladimir Podolskiy(参考訳) ハイパーバイザや仮想マシンモニタ(vmm)を使用した仮想マシン(vms)形式のサーバ仮想化は、iaas(infrastructure- as-a-service)を提供するクラウドコンピューティング技術の重要な部分である。 VMMの障害や異常は、ホストされているVMに伝播し、最終的にそれらのVM上で動作するアプリケーションの可用性と信頼性に影響を与える。 したがって、素早く識別し、最終的に解決することは非常に重要である。 しかし、ユーザがVMMにアクセスできないため、クラウド環境では異常なVMM検出が難しい。 IAD: Indirect Anomalous VMMs Detectionと呼ばれる新しい機械学習ベースのアルゴリズムを導入することにより、VMMからの知識やデータを持たないクラウド環境における異常VMM検出の課題に対処する。 このアルゴリズムは、異常なVMMの検出のために、それらのVMMにホストされたVMのリソース利用データのみを使用する。 開発したアルゴリズムの精度は、合成および実データからなる4つのデータセットで検証され、他の4つの一般的なアルゴリズムと比較された。 提案したIADアルゴリズムは4つのデータセットで平均83.7%のF1スコアを持ち、F1スコアの平均11.%で他のアルゴリズムを上回っている。

Server virtualization in the form of virtual machines (VMs) with the use of a hypervisor or a Virtual Machine Monitor (VMM) is an essential part of cloud computing technology to provide infrastructure-as-a- service (IaaS). A fault or an anomaly in the VMM can propagate to the VMs hosted on it and ultimately affect the availability and reliability of the applications running on those VMs. Therefore, identifying and eventually resolving it quickly is highly important. However, anomalous VMM detection is a challenge in the cloud environment since the user does not have access to the VMM. This paper addresses this challenge of anomalous VMM detection in the cloud-based environment without having any knowledge or data from VMM by introducing a novel machine learning-based algorithm called IAD: Indirect Anomalous VMMs Detection. This algorithm solely uses the VM's resources utilization data hosted on those VMMs for the anomalous VMMs detection. The developed algorithm's accuracy was tested on four datasets comprising the synthetic and real and compared against four other popular algorithms, which can also be used to the described problem. It was found that the proposed IAD algorithm has an average F1-score of 83.7% averaged across four datasets, and also outperforms other algorithms by an average F1-score of 11\%.
翻訳日:2021-11-23 23:21:08 公開日:2021-11-22
# (参考訳) 音楽ジャンル認識(MGR)におけるディープニューラルネットワーク(DNN)と畳み込みニューラルネットワーク(CNN)の精度の比較 : クルド音楽実験 [全文訳有]

Comparing the Accuracy of Deep Neural Networks (DNN) and Convolutional Neural Network (CNN) in Music Genre Recognition (MGR): Experiments on Kurdish Music ( http://arxiv.org/abs/2111.11063v1 )

ライセンス: CC BY 4.0
Aza Zuhair and Hossein Hassani(参考訳) 音楽学者は様々なレーベルを使って類似の音楽スタイルを共通のタイトルで分類している。 しかし、非専門家は音楽を分類することがある。 それは、ハーモニー、楽器、そして音楽の形態のパターンを見つけることで実現される。 人々は音楽を聴くだけでジャンルを識別するが、コンピュータと人工知能(ai)はこのプロセスを自動化できる。 音楽の種類分類にAIを適用する研究は近年増えているが、クルド音楽のジャンルに関する研究の証拠はない。 本研究では8種類のクルド音楽ジャンルから880のサンプルを含むデータセットを開発した。 我々は、Deep Neural Network(DNN)とConvolutional Neural Network(CNN)の2つの機械学習アプローチを評価し、そのジャンルを認識した。 その結果、CNNモデルは92%と90%の精度でDNNを上回った。

Musicologists use various labels to classify similar music styles under a shared title. But, non-specialists may categorize music differently. That could be through finding patterns in harmony, instruments, and form of the music. People usually identify a music genre solely by listening, but now computers and Artificial Intelligence (AI) can automate this process. The work on applying AI in the classification of types of music has been growing recently, but there is no evidence of such research on the Kurdish music genres. In this research, we developed a dataset that contains 880 samples from eight different Kurdish music genres. We evaluated two machine learning approaches, a Deep Neural Network (DNN) and a Convolutional Neural Network (CNN), to recognize the genres. The results showed that the CNN model outperformed the DNN by achieving 92% versus 90% accuracy.
翻訳日:2021-11-23 23:12:54 公開日:2021-11-22
# (参考訳) fedcv:多様なコンピュータビジョンタスクのための連合学習フレームワーク [全文訳有]

FedCV: A Federated Learning Framework for Diverse Computer Vision Tasks ( http://arxiv.org/abs/2111.11066v1 )

ライセンス: CC BY 4.0
Chaoyang He, Alay Dilipbhai Shah, Zhenheng Tang, Di Fan1Adarshan Naiynar Sivashunmugam, Keerti Bhogaraju, Mita Shimpi, Li Shen, Xiaowen Chu, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) Federated Learning(FL)は、エッジデバイス上の分散データセットからグローバルあるいはパーソナライズされたモデルを学ぶことのできる、分散学習パラダイムである。 しかし、コンピュータビジョン領域では、FLフレームワークを統一した多様なタスクにおける探索の欠如により、FLのモデル性能は集中的なトレーニングよりもはるかに遅れている。 FLはオブジェクト検出やイメージセグメンテーションといった高度なコンピュータビジョンタスクにおいて効果的に実証されることはめったにない。 本研究では,このギャップを解消し,コンピュータビジョンタスクのためのflの開発を容易にするために,federated learning library と fedcv というベンチマークフレームワークを提案し,画像分類,画像分割,オブジェクト検出という,最も代表的な3つのコンピュータビジョンタスクについてflを評価する。 非I.D.ベンチマークデータセット、モデル、および様々な参照FLアルゴリズムを提供する。 集中トレーニングのトリックはFLに直接適用されない可能性があり、非I.D.データセットは実際には、さまざまなタスクにおいて、モデルの精度をある程度ダウングレードする。 このようなライブラリとベンチマークは、比較評価設定とともに、コンピュータビジョンタスクでflを有意義に進めるために必要であると考えています。 FedCVは、https://github.com/F edML-AI/FedCV.comで公開されている。

Federated Learning (FL) is a distributed learning paradigm that can learn a global or personalized model from decentralized datasets on edge devices. However, in the computer vision domain, model performance in FL is far behind centralized training due to the lack of exploration in diverse tasks with a unified FL framework. FL has rarely been demonstrated effectively in advanced computer vision tasks such as object detection and image segmentation. To bridge the gap and facilitate the development of FL for computer vision tasks, in this work, we propose a federated learning library and benchmarking framework, named FedCV, to evaluate FL on the three most representative computer vision tasks: image classification, image segmentation, and object detection. We provide non-I.I.D. benchmarking datasets, models, and various reference FL algorithms. Our benchmark study suggests that there are multiple challenges that deserve future exploration: centralized training tricks may not be directly applied to FL; the non-I.I.D. dataset actually downgrades the model accuracy to some degree in different tasks; improving the system efficiency of federated training is challenging given the huge number of parameters and the per-client memory cost. We believe that such a library and benchmark, along with comparable evaluation settings, is necessary to make meaningful progress in FL on computer vision tasks. FedCV is publicly available: https://github.com/F edML-AI/FedCV.
翻訳日:2021-11-23 23:06:41 公開日:2021-11-22
# (参考訳) 2048年における最適時間差学習 [全文訳有]

Optimistic Temporal Difference Learning for 2048 ( http://arxiv.org/abs/2111.11090v1 )

ライセンス: CC BY 4.0
Hung Guei, Lung-Pin Chen, and I-Chen Wu(参考訳) 多段階TD(MS-TD)学習や時間コヒーレンス(TC)学習など,時間差(TD)学習とその変種を2048年に応用した。 これらの手法は、探査のための2048年の環境の確率性に依存している。 本稿では,2048年の探索を促すために,楽観的初期化(oi)を採用し,その学習品質が著しく向上していることを示す。 このアプローチは、特性重みを非常に大きな値に楽観的に初期化する。 州が訪問すると重量が減る傾向があるので、エージェントは訪問されていない状態や数回訪れた状態を探す傾向がある。 実験の結果,OIを用いたTDとTCの学習により,性能が大幅に向上した。 その結果、同じ性能を実現するために必要なネットワークサイズが大幅に削減される。 expectimax search, multistage learning, tile-downgrading techniqueなどの追加のチューニングにより, 平均スコア625 377, 72%が32768 タイルに達するという最先端のパフォーマンスを実現する。 さらに、十分に大きな試験では、65536個のタイルが0.02%の割合で到達する。

Temporal difference (TD) learning and its variants, such as multistage TD (MS-TD) learning and temporal coherence (TC) learning, have been successfully applied to 2048. These methods rely on the stochasticity of the environment of 2048 for exploration. In this paper, we propose to employ optimistic initialization (OI) to encourage exploration for 2048, and empirically show that the learning quality is significantly improved. This approach optimistically initializes the feature weights to very large values. Since weights tend to be reduced once the states are visited, agents tend to explore those states which are unvisited or visited few times. Our experiments show that both TD and TC learning with OI significantly improve the performance. As a result, the network size required to achieve the same performance is significantly reduced. With additional tunings such as expectimax search, multistage learning, and tile-downgrading technique, our design achieves the state-of-the-art performance, namely an average score of 625 377 and a rate of 72% reaching 32768 tiles. In addition, for sufficiently large tests, 65536 tiles are reached at a rate of 0.02%.
翻訳日:2021-11-23 22:36:58 公開日:2021-11-22
# (参考訳) 分岐時間アクティブ推論-理論とその一般化

Branching Time Active Inference: the theory and its generality ( http://arxiv.org/abs/2111.11107v1 )

ライセンス: CC BY 4.0
Th\'eophile Champion, Lancelot Da Costa, Howard Bowman, Marek Grze\'s(参考訳) 過去10年から15年の間に、活動的推論は習慣形成からドーパミン作動性放電、さらには好奇心のモデル化まで、様々な脳機構を説明するのに役立っている。 しかしながら、現在の実装は、時間水平まで可能なすべてのポリシーを計算する際に、指数関数的な(空間と時間)複雑性クラスに悩まされている。 fountas et al (2020) はこの問題を解決するためにモンテカルロ木探索を使い、2つの異なるタスクで印象的な結果をもたらした。 本稿では,木探索と能動的推論を,構造学習問題としてキャスティング計画を用いて統一する代替フレームワークを提案する。 次に2つの木探索アルゴリズムを示す。 第一は、予想される自由エネルギーを前へ(すなわち葉に向かって)伝播し、第二は後方へ(すなわち根に向かって)伝搬する。 そこで本研究では,前方伝播と後方伝播がそれぞれ能動推論と高度推論に関連していることを示し,これら2つの計画戦略の違いを明らかにする。

Over the last 10 to 15 years, active inference has helped to explain various brain mechanisms from habit formation to dopaminergic discharge and even modelling curiosity. However, the current implementations suffer from an exponential (space and time) complexity class when computing the prior over all the possible policies up to the time-horizon. Fountas et al (2020) used Monte Carlo tree search to address this problem, leading to impressive results in two different tasks. In this paper, we present an alternative framework that aims to unify tree search and active inference by casting planning as a structure learning problem. Two tree search algorithms are then presented. The first propagates the expected free energy forward in time (i.e., towards the leaves), while the second propagates it backward (i.e., towards the root). Then, we demonstrate that forward and backward propagations are related to active inference and sophisticated inference, respectively, thereby clarifying the differences between those two planning strategies.
翻訳日:2021-11-23 22:17:58 公開日:2021-11-22
# (参考訳) Mesa: トランスフォーマーのためのメモリ節約トレーニングフレームワーク [全文訳有]

Mesa: A Memory-saving Training Framework for Transformers ( http://arxiv.org/abs/2111.11124v1 )

ライセンス: CC BY 4.0
Zizheng Pan, Peng Chen, Haoyu He, Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) 高性能トランスフォーマーの設計に対する関心は爆発的に高まっている。 Transformerは大幅なパフォーマンス向上を実現しているが、特に長いシーケンスにおいて、バックプロパゲーション中の勾配計算に必要なすべての中間アクティベーションを格納するため、そのようなネットワークのトレーニングは非常にメモリ集約的である。 そこで本研究では,トランスフォーマーのためのメモリ省資源効率トレーニングフレームワークmesaを提案する。 特にMesaは、フォワードパス中に正確なアクティベーションを使用し、低精度バージョンのアクティベーションを格納することで、トレーニング中のメモリ消費を削減している。 低精度のアクティベーションは、計算勾配のバックプロパゲーション中に非等化される。 また,多頭部自己付着層における不均質な活性化分布に対処するために,頭部の統計に基づいて活性化を定量化し近似誤差を最小化する頭回り活性化量子化戦略を提案する。 トレーニング効率をさらに高めるため,推定値を用いて量子化パラメータを学習する。 さらに重要なことに、より大きなバッチサイズやモデルサイズをスケールアップするために保存メモリを再投資することで、制約のある計算リソース下での性能をさらに向上させることができる。 imagenet、cifar-100、ade20kでの広範な実験により、mesaはトレーニング中のメモリフットプリントの半分を削減でき、同等あるいはそれ以上のパフォーマンスを達成できる。 コードはhttps://github.com/z huang-group/Mesaで入手できる。

There has been an explosion of interest in designing high-performance Transformers. While Transformers have delivered significant performance improvements, training such networks is extremely memory intensive owing to storing all intermediate activations that are needed for gradient computation during backpropagation, especially for long sequences. To this end, we present Mesa, a memory-saving resource-efficient training framework for Transformers. Specifically, Mesa uses exact activations during forward pass while storing a low-precision version of activations to reduce memory consumption during training. The low-precision activations are then dequantized during back-propagation to compute gradients. Besides, to address the heterogeneous activation distributions in the multi-head self-attention layers, we propose a head-wise activation quantization strategy, which quantizes activations based on the statistics of each head to minimize the approximation error. To further boost training efficiency, we learn quantization parameters by running estimates. More importantly, by re-investing the saved memory in employing a larger batch size or scaling up model size, we may further improve the performance under constrained computational resources. Extensive experiments on ImageNet, CIFAR-100 and ADE20K demonstrate that Mesa can reduce half of the memory footprints during training while achieving comparable or even better performance. Code is available at https://github.com/z huang-group/Mesa
翻訳日:2021-11-23 22:16:54 公開日:2021-11-22
# (参考訳) ヒンディー語圏における言語横断性ジェンダーバイアスの調査 [全文訳有]

Investigating Cross-Linguistic Gender Bias in Hindi-English Across Domains ( http://arxiv.org/abs/2111.11159v1 )

ライセンス: CC BY 4.0
Somya Khosla(参考訳) Gender Biasの測定、評価、削減は、数ヶ月毎に新しく改良された言語埋め込みがリリースされ、最前線に立った。 しかし、このバイアスはドメインによって異なるだろうか? 様々な埋め込みモデルにおいて、これらのバイアスを研究するための多くの作業が見られます。 我々はこのバイアスをヒンディー語で測定し研究することを目指しており、これは低階言語である英語に言及した高階言語である。 これを達成するために、ドメインの埋め込みがヒンズー・イングリッシュモデルにおけるジェンダーバイアスに対する洞察を与えるかどうかを定量化するために、ドメイン間のバリエーションを研究します。 我々は、4つの異なるコーパスに埋め込みを生成し、既存のモデルよりも多くのNLPタスクにおいて優れた学習済みの言語翻訳モデルのような異なるメトリクスを実装することで結果を比較する。

Measuring, evaluating and reducing Gender Bias has come to the forefront with newer and improved language embeddings being released every few months. But could this bias vary from domain to domain? We see a lot of work to study these biases in various embedding models but limited work has been done to debias Indic languages. We aim to measure and study this bias in Hindi language, which is a higher-order language (gendered) with reference to English, a lower-order language. To achieve this, we study the variations across domains to quantify if domain embeddings allow us some insight into Gender bias for this pair of Hindi-English model. We will generate embeddings in four different corpora and compare results by implementing different metrics like with pre-trained State of the Art Indic-English translation model, which has performed better at many NLP tasks than existing models.
翻訳日:2021-11-23 21:56:04 公開日:2021-11-22
# (参考訳) 深層学習に基づくct画像からのcovid-19自動分類 [全文訳有]

Deep Learning Based Automated COVID-19 Classification from Computed Tomography Images ( http://arxiv.org/abs/2111.11191v1 )

ライセンス: CC BY 4.0
Kenan Morani, Devrim Unay(参考訳) 本稿では,画像分類のための畳み込みニューラルネットワーク(CNN)モデルを提案する。 提案モデルは4つの類似した畳み込み層と2つの密集層を含む。 本研究では,2次元CNNモデルを用いて2次元CTスキャン画像のスライスを簡易に分類する手法を提案する。 アーキテクチャの単純さにもかかわらず、提案モデルでは、マクロf1スコアの点から、同じ画像のデータセット上で、最先端技術を上回る定量的結果が得られた。 このケーススタディでは、画像から特徴を抽出すること、画像の分割部分、あるいは画像の分類を目的とした他のより複雑な技術は、よりよい結果を得ることができない。 そこで本稿では,covid-19自動分類のための簡易かつ強力なディープラーニングソリューションを提案する。

The paper presents a Convolutional Neural Networks (CNN) model for image classification, aiming at increasing predictive performance for COVID-19 diagnosis while avoiding deeper and thus more complex alternatives. The proposed model includes four similar convolutional layers followed by a flattening and two dense layers. This work proposes a less complex solution based on simply classifying 2D CT-Scan slices of images using their pixels via a 2D CNN model. Despite the simplicity in architecture, the proposed model showed improved quantitative results exceeding state-of-the-art on the same dataset of images, in terms of the macro f1 score. In this case study, extracting features from images, segmenting parts of the images, or other more complex techniques, ultimately aiming at images classification, do not yield better results. With that, this paper introduces a simple yet powerful deep learning based solution for automated COVID-19 classification.
翻訳日:2021-11-23 21:46:44 公開日:2021-11-22
# (参考訳) マルチエージェント強化学習のためのオフポリティ補正 [全文訳有]

Off-Policy Correction For Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2111.11229v1 )

ライセンス: CC BY 4.0
Micha{\l} Zawalski, B{\l}a\.zej Osi\'nski, Henryk Michalewski, Piotr Mi{\l}o\'s(参考訳) マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題の枠組みを提供する。 単一エージェントの場合と明らかな類似性にもかかわらず、マルチエージェント問題は理論上は訓練や解析が難しいことが多い。 そこで本研究では,V-Trace を MARL 設定に拡張した,新たなアクタ批判アルゴリズム MA-Trace を提案する。 我々のアルゴリズムの重要な利点は、マルチワーカー設定における高いスケーラビリティです。 この目的のためにMA-Traceは、重要サンプリングをオフポリティ補正法として利用し、トレーニングの品質に影響を与えずに計算を分散することができる。 さらに、このアルゴリズムは理論的に根拠があり、収束を保証する固定点定理が証明される。 我々は,このアルゴリズムをマルチエージェントアルゴリズムの標準ベンチマークであるStarCraft Multi-Agent Challengeで広く評価する。 MA-Traceは全てのタスクで高いパフォーマンスを達成し、一部のタスクでは最先端の結果を上回っている。

Multi-agent reinforcement learning (MARL) provides a framework for problems involving multiple interacting agents. Despite apparent similarity to the single-agent case, multi-agent problems are often harder to train and analyze theoretically. In this work, we propose MA-Trace, a new on-policy actor-critic algorithm, which extends V-Trace to the MARL setting. The key advantage of our algorithm is its high scalability in a multi-worker setting. To this end, MA-Trace utilizes importance sampling as an off-policy correction method, which allows distributing the computations with no impact on the quality of training. Furthermore, our algorithm is theoretically grounded - we prove a fixed-point theorem that guarantees convergence. We evaluate the algorithm extensively on the StarCraft Multi-Agent Challenge, a standard benchmark for multi-agent algorithms. MA-Trace achieves high performance on all its tasks and exceeds state-of-the-art results on some of them.
翻訳日:2021-11-23 21:35:58 公開日:2021-11-22
# (参考訳) 連続時間と空間における政策グラディエントとアクター・クリティカルラーニング:理論とアルゴリズム

Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms ( http://arxiv.org/abs/2111.11232v1 )

ライセンス: CC BY 4.0
Yanwei Jia and Xun Yu Zhou(参考訳) 我々は, Wang et al. (2020) による正規化探索定式化の下で, 連続時間と空間における強化学習のための政策勾配(PG)について検討した。 本稿では,与えられたパラメータ化確率ポリシーに対する値関数の勾配を,サンプルと現在の値関数を用いて評価可能な補助ランニング報酬関数の期待積分として表現する。 これにより、PGを政策評価(PE)問題に転換し、最近Jia と Zhou (2021) によって開発されたマーチンゲールアプローチを適用して、当社のPG問題を解決する。 そこで本研究では,数値関数とポリシーを同時にかつ交互に学習し更新する,rlのためのアクタ-クリティックアルゴリズムを提案する。 最初の型は、前述の表現に基づいており、将来の軌跡を含むため、オフラインである。 オンライン学習用に設計された第2のタイプは、ポリシー勾配の1次条件を採用し、マーチンゲール直交条件に変換する。 これらの条件は、ポリシー更新時に確率近似を用いて組み込まれる。 最後に、シミュレーションによるアルゴリズムを2つの具体例で示す。

We study policy gradient (PG) for reinforcement learning in continuous time and space under the regularized exploratory formulation developed by Wang et al. (2020). We represent the gradient of the value function with respect to a given parameterized stochastic policy as the expected integration of an auxiliary running reward function that can be evaluated using samples and the current value function. This effectively turns PG into a policy evaluation (PE) problem, enabling us to apply the martingale approach recently developed by Jia and Zhou (2021) for PE to solve our PG problem. Based on this analysis, we propose two types of the actor-critic algorithms for RL, where we learn and update value functions and policies simultaneously and alternatingly. The first type is based directly on the aforementioned representation which involves future trajectories and hence is offline. The second type, designed for online learning, employs the first-order condition of the policy gradient and turns it into martingale orthogonality conditions. These conditions are then incorporated using stochastic approximation when updating policies. Finally, we demonstrate the algorithms by simulations in two concrete examples.
翻訳日:2021-11-23 21:12:55 公開日:2021-11-22
# (参考訳) ナノボットキュー:チームメンバーのコミュニケーションと画像処理に基づくがんの協調治療 [全文訳有]

Nanorobot queue: Cooperative treatment of cancer based on team member communication and image processing ( http://arxiv.org/abs/2111.11236v1 )

ライセンス: CC BY 4.0
Xinyu Zhou(参考訳) Although nanorobots have been used as clinical prescriptions for work such as gastroscopy, and even photoacoustic tomography technology has been proposed to control nanorobots to deliver drugs at designated delivery points in real time, and there are cases of eliminating "superbacteria" in blood through nanorobots, most technologies are immature, either with low efficiency or low accuracy, Either it can not be mass produced, so the most effective way to treat cancer diseases at this stage is through chemotherapy and radiotherapy. 患者は苦しんでおり、治療はできない。 そこで本稿では, チームメンバーコミュニケーションとコンピュータビジョン画像分類(ターゲット検出)を通じて, ナノロボットキューに基づく協調的治療法であるがんを完全治療できる治療法の理想的なモデルを提案する。

Although nanorobots have been used as clinical prescriptions for work such as gastroscopy, and even photoacoustic tomography technology has been proposed to control nanorobots to deliver drugs at designated delivery points in real time, and there are cases of eliminating "superbacteria" in blood through nanorobots, most technologies are immature, either with low efficiency or low accuracy, Either it can not be mass produced, so the most effective way to treat cancer diseases at this stage is through chemotherapy and radiotherapy. Patients are suffering and can not be cured. Therefore, this paper proposes an ideal model of a treatment method that can completely cure cancer, a cooperative treatment method based on nano robot queue through team member communication and computer vision image classification (target detection).
翻訳日:2021-11-23 21:11:39 公開日:2021-11-22
# (参考訳) lequa@clef2022: 定量化の学習 [全文訳有]

LeQua@CLEF2022: Learning to Quantify ( http://arxiv.org/abs/2111.11249v1 )

ライセンス: CC BY 4.0
Andrea Esuli, Alejandro Moreo, Fabrizio Sebastiani(参考訳) lequa 2022は、テキストデータセットにおける ‘learning to quantify'' の手法、すなわち、ラベルなしのテキスト文書の集合に対する興味のあるクラスの相対周波数の予測子を訓練するための新しいラボである。 これらの予測は、まずテキスト分類器を用いてすべての文書を分類し、次にクラスに割り当てられた文書の数を数えることによって容易に実現できるが、増大する文献群はこのアプローチを最適以下に示し、より良い方法を提案する。 この研究室の目標は、バイナリ設定とシングルラベルマルチクラス設定の両方において、定量化の学習方法の比較評価のための設定を提供することである。 このような設定ごとに、プリメイドベクター形式または生文書形式でデータを提供します。

LeQua 2022 is a new lab for the evaluation of methods for ``learning to quantify'' in textual datasets, i.e., for training predictors of the relative frequencies of the classes of interest in sets of unlabelled textual documents. While these predictions could be easily achieved by first classifying all documents via a text classifier and then counting the numbers of documents assigned to the classes, a growing body of literature has shown this approach to be suboptimal, and has proposed better methods. The goal of this lab is to provide a setting for the comparative evaluation of methods for learning to quantify, both in the binary setting and in the single-label multiclass setting. For each such setting we provide data either in ready-made vector form or in raw document form.
翻訳日:2021-11-23 21:06:44 公開日:2021-11-22
# (参考訳) SOMPS-Net : フェイクヘルスニュースの早期発見のための注意に基づくソーシャルグラフフレームワーク [全文訳有]

SOMPS-Net : Attention based social graph framework for early detection of fake health news ( http://arxiv.org/abs/2111.11272v1 )

ライセンス: CC BY 4.0
Prasannakumaran D, Harish Srinivasan, Sowmiya Sree S, Sri Gayathri Devi I, Saikrishnan S, Vineeth Vijayaraghavan(参考訳) フェイクニュースは、読者を欺く意図を持って、本物として提示される偽造情報である。 近年,ソーシャルメディアを利用してニュースを消費する人が増えている。 この急激な増加により、誤情報による悪影響は広い聴衆に影響を及ぼす。 このような偽ニュースに対する人々の脆弱性の増加を踏まえると、その初期段階で誤情報を検出する信頼性の高い手法が不可欠である。 そこで筆者らは,ソーシャルインタラクショングラフ (SIG) とパブリッシャとニュース統計学 (PNS) の2つのコンポーネントからなる,マルチヘッドアテンションとパブリッシャ情報とニュース統計ネットワーク (SOMPS-Net) を備えた新しいグラフベースのフレームワークSOcial graphを提案する。 実証モデルはhealthstoryデータセットで実験され、がん、アルツハイマー病、産婦人科、栄養など様々な医学的トピックを一般化する。 SOMPS-NetはHealthStoryで実験された他の最先端グラフベースのモデルよりも17.1%優れていた。 さらに、早期検出実験により、SOMPS-Netは放送からわずか8時間以内に79%の確証のある偽ニュースを予測した。 このように、この研究の貢献は、初期の段階で複数の医療トピックにわたる偽の健康ニュースを捉えた基礎を築いた。

Fake news is fabricated information that is presented as genuine, with intention to deceive the reader. Recently, the magnitude of people relying on social media for news consumption has increased significantly. Owing to this rapid increase, the adverse effects of misinformation affect a wider audience. On account of the increased vulnerability of people to such deceptive fake news, a reliable technique to detect misinformation at its early stages is imperative. Hence, the authors propose a novel graph-based framework SOcial graph with Multi-head attention and Publisher information and news Statistics Network (SOMPS-Net) comprising of two components - Social Interaction Graph (SIG) and Publisher and News Statistics (PNS). The posited model is experimented on the HealthStory dataset and generalizes across diverse medical topics including Cancer, Alzheimer's, Obstetrics, and Nutrition. SOMPS-Net significantly outperformed other state-of-the-art graph-based models experimented on HealthStory by 17.1%. Further, experiments on early detection demonstrated that SOMPS-Net predicted fake news articles with 79% certainty within just 8 hours of its broadcast. Thus the contributions of this work lay down the foundation for capturing fake health news across multiple medical topics at its early stages.
翻訳日:2021-11-23 20:58:36 公開日:2021-11-22
# (参考訳) 分岐時間アクティブ推論:実証的研究と複雑性クラス分析 [全文訳有]

Branching Time Active Inference: empirical study and complexity class analysis ( http://arxiv.org/abs/2111.11276v1 )

ライセンス: CC BY 4.0
Th\'eophile Champion, Howard Bowman, Marek Grze\'s(参考訳) アクティブ推論は、習慣形成、ドーパミン作動性放電、好奇心などの幅広いメカニズムを説明する脳をモデル化するための最先端のフレームワークである。 しかし、最近の実装は、すべての可能なポリシーを時間軸まで計算する際に、指数関数的な(空間と時間)複雑性クラスに悩まされている。 fountas et al. (2020) はこの問題を解決するためにモンテカルロ木探索を使い、2つの異なるタスクで非常に良い結果をもたらした。 さらに、 champion et al. (2021a) は構造学習に基づく木探索手法を提案した。 これはアクティブ推論に対する変分メッセージパッシング(champion et al., 2021b)の開発によって実現され、アクティブ推論のためにベイズネットワークの構成構成が可能になる。 しかし、この分枝時間アクティブ推論(BTAI)と呼ばれるメッセージパッシングツリー探索手法は、経験的にテストされていない。 本稿では,迷路解決剤の文脈におけるアプローチ(Champion et al., 2021a)について実験的に検討する。 この文脈では、先行選好の改善とより深い検索の両方が、ローカルなminimaの脆弱性を軽減する助けになることを示している。 次に、BTAIと標準アクティブ推論(AI)をグラフナビゲーションタスクで比較する。 小さいグラフの場合、BTAIとAIはどちらもこの課題をうまく解決している。 より大きなグラフの場合、AIは指数(空間)複雑性クラスを示し、アプローチを難解にする。 しかし、BTAIはポリシーの空間をより効率的に探求し、より大きなグラフへのスケーリングに成功した。

Active inference is a state-of-the-art framework for modelling the brain that explains a wide range of mechanisms such as habit formation, dopaminergic discharge and curiosity. However, recent implementations suffer from an exponential (space and time) complexity class when computing the prior over all the possible policies up to the time horizon. Fountas et al. (2020) used Monte Carlo tree search to address this problem, leading to very good results in two different tasks. Additionally, Champion et al. (2021a) proposed a tree search approach based on structure learning. This was enabled by the development of a variational message passing approach to active inference (Champion et al., 2021b), which enables compositional construction of Bayesian networks for active inference. However, this message passing tree search approach, which we call branching-time active inference (BTAI), has never been tested empirically. In this paper, we present an experimental study of the approach (Champion et al., 2021a) in the context of a maze solving agent. In this context, we show that both improved prior preferences and deeper search help mitigate the vulnerability to local minima. Then, we compare BTAI to standard active inference (AI) on a graph navigation task. We show that for small graphs, both BTAI and AI successfully solve the task. For larger graphs, AI exhibits an exponential (space) complexity class, making the approach intractable. However, BTAI explores the space of policies more efficiently, successfully scaling to larger graphs.
翻訳日:2021-11-23 20:46:47 公開日:2021-11-22
# (参考訳) 点雲色コンテンシー [全文訳有]

Point Cloud Color Constancy ( http://arxiv.org/abs/2111.11280v1 )

ライセンス: CC BY 4.0
Xiaoyan Xing, Yanlin Qian, Sibo Feng, Yuhan Dong, Jiri Matas(参考訳) 本稿では,ポイントクラウドを利用する照明色度推定アルゴリズムであるpoint cloud color constancy(pccc)を提案する。 我々は,rgbセンサに厳格に装着されたtime-of(tof)センサで取得した深度情報を活用し,各点が座標とrgb強度(x,y,z,r,g,b)を含む6dクラウドを形成する。 pcccは、カラーコンテンシー問題にポイントネットアーキテクチャを適用し、点滅ベクトルを点滅的に導出し、大域的な光彩度について大域的に決定する。 照明情報とともに拡張する2つのRGB-Dデータセットと、新しいベンチマークでは、PCCCは最先端のアルゴリズムよりも低い誤差を得る。 提案手法は単純かつ高速で、16*16サイズの入力しか必要とせず,500fps以上の速度で到達する。

In this paper, we present Point Cloud Color Constancy, in short PCCC, an illumination chromaticity estimation algorithm exploiting a point cloud. We leverage the depth information captured by the time-of-flight (ToF) sensor mounted rigidly with the RGB sensor, and form a 6D cloud where each point contains the coordinates and RGB intensities, noted as (x,y,z,r,g,b). PCCC applies the PointNet architecture to the color constancy problem, deriving the illumination vector point-wise and then making a global decision about the global illumination chromaticity. On two popular RGB-D datasets, which we extend with illumination information, as well as on a novel benchmark, PCCC obtains lower error than the state-of-the-art algorithms. Our method is simple and fast, requiring merely 16*16-size input and reaching speed over 500 fps, including the cost of building the point cloud and net inference.
翻訳日:2021-11-23 20:27:24 公開日:2021-11-22
# (参考訳) モード崩壊時における熱力学観測装置の機械学習 [全文訳有]

Machine Learning of Thermodynamic Observables in the Presence of Mode Collapse ( http://arxiv.org/abs/2111.11303v1 )

ライセンス: CC BY 4.0
Kim A. Nicoli, Christopher Anders, Lena Funcke, Tobias Hartung, Karl Jansen, Pan Kessel, Shinichi Nakajima, Paolo Stornati(参考訳) 自由エネルギーと他の熱力学観測器を推定することは格子場理論における重要な課題である。 近年,この文脈で深部生成モデルが利用できることが指摘されている。 これらのモデルはパラメータ空間内の与えられた点における自由エネルギーの直接推定を可能にする。 これは、パラメータ空間を通した統合を必要とするマルコフ連鎖に基づく既存の方法とは対照的である。 本稿では,この機械学習に基づく推定手法について概説する。 本稿では,特に有限温度での応用に適したモード崩壊問題と概要緩和手法について詳述する。

Estimating the free energy, as well as other thermodynamic observables, is a key task in lattice field theories. Recently, it has been pointed out that deep generative models can be used in this context. Crucially, these models allow for the direct estimation of the free energy at a given point in parameter space. This is in contrast to existing methods based on Markov chains which generically require integration through parameter space. In this contribution, we will review this novel machine-learning-bas ed estimation method. We will in detail discuss the issue of mode collapse and outline mitigation techniques which are particularly suited for applications at finite temperature.
翻訳日:2021-11-23 20:12:49 公開日:2021-11-22
# (参考訳) 一般化カスケードクリックモデル:クリックモデルを推定するための統一フレームワーク [全文訳有]

The Generalized Cascade Click Model: A Unified Framework for Estimating Click Models ( http://arxiv.org/abs/2111.11314v1 )

ライセンス: CC BY 4.0
Corn\'e de Ruijt and Sandjai Bhulai(参考訳) デジタル情報を見つけるための検索エンジンの重要性を考えると、ユーザーが検索エンジンとどのように相互作用するか、どのように振舞うかが科学的に注目されている。 ユーザに関する多くのモデル - クリックモデルとして知られる検索エンジンのインタラクションは、動的ベイズネットワーク(Dynamic Bayesian Networks)の形で行われる。 多くの著者は、これらのモデルの見積もり手順、特に期待最大化(em)という形で、異なるクリックモデル間の類似性を用いているが、それでも、特にeステップの導出に関して、かなりの作業を必要とする。 既存のクリックモデルの多くは、特定の仮定の下で、入力出力型隠れマルコフモデル(io-hmms)であるように最適化することができる。 この結論に達するために、一般化カスケードモデル(GCM)を提示し、IO-HMM EMフレームワークを用いてどのようにこのモデルを推定できるかを示し、既存のクリックモデルをGCMにマップする方法の2つの例を示す。 クリックモデル推定のためのgcmアプローチもgecasmo pythonパッケージに実装されています。

Given the vital importance of search engines to find digital information, there has been much scientific attention on how users interact with search engines, and how such behavior can be modeled. Many models on user - search engine interaction, which in the literature are known as click models, come in the form of Dynamic Bayesian Networks. Although many authors have used the resemblance between the different click models to derive estimation procedures for these models, in particular in the form of expectation maximization (EM), still this commonly requires considerable work, in particular when it comes to deriving the E-step. What we propose in this paper, is that this derivation is commonly unnecessary: many existing click models can in fact, under certain assumptions, be optimized as they were Input-Output Hidden Markov Models (IO-HMMs), for which the forward-backward equations immediately provide this E-step. To arrive at that conclusion, we will present the Generalized Cascade Model (GCM) and show how this model can be estimated using the IO-HMM EM framework, and provide two examples of how existing click models can be mapped to GCM. Our GCM approach to estimating click models has also been implemented in the gecasmo Python package.
翻訳日:2021-11-23 20:01:15 公開日:2021-11-22
# (参考訳) ガウスおよびそれ以上の学習のための私的および多項式時間アルゴリズム

Private and polynomial time algorithms for learning Gaussians and beyond ( http://arxiv.org/abs/2111.11320v1 )

ライセンス: CC BY-SA 4.0
Hassan Ashtiani, Christopher Liaw(参考訳) 我々は、$(\varepsilon, \delta)$differential ly private (DP) 統計的推定を非私的推定に還元する、かなり一般的なフレームワークを提案する。 このフレームワークの主な応用として、多項式時間と$(\varepsilon,\delta )$-dpアルゴリズムを与えて、$\mathbb{r}^d$ でガウス分布を学習する。 我々のアプローチのサンプル複雑性は、全変分距離$\alpha$は$\widetilde{O}\left(\frac{d^2}{\alpha^2}+\frac{d^2 \sqrt{\ln{1/\delta}}}{\alpha\varepsilon} \right)$, matching (対数因子まで) the most known information-theoreti c (non- efficient) sample complexity upper bound of Aden-Ali, Ashtiani, Kamath~(ALT'21)である。 独立した研究で、Kamath, Mouzakis, Singhal, Steinke, Ullman~(arXiv:2111.0 4609) は異なるアプローチと$O(d^{5/2})$$$d$のサンプル複雑性依存性を用いて同様の結果を示した。 フレームワークの別の応用として、(制限のない)ガウスの堅牢な学習のための最初の多項式時間$(\varepsilon, \delta)$-DPアルゴリズムを提供する。

We present a fairly general framework for reducing $(\varepsilon, \delta)$ differentially private (DP) statistical estimation to its non-private counterpart. As the main application of this framework, we give a polynomial time and $(\varepsilon,\delta )$-DP algorithm for learning (unrestricted) Gaussian distributions in $\mathbb{R}^d$. The sample complexity of our approach for learning the Gaussian up to total variation distance $\alpha$ is $\widetilde{O}\left(\frac{d^2}{\alpha^2}+\frac{d^2 \sqrt{\ln{1/\delta}}}{\alpha\varepsilon} \right)$, matching (up to logarithmic factors) the best known information-theoreti c (non-efficient) sample complexity upper bound of Aden-Ali, Ashtiani, Kamath~(ALT'21). In an independent work, Kamath, Mouzakis, Singhal, Steinke, and Ullman~(arXiv:2111.0 4609) proved a similar result using a different approach and with $O(d^{5/2})$ sample complexity dependence on $d$. As another application of our framework, we provide the first polynomial time $(\varepsilon, \delta)$-DP algorithm for robust learning of (unrestricted) Gaussians.
翻訳日:2021-11-23 19:39:15 公開日:2021-11-22
# (参考訳) 知覚的グループ化による輪郭誘導画像補完 [全文訳有]

Contour-guided Image Completion with Perceptual Grouping ( http://arxiv.org/abs/2111.11322v1 )

ライセンス: CC BY 4.0
Morteza Rezanejad, Sidharth Gupta, Chandra Gummaluru, Ryan Marten, John Wilder, Michael Gruninger, Dirk B. Walther(参考訳) 人間は幻想的な輪郭を知覚するのに優れている。 接続された外観の破片を含む画像が提供されると、輪郭、形、シーン、さらには見えないオブジェクトも簡単に完成できます。 視覚科学において、この能力は知覚的グループ化 (perceptual grouping) によって主に説明される。 本稿では,連続性,閉鎖性,近接性といった一連の処理を輪郭補完を通じて機械化するSCF(Stochastic Completion Fields)と呼ばれるアルゴリズムを再検討する。 本稿では,SCFアルゴリズムの近代化モデルを実装し,これを画像編集フレームワークとして利用し,断片化された輪郭を補完する新しい手法を提案する。 scfアルゴリズムが人間の知覚にどのように影響するかを示す。 我々は,SCF完成輪郭を塗装用ガイドとして使用し,そのガイドが最先端モデルの性能を向上させることを示す。 さらに,SCFは高雑音環境におけるエッジの発見に有効であることを示す。 概して、我々の記述したアルゴリズムは、人間の視覚システムにおいて重要なメカニズムに似ており、現代のコンピュータビジョンモデルが恩恵を受ける新しいフレームワークを提供する。

Humans are excellent at perceiving illusory outlines. We are readily able to complete contours, shapes, scenes, and even unseen objects when provided with images that contain broken fragments of a connected appearance. In vision science, this ability is largely explained by perceptual grouping: a foundational set of processes in human vision that describes how separated elements can be grouped. In this paper, we revisit an algorithm called Stochastic Completion Fields (SCFs) that mechanizes a set of such processes -- good continuity, closure, and proximity -- through contour completion. This paper implements a modernized model of the SCF algorithm, and uses it in an image editing framework where we propose novel methods to complete fragmented contours. We show how the SCF algorithm plausibly mimics results in human perception. We use the SCF completed contours as guides for inpainting, and show that our guides improve the performance of state-of-the-art models. Additionally, we show that the SCF aids in finding edges in high-noise environments. Overall, our described algorithms resemble an important mechanism in the human visual system, and offer a novel framework that modern computer vision models can benefit from.
翻訳日:2021-11-23 19:37:42 公開日:2021-11-22
# (参考訳) DyTox: Dynamic Token eXpansionを用いた連続学習用変換器 [全文訳有]

DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion ( http://arxiv.org/abs/2111.11326v1 )

ライセンス: CC BY 4.0
Arthur Douillard, Alexandre Ram\'e, Guillaume Couairon, Matthieu Cord(参考訳) ディープネットワークアーキテクチャは、以前のタスクを忘れずに、新しいタスクを継続的に学習する。 最近の傾向は、パラメータの拡張に基づく動的アーキテクチャは、継続的な学習において壊滅的な忘れを効果的に減らすことができることを示している。 しかし、既存のアプローチでは、テスト時にタスク識別子を必要とし、増加するパラメータ数のバランスをとるために複雑なチューニングを必要とし、タスク間で情報を共有することはほとんどありません。 その結果、大きなオーバーヘッドを伴わずに、大量のタスクにスケールするのに苦労した。 本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。 批判的に、エンコーダとデコーダはすべてのタスクで共有される。 特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。 我々の戦略は、パラメータ拡張の厳格な制御により、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールする。 さらに、この効率的な戦略は、ネットワークの拡張を制御するためにハイパーパラメータチューニングを必要としない。 CIFAR100と大規模 ImageNet100 と ImageNet1000 のパフォーマンスは,並列動的フレームワークよりもパラメータが少なく,優れた結果を得た。

Deep network architectures struggle to continually learn new tasks without forgetting the previous tasks. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning. However, existing approaches often require a task identifier at test-time, need complex tuning to balance the growing number of parameters, and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we propose a transformer architecture based on a dedicated encoder/decoder framework. Critically, the encoder and decoder are shared among all tasks. Through a dynamic expansion of special tokens, we specialize each forward of our decoder network on a task distribution. Our strategy scales to a large number of tasks while having negligible memory and time overheads due to strict control of the parameters expansion. Moreover, this efficient strategy doesn't need any hyperparameter tuning to control the network's expansion. Our model reaches excellent results on CIFAR100 and state-of-the-art performances on the large-scale ImageNet100 and ImageNet1000 while having less parameters than concurrent dynamic frameworks.
翻訳日:2021-11-23 19:22:57 公開日:2021-11-22
# (参考訳) ソフト部分指数を用いたランベック計算のためのベクトル空間意味論 [全文訳有]

Vector Space Semantics for Lambek Calculus with Soft Subexponentials ( http://arxiv.org/abs/2111.11331v1 )

ライセンス: CC BY 4.0
Lachlan McPheat, Hadi Wazni, Mehrnoosh Sadrzadeh(参考訳) ソフトな部分指数を持つランベック計算のためのベクトル空間意味論を開発し, パラシティックギャップ名詞句とアナフォラやエリプシスを用いた談話単位の構成ベクトル解釈に適用し, 分布文類似タスクにおける構成を実験した。 ランベック計算を関連モーダリティで用いた以前の研究とは対照的に、本論文で用いた計算はモダリティの有界バージョンを使用し、決定可能である。 この新しいモダリティのベクトル空間の意味論は、縮小を射影として意味的に定義し、それまで非線形写像によってのみ達成できたことの背後にある線形理論を提供する。

We develop a vector space semantics for Lambek Calculus with Soft Subexponentials, apply the calculus to construct compositional vector interpretations for parasitic gap noun phrases and discourse units with anaphora and ellipsis, and experiment with the constructions in a distributional sentence similarity task. As opposed to previous work, which used Lambek Calculus with a Relevant Modality the calculus used in this paper uses a bounded version of the modality and is decidable. The vector space semantics of this new modality allows us to meaningfully define contraction as projection and provide a linear theory behind what we could previously only achieve via nonlinear maps.
翻訳日:2021-11-23 19:03:11 公開日:2021-11-22
# (参考訳) グラフ畳み込みGated Recurrent Neural Networkを用いたネットワーク全体の交通量予測 [全文訳有]

Network-wide Multi-step Traffic Volume Prediction using Graph Convolutional Gated Recurrent Neural Network ( http://arxiv.org/abs/2111.11337v1 )

ライセンス: CC BY 4.0
Lei Lin, Weizi Li, Lei Zhu(参考訳) インテリジェント交通システムには,ネットワーク全体の交通状況の正確な予測が不可欠である。 この10年間で、機械学習技術がこのタスクに広く使われ、最先端のパフォーマンスを実現している。 本稿では,新しいディープラーニングモデルであるGCGRNN(Graph Convolutional Gated Recurrent Neural Network)を提案する。 GCGRNNは、過去の交通データにおける交通センサと時間的依存関係の間の空間的相関を自動的にキャプチャする。 我々は,カリフォルニア州ロサンゼルスの150センサから抽出した2つのトラヒックデータセットを用いて,それぞれ1時間15分と時間分解能でモデルを評価した。 その結果,予測精度は,他の5つのベンチマークモデルよりも優れていた。 例えば、モデルではmaeを25.3%、rmseを29.2%、mapeを20.2%削減し、時間単位データセットを用いた最先端の拡散畳み込み畳み込みニューラルネットワーク(dcrnn)モデルと比較した。 我々のモデルは、DCRNNよりも最大52%高速なトレーニングも達成しています。 GCGRNNのデータと実装はhttps://github.com/l eilin-research/GCGRN Nで見ることができる。

Accurate prediction of network-wide traffic conditions is essential for intelligent transportation systems. In the last decade, machine learning techniques have been widely used for this task, resulting in state-of-the-art performance. We propose a novel deep learning model, Graph Convolutional Gated Recurrent Neural Network (GCGRNN), to predict network-wide, multi-step traffic volume. GCGRNN can automatically capture spatial correlations between traffic sensors and temporal dependencies in historical traffic data. We have evaluated our model using two traffic datasets extracted from 150 sensors in Los Angeles, California, at the time resolutions one hour and 15 minutes, respectively. The results show that our model outperforms the other five benchmark models in terms of prediction accuracy. For instance, our model reduces MAE by 25.3%, RMSE by 29.2%, and MAPE by 20.2%, compared to the state-of-the-art Diffusion Convolutional Recurrent Neural Network (DCRNN) model using the hourly dataset. Our model also achieves faster training than DCRNN by up to 52%. The data and implementation of GCGRNN can be found at https://github.com/l eilin-research/GCGRN N.
翻訳日:2021-11-23 18:35:28 公開日:2021-11-22
# (参考訳) 連続時間単位による不規則時系列のモデル化 [全文訳有]

Modeling Irregular Time Series with Continuous Recurrent Units ( http://arxiv.org/abs/2111.11344v1 )

ライセンス: CC BY 4.0
Mona Schirmer, Mazin Eltayeb, Stefan Lessmann, Maja Rudolph(参考訳) 長い短期記憶ネットワーク(LSTM)やゲートリカレントユニット(GRU)のようなリカレントニューラルネットワーク(RNN)は、シーケンシャルデータをモデリングするための一般的な選択肢である。 ゲーティング機構により、隠れた状態でエンコードされた過去の履歴を、受信した観測から新しい情報で重み付けすることができる。 医療記録などの多くの応用において、観測時間は不規則であり、重要な情報を持っている。 しかし、LSTMとGRUは観測時間間隔を一定に設定する。 この課題に対処するために、観測間の不規則な時間間隔を自然に処理できるニューラルネットワークである連続リカレントユニット(CRU)を提案する。 CRUのゲーティング機構はカルマンフィルタの連続的な定式化を採用し、(1)線形確率微分方程式(SDE)による連続潜時状態の伝播と(2)新しい観測が入るたびに潜時状態の更新を交互に行う。 実験的研究により、CRUはニューラル常微分方程式(ニューラルODE)に基づくモデルよりも不規則時系列を補間できることを示した。 また,我々のモデルがim-agesからダイナミクスを推定できることを示すとともに,kalmanが有意な状態更新候補をノイズ観測から効率的に排除できることを示した。

Recurrent neural networks (RNNs) like long short-term memory networks (LSTMs) and gated recurrent units (GRUs) are a popular choice for modeling sequential data. Their gating mechanism permits weighting previous history encoded in a hidden state with new information from incoming observations. In many applications, such as medical records, observations times are irregular and carry important information. However, LSTMs and GRUs assume constant time intervals between observations. To address this challenge, we propose continuous recurrent units (CRUs) -a neural architecture that can naturally handle irregular time intervals between observations. The gating mechanism of the CRU employs the continuous formulation of a Kalman filter and alternates between (1) continuous latent state propagation according to a linear stochastic differential equation (SDE) and (2) latent state updates whenever a new observation comes in. In an empirical study, we show that the CRU can better interpolate irregular time series than neural ordinary differential equation (neural ODE)-based models. We also show that our model can infer dynamics from im-ages and that the Kalman gain efficiently singles out candidates for valuable state updates from noisy observations.
翻訳日:2021-11-23 18:15:50 公開日:2021-11-22
# (参考訳) shufanet:専門家レベルに達した書家のための分類方法 [全文訳有]

ShufaNet: Classification method for calligraphers who have reached the professional level ( http://arxiv.org/abs/2111.11350v1 )

ライセンス: CC0 1.0
Ge Yunfei, Diao Changyu, Li Min, Yu Ruohan, Qiu Linshan and Xu Duanqing(参考訳) 書道の真正性は美術の分野では重要ではあるが難しい課題であり、書道の数少ない分類が問題となっている。 本稿では,漢文の書法である朱波Netを用いて,数ショットの場合にメートル法学習に基づいて漢文の書風を分類し,その分類精度が書道専攻の学生のレベルを超える新しい方法を提案する。 本稿では,shufalossと呼ばれる手書きフォントのスタイルと書道カテゴリ情報を先行知識として表現する,新たなネットワークアーキテクチャを提案する。 一方、空間的注意モジュールを変更し、中国の伝統的な九宮思想に基づく手書きフォントのShufaAtttentionを作成する。 モデルのトレーニングのために、私たちは書道者のデータセットを構築します。 提案手法は,resNetや他の主流CNNを上回り,数ショット学習のためのデータセットの精度を65%向上した。 一方、書道専攻の学生たちとの戦いを繰り広げ、ついに彼らを追い越した。 これは書道分類の分野における深層学習の最初の試みであり、その後の研究にアイデアを提供することを期待する。

The authenticity of calligraphy is significant but difficult task in the realm of art, where the key problem is the few-shot classification of calligraphy. We propose a novel method, ShufaNet ("Shufa" is the pinyin of Chinese calligraphy), to classify Chinese calligraphers' styles based on metric learning in the case of few-shot, whose classification accuracy exceeds the level of students majoring in calligraphy. We present a new network architecture, including the unique expression of the style of handwriting fonts called ShufaLoss and the calligraphy category information as prior knowledge. Meanwhile, we modify the spatial attention module and create ShufaAttention for handwriting fonts based on the traditional Chinese nine Palace thought. For the training of the model, we build a calligraphers' data set. Our method achieved 65% accuracy rate in our data set for few-shot learning, surpassing resNet and other mainstream CNNs. Meanwhile, we conducted battle for calligraphy major students, and finally surpassed them. This is the first attempt of deep learning in the field of calligrapher classification, and we expect to provide ideas for subsequent research.
翻訳日:2021-11-23 18:00:45 公開日:2021-11-22
# 階層CVAEに基づくジェネレーションドローイング/グリンディングトラジェゾイ

Generation Drawing/Grinding Trajectoy Based on Hierarchical CVAE ( http://arxiv.org/abs/2111.10954v1 )

ライセンス: Link先を確認
Masahiro Aita, Keito Sugawara, Sho Sakaino and Toshiaki Tsuji(参考訳) 本研究では,階層的変分オートエンコーダ(vaes)を用いたドローイング/グラインディング軌道の局所的および大域的特徴をモデル化する手法を提案する。 2つの個別に訓練されたVAEモデルを階層構造に組み合わせることで、局所的特徴と大域的特徴の両方に対して高い再現性を持つ軌道を生成することができる。 階層的生成ネットワークは、比較的少ないトレーニングデータで高次軌道を生成することができる。 シミュレーションと実験結果は,提案手法の一般化性能を示す。 さらに,学習モデルの組み合わせを変更することで,過去に学習されたことのない新しい軌道を生成することが可能であることを確認した。

In this study, we propose a method to model the local and global features of the drawing/grinding trajectory with hierarchical Variational Autoencoders (VAEs). By combining two separately trained VAE models in a hierarchical structure, it is possible to generate trajectories with high reproducibility for both local and global features. The hierarchical generation network enables the generation of higher-order trajectories with a relatively small amount of training data. The simulation and experimental results demonstrate the generalization performance of the proposed method. In addition, we confirmed that it is possible to generate new trajectories, which have never been learned in the past, by changing the combination of the learned models.
翻訳日:2021-11-23 17:42:13 公開日:2021-11-22
# 正則化ネーブベイの判別能力を向上させる半改良適応判別法

A Semi-Supervised Adaptive Discriminative Discretization Method Improving Discrimination Power of Regularized Naive Bayes ( http://arxiv.org/abs/2111.10983v1 )

ライセンス: Link先を確認
Shihe Wang, Jianfeng Ren and Ruibin Bai(参考訳) 近年,改良されたナイーブベイズ法が多数開発され,識別能力が向上している。 これらのうち、正規化ベイズ(RNB)は、識別力と一般化能力のバランスをとることで優れた性能を発揮する。 ベイズではデータの識別が重要である。 類似した値を1つの間隔にグループ化することで、データ分布をよりよく推定できる。 しかし、RNBを含む既存の手法は、データをわずかな間隔で区別することが多く、重大な情報損失をもたらす可能性がある。 そこで本研究では,ラベル付きデータとラベルなしデータの両方を擬似ラベル付け手法を用いて,よりよくデータ分布を推定できる半教師付き適応型ベイズ識別フレームワークを提案する。 提案手法は,適応的識別判別スキームを用いて識別時の情報損失を著しく低減し,分類器の識別能力を大幅に向上させる。 提案するrnb+,すなわち離散化フレームワークを用いた正規化ナイーブベイズは,幅広い機械学習データセット上で体系的に評価される。 最先端のNB分類器を著しく、一貫して上回る。

Recently, many improved naive Bayes methods have been developed with enhanced discrimination capabilities. Among them, regularized naive Bayes (RNB) produces excellent performance by balancing the discrimination power and generalization capability. Data discretization is important in naive Bayes. By grouping similar values into one interval, the data distribution could be better estimated. However, existing methods including RNB often discretize the data into too few intervals, which may result in a significant information loss. To address this problem, we propose a semi-supervised adaptive discriminative discretization framework for naive Bayes, which could better estimate the data distribution by utilizing both labeled data and unlabeled data through pseudo-labeling techniques. The proposed method also significantly reduces the information loss during discretization by utilizing an adaptive discriminative discretization scheme, and hence greatly improves the discrimination power of classifiers. The proposed RNB+, i.e., regularized naive Bayes utilizing the proposed discretization framework, is systematically evaluated on a wide range of machine-learning datasets. It significantly and consistently outperforms state-of-the-art NB classifiers.
翻訳日:2021-11-23 17:42:03 公開日:2021-11-22
# ac-opfソリューション学習の理不尽な有効性理解に向けて

Towards Understanding the Unreasonable Effectiveness of Learning AC-OPF Solutions ( http://arxiv.org/abs/2111.11168v1 )

ライセンス: Link先を確認
My H. Dinh, Ferdinando Fioretto, Mostafa Mohammadian, Kyri Baker(参考訳) 最適潮流(OPF)は電力系統の基本的な問題である。 計算的に困難であり、最近の研究の行では、古典最適化法で得られたものと比較して、非常に少ないランタイムでOPF近似を見つけるためにDeep Neural Networks (DNN) が提案されている。 これらの研究は正確さと実行性という点で奨励的な結果を示しているが、なぜこれらのモデルがOPFソリューションを正確に予測できるのか、またその堅牢性についてはほとんど分かっていない。 本稿は、この知識ギャップに対処するための一歩となる。 本論文は、発電機の出力のボラティリティを学習モデルの近似能力と結びつけ、dnnモデルに影響を及ぼす特性に光を当てて良好な予測子を学習し、本論文の観測結果を活用した新しいモデルを提案し、精度とロバストなopf予測を生成する。

Optimal Power Flow (OPF) is a fundamental problem in power systems. It is computationally challenging and a recent line of research has proposed the use of Deep Neural Networks (DNNs) to find OPF approximations at vastly reduced runtimes when compared to those obtained by classical optimization methods. While these works show encouraging results in terms of accuracy and runtime, little is known on why these models can predict OPF solutions accurately, as well as about their robustness. This paper provides a step forward to address this knowledge gap. The paper connects the volatility of the outputs of the generators to the ability of a learning model to approximate them, it sheds light on the characteristics affecting the DNN models to learn good predictors, and it proposes a new model that exploits the observations made by this paper to produce accurate and robust OPF predictions.
翻訳日:2021-11-23 17:41:47 公開日:2021-11-22
# BarrierNet: ニューラルネットワークのための安全保証層

BarrierNet: A Safety-Guaranteed Layer for Neural Networks ( http://arxiv.org/abs/2111.11277v1 )

ライセンス: Link先を確認
Wei Xiao and Ramin Hasani and Xiao Li and Daniela Rus(参考訳) 本稿では,学習システムとともにエンドツーエンドの学習が可能な高次制御障壁関数(CBF)を提案する。 CBFは通常過度に保守的であるが、安全は保証されている。 ここでは、安全保証を損なうことなく、環境依存を用いて定義を軟化し、異なる二次プログラムに組み込むことにより、彼らの保守性に対処する。 BarrierNetと呼ばれるこれらの新しい安全レイヤは、任意のニューラルネットワークベースのコントローラと組み合わせて使用することができ、勾配降下によってトレーニングすることができる。 BarrierNetは、ニューラルコントローラの安全性の制約が環境の変化に適応できるようにする。 2次元および3次元空間におけるトラヒックマージやロボットナビゲーションなどの一連の制御問題について評価し,その効果を最先端のアプローチと比較した。

This paper introduces differentiable higher-order control barrier functions (CBF) that are end-to-end trainable together with learning systems. CBFs are usually overly conservative, while guaranteeing safety. Here, we address their conservativeness by softening their definitions using environmental dependencies without loosing safety guarantees, and embed them into differentiable quadratic programs. These novel safety layers, termed a BarrierNet, can be used in conjunction with any neural network-based controller, and can be trained by gradient descent. BarrierNet allows the safety constraints of a neural controller be adaptable to changing environments. We evaluate them on a series of control problems such as traffic merging and robot navigations in 2D and 3D space, and demonstrate their effectiveness compared to state-of-the-art approaches.
翻訳日:2021-11-23 17:41:29 公開日:2021-11-22
# フェンシェルゲームにおけるno-regretダイナミクス:アルゴリズム凸最適化のための統一フレームワーク

No-Regret Dynamics in the Fenchel Game: A Unified Framework for Algorithmic Convex Optimization ( http://arxiv.org/abs/2111.11309v1 )

ライセンス: Link先を確認
Jun-Kun Wang and Jacob Abernethy and Kfir Y. Levy(参考訳) 我々は,ノンレグレットゲームダイナミクスを用いた凸最適化問題を解くためのアルゴリズムフレームワークを開発した。 ミニマックスゲームを逐次的に解くための補助問題に凸関数を最小化する問題を変換することにより、各2人のプレイヤーが次々に選択しなければならない戦略の幅を考えることができる。 これらの戦略に共通する選択は、いわゆる非回帰学習アルゴリズムであり、このような多くのことを記述し、その後悔の限界を証明する。 次に,古典的な凸最適化の一階法 – 平均等階勾配降下,フランク・ウルフアルゴリズム,ヘビーボールアルゴリズム,ネステロフの加速度法など – は,各プレイヤーが非回帰戦略を正しく選択する限り,我々のフレームワークの特別なケースとして解釈できることを示す。 このフレームワークでの収束率の証明は非常に単純で、それらは適切な既知の後悔の境界をプラグインすることに従う。 また,従来は知られていなかった凸最適化の特別な事例に対して,新しい一階法がいくつか提案されている。

We develop an algorithmic framework for solving convex optimization problems using no-regret game dynamics. By converting the problem of minimizing a convex function into an auxiliary problem of solving a min-max game in a sequential fashion, we can consider a range of strategies for each of the two-players who must select their actions one after the other. A common choice for these strategies are so-called no-regret learning algorithms, and we describe a number of such and prove bounds on their regret. We then show that many classical first-order methods for convex optimization -- including average-iterate gradient descent, the Frank-Wolfe algorithm, the Heavy Ball algorithm, and Nesterov's acceleration methods -- can be interpreted as special cases of our framework as long as each player makes the correct choice of no-regret strategy. Proving convergence rates in this framework becomes very straightforward, as they follow from plugging in the appropriate known regret bounds. Our framework also gives rise to a number of new first-order methods for special cases of convex optimization that were not previously known.
翻訳日:2021-11-23 17:41:17 公開日:2021-11-22
# (参考訳) 運動期胎児における脳MRIの4次元反復的再構成 [全文訳有]

4D iterative reconstruction of brain fMRI in the moving fetus ( http://arxiv.org/abs/2111.11394v1 )

ライセンス: CC BY-SA 4.0
Athena Taymourtash, Hamza Kebiri, S\'ebastien Tourbier, Ernst Schwartz, Karl-Heinz Nenning, Roxane Licandro, Daniel Sobotka, H\'el\`ene Lajous, Priscille de Dumast, Meritxell Bach Cuadra, and Georg Langs(参考訳) 静止状態機能型磁気共鳴イメージング(fMRI)は、子宮における脳の機能発達を研究するための強力なイメージング技術である。 しかし、胎児の予測不能で過剰な運動は、機能的接続の観察パターンを体系的に変更できる実質的な信号変動を引き起こすため、臨床応用は限られている。 従来の研究では、胎児の頭の動きが大きい場合の運動パラメータの正確な推定に焦点を合わせ、各時点に3次元単一ステップ補間法を用いて、動きのないfMRI画像の復元を行っている。 これは、再構成された画像が取得したデータから fMRI 時系列の最小誤差表現に対応することを保証しない。 本稿では,胎児のfMRIで得られた散乱スライスを4次元反復的に再現する手法を提案する。 本手法の精度を実地臨床用fMRI胎児群で定量的に評価した。 その結果,従来の3次元補間法に比べて復元品質が向上した。

Resting-state functional Magnetic Resonance Imaging (fMRI) is a powerful imaging technique for studying functional development of the brain in utero. However, unpredictable and excessive movement of fetuses has limited clinical application since it causes substantial signal fluctuations which can systematically alter observed patterns of functional connectivity. Previous studies have focused on the accurate estimation of the motion parameters in case of large fetal head movement and used a 3D single step interpolation approach at each timepoint to recover motion-free fMRI images. This does not guarantee that the reconstructed image corresponds to the minimum error representation of fMRI time series given the acquired data. Here, we propose a novel technique based on four dimensional iterative reconstruction of the scattered slices acquired during fetal fMRI. The accuracy of the proposed method was quantitatively evaluated on a group of real clinical fMRI fetuses. The results indicate improvements of reconstruction quality compared to the conventional 3D interpolation approach.
翻訳日:2021-11-23 17:39:12 公開日:2021-11-22
# 分散マルチArmed Banditは、古典的なアッパー信頼境界より優れる

Decentralized Multi-Armed Bandit Can Outperform Classic Upper Confidence Bound ( http://arxiv.org/abs/2111.10933v1 )

ライセンス: Link先を確認
Jingxuan Zhu, Ethan Mulle, Christopher Salomon Smith, Ji Liu(参考訳) 本稿では,マルチエージェントネットワークにおける分散マルチアームドバンディット問題について検討する。 この問題は、Nエージェントが共通のMアームのセットに直面し、各アームの報酬の同じ平均を共有することを仮定して同時に解決される。 各エージェントは、隣人のみの情報を受け取ることができ、エージェント間の隣人関係は、頂点がエージェントを表す有向グラフによって記述され、その有向エッジが隣人関係を表す。 従来のコンセンサスアルゴリズムと上位信頼境界アルゴリズム(UCB)をツイストした,分散化されたマルチアーム帯域幅アルゴリズムを提案する。 このアルゴリズムは,隣接グラフが強く連結されている古典的なucbよりも,各エージェントの対数漸近的後悔を達成することを保証している。 隣のグラフが無向であれば、後悔はさらに改善される。

This paper studies a decentralized multi-armed bandit problem in a multi-agent network. The problem is simultaneously solved by N agents assuming they face a common set of M arms and share the same mean of each arm's reward. Each agent can receive information only from its neighbors, where the neighbor relations among the agents are described by a directed graph whose vertices represent agents and whose directed edges depict neighbor relations. A fully decentralized multi-armed bandit algorithm is proposed for each agent, which twists the classic consensus algorithm and upper confidence bound (UCB) algorithm. It is shown that the algorithm guarantees each agent to achieve a better logarithmic asymptotic regret than the classic UCB provided the neighbor graph is strongly connected. The regret can be further improved if the neighbor graph is undirected.
翻訳日:2021-11-23 17:27:44 公開日:2021-11-22
# (参考訳) ソフト制約による予測+最適化のための代理目的フレームワーク

A Surrogate Objective Framework for Prediction+Optimization with Soft Constraints ( http://arxiv.org/abs/2111.11358v1 )

ライセンス: CC BY-SA 4.0
Kai Yan and Jie Yan and Chuan Luo and Liting Chen and Qingwei Lin and Dongmei Zhang(参考訳) 予測+最適化は、最適化問題を解く前に問題パラメータを予測しなければならない一般的な現実世界パラダイムである。 しかし、予測モデルが訓練される基準は、下流最適化問題の目標と矛盾することが多い。 近年,このギャップを埋めるために,SPO+や直接最適化などの意思決定型予測手法が提案されている。 しかし、多くの現実世界の目的において必要となる$max$演算子でソフト制約を直接扱うことはできない。 本稿では,ソフトリニアおよび非負のハード制約を持つ実世界線形および半定値負二次計画問題に対する,解析的に微分可能な新たな対象フレームワークを提案する。 この枠組みは制約の乗法に関する理論的境界を与え、予測パラメータに関して閉形式解を導出し、それゆえ問題の任意の変数に対する勾配を与える。 提案手法は,合成線形計画法,ポートフォリオ最適化法,リソースプロビジョニング法という3つのソフト制約を満たしたアプリケーションで評価し,従来の2段階法と他の決定的アプローチよりも優れていることを示す。

Prediction+optimization is a common real-world paradigm where we have to predict problem parameters before solving the optimization problem. However, the criteria by which the prediction model is trained are often inconsistent with the goal of the downstream optimization problem. Recently, decision-focused prediction approaches, such as SPO+ and direct optimization, have been proposed to fill this gap. However, they cannot directly handle the soft constraints with the $max$ operator required in many real-world objectives. This paper proposes a novel analytically differentiable surrogate objective framework for real-world linear and semi-definite negative quadratic programming problems with soft linear and non-negative hard constraints. This framework gives the theoretical bounds on constraints' multipliers, and derives the closed-form solution with respect to predictive parameters and thus gradients for any variable in the problem. We evaluate our method in three applications extended with soft constraints: synthetic linear programming, portfolio optimization, and resource provisioning, demonstrating that our method outperforms traditional two-staged methods and other decision-focused approaches.
翻訳日:2021-11-23 17:26:13 公開日:2021-11-22
# 騒音による路面異常検出のための高効率非圧縮オートエンコーダ

Efficient Non-Compression Auto-Encoder for Driving Noise-based Road Surface Anomaly Detection ( http://arxiv.org/abs/2111.10985v1 )

ライセンス: Link先を確認
YeongHyeon Park and JongHee Jung(参考訳) 湿った天候は道路上の水膜を作り、そのフィルムはタイヤと路面の間の摩擦を低下させる。 車両が低圧道路を通過すると、事故は通常の条件道路よりも最大35%の頻度で発生する。 上記のような事故を防止するためには,道路状況のリアルタイム識別が不可欠である。 そこで本稿では,計算資源の削減と異常検出性能の向上を両立させる畳み込み型自動エンコーダによる異常検出モデルを提案する。 提案モデルは,従来のボトルネック構造化オートエンコーダではなく,非圧縮方式を採用する。 その結果、従来のモデルに比べてニューラルネットワークの計算コストは最大1/25に削減され、異常検出性能は最大7.72%向上した。 そこで我々は,提案手法をリアルタイム異常検出のための最先端アルゴリズムとして結論づける。

Wet weather makes water film over the road and that film causes lower friction between tire and road surface. When a vehicle passes the low-friction road, the accident can occur up to 35% higher frequency than a normal condition road. In order to prevent accidents as above, identifying the road condition in real-time is essential. Thus, we propose a convolutional auto-encoder-based anomaly detection model for taking both less computational resources and achieving higher anomaly detection performance. The proposed model adopts a non-compression method rather than a conventional bottleneck structured auto-encoder. As a result, the computational cost of the neural network is reduced up to 1 over 25 compared to the conventional models and the anomaly detection performance is improved by up to 7.72%. Thus, we conclude the proposed model as a cutting-edge algorithm for real-time anomaly detection.
翻訳日:2021-11-23 17:24:52 公開日:2021-11-22
# 単一画像超解像のための局所選択的特徴蒸留

Local-Selective Feature Distillation for Single Image Super-Resolution ( http://arxiv.org/abs/2111.10988v1 )

ライセンス: Link先を確認
SeongUk Park, Nojun Kwak(参考訳) 最近の畳み込みニューラルネットワーク(cnn)ベースのシングルイメージスーパーレゾリューション(sisr)法は、回帰損失の最小化以外の適切なトレーニングアルゴリズムを見つけるのではなく、ネットワークアーキテクチャの構築に大きく依存している。 知識蒸留(KD)への適応は、SISRのさらなる改善をもたらす方法を開くことができ、モデル効率の観点からも有益である。 KDは、テストのための追加パラメータを用いることなく、ディープニューラルネットワーク(DNN)の性能を改善するモデル圧縮手法である。 キャパシティーパフォーマンスのより良いトレードオフを提供する能力によって、最近は軽視されている。 本稿では, SISRに適した新しい特徴蒸留法を提案する。 本稿では, SISRタスクに苦しむ既存のFitNetベースのFD手法の限界を示すとともに, 局所的特徴情報に着目したFDアルゴリズムの修正を提案する。 また,特定の画素位置に着目して特徴情報を抽出し,教師・教師間差異に基づくソフト特徴注目手法を提案する。 提案手法をLSFDと呼び,従来のFD法よりもSISR法の方が優れていることを確認した。

Recent improvements in convolutional neural network (CNN)-based single image super-resolution (SISR) methods rely heavily on fabricating network architectures, rather than finding a suitable training algorithm other than simply minimizing the regression loss. Adapting knowledge distillation (KD) can open a way for bringing further improvement for SISR, and it is also beneficial in terms of model efficiency. KD is a model compression method that improves the performance of Deep Neural Networks (DNNs) without using additional parameters for testing. It is getting the limelight recently for its competence at providing a better capacity-performance tradeoff. In this paper, we propose a novel feature distillation (FD) method which is suitable for SISR. We show the limitations of the existing FitNet-based FD method that it suffers in the SISR task, and propose to modify the existing FD algorithm to focus on local feature information. In addition, we propose a teacher-student-diff erence-based soft feature attention method that selectively focuses on specific pixel locations to extract feature information. We call our method local-selective feature distillation (LSFD) and verify that our method outperforms conventional FD methods in SISR problems.
翻訳日:2021-11-23 17:24:40 公開日:2021-11-22
# 3次元点雲分類における受動的転送攻撃と防御

Imperceptible Transfer Attack and Defense on 3D Point Cloud Classification ( http://arxiv.org/abs/2111.10990v1 )

ライセンス: Link先を確認
Daizong Liu, Wei Hu(参考訳) 近年、2d画像領域に対する攻撃や防御に多くの取り組みがなされているが、3dモデルの脆弱性を探求する手法はほとんどない。 既存の3D攻撃者は、通常、点雲上でポイントワイズ摂動を行い、変形した構造や外れ値となり、人間によって容易に知覚できる。 さらに、その逆の例はホワイトボックス設定の下で生成され、リモートブラックボックスモデルへの攻撃の際に頻繁に低い成功率を被る。 本稿では,新しいImperceptible Transfer Attack (ITA: Imperceptible Transfer Attack)を提案することによって,新たな2つの視点から3Dポイント・クラウド・アタックについて検討する。 1) 可視性: 近傍面の正規ベクトルに沿って各点の摂動方向を制約し, 同様の幾何学的性質を持つ生成例を導出し, 受動性を高める。 2) 伝達可能性: 最も有害な歪みを発生させ, 抵抗する逆変換例を強制する逆変換モデルを開発し, 未知のブラックボックスモデルへの変換性を向上させる。 さらに,よりロバストなブラックボックス3dモデルをトレーニングし,より識別可能なポイントクラウド表現を学習することで,ita攻撃から防御することを提案する。 広範な評価は,我々の ita 攻撃が最先端技術よりも不可避であり,伝達可能であることを示し,防衛戦略の優位性を検証する。

Although many efforts have been made into attack and defense on the 2D image domain in recent years, few methods explore the vulnerability of 3D models. Existing 3D attackers generally perform point-wise perturbation over point clouds, resulting in deformed structures or outliers, which is easily perceivable by humans. Moreover, their adversarial examples are generated under the white-box setting, which frequently suffers from low success rates when transferred to attack remote black-box models. In this paper, we study 3D point cloud attacks from two new and challenging perspectives by proposing a novel Imperceptible Transfer Attack (ITA): 1) Imperceptibility: we constrain the perturbation direction of each point along its normal vector of the neighborhood surface, leading to generated examples with similar geometric properties and thus enhancing the imperceptibility. 2) Transferability: we develop an adversarial transformation model to generate the most harmful distortions and enforce the adversarial examples to resist it, improving their transferability to unknown black-box models. Further, we propose to train more robust black-box 3D models to defend against such ITA attacks by learning more discriminative point cloud representations. Extensive evaluations demonstrate that our ITA attack is more imperceptible and transferable than state-of-the-arts and validate the superiority of our defense strategy.
翻訳日:2021-11-23 17:24:20 公開日:2021-11-22
# ロボットピッキングタスクにおける深度認識対象セグメンテーションと把持検出

Depth-aware Object Segmentation and Grasp Detection for Robotic Picking Tasks ( http://arxiv.org/abs/2111.11114v1 )

ライセンス: Link先を確認
Stefan Ainetter, Christoph B\"ohm, Rohit Dhakate, Stephan Weiss, Friedrich Fraundorfer(参考訳) 本稿では,並列平板グリッパーを用いたロボットピッキングタスクのための,クラス非依存オブジェクトセグメンテーションと把持検出のための深層ニューラルネットワークアーキテクチャを提案する。 ネットワークパラメータや計算複雑性を追加することなく、複雑なシーンにおけるポイント提案に基づくオブジェクトインスタンスセグメンテーションの精度を高める手法であるDeep-Aware Coordinate Convolution(CoordCon v)を導入する。 Depth-aware CoordConvは、深度データを使用して、オブジェクトの位置に関する事前情報を抽出し、高精度なオブジェクトインスタンスセグメンテーションを実現する。 これらの結果として得られたセグメンテーションマスクは、予測された把持候補と組み合わせられ、パラレルプレートグリッパーを用いた把持のための完全なシーン記述に繋がる。 ロボットピッキングデータセットであるsil\'eaneおよびocid_graspにおける把持検出とインスタンスセグメンテーションの精度を評価し,実世界のロボットピッキングタスクにおける関節把持検出とセグメンテーションの利点を示す。

In this paper, we present a novel deep neural network architecture for joint class-agnostic object segmentation and grasp detection for robotic picking tasks using a parallel-plate gripper. We introduce depth-aware Coordinate Convolution (CoordConv), a method to increase accuracy for point proposal based object instance segmentation in complex scenes without adding any additional network parameters or computation complexity. Depth-aware CoordConv uses depth data to extract prior information about the location of an object to achieve highly accurate object instance segmentation. These resulting segmentation masks, combined with predicted grasp candidates, lead to a complete scene description for grasping using a parallel-plate gripper. We evaluate the accuracy of grasp detection and instance segmentation on challenging robotic picking datasets, namely Sil\'eane and OCID_grasp, and show the benefit of joint grasp detection and segmentation on a real-world robotic picking task.
翻訳日:2021-11-23 17:23:55 公開日:2021-11-22
# セグメンテーションモデルの逆例は簡単に転送できる

Adversarial Examples on Segmentation Models Can be Easy to Transfer ( http://arxiv.org/abs/2111.11368v1 )

ライセンス: Link先を確認
Jindong Gu, Hengshuang Zhao, Volker Tresp, Philip Torr(参考訳) ディープニューラルネットワークに基づく画像分類は、小さくて準知覚できない摂動を持つ敵の例によって誤解されることがある。 さらに、ある分類モデルで作成された敵対的な例は、別の異なるモデルを騙すこともできる。 近年,分類モデルに対するブラックボックス攻撃の実現により,敵対例の転送可能性が高まっている。 分類の拡張として、セマンティックセグメンテーションはその敵の堅牢性に対して多くの注目を集めている。 しかし,セグメンテーションモデルにおける逆例の伝達性は体系的に研究されていない。 本研究では,このトピックを集中的に研究する。 まず,分類とセグメンテーションモデルにおける逆例の過剰適合現象について検討する。 ソースモデルに過度に適合することでトランスファービリティが制限されるという分類モデル上の観察とは対照的に,セグメントの逆例は必ずしもソースモデルに過度に適合しない。 オーバーフィッティングが提示されない場合でも、逆例の転送性は制限される。 我々は、この制限をセグメンテーションモデルのアーキテクチャ特性、すなわちマルチスケールオブジェクト認識に分類する。 次に,この制限を克服するために,動的スケーリングと呼ばれる単純かつ効果的な手法を提案する。 提案手法が達成した高い伝達性は,先行研究の観察と対照的に,セグメンテーションモデルの逆例が他のセグメンテーションモデルに容易に移行できることを示す。 我々の分析と提案は広範な実験によって支持されている。

Deep neural network-based image classification can be misled by adversarial examples with small and quasi-imperceptible perturbations. Furthermore, the adversarial examples created on one classification model can also fool another different model. The transferability of the adversarial examples has recently attracted a growing interest since it makes black-box attacks on classification models feasible. As an extension of classification, semantic segmentation has also received much attention towards its adversarial robustness. However, the transferability of adversarial examples on segmentation models has not been systematically studied. In this work, we intensively study this topic. First, we explore the overfitting phenomenon of adversarial examples on classification and segmentation models. In contrast to the observation made on classification models that the transferability is limited by overfitting to the source model, we find that the adversarial examples on segmentations do not always overfit the source models. Even when no overfitting is presented, the transferability of adversarial examples is limited. We attribute the limitation to the architectural traits of segmentation models, i.e., multi-scale object recognition. Then, we propose a simple and effective method, dubbed dynamic scaling, to overcome the limitation. The high transferability achieved by our method shows that, in contrast to the observations in previous work, adversarial examples on a segmentation model can be easy to transfer to other segmentation models. Our analysis and proposals are supported by extensive experiments.
翻訳日:2021-11-23 17:23:38 公開日:2021-11-22
# fazseg:foveal avascular zoneの定量化のための新しいユーザフレンドリーなソフトウェア

FAZSeg: A New User-Friendly Software for Quantification of the Foveal Avascular Zone ( http://arxiv.org/abs/2111.11419v1 )

ライセンス: Link先を確認
V. K. Viekash, Janarthanam Jothi Balaji, Vasudevan Lakshminarayanan(参考訳) 眼疾患および高近視は解剖学的基準点Foveal Avascular Zone(FAZ)次元に影響を及ぼす。 したがって、FAZs次元を正確に分割して定量化することが重要である。 私たちの知る限りでは、FAZの深い網膜層を分割する自動化ツールやアルゴリズムはありません。 本稿ではユーザフレンドリーなグラフィカルユーザインタフェース(GUI)を備えた新しいオープンアクセスソフトウェアについて述べる。

Various ocular diseases and high myopia influence the anatomical reference point Foveal Avascular Zone (FAZ) dimensions. Therefore, it is important to segment and quantify the FAZs dimensions accurately. To the best of our knowledge, there is no automated tool or algorithms available to segment the FAZ's deep retinal layer. The paper describes a new open-access software with a user-friendly Graphical User Interface (GUI) and compares the results with the ground truth (manual segmentation).
翻訳日:2021-11-23 17:23:18 公開日:2021-11-22
# エンゲージメントファセットの識別:aiベースの医療に不可欠なコンポーネント

Distinguishing Engagement Facets: An Essential Component for AI-based Healthcare ( http://arxiv.org/abs/2111.11138v1 )

ライセンス: Link先を確認
Hanan Salam(参考訳) ヒューマン・マシン・インタラクション(human-machine interaction)は、インタラクションに参加しているエンティティが認識されたコネクションを確立し、維持し、終わらせるプロセスである。 様々なAIベースの医療パラダイムにおける患者のエンゲージメント状態を監視することが不可欠である。 これには、自閉症スペクトラム障害(ASD)や注意欠陥・多動性障害(ADHD)などの社会的行動を変える医療条件が含まれる。 エンゲージメント(Engagement)は、行動、感情、精神的要素からなる多面構造である。 これまでの研究は、多面的なエンゲージメントを無視してきた。 本稿では,これらの特徴を文脈的特徴と関係性を用いて識別するシステムを提案する。 これによりさらにきめ細かい分析が可能になる。 従来型および深層学習モデルを含むいくつかの機械学習分類器を比較した。 f-score と平均絶対誤差 0.74 と 0.23 を持つ 74.57% の最高精度が、ニューラルネットワークに基づく2,242インスタンスのバランス付きデータセットで得られた。

Engagement in Human-Machine Interaction is the process by which entities participating in the interaction establish, maintain, and end their perceived connection. It is essential to monitor the engagement state of patients in various AI-based healthcare paradigms. This includes medical conditions that alter social behavior such as Autism Spectrum Disorder (ASD) or Attention-Deficit/Hy peractivity Disorder (ADHD). Engagement is a multifaceted construct which is composed of behavioral, emotional, and mental components. Previous research has neglected the multi-faceted nature of engagement. In this paper, a system is presented to distinguish these facets using contextual and relational features. This can facilitate further fine-grained analysis. Several machine learning classifiers including traditional and deep learning models are compared for this task. A highest accuracy of 74.57% with an F-Score and mean absolute error of 0.74 and 0.23 respectively was obtained on a balanced dataset of 22242 instances with neural network-based classification.
翻訳日:2021-11-23 17:21:39 公開日:2021-11-22
# 並列論理プログラミング:続編

Parallel Logic Programming: A Sequel ( http://arxiv.org/abs/2111.11218v1 )

ライセンス: Link先を確認
Agostino Dovier, Andrea Formisano, Gopal Gupta, Manuel V. Hermenegildo, Enrico Pontelli, Ricardo Rocha(参考訳) マルチコアと高接続アーキテクチャはユビキタスになり、言語ベースのアプローチによる並列処理への関心が高まっている。 その始まり以来、論理プログラミングは並列処理の自動利用の可能性を持つプログラミングパラダイムとして認識されてきた。 2001年に発表された並列論理プログラミングに関する最初の20年間の研究の総合的な調査は、研究者や開発者への基本的な参照として役立った。 内容は今日はかなり有効だが、それと同時に、この分野はそれに続く数年間で急速に進化を続けている。 これらの成果や進行中の研究の多くは、非常に大規模なクラスタ、マルチコアプロセッサの広範な普及、汎用グラフィック処理ユニットのゲームチェンジの役割、クラウドコンピューティングのユビキタスな普及といった、技術革新の急速なペースによって進められている。 これは、タブリング、より強力な静的解析と検証、Answer Set Programmingの急速な成長、そして一般的にはより成熟した実装とシステムなど、ロジックプログラミングにおける重要な進歩と平行している。 本調査は、2001年以降の並列論理プログラミングの研究を概観し、これまでの調査を自然に継続するものである。 この調査の目的は、論理プログラミングシステムの研究者や開発者へのリファレンスとしてだけでなく、論理に興味のある人にとっての読書や、論理プログラミング以外の並列システムの研究者にとって有用な情報源としての役割も果たすことだ。 論理プログラミングの理論と実践(tplp)における考察。

Multi-core and highly-connected architectures have become ubiquitous, and this has brought renewed interest in language-based approaches to the exploitation of parallelism. Since its inception, logic programming has been recognized as a programming paradigm with great potential for automated exploitation of parallelism. The comprehensive survey of the first twenty years of research in parallel logic programming, published in 2001, has served since as a fundamental reference to researchers and developers. The contents are quite valid today, but at the same time the field has continued evolving at a fast pace in the years that have followed. Many of these achievements and ongoing research have been driven by the rapid pace of technological innovation, that has led to advances such as very large clusters, the wide diffusion of multi-core processors, the game-changing role of general-purpose graphic processing units, and the ubiquitous adoption of cloud computing. This has been paralleled by significant advances within logic programming, such as tabling, more powerful static analysis and verification, the rapid growth of Answer Set Programming, and in general, more mature implementations and systems. This survey provides a review of the research in parallel logic programming covering the period since 2001, thus providing a natural continuation of the previous survey. The goal of the survey is to serve not only as a reference for researchers and developers of logic programming systems, but also as engaging reading for anyone interested in logic and as a useful source for researchers in parallel systems outside logic programming. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-11-23 17:21:22 公開日:2021-11-22
# $n$-queens 完了問題

The $n$-queens completion problem ( http://arxiv.org/abs/2111.11402v1 )

ライセンス: Link先を確認
Stefan Glock, David Munh\'a Correia and Benny Sudakov(参考訳) $n$-queens設定は、$n\times n$チェスボード上の互いに非攻撃的なクイーンの配置である。 1850年にネイクが導入した$n$-queensの完結問題は、ある部分構成が$n$-queens構成に完結できるかどうかを決定することである。 本稿では,この疑問の極端的側面,すなわち,完備化が常に可能となるような部分構成がどの程度小さくあるべきかについて検討する。 我々は、少なくとも$n/60$の非攻撃的な女王の配置を完了できることを示す。 また、完成できない約$n/4$のクイーンの部分構成を提供し、多くの興味深い問題を定式化します。 我々の証明はクイーンズ問題と二部グラフのレインボーマッチングを結び、線形計画双対性とともに確率的引数を用いる。

An $n$-queens configuration is a placement of $n$ mutually non-attacking queens on an $n\times n$ chessboard. The $n$-queens completion problem, introduced by Nauck in 1850, is to decide whether a given partial configuration can be completed to an $n$-queens configuration. In this paper, we study an extremal aspect of this question, namely: how small must a partial configuration be so that a completion is always possible? We show that any placement of at most $n/60$ mutually non-attacking queens can be completed. We also provide partial configurations of roughly $n/4$ queens that cannot be completed, and formulate a number of interesting problems. Our proofs connect the queens problem to rainbow matchings in bipartite graphs and use probabilistic arguments together with linear programming duality.
翻訳日:2021-11-23 17:21:01 公開日:2021-11-22
# ジェットシミュレーションと補正のための入射量子ニューラルネットワーク

Implicit Quantile Neural Networks for Jet Simulation and Correction ( http://arxiv.org/abs/2111.11415v1 )

ライセンス: Link先を確認
Braden Kronheim, Michelle P. Kuchera, Harrison B. Prosper, and Raghuram Ramanujan(参考訳) 条件密度の信頼性モデリングは、粒子物理学などの定量的科学分野において重要である。 物理学以外の領域では、暗黙的な量子ニューラルネットワーク(IQN)が条件密度の正確なモデルを提供することが示されている。 本稿では, 小型ムーンソレノイド (CMS) Open Data ポータルのツールとシミュレーションデータを用いて, IQNs のジェットシミュレーションと補正に有効であることを示す。

Reliable modeling of conditional densities is important for quantitative scientific fields such as particle physics. In domains outside physics, implicit quantile neural networks (IQN) have been shown to provide accurate models of conditional densities. We present a successful application of IQNs to jet simulation and correction using the tools and simulated data from the Compact Muon Solenoid (CMS) Open Data portal.
翻訳日:2021-11-23 17:20:48 公開日:2021-11-22
# 自律型宇宙機の運用

Operations for Autonomous Spacecraft ( http://arxiv.org/abs/2111.10970v1 )

ライセンス: Link先を確認
Rebecca Castano, Tiago Vaquero, Federico Rossi, Vandi Verma, Ellen Van Wyk, Dan Allard, Bennett Huffmann, Erin M. Murphy, Nihal Dhamani, Robert A. Hewitt, Scott Davidoff, Rashied Amini, Anthony Barrett, Julie Castillo-Rogez, Steve A. Chien, Mathieu Choukroun, Alain Dadaian, Raymond Francis, Benjamin Gorr, Mark Hofstadter, Mitch Ingham, Cristina Sorice and Iain Tierney(参考訳) 計画とスケジューリング、科学的目標の特定、コンテンツに基づくデータの要約といった、オンボードの自律技術は、エキサイティングな新しい宇宙科学ミッションに繋がる。 しかし、そのような自律能力を備えた運用ミッションの課題は、ミッション概念の考慮に十分な詳細レベルには研究されていない。 これらの自律機能は、現在のオペレーションプロセス、プラクティス、ツールの変更を必要とする。 我々は,地上要員と搭載アルゴリズムの共通モデルにより,運用者や科学者が自律型宇宙船を運用できるようにするために必要な変化を評価するためのケーススタディを開発した。 我々は、運用者や科学者が希望する意図を宇宙船に伝えるために必要な新しい運用ツールとワークフローを評価し、宇宙船の軌道上における決定と状態の再構築と説明を可能にする。 これらのツールのモックアップは、ユーザー研究において、プロセスとツールの共有理解フレームワークの実現と、オペレーターと科学者がミッション科学の目的を効果的に達成する能力における効果を理解するために使用された。

Onboard autonomy technologies such as planning and scheduling, identification of scientific targets, and content-based data summarization, will lead to exciting new space science missions. However, the challenge of operating missions with such onboard autonomous capabilities has not been studied to a level of detail sufficient for consideration in mission concepts. These autonomy capabilities will require changes to current operations processes, practices, and tools. We have developed a case study to assess the changes needed to enable operators and scientists to operate an autonomous spacecraft by facilitating a common model between the ground personnel and the onboard algorithms. We assess the new operations tools and workflows necessary to enable operators and scientists to convey their desired intent to the spacecraft, and to be able to reconstruct and explain the decisions made onboard and the state of the spacecraft. Mock-ups of these tools were used in a user study to understand the effectiveness of the processes and tools in enabling a shared framework of understanding, and in the ability of the operators and scientists to effectively achieve mission science objectives.
翻訳日:2021-11-23 17:20:26 公開日:2021-11-22
# 時間-トポロジカルフローを用いた動的グラフ埋め込み

WalkingTime: Dynamic Graph Embedding Using Temporal-Topological Flows ( http://arxiv.org/abs/2111.10928v1 )

ライセンス: Link先を確認
David Bayani(参考訳) この4年間で,ダイナミックネットワークの組み込みに注目が集まっている。 しかし、既存の動的埋め込み法は、この問題をグローバルな離散状態列上のトポロジーの進化に限られていると考えている。 本研究では, 時間処理を基本とする新しい埋め込みアルゴリズムであるwalkingtimeを提案し, 連続的に発生する現象の局所的考察を可能にした。グローバル時間ステップを動的環境の一階市民と考える者もいるが, 時間的および位相的局所的相互作用からなる流れを原始的として保持する。 キーワード:動的ネットワーク、表現学習、動的グラフ埋め込み、時間的トポロジカルフロー、時間的ランダムウォーク、時間的ネットワーク、リアルタイム知識グラフ、ストリーミンググラフ、オンラインネットワーク、非同期グラフ、非同期ネットワーク、グラフアルゴリズム、ディープラーニング、ネットワーク分析、データマイニング、ネットワークサイエンス

Increased attention has been paid over the last four years to dynamic network embedding. Existing dynamic embedding methods, however, consider the problem as limited to the evolution of a topology over a sequence of global, discrete states. We propose a novel embedding algorithm, WalkingTime, based on a fundamentally different handling of time, allowing for the local consideration of continuously occurring phenomena; while others consider global time-steps to be first-order citizens of the dynamic environment, we hold flows comprised of temporally and topologically local interactions as our primitives, without any discretization or alignment of time-related attributes being necessary. Keywords: dynamic networks , representation learning , dynamic graph embedding , time-respecting paths , temporal-topological flows , temporal random walks , temporal networks , real-attributed knowledge graphs , streaming graphs , online networks , asynchronous graphs , asynchronous networks , graph algorithms , deep learning , network analysis , datamining , network science
翻訳日:2021-11-23 17:18:45 公開日:2021-11-22
# イジングモデルにおける機械学習の特徴抽出と相転移点

Feature extraction of machine learning and phase transition point of Ising model ( http://arxiv.org/abs/2111.11166v1 )

ライセンス: Link先を確認
Shotaro Shiba Funai(参考訳) 制限ボルツマン機械 (rbm) によって抽出された特徴について, イジングモデルのスピン配置を様々な温度で訓練する場合に検討した。 トレーニングされたRBMを用いて、スピン配置の反復的再構成(RBMフロー)の流れを取得し、場合によってはイジングモデルにおける相転移点$T=T_c$に流れが近づく。 抽出した特徴は再構成された構成で強調されるため、そのような固定点における構成は抽出した特徴のみを記述すべきである。 次に, 種々のパラメータに対する固定点の依存性について検討し, RBM流の固定点が相転移点にある条件を推測する。 また、トレーニングされたRBMの重み行列を解析することにより、予測を支持する証拠を提供する。

We study the features extracted by the Restricted Boltzmann Machine (RBM) when it is trained with spin configurations of Ising model at various temperatures. Using the trained RBM, we obtain the flow of iterative reconstructions (RBM flow) of the spin configurations and find that in some cases the flow approaches the phase transition point $T=T_c$ in Ising model. Since the extracted features are emphasized in the reconstructed configurations, the configurations at such a fixed point should describe nothing but the extracted features. Then we investigate the dependence of the fixed point on various parameters and conjecture the condition where the fixed point of the RBM flow is at the phase transition point. We also provide supporting evidence for the conjecture by analyzing the weight matrix of the trained RBM.
翻訳日:2021-11-23 17:18:24 公開日:2021-11-22
# 物理を意識した機械学習による量子デバイスにおける現実のギャップを埋める

Bridging the reality gap in quantum devices with physics-aware machine learning ( http://arxiv.org/abs/2111.11285v1 )

ライセンス: Link先を確認
D.L. Craig, H. Moon, F. Fedele, D.T. Lennon, B. Van Straaten, F. Vigneau, L.C. Camenzind, D.M. Zumb\"uhl, G.A.D. Briggs, M.A. Osborne, D. Sejdinovic, and N. Ares(参考訳) 現実とシミュレーションの相違は、固体量子デバイスの最適化とスケーラビリティを妨げた。 物質欠陥の予測不可能な分布によって引き起こされる障害は、現実のギャップに大きく寄与する。 特に物理モデル,ディープラーニング,ガウス確率場,ベイズ推論を組み合わせたアプローチを用いて,このギャップを埋める。 このアプローチにより、電子輸送データからナノスケールの電子機器の障害ポテンシャルを推定することができる。 この推測は、AlGaAs/GaAsの側方で定義された量子ドットデバイスに必要なゲート電圧値に関するアルゴリズムの予測を検証することで検証され、二重量子ドット状態に対応する電流特性が生成される。

The discrepancies between reality and simulation impede the optimisation and scalability of solid-state quantum devices. Disorder induced by the unpredictable distribution of material defects is one of the major contributions to the reality gap. We bridge this gap using physics-aware machine learning, in particular, using an approach combining a physical model, deep learning, Gaussian random field, and Bayesian inference. This approach has enabled us to infer the disorder potential of a nanoscale electronic device from electron transport data. This inference is validated by verifying the algorithm's predictions about the gate voltage values required for a laterally-defined quantum dot device in AlGaAs/GaAs to produce current features corresponding to a double quantum dot regime.
翻訳日:2021-11-23 17:17:56 公開日:2021-11-22
# 受験者を通じて分類器に推論するタイミングを人間に教える

Teaching Humans When To Defer to a Classifier via Examplars ( http://arxiv.org/abs/2111.11297v1 )

ライセンス: Link先を確認
Hussein Mozannar, Arvind Satyanarayan, David Sontag(参考訳) 専門家の意思決定者は、さまざまなタスクでデータ駆動の自動化エージェントに依存し始めています。 このコラボレーションが適切に機能するためには、人間の意思決定者はエージェントに依存しない時期と時期のメンタルモデルを持つ必要がある。 本研究は,人間の意思決定者がエージェントの強みと弱みの有効な精神モデルを学ぶことを目的とする。 この目的を達成するために,人間がエージェントの助けを借りてタスクを解決し,いつ,いつ,いつ延期するかのガイドラインを定式化しようとする,模範的な教育戦略を提案する。 本稿では, 学習事例を取り巻く地域において, 身近なルールを適用したAIのメンタルモデルについて, 新たなパラメータ化を提案する。 このモデルを用いて、代表的教示セットを選択するための準最適戦略を導出する。 本研究では, 群集作業員を用いたマルチホップ質問応答タスクにおける指導戦略の利点を検証するとともに, 作業員が学習段階から正しい教訓を導き出すと, 作業性能が向上することを確認した。

Expert decision makers are starting to rely on data-driven automated agents to assist them with various tasks. For this collaboration to perform properly, the human decision maker must have a mental model of when and when not to rely on the agent. In this work, we aim to ensure that human decision makers learn a valid mental model of the agent's strengths and weaknesses. To accomplish this goal, we propose an exemplar-based teaching strategy where humans solve the task with the help of the agent and try to formulate a set of guidelines of when and when not to defer. We present a novel parameterization of the human's mental model of the AI that applies a nearest neighbor rule in local regions surrounding the teaching examples. Using this model, we derive a near-optimal strategy for selecting a representative teaching set. We validate the benefits of our teaching strategy on a multi-hop question answering task using crowd workers and find that when workers draw the right lessons from the teaching stage, their task performance improves, we furthermore validate our method on a set of synthetic experiments.
翻訳日:2021-11-23 17:16:11 公開日:2021-11-22
# 単調演算子学習(MOL)を用いたモデルベース深層学習の改良

Improved Model based Deep Learning using Monotone Operator Learning (MOL) ( http://arxiv.org/abs/2111.11380v1 )

ライセンス: Link先を確認
Aniket Pramanik, Mathews Jacob(参考訳) アンローリングに依存するモデルベースディープラーニング(MoDL)アルゴリズムが,イメージリカバリの強力なツールとして登場している。 本研究では,メモリコストの増大,摂動に対するロバスト性保証の欠如,低解釈性など,現在の未ロールフレームワークに関連する課題を克服するための,新しいモノトーン演算子学習フレームワークを提案する。 有限個の繰り返しを使用する現在のアンロールアーキテクチャとは異なり、我々はDeep equilibrium(DEQ)フレームワークを使用してアルゴリズムを収束させ、ジャコビアン反復を用いて畳み込みニューラルネットワークブロックの勾配を評価する。 このアプローチはメモリ需要を大幅に削減し、高次元問題へのMoDLアルゴリズムの拡張を容易にする。 我々はcnnをモノトーン演算子に制限することで、収束特性とロバスト性保証が保証されたアルゴリズムを導入することができる。 並列MRIにおける提案手法の有用性を実証する。

Model-based deep learning (MoDL) algorithms that rely on unrolling are emerging as powerful tools for image recovery. In this work, we introduce a novel monotone operator learning framework to overcome some of the challenges associated with current unrolled frameworks, including high memory cost, lack of guarantees on robustness to perturbations, and low interpretability. Unlike current unrolled architectures that use finite number of iterations, we use the deep equilibrium (DEQ) framework to iterate the algorithm to convergence and to evaluate the gradient of the convolutional neural network blocks using Jacobian iterations. This approach significantly reduces the memory demand, facilitating the extension of MoDL algorithms to high dimensional problems. We constrain the CNN to be a monotone operator, which allows us to introduce algorithms with guaranteed convergence properties and robustness guarantees. We demonstrate the utility of the proposed scheme in the context of parallel MRI.
翻訳日:2021-11-23 17:15:40 公開日:2021-11-22
# 密度予測のためのトポロジカル規則化

Topological Regularization for Dense Prediction ( http://arxiv.org/abs/2111.10984v1 )

ライセンス: Link先を確認
Deqing Fu, Bradley J. Nelson(参考訳) 深度知覚やセマンティックセグメンテーションといった複雑な予測タスクは、イメージを接続されたコンポーネントに分割したり、画像内のオブジェクトに対応する少数の局所的極限を持つ関数を推定するという、具体的なトポロジ的記述を持つコンピュータビジョンにおいて重要な応用である。 我々は、これらのトポロジ的記述を伴う密集予測タスクに使用できる永続的ホモロジーに基づくトポロジ的正規化の形式を開発する。 実験結果は、トレーニング中のニューラルネットワークの内部状態に対するトポロジカル正則化の新たな利用を可能にし、正則化の計算コストを低減できる、トレーニングされたニューラルネットワークの内部アクティベーションにも出力トポロジーが現れることを示した。 内部アクティベーションのトポロジカルな正規化は、いくつかの問題やアーキテクチャにおける収束とテストベンチマークの改善につながることを実証する。

Dense prediction tasks such as depth perception and semantic segmentation are important applications in computer vision that have a concrete topological description in terms of partitioning an image into connected components or estimating a function with a small number of local extrema corresponding to objects in the image. We develop a form of topological regularization based on persistent homology that can be used in dense prediction tasks with these topological descriptions. Experimental results show that the output topology can also appear in the internal activations of trained neural networks which allows for a novel use of topological regularization to the internal states of neural networks during training, reducing the computational cost of the regularization. We demonstrate that this topological regularization of internal activations leads to improved convergence and test benchmarks on several problems and architectures.
翻訳日:2021-11-23 17:15:07 公開日:2021-11-22
# (参考訳) 視覚トランスフォーマーを用いたベンチマーク検出転送学習 [全文訳有]

Benchmarking Detection Transfer Learning with Vision Transformers ( http://arxiv.org/abs/2111.11429v1 )

ライセンス: CC BY 4.0
Yanghao Li, Saining Xie, Xinlei Chen, Piotr Dollar, Kaiming He, Ross Girshick(参考訳) オブジェクト検出は、トレーニング済みのネットワークパラメータが、精度の向上やトレーニング速度などのメリットを優先するかどうかをテストするために使用される中央ダウンストリームタスクである。 オブジェクト検出手法の複雑さにより、ViT(Vision Transformer)モデルのような新しいアーキテクチャが登場すると、このベンチマークは簡単ではない。 これらの困難(アーキテクチャの不整合性、遅いトレーニング、高いメモリ消費、未知のトレーニング公式など)は、最近の研究で標準のViTモデルによる検出転送学習のベンチマークを妨げている。 本稿では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして使用できるトレーニング手法を提案する。 これらのツールは、最近の最先端の自己教師付き学習手法、教師付き初期化、強いランダム初期化ベースラインを含む5つのViT初期化を比較し、研究の第一の目標を導いた。 その結果,最近のマスキングによる教師なし学習手法は,COCOにおける説得力のある伝達学習改善を初めて実現し,教師付きおよび事前教師付き事前学習法に比べて,ボックスAPを4%(絶対)増加させる可能性が示唆された。 さらに、これらのマスキングベースの初期化は、モデルのサイズが大きくなるにつれて改善される。

Object detection is a central downstream task used to test if pre-trained network parameters confer benefits, such as improved accuracy or training speed. The complexity of object detection methods can make this benchmarking non-trivial when new architectures, such as Vision Transformer (ViT) models, arrive. These difficulties (e.g., architectural incompatibility, slow training, high memory consumption, unknown training formulae, etc.) have prevented recent studies from benchmarking detection transfer learning with standard ViT models. In this paper, we present training techniques that overcome these challenges, enabling the use of standard ViT models as the backbone of Mask R-CNN. These tools facilitate the primary goal of our study: we compare five ViT initializations, including recent state-of-the-art self-supervised learning methods, supervised initialization, and a strong random initialization baseline. Our results show that recent masking-based unsupervised learning methods may, for the first time, provide convincing transfer learning improvements on COCO, increasing box AP up to 4% (absolute) over supervised and prior self-supervised pre-training methods. Moreover, these masking-based initializations scale better, with the improvement growing as model size increases.
翻訳日:2021-11-23 17:14:15 公開日:2021-11-22
# モーメントムの経時的変化:安定性と収束性

Gradient Temporal Difference with Momentum: Stability and Convergence ( http://arxiv.org/abs/2111.11004v1 )

ライセンス: Link先を確認
Rohan Deb, Shalabh Bhatnagar(参考訳) 勾配時間差(Gradient temporal difference, Gradient TD)アルゴリズムは、強化学習におけるポリシー評価に用いられる確率近似(SA)アルゴリズムの一般的なクラスである。 ここでは,重球運動量項を付加した勾配tdアルゴリズムを検討し,これらのアルゴリズムが漸近的に収束することを保証するステップサイズと運動量パラメータの選択を提供する。 その際,重球勾配tdイテレートを,異なるステップサイズで3つの別々のイテレートに分解する。 まず,現在の文献から得られた結果を用いて,ワンタイムスケールsa環境下での反復分析を行った。 しかし、1時間スケールのケースは制限的であり、3時間スケールのイテレート分解を見ることでより一般的な分析が可能である。 この過程において、一般三段階SAの安定性と収束性の最初の条件を提供する。 次に,重球勾配tdアルゴリズムが3回のsa解析により収束することを示す。 最後に,これらのアルゴリズムを標準RL問題に対して評価し,バニラアルゴリズムの性能改善を報告する。

Gradient temporal difference (Gradient TD) algorithms are a popular class of stochastic approximation (SA) algorithms used for policy evaluation in reinforcement learning. Here, we consider Gradient TD algorithms with an additional heavy ball momentum term and provide choice of step size and momentum parameter that ensures almost sure convergence of these algorithms asymptotically. In doing so, we decompose the heavy ball Gradient TD iterates into three separate iterates with different step sizes. We first analyze these iterates under one-timescale SA setting using results from current literature. However, the one-timescale case is restrictive and a more general analysis can be provided by looking at a three-timescale decomposition of the iterates. In the process, we provide the first conditions for stability and convergence of general three-timescale SA. We then prove that the heavy ball Gradient TD algorithm is convergent using our three-timescale SA analysis. Finally, we evaluate these algorithms on standard RL problems and report improvement in performance over the vanilla algorithms.
翻訳日:2021-11-23 16:57:46 公開日:2021-11-22
# DAPPER:モバイルセンシングにおけるドメイン適応の性能推定

DAPPER: Performance Estimation of Domain Adaptation in Mobile Sensing ( http://arxiv.org/abs/2111.11053v1 )

ライセンス: Link先を確認
Taesik Gong, Yewon Kim, Adiba Orzikulova, Yunxin Liu, Sung Ju Hwang, Jinwoo Shin, Sung-Ju Lee(参考訳) モバイルデバイスのセンサーを利用し、新しいサービスを提供する機械学習を適用する多くのアプリケーションが登場した。 しかし、異なるユーザ、デバイス、環境、ハイパーパラメータといったさまざまな要因がアプリケーションの性能に影響を与え、ドメインシフト(トレーニングソースデータセットからのターゲットユーザの分散シフト)が重要な問題となる。 最近のドメイン適応手法はこの問題を解決しようとするが、様々な要因の複雑な相互作用によってその効果が制限されることが多い。 訓練されていないドメインのパフォーマンスを正確に推定すれば、パフォーマンスの不確実性が大幅に低下する可能性がある。 対象領域における適応性能を推定するdapper(domain adaptation performance estimator)を提案する。 我々の直感は、ターゲットデータ上のモデルの出力が、ターゲット領域におけるモデルの実パフォーマンスの手がかりを提供するということです。 DAPPERは、高価なラベリングコストやデプロイ後の追加トレーニングを必要としない。 4つの実世界のセンシングデータセットによる評価を4つのベースラインと比較したところ,dapperは平均17%の精度でベースラインを上回っていることがわかった。 さらに、デバイス上での実験では、DAPPERはベースラインに比べて計算オーバーヘッドが最大で216倍少ないことが示されている。

Many applications that utilize sensors in mobile devices and apply machine learning to provide novel services have emerged. However, various factors such as different users, devices, environments, and hyperparameters, affect the performance for such applications, thus making the domain shift (i.e., distribution shift of a target user from the training source dataset) an important problem. Although recent domain adaptation techniques attempt to solve this problem, the complex interplay between the diverse factors often limits their effectiveness. We argue that accurately estimating the performance in untrained domains could significantly reduce performance uncertainty. We present DAPPER (Domain AdaPtation Performance EstimatoR) that estimates the adaptation performance in a target domain with only unlabeled target data. Our intuition is that the outputs of a model on the target data provide clues for the model's actual performance in the target domain. DAPPER does not require expensive labeling costs nor involve additional training after deployment. Our evaluation with four real-world sensing datasets compared against four baselines shows that DAPPER outperforms the baselines by on average 17% in estimation accuracy. Moreover, our on-device experiment shows that DAPPER achieves up to 216X less computation overhead compared with the baselines.
翻訳日:2021-11-23 16:57:31 公開日:2021-11-22
# 多様性駆動型畳み込みアンサンブルによる教師なし時系列外乱検出-拡張バージョン

Unsupervised Time Series Outlier Detection with Diversity-Driven Convolutional Ensembles -- Extended Version ( http://arxiv.org/abs/2111.11108v1 )

ライセンス: Link先を確認
David Campos, Tung Kieu, Chenjuan Guo, Feiteng Huang, Kai Zheng, Bin Yang, Christian S. Jensen(参考訳) 社会、医療、産業、科学のプロセスがデジタル化され、センシング技術が展開され、時系列データの量が増え、新しい、あるいは改良されたアプリケーションが増えています。 この設定では、外れ値検出は頻繁に重要であり、ニューラルネットワークに基づく解が存在する一方で、精度と効率の両面で改善の余地を残している。 このような改善を達成するために,我々は多様性を主体とした畳み込み型アンサンブルを提案する。 精度を向上させるために、アンサンブルは、時系列の時間依存性をキャプチャできる畳み込みシーケンスからシーケンスへのオートエンコーダ上に構築された複数の基本的な異常検出モデルを採用している。 さらに,新しいダイバーシティ駆動トレーニング手法は,アンサンブルの精度向上を目的として,基本モデルの多様性を維持している。 効率を向上させるため、この手法は訓練中に高い並列性を実現する。 さらに、モデルのパラメータを1つの基本モデルから別のモデルに転送することで、トレーニング時間を短縮することができる。 本稿では, 実世界の多変量時系列を用いて, 新たなアプローチの根底にある設計選択について考察し, 精度と効率性を向上できることを示す。 これはPVLDB 2022に表示される"Unsupervised Time Series Outlier Detection with Diversity-Driven Convolutional Ensembles"の拡張版である。

With the sweeping digitalization of societal, medical, industrial, and scientific processes, sensing technologies are being deployed that produce increasing volumes of time series data, thus fueling a plethora of new or improved applications. In this setting, outlier detection is frequently important, and while solutions based on neural networks exist, they leave room for improvement in terms of both accuracy and efficiency. With the objective of achieving such improvements, we propose a diversity-driven, convolutional ensemble. To improve accuracy, the ensemble employs multiple basic outlier detection models built on convolutional sequence-to-sequence autoencoders that can capture temporal dependencies in time series. Further, a novel diversity-driven training method maintains diversity among the basic models, with the aim of improving the ensemble's accuracy. To improve efficiency, the approach enables a high degree of parallelism during training. In addition, it is able to transfer some model parameters from one basic model to another, which reduces training time. We report on extensive experiments using real-world multivariate time series that offer insight into the design choices underlying the new approach and offer evidence that it is capable of improved accuracy and efficiency. This is an extended version of "Unsupervised Time Series Outlier Detection with Diversity-Driven Convolutional Ensembles", to appear in PVLDB 2022.
翻訳日:2021-11-23 16:57:12 公開日:2021-11-22
# プロトタイプ学習を用いた事例ベースオフポリシー政策評価

Case-based off-policy policy evaluation using prototype learning ( http://arxiv.org/abs/2111.11113v1 )

ライセンス: Link先を確認
Anton Matsson, Fredrik D. Johansson(参考訳) 重要度サンプリング(IS)は、政治外の政策評価にしばしば用いられるが、特に行動方針が不明でデータから推定しなければならない場合、いくつかの問題が発生する。 目標と行動方針の有意な違いは、例えば高い分散と非評価行動による不確実な値推定をもたらす可能性がある。 ブラックボックスモデルを用いて行動ポリシーを推定すると、潜在的な問題を診断し、どの入力が提案された行動と結果の値に異なるかを決定することは困難である。 そこで本研究では,プロトタイプ学習を用いてISの行動ポリシーを推定する。 我々はこのアプローチを敗血症治療の方針評価に適用し, 対象と行動方針の差異を要約し, 基準推定値に匹敵する精度を保ちながら, プロトタイプの妥当性を実証した。 また、ターゲットポリシーのどの部分が見積もりに最も影響しているかをよりよく理解するために、プロトタイプの観点から推定値についても記述する。 シミュレータを用いて,モデルのプロトタイプ使用を制限することにより生じるバイアスについて検討する。

Importance sampling (IS) is often used to perform off-policy policy evaluation but is prone to several issues, especially when the behavior policy is unknown and must be estimated from data. Significant differences between the target and behavior policies can result in uncertain value estimates due to, for example, high variance and non-evaluated actions. If the behavior policy is estimated using black-box models, it can be hard to diagnose potential problems and to determine for which inputs the policies differ in their suggested actions and resulting values. To address this, we propose estimating the behavior policy for IS using prototype learning. We apply this approach in the evaluation of policies for sepsis treatment, demonstrating how the prototypes give a condensed summary of differences between the target and behavior policies while retaining an accuracy comparable to baseline estimators. We also describe estimated values in terms of the prototypes to better understand which parts of the target policies have the most impact on the estimates. Using a simulator, we study the bias resulting from restricting models to use prototypes.
翻訳日:2021-11-23 16:56:47 公開日:2021-11-22
# グラフに基づくニューラルネットワーク表現の類似性

Graph-Based Similarity of Neural Network Representations ( http://arxiv.org/abs/2111.11165v1 )

ライセンス: Link先を確認
Zuohui Chen, Yao Lu, Wen Yang, Qi Xuan, Xiaoniu Yang(参考訳) ディープニューラルネットワーク(DNN)におけるブラックボックス表現を理解することは、ディープラーニングにおいて不可欠な問題である。 本研究では,レイヤ特徴の類似度を測定するために,グラフベース類似度(GBS)を提案する。 特徴マップ上で直接類似度を計算する以前の作業とは対照的に、gbsは隠れたレイヤ出力で構築されたグラフに基づいて相関を測定する。 入力サンプルをノードとして扱い、それに対応する層をエッジとして出力することにより、各層に対するDNN表現のグラフを構築する。 レイヤーのグラフ間の類似性は、異なるデータセットでトレーニングされたモデルの表現と初期化の間の対応を識別する。 直交変換への不変性や等方性スケーリングへの不変性を含むgbsの不変性特性を実証・証明し,gbsとckaを比較した。 GBSは、類似性を反映した最先端のパフォーマンスを示し、隠れた層空間における対角的なサンプルの振る舞いを説明する洞察を提供する。

Understanding the black-box representations in Deep Neural Networks (DNN) is an essential problem in deep learning. In this work, we propose Graph-Based Similarity (GBS) to measure the similarity of layer features. Contrary to previous works that compute the similarity directly on the feature maps, GBS measures the correlation based on the graph constructed with hidden layer outputs. By treating each input sample as a node and the corresponding layer output similarity as edges, we construct the graph of DNN representations for each layer. The similarity between graphs of layers identifies the correspondences between representations of models trained in different datasets and initializations. We demonstrate and prove the invariance property of GBS, including invariance to orthogonal transformation and invariance to isotropic scaling, and compare GBS with CKA. GBS shows state-of-the-art performance in reflecting the similarity and provides insights on explaining the adversarial sample behavior on the hidden layer space.
翻訳日:2021-11-23 16:56:29 公開日:2021-11-22
# 保守主義の中でより良い計画--アクタ修正によるオフラインマルチエージェント強化学習

Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement Learning with Actor Rectification ( http://arxiv.org/abs/2111.11188v1 )

ライセンス: Link先を確認
Ling Pan, Longbo Huang, Tengyu Ma, Huazhe Xu(参考訳) 保守主義の概念は、エージェントが事前に収集されたデータセットから学習するオフライン強化学習(RL)において、大きな進歩をもたらした。 しかし、実世界の多くのシナリオが複数のエージェント間の相互作用に関わるため、より実用的なマルチエージェント環境でオフラインRLを解決することは、依然としてオープンな問題である。 オンラインRLアルゴリズムをマルチエージェント設定に転送する最近の成功を考えると、オフラインRLアルゴリズムはマルチエージェント設定に直接転送することも期待できる。 驚いたことに、保守主義に基づくアルゴリズムがマルチエージェント設定に適用されると、エージェントの増加とともに性能が著しく低下する。 劣化を緩和するためには、値関数のランドスケープが非コンケーブであり、政策の勾配改善が局所最適の傾向にあるという重要な問題を特定する。 複数のエージェントは、任意のエージェントによる最適下限ポリシーが非協調的なグローバルな失敗を引き起こす可能性があるため、問題を悪化させる。 この直観に従えば,1次政策勾配と0次最適化の効果的な組み合わせにより,アクターの保存的価値関数をより良く最適化するための,単純かつ効果的なオフラインマルチエージェントrlとアクタ整流 (omar) を提案する。 シンプルさにもかかわらず、OMARはマルチエージェント連続制御ベンチマークの最先端性能で強いベースラインを著しく上回っている。

The idea of conservatism has led to significant progress in offline reinforcement learning (RL) where an agent learns from pre-collected datasets. However, it is still an open question to resolve offline RL in the more practical multi-agent setting as many real-world scenarios involve interaction among multiple agents. Given the recent success of transferring online RL algorithms to the multi-agent setting, one may expect that offline RL algorithms will also transfer to multi-agent settings directly. Surprisingly, when conservatism-based algorithms are applied to the multi-agent setting, the performance degrades significantly with an increasing number of agents. Towards mitigating the degradation, we identify that a key issue that the landscape of the value function can be non-concave and policy gradient improvements are prone to local optima. Multiple agents exacerbate the problem since the suboptimal policy by any agent could lead to uncoordinated global failure. Following this intuition, we propose a simple yet effective method, Offline Multi-Agent RL with Actor Rectification (OMAR), to tackle this critical challenge via an effective combination of first-order policy gradient and zeroth-order optimization methods for the actor to better optimize the conservative value function. Despite the simplicity, OMAR significantly outperforms strong baselines with state-of-the-art performance in multi-agent continuous control benchmarks.
翻訳日:2021-11-23 16:54:45 公開日:2021-11-22
# ProxyFL: Proxy Model Sharingによる分散フェデレーション学習

ProxyFL: Decentralized Federated Learning through Proxy Model Sharing ( http://arxiv.org/abs/2111.11343v1 )

ライセンス: Link先を確認
Shivam Kalra, Junfeng Wen, Jesse C. Cresswell, Maksims Volkovs, Hamid R. Tizhoosh(参考訳) 金融や医療といった高度に規制された分野の機関は、データ共有に関する制限的なルールを持つことが多い。 フェデレーション学習(federated learning)は分散学習フレームワークであり、分散データの複数機関によるコラボレーションを可能にし、各コラボレータのデータプライバシの保護を改善している。 本稿では,proxyfl(proxy-based federated learning)と呼ばれる分散連合学習のための通信効率の高い手法を提案する。 proxyflの各参加者は、プライベートモデルと、参加者のプライバシを保護するように設計された公開共有プロキシモデルという2つのモデルを維持している。 プロキシモデルは、集中型サーバを必要とせずに、PushSumメソッドを使って参加者間の効率的な情報交換を可能にする。 提案手法は,モデルの不均一性を許容することにより,標準的フェデレーション学習の大幅な制限を解消する。 さらに、プロキシによる通信プロトコルは、差分プライバシー分析を用いてより強力なプライバシー保証をもたらす。 一般的なイメージデータセットに関する実験や、3万以上の高品質なギガピクセルのヒストロジーを用いたパンカンサー診断の問題は、proxyflが通信オーバーヘッドとより強力なプライバシで既存の代替品よりも優れていることを示している。

Institutions in highly regulated domains such as finance and healthcare often have restrictive rules around data sharing. Federated learning is a distributed learning framework that enables multi-institutional collaborations on decentralized data with improved protection for each collaborator's data privacy. In this paper, we propose a communication-effici ent scheme for decentralized federated learning called ProxyFL, or proxy-based federated learning. Each participant in ProxyFL maintains two models, a private model, and a publicly shared proxy model designed to protect the participant's privacy. Proxy models allow efficient information exchange among participants using the PushSum method without the need of a centralized server. The proposed method eliminates a significant limitation of canonical federated learning by allowing model heterogeneity; each participant can have a private model with any architecture. Furthermore, our protocol for communication by proxy leads to stronger privacy guarantees using differential privacy analysis. Experiments on popular image datasets, and a pan-cancer diagnostic problem using over 30,000 high-quality gigapixel histology whole slide images, show that ProxyFL can outperform existing alternatives with much less communication overhead and stronger privacy.
翻訳日:2021-11-23 16:54:11 公開日:2021-11-22
# マルチヘッドニューラルネットワークによる多言語エージェント

Multi-lingual agents through multi-headed neural networks ( http://arxiv.org/abs/2111.11129v1 )

ライセンス: Link先を確認
J. D. Thomas, R. Santos-Rodr\'iguez, R. Piechocki, M. Anca(参考訳) 本稿では,複数対の独立学習者が様々な周波数で対話する環境での創発的コミュニケーションに着目した協調型マルチエージェント強化学習について考察する。 この文脈では、複数の異なる非互換言語が出現する。 エージェントが別の言語の話者と遭遇すると、効率的な会話ができるまでに適応期間が必要となる。 この適応により、新しい言語が出現し、前の言語が忘れられることになる。 原則としてこれは、エージェントが複数の言語を学習し、維持することで軽減できる破滅的な忘れ方問題の例である。 我々は,連続学習文献から着想を得て,エージェントを多言語化するためのマルチヘッドニューラルネットワークを備える。 提案手法は,参照型MNISTベースの通信ゲームにおいて実証的に検証され,既存のアプローチでは不可能な複数の言語を維持可能であることを示す。

This paper considers cooperative Multi-Agent Reinforcement Learning, focusing on emergent communication in settings where multiple pairs of independent learners interact at varying frequencies. In this context, multiple distinct and incompatible languages can emerge. When an agent encounters a speaker of an alternative language, there is a requirement for a period of adaptation before they can efficiently converse. This adaptation results in the emergence of a new language and the forgetting of the previous language. In principle, this is an example of the Catastrophic Forgetting problem which can be mitigated by enabling the agents to learn and maintain multiple languages. We take inspiration from the Continual Learning literature and equip our agents with multi-headed neural networks which enable our agents to be multi-lingual. Our method is empirically validated within a referential MNIST based communication game and is shown to be able to maintain multiple languages where existing approaches cannot.
翻訳日:2021-11-23 16:53:32 公開日:2021-11-22
# 擬似アンカーによるソーシャルネットワークアライメントの埋め込みモデルの改善に向けて

Towards Improving Embedding Based Models of Social Network Alignment via Pseudo Anchors ( http://arxiv.org/abs/2111.11335v1 )

ライセンス: Link先を確認
Zihan Yan, Li Liu, Xin Li, William K. Cheung, Youmin Zhang, Qun Liu, Guoyin Wang(参考訳) ソーシャルネットワークのアライメントは、ソーシャルネットワークにまたがる人物のアイデンティティの調整を目的としている。 埋め込みに基づくモデルは、通常モデルトレーニングに構造的近接保存目標が採用されるアライメントに有効であることが示されている。 そこで本稿では,<overly-close'ユーザ埋め込みがアライメント不正確を生じさせるようなモデルでは避けられないという認識から,ユーザ間でより広い範囲に埋め込みを強制する新たな学習フレームワークを提案する。 さらに,学習過程における擬似アンカー埋め込みの更新を導くメタ学習アルゴリズムを提案する。 提案手法は、擬似アンカーとメタラーニングを用いて、学習フレームワークを幅広いネットワークアライメント手法に適用することができる。 提案する学習フレームワークをいくつかの最先端モデルに組み込んだ。 実験結果は, 擬似アンカーを装着した方法が, 比較的少ないラベル付きアンカーのみが存在する場合において, 仮アンカーを使わずに, 相手のアンカーを圧倒する効果を示す。

Social network alignment aims at aligning person identities across social networks. Embedding based models have been shown effective for the alignment where the structural proximity preserving objective is typically adopted for the model training. With the observation that ``overly-close'' user embeddings are unavoidable for such models causing alignment inaccuracy, we propose a novel learning framework which tries to enforce the resulting embeddings to be more widely apart among the users via the introduction of carefully implanted pseudo anchors. We further proposed a meta-learning algorithm to guide the updating of the pseudo anchor embeddings during the learning process. The proposed intervention via the use of pseudo anchors and meta-learning allows the learning framework to be applicable to a wide spectrum of network alignment methods. We have incorporated the proposed learning framework into several state-of-the-art models. Our experimental results demonstrate its efficacy where the methods with the pseudo anchors implanted can outperform their counterparts without pseudo anchors by a fairly large margin, especially when there only exist very few labeled anchors.
翻訳日:2021-11-23 16:53:19 公開日:2021-11-22
# (参考訳) クラス非依存物体検出におけるマルチモーダルトランスフォーマーExcel [全文訳有]

Multi-modal Transformers Excel at Class-agnostic Object Detection ( http://arxiv.org/abs/2111.11430v1 )

ライセンス: CC0 1.0
Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan, Rao Muhammad Anwer, Ming-Hsuan Yang(参考訳) オブジェクトを構成するものは何か? これはコンピュータビジョンにおける長年の疑問である。 この目標に向けて、多くの学習自由で学習に基づくアプローチが開発された。 しかし、それらは一般的に新しいドメインや見えないオブジェクトに対してうまくスケールしない。 本稿では,既存の手法では人間の理解可能な意味論によって制御されるトップダウンの監視信号が欠けていることを主張する。 このギャップを埋めるために、画像とテキストのペアを並べて訓練したMViT(Multi-modal Vision Transformer)を提案する。 画像中のジェネリックオブジェクトをローカライズするためのMViTの最先端性能を示す。 これらの結果に基づき,多スケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発し,特定の言語クエリを与えられた提案を適応的に生成する。 オープンワールドオブジェクト検出,サルエントおよびカモフラージュオブジェクト検出,教師付きおよび自己監督型検出タスクなど,多種多様なアプリケーションにおけるMViT提案の重要性を示す。 さらに、MViTはインテリジェンス可能なテキストクエリとの対話性を向上する。 コード:https://git.io/J1HP Y。

What constitutes an object? This has been a long-standing question in computer vision. Towards this goal, numerous learning-free and learning-based approaches have been developed to score objectness. However, they generally do not scale well across new domains and for unseen objects. In this paper, we advocate that existing methods lack a top-down supervision signal governed by human-understandable semantics. To bridge this gap, we explore recent Multi-modal Vision Transformers (MViT) that have been trained with aligned image-text pairs. Our extensive experiments across various domains and novel objects show the state-of-the-art performance of MViTs to localize generic objects in images. Based on these findings, we develop an efficient and flexible MViT architecture using multi-scale feature processing and deformable self-attention that can adaptively generate proposals given a specific language query. We show the significance of MViT proposals in a diverse range of applications including open-world object detection, salient and camouflage object detection, supervised and self-supervised detection tasks. Further, MViTs offer enhanced interactability with intelligible text queries. Code: https://git.io/J1HPY .
翻訳日:2021-11-23 16:44:32 公開日:2021-11-22
# 手術映像からのオンライン位相認識におけるセグメントレベルセマンティクスの活用

Exploiting Segment-level Semantics for Online Phase Recognition from Surgical Videos ( http://arxiv.org/abs/2111.11044v1 )

ライセンス: Link先を確認
Xinpeng Ding and Xiaomeng Li(参考訳) 自動手術位相認識はロボット支援手術において重要な役割を担っている。 既存の手法では、フレーム情報のみに頼るのではなく、セグメントレベルのセマンティクスを学習することで手術段階を分類すべきという重要な問題を無視している。 本稿では,ビデオからの手術相認識のためのセグメント対応階層的一貫性ネットワーク(sahc)を提案する。 鍵となる考え方は、階層的な高レベルの意味一貫性セグメントを抽出し、不明瞭なフレームによる誤った予測を洗練させることである。 そこで我々は,時間階層ネットワークを設計し,階層的な高レベルセグメントを生成する。 次に,低レベルフレームと高レベルセグメントの関係をキャプチャする階層的セグメントフレームアテンション(sfa)モジュールを提案する。 整合性損失によりフレームとその対応するセグメントの予測を正規化することにより、ネットワークはセマンティック一貫性のあるセグメントを生成し、曖昧な低レベルフレームによる誤分類予測を修正できる。 我々は,M2CAI16チャレンジデータセットとCholec80データセットの2つの公開手術ビデオデータセット上でSAHCを検証する。 実験の結果,M2CAI16の精度は4.1%向上した。 コードは受け入れ次第githubでリリースされる。

Automatic surgical phase recognition plays an important role in robot-assisted surgeries. Existing methods ignored a pivotal problem that surgical phases should be classified by learning segment-level semantics instead of solely relying on frame-wise information. In this paper, we present a segment-attentive hierarchical consistency network (SAHC) for surgical phase recognition from videos. The key idea is to extract hierarchical high-level semantic-consistent segments and use them to refine the erroneous predictions caused by ambiguous frames. To achieve it, we design a temporal hierarchical network to generate hierarchical high-level segments. Then, we introduce a hierarchical segment-frame attention (SFA) module to capture relations between the low-level frames and high-level segments. By regularizing the predictions of frames and their corresponding segments via a consistency loss, the network can generate semantic-consistent segments and then rectify the misclassified predictions caused by ambiguous low-level frames. We validate SAHC on two public surgical video datasets, i.e., the M2CAI16 challenge dataset and the Cholec80 dataset. Experimental results show that our method outperforms previous state-of-the-arts by a large margin, notably reaches 4.1% improvements on M2CAI16. Code will be released at GitHub upon acceptance.
翻訳日:2021-11-23 16:16:44 公開日:2021-11-22
# タスクノミー特徴を用いた顔提示攻撃検出

Face Presentation Attack Detection using Taskonomy Feature ( http://arxiv.org/abs/2111.11046v1 )

ライセンス: Link先を確認
Wentian Zhang, Haozhe Liu, Raghavendra Ramachandra, Feng Liu, Linlin Shen, Christoph Busch(参考訳) 提示検出法(PAD)の堅牢性と一般化能力は,顔認識システム(FRS)のセキュリティ確保に不可欠である。 しかし、実際のシナリオでは、プレゼンテーションアタック(PA)は様々であり、収集は困難である。 既存のpadメソッドは限定されたトレーニングセットに大きく依存しており、未知のpasにうまく一般化できない。 PADタスクとは異なり、多数の実際の顔(例えば顔認識や属性編集)で訓練された他の顔関連タスクは、異なるアプリケーションシナリオに効果的に適用することができる。 そこで本研究では,他の顔関連タスクからタスクノミー(タスク分類)を適用し,PAの検出における一般化能力を向上させることを提案する。 提案手法はまず,他のタスクからタスク固有の機能を導入し,次にグラフ注意ネットワーク(GAT)を用いたクロスモーダルアダプタを設計し,これらの機能をPADタスクに適応させる。 最後に、cnnベースのpa検出器の階層的特徴と再マップされた特徴を用いて、フェイスパッドを実現する。 実験の結果,提案手法は,最先端手法と比較して,複雑かつハイブリッドなデータセットにおいて有意な改善が得られた。 特に、OULU-NPU、CASIA-FASD、Idiap Replay-Attackを用いてトレーニングすると、MSU-MFSDのHTER(Hlf Total Error Rate)は5.48%となり、ベースラインを7.39%上回る。 コードは公開される予定だ。

The robustness and generalization ability of Presentation Attack Detection (PAD) methods is critical to ensure the security of Face Recognition Systems (FRSs). However, in the real scenario, Presentation Attacks (PAs) are various and hard to be collected. Existing PAD methods are highly dependent on the limited training set and cannot generalize well to unknown PAs. Unlike PAD task, other face-related tasks trained by huge amount of real faces (e.g. face recognition and attribute editing) can be effectively adopted into different application scenarios. Inspired by this, we propose to apply taskonomy (task taxonomy) from other face-related tasks to solve face PAD, so as to improve the generalization ability in detecting PAs. The proposed method, first introduces task specific features from other face-related tasks, then, we design a Cross-Modal Adapter using a Graph Attention Network (GAT) to re-map such features to adapt to PAD task. Finally, face PAD is achieved by using the hierarchical features from a CNN-based PA detector and the re-mapped features. The experimental results show that the proposed method can achieve significant improvements in the complicated and hybrid datasets, when compared with the state-of-the-art methods. In particular, when trained using OULU-NPU, CASIA-FASD, and Idiap Replay-Attack, we obtain HTER (Half Total Error Rate) of 5.48% in MSU-MFSD, outperforming the baseline by 7.39%. Code will be made publicly available.
翻訳日:2021-11-23 16:16:19 公開日:2021-11-22
# 自己教師型骨格認識のためのコントラスト再構成表現学習

Contrast-reconstruct ion Representation Learning for Self-supervised Skeleton-based Action Recognition ( http://arxiv.org/abs/2111.11051v1 )

ライセンス: Link先を確認
Peng Wang, Jun Wen, Chenyang Si, Yuntao Qian, Liang Wang(参考訳) 骨格に基づく行動認識は、監視や人間と機械の相互作用など、様々な分野で広く使われている。 既存のモデルは、主に教師ありの方法で学習されるため、ラベルが高価である場合には実現不可能な大規模なラベル付きデータに大きく依存する。 本稿では,非教師付きスケルトンベース行動認識のための姿勢と動作ダイナミクスを同時に捉えるコントラスト再構成表現学習ネットワーク(crrl)を提案する。 主にシーケンシャルリコンストラクタ、コントラストモーション学習者、情報使用者という3つの部分から構成されている。 シーケンスリコンストラクタは、再構成によって骨格座標列から表現を学習するので、学習された表現は、自明な姿勢座標に集中し、運動学習をためらう傾向にある。 動きの学習を強化するため、コントラスト動作学習者は、座標列から学習した表現と追加の速度列との対比学習を行う。 最後に、情報fuserにおいて、シーケンス再構築機とコントラスト動作学習機を組み合わせるための多様な戦略を探索し、コントラスト動作学習機からシーケンス再構築機へモーション学習を転送する知識蒸留ベースの融合戦略により、姿勢と動きを同時に捉えることを提案する。 NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA などのベンチマークによる実験結果は、提案したCRRL法が最先端のアプローチよりも優れていることを示す。

Skeleton-based action recognition is widely used in varied areas, e.g., surveillance and human-machine interaction. Existing models are mainly learned in a supervised manner, thus heavily depending on large-scale labeled data which could be infeasible when labels are prohibitively expensive. In this paper, we propose a novel Contrast-Reconstruct ion Representation Learning network (CRRL) that simultaneously captures postures and motion dynamics for unsupervised skeleton-based action recognition. It mainly consists of three parts: Sequence Reconstructor, Contrastive Motion Learner, and Information Fuser. The Sequence Reconstructor learns representation from skeleton coordinate sequence via reconstruction, thus the learned representation tends to focus on trivial postural coordinates and be hesitant in motion learning. To enhance the learning of motions, the Contrastive Motion Learner performs contrastive learning between the representations learned from coordinate sequence and additional velocity sequence, respectively. Finally, in the Information Fuser, we explore varied strategies to combine the Sequence Reconstructor and Contrastive Motion Learner, and propose to capture postures and motions simultaneously via a knowledge-distillati on based fusion strategy that transfers the motion learning from the Contrastive Motion Learner to the Sequence Reconstructor. Experimental results on several benchmarks, i.e., NTU RGB+D 60, NTU RGB+D 120, CMU mocap, and NW-UCLA, demonstrate the promise of the proposed CRRL method by far outperforming state-of-the-art approaches.
翻訳日:2021-11-23 16:15:52 公開日:2021-11-22
# アンサンブル型条件付き潜在変数モデルによる密度不確かさ推定

Dense Uncertainty Estimation via an Ensemble-based Conditional Latent Variable Model ( http://arxiv.org/abs/2111.11055v1 )

ライセンス: Link先を確認
Jing Zhang, Yuchao Dai, Mehrtash Harandi, Yiran Zhong, Nick Barnes, Richard Hartley(参考訳) 不確実性の推定は近年の文献で広く研究されており、通常はアレター性不確実性とてんかん性不確実性に分類される。 現在のアレータリック不確実性推定フレームワークでは、アレータティック不確実性がデータ固有の属性であり、バイアスのないオラクルモデルで正確に推定できるだけであるとしばしば無視される。 オラクルモデルはほとんどの場合アクセスできないため,列車の時間帯に新しいサンプリングと選択戦略を提案し,オラクルモデルを近似してアレーラティック不確実性推定を行う。 さらに,双頭型ヘテロシedastic aleatoric uncertainty estimation frameworkにおける自明な解を示し,それを避けるために新しい不確実性一貫性損失を導入する。 認識的不確実性推定では、条件付き潜在変数モデルの内部変数は、予測分布をモデル化し、隠れた真のモデルに関する限られた知識を探索するための認識的不確実性源であると主張する。 密集した予測タスク、すなわちカモフラージュされた物体検出の観測を検証した。 その結果,本ソリューションは正確な決定論的結果と信頼性の高い不確実性推定を両立できることがわかった。

Uncertainty estimation has been extensively studied in recent literature, which can usually be classified as aleatoric uncertainty and epistemic uncertainty. In current aleatoric uncertainty estimation frameworks, it is often neglected that the aleatoric uncertainty is an inherent attribute of the data and can only be correctly estimated with an unbiased oracle model. Since the oracle model is inaccessible in most cases, we propose a new sampling and selection strategy at train time to approximate the oracle model for aleatoric uncertainty estimation. Further, we show a trivial solution in the dual-head based heteroscedastic aleatoric uncertainty estimation framework and introduce a new uncertainty consistency loss to avoid it. For epistemic uncertainty estimation, we argue that the internal variable in a conditional latent variable model is another source of epistemic uncertainty to model the predictive distribution and explore the limited knowledge about the hidden true model. We validate our observation on a dense prediction task, i.e., camouflaged object detection. Our results show that our solution achieves both accurate deterministic results and reliable uncertainty estimation.
翻訳日:2021-11-23 16:15:23 公開日:2021-11-22
# CATNet:リモートセンシング画像におけるインスタンスセグメンテーションのためのコンテキストアグリガティオンネットワーク

CATNet: Context AggregaTion Network for Instance Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2111.11057v1 )

ライセンス: Link先を確認
Ye Liu, Huifang Li, Chao Hu, Shuang Luo, Huanfeng Shen, and Chang Wen Chen(参考訳) リモートセンシング画像におけるインスタンスセグメンテーションのタスクは、インスタンスレベルでオブジェクトのピクセル単位のラベリングを行うことを目的としており、様々な民間アプリケーションにとって非常に重要である。 これまでの成功にもかかわらず、自然画像用に設計された既存のインスタンスセグメンテーションのほとんどは、トップビューリモートセンシングイメージに直接適用すると、パフォーマンスが著しく低下する。 注意深い分析により,厳密なスケールの変動,低コントラスト,クラスタ分布による識別対象の特徴の欠如が主な課題であることがわかった。 これらの問題に対処するために,特徴抽出プロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。 提案モデルは,高密度な特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),関心抽出器の階層領域(HRoIE)の3つの軽量なプラグアンドプレイモジュールを用いて,特徴領域,空間領域,インスタンス領域のグローバルな視覚的コンテキストを集約する。 DenseFPNは、階層間残差接続、クロスレベル高密度接続、機能再重み付け戦略を採用することで、より柔軟な情報フローを確立するマルチスケール機能伝搬モジュールである。 注意機構を活用することで、SCPはグローバルな空間コンテキストを局所領域に集約することで特徴をさらに強化する。 各インスタンスに対して、HRoIEは異なる下流タスク用のRoI機能を適応的に生成する。 我々は,iSAID,DIOR,NWPU VHR-10,HRSIDデータセットに対する提案手法の広範な評価を行う。 評価結果は,提案手法が同様の計算コストで最先端技術より優れていることを示す。 コードはhttps://github.com/y eliudev/catnetで入手できる。

The task of instance segmentation in remote sensing images, aiming at performing per-pixel labeling of objects at instance level, is of great importance for various civil applications. Despite previous successes, most existing instance segmentation methods designed for natural images encounter sharp performance degradations when directly applied to top-view remote sensing images. Through careful analysis, we observe that the challenges mainly come from lack of discriminative object features due to severe scale variations, low contrasts, and clustered distributions. In order to address these problems, a novel context aggregation network (CATNet) is proposed to improve the feature extraction process. The proposed model exploits three lightweight plug-and-play modules, namely dense feature pyramid network (DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest extractor (HRoIE), to aggregate global visual context at feature, spatial, and instance domains, respectively. DenseFPN is a multi-scale feature propagation module that establishes more flexible information flows by adopting inter-level residual connections, cross-level dense connections, and feature re-weighting strategy. Leveraging the attention mechanism, SCP further augments the features by aggregating global spatial context into local regions. For each instance, HRoIE adaptively generates RoI features for different downstream tasks. We carry out extensive evaluation of the proposed scheme on the challenging iSAID, DIOR, NWPU VHR-10, and HRSID datasets. The evaluation results demonstrate that the proposed approach outperforms state-of-the-arts with similar computational costs. Code is available at https://github.com/y eliudev/CATNet.
翻訳日:2021-11-23 16:15:01 公開日:2021-11-22
# 半スーパービジョン変換器

Semi-Supervised Vision Transformers ( http://arxiv.org/abs/2111.11067v1 )

ライセンス: Link先を確認
Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang(参考訳) 半教師付き画像分類のための視覚変換器の訓練について検討する。 トランスフォーマーは最近、教師付き学習タスクで印象的なパフォーマンスを示した。 驚いたことに、視覚トランスフォーマーは半教師ありのimagenet設定ではうまく機能しない。 対照的に、畳み込みニューラルネットワーク(cnns)は、小さなラベル付きデータレジームで優れた結果を得る。 さらなる調査により、CNNが強い空間誘導バイアスを持つ理由が明らかになった。 そこで本研究では,トランスフォーマーブランチとコンボリューショナルブランチと,各ブランチ間の知識共有のための慎重に設計された融合モジュールを含む半教師付き学習フレームワークであるSemiformerを紹介する。 畳み込み分岐は制限教師データに基づいて訓練され、擬似ラベルを生成してラベルなしデータ上で変圧器分岐の訓練を監督する。 imagenetでの広範な実験により、semiformerは75.5\%のtop-1精度を達成し、最先端を上回っている。 さらに、Semiformerは現代のほとんどのTransformerおよびConvolutional Neural Architectureと互換性のある一般的なフレームワークであることを示す。

We study the training of Vision Transformers for semi-supervised image classification. Transformers have recently demonstrated impressive performance on a multitude of supervised learning tasks. Surprisingly, we find Vision Transformers perform poorly on a semi-supervised ImageNet setting. In contrast, Convolutional Neural Networks (CNNs) achieve superior results in small labeled data regime. Further investigation reveals that the reason is CNNs have strong spatial inductive bias. Inspired by this observation, we introduce a joint semi-supervised learning framework, Semiformer, which contains a Transformer branch, a Convolutional branch and a carefully designed fusion module for knowledge sharing between the branches. The Convolutional branch is trained on the limited supervised data and generates pseudo labels to supervise the training of the transformer branch on unlabeled data. Extensive experiments on ImageNet demonstrate that Semiformer achieves 75.5\% top-1 accuracy, outperforming the state-of-the-art. In addition, we show Semiformer is a general framework which is compatible with most modern Transformer and Convolutional neural architectures.
翻訳日:2021-11-23 16:14:31 公開日:2021-11-22
# セマンティックテクスチャメッシュにおけるラベル融合によるセマンティックイメージセグメンテーションの改善

Improving Semantic Image Segmentation via Label Fusion in Semantically Textured Meshes ( http://arxiv.org/abs/2111.11103v1 )

ライセンス: Link先を確認
Florian Fervers, Timo Breuer, Gregor Stachowiak, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens(参考訳) セマンティクスセグメンテーションのためのモデルは、作成にコストと時間を要する大量の手ラベルのトレーニングデータを必要とする。 そこで本研究では,ビデオシーケンスの意味的画素ラベルを教師なしで改善できるラベル融合フレームワークを提案する。 我々は,環境の3次元メッシュ表現を利用し,異なるフレームの予測をセマンティックメッシュテクスチャを用いた一貫した表現に融合する。 本来の内在的および外在的カメラパラメータを用いてセマンティックメッシュをレンダリングすると、改良されたセマンティックセグメンテーションイメージが生成される。 最適化されたCUDA実装により、不確実性を認識した方法で、$c$クラス上のアノテーションの$c$次元の確率分布全体を活用できる。 我々は,最先端セグメンテーションネットワーク ESANet が生成するアノテーションを 52.05 %$ から 58.25 %$ ピクセル精度に改善する Scannet データセット上で評価を行った。 この領域における将来の研究を促進するために、我々のフレームワークのソースコードをオンラインで公開します(\url{https://github.com/f ferflo/semantic-mesh es})。 我々の知る限り、これはセマンティックテクスチャを持つメッシュに基づくセマンティックイメージセグメンテーションのための、初めて公開されたラベル融合フレームワークである。

Models for semantic segmentation require a large amount of hand-labeled training data which is costly and time-consuming to produce. For this purpose, we present a label fusion framework that is capable of improving semantic pixel labels of video sequences in an unsupervised manner. We make use of a 3D mesh representation of the environment and fuse the predictions of different frames into a consistent representation using semantic mesh textures. Rendering the semantic mesh using the original intrinsic and extrinsic camera parameters yields a set of improved semantic segmentation images. Due to our optimized CUDA implementation, we are able to exploit the entire $c$-dimensional probability distribution of annotations over $c$ classes in an uncertainty-aware manner. We evaluate our method on the Scannet dataset where we improve annotations produced by the state-of-the-art segmentation network ESANet from $52.05 \%$ to $58.25 \%$ pixel accuracy. We publish the source code of our framework online to foster future research in this area (\url{https://github.com/f ferflo/semantic-mesh es}). To the best of our knowledge, this is the first publicly available label fusion framework for semantic image segmentation based on meshes with semantic textures.
翻訳日:2021-11-23 16:14:16 公開日:2021-11-22
# myope Models -- 顔提示攻撃検出モデルは近視ですか?

Myope Models -- Are face presentation attack detection models short-sighted? ( http://arxiv.org/abs/2111.11127v1 )

ライセンス: Link先を確認
Pedro C. Neto, Ana F. Sequeira, Jaime S. Cardoso(参考訳) プレゼンテーション攻撃は生体認証システムへの繰り返しの脅威であり、インポスタはこれらのシステムをバイパスしようとする。 人間はしばしば背景情報を視覚システムの文脈的手がかりとして利用する。 しかし、顔に基づくシステムでは、顔提示攻撃検出(pad)モデルが顔の作物で訓練されているため、背景が捨てられることが多い。 本研究は,マルチタスク学習,敵対的トレーニング,動的フレーム選択を含む)フェイスパッドモデルの比較研究である。 その結果,画像に背景が存在する場合,性能が常に良好であることがわかった。 提案したマルチタスク手法は,ROSE-Youtuデータセットの最先端結果を0.2%の誤差率で大きなマージンで破る。 さらに,Grad-CAM++を用いてモデルの予測を解析し,人間の検査に有用な背景要素にどの程度フォーカスするかを検討する。 この分析から、すべての攻撃において背景の手がかりは関連性がないと結論付けることができる。 したがって、モデルに必要な場合にのみ、背景情報を活用する能力を示す。

Presentation attacks are recurrent threats to biometric systems, where impostors attempt to bypass these systems. Humans often use background information as contextual cues for their visual system. Yet, regarding face-based systems, the background is often discarded, since face presentation attack detection (PAD) models are mostly trained with face crops. This work presents a comparative study of face PAD models (including multi-task learning, adversarial training and dynamic frame selection) in two settings: with and without crops. The results show that the performance is consistently better when the background is present in the images. The proposed multi-task methodology beats the state-of-the-art results on the ROSE-Youtu dataset by a large margin with an equal error rate of 0.2%. Furthermore, we analyze the models' predictions with Grad-CAM++ with the aim to investigate to what extent the models focus on background elements that are known to be useful for human inspection. From this analysis we can conclude that the background cues are not relevant across all the attacks. Thus, showing the capability of the model to leverage the background information only when necessary.
翻訳日:2021-11-23 16:13:55 公開日:2021-11-22
# 位置認識フローと幾何学的バンドル調整を用いたロバストビジュアルオドメトリー

Robust Visual Odometry Using Position-Aware Flow and Geometric Bundle Adjustment ( http://arxiv.org/abs/2111.11141v1 )

ライセンス: Link先を確認
Yijun Cao, Xianshi Zhang, Fuya Luo, Peng Peng, Yongjie Li(参考訳) 本稿では,幾何学に基づく手法を自己教師あり方式でディープラーニングアーキテクチャに組み込むことにより,ロバストな視覚オドメトリ(vo)に関する本質的な問題にアプローチする。 一般に、純粋幾何に基づくアルゴリズムは特徴点抽出やマッチングにおいて深層学習ほど頑健ではないが、幾何理論が確立されているため、エゴモーション推定ではうまく機能する。 本研究では,位置認識機構上に構築された新しい光フローネットワーク(PANet)を提案する。 そこで, 学習のためのネットワークを必要とせず, 奥行き, 光流, 自我運動を共同で推定する新しいシステムを提案する。 提案システムの主な構成要素は,複数サンプリング,エゴ運動の初期化,動的減衰率調整,ジャコビ行列重み付けを含む改良されたバンドル調整モジュールである。 さらに, 距離推定精度を向上させるために, 新たな相対測光損失関数が開発された。 提案手法は,kittiデータセット上での自己教師付き学習に基づく手法の奥行き,流れ,vo推定に勝るだけでなく,幾何ベース,学習ベース,ハイブリッドvoシステムに比べてロバスト性が著しく向上することを示す。 さらに,室内(TMU-RGBD)と屋外(KAIST)のシーンにおいて,モデルが優れた一般化能力と性能を達成することを示す。

In this paper, an essential problem of robust visual odometry (VO) is approached by incorporating geometry-based methods into deep-learning architecture in a self-supervised manner. Generally, pure geometry-based algorithms are not as robust as deep learning in feature-point extraction and matching, but perform well in ego-motion estimation because of their well-established geometric theory. In this work, a novel optical flow network (PANet) built on a position-aware mechanism is proposed first. Then, a novel system that jointly estimates depth, optical flow, and ego-motion without a typical network to learning ego-motion is proposed. The key component of the proposed system is an improved bundle adjustment module containing multiple sampling, initialization of ego-motion, dynamic damping factor adjustment, and Jacobi matrix weighting. In addition, a novel relative photometric loss function is advanced to improve the depth estimation accuracy. The experiments show that the proposed system not only outperforms other state-of-the-art methods in terms of depth, flow, and VO estimation among self-supervised learning-based methods on KITTI dataset, but also significantly improves robustness compared with geometry-based, learning-based and hybrid VO systems. Further experiments show that our model achieves outstanding generalization ability and performance in challenging indoor (TMU-RGBD) and outdoor (KAIST) scenes.
翻訳日:2021-11-23 16:13:38 公開日:2021-11-22
# gb-cosface:オープンセット分類の観点からのsoftmaxに基づく顔認識再考

GB-CosFace: Rethinking Softmax-based Face Recognition from the Perspective of Open Set Classification ( http://arxiv.org/abs/2111.11186v1 )

ライセンス: Link先を確認
Lizhe Liu, Mingqiang Chen, Xiaohao Chen, Siyu Zhu, Ping Tan(参考訳) 最先端の顔認識手法は通常、マルチクラス化パイプラインを採用し、最適化のためにsoftmaxベースの損失を採用する。 これらの手法は大きな成功を収めているが、ソフトマックスベースの損失はオープンセット分類の観点からは限界があり、トレーニングフェーズにおける多分類の目標はオープンセット分類テストの目的と厳密に一致しない。 本稿では,グローバル境界CosFace(GB-CosFace)と呼ばれる新たな損失を導出する。 我々のGB-CosFaceは、2つの顔サンプルが同一のアイデンティティに属しているかどうかを決定するための適応的グローバル境界を導入し、オープンセット分類の観点から、最適化目標がテストプロセスと整合するようにした。 一方、損失定式化はソフトマックスベース損失から導かれるため、GB-CosFaceはソフトマックスベース損失の優れた特性を保ち、CosFaceは提案された損失の特別な場合であることが証明された。 提案するgb-cosfaceを幾何学的に解析,説明する。 複数の顔認識ベンチマークにおける包括的実験により,提案するgb-cosfaceは,主流の顔認識タスクにおける最先端の顔認識損失を上回っていることが示された。 CosFaceと比較して、GB-CosFaceは、IJB-CベンチマークでTAR@FAR=1e-6, 1e-5, 1e-4で1.58%、0.57%、0.28%改善しています。

State-of-the-art face recognition methods typically take the multi-classification pipeline and adopt the softmax-based loss for optimization. Although these methods have achieved great success, the softmax-based loss has its limitation from the perspective of open set classification: the multi-classification objective in the training phase does not strictly match the objective of open set classification testing. In this paper, we derive a new loss named global boundary CosFace (GB-CosFace). Our GB-CosFace introduces an adaptive global boundary to determine whether two face samples belong to the same identity so that the optimization objective is aligned with the testing process from the perspective of open set classification. Meanwhile, since the loss formulation is derived from the softmax-based loss, our GB-CosFace retains the excellent properties of the softmax-based loss, and CosFace is proved to be a special case of the proposed loss. We analyze and explain the proposed GB-CosFace geometrically. Comprehensive experiments on multiple face recognition benchmarks indicate that the proposed GB-CosFace outperforms current state-of-the-art face recognition losses in mainstream face recognition tasks. Compared to CosFace, our GB-CosFace improves 1.58%, 0.57%, and 0.28% at TAR@FAR=1e-6, 1e-5, 1e-4 on IJB-C benchmark.
翻訳日:2021-11-23 16:13:13 公開日:2021-11-22
# PointMixer: Point Cloud UnderstandingのためのMLP-Mixer

PointMixer: MLP-Mixer for Point Cloud Understanding ( http://arxiv.org/abs/2111.11187v1 )

ライセンス: Link先を確認
Jaesung Choe, Chunghyun Park, Francois Rameau, Jaesik Park, In So Kweon(参考訳) MLP-Mixer は CNN と Transformer の領域に対する新たな挑戦者として新たに登場した。 トランスに比べて単純であるにもかかわらず、チャネルミキシング MLP とトークンミキシング MLP の概念は、視覚認識タスクにおいて顕著な性能を達成する。 画像とは異なり、点雲は本質的に疎らで、秩序がなく、不規則であり、点雲の理解にMLP-Mixerを直接使用することを制限する。 本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。 トークンミキシングのMLPをソフトマックス関数に置き換えることによって、PointMixerはポイントセット内/間の機能を"ミックス"することができる。 これにより、PointMixerは、セット間混合、イントラセット混合、ピラミッド混合としてネットワークで広く使用できる。 拡張実験により, 意味的セグメンテーション, 分類, 点再構成におけるPointMixerの競合的あるいは優れた性能を示す。

MLP-Mixer has newly appeared as a new challenger against the realm of CNNs and transformer. Despite its simplicity compared to transformer, the concept of channel-mixing MLPs and token-mixing MLPs achieves noticeable performance in visual recognition tasks. Unlike images, point clouds are inherently sparse, unordered and irregular, which limits the direct use of MLP-Mixer for point cloud understanding. In this paper, we propose PointMixer, a universal point set operator that facilitates information sharing among unstructured 3D points. By simply replacing token-mixing MLPs with a softmax function, PointMixer can "mix" features within/between point sets. By doing so, PointMixer can be broadly used in the network as inter-set mixing, intra-set mixing, and pyramid mixing. Extensive experiments show the competitive or superior performance of PointMixer in semantic segmentation, classification, and point reconstruction against transformer-based methods.
翻訳日:2021-11-23 16:12:51 公開日:2021-11-22
# 直接ボクセル格子最適化:放射場再構成のための超高速収束

Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction ( http://arxiv.org/abs/2111.11215v1 )

ライセンス: Link先を確認
Cheng Sun, Min Sun, Hwann-Tzong Chen(参考訳) 本研究では,シーンを既知のポーズでキャプチャする画像群から,シーン毎の放射場を再構成する超高速収束手法を提案する。 このタスクは、しばしば新しいビュー合成に適用されるが、最近Neural Radiance Field (NeRF)によって、最先端の品質と柔軟性のために革新されている。 しかし、NeRFとその派生型は、単一のシーンで何時間から何日かのトレーニング時間を必要とする。 対照的に,本手法はNeRF互換の品質を実現し,1つのGPUで15分以内でスクラッチから急速に収束する。 シーン幾何学のための密度ボクセルグリッドと、複雑なビュー依存の外観のための浅いネットワークを備えた特徴ボクセルグリッドからなる表現を採用する。 明示的で離散化された体積表現を用いたモデリングは新しいものではなく、高速収束速度と高品質出力に寄与する2つの単純かつ非自明な手法を提案する。 まず,低格子解像度で鋭い表面を生成できるボクセル密度に対する活性化後補間を導入する。 第2に, 直接ボクセル密度最適化は準最適幾何解に近づいたため, 最適化過程を複数の事前条件を課すことで強固化する。 最後に、内向きの5つのベンチマークで評価したところ、我々の手法はNeRFの品質に勝るが、新しいシーンをスクラッチからトレーニングするのに15分程度しかかからないことがわかった。

We present a super-fast convergence approach to reconstructing the per-scene radiance field from a set of images that capture the scene with known poses. This task, which is often applied to novel view synthesis, is recently revolutionized by Neural Radiance Field (NeRF) for its state-of-the-art quality and flexibility. However, NeRF and its variants require a lengthy training time ranging from hours to days for a single scene. In contrast, our approach achieves NeRF-comparable quality and converges rapidly from scratch in less than 15 minutes with a single GPU. We adopt a representation consisting of a density voxel grid for scene geometry and a feature voxel grid with a shallow network for complex view-dependent appearance. Modeling with explicit and discretized volume representations is not new, but we propose two simple yet non-trivial techniques that contribute to fast convergence speed and high-quality output. First, we introduce the post-activation interpolation on voxel density, which is capable of producing sharp surfaces in lower grid resolution. Second, direct voxel density optimization is prone to suboptimal geometry solutions, so we robustify the optimization process by imposing several priors. Finally, evaluation on five inward-facing benchmarks shows that our method matches, if not surpasses, NeRF's quality, yet it only takes about 15 minutes to train from scratch for a new scene.
翻訳日:2021-11-23 16:12:36 公開日:2021-11-22
# MiNet: ミネラルの識別と分類のための畳み込みニューラルネットワーク

MiNet: A Convolutional Neural Network for Identifying and Categorising Minerals ( http://arxiv.org/abs/2111.11260v1 )

ライセンス: Link先を確認
Emmanuel Asiedu Brempong, Millicent Agangiba and Daniel Aikins(参考訳) この分野における鉱物の同定は多くの課題に満ちた課題である。 従来のアプローチは、十分な経験と専門知識がない場合にエラーを起こしやすい。 いくつかの既存の技術は主に顕微鏡下で鉱物の特徴を利用し、手動の特徴抽出パイプラインを好む傾向にある。 ディープラーニングの手法は、これらのハードルを克服し、鉱物をシンプルかつ効果的に識別する方法を提供する。 本稿では,手検体画像から鉱物を同定するアルゴリズムを提案する。 畳み込みニューラルネットワーク(CNN)を用いて、7種類の鉱物を識別・分類する単一ラベル画像分類モデルを開発した。 実世界のデータセットを用いた実験により、このモデルは精度90.75%を達成した。

Identification of minerals in the field is a task that is wrought with many challenges. Traditional approaches are prone to errors where there is no enough experience and expertise. Several existing techniques mainly make use of features of the minerals under a microscope and tend to favour a manual feature extraction pipeline. Deep learning methods can help overcome some of these hurdles and provide simple and effective ways to identify minerals. In this paper, we present an algorithm for identifying minerals from hand specimen images. Using a Convolutional Neural Network (CNN), we develop a single-label image classification model to identify and categorise seven classes of minerals. Experiments conducted using real-world datasets show that the model achieves an accuracy of 90.75%.
翻訳日:2021-11-23 16:12:01 公開日:2021-11-22
# FFNB: 深層学習のための予測不要なニューラルブロック

FFNB: Forgetting-Free Neural Blocks for Deep Continual Visual Learning ( http://arxiv.org/abs/2111.11366v1 )

ライセンス: Link先を確認
Hichem Sahbi and Haoming Zhan(参考訳) 近年、ディープニューラルネットワーク(DNN)はコンピュータビジョンといくつかの関連分野において大きな成功を収めている。 このような進歩にもかかわらず、現在の神経アーキテクチャは依然として破滅的な干渉(すなわち忘れること)に悩まされ、DNNが継続的に学習することを妨げている。 忘れを緩和するためにいくつかの最先端の手法が提案されているが、既存のソリューションは非常に厳密(正規化)か、時間/メモリ要求(リプレイ)である。 動的ネットワークに基づく手法の中間クラスが文献で提案されており、タスクの記憶と計算量の間の合理的なバランスを提供している。 本稿では,新しいleading-free neural block (ffnb) に基づく連続学習のための動的ネットワークアーキテクチャを考案する。 新しいタスクでのffnb機能のトレーニングは、前のタスクのヌルスペースのパラメータを制約する新しいプロシージャを使用して実現され、一方、訓練された分類器パラメータはfisher判別分析と同等である。 後者はベイズの観点からも最適である効果的な漸進的過程を提供する。 訓練された機能と分類器は、インクリメンタルな"エンドツーエンド"微調整を使用してさらに強化される。 難解な分類問題に対する広範囲な実験を行った結果,提案手法の有効性が示された。

Deep neural networks (DNNs) have recently achieved a great success in computer vision and several related fields. Despite such progress, current neural architectures still suffer from catastrophic interference (a.k.a. forgetting) which obstructs DNNs to learn continually. While several state-of-the-art methods have been proposed to mitigate forgetting, these existing solutions are either highly rigid (as regularization) or time/memory demanding (as replay). An intermediate class of methods, based on dynamic networks, has been proposed in the literature and provides a reasonable balance between task memorization and computational footprint. In this paper, we devise a dynamic network architecture for continual learning based on a novel forgetting-free neural block (FFNB). Training FFNB features on new tasks is achieved using a novel procedure that constrains the underlying parameters in the null-space of the previous tasks, while training classifier parameters equates to Fisher discriminant analysis. The latter provides an effective incremental process which is also optimal from a Bayesian perspective. The trained features and classifiers are further enhanced using an incremental "end-to-end" fine-tuning. Extensive experiments, conducted on different challenging classification problems, show the high effectiveness of the proposed method.
翻訳日:2021-11-23 16:11:52 公開日:2021-11-22
# 航空画像からの多層建物セグメンテーションによるソーラーポテンシャル評価

Solar Potential Assessment using Multi-Class Buildings Segmentation from Aerial Images ( http://arxiv.org/abs/2111.11397v1 )

ライセンス: Link先を確認
Hasan Nasrallah, Abed Ellatif Samhat, Ghaleb Faour, Yilei Shi and Ali J. Ghandour(参考訳) 畳み込みニューラルネットワークのようなエンコーダデコーダを用いた衛星画像に存在する建物のセマンティックセグメンテーションは、比較的高いピクセル単位のメトリックスコアで達成されている。 本稿では,畳み込み型ニューラルネットワークのインスタンスセグメンテーションタスクのパワーを,出力に余分なクラスを付加し,流域処理手法を活用し,オブジェクト毎のメトリック結果を改善することを目的としている。 また,CutMix混合データ拡張とOne-Cycle学習率ポリシが,トレーニングデータに適合し,性能を向上させるためのより優れた正規化手法であることを示す。 さらに、混合精度トレーニングは、トレーニング中に安定性と収束を維持しながら、より大きなネットワークやバッチで実験するための柔軟性を高めた。 これらの追加変更がパイプライン全体に与える影響を比較して、最終的にパフォーマンスが向上することが証明されたチューニングされたハイパーパラメータセットを提供するようにします。

Semantic Segmentation of buildings present in satellite images using encoder-decoder like convolutional neural networks is being achieved with relatively high pixel-wise metric scores. In this paper, we aim to exploit the power of fully convolutional neural networks for an instance segmentation task using extra added classes to the output along with the watershed processing technique to leverage better object-wise metric results. We also show that CutMix mixed data augmentations and the One-Cycle learning rate policy are greater regularization methods to achieve a better fit on the training data and increase performance. Furthermore, Mixed Precision Training provided more flexibility to experiment with bigger networks and batches while maintaining stability and convergence during training. We compare and show the effect of these additional changes throughout our whole pipeline to finally provide a set a tuned hyper-parameters that are proven to perform better.
翻訳日:2021-11-23 16:11:35 公開日:2021-11-22
# 自己教師モデルがなぜ移行するのか? 下流課題における不変性の影響の検討

Why Do Self-Supervised Models Transfer? Investigating the Impact of Invariance on Downstream Tasks ( http://arxiv.org/abs/2111.11398v1 )

ライセンス: Link先を確認
Linus Ericsson and Henry Gouk and Timothy M. Hospedales(参考訳) 自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。 インスタンスマッチングに基づく効果的な新しい手法は、学習を促進するためにデータ拡張に依存しており、これらは一般的な認識ベンチマークを最適化する拡張スキームに関する大まかな合意に達している。 しかし、コンピュータビジョンにおける異なるタスクには、異なる(in)分散をエンコードする機能が必要であり、そのため異なる拡張戦略が必要であると疑う強い理由がある。 本稿では, コントラスト法で学習された不変性を計測し, それらの不変性が, 使用した増補化と一致していることを確認し, さらに, この不分散が, ポーズと照明の関連実世界変化に大きく影響することを示す。 学習不変性は下流タスクのパフォーマンスに強く影響を与え、下流タスクの違いが極性逆(in)分散の恩恵を受けていることを確認し、標準の強化戦略を使用すると性能が低下することを示した。 最後に、相補的な不変性を持つ表現の単純な融合により、考慮されるすべての下流タスクの広範な転送性が保証されることを示す。

Self-supervised learning is a powerful paradigm for representation learning on unlabelled images. A wealth of effective new methods based on instance matching rely on data augmentation to drive learning, and these have reached a rough agreement on an augmentation scheme that optimises popular recognition benchmarks. However, there is strong reason to suspect that different tasks in computer vision require features to encode different (in)variances, and therefore likely require different augmentation strategies. In this paper, we measure the invariances learned by contrastive methods and confirm that they do learn invariance to the augmentations used and further show that this invariance largely transfers to related real-world changes in pose and lighting. We show that learned invariances strongly affect downstream task performance and confirm that different downstream tasks benefit from polar opposite (in)variances, leading to performance loss when the standard augmentation strategy is used. Finally, we demonstrate that a simple fusion of representations with complementary invariances ensures wide transferability to all the diverse downstream tasks considered.
翻訳日:2021-11-23 16:11:22 公開日:2021-11-22
# 人間の動力学表現のトークン化に向けて

Towards Tokenized Human Dynamics Representation ( http://arxiv.org/abs/2111.11433v1 )

ライセンス: Link先を確認
Kenneth Li, Xiao Sun, Zhirong Wu, Fangyun Wei, Stephen Lin(参考訳) 人間の行動を理解するためには、ジャンプや飲酒など、あいまいなセマンティックな内容の短いビデオクリップを分析することが一般的である。 しかし、短い意味的動作を理解する方法は、ダンスのような長い人間のダイナミクスに直接翻訳できないため、人間の動きを意味的にラベル付けすることは困難になる。 一方、自然言語処理(NLP)コミュニティは、大規模事前学習によるアノテーション不足という同様の課題を解決し、複数の下流タスクを1つのモデルで改善している。 そこで本研究では,ビデオトークン化に向けた主要な障害であるアクトン発見を自己教師付き方式で,映像を時間的パターンに分割し,クラスタ化する方法について検討する。 本研究では,まず,時間的文脈を条件とした映像フレームの2つの拡張ビューを対比して,フレーム毎の表現を得る2段階のフレームワークを提案する。 ビデオの集合にまたがるフレームワイド表現は、K平均によってクラスタ化される。 アクトンは、同じクラスタ内のフレームから連続した動き列を形成して自動的に抽出される。 相互情報と言語エントロピーの正規化によって,kendall の tau と lexicon 構築ステップによるフレーム指向表現学習ステップを評価する。 また,このトークン化の応用として,ジャンル分類,アクションセグメンテーション,アクションコンポジションの3つを検討した。 AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。

For human action understanding, a popular research direction is to analyze short video clips with unambiguous semantic content, such as jumping and drinking. However, methods for understanding short semantic actions cannot be directly translated to long human dynamics such as dancing, where it becomes challenging even to label the human movements semantically. Meanwhile, the natural language processing (NLP) community has made progress in solving a similar challenge of annotation scarcity by large-scale pre-training, which improves several downstream tasks with one model. In this work, we study how to segment and cluster videos into recurring temporal patterns in a self-supervised way, namely acton discovery, the main roadblock towards video tokenization. We propose a two-stage framework that first obtains a frame-wise representation by contrasting two augmented views of video frames conditioned on their temporal context. The frame-wise representations across a collection of videos are then clustered by K-means. Actons are then automatically extracted by forming a continuous motion sequence from frames within the same cluster. We evaluate the frame-wise representation learning step by Kendall's Tau and the lexicon building step by normalized mutual information and language entropy. We also study three applications of this tokenization: genre classification, action segmentation, and action composition. On the AIST++ and PKU-MMD datasets, actons bring significant performance improvements compared to several baselines.
翻訳日:2021-11-23 16:09:47 公開日:2021-11-22
# (参考訳) DLVGen: パーソナライズされた対話生成のための2つの潜在変数アプローチ [全文訳有]

DLVGen: A Dual Latent Variable Approach to Personalized Dialogue Generation ( http://arxiv.org/abs/2111.11363v1 )

ライセンス: CC BY 4.0
Jing Yang Lee, Kong Aik Lee, Woon Seng Gan(参考訳) パーソナライズされた対話の生成は、自然と人間のような会話に不可欠である。 通常、パーソナライズされた対話生成モデルは、生成した応答を対話履歴とインターロケータのペルソナ/パーソナリティの表現に条件付けする。 対話者ごとにパーソナリティ/パーソナリティ表現を得ることは現実的ではないため、近年では、モデルに与えられたペルソナに対応する対話例を微調整してパーソナライズされた対話を生成する可能性を模索している。 しかし、実世界の実装では、対応する対話例が十分数えることは滅多にない。 そこで本稿では,個人/人格情報や対応する対話例がない場合に,パーソナライズされた対話を生成できる2つの潜時可変発電機(DLVGen)を提案する。 以前の研究とは異なり、dlvgenは潜在的な応答に対する潜在分布とエージェントの潜在ペルソナに対する潜在分布をモデル化している。 推論の間、潜在変数は両方の分布からサンプリングされ、デコーダに供給される。 実験の結果,DLVGenはエージェントのペルソナを正確に組み込んだ多様な応答を生成できることがわかった。

The generation of personalized dialogue is vital to natural and human-like conversation. Typically, personalized dialogue generation models involve conditioning the generated response on the dialogue history and a representation of the persona/personality of the interlocutor. As it is impractical to obtain the persona/personality representations for every interlocutor, recent works have explored the possibility of generating personalized dialogue by finetuning the model with dialogue examples corresponding to a given persona instead. However, in real-world implementations, a sufficient number of corresponding dialogue examples are also rarely available. Hence, in this paper, we propose a Dual Latent Variable Generator (DLVGen) capable of generating personalized dialogue in the absence of any persona/personality information or any corresponding dialogue examples. Unlike prior work, DLVGen models the latent distribution over potential responses as well as the latent distribution over the agent's potential persona. During inference, latent variables are sampled from both distributions and fed into the decoder. Empirical results show that DLVGen is capable of generating diverse responses which accurately incorporate the agent's persona.
翻訳日:2021-11-23 16:06:10 公開日:2021-11-22
# MUM : 半監督対象検出のための混合画像タイルとUnMix特徴タイル

MUM : Mix Image Tiles and UnMix Feature Tiles for Semi-Supervised Object Detection ( http://arxiv.org/abs/2111.10958v1 )

ライセンス: Link先を確認
JongMok Kim, Jooyoung Jang, Seunghyeon Seo, Jisoo Jeong, Jongkeun Na, Nojun Kwak(参考訳) 近年のsemi-supervised learning (ssl) 研究では,教師が生成した教師からの監視信号により,教師と生徒のネットワークを訓練している。 データ拡張戦略は、ラベル情報を失うことなく弱い強度を持つ拡張入力ペアを作成することが困難であるため、SSLフレームワークにおいて重要な役割を果たす。 特にsslを半教師付きオブジェクト検出(ssod)に拡張する場合、画像幾何や補間正規化に関連する強力な拡張手法は、オブジェクト検出タスクにおけるバウンディングボックスの位置情報を損なう可能性があるため、利用が難しい。 これを解決するために,SSODフレームワーク用の混合画像タイル用の特徴タイルをアンミックスする,シンプルで効果的なデータ拡張手法であるMix/UnMix(MUM)を導入する。 提案手法は,混合入力画像タイルを作成し,特徴空間で再構成する。 したがって、MUMは非補間擬似ラベルの補間・規則化効果を享受でき、有意義な弱強対を生成することができる。 さらに、MUMは様々なSSOD法の上に容易に装備できる。 MS-COCOとPASCAL VOCデータセットの大規模な実験は、全てのSSODベンチマークプロトコルのベースラインでのmAP性能を一貫して改善することで、MUMの優位性を実証している。

Many recent semi-supervised learning (SSL) studies build teacher-student architecture and train the student network by the generated supervisory signal from the teacher. Data augmentation strategy plays a significant role in the SSL framework since it is hard to create a weak-strong augmented input pair without losing label information. Especially when extending SSL to semi-supervised object detection (SSOD), many strong augmentation methodologies related to image geometry and interpolation-regula rization are hard to utilize since they possibly hurt the location information of the bounding box in the object detection task. To address this, we introduce a simple yet effective data augmentation method, Mix/UnMix (MUM), which unmixes feature tiles for the mixed image tiles for the SSOD framework. Our proposed method makes mixed input image tiles and reconstructs them in the feature space. Thus, MUM can enjoy the interpolation-regula rization effect from non-interpolated pseudo-labels and successfully generate a meaningful weak-strong pair. Furthermore, MUM can be easily equipped on top of various SSOD methods. Extensive experiments on MS-COCO and PASCAL VOC datasets demonstrate the superiority of MUM by consistently improving the mAP performance over the baseline in all the tested SSOD benchmark protocols.
翻訳日:2021-11-23 15:45:54 公開日:2021-11-22
# 複数のカメラを用いた大型ペンでの豚の追跡

Tracking Grow-Finish Pigs Across Large Pens Using Multiple Cameras ( http://arxiv.org/abs/2111.10971v1 )

ライセンス: Link先を確認
Aniket Shirke, Aziz Saifuddin, Achleshwar Luthra, Jiangong Li, Tawni Williams, Xiaodan Hu, Aneesh Kotnana, Okan Kocabalkanli, Narendra Ahuja, Angela Green-Miller, Isabella Condotta, Ryan N. Dilger, Matthew Caesar(参考訳) 肉製品の需要増加と農業労働不足が相まって、動物を効果的に監視するための新しいリアルタイムソリューションを開発する必要がある。 追跡・検出法を用いて豚の個体を連続的に同定する手法は有意な進歩を遂げている。 しかし、固定式カメラが床全体を十分な解像度で覆わないため、この方法は長尺のペンでは失敗する。 我々は、複数のカメラを用いて、隣接するカメラの視野が重なり合うように配置し、同時に床全体にまたがるこの問題に対処する。 追跡の中断を避けるには、豚がカメラの視界から隣のカメラの視界に交差するときに、カメラ間のハンドオーバが必要となる。 視線間ホログラフィーを用いて,隣り合うカメラと共有豚の位置をハンドオーバ時間に同定した。 実験には16~17頭の豚を収容する2つの未完成ペンと、3台のrgbカメラが含まれています。 提案アルゴリズムは,まず深層学習に基づく物体検出モデル(YOLO)を用いてブタを検知し,多目的追跡アルゴリズム(DeepSORT)を用いて局所追跡IDを生成する。 次に、カメラ間の共有ロケーションを使用して、複数のビューにマッチし、トラッキング全体を保持する各豚のグローバルIDを生成します。 提案手法を評価するために,完全アノテートされたグローバルidを持つ5つの2分間の映像シーケンスを提供する。 複数被写体追跡精度65.0%,精度54.3%の1カメラビューで豚を追跡し,74.0%のカメラハンドオーバ精度を達成する。 コードと注釈付きデータセットをhttps://github.com/A IFARMS/multi-camera- pig-trackingでオープンソース化しました。

Increasing demand for meat products combined with farm labor shortages has resulted in a need to develop new real-time solutions to monitor animals effectively. Significant progress has been made in continuously locating individual pigs using tracking-by-detectio n methods. However, these methods fail for oblong pens because a single fixed camera does not cover the entire floor at adequate resolution. We address this problem by using multiple cameras, placed such that the visual fields of adjacent cameras overlap, and together they span the entire floor. Avoiding breaks in tracking requires inter-camera handover when a pig crosses from one camera's view into that of an adjacent camera. We identify the adjacent camera and the shared pig location on the floor at the handover time using inter-view homography. Our experiments involve two grow-finish pens, housing 16-17 pigs each, and three RGB cameras. Our algorithm first detects pigs using a deep learning-based object detection model (YOLO) and creates their local tracking IDs using a multi-object tracking algorithm (DeepSORT). We then use inter-camera shared locations to match multiple views and generate a global ID for each pig that holds throughout tracking. To evaluate our approach, we provide five two-minutes long video sequences with fully annotated global identities. We track pigs in a single camera view with a Multi-Object Tracking Accuracy and Precision of 65.0% and 54.3% respectively and achieve a Camera Handover Accuracy of 74.0%. We open-source our code and annotated dataset at https://github.com/A IFARMS/multi-camera- pig-tracking
翻訳日:2021-11-23 15:45:27 公開日:2021-11-22
# 半教師型医用画像分割のための特徴表現学習

Exploring Feature Representation Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2111.10989v1 )

ライセンス: Link先を確認
Huimin Wu, Xiaomeng Li, and Kwang-Ting Cheng(参考訳) 本稿では,半教師付き医用画像分割のための簡易かつ効果的な2段階フレームワークを提案する。 我々の重要な洞察は、セグメンテーション性能を高めるためにラベル付きおよびラベルなし(擬似ラベル付き)画像を用いて特徴表現学習を探索することである。 第1段階では,高品質疑似ラベル生成のためのセグメンテーション性能を向上させるために,アレテータ型不確実性認識手法である aua を提案する。 医療画像の固有の曖昧性を考慮すると、auaは、曖昧性の低い画像の一貫性を適応的に規則化する。 そこで本研究では,第1段階におけるラベル付き画像の正則化と,第2段階におけるラベル付き画像と擬似ラベル付き画像の両方を最適化するプロトタイプ型コントラスト損失を含む,ステージ適応型コントラスト学習手法を提案する。 境界対応のコントラスト損失は、セグメンテーション境界周辺のピクセルのみを最適化し、計算コストを削減する。 プロトタイプ対応のコントラスト損失は、ラベル付き画像と擬似ラベル付き画像の両方を十分に活用し、各クラスにcentroidを構築し、ペアワイズ比較の計算コストを削減する。 本手法は2つの医用画像セグメンテーションベンチマークにおいて最良の結果を得る。 大腸腫瘍の分類は5%のラベル付き画像に依拠し, diceでは5.7%の精度で前例を上回っていた。

This paper presents a simple yet effective two-stage framework for semi-supervised medical image segmentation. Our key insight is to explore the feature representation learning with labeled and unlabeled (i.e., pseudo labeled) images to enhance the segmentation performance. In the first stage, we present an aleatoric uncertainty-aware method, namely AUA, to improve the segmentation performance for generating high-quality pseudo labels. Considering the inherent ambiguity of medical images, AUA adaptively regularizes the consistency on images with low ambiguity. To enhance the representation learning, we propose a stage-adaptive contrastive learning method, including a boundary-aware contrastive loss to regularize the labeled images in the first stage and a prototype-aware contrastive loss to optimize both labeled and pseudo labeled images in the second stage. The boundary-aware contrastive loss only optimizes pixels around the segmentation boundaries to reduce the computational cost. The prototype-aware contrastive loss fully leverages both labeled images and pseudo labeled images by building a centroid for each class to reduce computational cost for pair-wise comparison. Our method achieves the best results on two public medical image segmentation benchmarks. Notably, our method outperforms the prior state-of-the-art by 5.7% on Dice for colon tumor segmentation relying on just 5% labeled images.
翻訳日:2021-11-23 15:45:01 公開日:2021-11-22
# (参考訳) Namesakes:Wikipediaとニュースの曖昧な名前付きエンティティ [全文訳有]

Namesakes: Ambiguously Named Entities from Wikipedia and News ( http://arxiv.org/abs/2111.11372v1 )

ライセンス: CC BY 4.0
Oleg Vasilyev, Aysu Altun, Nidhi Vyas, Vedant Dharnidharka, Erika Lam, John Bohannon(参考訳) 英語ウィキペディアとニュース記事から得られたあいまいな名前のエンティティのデータセットであるnamesakesを提案する。 それは、4148のユニークなエンティティとその名前の58862の言及、1000のニュースからの言及、ウィキペディアに関する記事からの28843の言及、29019のウィキペディアのバックリンクから成り立っている。 Namesakesは、名前付きエンティティリンク(NEL)タスクのための挑戦的なベンチマークを確立するのに役立ちます。

We present Namesakes, a dataset of ambiguously named entities obtained from English-language Wikipedia and news articles. It consists of 58862 mentions of 4148 unique entities and their namesakes: 1000 mentions from news, 28843 from Wikipedia articles about the entity, and 29019 Wikipedia backlink mentions. Namesakes should be helpful in establishing challenging benchmarks for the task of named entity linking (NEL).
翻訳日:2021-11-23 15:42:47 公開日:2021-11-22
# 微調整前の適応層トラニケーションによるバイナリテキスト分類のためのBERTの勝利点探索

Finding the Winning Ticket of BERT for Binary Text Classification via Adaptive Layer Truncation before Fine-tuning ( http://arxiv.org/abs/2111.10951v1 )

ライセンス: Link先を確認
Jing Fan, Xin Zhang, Sheng Zhang(参考訳) 言語モデルをnlpタスクに移すことの成功を踏まえて、完全なbertモデルが常に最善であるかどうかを問うとともに、複雑な計算をすることなく最先端のディープニューラルネットワークで勝利のチケットを見つけるための単純かつ効果的な方法が存在するのかを問う。 BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。 結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。 そこで本研究では,細調整前にBERTを適切に縮小する簡単な方法を提案する。 拡張実験により,本手法は精度を損なうことなく時間とストレージのオーバーヘッドを大幅に削減できる可能性が示唆された。

In light of the success of transferring language models into NLP tasks, we ask whether the full BERT model is always the best and does it exist a simple but effective method to find the winning ticket in state-of-the-art deep neural networks without complex calculations. We construct a series of BERT-based models with different size and compare their predictions on 8 binary classification tasks. The results show there truly exist smaller sub-networks performing better than the full model. Then we present a further study and propose a simple method to shrink BERT appropriately before fine-tuning. Some extended experiments indicate that our method could save time and storage overhead extraordinarily with little even no accuracy loss.
翻訳日:2021-11-23 15:24:19 公開日:2021-11-22
# ROBINプロジェクトによる人間と機械の対話音声コーパス

Human-Machine Interaction Speech Corpus from the ROBIN project ( http://arxiv.org/abs/2111.11170v1 )

ライセンス: Link先を確認
Vasile P\u{a}i\c{s}, Radu Ion, Andrei-Marius Avram, Elena Irimia, Verginica Barbu Mititelu, Maria Mitrofan(参考訳) 本稿では,ROBINTASC(RoOBIN Technical Acquisition Speech Corpus)と呼ばれる,RoOBINプロジェクトからのルーマニア語音声コーパスを紹介する。 その主な目的は会話エージェントの振る舞いを改善し、技術機器の購入という文脈で人間と機械の相互作用を可能にすることである。 本論文は,低遅延ASRシステムにおけるコーパスの影響と対話コンポーネントについて,取得過程,コーパス統計,およびコーパスの影響の詳細な説明を含む。

This paper introduces a new Romanian speech corpus from the ROBIN project, called ROBIN Technical Acquisition Speech Corpus (ROBINTASC). Its main purpose was to improve the behaviour of a conversational agent, allowing human-machine interaction in the context of purchasing technical equipment. The paper contains a detailed description of the acquisition process, corpus statistics as well as an evaluation of the corpus influence on a low-latency ASR system as well as a dialogue component.
翻訳日:2021-11-23 15:24:05 公開日:2021-11-22
# 一般ボード幾何学

General Board Geometry ( http://arxiv.org/abs/2111.11329v1 )

ライセンス: Link先を確認
Cameron Browne, \'Eric Piette, Matthew Stephenson, Dennis J.N.J. Soemers(参考訳) ludii一般ゲームシステムでは、タイル、形状、グラフ演算子に基づいて、グラフ要素、方向、ラジアルステップシーケンス間のトポロジカルな関係などの重要な特性を自動的に検出するグラフを用いてゲームボードを記述している。 このアプローチにより、ほとんどのゲームボードは簡単に簡潔に記述できる。

Game boards are described in the Ludii general game system by their underlying graphs, based on tiling, shape and graph operators, with the automatic detection of important properties such as topological relationships between graph elements, directions and radial step sequences. This approach allows most conceivable game boards to be described simply and succinctly.
翻訳日:2021-11-23 15:22:14 公開日:2021-11-22
# (参考訳) RGB深度情報を用いたUAV画像中の針葉樹苗検出 [全文訳有]

Conifer Seedling Detection in UAV-Imagery with RGB-Depth Information ( http://arxiv.org/abs/2111.11388v1 )

ライセンス: CC BY 4.0
Jason Jooste, Michael Fromm, Matthias Schubert(参考訳) 再植林のモニタリングは、すでにカラー画像に効果があることが証明されているドローンと画像認識アルゴリズムの使用によって、現在かなり合理化されている。 カラー画像に加えて、標高データもしばしば利用可能である。 本研究の主な目的は,この高度情報を統合することにより,高速RCNNオブジェクト検出アルゴリズムの性能向上であった。 興味深いことに、ネットワークの構造は重要な役割を担い、背骨ネットワークと地域提案ネットワークとの連携が顕著な改善をもたらす一方で、高さ情報を第4の画像チャネルとして直接追加した。 この効果は非常に長い訓練体制で続いた。 この高さ情報の解像度を増大させる効果もほとんどなかった。

Monitoring of reforestation is currently being considerably streamlined through the use of drones and image recognition algorithms, which have already proven to be effective on colour imagery. In addition to colour imagery, elevation data is often also available. The primary aim of this work was to improve the performance of the faster-RCNN object detection algorithm by integrating this height information, which showed itself to notably improve performance. Interestingly, the structure of the network played a key role, with direct addition of the height information as a fourth image channel showing no improvement, while integration after the backbone network and before the region proposal network led to marked improvements. This effect persisted with very long training regimes. Increasing the resolution of this height information also showed little effect.
翻訳日:2021-11-23 15:18:14 公開日:2021-11-22
# 異なる空間にまたがるサイクル一貫性確率の発散

Cycle Consistent Probability Divergences Across Different Spaces ( http://arxiv.org/abs/2111.11328v1 )

ライセンス: Link先を確認
Zhengxin Zhang, Youssef Mroueh, Ziv Goldfeld, Bharath K. Sriperumbudur(参考訳) 確率分布間の不一致尺度は統計的推論と機械学習の核心にある。 多くのアプリケーションにおいて、関心の分布は異なる空間でサポートされるが、データポイント間の有意義な対応が望まれる。 一貫性のある双方向写像を離散測度に明示的にエンコードすることを動機付け、異なる空間上の分布をマッチングするための新しい不均衡monge最適輸送公式を提案する。 我々の定式化は、計量空間間のグロモフ・ハウスドロフ距離の原理的緩和として現れ、各分布を互いに前進させる2つのサイクル一貫性写像を用いる。 提案手法は,提案手法の構造的性質を解析し,特にgan(cycle-contribute d generative adversarial network)フレームワークを特殊ケースとして捉え,その説明理論を提供する。 計算効率に動機づけられ、不一致を分離し、パラメトリック関数クラスへのマッピングを制限する。 その結果、カーネル化されたバージョンは、GMMD(Generalized maximum mean discrepancy)と呼ばれる。 gmmdの経験的推定のための収束率を研究し,この理論を支持する実験を行った。

Discrepancy measures between probability distributions are at the core of statistical inference and machine learning. In many applications, distributions of interest are supported on different spaces, and yet a meaningful correspondence between data points is desired. Motivated to explicitly encode consistent bidirectional maps into the discrepancy measure, this work proposes a novel unbalanced Monge optimal transport formulation for matching, up to isometries, distributions on different spaces. Our formulation arises as a principled relaxation of the Gromov-Haussdroff distance between metric spaces, and employs two cycle-consistent maps that push forward each distribution onto the other. We study structural properties of the proposed discrepancy and, in particular, show that it captures the popular cycle-consistent generative adversarial network (GAN) framework as a special case, thereby providing the theory to explain it. Motivated by computational efficiency, we then kernelize the discrepancy and restrict the mappings to parametric function classes. The resulting kernelized version is coined the generalized maximum mean discrepancy (GMMD). Convergence rates for empirical estimation of GMMD are studied and experiments to support our theory are provided.
翻訳日:2021-11-23 15:07:12 公開日:2021-11-22
# データラベリングと品質評価のための自己教師付き半教師付き学習

Self-supervised Semi-supervised Learning for Data Labeling and Quality Evaluation ( http://arxiv.org/abs/2111.10932v1 )

ライセンス: Link先を確認
Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan(参考訳) 産業アプリケーションにおけるディープラーニング技術の採用がスピードとスケールの増加とともに増加するにつれ、ディープラーニングモデルのデプロイの成功は、注釈付きデータの可用性、ボリューム、品質にかかっていることが多い。 本稿では,人間のループ環境下での効率的なデータラベリングとアノテーション検証の課題に対処する。 自己教師付き視覚表現学習の分野における最近の進歩は、自然画像データセットのキュレーションとエンジニアリングの恩恵を受けるツールや手法、アノテーションコストの削減、アノテーション品質の向上につながる。 本稿では,自己教師付き半教師付き学習を活用し,データラベリングとアノテーション検証タスクのためのワークフローを構築するための統一フレームワークを提案する。 既存の方法論に対するワークフローの有効性を実証する。 アクティブラーニングタスクでは,0.1%アノテートデータでcifar10で97.0%,10%アノテートデータで83.9%のtop-1精度を実現する。 誤りラベルの50%を学習すると、CIFAR10で97.4%、CIFAR100で85.5%のTop-1精度が得られる。

As the adoption of deep learning techniques in industrial applications grows with increasing speed and scale, successful deployment of deep learning models often hinges on the availability, volume, and quality of annotated data. In this paper, we tackle the problems of efficient data labeling and annotation verification under the human-in-the-loop setting. We showcase that the latest advancements in the field of self-supervised visual representation learning can lead to tools and methods that benefit the curation and engineering of natural image datasets, reducing annotation cost and increasing annotation quality. We propose a unifying framework by leveraging self-supervised semi-supervised learning and use it to construct workflows for data labeling and annotation verification tasks. We demonstrate the effectiveness of our workflows over existing methodologies. On active learning task, our method achieves 97.0% Top-1 Accuracy on CIFAR10 with 0.1% annotated data, and 83.9% Top-1 Accuracy on CIFAR100 with 10% annotated data. When learning with 50% of wrong labels, our method achieves 97.4% Top-1 Accuracy on CIFAR10 and 85.5% Top-1 Accuracy on CIFAR100.
翻訳日:2021-11-23 15:05:18 公開日:2021-11-22
# アダプティブトランスファーラーニング : シンプルだが効果的なトランスファーラーニング

Adaptive Transfer Learning: a simple but effective transfer learning ( http://arxiv.org/abs/2111.10937v1 )

ライセンス: Link先を確認
Jung H Lee, Henry J Kvinge, Scott Howland, Zachary New, John Buckheit, Lauren A. Phillips, Elliott Skomski, Jessica Hibler, Courtney D. Corley, Nathan O. Hodas(参考訳) トランスファーラーニング(TL)は、これまで得られた知識を活用して、新しいタスクを効率的に学習し、限られた量のデータでディープラーニング(DL)モデルをトレーニングするために使われてきた。 TLがDLに適用されると、事前訓練された(教師)モデルはドメイン固有(学生)モデルを構築するために微調整される。 この微調整は、DLモデルを分類器と特徴抽出器に分解できるという事実に依存しており、複数のタスクで同じ特徴抽出器を用いて分類器の訓練を行うことが示されている。 さらに,近年の研究では,教師モデルの特徴抽出器を微調整し,生徒モデルをより効率的に学習できる複数のアルゴリズムが提案されている。 特徴抽出器の微調整にかかわらず、学生モデルの分類器は特徴抽出器の最終的な出力(すなわち、有極層の出力)で訓練される。 しかし、最近の研究では、レイヤ間のResNetsの機能マップは機能的に同等であり、特徴抽出器内の機能マップが学生モデルの分類器の訓練にも使える可能性が示唆されている。 本研究では,教師モデルの隠れ層における特徴マップを用いて,生徒モデルの精度(TLの効率)を向上させることができるかを検討した。 具体的には,tlの特徴マップの最適なセットを選択できる「適応伝達学習(atl)」を開発し,少数の学習環境でテストした。 実験により,ATLがDLモデルをより効率的に学習できることが示唆された。

Transfer learning (TL) leverages previously obtained knowledge to learn new tasks efficiently and has been used to train deep learning (DL) models with limited amount of data. When TL is applied to DL, pretrained (teacher) models are fine-tuned to build domain specific (student) models. This fine-tuning relies on the fact that DL model can be decomposed to classifiers and feature extractors, and a line of studies showed that the same feature extractors can be used to train classifiers on multiple tasks. Furthermore, recent studies proposed multiple algorithms that can fine-tune teacher models' feature extractors to train student models more efficiently. We note that regardless of the fine-tuning of feature extractors, the classifiers of student models are trained with final outputs of feature extractors (i.e., the outputs of penultimate layers). However, a recent study suggested that feature maps in ResNets across layers could be functionally equivalent, raising the possibility that feature maps inside the feature extractors can also be used to train student models' classifiers. Inspired by this study, we tested if feature maps in the hidden layers of the teacher models can be used to improve the student models' accuracy (i.e., TL's efficiency). Specifically, we developed 'adaptive transfer learning (ATL)', which can choose an optimal set of feature maps for TL, and tested it in the few-shot learning setting. Our empirical evaluations suggest that ATL can help DL models learn more efficiently, especially when available examples are limited.
翻訳日:2021-11-23 15:03:44 公開日:2021-11-22
# S3:ラベルノイズ下での自己教師型学習の促進

S3: Supervised Self-supervised Learning under Label Noise ( http://arxiv.org/abs/2111.11288v1 )

ライセンス: Link先を確認
Chen Feng, Georgios Tzimiropoulos, Ioannis Patras(参考訳) ニューラルネットワークによる教師あり学習の大きな進歩にもかかわらず、高品質で大規模で正確なラベル付きデータセットを得るには大きな課題がある。 本稿では,ラベルノイズの存在下での分類の問題,具体的には,サンプルの真のラベルが与えられたラベルの集合に属する場合,あるいはその集合に属さない場合の,クローズトセットとオープンセットのラベルノイズの両方に対処する。 提案手法の核心は,標本の注釈付きラベルと,その近傍のラベルの分布との一貫性に依存するサンプル選択機構と,その後のイテレーションで分類器の信頼度に依存するrelabeling機構と,自己矛盾損失を伴うエントロピー損失を伴う符号化器と,選択したサンプルのみのクロスエントロピー損失を伴う分類器エンコーダを訓練するトレーニング戦略である。 自己確認バイアスを低減し,少数のハイパーパラメータの設定に対するロバスト性を確保するために,ベルやホイッスルを併用することなく,CIFAR10/CIFAR100と,WebVisionやANIMAL-10Nのような実世界のノイズデータセットを用いて,従来の手法をはるかに上回っている。

Despite the large progress in supervised learning with Neural Networks, there are significant challenges in obtaining high-quality, large-scale and accurately labeled datasets. In this context, in this paper we address the problem of classification in the presence of label noise and more specifically, both close-set and open-set label noise, that is when the true label of a sample may, or may not belong to the set of the given labels. In the heart of our method is a sample selection mechanism that relies on the consistency between the annotated label of a sample and the distribution of the labels in its neighborhood in the feature space; a relabeling mechanism that relies on the confidence of the classifier across subsequent iterations; and a training strategy that trains the encoder both with a self-consistency loss and the classifier-encoder with the cross-entropy loss on the selected samples alone. Without bells and whistles, such as co-training so as to reduce the self-confirmation bias, and with robustness with respect to settings of its few hyper-parameters, our method significantly surpasses previous methods on both CIFAR10/CIFAR100 with artificial noise and real-world noisy datasets such as WebVision and ANIMAL-10N.
翻訳日:2021-11-23 15:03:16 公開日:2021-11-22
# 周波数領域によるバックドア攻撃

Backdoor Attack through Frequency Domain ( http://arxiv.org/abs/2111.10991v1 )

ライセンス: Link先を確認
Tong Wang, Yuan Yao, Feng Xu, Shengwei An, Ting Wang(参考訳) バックドア攻撃は生体認証や自動運転といったディープラーニングシステムに対する深刻な脅威であることが示されている。 効果的なバックドア攻撃は、事前定義された条件、すなわちトリガー(英語版)でモデルミスベハを強制するが、通常でなければ振る舞う。 しかし、既存の攻撃のトリガーはピクセル空間に直接注入され、既存の防御によって検出され、トレーニングと推論の段階で視覚的に識別される。 本稿では,周波数領域のトロイの木馬による新しいバックドア攻撃法を提案する。 鍵となる直感は、周波数領域における摂動のトリガーは、画像全体に散らばる小さなピクセル回りの摂動に対応し、既存の防御の前提となる前提を破り、汚染画像がきれいなものと視覚的に区別できないようにすることである。 いくつかのデータセットやタスクでFTROJANを評価し、良性入力の予測精度を著しく低下させることなく高い攻撃成功率を達成することを示す。 また、中毒画像はほとんど見えず、高い知覚品質を保っている。 また, 周波数領域で設計した適応的防御と同様に, 最先端防御に対するftrojanの評価も行う。 その結果,FTROJANは防御性能を著しく低下させることができた。

Backdoor attacks have been shown to be a serious threat against deep learning systems such as biometric authentication and autonomous driving. An effective backdoor attack could enforce the model misbehave under certain predefined conditions, i.e., triggers, but behave normally otherwise. However, the triggers of existing attacks are directly injected in the pixel space, which tend to be detectable by existing defenses and visually identifiable at both training and inference stages. In this paper, we propose a new backdoor attack FTROJAN through trojaning the frequency domain. The key intuition is that triggering perturbations in the frequency domain correspond to small pixel-wise perturbations dispersed across the entire image, breaking the underlying assumptions of existing defenses and making the poisoning images visually indistinguishable from clean ones. We evaluate FTROJAN in several datasets and tasks showing that it achieves a high attack success rate without significantly degrading the prediction accuracy on benign inputs. Moreover, the poisoning images are nearly invisible and retain high perceptual quality. We also evaluate FTROJAN against state-of-the-art defenses as well as several adaptive defenses that are designed on the frequency domain. The results show that FTROJAN can robustly elude or significantly degenerate the performance of these defenses.
翻訳日:2021-11-23 15:02:30 公開日:2021-11-22
# 会話から解決:シーン理解と空間対話を組み合わせることで、協調型ロボットの作業あいまいさを解消する

Talk-to-Resolve: Combining scene understanding and spatial dialogue to resolve granular task ambiguity for a collocated robot ( http://arxiv.org/abs/2111.11099v1 )

ライセンス: Link先を確認
Pradip Pramanick, Chayan Sarkar, Snehasis Banerjee, Brojeshwar Bhowmick(参考訳) ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。 ロボットが自然言語でタスク命令を受け入れる場合、まず、命令をデコードすることでユーザの意図を理解する必要がある。 しかし,タスクの実行中,観察シーンの変動によりロボットは予期せぬ状況に直面する可能性があるため,さらなるユーザ介入が必要となる。 本稿では,ロボットが現場を視覚的に観察してインストラクタとのコヒーレントな対話を開始し,インストラクタの障害を解消するシステムであるTalk-to-Resolve(TTR) を提案する。 対話を通じて、元の計画を進めるためのヒントを見つけるか、元の計画の代替として受け入れられるか、あるいはタスクを完全に中止することを肯定する。 そこで本研究では,ロボットの次の動作を計算するために,観察シーンの濃密なキャプションと与えられた指示を併用する。 我々は,初期命令と状況シーンペアのデータセットに基づいてシステムを評価する。 本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。 さらに、ユーザ調査により、我々のシステムからの質問は、最先端の3.08よりも自然(平均は1から5のスケールで4.02)であることが判明した。

The utility of collocating robots largely depends on the easy and intuitive interaction mechanism with the human. If a robot accepts task instruction in natural language, first, it has to understand the user's intention by decoding the instruction. However, while executing the task, the robot may face unforeseeable circumstances due to the variations in the observed scene and therefore requires further user intervention. In this article, we present a system called Talk-to-Resolve (TTR) that enables a robot to initiate a coherent dialogue exchange with the instructor by observing the scene visually to resolve the impasse. Through dialogue, it either finds a cue to move forward in the original plan, an acceptable alternative to the original plan, or affirmation to abort the task altogether. To realize the possible stalemate, we utilize the dense captions of the observed scene and the given instruction jointly to compute the robot's next action. We evaluate our system based on a data set of initial instruction and situational scene pairs. Our system can identify the stalemate and resolve them with appropriate dialogue exchange with 82% accuracy. Additionally, a user study reveals that the questions from our systems are more natural (4.02 on average on a scale of 1 to 5) as compared to a state-of-the-art (3.08 on average).
翻訳日:2021-11-23 15:02:10 公開日:2021-11-22
# paris-carla-3d: 3dマッピングの課題に挑戦する、リアルで総合的なアウトドアポイントクラウドデータセット

Paris-CARLA-3D: A Real and Synthetic Outdoor Point Cloud Dataset for Challenging Tasks in 3D Mapping ( http://arxiv.org/abs/2111.11348v1 )

ライセンス: Link先を確認
Jean-Emmanuel Deschaud and David Duque and Jean Pierre Richa and Santiago Velasco-Forero and Beatriz Marcotegui and and Fran\c{c}ois Goulette(参考訳) Paris-CARLA-3Dは、モバイルLiDARとカメラシステムによって構築された屋外環境の濃密な色の点雲のデータセットである。 データは、オープンソースのCARLAシミュレーター(7億ポイント)の合成データと、パリ市で取得された実際のデータ(6000万ポイント)の2つのセットで構成されている。 このデータセットの利点の1つは、オープンソースのCARLAシミュレータで、実際のデータを生成するのと同じLiDARとカメラプラットフォームをシミュレートすることである。 さらに,carlaの意味タグを用いたクラスの手動アノテーションが実データ上で実行され,合成から実データへの転送メソッドのテストが可能となった。 このデータセットの目的は、セマンティックセグメンテーション、インスタンスセグメンテーション、シーンコンプリートといった屋外環境の3Dマッピングのための難解な視覚タスクの評価と改善を行うための挑戦的なデータセットを提供することである。 各タスクに対して,評価プロトコルと,ベースラインを確立するために実施した実験について述べる。

Paris-CARLA-3D is a dataset of several dense colored point clouds of outdoor environments built by a mobile LiDAR and camera system. The data are composed of two sets with synthetic data from the open source CARLA simulator (700 million points) and real data acquired in the city of Paris (60 million points), hence the name Paris-CARLA-3D. One of the advantages of this dataset is to have simulated the same LiDAR and camera platform in the open source CARLA simulator as the one used to produce the real data. In addition, manual annotation of the classes using the semantic tags of CARLA was performed on the real data, allowing the testing of transfer methods from the synthetic to the real data. The objective of this dataset is to provide a challenging dataset to evaluate and improve methods on difficult vision tasks for the 3D mapping of outdoor environments: semantic segmentation, instance segmentation, and scene completion. For each task, we describe the evaluation protocol as well as the experiments carried out to establish a baseline.
翻訳日:2021-11-23 15:01:30 公開日:2021-11-22
# UMBRELLA:不確かさを意識したモデルに基づくオフライン強化学習

UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning ( http://arxiv.org/abs/2111.11097v1 )

ライセンス: Link先を確認
Christopher Diehl, Timo Sievernich, Martin Kr\"uger, Frank Hoffmann, Torsten Bertran(参考訳) オフライン強化学習(RL)は、オフラインデータから意思決定を学習するためのフレームワークを提供する。 自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れているポリシーを学ぶ。 特に、自動運転、説明可能性、転送可能性といった安全クリティカルな応用が成功の鍵となる。 これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。 しかし、現在の最先端手法は、多エージェント系の確率的挙動から生じるアレタリック不確実性の影響を無視することが多い。 本研究は,SDVの予測,計画,制御問題を解釈可能な学習方式で共同で解決する,不確実性を考慮したモデルベースオフライン強化学習plAnning(UMBRELLA)の新たなアプローチを提案する。 訓練された行動条件付き確率力学モデルは、交通シーンの異なる未来の進化を捉えている。 この分析は,実世界の公開データセットに基づいて,運転シミュレーションに挑戦する手法の有効性を示す実証的証拠を提供する。

Offline reinforcement learning (RL) provides a framework for learning decision-making from offline data and therefore constitutes a promising approach for real-world applications as automated driving. Self-driving vehicles (SDV) learn a policy, which potentially even outperforms the behavior in the sub-optimal data set. Especially in safety-critical applications as automated driving, explainability and transferability are key to success. This motivates the use of model-based offline RL approaches, which leverage planning. However, current state-of-the-art methods often neglect the influence of aleatoric uncertainty arising from the stochastic behavior of multi-agent systems. This work proposes a novel approach for Uncertainty-aware Model-Based Offline REinforcement Learning Leveraging plAnning (UMBRELLA), which solves the prediction, planning, and control problem of the SDV jointly in an interpretable learning-based fashion. A trained action-conditioned stochastic dynamics model captures distinctively different future evolutions of the traffic scene. The analysis provides empirical evidence for the effectiveness of our approach in challenging automated driving simulations and based on a real-world public dataset.
翻訳日:2021-11-23 15:00:07 公開日:2021-11-22
# NTD:非透過性でバックドア検出が可能に

NTD: Non-Transferability Enabled Backdoor Detection ( http://arxiv.org/abs/2111.11157v1 )

ライセンス: Link先を確認
Yinshan Li, Hua Ma, Zhi Zhang, Yansong Gao, Alsharif Abuadbba, Anmin Fu, Yifeng Zheng, Said F. Al-Sarawi, Derek Abbott(参考訳) バックドアディープラーニング(DL)モデルは、通常クリーンな入力で振る舞うが、バックドアアタッカーが望むようにトリガー入力で誤動作し、DLモデルデプロイメントに深刻な結果をもたらす。 最先端の防御は、特定のバックドア攻撃(ソースに依存しない攻撃)か、機械学習(ml)の専門知識や高価なコンピューティングリソースが必要な場合に非ユーザフレンドリである。 この研究は、既存のバックドア攻撃には必然的な本質的な弱点、すなわちトリガー入力がバックドアモデルにハイジャックするが、同じバックドアに組み込まれていない他のモデルには効果がないことを観察する。 このキーとなる観察により、NTDは、実行中にモデルアンダーテスト(MUT)のトリガー入力を識別するための非透過性有効バックドア検出(NTD)を提案する。 一方、ntdは特徴抽出器(fe)を利用して、予測されたクラスからランダムに選択された入力とサンプルのグループの特徴ベクトルを抽出し、feの潜在空間における入力とサンプルとの類似性を比較する。 類似性が低い場合、入力は逆トリガー入力であり、そうでなければ良性である。 FEは、オープンプラットフォームからプライベートに予約された無料の事前訓練モデルである。 FEとMUTは異なるソースから来ているため、攻撃者は両方に同じバックドアを挿入する可能性は極めて低い。 非透過性のため、MUTに作用するトリガー効果はFEに伝達できず、NTDは様々な種類のバックドア攻撃に対して有効である。 我々は,顔認識,交通標識認識,一般動物分類の3つのタスクに対してNTDを評価し,NDTが高い有効性(偽受容率)と低い検出遅延を有するユーザビリティ(偽拒絶率)を有することを確認した。

A backdoor deep learning (DL) model behaves normally upon clean inputs but misbehaves upon trigger inputs as the backdoor attacker desires, posing severe consequences to DL model deployments. State-of-the-art defenses are either limited to specific backdoor attacks (source-agnostic attacks) or non-user-friendly in that machine learning (ML) expertise or expensive computing resources are required. This work observes that all existing backdoor attacks have an inevitable intrinsic weakness, non-transferability, that is, a trigger input hijacks a backdoored model but cannot be effective to another model that has not been implanted with the same backdoor. With this key observation, we propose non-transferability enabled backdoor detection (NTD) to identify trigger inputs for a model-under-test (MUT) during run-time.Specificall y, NTD allows a potentially backdoored MUT to predict a class for an input. In the meantime, NTD leverages a feature extractor (FE) to extract feature vectors for the input and a group of samples randomly picked from its predicted class, and then compares similarity between the input and the samples in the FE's latent space. If the similarity is low, the input is an adversarial trigger input; otherwise, benign. The FE is a free pre-trained model privately reserved from open platforms. As the FE and MUT are from different sources, the attacker is very unlikely to insert the same backdoor into both of them. Because of non-transferability, a trigger effect that does work on the MUT cannot be transferred to the FE, making NTD effective against different types of backdoor attacks. We evaluate NTD on three popular customized tasks such as face recognition, traffic sign recognition and general animal classification, results of which affirm that NDT has high effectiveness (low false acceptance rate) and usability (low false rejection rate) with low detection latency.
翻訳日:2021-11-23 14:59:49 公開日:2021-11-22
# ImageNetにおける敵対的攻撃の評価:誤分類授業の現実的チェック

Evaluating Adversarial Attacks on ImageNet: A Reality Check on Misclassification Classes ( http://arxiv.org/abs/2111.11056v1 )

ライセンス: Link先を確認
Utku Ozbulak, Maura Pintor, Arnout Van Messem, Wesley De Neve(参考訳) imagenetは当初、コンピュータビジョンの領域におけるパフォーマンスベンチマークのためのデータセットとして提案されたが、他の様々な研究成果も可能になった。 敵対的機械学習はそのような研究の取り組みのひとつであり、誤った予測を行う際に、愚かなモデルに偽りの入力を用いる。 敵対的機械学習の分野における攻撃と防御を評価するため、imagenetは最も頻繁に使用されるデータセットの1つだ。 しかし、まだ研究されていないトピックは、敵対的な例が誤って分類されるクラスの性質である。 本稿では、これらの誤分類クラスを詳細に分析し、ImageNetのクラス階層を活用し、上記タイプの相対的な位置を敵の例の未成熟な起源で測定する。 モデルからモデルへの転送可能性を達成する敵の例の711\%$が、基礎となるソースイメージで予測されるトップ5クラスに誤分類されていることが分かりました。 また、未ターゲットの誤分類の大規模なサブセットは、実際には、意味論的に類似したクラスへの誤分類である。 これらの結果に基づき、未目標の対人的成功を評価する際に、ImageNetクラス階層を考慮する必要性について考察する。 さらに,分類情報の導入に向けた今後の研究課題を提唱する。

Although ImageNet was initially proposed as a dataset for performance benchmarking in the domain of computer vision, it also enabled a variety of other research efforts. Adversarial machine learning is one such research effort, employing deceptive inputs to fool models in making wrong predictions. To evaluate attacks and defenses in the field of adversarial machine learning, ImageNet remains one of the most frequently used datasets. However, a topic that is yet to be investigated is the nature of the classes into which adversarial examples are misclassified. In this paper, we perform a detailed analysis of these misclassification classes, leveraging the ImageNet class hierarchy and measuring the relative positions of the aforementioned type of classes in the unperturbed origins of the adversarial examples. We find that $71\%$ of the adversarial examples that achieve model-to-model adversarial transferability are misclassified into one of the top-5 classes predicted for the underlying source images. We also find that a large subset of untargeted misclassifications are, in fact, misclassifications into semantically similar classes. Based on these findings, we discuss the need to take into account the ImageNet class hierarchy when evaluating untargeted adversarial successes. Furthermore, we advocate for future research efforts to incorporate categorical information.
翻訳日:2021-11-23 14:52:49 公開日:2021-11-22
# 不確実性認識と回顧的臨床注釈を伴う大動脈解離のct angiographyにおける横断的ビューの自動選択

Automated cross-sectional view selection in CT angiography of aortic dissections with uncertainty awareness and retrospective clinical annotations ( http://arxiv.org/abs/2111.11269v1 )

ライセンス: Link先を確認
Antonio Pepe and Jan Egger and Marina Codari and Martin J. Willemink and Christina Gsaxner and Jianning Li and Peter M. Roth and Gabriel Mistelbauer and Dieter Schmalstieg and Dominik Fleischmann(参考訳) 目的: 解離などの慢性大動脈疾患のサーベイランスイメージングは、事前に定義された大動脈のランドマークにおける断面径の測定と比較に時間をかけて頼っている。 ロバストなツールがないため、断面平面の向きは高度に訓練されたオペレータによって手動で定義される。 本研究は,非無視的な操作間変動が存在するにもかかわらず,クリニックで日常的に手動でアノテーションを収集し,この作業を容易にする方法を示す。 影響:不完全でふりかえりの臨床的アノテーションを利用することで、不適切だが反復的なイメージングタスクを楽にしたり自動化したりできる。 方法論: 本研究では, 畳み込みニューラルネットワークと不確実な定量化手法を組み合わせて, 断面面の向きを予測する。 我々は,11人のオペレーターがランダムに処理した臨床データを用いて,3人の独立したオペレーターが処理したより小さなセットを用いて,操作間変動を評価する。 結果: 断面平面の手動選択は, 1角あたり10.6^\circ$と21.4^\circ$の95%の制限値(loa)で特徴づけられる。 本手法では, 静的誤差を3.57^\circ$(40.2$%), 4.11^\circ$(32.8$%), LOAは5.4^\circ$(49.0$%), 16.0^\circ$(74.6$%)で低減した。 結論: 既存のアノテーションは, 大動脈解離監視のための断面積抽出などの不正かつ反復的な作業を容易にするために, 診療所において安価な資源となる可能性が示唆された。

Objective: Surveillance imaging of chronic aortic diseases, such as dissections, relies on obtaining and comparing cross-sectional diameter measurements at predefined aortic landmarks, over time. Due to a lack of robust tools, the orientation of the cross-sectional planes is defined manually by highly trained operators. We show how manual annotations routinely collected in a clinic can be efficiently used to ease this task, despite the presence of a non-negligible interoperator variability in the measurements. Impact: Ill-posed but repetitive imaging tasks can be eased or automated by leveraging imperfect, retrospective clinical annotations. Methodology: In this work, we combine convolutional neural networks and uncertainty quantification methods to predict the orientation of such cross-sectional planes. We use clinical data randomly processed by 11 operators for training, and test on a smaller set processed by 3 independent operators to assess interoperator variability. Results: Our analysis shows that manual selection of cross-sectional planes is characterized by 95% limits of agreement (LOA) of $10.6^\circ$ and $21.4^\circ$ per angle. Our method showed to decrease static error by $3.57^\circ$ ($40.2$%) and $4.11^\circ$ ($32.8$%) against state of the art and LOA by $5.4^\circ$ ($49.0$%) and $16.0^\circ$ ($74.6$%) against manual processing. Conclusion: This suggests that pre-existing annotations can be an inexpensive resource in clinics to ease ill-posed and repetitive tasks like cross-section extraction for surveillance of aortic dissections.
翻訳日:2021-11-23 14:52:30 公開日:2021-11-22
# ビジュアルコンピューティングのニューラルフィールドとその先

Neural Fields in Visual Computing and Beyond ( http://arxiv.org/abs/2111.11426v1 )

ライセンス: Link先を確認
Yiheng Xie, Towaki Takikawa, Shunsuke Saito, Or Litany, Shiqin Yan, Numair Khan, Federico Tombari, James Tompkin, Vincent Sitzmann, Srinath Sridhar(参考訳) 機械学習の最近の進歩は、空間と時間にまたがるシーンやオブジェクトの物理的特性をパラメータ化する座標ベースのニューラルネットワークを使って、ビジュアルコンピューティング問題を解決することへの関心を高めている。 ニューラルフィールドと呼ばれるこれらの手法は、3次元形状と画像の合成、人体のアニメーション、3次元再構成、ポーズ推定に成功している。 しかし、短期間の急速な進展により、多くの論文が存在するが、この問題の総合的なレビューと定式化はまだ現れていない。 本報告では, 文脈, 数学的基礎, およびニューラルネットワークに関する文献の広範なレビューを提供することにより, この限界に対処する。 この報告は2次元の研究を扱っている。 パートIでは、異なる表現、アーキテクチャ、前方マッピング、一般化メソッドを含む、ニューラルネットワークメソッドの共通コンポーネントを識別することで、ニューラルネットワークのテクニックに焦点を当てる。 パートiiでは、視覚コンピューティングのさまざまな問題(ロボティクス、オーディオなど)に対するニューラルフィールドの応用に焦点を当てます。 本レビューでは,視覚コンピューティングにすでに取り組まれているトピックの多様さを概観し,ニューラルフィールド法によってもたらされる品質,柔軟性,能力の向上を実証する。 最後に、コミュニティによって継続的に更新されるこのレビューの生きたバージョンをコントリビュートするWebサイトを紹介する。

Recent advances in machine learning have created increasing interest in solving visual computing problems using a class of coordinate-based neural networks that parametrize physical properties of scenes or objects across space and time. These methods, which we call neural fields, have seen successful application in the synthesis of 3D shapes and image, animation of human bodies, 3D reconstruction, and pose estimation. However, due to rapid progress in a short time, many papers exist but a comprehensive review and formulation of the problem has not yet emerged. In this report, we address this limitation by providing context, mathematical grounding, and an extensive review of literature on neural fields. This report covers research along two dimensions. In Part I, we focus on techniques in neural fields by identifying common components of neural field methods, including different representations, architectures, forward mapping, and generalization methods. In Part II, we focus on applications of neural fields to different problems in visual computing, and beyond (e.g., robotics, audio). Our review shows the breadth of topics already covered in visual computing, both historically and in current incarnations, demonstrating the improved quality, flexibility, and capability brought by neural fields methods. Finally, we present a companion website that contributes a living version of this review that can be continually updated by the community.
翻訳日:2021-11-23 14:51:56 公開日:2021-11-22
# (参考訳) redcaps: 人々、人々によって作成されたwebキュレートされた画像テキストデータ [全文訳有]

RedCaps: web-curated image-text data created by the people, for the people ( http://arxiv.org/abs/2111.11431v1 )

ライセンス: CC BY 4.0
Karan Desai, Gaurav Kaul, Zubin Aysola, Justin Johnson(参考訳) 視覚と視覚と言語タスクの汎用表現を学ぶために、ペア画像とテキストの大規模なデータセットがますます人気になっている。 このようなデータセットは、検索エンジンのクエリやhtml alt-textの収集によって構築されている。webデータは騒がしいため、品質を維持するには複雑なフィルタリングパイプラインが必要である。我々は、最小限のフィルタリングで高品質なデータを収集するための代替データソースを探索する。我々は、redditから収集された1200万のイメージテキストペアからなる大規模データセットであるredcapsを紹介する。 Redditの画像やキャプションには、さまざまなオブジェクトやシーンが描かれている。 私たちは手動でキュレートされたサブレディットのセットからデータを収集し、粗いイメージラベルを与え、個々のインスタンスをラベル付けすることなくデータセットの構成をステアリングできるようにします。 レッドキャップで訓練されたキャプションモデルは,人間が好むリッチで多様なキャプションを生成し,多くの下流タスクに伝達される視覚的表現を学習する。

Large datasets of paired images and text have become increasingly popular for learning generic representations for vision and vision-and-language tasks. Such datasets have been built by querying search engines or collecting HTML alt-text -- since web data is noisy, they require complex filtering pipelines to maintain quality. We explore alternate data sources to collect high quality data with minimal filtering. We introduce RedCaps -- a large-scale dataset of 12M image-text pairs collected from Reddit. Images and captions from Reddit depict and describe a wide variety of objects and scenes. We collect data from a manually curated set of subreddits, which give coarse image labels and allow us to steer the dataset composition without labeling individual instances. We show that captioning models trained on RedCaps produce rich and varied captions preferred by humans, and learn visual representations that transfer to many downstream tasks.
翻訳日:2021-11-23 14:49:33 公開日:2021-11-22
# MetaFormerは、視覚に必要なのは何か

MetaFormer is Actually What You Need for Vision ( http://arxiv.org/abs/2111.11418v1 )

ライセンス: Link先を確認
Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan(参考訳) トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。 共通の信念は、注意に基づくトークンミキサーモジュールが、その能力に最も貢献しているということである。 しかし,近年の研究では,変圧器のアテンションに基づくモジュールを空間的MLPに置き換えることができ,その結果のモデルの性能は良好である。 この観察に基づいて、特定のトークンミキサモジュールではなく、トランスフォーマの一般的なアーキテクチャがモデルの性能にとってより不可欠であると仮定する。 これを検証するため,変圧器のアテンションモジュールを恥ずかしいほど単純な空間プーリング演算子に置き換え,最も基本的なトークン混合のみを行う。 驚いたことに、派生モデルであるPoolFormerは、複数のコンピュータビジョンタスクにおいて競合性能を達成する。 例えばImageNet-1Kでは、PoolFormerは82.1%のトップ-1の精度を達成し、よく調整された視覚変換器/MLPライクなベースラインであるDeiT-B/ResMLP-B24を0.3%/1.1%、パラメータが35%/52%、MACが48%/60%減った。 PoolFormerの有効性は私たちの仮説を検証し、トークンミキサーを指定せずにトランスフォーマーから抽象化された一般的なアーキテクチャである"MetaFormer"の概念を開始するよう促します。 広範な実験結果から,メタフォーマは視覚タスクにおける最近のトランスフォーマおよびmlpライクなモデルの優れた結果を得る上で重要な役割を担っていると考察する。 この作業は、トークンミキサーモジュールではなく、metaformerを改善することに特化した、より将来の研究を呼びかけている。 さらに、提案したPoolFormerは、将来のMetaFormerアーキテクチャ設計の出発点となるでしょう。 コードはhttps://github.com/s ail-sg/poolformerで入手できる。

Transformers have shown great potential in computer vision tasks. A common belief is their attention-based token mixer module contributes most to their competence. However, recent works show the attention-based module in transformers can be replaced by spatial MLPs and the resulted models still perform quite well. Based on this observation, we hypothesize that the general architecture of the transformers, instead of the specific token mixer module, is more essential to the model's performance. To verify this, we deliberately replace the attention module in transformers with an embarrassingly simple spatial pooling operator to conduct only the most basic token mixing. Surprisingly, we observe that the derived model, termed as PoolFormer, achieves competitive performance on multiple computer vision tasks. For example, on ImageNet-1K, PoolFormer achieves 82.1% top-1 accuracy, surpassing well-tuned vision transformer/MLP-like baselines DeiT-B/ResMLP-B24 by 0.3%/1.1% accuracy with 35%/52% fewer parameters and 48%/60% fewer MACs. The effectiveness of PoolFormer verifies our hypothesis and urges us to initiate the concept of "MetaFormer", a general architecture abstracted from transformers without specifying the token mixer. Based on the extensive experiments, we argue that MetaFormer is the key player in achieving superior results for recent transformer and MLP-like models on vision tasks. This work calls for more future research dedicated to improving MetaFormer instead of focusing on the token mixer modules. Additionally, our proposed PoolFormer could serve as a starting baseline for future MetaFormer architecture design. Code is available at https://github.com/s ail-sg/poolformer
翻訳日:2021-11-23 14:15:57 公開日:2021-11-22
# Florence: コンピュータビジョンのための新しい基礎モデル

Florence: A New Foundation Model for Computer Vision ( http://arxiv.org/abs/2111.11432v1 )

ライセンス: Link先を確認
Lu Yuan and Dongdong Chen and Yi-Ling Chen and Noel Codella and Xiyang Dai and Jianfeng Gao and Houdong Hu and Xuedong Huang and Boxin Li and Chunyuan Li and Ce Liu and Mengchen Liu and Zicheng Liu and Yumao Lu and Yu Shi and Lijuan Wang and Jianfeng Wang and Bin Xiao and Zhen Xiao and Jianwei Yang and Michael Zeng and Luowei Zhou and Pengchuan Zhang(参考訳) 我々の多様でオープンな世界に対する視覚的理解の自動化は、人間の視覚と同様、特定のタスクの最小限のカスタマイズでコンピュータビジョンモデルを一般化することを要求する。 多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルは、このミッションにおいて現実世界のコンピュータビジョンアプリケーションを解決するために重要である。 CLIP,ALIGN,Wu Dao 2.0などの既存のビジョン基盤モデルは画像とテキスト表現を相互共有表現にマッピングすることに重点を置いているが、我々は新しいコンピュータビジョン基盤モデルであるFlorenceを導入し、粗い(シーン)から細い(オブジェクト)へ、静的(イメージ)から動的(ビデオ)へ、そしてRGBから複数のモード(キャプション、深さ)へ表現を拡張する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、行動認識などの様々なコンピュータビジョンタスクに容易に適用できる。 さらに、フローレンスは、完全な微調整、線形探索、少数ショット転送、新しい画像やオブジェクトのゼロショット転送など、多くの種類の転写学習において優れた性能を示す。 これらの特性はすべて、汎用的なビジョンタスクを提供するために、vision foundationモデルにとって重要です。 フィレンツェは44の代表的なベンチマーク(例えば、ImageNet-1Kゼロショット分類でトップ1の精度は83.74、トップ5の精度は97.18、COCOの微調整では62.4 mAP、VQAでは80.36、キネティクス600では87.8)で新しい最先端の結果を達成した。

Automated visual understanding of our diverse and open world demands computer vision models to generalize well with minimal customization for specific tasks, similar to human vision. Computer vision foundation models, which are trained on diverse, large-scale dataset and can be adapted to a wide range of downstream tasks, are critical for this mission to solve real-world computer vision applications. While existing vision foundation models such as CLIP, ALIGN, and Wu Dao 2.0 focus mainly on mapping images and textual representations to a cross-modal shared representation, we introduce a new computer vision foundation model, Florence, to expand the representations from coarse (scene) to fine (object), from static (images) to dynamic (videos), and from RGB to multiple modalities (caption, depth). By incorporating universal visual-language representations from Web-scale image-text data, our Florence model can be easily adapted for various computer vision tasks, such as classification, retrieval, object detection, VQA, image caption, video retrieval and action recognition. Moreover, Florence demonstrates outstanding performance in many types of transfer learning: fully sampled fine-tuning, linear probing, few-shot transfer and zero-shot transfer for novel images and objects. All of these properties are critical for our vision foundation model to serve general purpose vision tasks. Florence achieves new state-of-the-art results in majority of 44 representative benchmarks, e.g., ImageNet-1K zero-shot classification with top-1 accuracy of 83.74 and the top-5 accuracy of 97.18, 62.4 mAP on COCO fine tuning, 80.36 on VQA, and 87.8 on Kinetics-600.
翻訳日:2021-11-23 14:15:23 公開日:2021-11-22
# 知識に基づく多言語言語モデル

Knowledge Based Multilingual Language Model ( http://arxiv.org/abs/2111.10962v1 )

ライセンス: Link先を確認
Linlin Liu, Xin Li, Ruidan He, Lidong Bing, Shafiq Joty, Luo Si(参考訳) 知識に富んだ言語表現学習は、様々な知識集約nlpタスクで有望なパフォーマンスを示している。 しかし、既存の知識に基づく言語モデルは、すべてモノリンガルな知識グラフデータで訓練されている。 本稿では,知識に基づく多言語言語モデル(kmlms)を事前学習するための新しい枠組みを提案する。 まず,ウィキデータナレッジグラフを用いて,大量のコード交換合成文と推論に基づく多言語学習データを生成する。 そして,生成されたデータの内・間関係構造に基づいて,事前学習タスクをデザインし,知識学習を容易にすることにより,言語モデルに事実知識を記憶させるだけでなく,有用な論理パターンを学習させる。 我々の事前学習したKMLMは、名前付きエンティティ認識、事実知識検索、関係分類、そして私たちによって設計された新しいタスク、すなわち論理推論を含む、幅広い知識集約型言語間NLPタスクにおいて、大幅な性能向上を示す。 私たちのコードと事前訓練された言語モデルは公開されます。

Knowledge enriched language representation learning has shown promising performance across various knowledge-intensive NLP tasks. However, existing knowledge based language models are all trained with monolingual knowledge graph data, which limits their application to more languages. In this work, we present a novel framework to pretrain knowledge based multilingual language models (KMLMs). We first generate a large amount of code-switched synthetic sentences and reasoning-based multilingual training data using the Wikidata knowledge graphs. Then based on the intra- and inter-sentence structures of the generated data, we design pretraining tasks to facilitate knowledge learning, which allows the language models to not only memorize the factual knowledge but also learn useful logical patterns. Our pretrained KMLMs demonstrate significant performance improvements on a wide range of knowledge-intensive cross-lingual NLP tasks, including named entity recognition, factual knowledge retrieval, relation classification, and a new task designed by us, namely, logic reasoning. Our code and pretrained language models will be made publicly available.
翻訳日:2021-11-23 14:14:22 公開日:2021-11-22
# 階層型デコーダはテキスト分類に必要なすべてです

Hierarchy Decoder is All You Need To Text Classification ( http://arxiv.org/abs/2111.11104v1 )

ライセンス: Link先を確認
SangHun Im, Gibaeg Kim, Heung-Seon Oh, Seongung Jo, Donghwan Kim(参考訳) 階層的なテキスト分類(HTC)は、様々な実アプリケーションに必須であるが、HTCモデルは、厳密な不均衡と階層的依存関係を持つ大量のデータを処理する必要があるため、複雑化する。 既存のローカルおよびグローバルなアプローチでは、時間的複雑性を低減し、階層的依存関係を組み込むことで、HTCを深層学習で改善している。 本稿では,エンコーダ-デコーダ構造に基づく再帰的階層デコーダ(HiDEC)を提案する。 HiDECのキーとなる考え方は、階層的依存関係とレベル情報を意識しながら、再帰的階層的デコードを使用してコンテキスト行列をサブ階層にデコードすることである。 HiDECは既存のアパッチの利点を取り入れた統一モデルであり、上記の困難をトレードオフなしに緩和する。 さらに、小さな修正を加えてシングルラベルとマルチラベルの分類にも適用することができる。 提案モデルの優位性を2つのベンチマークデータセット(WOS-46985とRCV1)で検証し,その成功理由を明らかにした。

Hierarchical text classification (HTC) to a taxonomy is essential for various real applications butchallenging since HTC models often need to process a large volume of data that are severelyimbalanced and have hierarchy dependencies. Existing local and global approaches use deep learningto improve HTC by reducing the time complexity and incorporating the hierarchy dependencies.However , it is difficult to satisfy both conditions in a single HTC model. This paper proposes ahierarchy decoder (HiDEC) that uses recursive hierarchy decoding based on an encoder-decoderarchi tecture. The key idea of the HiDEC involves decoding a context matrix into a sub-hierarchysequenc e using recursive hierarchy decoding, while staying aware of hierarchical dependenciesand level information. The HiDEC is a unified model that incorporates the benefits of existingapproaches, thereby alleviating the aforementioned difficulties without any trade-off. In addition, itcan be applied to both single- and multi-label classification with a minor modification. The superiorityof the proposed model was verified on two benchmark datasets (WOS-46985 and RCV1) with anexplanation of the reasons for its success
翻訳日:2021-11-23 14:14:06 公開日:2021-11-22
# midnet:空中画像における船舶方向検出のためのアンカー・アンド・アングルフリー検出器

MidNet: An Anchor-and-Angle-Fre e Detector for Oriented Ship Detection in Aerial Images ( http://arxiv.org/abs/2111.10961v1 )

ライセンス: Link先を確認
Feng Jie, Yuping Liang, Junpeng Zhang, Xiangrong Zhang, Quanhe Yao, Licheng Jiao(参考訳) 空中画像における船舶検出は、任意の物体の向きと鳥の目から見た複雑な背景のため、活発だが困難な課題である。 既存の手法の多くは角予測や事前定義されたアンカーボックスに依存しており、不安定な角回帰や過度なハイパーパラメータ設定に非常に敏感である。 これらの問題に対処するため,アンカー・アンド・アングルフリーのパラダイムに置き換えるとともに,各対象,すなわちMidNetを符号化するセンターと4つの中間点を配置する新しい検出器を提案する。 MidNetは、船の中間点を強化するためにカスタマイズされた対称変形可能な畳み込みを設計し、同じ船の中央と中点を対応する遠心シフトと整合半径を予測することで適応的にマッチングする。 最後に, 厳密な解析的幾何アルゴリズムを提案し, 中心と中間点を段階的に改良し, 正確に向き付けられた有界箱を構築する。 HRSC2016とFGSD2021の2つの公開船検出データセットでは、MidNetは90.52%と86.50%のAPを達成し、最先端の検出器を上回っている。 さらに、MidNetはDOTAの船体検出の競争結果を得る。

Ship detection in aerial images remains an active yet challenging task due to arbitrary object orientation and complex background from a bird's-eye perspective. Most of the existing methods rely on angular prediction or predefined anchor boxes, making these methods highly sensitive to unstable angular regression and excessive hyper-parameter setting. To address these issues, we replace the angular-based object encoding with an anchor-and-angle-fre e paradigm, and propose a novel detector deploying a center and four midpoints for encoding each oriented object, namely MidNet. MidNet designs a symmetrical deformable convolution customized for enhancing the midpoints of ships, then the center and midpoints for an identical ship are adaptively matched by predicting corresponding centripetal shift and matching radius. Finally, a concise analytical geometry algorithm is proposed to refine the centers and midpoints step-wisely for building precise oriented bounding boxes. On two public ship detection datasets, HRSC2016 and FGSD2021, MidNet outperforms the state-of-the-art detectors by achieving APs of 90.52% and 86.50%. Additionally, MidNet obtains competitive results in the ship detection of DOTA.
翻訳日:2021-11-23 14:12:19 公開日:2021-11-22
# 単眼路平面視差推定法

Monocular Road Planar Parallax Estimation ( http://arxiv.org/abs/2111.11089v1 )

ライセンス: Link先を確認
Haobo Yuan, Teng Chen, Wei Sui, Jiafeng Xie, Lefei Zhang, Yuan Li, Qian Zhang(参考訳) ドライブル表面および周辺環境の3次元構造の推定は、補助運転および自律運転にとって重要な課題である。 lidarのような高価な3dセンサーを使うか、ディープラーニングによってポイントの深さを直接予測する。 既存の手法を踏襲する代わりに,平面視差に基づく単眼画像シーケンスから3次元センシングを行う新しい深層ニューラルネットワークである road planar parallax attention network (rpanet) を提案する。 RPANetは、路面のホモグラフィーに整列した一対の画像を入力として取り、3D再構成のための$\gamma$mapを出力する。 深さや高さを推定する以外に、$\gamma$map は2つの連続するフレーム間の2次元変換を構築することができるが、容易に深さや高さに導出できる。 路面を基準として連続するフレームを反動させることにより、平面視差および残像変位から3次元構造を推定することができる。 さらに,平面視差に起因する変位をよりよく把握するために,新たなクロスアテンションモジュールを提案する。 Waymo Open Datasetのデータをサンプリングし,平面視差に関連するデータを構築する。 また,本手法の3次元再構成精度を示すため,サンプルデータセットを用いた総合実験を行った。

Estimating the 3D structure of the drivable surface and surrounding environment is a crucial task for assisted and autonomous driving. It is commonly solved either by using expensive 3D sensors such as LiDAR or directly predicting the depth of points via deep learning. Instead of following existing methodologies, we propose Road Planar Parallax Attention Network (RPANet), a new deep neural network for 3D sensing from monocular image sequences based on planar parallax, which takes full advantage of the commonly seen road plane geometry in driving scenes. RPANet takes a pair of images aligned by the homography of the road plane as input and outputs a $\gamma$ map for 3D reconstruction. Beyond estimating the depth or height, the $\gamma$ map has a potential to construct a two-dimensional transformation between two consecutive frames while can be easily derived to depth or height. By warping the consecutive frames using the road plane as a reference, the 3D structure can be estimated from the planar parallax and the residual image displacements. Furthermore, to make the network better perceive the displacements caused by planar parallax, we introduce a novel cross-attention module. We sample data from the Waymo Open Dataset and construct data related to planar parallax. Comprehensive experiments are conducted on the sampled dataset to demonstrate the 3D reconstruction accuracy of our approach in challenging scenarios.
翻訳日:2021-11-23 14:11:59 公開日:2021-11-22
# 対話列ラベリングのための階層的知識蒸留

Hierarchical Knowledge Distillation for Dialogue Sequence Labeling ( http://arxiv.org/abs/2111.10957v1 )

ライセンス: Link先を確認
Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura(参考訳) 本稿では,対話シーケンスラベリングのための新しい知識蒸留法を提案する。 対話シーケンスラベリングは、対象対話文書における各発話のラベルを推定する教師付き学習タスクであり、対話行為推定のような多くの応用に有用である。 正確なラベリングは、発話と発話間のコンテキストをそれぞれキャプチャする発話レベルと対話レベルのネットワークからなる階層構造の大きなモデルによって実現されることが多い。 しかし、モデルのサイズが大きいため、そのようなモデルはリソースに制約されたデバイスにデプロイできない。 この課題を克服するために,大規模かつ高性能な教員モデルの知識を蒸留することにより,小規模モデルを訓練する知識蒸留に焦点をあてる。 私たちのキーとなるアイデアは、教師モデルによって取得された複雑なコンテキストを維持しながら、知識を抽出することです。 この目的のために, 提案手法である階層的知識蒸留は, ラベル分類の確率分布だけでなく, 教師モデルで訓練された発話レベルと対話レベルの文脈の知識を, 教師モデルの出力を各レベルで模倣するように訓練することで, 小モデルを訓練する。 対話行動推定と呼シーンセグメンテーションの実験により,提案手法の有効性が示された。

This paper presents a novel knowledge distillation method for dialogue sequence labeling. Dialogue sequence labeling is a supervised learning task that estimates labels for each utterance in the target dialogue document, and is useful for many applications such as dialogue act estimation. Accurate labeling is often realized by a hierarchically-struc tured large model consisting of utterance-level and dialogue-level networks that capture the contexts within an utterance and between utterances, respectively. However, due to its large model size, such a model cannot be deployed on resource-constrained devices. To overcome this difficulty, we focus on knowledge distillation which trains a small model by distilling the knowledge of a large and high performance teacher model. Our key idea is to distill the knowledge while keeping the complex contexts captured by the teacher model. To this end, the proposed method, hierarchical knowledge distillation, trains the small model by distilling not only the probability distribution of the label classification, but also the knowledge of utterance-level and dialogue-level contexts trained in the teacher model by training the model to mimic the teacher model's output in each level. Experiments on dialogue act estimation and call scene segmentation demonstrate the effectiveness of the proposed method.
翻訳日:2021-11-23 14:11:39 公開日:2021-11-22
# キュリオシティ駆動探索によるエピソディックマルチエージェント強化学習

Episodic Multi-agent Reinforcement Learning with Curiosity-Driven Exploration ( http://arxiv.org/abs/2111.11032v1 )

ライセンス: Link先を確認
Lulu Zheng, Jiarui Chen, Jianhao Wang, Jiamin He, Yujing Hu, Yingfeng Chen, Changjie Fan, Yang Gao, Chongjie Zhang(参考訳) 深層協調型マルチエージェント強化学習(marl)における効率的な探索は、複雑な協調問題において依然として困難である。 本稿では,キュリオシティによる探索による多エージェント強化学習(EMC)について紹介する。 我々は、局所的な実行に使用される個別のユーティリティ関数である「誘導的」個別Q値が局所的な行動観測履歴の埋め込みであり、集中トレーニング中の報酬バックプロパゲーションによるエージェント間の相互作用を捉えることができるという、一般的な因子化MARLアルゴリズムの洞察を活用する。 そこで我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて,探索的な情報的経験を活用して政策訓練を促進する。 エージェントの個々のQ値関数のダイナミクスは、状態の新規性と他のエージェントの影響を捉えるので、本質的な報酬は、新しい状態や有望な状態への協調的な探索を誘導することができる。 本手法の利点をディダクティックな例で示し,starcraft ii のマイクロマネジメントベンチマークにおいて,最先端の marl ベースラインよりも優れた性能を示す。

Efficient exploration in deep cooperative multi-agent reinforcement learning (MARL) still remains challenging in complex coordination problems. In this paper, we introduce a novel Episodic Multi-agent reinforcement learning with Curiosity-driven exploration, called EMC. We leverage an insight of popular factorized MARL algorithms that the "induced" individual Q-values, i.e., the individual utility functions used for local execution, are the embeddings of local action-observation histories, and can capture the interaction between agents due to reward backpropagation during centralized training. Therefore, we use prediction errors of individual Q-values as intrinsic rewards for coordinated exploration and utilize episodic memory to exploit explored informative experience to boost policy training. As the dynamics of an agent's individual Q-value function captures the novelty of states and the influence from other agents, our intrinsic reward can induce coordinated exploration to new or promising states. We illustrate the advantages of our method by didactic examples, and demonstrate its significant outperformance over state-of-the-art MARL baselines on challenging tasks in the StarCraft II micromanagement benchmark.
翻訳日:2021-11-23 14:08:24 公開日:2021-11-22
# ニューラルネットワークを用いた異常耐性グラフニューラルネットワーク

Anomaly-resistant Graph Neural Networks via Neural Architecture Search ( http://arxiv.org/abs/2111.11406v1 )

ライセンス: Link先を確認
Minjae Park(参考訳) 一般に、グラフニューラルネットワーク(GNN)は、近隣の情報を集約して要約し、それらの情報を表現するためにメッセージパッシング手法を用いてきた。 それにもかかわらず、従来の研究では、このメッセージパッシング法により近隣に異常ノードが存在する場合、グラフニューラルネットワークの性能が低下することが示されている。 本稿では,ニューラルアーキテクチャ探索法にヒントを得て,異常ノードを認識し,情報集約から自動的に除去するアルゴリズムを提案する。 各種実世界のデータセットを用いた実験により,提案したニューラルネットワーク検索に基づく異常抵抗グラフニューラルネットワーク(NASAR-GNN)が実際に有効であることが示された。

In general, Graph Neural Networks(GNN) have been using a message passing method to aggregate and summarize information about neighbors to express their information. Nonetheless, previous studies have shown that the performance of graph neural networks becomes vulnerable when there are abnormal nodes in the neighborhood due to this message passing method. In this paper, inspired by the Neural Architecture Search method, we present an algorithm that recognizes abnormal nodes and automatically excludes them from information aggregation. Experiments on various real worlds datasets show that our proposed Neural Architecture Search-based Anomaly Resistance Graph Neural Network (NASAR-GNN) is actually effective.
翻訳日:2021-11-23 14:05:01 公開日:2021-11-22
# カーネルベースのセンサ融合アルゴリズムは高次元雑音下でどのように振る舞うのか?

How do kernel-based sensor fusion algorithms behave under high dimensional noise? ( http://arxiv.org/abs/2111.10940v1 )

ライセンス: Link先を確認
Xiucai Ding and Hau-Tieng Wu(参考訳) 高次元ユークリッド空間に埋め込まれた共通の低次元多様体により2つのセンサから収集されたクリーンデータセットをモデル化し、高次元ノイズによりデータセットが破損するという非無効設定の下で、ncca(nonparametric canonical correlation analysis)とad(alternating diffusion)という2つのカーネルベースのセンサ融合アルゴリズムの挙動について検討した。 サンプル次元とサンプルサイズが可分に大きいと仮定して、関連するカーネル行列の固有値に対する漸近的極限と収束率を確立し、そこでNCCAとADはガウス核を用いて実行される。 その結果、漸近限界と収束速度は、各センサの信号対雑音比(SNR)と選択帯域幅に依存することがわかった。 一方, NCCA と AD が正当性チェックなしでノイズの多い点群に直接適用されれば, 科学者の解釈を誤解させる人工情報を生成する可能性がある。 一方、帯域幅が適切に選択された場合、SNRが比較的大きい場合には、NCCAとADの両方を高次元雑音に対して堅牢にすることができる。

We study the behavior of two kernel based sensor fusion algorithms, nonparametric canonical correlation analysis (NCCA) and alternating diffusion (AD), under the nonnull setting that the clean datasets collected from two sensors are modeled by a common low dimensional manifold embedded in a high dimensional Euclidean space and the datasets are corrupted by high dimensional noise. We establish the asymptotic limits and convergence rates for the eigenvalues of the associated kernel matrices assuming that the sample dimension and sample size are comparably large, where NCCA and AD are conducted using the Gaussian kernel. It turns out that both the asymptotic limits and convergence rates depend on the signal-to-noise ratio (SNR) of each sensor and selected bandwidths. On one hand, we show that if NCCA and AD are directly applied to the noisy point clouds without any sanity check, it may generate artificial information that misleads scientists' interpretation. On the other hand, we prove that if the bandwidths are selected adequately, both NCCA and AD can be made robust to high dimensional noise when the SNRs are relatively large.
翻訳日:2021-11-23 14:03:53 公開日:2021-11-22
# 無限小分類による密度比の推定

Density Ratio Estimation via Infinitesimal Classification ( http://arxiv.org/abs/2111.11010v1 )

ライセンス: Link先を確認
Kristy Choi, Chenlin Meng, Yang Song, Stefano Ermon(参考訳) 密度比推定(dre)は、2つの確率分布を比較する基本的な機械学習手法である。 しかし,既存の手法では,有限標本に基づいて確率分布を正確に比較することは困難である。 本研究ではDRE-\inftyを提案し、DREをより簡単なサブプロブレムに還元する方法を提案する。 モンテカルロ法に触発されて,中間ブリッジ分布の無限連続体を介して2つの分布をスムーズに補間する。 次に,データ(スタイン)スコアに類似した量である時間(「時間スコア」)によって索引づけられたブリッジ分布の変化の瞬時率を,新しい時間スコアマッチング目標を用いて推定する。 重要なことに、学習した時間スコアは、所望の密度比を計算するために統合される。 さらに,従来の(ステイン)スコアを用いて,密度の高い領域を両分布で連結し,実際の性能を向上させる統合経路を得ることができることを示した。 実験により,提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングといった下流タスクでうまく機能することを実証する。

Density ratio estimation (DRE) is a fundamental machine learning technique for comparing two probability distributions. However, existing methods struggle in high-dimensional settings, as it is difficult to accurately compare probability distributions based on finite samples. In this work we propose DRE-\infty, a divide-and-conquer approach to reduce DRE to a series of easier subproblems. Inspired by Monte Carlo methods, we smoothly interpolate between the two distributions via an infinite continuum of intermediate bridge distributions. We then estimate the instantaneous rate of change of the bridge distributions indexed by time (the "time score") -- a quantity defined analogously to data (Stein) scores -- with a novel time score matching objective. Crucially, the learned time scores can then be integrated to compute the desired density ratio. In addition, we show that traditional (Stein) scores can be used to obtain integration paths that connect regions of high density in both distributions, improving performance in practice. Empirically, we demonstrate that our approach performs well on downstream tasks such as mutual information estimation and energy-based modeling on complex, high-dimensional datasets.
翻訳日:2021-11-23 14:03:30 公開日:2021-11-22
# カーネル和を用いたPSD値関数の学習

Learning PSD-valued functions using kernel sums-of-squares ( http://arxiv.org/abs/2111.11306v1 )

ライセンス: Link先を確認
Boris Muzellec, Francis Bach, Alessandro Rudi(参考訳) 行列に対する正の半定性(PSD)や関数に対する凸性といった形状制約は、計量学習、最適輸送、経済学など、機械学習や科学における多くの応用において中心的な役割を果たす。 しかし、PSDや凸性を優れた経験的性能と理論的保証で強制する関数モデルはほとんど存在しない。 本稿では,非負のスカラー関数をエンコードするために最近提案された,psdコーンの値を取る関数のカーネル・サム・オブ・2乗モデルを提案する。 我々は、PSD関数のクラスに対する表現定理を提案し、PSD関数の普遍近似を構成することを示し、サブサンプリング等式制約の場合の固有値境界を導出する。 次に、この結果は、ヘッセンの核の総和表現を強制することにより凸関数のモデル化に適用し、滑らかで強い凸関数を表現できることを示す。 最後に,psd行列値回帰タスクとスカラー値凸回帰の手法について述べる。

Shape constraints such as positive semi-definiteness (PSD) for matrices or convexity for functions play a central role in many applications in machine learning and sciences, including metric learning, optimal transport, and economics. Yet, very few function models exist that enforce PSD-ness or convexity with good empirical performance and theoretical guarantees. In this paper, we introduce a kernel sum-of-squares model for functions that take values in the PSD cone, which extends kernel sums-of-squares models that were recently proposed to encode non-negative scalar functions. We provide a representer theorem for this class of PSD functions, show that it constitutes a universal approximator of PSD functions, and derive eigenvalue bounds in the case of subsampled equality constraints. We then apply our results to modeling convex functions, by enforcing a kernel sum-of-squares representation of their Hessian, and show that any smooth and strongly convex function may be thus represented. Finally, we illustrate our methods on a PSD matrix-valued regression task, and on scalar-valued convex regression.
翻訳日:2021-11-23 14:03:14 公開日:2021-11-22
# (参考訳) Plant 'n' Seek: 勝利のチケットは見つけられるか? [全文訳有]

Plant 'n' Seek: Can You Find the Winning Ticket? ( http://arxiv.org/abs/2111.11153v1 )

ライセンス: CC BY-SA 4.0
Jonas Fischer, Rebekka Burkholz(参考訳) 抽選切符仮説は、大きなランダム初期化ニューラルネットワークのスパースサブネットワークを識別することで構造学習を行うプラニングアルゴリズムの急速な発展を促した。 このような「勝利チケット」の存在は理論的には証明されているが、準最適スパルシティレベルである。 現代のプルーニングアルゴリズムはさらに、複雑な学習タスクのための粗末な宝くじの識別に苦戦している。 この最適部分空間は、単に存在証明やアルゴリズムの人工物なのか、それともプルーニングアプローチの一般的な制限なのか? そして、非常に少ないチケットが存在する場合、現在のアルゴリズムはそれらを見つけることができるか、あるいは効果的なネットワーク圧縮を達成するためにさらなる改善が必要か? これらの疑問に体系的に答えるために、大規模でランダムに初期化されたニューラルネットワーク内にターゲットアーキテクチャを配置し、隠蔽する枠組みを導出する。 機械学習における3つの一般的な課題に対して、我々は非常に疎いネットワークトポロジを手作りし、それらを大きなニューラルネットワークに植え込み、最先端の宝くじ改札方法を評価する。 非常にスパースなチケットを識別するプルーニングアルゴリズムの現在の限界は、基本的な性質よりもアルゴリズム的なものであり、Frankleらによって提起された分野において欠落したベースラインの問題に対処するため、我々のプランニングフレームワークが効率的なプルーニングアルゴリズムの今後の開発を促進することを期待している。

The lottery ticket hypothesis has sparked the rapid development of pruning algorithms that perform structure learning by identifying a sparse subnetwork of a large randomly initialized neural network. The existence of such 'winning tickets' has been proven theoretically but at suboptimal sparsity levels. Contemporary pruning algorithms have furthermore been struggling to identify sparse lottery tickets for complex learning tasks. Is this suboptimal sparsity merely an artifact of existence proofs and algorithms or a general limitation of the pruning approach? And, if very sparse tickets exist, are current algorithms able to find them or are further improvements needed to achieve effective network compression? To answer these questions systematically, we derive a framework to plant and hide target architectures within large randomly initialized neural networks. For three common challenges in machine learning, we hand-craft extremely sparse network topologies, plant them in large neural networks, and evaluate state-of-the-art lottery ticket pruning methods. We find that current limitations of pruning algorithms to identify extremely sparse tickets are likely of algorithmic rather than fundamental nature and anticipate that our planting framework will facilitate future developments of efficient pruning algorithms, as we have addressed the issue of missing baselines in the field raised by Frankle et al.
翻訳日:2021-11-23 14:02:24 公開日:2021-11-22
# 多くの頭脳と1つの脳 - ai journey 2021でのfusion brain challengeの概要

Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI Journey 2021 ( http://arxiv.org/abs/2111.10974v1 )

ライセンス: Link先を確認
Daria Bakshandaeva, Denis Dimitrov, Alex Shonenkov, Mark Potanin, Vladimir Arkhipkin, Denis Karachev, Vera Davydova, Anton Voronov, Mikhail Martynov, Natalia Semenova, Mikhail Stepnov, Elena Tutubalina, Andrey Chertok, Aleksandr Petiushko(参考訳) aiコミュニティの現在のトレンドをサポートするために、汎用アーキテクチャプロセス(イメージ、テキスト、コードなど)を異なるモダリティにし、視覚と言語のための複数のタスクを解決することを目的とした、fusion brainと呼ばれるai journey 2021チャレンジを提案する。 Fusion Brain Challenge https://github.com/s berbank-ai/fusion_br ain_aij2021は、Code2code Translation、手書きテキスト認識、Zero-shot Object Detection、Visual Question Answeringといった特定のタスクを統合している。 参加者の投稿をテストするために、各タスク用のデータセットを作成しました。 さらに、ロシア語と英語の両方で、94,130対の画像とテキストからなる新しい手書きデータセットを公開しました。 データセットのロシア部分は、世界最大のロシアの手書きデータセットである。 また、ベースラインソリューションと対応するタスク固有のソリューション、および全体的なメトリクスも提案する。

Supporting the current trend in the AI community, we propose the AI Journey 2021 Challenge called Fusion Brain which is targeted to make the universal architecture process different modalities (namely, images, texts, and code) and to solve multiple tasks for vision and language. The Fusion Brain Challenge https://github.com/s berbank-ai/fusion_br ain_aij2021 combines the following specific tasks: Code2code Translation, Handwritten Text recognition, Zero-shot Object Detection, and Visual Question Answering. We have created datasets for each task to test the participants' submissions on it. Moreover, we have opened a new handwritten dataset in both Russian and English, which consists of 94,130 pairs of images and texts. The Russian part of the dataset is the largest Russian handwritten dataset in the world. We also propose the baseline solution and corresponding task-specific solutions as well as overall metrics.
翻訳日:2021-11-23 13:29:27 公開日:2021-11-22
# L-Verse: 画像とテキスト間の双方向生成

L-Verse: Bidirectional Generation Between Image and Text ( http://arxiv.org/abs/2111.11133v1 )

ライセンス: Link先を確認
Taehoon Kim, Gwangmo Song, Sihaeng Lee, Sangyun Kim, Yewon Seo, Soonyoung Lee, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae(参考訳) 自然言語の長距離相互作用を学ぶだけでなく、トランスフォーマーはパワーとスカラビティで多くの視覚タスクのデファクトスタンダードになりつつある。 特に画像とテキスト間のクロスモーダルなタスクでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)が、生のRGB画像を特徴ベクトル列にするために広く使われている。 画像とテキストの相関をよりよく活用するために,機能拡張可変オートエンコーダ(AugVAE)と双方向自動回帰変換器(BiART)を組み合わせた新しいアーキテクチャであるL-Verseを提案する。 AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、未確認画像に対する堅牢性を示している。 他のモデルとは異なり、BiARTは画像(またはテキスト)を条件付き参照と生成ターゲットと区別することができる。 L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像生成タスクに直接使用できる。 定量的および定性的な実験において、L-Verseは、MS-COCOキャプションにおける画像・テキスト・画像生成とテキスト・画像生成の両方において、従来の手法に対する印象的な結果を示した。 さらに、L-Verseアーキテクチャのコンセプトキャプションにおけるスケーラビリティを評価し、汎用ドメインにおける双方向視覚言語表現学習の初期結果を示す。 コード:https://github.com/ tgisaturday/L-Verse

Far beyond learning long-range interactions of natural language, transformers are becoming the de-facto standard for many vision tasks with their power and scalabilty. Especially with cross-modal tasks between image and text, vector quantized variational autoencoders (VQ-VAEs) are widely used to make a raw RGB image into a sequence of feature vectors. To better leverage the correlation between image and text, we propose L-Verse, a novel architecture consisting of feature-augmented variational autoencoder (AugVAE) and bidirectional auto-regressive transformer (BiART) for text-to-image and image-to-text generation. Our AugVAE shows the state-of-the-art reconstruction performance on ImageNet1K validation set, along with the robustness to unseen images in the wild. Unlike other models, BiART can distinguish between image (or text) as a conditional reference and a generation target. L-Verse can be directly used for image-to-text or text-to-image generation tasks without any finetuning or extra object detection frameworks. In quantitative and qualitative experiments, L-Verse shows impressive results against previous methods in both image-to-text and text-to-image generation on MS-COCO Captions. We furthermore assess the scalability of L-Verse architecture on Conceptual Captions and present the initial results of bidirectional vision-language representation learning on general domain. Codes available at: https://github.com/t gisaturday/L-Verse
翻訳日:2021-11-23 13:28:26 公開日:2021-11-22
# ユニバーサル・ロテリ・チケットの存在について

On the Existence of Universal Lottery Tickets ( http://arxiv.org/abs/2111.11146v1 )

ライセンス: Link先を確認
Rebekka Burkholz, Nilanjana Laha, Rajarshi Mukherjee, Alkis Gotovos(参考訳) 宝くじの仮説は、独立して訓練できる大きなランダムに初期化されたディープニューラルネットワークのスパースサブネットワークの存在を推測するものである。 最近の研究は、これらのチケットのいくつかが様々なタスクで実際に再利用可能であることを実験的に観察し、ある種の普遍性を示唆している。 我々はこの概念を定式化し、そのような普遍的なチケットが存在するだけでなく、さらなる訓練も必要としていないことを理論的に証明する。 本証明では, 抽選チケットのプルーニングに関する技術革新がいくつか導入され, サブセット和の結果の拡張や, 高い深度を活用できる戦略が紹介されている。 普遍関数ファミリーの明示的なスパース構造は、ユニバリケートな畳み込みアーキテクチャによって引き起こされる表現的利益を強調するため、独立した関心を持つかもしれない。

The lottery ticket hypothesis conjectures the existence of sparse subnetworks of large randomly initialized deep neural networks that can be successfully trained in isolation. Recent work has experimentally observed that some of these tickets can be practically reused across a variety of tasks, hinting at some form of universality. We formalize this concept and theoretically prove that not only do such universal tickets exist but they also do not require further training. Our proofs introduce a couple of technical innovations related to pruning for strong lottery tickets, including extensions of subset sum results and a strategy to leverage higher amounts of depth. Our explicit sparse constructions of universal function families might be of independent interest, as they highlight representational benefits induced by univariate convolutional architectures.
翻訳日:2021-11-23 13:27:43 公開日:2021-11-22
# ベイズ最適化のためのガウス過程を用いた転送学習

Transfer Learning with Gaussian Processes for Bayesian Optimization ( http://arxiv.org/abs/2111.11223v1 )

ライセンス: Link先を確認
Petru Tighineanu, Kathrin Skubch, Paul Baireuther, Attila Reiss, Felix Berkenkamp, Julia Vinogradska(参考訳) ベイズ最適化は、少ないデータと騒がしいデータに基づいてブラックボックス関数を最適化する強力なパラダイムである。 そのデータ効率は、関連するタスクから学習を転送することでさらに向上することができる。 近年の転送モデルでは,大量のデータに基づいて先行データをメタ学習する手法が提案されているが,ガウス過程 (GP) の閉形式後部を利用する低データ方式では有利である。 この設定では、いくつかの解析可能なトランスファーモデル後縁が提案されているが、これらの方法の相対的な利点はよく分かっていない。 本稿では,伝達学習のための階層型gpモデルに関する統一的なビューを提供し,手法間の関係を解析できる。 この分析の一環として,既存のアプローチと複雑性の両立する新しい閉形式GP転送モデルを開発した。 大規模実験における異なるアプローチの性能を評価し,異なるトランスファーラーニング手法の強みと弱みを強調する。

Bayesian optimization is a powerful paradigm to optimize black-box functions based on scarce and noisy data. Its data efficiency can be further improved by transfer learning from related tasks. While recent transfer models meta-learn a prior based on large amount of data, in the low-data regime methods that exploit the closed-form posterior of Gaussian processes (GPs) have an advantage. In this setting, several analytically tractable transfer-model posteriors have been proposed, but the relative advantages of these methods are not well understood. In this paper, we provide a unified view on hierarchical GP models for transfer learning, which allows us to analyze the relationship between methods. As part of the analysis, we develop a novel closed-form boosted GP transfer model that fits between existing approaches in terms of complexity. We evaluate the performance of the different approaches in large-scale experiments and highlight strengths and weaknesses of the different transfer-learning methods.
翻訳日:2021-11-23 13:27:30 公開日:2021-11-22
# (参考訳) 神経絵画の喜び [全文訳有]

The Joy of Neural Painting ( http://arxiv.org/abs/2111.10283v2 )

ライセンス: CC BY-SA 4.0
Ernesto Diaz-Aviles (Libre AI) and Claudia Orellana-Rodriguez (Libre AI) and Beth Jochim (Libre AI)(参考訳) ニューラルペインティング(neural painters)は、ganフレームワークに従ってブラシストロークを生成し、絵を作成するためのモデルである。 GANはAIアートの優れた生成モデルですが、トレーニングが難しいことで知られています。 GANの限界を克服し,ニューラルペインティングのトレーニングを高速化するために,最終的な絵画において同じレベルの視覚美学を達成しつつ,数日から数時間に短縮するプロセスにトランスファーラーニングを適用した。 私たちはこの研究のアプローチと成果を報告します。

Neural Painters is a class of models that follows a GAN framework to generate brushstrokes, which are then composed to create paintings. GANs are great generative models for AI Art but they are known to be notoriously difficult to train. To overcome GAN's limitations and to speed up the Neural Painter training, we applied Transfer Learning to the process reducing it from days to only hours, while achieving the same level of visual aesthetics in the final paintings generated. We report our approach and results in this work.
翻訳日:2021-11-23 12:13:31 公開日:2021-11-22
# IC-U-Net:独立成分混合を用いたU-Netによる自動脳波アーチファクト除去

IC-U-Net: A U-Net-based Denoising Autoencoder Using Mixtures of Independent Components for Automatic EEG Artifact Removal ( http://arxiv.org/abs/2111.10026v2 )

ライセンス: Link先を確認
Chun-Hsiang Chuang, Kong-Yi Chang, Chih-Sheng Huang, Tzyy-Ping Jung(参考訳) 脳波(EEG)信号は、しばしば人工物で汚染される。 神経信号の誤解や脳-コンピューターインターフェースの過小評価を防止するために、実用的で信頼性の高いアーティファクト除去法を開発することが不可欠である。 本研究では,広汎な脳波アーチファクトを除去し,脳源を再構築するU-Netアーキテクチャに基づく新しい人工物除去手法IC-U-Netを開発した。 IC-U-Netは、独立成分分析によって分解された脳と非脳源の混合物を用いて訓練され、脳波記録における複雑な信号変動をモデル化するために、損失関数のアンサンブルを用いた。 提案手法は, 運転・歩行中および休息時に収集した3つの実世界の脳波データを用いてシミュレーション実験を行い, 脳源の回復と各種人工物(眼球運動, 筋活動, 線・チャネルノイズなど)の除去に有効であることを示した。 IC-U-Netはユーザフレンドリーで公開されており、パラメータチューニングやアーティファクトタイプ指定は必要とせず、チャンネル番号に制限はない。 モバイル環境での自然な脳のダイナミクスの画像化の必要性が高まる中、IC-U-Netは、EEGレコードからアーティファクトを自動的に削除する、有望なエンドツーエンドソリューションを提供する。

Electroencephalograp hy (EEG) signals are often contaminated with artifacts. It is imperative to develop a practical and reliable artifact removal method to prevent misinterpretations of neural signals and underperformance of brain-computer interfaces. This study developed a new artifact removal method, IC-U-Net, which is based on the U-Net architecture for removing pervasive EEG artifacts and reconstructing brain sources. The IC-U-Net was trained using mixtures of brain and non-brain sources decomposed by independent component analysis and employed an ensemble of loss functions to model complex signal fluctuations in EEG recordings. The effectiveness of the proposed method in recovering brain sources and removing various artifacts (e.g., eye blinks/movements, muscle activities, and line/channel noises) was demonstrated in a simulation study and three real-world EEG datasets collected at rest and while driving and walking. IC-U-Net is user-friendly and publicly available, does not require parameter tuning or artifact type designations, and has no limitations on channel numbers. Given the increasing need to image natural brain dynamics in a mobile setting, IC-U-Net offers a promising end-to-end solution for automatically removing artifacts from EEG recordings.
翻訳日:2021-11-23 11:46:45 公開日:2021-11-22