このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210629となっている論文です。

PDF登録状況(公開日: 20210629)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 意味対情報、予測対記憶、質問対答え [全文訳有]

Meaning Versus Information, Prediction Versus Memory, and Question Versus Answer ( http://arxiv.org/abs/2107.13393v1 )

ライセンス: CC BY 4.0
Yoonsuck Choe(参考訳) 脳科学と人工知能は人間の心の理解と工学に向けて大きな進歩を遂げた。 この進歩は、脳を探索する新しい方法(構造と機能の両方)と深層学習研究の急速な発展によって、世紀の変わり目から大幅に加速している。 しかし、これらの新たな発展にもかかわらず、システムレベルでの脳の理解方法、さまざまな堅牢性問題やディープラーニングの制限など、多くのオープンな疑問がまだ残っている。 この非公式なエッセイでは、情報や記憶といった脳科学や人工知能の中心となる概念について述べ、これらの概念に対する異なる見方が、これらの分野における現在の理解の限界を超えて前進するのにどう役立つかについて議論します。

Brain science and artificial intelligence have made great progress toward the understanding and engineering of the human mind. The progress has accelerated significantly since the turn of the century thanks to new methods for probing the brain (both structure and function), and rapid development in deep learning research. However, despite these new developments, there are still many open questions, such as how to understand the brain at the system level, and various robustness issues and limitations of deep learning. In this informal essay, I will talk about some of the concepts that are central to brain science and artificial intelligence, such as information and memory, and discuss how a different view on these concepts can help us move forward, beyond current limits of our understanding in these fields.
翻訳日:2021-08-01 14:13:39 公開日:2021-06-29
# OpenCoS: オープンセットの未ラベルデータを扱うための対照的な半教師付き学習

OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set Unlabeled Data ( http://arxiv.org/abs/2107.08943v1 )

ライセンス: Link先を確認
Jongjin Park, Sukmin Yun, Jongheon Jeong, Jinwoo Shin(参考訳) 現代の半教師付き学習手法では、ラベル付きデータとラベルなしデータの両方が同じクラス分布を持つと仮定する。 しかし、ラベル付きデータには、実際にはクラス外サンプルが含まれており、ラベルデータの閉じたクラスの1ホットエンコードラベルを持たないもの、すなわちラベルなしデータはオープンセットである。 本稿では,最近のコントラスト学習の枠組みに基づいて,このリアルな半教師付き学習シナリオを扱う方法であるOpenCoSを紹介する。 重要な発見の1つは、ラベルなしデータセットのクラス外サンプルが(教師なしの)コントラスト学習によって効果的に識別できることである。 OpenCoSはこの情報を利用して、既存の最先端の半教師付きメソッド、例えばReMixMatchやFixMatchの障害モードを克服する。 コントラスト学習から学習したオープンセットの未ラベルデータにソフトラベルと擬似ラベルを利用することにより、半教師付き性能をさらに向上する。 実験の結果,opencosの有効性を示し,オープンセット非ラベルデータを含む多様なシナリオに適した最先端の半教師付き手法を固定した。

Modern semi-supervised learning methods conventionally assume both labeled and unlabeled data have the same class distribution. However, unlabeled data may include out-of-class samples in practice; those that cannot have one-hot encoded labels from a closed-set of classes in label data, i.e., unlabeled data is an open-set. In this paper, we introduce OpenCoS, a method for handling this realistic semi-supervised learning scenario based on a recent framework of contrastive learning. One of our key findings is that out-of-class samples in the unlabeled dataset can be identified effectively via (unsupervised) contrastive learning. OpenCoS utilizes this information to overcome the failure modes in the existing state-of-the-art semi-supervised methods, e.g., ReMixMatch or FixMatch. It further improves the semi-supervised performance by utilizing soft- and pseudo-labels on open-set unlabeled data, learned from contrastive learning. Our extensive experimental results show the effectiveness of OpenCoS, fixing the state-of-the-art semi-supervised methods to be suitable for diverse scenarios involving open-set unlabeled data.
翻訳日:2021-07-25 11:54:30 公開日:2021-06-29
# 学習操作特徴と回復方針による密集した非平面的結び目

Untangling Dense Non-Planar Knots by Learning Manipulation Features and Recovery Policies ( http://arxiv.org/abs/2107.08942v1 )

ライセンス: Link先を確認
Priya Sundaresan, Jennifer Grannen, Brijen Thananjeyan, Ashwin Balakrishna, Jeffrey Ichnowski, Ellen Novoseller, Minho Hwang, Michael Laskey, Joseph E. Gonzalez, Ken Goldberg(参考訳) ロープ、ケーブル、ワイヤーなどの1d変形しない構造物のロボット操作は、その無限次元構成空間、複雑なダイナミクス、自己閉塞傾向のために困難である。 分析コントローラは、隣接するケーブルセグメント間の把持が困難であるため、密集した構成が存在する場合にしばしば失敗する。 本研究では,従来の高レベルプランナであるHULKと共に動作するロバストケーブルアンハングリング(LOKI)とスペンダーマン(SPiDERMan)の2つのアルゴリズムを提案する。 LOKIは、学習された操作機能モデルを使用して、粗い把握キーポイント予測を精密で最適化された位置と向きに洗練し、SPiDERManは学習モデルを使用してタスクの進捗を検知し、リカバリアクションを適用する。 da vinci手術ロボットを用いて,336ノットおよび1500以上の実ケーブル動作を用いた物理ケーブルアンタングリング実験において,これらのアルゴリズムを評価した。 HULK, LOKI, SPiDERManの組み合わせは, 濃密なオーバーハンド, フィギュアエイト, ダブルオーバーハンド, 正方形, ボウリング, グラニー, ステベドール, トリプルオーバーハンドの結び目を解き放つことができる。 これらの方法の組成は60の物理実験のうち68.3%で密度の高い初期配置からケーブルを外すことに成功し、以前の作業のベースラインよりも50%高い成功率を達成した。 追加資料、コード、ビデオはhttps://tinyurl.com/ rssuntangling.comで見ることができる。

Robot manipulation for untangling 1D deformable structures such as ropes, cables, and wires is challenging due to their infinite dimensional configuration space, complex dynamics, and tendency to self-occlude. Analytical controllers often fail in the presence of dense configurations, due to the difficulty of grasping between adjacent cable segments. We present two algorithms that enhance robust cable untangling, LOKI and SPiDERMan, which operate alongside HULK, a high-level planner from prior work. LOKI uses a learned model of manipulation features to refine a coarse grasp keypoint prediction to a precise, optimized location and orientation, while SPiDERMan uses a learned model to sense task progress and apply recovery actions. We evaluate these algorithms in physical cable untangling experiments with 336 knots and over 1500 actions on real cables using the da Vinci surgical robot. We find that the combination of HULK, LOKI, and SPiDERMan is able to untangle dense overhand, figure-eight, double-overhand, square, bowline, granny, stevedore, and triple-overhand knots. The composition of these methods successfully untangles a cable from a dense initial configuration in 68.3% of 60 physical experiments and achieves 50% higher success rates than baselines from prior work. Supplementary material, code, and videos can be found at https://tinyurl.com/ rssuntangling.
翻訳日:2021-07-25 11:54:09 公開日:2021-06-29
# (参考訳) 高齢者の日常生活活動におけるパーソナライズされた知的アシスタントの枠組み [全文訳有]

Framework for A Personalized Intelligent Assistant to Elderly People for Activities of Daily Living ( http://arxiv.org/abs/2107.07344v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur and Chia Y. Han(参考訳) 高齢者の人口の増加は、その増加する要求を満たし、スマートホームにおける生活の質を向上させるソリューションを提供する必要性と関連している。 システムとの対面に対する恐怖と不安に加えて、認知障害、弱体化記憶、非組織的行動、さらには身体的制限さえも、高齢者が高齢化に直面する傾向にある問題である。 高齢者のニーズに対処し、高齢者のためのスマートで支援された生活空間を構築するためのテクノロジーベースのソリューションを提供することの本質は、多様性に対処して適応し、日々の目標の文脈でパフォーマンスを向上できるシステムの開発システムにある。 そこで本研究では,高齢者がIoT(Internet of Things, モノのインターネット)ベースの環境下で日常生活活動(ADL)を行うのを支援する,パーソナライズされた知能アシスタントを開発するためのフレームワークを提案する。 このパーソナライズされた知能アシスタントは、日々のルーチン、現在の情緒状態、およびユーザー体験のアンダーラインを考慮することで、ユーザの実行するさまざまなタスクを分析し、アクティビティを推奨することができる。 このフレームワークの有効性を維持するために、平均ユーザと特定のユーザをそれぞれモデリングするためのいくつかのデータセットでテストされている。 その結果、特定のユーザをモデル化する場合、平均的なユーザをモデル化しながら、そのパフォーマンスよりもかなり高い73.12%の精度が得られることが示され、このフレームワークの開発と実装の関連性が保たれている。

The increasing population of elderly people is associated with the need to meet their increasing requirements and to provide solutions that can improve their quality of life in a smart home. In addition to fear and anxiety towards interfacing with systems; cognitive disabilities, weakened memory, disorganized behavior and even physical limitations are some of the problems that elderly people tend to face with increasing age. The essence of providing technology-based solutions to address these needs of elderly people and to create smart and assisted living spaces for the elderly; lies in developing systems that can adapt by addressing their diversity and can augment their performances in the context of their day to day goals. Therefore, this work proposes a framework for development of a Personalized Intelligent Assistant to help elderly people perform Activities of Daily Living (ADLs) in a smart and connected Internet of Things (IoT) based environment. This Personalized Intelligent Assistant can analyze different tasks performed by the user and recommend activities by considering their daily routine, current affective state and the underlining user experience. To uphold the efficacy of this proposed framework, it has been tested on a couple of datasets for modelling an average user and a specific user respectively. The results presented show that the model achieves a performance accuracy of 73.12% when modelling a specific user, which is considerably higher than its performance while modelling an average user, this upholds the relevance for development and implementation of this proposed framework.
翻訳日:2021-07-18 19:04:56 公開日:2021-06-29
# 条件付き教示サイズ

Conditional Teaching Size ( http://arxiv.org/abs/2107.07038v1 )

ライセンス: Link先を確認
Manuel Garcia-Piqueras and Jos\'e Hern\'andez-Orallo(参考訳) 機械教育における最近の研究は、普遍言語で表現されるあらゆる概念の指導を探求している。 この構成的文脈において、新しい実験結果により、概念記述自体よりも驚くほど短いデータ教示集合が存在することが示されている。 しかし、これらの顕著な実験的な発見には、ここでさらに探求する大きさと概念の複雑さを教えることによる限界がある。 概念を個別に教えることはめったにないので、与えられた概念の集合を教えるために、概念の最良の構成を調べ、そこで最初に獲得した概念は、新しい概念の記述のために再利用することができる。 特定の事前知識は、私たちが教えたい概念の教示サイズを増加させるより単純な互換性のある概念を生み出します。 これは条件付きコルモゴロフ複雑性では起こらない。 さらに,相互配置回避に基づく最適なカリキュラムを構築するアルゴリズムを提案する。 本稿では,その証明や今後の研究の方向性など,一連の理論的結果を示す。 作曲シナリオにおけるカリキュラム教育の新たな研究可能性は現在、探究に広く開放されている。

Recent research in machine teaching has explored the instruction of any concept expressed in a universal language. In this compositional context, new experimental results have shown that there exist data teaching sets surprisingly shorter than the concept description itself. However, there exists a bound for those remarkable experimental findings through teaching size and concept complexity that we further explore here. As concepts are rarely taught in isolation we investigate the best configuration of concepts to teach a given set of concepts, where those that have been acquired first can be reused for the description of new ones. This new notion of conditional teaching size uncovers new insights, such as the interposition phenomenon: certain prior knowledge generates simpler compatible concepts that increase the teaching size of the concept that we want to teach. This does not happen for conditional Kolmogorov complexity. Furthermore, we provide an algorithm that constructs optimal curricula based on interposition avoidance. This paper presents a series of theoretical results, including their proofs, and some directions for future work. New research possibilities in curriculum teaching in compositional scenarios are now wide open to exploration.
翻訳日:2021-07-18 12:21:38 公開日:2021-06-29
# (参考訳) Packing: 2倍のNLPBERT高速化を目指す

Packing: Towards 2x NLP BERT Acceleration ( http://arxiv.org/abs/2107.02027v1 )

ライセンス: CC BY-SA 4.0
Matej Kosec and Sheng Fu and Mario Michael Krell(参考訳) シーケンス長512のパディングトークンは,BERT (Bidirectional Encoder Representations from Transformers) の事前トレーニングに使用されるウィキペディアデータセットの50%以上を占める。 したがって、すべてのパディングを取り除くことで、シーケンス/秒の2倍のスピードアップを達成する。 この特徴を活用すべく,2つの決定論的パッキングアルゴリズムを開発し,対比する。 どちらのアルゴリズムも、配列が交換可能であるという仮定に依存しており、配列の長さのヒストグラム上でパッキングを行うことができる。 この問題の変換は、高速で、データセットサイズが線形に複雑になるアルゴリズムにつながる。 最短パックファーストヒストグラムパッキング (SPFHP) アルゴリズムは、ウィキペディアのデータセットを0.02秒で16M以上のシーケンスでパッキングする順序を決定する。 非負の最小二乗ヒストグラムパッキング(NNLSHP)アルゴリズムは28.4秒で収束するが、より深度の高い解を生成し、最大3つの配列を1つのサンプルに組み合わせて最適パッキングに近づいた。 サンプル毎に複数のシーケンスを持つデータセットを使用するには、注意層にマスクを追加し、MLM損失関数を変更する必要がある。 これらの変更はいずれも実装が簡単で、現代のハードウェアにおける達成可能なパフォーマンス向上にはほとんど影響しない。 最後に、満載データセットを用いてBERT-Largeを事前訓練し、収束の損失と所望の2倍のスピードアップを示す。

We find that at sequence length 512 padding tokens represent in excess of 50% of the Wikipedia dataset used for pretraining BERT (Bidirectional Encoder Representations from Transformers). Therefore by removing all padding we achieve a 2x speed-up in terms of sequences/sec. To exploit this characteristic of the dataset, we develop and contrast two deterministic packing algorithms. Both algorithms rely on the assumption that sequences are interchangeable and therefore packing can be performed on the histogram of sequence lengths, rather than per sample. This transformation of the problem leads to algorithms which are fast and have linear complexity in dataset size. The shortest-pack-first histogram-packing (SPFHP) algorithm determines the packing order for the Wikipedia dataset of over 16M sequences in 0.02 seconds. The non-negative least-squares histogram-packing (NNLSHP) algorithm converges in 28.4 seconds but produces solutions which are more depth efficient, managing to get near optimal packing by combining a maximum of 3 sequences in one sample. Using the dataset with multiple sequences per sample requires additional masking in the attention layer and a modification of the MLM loss function. We demonstrate that both of these changes are straightforward to implement and have relatively little impact on the achievable performance gain on modern hardware. Finally, we pretrain BERT-Large using the packed dataset, demonstrating no loss of convergence and the desired 2x speed-up.
翻訳日:2021-07-11 12:18:29 公開日:2021-06-29
# ノンコンプリート・フェアネスと伝統的フェアネス概念との関係

Non-Comparative Fairness for Human-Auditing and Its Relation to Traditional Fairness Notions ( http://arxiv.org/abs/2107.01277v1 )

ライセンス: Link先を確認
Mukund Telukunta, Venkata Sriram Siddhardh Nadendla(参考訳) 機械学習に基づくサービス(MLS)におけるバイアス評価は、比較原理に依存する従来のアルゴリズム的公正の概念に基づくものであり、人間の監査者フィードバックに頼る必要がある。 しかし、比較公正概念の厳密な訓練を受けながら、実際にフェアネス概念の様々な側面について意見が一致しないことが知られているため、信頼できるフィードバックを集めることは困難である。 本稿では,非比較正義の原理に基づく新しい公正概念を提案することによって,アルゴリズムフェアネス領域へのパラダイムシフトを提供する。 2つの個人/グループの結果を比較する伝統的な公正概念とは対照的に、提案した概念はMLSの結果と入力毎に望ましい結果を比較する。 この望ましい結果は,人の期待を自然に表現し,クラウドオーディションプラットフォーム上でのMLSの評価に利用することができる。 比較公正性(個別公正性、統計的パリティ、等機会性、キャリブレーションなど)の観点からは、公平視できるmlsは、公正監査者に対して比較的公平でない場合である。 また、逆は個人的公正の文脈で真であることを示す。 このような評価が監査人の信頼性に依拠していることを考慮し、所定の属性のセットに対するバイアスを推定し、与えられたMLS内のバイアスの推定の不確実性を定量化することにより、公正で信頼性の高い監査者を識別するアプローチを提案する。 さらに、上記の結果の全ては、compas、ドイツのクレジットおよび成人国勢調査の所得データでも検証されている。

Bias evaluation in machine-learning based services (MLS) based on traditional algorithmic fairness notions that rely on comparative principles is practically difficult, making it necessary to rely on human auditor feedback. However, in spite of taking rigorous training on various comparative fairness notions, human auditors are known to disagree on various aspects of fairness notions in practice, making it difficult to collect reliable feedback. This paper offers a paradigm shift to the domain of algorithmic fairness via proposing a new fairness notion based on the principle of non-comparative justice. In contrary to traditional fairness notions where the outcomes of two individuals/groups are compared, our proposed notion compares the MLS' outcome with a desired outcome for each input. This desired outcome naturally describes a human auditor's expectation, and can be easily used to evaluate MLS on crowd-auditing platforms. We show that any MLS can be deemed fair from the perspective of comparative fairness (be it in terms of individual fairness, statistical parity, equal opportunity or calibration) if it is non-comparatively fair with respect to a fair auditor. We also show that the converse holds true in the context of individual fairness. Given that such an evaluation relies on the trustworthiness of the auditor, we also present an approach to identify fair and reliable auditors by estimating their biases with respect to a given set of sensitive attributes, as well as quantify the uncertainty in the estimation of biases within a given MLS. Furthermore, all of the above results are also validated on COMPAS, German credit and Adult Census Income datasets.
翻訳日:2021-07-11 11:37:13 公開日:2021-06-29
# モバイルエッジコンピューティングにおけるノード負荷保護のための構造認識強化学習

Structure-aware reinforcement learning for node-overload protection in mobile edge computing ( http://arxiv.org/abs/2107.01025v1 )

ライセンス: Link先を確認
Anirudha Jitani, Aditya Mahajan, Zhongwen Zhu, Hatem Abou-zeid, Emmanuel T. Fapi, and Hakimeh Purmehdi(参考訳) Mobile Edge Computing (MEC) は、ネットワークのエッジに計算能力とアプリケーションを配置する概念であり、クライアント要求の処理のレイテンシの低減、ネットワークの混雑の低減、アプリケーションのパフォーマンス向上などの利点を提供する。 MECのパフォーマンスと信頼性は、クラスタ内の1つまたは複数のエッジサーバがオーバーロードされると大幅に低下する。 特にサーバがオーバーロードによってクラッシュすると、MECのサービス障害が発生します。 本研究では,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。 このアプローチはSALMUT(Structure-Awa re Learning for Multiple Thresholds)と呼ばれる最近提案された低複雑性RL(Reinforcement Learning)アルゴリズムに基づいている。 我々は、割引価格設定でノード過負荷保護問題に対処するためにフレームワークを拡張します。 提案したソリューションは,コンピュータシミュレーションとdockerテストベッドという,2つの異なる設定で現実のデプロイメントを模倣するいくつかのシナリオを用いて検証されている。 実証評価の結果,SALMUT によるコスト削減は PPO (Proximal Policy Optimization) や A2C (Advantage Actor Critic) といった最先端の深層RL アルゴリズムと類似しているが,トレーニングに要する時間を大幅に削減し,容易に解釈可能なポリシを出力し,オンラインに展開可能であることがわかった。

Mobile Edge Computing (MEC) refers to the concept of placing computational capability and applications at the edge of the network, providing benefits such as reduced latency in handling client requests, reduced network congestion, and improved performance of applications. The performance and reliability of MEC are degraded significantly when one or several edge servers in the cluster are overloaded. Especially when a server crashes due to the overload, it causes service failures in MEC. In this work, an adaptive admission control policy to prevent edge node from getting overloaded is presented. This approach is based on a recently-proposed low complexity RL (Reinforcement Learning) algorithm called SALMUT (Structure-Aware Learning for Multiple Thresholds), which exploits the structure of the optimal admission control policy in multi-class queues for an average-cost setting. We extend the framework to work for node overload-protection problem in a discounted-cost setting. The proposed solution is validated using several scenarios mimicking real-world deployments in two different settings - computer simulations and a docker testbed. Our empirical evaluations show that the total discounted cost incurred by SALMUT is similar to state-of-the-art deep RL algorithms such as PPO (Proximal Policy Optimization) and A2C (Advantage Actor Critic) but requires an order of magnitude less time to train, outputs easily interpretable policy, and can be deployed in an online manner.
翻訳日:2021-07-11 11:35:39 公開日:2021-06-29
# (参考訳) スキーママッチングにおける背景知識:戦略対データ [全文訳有]

Background Knowledge in Schema Matching: Strategy vs. Data ( http://arxiv.org/abs/2107.00001v1 )

ライセンス: CC BY 4.0
Jan Portisch, Michael Hladik, Heiko Paulheim(参考訳) 外部バックグラウンド知識の使用は、スキーマやオントロジーを自動的にマッチングするタスクに有用である。 本稿では,6つの汎用知識グラフを,マッチングタスクの背景知識源として活用する。 バックグラウンドソースは3つの異なるエクスプロイト戦略を適用して評価する。 明示的な戦略は依然として潜在戦略よりも優れており、戦略の選択は戦略が適用される実際の背景データセットよりも最終的なアライメントに大きな影響を与える。 普遍的に優れたリソースを特定できなかったが、BabelNetは一貫して良い結果を得た。 BabelNetとの最良のマッチング設定は、データセット固有の最適化が作成されていないにもかかわらず、他のマッチングシステムと比較して非常に競争力がある。

The use of external background knowledge can be beneficial for the task of matching schemas or ontologies automatically. In this paper, we exploit six general-purpose knowledge graphs as sources of background knowledge for the matching task. The background sources are evaluated by applying three different exploitation strategies. We find that explicit strategies still outperform latent ones and that the choice of the strategy has a greater impact on the final alignment than the actual background dataset on which the strategy is applied. While we could not identify a universally superior resource, BabelNet achieved consistently good results. Our best matcher configuration with BabelNet performs very competitively when compared to other matching systems even though no dataset-specific optimizations were made.
翻訳日:2021-07-03 05:32:22 公開日:2021-06-29
# (参考訳) カスケードデコーダを用いた画像再構成用オートエンコーダ

Cascade Decoders-Based Autoencoders for Image Reconstruction ( http://arxiv.org/abs/2107.00002v1 )

ライセンス: CC BY 4.0
Honggui Li, Dimitri Galayko, Maria Trocan, Mohamad Sawan(参考訳) オートエンコーダは符号化ユニットと復号ユニットで構成されるため、高性能なデータ圧縮と信号圧縮センシングの本質的な可能性を秘めている。 現在のオートエンコーダの主な欠点は、データ再構成ではなく特徴表現である、データ復元のパフォーマンス評価は無視される、純粋なディープラーニングによっても純粋なオートエンコーダによるロスレスデータ再構成を達成するのは難しい、といった点である。 本稿では, オートエンコーダの画像再構成, カスケードデコーダに基づくオートエンコーダの利用, 画像再構成の性能向上, 徐々にロスレスな画像復元へのアプローチ, オートエンコーダに基づく画像圧縮および圧縮センシングのためのソリッド理論と応用基盤を提供する。 提案したシリアルデコーダベースのオートエンコーダは、マルチレベルデコーダのアーキテクチャと関連する最適化アルゴリズムを含む。 カスケードデコーダは、一般的なデコーダ、残留デコーダ、逆デコーダとそれらの組み合わせで構成される。 提案するオートエンコーダは,画像再構成の性能において,従来のオートエンコーダよりも優れていた。

Autoencoders are composed of coding and decoding units, hence they hold the inherent potential of high-performance data compression and signal compressed sensing. The main disadvantages of current autoencoders comprise the following several aspects: the research objective is not data reconstruction but feature representation; the performance evaluation of data recovery is neglected; it is hard to achieve lossless data reconstruction by pure autoencoders, even by pure deep learning. This paper aims for image reconstruction of autoencoders, employs cascade decoders-based autoencoders, perfects the performance of image reconstruction, approaches gradually lossless image recovery, and provides solid theory and application basis for autoencoders-based image compression and compressed sensing. The proposed serial decoders-based autoencoders include the architectures of multi-level decoders and the related optimization algorithms. The cascade decoders consist of general decoders, residual decoders, adversarial decoders and their combinations. It is evaluated by the experimental results that the proposed autoencoders outperform the classical autoencoders in the performance of image reconstruction.
翻訳日:2021-07-03 05:19:31 公開日:2021-06-29
# ニュアサンス誘発スプリアス相関の存在下での予測モデル

Predictive Modeling in the Presence of Nuisance-Induced Spurious Correlations ( http://arxiv.org/abs/2107.00520v1 )

ライセンス: Link先を確認
Aahlad Puli, Lily H. Zhang, Eric K. Oermann, Rajesh Ranganath(参考訳) 深い予測モデルは、しばしば、トレーニングとテストの分布で異なるラベルと共変量の間の急激な相関を利用する。 多くの分類タスクにおいて、スプリアス相関はラベルと共変量と相関するいくつかのニュアンス変数の間の変化によって引き起こされる。 例えば、自然画像で動物を分類する場合、迷惑である背景は動物の種類を予測することができるが、この迷惑ラベル関係は常に保持されるとは限らない。 このニュアンスとラベルの関係は必ずしも成り立たない。 我々は、ニュアンス-ラベル関係にのみ異なる分布の族を定式化し、ニュアンス-ランダム分布と呼ばれるこの関係が壊れた分布を導入する。 本稿では, ニュアサンスランダム分布と表現から構築した予測モデルについて, 条件づけされた場合, ラベルとニュアザンスとの相関性がないことを示す。 このセットのモデルでは、表現とラベルの間の相互情報を持つ家族の任意のメンバーのパフォーマンスを、ニュアンス・ランダム化分布の下で低くする。 性能低下を最大化する予測モデルを構築するため,Nuisance-Randomized Distillation (NURD) を開発した。 合成例, カラーMNIST, 胸部X線分類によるNURDの評価を行った。 胸部x線分類に非lungパッチを使用する場合、nurdは強いスプリアス相関の下で肺炎を予測するモデルを生成する。

Deep predictive models often make use of spurious correlations between the label and the covariates that differ between training and test distributions. In many classification tasks, spurious correlations are induced by a changing relationship between the label and some nuisance variables correlated with the covariates. For example, in classifying animals in natural images, the background, which is the nuisance, can predict the type of animal, but this nuisance label relationship does not always hold. This nuisance-label relationship does not always hold. We formalize a family of distributions that only differ in the nuisance-label relationship and and introduce a distribution where this relationship is broken called the nuisance-randomized distribution. We introduce a set of predictive models built from the nuisance-randomized distribution with representations, that when conditioned on, do not correlate the label and the nuisance. For models in this set, we lower bound the performance for any member of the family with the mutual information between the representation and the label under the nuisance-randomized distribution. To build predictive models that maximize the performance lower bound, we develop Nuisance-Randomized Distillation (NURD). We evaluate NURD on a synthetic example, colored-MNIST, and classifying chest X-rays. When using non-lung patches as the nuisance in classifying chest X-rays, NURD produces models that predict pneumonia under strong spurious correlations.
翻訳日:2021-07-02 13:58:04 公開日:2021-06-29
# SinGAN-Seg:医療画像分割のための総合訓練データ生成

SinGAN-Seg: Synthetic Training Data Generation for Medical Image Segmentation ( http://arxiv.org/abs/2107.00471v1 )

ライセンス: Link先を確認
Vajira Thambawita, Pegah Salehi, Sajad Amouei Sheshkal, Steven A. Hicks, Hugo L.Hammer, Sravanthi Parasa, Thomas de Lange, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 異常を見つけるために医療データを処理することは時間と費用のかかる作業であり、医療専門家の多大な努力を必要とする。 そのため、Aiは医療データの自動処理ツールとして人気があり、医師支援ツールとして機能している。 AIツールはモデルをトレーニングするためのデータに大きく依存する。 しかし、プライバシー上の懸念や時間を要する医療データアノテーションプロセスのために、医療領域で機械学習アルゴリズムを訓練するために大量の医療データにアクセスするにはいくつかの制約がある。 そこで本稿では,SinGAN-Segと呼ばれる新しい合成データ生成パイプラインを提案する。 これらの合成データ生成パイプラインは、プライバシの懸念を回避し、退屈な医療データアノテーションプロセスを避けるために、対応する基底真理マスクを備えた人工的なセグメンテーションデータセットを作成するための代替手段として使用できる。 概念実証として,オープンポリプセグメンテーションデータセットを用いた。 実ポリプセグメンテーションデータセットとSinGAN-Segパイプラインから生成された合成データセットの両方を用いてUNet++をトレーニングすることにより、実セグメンテーションデータセットが十分に大きい場合に、合成データが実データに非常に近い性能が得られることを示す。 さらに,SinGAN-Segパイプラインから生成された合成データが,トレーニングデータセットが非常に小さい場合のセグメンテーションアルゴリズムの性能を向上させることを示す。 SinGAN-Segパイプラインはどんな医療データセットにも適用可能ですので、このパイプラインは他のセグメンテーションデータセットでも使用できます。

Processing medical data to find abnormalities is a time-consuming and costly task, requiring tremendous efforts from medical experts. Therefore, Ai has become a popular tool for the automatic processing of medical data, acting as a supportive tool for doctors. AI tools highly depend on data for training the models. However, there are several constraints to access to large amounts of medical data to train machine learning algorithms in the medical domain, e.g., due to privacy concerns and the costly, time-consuming medical data annotation process. To address this, in this paper we present a novel synthetic data generation pipeline called SinGAN-Seg to produce synthetic medical data with the corresponding annotated ground truth masks. We show that these synthetic data generation pipelines can be used as an alternative to bypass privacy concerns and as an alternative way to produce artificial segmentation datasets with corresponding ground truth masks to avoid the tedious medical data annotation process. As a proof of concept, we used an open polyp segmentation dataset. By training UNet++ using both the real polyp segmentation dataset and the corresponding synthetic dataset generated from the SinGAN-Seg pipeline, we show that the synthetic data can achieve a very close performance to the real data when the real segmentation datasets are large enough. In addition, we show that synthetic data generated from the SinGAN-Seg pipeline improving the performance of segmentation algorithms when the training dataset is very small. Since our SinGAN-Seg pipeline is applicable for any medical dataset, this pipeline can be used with any other segmentation datasets.
翻訳日:2021-07-02 13:50:09 公開日:2021-06-29
# SALYPATH:視覚的注意予測のためのディープベースアーキテクチャ

SALYPATH: A Deep-Based Architecture for visual attention prediction ( http://arxiv.org/abs/2107.00559v1 )

ライセンス: Link先を確認
Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Rachid Harba(参考訳) 人間の視覚は、自然界の他の領域よりも一部の領域に惹かれている。 この内在的な選択機構、いわゆる視覚的注意は、地球環境(照明、背景テクスチャなど)のような高レベルと低レベルの要素の両方に影響されている。 ),刺激特性(色,強度,方向など)。 ) および, 先行する視覚情報。 視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。 本稿では,salypath(saliency and scanpath)と呼ばれるエンド・ツー・エンドの深層ベース手法を提案する。 その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。 提案手法は2つのよく知られたデータセットを用いて評価した。 その結果,提案手法と最先端モデルとの関連性を示した。

Human vision is naturally more attracted by some regions within their field of view than others. This intrinsic selectivity mechanism, so-called visual attention, is influenced by both high- and low-level factors; such as the global environment (illumination, background texture, etc.), stimulus characteristics (color, intensity, orientation, etc.), and some prior visual information. Visual attention is useful for many computer vision applications such as image compression, recognition, and captioning. In this paper, we propose an end-to-end deep-based method, so-called SALYPATH (SALiencY and scanPATH), that efficiently predicts the scanpath of an image through features of a saliency model. The idea is predict the scanpath by exploiting the capacity of a deep-based model to predict the saliency. The proposed method was evaluated through 2 well-known datasets. The results obtained showed the relevance of the proposed framework comparing to state-of-the-art models.
翻訳日:2021-07-02 13:44:11 公開日:2021-06-29
# Never Go Full Batch (確率凸最適化における)

Never Go Full Batch (in Stochastic Convex Optimization) ( http://arxiv.org/abs/2107.00469v1 )

ライセンス: Link先を確認
Idan Amir, Yair Carmon, Tomer Koren, Roi Livni(参考訳) 確率凸最適化のための$\text{full-batch}$最適化アルゴリズムの一般化性能について検討する:これらは経験的リスク(個々のデータ点に対する勾配ではなく)の正確な勾配にのみアクセスする一階法であり、勾配降下、ミラー降下、正規化および/または加速された変種を含む。 確率的勾配降下のようなアルゴリズムは、人口リスクをo(1/\epsilon^2)$の後に$\epsilon$に一般化し、最適化することができるが、フルバッチ法は少なくとも$\omega(1/\epsilon^4)$の反復を必要とするか、次元依存のサンプル複雑性を示す。

We study the generalization performance of $\text{full-batch}$ optimization algorithms for stochastic convex optimization: these are first-order methods that only access the exact gradient of the empirical risk (rather than gradients with respect to individual data points), that include a wide range of algorithms such as gradient descent, mirror descent, and their regularized and/or accelerated variants. We provide a new separation result showing that, while algorithms such as stochastic gradient descent can generalize and optimize the population risk to within $\epsilon$ after $O(1/\epsilon^2)$ iterations, full-batch methods either need at least $\Omega(1/\epsilon^4)$ iterations or exhibit a dimension-dependent sample complexity.
翻訳日:2021-07-02 13:32:29 公開日:2021-06-29
# グラフ構造支援集合上の近似フランクウルフアルゴリズム

Approximate Frank-Wolfe Algorithms over Graph-structured Support Sets ( http://arxiv.org/abs/2107.00472v1 )

ライセンス: Link先を確認
Baojian Zhou, Yifan Sun(参考訳) 本稿では,グラフ構造化サポートセット上での凸最適化問題の解法として,LMO(textit{linear minimization oracle})を効率よく取得できないようなFW(Frank-Wolfe)アルゴリズムを提案する。 まず、2つの一般的な近似仮定 (\textit{additive} と \textit{multiplicative gap error") が我々の問題に対して有効でないことを証明した。 代わりに、ギャップではなく内積を近似する新しい \textit{approximate dual maximization oracle} (dmo) が提案されている。 目的が$l$-smooth であれば、$\delta$-approximate dmo を用いた標準 fw 法は、一般に $\mathcal{o}(l / \delta t + (1-\delta)(\delta^{-1} + \delta^{-2})$ として収束し、$\mathcal{o}(l/(\delta^2(t+2))))$ が制約集合の $\delta$-relaxation 上で収束することを証明する。 さらに、目的が$\mu$-strongly convexで解が一意であるとき、FWの変種は$\mathcal{O}(L^2\log(t)/(\mu \delta^6 t^2)$に収束する。 実験結果から,これらの改良された境界でさえ悲観的であり,グラフ構造による空間像の復元が著しく向上したことが示唆された。

In this paper, we propose approximate Frank-Wolfe (FW) algorithms to solve convex optimization problems over graph-structured support sets where the \textit{linear minimization oracle} (LMO) cannot be efficiently obtained in general. We first demonstrate that two popular approximation assumptions (\textit{additive} and \textit{multiplicative gap errors)}, are not valid for our problem, in that no cheap gap-approximate LMO oracle exists in general. Instead, a new \textit{approximate dual maximization oracle} (DMO) is proposed, which approximates the inner product rather than the gap. When the objective is $L$-smooth, we prove that the standard FW method using a $\delta$-approximate DMO converges as $\mathcal{O}(L / \delta t + (1-\delta)(\delta^{-1} + \delta^{-2}))$ in general, and as $\mathcal{O}(L/(\delta^2(t+2)))$ over a $\delta$-relaxation of the constraint set. Additionally, when the objective is $\mu$-strongly convex and the solution is unique, a variant of FW converges to $\mathcal{O}(L^2\log(t)/(\mu \delta^6 t^2))$ with the same per-iteration complexity. Our empirical results suggest that even these improved bounds are pessimistic, with significant improvement in recovering real-world images with graph-structured sparsity.
翻訳日:2021-07-02 13:32:14 公開日:2021-06-29
# ドメイン特化言語を越えたニューラルプログラム合成のための潜時実行

Latent Execution for Neural Program Synthesis Beyond Domain-Specific Languages ( http://arxiv.org/abs/2107.00101v1 )

ライセンス: Link先を確認
Xinyun Chen, Dawn Song, Yuandong Tian(参考訳) 入力出力例からのプログラム合成は長年の課題であり、最近の研究はプログラム合成のためのディープニューラルネットワークの設計に成功している。 しかし、インプット・アウトプットのニューラルプログラム合成における既存の取り組みはドメイン固有言語に焦点を当てており、cのような本格的なプログラミング言語でコードを合成する以前のアプローチの適用性は疑問視されている。 主な課題は2つある。 一方、プログラミング言語の構文や意味がより複雑になると、プログラム検索空間は指数関数的に増大し、合成アルゴリズムにより高い要求が生じる。 一方で、プログラム合成のための大規模トレーニングセットを構築するには、サンプルプログラムと入出力サンプルのランダムプログラム生成器が必要であるため、プログラミング言語の複雑さの増大はデータ収集にさらに困難を伴います。 本研究では,入力出力の例からCプログラムを合成する第一歩を踏み出す。 特にLaSynthを提案する。LaSynthは,プログラムのセマンティクスが十分に定義されていない場合でも,部分生成プログラムの実行を近似するために潜在表現を学習する。 入力出力サンプルから基本cコードを合成する可能性を示し、学習した実行を活用することで、既存のアプローチよりも予測性能が大幅に向上することを示す。 一方、rasynthはランダムに生成された地上プログラムと比較して、人間の書いたコードに似たより簡潔なプログラムを合成する。 これらの合成プログラムのトレーニングにより、karelとcプログラム合成の両方の予測性能が向上し、学習したプログラムシンセサイザーを活用して、入出力プログラム合成のデータセット品質が向上する可能性が示された。

Program synthesis from input-output examples has been a long-standing challenge, and recent works have demonstrated some success in designing deep neural networks for program synthesis. However, existing efforts in input-output neural program synthesis have been focusing on domain-specific languages, thus the applicability of previous approaches to synthesize code in full-fledged popular programming languages, such as C, remains a question. The main challenges lie in two folds. On the one hand, the program search space grows exponentially when the syntax and semantics of the programming language become more complex, which poses higher requirements on the synthesis algorithm. On the other hand, increasing the complexity of the programming language also imposes more difficulties on data collection, since building a large-scale training set for input-output program synthesis require random program generators to sample programs and input-output examples. In this work, we take the first step to synthesize C programs from input-output examples. In particular, we propose LaSynth, which learns the latent representation to approximate the execution of partially generated programs, even if their semantics are not well-defined. We demonstrate the possibility of synthesizing elementary C code from input-output examples, and leveraging learned execution significantly improves the prediction performance over existing approaches. Meanwhile, compared to the randomly generated ground-truth programs, LaSynth synthesizes more concise programs that resemble human-written code. We show that training on these synthesized programs further improves the prediction performance for both Karel and C program synthesis, indicating the promise of leveraging the learned program synthesizer to improve the dataset quality for input-output program synthesis.
翻訳日:2021-07-02 13:30:01 公開日:2021-06-29
# (参考訳) adapt-and-distill: ドメインのための小さくて高速で効果的な事前学習言語モデルの開発 [全文訳有]

Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains ( http://arxiv.org/abs/2106.13474v2 )

ライセンス: CC BY 4.0
Yunzhi Yao, Shaohan Huang, Wenhui Wang, Li Dong, Furu Wei(参考訳) 訓練済みの大きなモデルは多くの自然言語処理タスクで大きな成功を収めた。 しかしながら、特定のドメインに適用されると、これらのモデルはドメインシフトに悩まされ、レイテンシとキャパシティの制約に対して、微調整とオンラインサービスに課題をもたらす。 本稿では、特定の領域に対して、小さくて高速で効果的な事前学習モデルを開発するための一般的なアプローチを提案する。 これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。 具体的には,適応段階におけるドメイン固有語彙拡張を提案し,コーパスレベル発生確率を用いてインクリメンタル語彙のサイズを自動的に選択する。 そこで我々は,特定の領域に対する大規模事前学習モデルを圧縮するための様々な戦略を体系的に検討する。 我々は生物医学とコンピュータ科学の領域で実験を行う。 実験の結果、ドメイン固有タスクにおけるbertベースモデルよりもパフォーマンスが向上し、bertベースより3.3倍小さく5.1倍高速になった。 コードと事前学習されたモデルはhttps://aka.ms/adalm .com/で入手できる。

Large pre-trained models have achieved great success in many natural language processing tasks. However, when they are applied in specific domains, these models suffer from domain shift and bring challenges in fine-tuning and online serving for latency and capacity constraints. In this paper, we present a general approach to developing small, fast and effective pre-trained models for specific domains. This is achieved by adapting the off-the-shelf general pre-trained models and performing task-agnostic knowledge distillation in target domains. Specifically, we propose domain-specific vocabulary expansion in the adaptation stage and employ corpus level occurrence probability to choose the size of incremental vocabulary automatically. Then we systematically explore different strategies to compress the large pre-trained models for specific domains. We conduct our experiments in the biomedical and computer science domain. The experimental results demonstrate that our approach achieves better performance over the BERT BASE model in domain-specific tasks while 3.3x smaller and 5.1x faster than BERT BASE. The code and pre-trained models are available at https://aka.ms/adalm .
翻訳日:2021-07-02 04:23:01 公開日:2021-06-29
# (参考訳) 文脈における単語の意味表現の探索:ホモニミーとシンノミーを事例として [全文訳有]

Exploring the Representation of Word Meanings in Context: A Case Study on Homonymy and Synonymy ( http://arxiv.org/abs/2106.13553v2 )

ライセンス: CC BY-SA 4.0
Marcos Garcia(参考訳) 本稿では,文脈における単語の意味表現の多言語的研究について述べる。 我々は,静的モデルと文脈モデルの両方が,同義語や同義語などの語彙関係を適切に表現できる能力を評価する。 そこで我々は,周囲の文脈の影響や単語間の重なりなど,複数の要因の制御された評価を行い,同一あるいは異なる感覚を伝達できる,新たな多言語データセットを作成した。 4つのシナリオに関する体系的な評価は、トランスフォーマーに基づく最良の単言語モデルが文脈におけるホモニムを適切に曖昧化することができることを示している。 しかし、これらのモデルは文脈に大きく依存しているため、類似した文で発生する異なる感覚の単語を表現できない。 ガリシア語、ポルトガル語、英語、スペイン語で実験が行われ、データセット(3000以上の評価項目を含む)と新しいモデルの両方がこの研究で自由にリリースされる。

This paper presents a multilingual study of word meaning representations in context. We assess the ability of both static and contextualized models to adequately represent different lexical-semantic relations, such as homonymy and synonymy. To do so, we created a new multilingual dataset that allows us to perform a controlled evaluation of several factors such as the impact of the surrounding context or the overlap between words, conveying the same or different senses. A systematic assessment on four scenarios shows that the best monolingual models based on Transformers can adequately disambiguate homonyms in context. However, as they rely heavily on context, these models fail at representing words with different senses when occurring in similar sentences. Experiments are performed in Galician, Portuguese, English, and Spanish, and both the dataset (with more than 3,000 evaluation items) and new models are freely released with this study.
翻訳日:2021-07-02 04:10:51 公開日:2021-06-29
# (参考訳) ブラインド画像品質評価のための半監督深層アンサンブル [全文訳有]

Semi-Supervised Deep Ensembles for Blind Image Quality Assessment ( http://arxiv.org/abs/2106.14008v2 )

ライセンス: CC BY 4.0
Zhihua Wang, Dingquan Li, Kede Ma(参考訳) アンサンブル法は、基礎学習者が「正確」かつ「多元的」と見なされる場合、一般に単一のモデルよりも良いと見なされる。 そこで本研究では,半教師付きアンサンブル学習戦略を用いて,一般化可能なブラインド画像品質評価モデルを作成する。 ラベル付きデータに対するアンサンブル(およびベース学習者)の精度を最大化し、それらの間の不一致(すなわち多様性)をラベル付きデータ上で最大化することにより、品質予測のためのマルチヘッド畳み込みネットワークを訓練する。 我々は,BIQAにラベルのないデータを用いることの利点,特にモデル一般化と故障同定において,広範な実験を行った。

Ensemble methods are generally regarded to be better than a single model if the base learners are deemed to be "accurate" and "diverse." Here we investigate a semi-supervised ensemble learning strategy to produce generalizable blind image quality assessment models. We train a multi-head convolutional network for quality prediction by maximizing the accuracy of the ensemble (as well as the base learners) on labeled data, and the disagreement (i.e., diversity) among them on unlabeled data, both implemented by the fidelity loss. We conduct extensive experiments to demonstrate the advantages of employing unlabeled data for BIQA, especially in model generalization and failure identification.
翻訳日:2021-07-02 03:02:10 公開日:2021-06-29
# (参考訳) SATを用いたペルシャ語埋め込みのためのアナロジー評価フレームワーク [全文訳有]

SAT Based Analogy Evaluation Framework for Persian Word Embeddings ( http://arxiv.org/abs/2106.15674v1 )

ライセンス: CC BY 4.0
Seyyed Ehsan Mahmoudi and Mehrnoush Shamsfard(参考訳) 近年、単語をベクトルに変換する新しいアプローチとして、単語埋め込みに特別な関心が寄せられている。 単語の意味論のどの程度が埋め込みベクトルに変換されたかを理解するための焦点であった。 これは、埋め込みが下流のNLPアプリケーションの基盤として使われるためであり、使用される埋め込みモデルの品質を特定するために、アプリケーションのエンドツーエンドを評価するのにコストがかかります。 一般に、単語の埋め込みはアナログテストを含む多くのテストによって評価される。 本稿では,ペルシャ組込みモデルのためのテストフレームワークを提案する。 ペルシャ語は低リソース言語であり、この言語の単語埋め込みモデルを評価するためのリッチなセマンティックベンチマークはない。 本稿では,ペルシャ語 SAT を用いたアナロジーデータセット,(ペルシャ語特有の)口語テストセット,およびセマンティック評価タスクにおける種々のパラメータの影響を調査するためのベンチマークを含む評価フレームワークを提案する。

In recent years there has been a special interest in word embeddings as a new approach to convert words to vectors. It has been a focal point to understand how much of the semantics of the the words has been transferred into embedding vectors. This is important as the embedding is going to be used as the basis for downstream NLP applications and it will be costly to evaluate the application end-to-end in order to identify quality of the used embedding model. Generally the word embeddings are evaluated through a number of tests, including analogy test. In this paper we propose a test framework for Persian embedding models. Persian is a low resource language and there is no rich semantic benchmark to evaluate word embedding models for this language. In this paper we introduce an evaluation framework including a hand crafted Persian SAT based analogy dataset, a colliquial test set (specific to Persian) and a benchmark to study the impact of various parameters on the semantic evaluation task.
翻訳日:2021-07-02 02:04:28 公開日:2021-06-29
# (参考訳) 雑音入力に頑健な音響的・語彙的・不流・音声ポーズを用いたアルツハイマー型認知症の認識 [全文訳有]

Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and Speech Pause Features Robust to Noisy Inputs ( http://arxiv.org/abs/2106.15684v1 )

ライセンス: CC BY 4.0
Morteza Rohanian, Julian Hough, Matthew Purver(参考訳) 本稿では,asr転写音声と音響データを同時に消費する2つのマルチモーダル融合型深層学習モデルを提案し,構造化診断課題における話者がアルツハイマー病を有するか,どの程度の程度であるかを分類し,adresso challenge 2021データを評価する。 我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。 認知的減少を予測することはより難しいが, マルチモーダルアプローチによる改善, 単語確率, 分散性, ポーズ情報などを示す。 マルチモーダルフュージョンとゲーティングを用いたAD分類では,音響特性やASR仮説からのノイズ入力を効果的に扱うことができる。

We present two multimodal fusion-based deep learning models that consume ASR transcribed speech and acoustic data simultaneously to classify whether a speaker in a structured diagnostic task has Alzheimer's Disease and to what degree, evaluating the ADReSSo challenge 2021 data. Our best model, a BiLSTM with highway layers using words, word probabilities, disfluency features, pause information, and a variety of acoustic features, achieves an accuracy of 84% and RSME error prediction of 4.26 on MMSE cognitive scores. While predicting cognitive decline is more challenging, our models show improvement using the multimodal approach and word probabilities, disfluency and pause information over word-only models. We show considerable gains for AD classification using multimodal fusion and gating, which can effectively deal with noisy inputs from acoustic features and ASR hypotheses.
翻訳日:2021-07-02 01:55:15 公開日:2021-06-29
# (参考訳) 非線形ヘビアン塑性による高次相関のテンソル分解

Tensor decomposition of higher-order correlations by nonlinear Hebbian plasticity ( http://arxiv.org/abs/2106.15685v1 )

ライセンス: CC BY 4.0
Gabriel Koch Ocker and Michael A. Buice(参考訳) 生物学的シナプス可塑性は、古典的なヘッブの学習規則によって説明されない非線形性を示す。 ここでは、一般化された非線形ヘビアン学習規則の単純な族を紹介する。 本研究では,ニューロンがフィードフォワード入力を受信する簡単な設定で,それらのダイナミクスによって実現される計算について検討する。 これらの非線形ヘビー則により、ニューロンはその高次入力相関のテンソル分解を学ぶことができる。 特定の入力相関は分解され、分解の形式は可塑性則における非線形性の位置に依存する。 単純な生物学的に動機付けられたパラメータに対して、ニューロンは高次入力相関のテンソル固有ベクトルを学ぶ。 各テンソル固有ベクトルがアトラクターであることを証明し、アトラクションの盆地を決定する。 我々はこれらの流域の体積を計算し、支配的な固有ベクトルが最大のアトラクションの流域を持つことを示す。 任意の学習規則を学習し、ニューラルネットワークと出力へのテイラーの有限展開を許容する学習規則もまた、その高次入力相関のテンソル固有ベクトルにおいて安定な平衡性を持つことを示した。 シナプス可塑性の非線形性により、ニューロンは単純な方法で高次入力相関を符号化することができる。

Biological synaptic plasticity exhibits nonlinearities that are not accounted for by classic Hebbian learning rules. Here, we introduce a simple family of generalized, nonlinear Hebbian learning rules. We study the computations implemented by their dynamics in the simple setting of a neuron receiving feedforward inputs. We show that these nonlinear Hebbian rules allow a neuron to learn tensor decompositions of its higher-order input correlations. The particular input correlation decomposed, and the form of the decomposition, depend on the location of nonlinearities in the plasticity rule. For simple, biologically motivated parameters, the neuron learns tensor eigenvectors of higher-order input correlations. We prove that each tensor eigenvector is an attractor and determine their basins of attraction. We calculate the volume of those basins, showing that the dominant eigenvector has the largest basin of attraction. We then study arbitrary learning rules, and find that any learning rule that admits a finite Taylor expansion into the neural input and output also has stable equilibria at tensor eigenvectors of its higher-order input correlations. Nonlinearities in synaptic plasticity thus allow a neuron to encode higher-order input correlations in a simple fashion.
翻訳日:2021-07-02 01:43:49 公開日:2021-06-29
# (参考訳) マルチエージェント深層強化学習:人間的アプローチへの挑戦と方向性

Multiagent Deep Reinforcement Learning: Challenges and Directions Towards Human-Like Approaches ( http://arxiv.org/abs/2106.15691v1 )

ライセンス: CC BY 4.0
Annie Wong, Thomas B\"ack, Anna V. Kononova, Aske Plaat(参考訳) 本稿では,マルチエージェント深部強化学習の分野について検討する。 近年、深層ニューラルネットワークと強化学習の組み合わせは勢いを増しており、徐々に焦点をシングルエージェントからマルチエージェント環境にシフトさせている。 a) 将来の報酬は複数のプレイヤーの協調行動に依存し、(b) 関数の計算複雑性が増加するため、複数のエージェントを扱うことは本質的により複雑である。 我々は、最も一般的なマルチエージェント問題表現とその主な課題を提示し、1つ以上の課題に対応する5つの研究領域、集中トレーニングと分散実行、対向モデリング、コミュニケーション、効率的な協調、報酬形成を特定する。 我々は、多くの計算研究が非現実的な仮定に依存するか、他の設定に一般化できないことを見出し、それらは次元の呪いや非定常性の克服に苦しむ。 心理学や社会学からのアプローチは、コミュニケーションや協調といった有望な行動を捉えている。 マルチエージェント強化学習を成功させるために、今後の研究は、マルチエージェント強化学習におけるより人間指向のソリューションの新たな可能性を開くための学際的なアプローチでこれらの課題に対処することを提案する。

This paper surveys the field of multiagent deep reinforcement learning. The combination of deep neural networks with reinforcement learning has gained increased traction in recent years and is slowly shifting the focus from single-agent to multiagent environments. Dealing with multiple agents is inherently more complex as (a) the future rewards depend on the joint actions of multiple players and (b) the computational complexity of functions increases. We present the most common multiagent problem representations and their main challenges, and identify five research areas that address one or more of these challenges: centralised training and decentralised execution, opponent modelling, communication, efficient coordination, and reward shaping. We find that many computational studies rely on unrealistic assumptions or are not generalisable to other settings; they struggle to overcome the curse of dimensionality or nonstationarity. Approaches from psychology and sociology capture promising relevant behaviours such as communication and coordination. We suggest that, for multiagent reinforcement learning to be successful, future research addresses these challenges with an interdisciplinary approach to open up new possibilities for more human-oriented solutions in multiagent reinforcement learning.
翻訳日:2021-07-02 01:42:24 公開日:2021-06-29
# (参考訳) RICE: グラフニューラルネットワークによるクラッタ環境におけるインスタンスマスクの精製 [全文訳有]

RICE: Refining Instance Masks in Cluttered Environments with Graph Neural Networks ( http://arxiv.org/abs/2106.15711v1 )

ライセンス: CC BY 4.0
Christopher Xie, Arsalan Mousavian, Yu Xiang, Dieter Fox(参考訳) 乱雑な環境でのオブジェクトインスタンスのセグメンテーションは、ロボットが非構造化環境で機能するのに必要な重要な機能である。 従来の手法は有望な結果を示してきたが、それでも非常に散らかったシーンで誤った結果を与える傾向にある。 我々は、オブジェクト間の関係を高いレベルでエンコードするネットワークアーキテクチャが有益であると仮定する。 そこで本研究では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。 対象間の関係をエンコード可能なグラフニューラルネットワークを用いて,セグメント化に対するスマートな摂動をサンプリングする深層ネットワークを訓練し,摂動分節を評価する。 提案手法は,従来の作品と直交し,それらと組み合わせて最先端の性能を実現する。 本手法では,不確実性推定を用いてマニピュレータを誘導し,クラッタ化されたシーンを効率的に理解するアプリケーションを示す。 コード、モデル、ビデオはhttps://github.com/c hrisdxie/rice で見ることができる。

Segmenting unseen object instances in cluttered environments is an important capability that robots need when functioning in unstructured environments. While previous methods have exhibited promising results, they still tend to provide incorrect results in highly cluttered scenes. We postulate that a network architecture that encodes relations between objects at a high-level can be beneficial. Thus, in this work, we propose a novel framework that refines the output of such methods by utilizing a graph-based representation of instance masks. We train deep networks capable of sampling smart perturbations to the segmentations, and a graph neural network, which can encode relations between objects, to evaluate the perturbed segmentations. Our proposed method is orthogonal to previous works and achieves state-of-the-art performance when combined with them. We demonstrate an application that uses uncertainty estimates generated by our method to guide a manipulator, leading to efficient understanding of cluttered scenes. Code, models, and video can be found at https://github.com/c hrisdxie/rice .
翻訳日:2021-07-02 01:41:15 公開日:2021-06-29
# (参考訳) Diff2Dist: スペクトル固有エッジ関数の学習と細胞形態解析への応用 [全文訳有]

Diff2Dist: Learning Spectrally Distinct Edge Functions, with Applications to Cell Morphology Analysis ( http://arxiv.org/abs/2106.15716v1 )

ライセンス: CC BY 4.0
Cory Braker Scott, Eric Mjolsness, Diane Oyen, Chie Kodera, David Bouchez, and Magalie Uyttewaal(参考訳) 本稿では,グラフのエッジ重み付けを視覚的に記述する手法を提案する。 グラフ上の既知距離測度(グラフ拡散距離)を一般化することにより、任意の損失関数を最小限に抑えることができる。 この修正gddの計算にかかわる全てのステップは微分可能であるため、小さなニューラルネットワークモデルが損失を最小限に抑えるようなエッジ重みを学習できることを実証する。 gdd単独では、野生種と変異種 \emph{arabidopsis thaliana} のメリステム画像から構築されたグラフを効果的に判別することができない。 しかし、対照的な損失を伴うエッジウェイトとカーネルパラメータのトレーニングは、これらのグラフカテゴリ間の大きなマージンを持つ学習距離メトリックを生成する。 学習距離行列上での単純なk-nearest-neighbors分類器の性能向上を示す。 また,生物画像解析への本手法のさらなる応用として,細胞分裂シミュレータにより出力される生体グラフとグラフの集合との距離を計算するために,モデルを用いて訓練を行った。 これにより、オリジナルのデータセットのグラフの各クラスに類似したシミュレーションパラメータレジームを識別できます。

We present a method for learning "spectrally descriptive" edge weights for graphs. We generalize a previously known distance measure on graphs (Graph Diffusion Distance), thereby allowing it to be tuned to minimize an arbitrary loss function. Because all steps involved in calculating this modified GDD are differentiable, we demonstrate that it is possible for a small neural network model to learn edge weights which minimize loss. GDD alone does not effectively discriminate between graphs constructed from shoot apical meristem images of wild-type vs. mutant \emph{Arabidopsis thaliana} specimens. However, training edge weights and kernel parameters with contrastive loss produces a learned distance metric with large margins between these graph categories. We demonstrate this by showing improved performance of a simple k-nearest-neighbors classifier on the learned distance matrix. We also demonstrate a further application of this method to biological image analysis: once trained, we use our model to compute the distance between the biological graphs and a set of graphs output by a cell division simulator. This allows us to identify simulation parameter regimes which are similar to each class of graph in our original dataset.
翻訳日:2021-07-02 01:22:24 公開日:2021-06-29
# SIMPL:Zero-shotとFew-Shot検出問題に対応する合成オーバーヘッド画像の生成

SIMPL: Generating Synthetic Overhead Imagery to Address Zero-shot and Few-Shot Detection Problems ( http://arxiv.org/abs/2106.15681v1 )

ライセンス: Link先を確認
Yang Xu, Bohao Huang, Xiong Luo, Kyle Bradbury, and Jordan M. Malof(参考訳) 近年、ディープニューラルネットワーク(DNN)は、オーバヘッド(例えば衛星)画像における物体検出において大きな成功を収めている。 しかし、現在進行中の課題の1つは、衛星画像を取得し、物体に注釈をつけるコストが高いため、トレーニングデータの取得である。 本研究では,カスタムターゲットオブジェクトに対して大量の合成オーバヘッドトレーニングデータを簡単かつ迅速に生成するための簡易なアプローチであるsimpl(simpl)を提案する。 本研究では,実画像が存在しないゼロショットシナリオにおけるdnnの訓練に簡易合成画像を用いることの有効性と,実世界画像が限られている場合の学習シナリオを実証する。 また、SIMPLの有効性をいくつかの重要な設計パラメータに対して評価し、ユーザがカスタムオブジェクトの合成イメージを設計する際の洞察を与える実験を行った。 SIMPLアプローチのソフトウェア実装を公開して、他の人がそれに基づいて構築したり、独自の問題に使用したりできるようにしています。

Recently deep neural networks (DNNs) have achieved tremendous success for object detection in overhead (e.g., satellite) imagery. One ongoing challenge however is the acquisition of training data, due to high costs of obtaining satellite imagery and annotating objects in it. In this work we present a simple approach - termed Synthetic object IMPLantation (SIMPL) - to easily and rapidly generate large quantities of synthetic overhead training data for custom target objects. We demonstrate the effectiveness of using SIMPL synthetic imagery for training DNNs in zero-shot scenarios where no real imagery is available; and few-shot learning scenarios, where limited real-world imagery is available. We also conduct experiments to study the sensitivity of SIMPL's effectiveness to some key design parameters, providing users for insights when designing synthetic imagery for custom objects. We release a software implementation of our SIMPL approach so that others can build upon it, or use it for their own custom problems.
翻訳日:2021-07-01 15:35:39 公開日:2021-06-29
# 注意を意識したウェーブレットに基づく顔画像のモーフィック検出

Attention Aware Wavelet-based Detection of Morphed Face Images ( http://arxiv.org/abs/2106.15686v1 )

ライセンス: Link先を確認
Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 例えば、交通保安局(tsa)が使用する認証認証技術(cat)は、自明なセキュリティ上の懸念である。 本研究では, 波形提示によるリスクを克服するため, 終末トレーニング可能なソフトアテンション機構を採用したウェーブレットに基づく形態検出手法を提案する。 我々の注意に基づくディープニューラルネットワーク(dnn)は、モーフ検出器決定関数、すなわちモルフクラスバイナリソフトマックス出力の空間的サポートが最も高い関心領域(roi)に焦点を当てている。 形態合成手順のふりかえりは、特にランドマークベースの形態形成技術の場合、顔のランドマーク周辺の領域としてのroiを推測するのに役立ちます。 さらに、注意に基づくdnnはウェーブレット空間に適応しており、ネットワークの入力は粗いスペクトル表現であり、48の積み重ねられたウェーブレットサブバンドである。 3つのデータセット,VISAPP17, LMA, MorGAN を用いて提案手法の性能評価を行った。 また,調査対象のプローブ画像が本物であるか偽物であるかの指標としてアテンションマップが有用であるため,ボナファイド画像とそれに対応するモルヒド画像の両方について,推定アテンションマップを解析する。 最後に, 形態検出のための注意機構の活用効果について, アブレーション研究を行った。

Morphed images have exploited loopholes in the face recognition checkpoints, e.g., Credential Authentication Technology (CAT), used by Transportation Security Administration (TSA), which is a non-trivial security concern. To overcome the risks incurred due to morphed presentations, we propose a wavelet-based morph detection methodology which adopts an end-to-end trainable soft attention mechanism . Our attention-based deep neural network (DNN) focuses on the salient Regions of Interest (ROI) which have the most spatial support for morph detector decision function, i.e, morph class binary softmax output. A retrospective of morph synthesizing procedure aids us to speculate the ROI as regions around facial landmarks , particularly for the case of landmark-based morphing techniques. Moreover, our attention-based DNN is adapted to the wavelet space, where inputs of the network are coarse-to-fine spectral representations, 48 stacked wavelet sub-bands to be exact. We evaluate performance of the proposed framework using three datasets, VISAPP17, LMA, and MorGAN. In addition, as attention maps can be a robust indicator whether a probe image under investigation is genuine or counterfeit, we analyze the estimated attention maps for both a bona fide image and its corresponding morphed image. Finally, we present an ablation study on the efficacy of utilizing attention mechanism for the sake of morph detection.
翻訳日:2021-07-01 15:35:24 公開日:2021-06-29
# AlignedReID++を用いた新しいラベル付きデータの再識別のためのドメイン適応

Domain adaptation for person re-identification on new unlabeled data using AlignedReID++ ( http://arxiv.org/abs/2106.15693v1 )

ライセンス: Link先を確認
Tiago de C. G. Pereira, Teofilo E. de Campos(参考訳) ビッグデータが支配し、大量の非構造化データを集めるためのハードウェアが十分に用意されている世界では、データ取得はもはや問題ではない。 監視カメラはユビキタスで、さまざまなシーンを歩いている多くの人々を捉えています。 しかし、このデータから価値を抽出することは、特に顔認識や人物再同定のような人間の画像を含むタスクにとって困難である。 この種のデータのアノテーションは、挑戦的で高価なタスクです。 本稿では、あるドメインでトレーニングされたcnnが、ターゲットデータの新たなアノテーションを必要とせずに、別のドメインに適用できるドメイン適応ワークフローを提案する。 ベースラインとしてalignedreid++を使用し,バッチハードのトリプレット損失を用いてトレーニングを行う。 ドメイン適応は、教師なし学習戦略を用いて生成された擬似ラベルを用いて行われる。 その結果,対象領域に適用した場合,cnnの性能はドメイン適応手法により向上することがわかった。

In the world where big data reigns and there is plenty of hardware prepared to gather a huge amount of non structured data, data acquisition is no longer a problem. Surveillance cameras are ubiquitous and they capture huge numbers of people walking across different scenes. However, extracting value from this data is challenging, specially for tasks that involve human images, such as face recognition and person re-identification. Annotation of this kind of data is a challenging and expensive task. In this work we propose a domain adaptation workflow to allow CNNs that were trained in one domain to be applied to another domain without the need for new annotation of the target data. Our method uses AlignedReID++ as the baseline, trained using a Triplet loss with batch hard. Domain adaptation is done by using pseudo-labels generated using an unsupervised learning strategy. Our results show that domain adaptation techniques really improve the performance of the CNN when applied in the target domain.
翻訳日:2021-07-01 15:34:58 公開日:2021-06-29
# 窓の外を見る:高分解能リモートセンシング画像の意味セグメンテーションのための広帯域トランスフォーマー

Looking Outside the Window: Wider-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2106.15754v1 )

ライセンス: Link先を確認
Lei Ding, Dong Lin, Shaofu Lin, Jing Zhang, Xiaojie Cui, Yuebin Wang, Hao Tang and Lorenzo Bruzzone(参考訳) 高解像度(HR)リモートセンシング画像(RSI)のセマンティックセグメンテーションには,長距離コンテキスト情報が不可欠である。 ニューラルネットワークのトレーニングに一般的に使用される画像トリッピング操作は、大規模rsisにおける長距離コンテキスト情報の知覚を制限する。 この制限を破るために、HR RSIのセマンティックセグメンテーションのためのワイド・コンテキスト・ネットワーク(WiCNet)を提案する。 wicnetでは、ローカル情報を集約する従来の特徴抽出ネットワークとは別に、より大きな画像領域でコンテキスト情報を明示的にモデル化する追加コンテキストブランチが設計されている。 2つの分岐間の情報は、視野変換器から派生した新しい設計であるコンテキスト変換器を介して伝達され、長距離コンテキスト相関をモデル化する。 いくつかのベンチマークデータセットで行ったアブレーション研究と比較実験により,提案手法の有効性が証明された。 さらに,新しい北京土地利用データセット(blu)を提案する。 これは、高品質できめ細かいレファレンスラベルを備えた大規模なHR衛星データセットであり、この分野での今後の研究を促進することを願っている。

Long-range context information is crucial for the semantic segmentation of High-Resolution (HR) Remote Sensing Images (RSIs). The image cropping operations, commonly used for training neural networks, limit the perception of long-range context information in large RSIs. To break this limitation, we propose a Wider-Context Network (WiCNet) for the semantic segmentation of HR RSIs. In the WiCNet, apart from a conventional feature extraction network to aggregate the local information, an extra context branch is designed to explicitly model the context information in a larger image area. The information between the two branches is communicated through a Context Transformer, which is a novel design derived from the Vision Transformer to model the long-range context correlations. Ablation studies and comparative experiments conducted on several benchmark datasets prove the effectiveness of the proposed method. Additionally, we present a new Beijing Land-Use (BLU) dataset. This is a large-scale HR satellite dataset provided with high-quality and fine-grained reference labels, which we hope will boost future studies in this field.
翻訳日:2021-07-01 15:34:41 公開日:2021-06-29
# 変分オートエンコーダにおける拡散優先

Diffusion Priors In Variational Autoencoders ( http://arxiv.org/abs/2106.15671v1 )

ライセンス: Link先を確認
Antoine Wehenkel and Gilles Louppe(参考訳) 深部生成モデルのための可能性に基づくアプローチの中で、変分オートエンコーダ(VAE)はスケーラブルなアモータイズ後部推論と高速サンプリングを提供する。 しかしながら、VAEは、フローの正規化(NFs)やディープエネルギーモデル、新しい拡散確率モデル(DDPMs)といった競合モデルにより、ますます性能が向上している。 本予備研究では,潜在変数の事前分布をモデル化するためにddpmsをどのように利用できるかを示すことにより,vaesを改善する。 拡散先行モデルは古典的VAEのガウス先行よりも改善され、NFベースの先行と競合する。 最後に、階層型VAEも同様に拡散前の能力の増強から得られると仮定する。

Among likelihood-based approaches for deep generative modelling, variational autoencoders (VAEs) offer scalable amortized posterior inference and fast sampling. However, VAEs are also more and more outperformed by competing models such as normalizing flows (NFs), deep-energy models, or the new denoising diffusion probabilistic models (DDPMs). In this preliminary work, we improve VAEs by demonstrating how DDPMs can be used for modelling the prior distribution of the latent variables. The diffusion prior model improves upon Gaussian priors of classical VAEs and is competitive with NF-based priors. Finally, we hypothesize that hierarchical VAEs could similarly benefit from the enhanced capacity of diffusion priors.
翻訳日:2021-07-01 15:27:22 公開日:2021-06-29
# 自己学習アンサンブルを用いたラベルなしデータの誤り検出と推定精度

Detecting Errors and Estimating Accuracy on Unlabeled Data with Self-training Ensembles ( http://arxiv.org/abs/2106.15728v1 )

ライセンス: Link先を確認
Jiefeng Chen, Frederick Liu, Besim Avci, Xi Wu, Yingyu Liang, Somesh Jha(参考訳) ディープラーニングモデルがワイルドにデプロイされると、トレーニングデータ分布とは異なる分布から引き出されたテストデータに遭遇し、パフォーマンスが低下する可能性がある。 安全なデプロイメントには,事前トレーニングしたモデルの精度をテストデータ上で推定することが不可欠である。 しかし、テスト入力のラベルは通常、すぐには利用できず、それらを取得するには費用がかかる可能性がある。 本研究は,(1) ラベル付きテスト入力のセット上で事前学習した分類器の精度を推定することを目的とした教師なしの精度推定,(2) 誤分類テスト入力の同定を目的とした誤り検出の2つの課題を実現する。 本稿では,2つのタスクを同時に処理する原理的かつ効果的なフレームワークを提案する。 提案手法は,誤分類されたデータポイントを識別するためのモデルのアンサンブルを反復的に学習し,同定されたポイントとのアンサンブルを改善するために自己学習を行う。 理論解析により,本フレームワークは,実用的なディープラーニングモデルによって容易に満足できる軽度条件下での精度推定と誤り検出の両立を保証できる。 このフレームワークとともに,59のタスクに対して2つのインスタンス化を提案し,実験を行った。 例えば、iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを既存の方法と比較して少なくとも4.7%改善する。

When a deep learning model is deployed in the wild, it can encounter test data drawn from distributions different from the training data distribution and suffer drop in performance. For safe deployment, it is essential to estimate the accuracy of the pre-trained model on the test data. However, the labels for the test inputs are usually not immediately available in practice, and obtaining them can be expensive. This observation leads to two challenging tasks: (1) unsupervised accuracy estimation, which aims to estimate the accuracy of a pre-trained classifier on a set of unlabeled test inputs; (2) error detection, which aims to identify mis-classified test inputs. In this paper, we propose a principled and practically effective framework that simultaneously addresses the two tasks. The proposed framework iteratively learns an ensemble of models to identify mis-classified data points and performs self-training to improve the ensemble with the identified points. Theoretical analysis demonstrates that our framework enjoys provable guarantees for both accuracy estimation and error detection under mild conditions readily satisfied by practical deep learning models. Along with the framework, we proposed and experimented with two instantiations and achieved state-of-the-art results on 59 tasks. For example, on iWildCam, one instantiation reduces the estimation error for unsupervised accuracy estimation by at least 70% and improves the F1 score for error detection by at least 4.7% compared to existing methods.
翻訳日:2021-07-01 15:27:10 公開日:2021-06-29
# 形状制限型一般化加法的cox回帰モデルに対するアクティブセットアルゴリズムに基づく統計的推論

Active-set algorithms based statistical inference for shape-restricted generalized additive Cox regression models ( http://arxiv.org/abs/2106.15735v1 )

ライセンス: Link先を確認
Geng Deng, Guangning Xu, Qiang Fu, Xindong Wang and Jing Qin(参考訳) 近年、回帰分析における線形あるいは二次的共変量効果を緩和するために、形状制限推論が統計学や計量学の文献で人気を集めている。 典型的な形状制限された共変量効果は、単調な増大、減少、凸性または凹凸性を含む。 本稿では,共変量応答を形状制限付加関数としてモデル化した,有名なコックス回帰モデル(SR-Cox)に形状制限推論を導入する。 sr-cox回帰は、データ駆動の結び目選択を伴うスプライン基底展開を用いて、形状制限関数を近似する。 負のlog-likelihood関数の最小化を凸最適化問題として定式化し、アクティブセット最適化アルゴリズムを用いて解く。 このアルゴリズムのハイライトは、余分な結び目を自動的に取り除くことである。 共変量効果が凸あるいは凸項と未知の形式と線型項の組み合わせを含む場合、最も興味深い発見は、sr-cox が最大部分的確率推定に匹敵する正確な線形共変量効果推定を生成することである。 凸または凸sr-coxモデルが非線形共変応答の回復と適合のモデル良さを大幅に改善できると結論づけた。

Recently the shape-restricted inference has gained popularity in statistical and econometric literature in order to relax the linear or quadratic covariate effect in regression analyses. The typical shape-restricted covariate effect includes monotonic increasing, decreasing, convexity or concavity. In this paper, we introduce the shape-restricted inference to the celebrated Cox regression model (SR-Cox), in which the covariate response is modeled as shape-restricted additive functions. The SR-Cox regression approximates the shape-restricted functions using a spline basis expansion with data driven choice of knots. The underlying minimization of negative log-likelihood function is formulated as a convex optimization problem, which is solved with an active-set optimization algorithm. The highlight of this algorithm is that it eliminates the superfluous knots automatically. When covariate effects include combinations of convex or concave terms with unknown forms and linear terms, the most interesting finding is that SR-Cox produces accurate linear covariate effect estimates which are comparable to the maximum partial likelihood estimates if indeed the forms are known. We conclude that concave or convex SR-Cox models could significantly improve nonlinear covariate response recovery and model goodness of fit.
翻訳日:2021-07-01 15:24:06 公開日:2021-06-29
# アクティブセマンティックゴールナビゲーションのためのマップ作成学習

Learning to Map for Active Semantic Goal Navigation ( http://arxiv.org/abs/2106.15648v1 )

ライセンス: Link先を確認
Georgios Georgakis, Bernadette Bucher, Karl Schmeckpeper, Siddharth Singh, Kostas Daniilidis(参考訳) 未確認環境におけるオブジェクトゴールナビゲーションの問題点を考察する。 この問題を解決するには,室内環境の空間的・意味的変動を考慮した,文脈的意味的優先順位の学習が不可欠である。 現在の方法は、エージェントの可観測領域に限定された空間表現で動作する目標指向のナビゲーションポリシー機能を通じて、これらの優先順位を暗黙的にエンコードすることを学ぶ。 本研究では,エージェントの視野外の意味マップ生成を積極的に学習し,観察されていない領域における意味クラスに対する不確実性を活用し,長期的目標を決定する新しい枠組みを提案する。 この空間予測戦略により,未知環境において活用可能なシーンにおける意味的優先順位を学習できることを実証する。 さらに,セマンティックターゲットの探索において,探索と搾取のバランスをとることで,異なる目的が定義できることを示す。 本手法はmatterport3dデータセットによって提供される視覚的な実環境において検証され,オブジェクトゴールナビゲーションタスクにおける技術結果を示す。

We consider the problem of object goal navigation in unseen environments. In our view, solving this problem requires learning of contextual semantic priors, a challenging endeavour given the spatial and semantic variability of indoor environments. Current methods learn to implicitly encode these priors through goal-oriented navigation policy functions operating on spatial representations that are limited to the agent's observable areas. In this work, we propose a novel framework that actively learns to generate semantic maps outside the field of view of the agent and leverages the uncertainty over the semantic classes in the unobserved areas to decide on long term goals. We demonstrate that through this spatial prediction strategy, we are able to learn semantic priors in scenes that can be leveraged in unknown environments. Additionally, we show how different objectives can be defined by balancing exploration with exploitation during searching for semantic targets. Our method is validated in the visually realistic environments offered by the Matterport3D dataset and show state of the art results on the object goal navigation task.
翻訳日:2021-07-01 15:23:44 公開日:2021-06-29
# RCNN-SliceNet:3次元蛍光顕微鏡画像における核セントロイド検出のためのスライスとクラスターアプローチ

RCNN-SliceNet: A Slice and Cluster Approach for Nuclei Centroid Detection in Three-Dimensional Fluorescence Microscopy Images ( http://arxiv.org/abs/2106.15753v1 )

ライセンス: Link先を確認
Liming Wu, Shuo Han, Alain Chen, Paul Salama, Kenneth W. Dunn, Edward J. Delp(参考訳) 蛍光顕微鏡画像の生物学的構造を理解するには,ロバストで正確な中心核検出が重要である。 既存の自動核局在法では,(1)オブジェクト検出法の多くが2次元画像上でのみ動作し,3次元ボリュームへの拡張が難しい,(2)セグメンテーションベースモデルが3dボリュームで使用できるが,大きな顕微鏡ボリュームでは計算コストが高く,異なる物体のインスタンスを識別するのが困難である,(3)3次元顕微鏡ボリュームではハンドアノテートグラウンド真理が制限されている,の3つの課題がある。 これらの問題に対処するため,我々は3次元顕微鏡ボリュームの核遠心検出のためのスケーラブルな手法を提案する。 本稿では, RCNN-SliceNetを用いて, 体積のスライス毎に異なる方向から2次元核セントロイドを検出し, 体積中の3次元核セントロイドを推定するために3次元凝集階層クラスタリング(AHC)を用いる。 このモデルは、空間的に制約された周期整合な逆向きネットワーク(spcyclegan)を用いて生成された合成顕微鏡データを用いて訓練され、異なる種類の実3次元顕微鏡データでテストされた。 広範な実験結果から,提案手法は3次元顕微鏡で高精度に核中心核を計数し検出できることが判明した。

Robust and accurate nuclei centroid detection is important for the understanding of biological structures in fluorescence microscopy images. Existing automated nuclei localization methods face three main challenges: (1) Most of object detection methods work only on 2D images and are difficult to extend to 3D volumes; (2) Segmentation-based models can be used on 3D volumes but it is computational expensive for large microscopy volumes and they have difficulty distinguishing different instances of objects; (3) Hand annotated ground truth is limited for 3D microscopy volumes. To address these issues, we present a scalable approach for nuclei centroid detection of 3D microscopy volumes. We describe the RCNN-SliceNet to detect 2D nuclei centroids for each slice of the volume from different directions and 3D agglomerative hierarchical clustering (AHC) is used to estimate the 3D centroids of nuclei in a volume. The model was trained with the synthetic microscopy data generated using Spatially Constrained Cycle-Consistent Adversarial Networks (SpCycleGAN) and tested on different types of real 3D microscopy data. Extensive experimental results demonstrate that our proposed method can accurately count and detect the nuclei centroids in a 3D microscopy volume.
翻訳日:2021-07-01 15:23:27 公開日:2021-06-29
# クラスターランダム化試験におけるバイアス低減と効率向上のための2段階tmle

Two-Stage TMLE to Reduce Bias and Improve Efficiency in Cluster Randomized Trials ( http://arxiv.org/abs/2106.15737v1 )

ライセンス: Link先を確認
Laura B. Balzer, Mark van der Laan, James Ayieko, Moses Kamya, Gabriel Chamie, Joshua Schwab, Diane V. Havlir, Maya L. Petersen(参考訳) クラスタランダム化トライアル(CRT)は、ランダムに個人グループ(クリニックやコミュニティなど)への介入を割り当て、それらのグループ内の個人に対する結果を測定する。 多くの利点を提供する一方で、この実験的な設計は、既存の分析的アプローチによってのみ部分的に対処される課題をもたらす。 第一に、成果はしばしばクラスタ内の一部の個人に欠落している。 差分結果の測定に適切に調整できないと、偏りのある推定と推測が生じる。 第2に、crtはしばしば限られた数のクラスタをランダム化し、アーム間のベースライン結果予測器に不均衡をもたらす。 これらの不均衡やその他の予測的共変量に適応的に調整できないと、効率が低下する。 これらの方法論的ギャップに対処するために, 2段階の最小損失ベース推定器 (TMLE) を提案し, 欠落した結果のベースラインおよびポストベースラインの原因を制御した後の精度を最適化する。 有限サンプルシミュレーションは、差動結果測定によるバイアスをほぼ排除できることを示したが、他の一般的なcrt推定器は誤解を招く結果と推論をもたらす。 SEARCHコミュニティのランダム化試験による実データへの適用は、個々のレベルの結果の欠如を制御した後、クラスタレベルの共変量への適応調整によって得られる効率の向上を示す。

Cluster randomized trials (CRTs) randomly assign an intervention to groups of individuals (e.g., clinics or communities), and measure outcomes on individuals in those groups. While offering many advantages, this experimental design introduces challenges that are only partially addressed by existing analytic approaches. First, outcomes are often missing for some individuals within clusters. Failing to appropriately adjust for differential outcome measurement can result in biased estimates and inference. Second, CRTs often randomize limited numbers of clusters, resulting in chance imbalances on baseline outcome predictors between arms. Failing to adaptively adjust for these imbalances and other predictive covariates can result in efficiency losses. To address these methodological gaps, we propose and evaluate a novel two-stage targeted minimum loss-based estimator (TMLE) to adjust for baseline covariates in a manner that optimizes precision, after controlling for baseline and post-baseline causes of missing outcomes. Finite sample simulations illustrate that our approach can nearly eliminate bias due to differential outcome measurement, while other common CRT estimators yield misleading results and inferences. Application to real data from the SEARCH community randomized trial demonstrates the gains in efficiency afforded through adaptive adjustment for cluster-level covariates, after controlling for missingness on individual-level outcomes.
翻訳日:2021-07-01 15:21:28 公開日:2021-06-29
# ニューラルテキスト音声合成のためのマルチスケールスペクトログラムモデリング

Multi-Scale Spectrogram Modelling for Neural Text-to-Speech ( http://arxiv.org/abs/2106.15649v1 )

ライセンス: Link先を確認
Ammar Abbas, Bajibabu Bollepalli, Alexis Moinet, Arnaud Joly, Penny Karanasou, Peter Makarov, Simon Slangens, Sri Karlapati, Thomas Drugman(参考訳) 本稿では, 音声合成のためのマルチスケール・スペクトログラム(MSS)モデリング手法を提案する。 そこで本研究では,まず,音声における超微視的情報を取り込む粗視的メルスペクトログラムを予測し,その後,この粗視的メルスペクトログラムを用いて細視的メルスペクトログラムを推定する汎用的マルチスケール・スペクトログラム予測機構を提案する。 本稿では,言語単位をベースとした2種類のMSS(Word-level MSS)とSentence-level MSS(Sentence-level MSS)について述べる。 WordレベルMSSはワード、音素、フレームレベルスペクトログラムを、SentenceレベルMSSは文レベルスペクトログラムをモデル化する。 主観評価の結果,単語レベルのMSSは2声のベースラインに比べて統計的に有意に優れていた。

We propose a novel Multi-Scale Spectrogram (MSS) modelling approach to synthesise speech with an improved coarse and fine-grained prosody. We present a generic multi-scale spectrogram prediction mechanism where the system first predicts coarser scale mel-spectrograms that capture the suprasegmental information in speech, and later uses these coarser scale mel-spectrograms to predict finer scale mel-spectrograms capturing fine-grained prosody. We present details for two specific versions of MSS called Word-level MSS and Sentence-level MSS where the scales in our system are motivated by the linguistic units. The Word-level MSS models word, phoneme, and frame-level spectrograms while Sentence-level MSS models sentence-level spectrogram in addition. Subjective evaluations show that Word-level MSS performs statistically significantly better compared to the baseline on two voices.
翻訳日:2021-07-01 15:16:58 公開日:2021-06-29
# uavによる多層ネットワーク上でのオンライン機械学習 - 階層型ネスト型フェデレート学習アプローチ

UAV-assisted Online Machine Learning over Multi-Tiered Networks: A Hierarchical Nested Personalized Federated Learning Approach ( http://arxiv.org/abs/2106.15734v1 )

ライセンス: Link先を確認
Su Wang, Seyyedali Hosseinalipour, Maria Gorlatova, Christopher G. Brinton, Mung Chiang(参考訳) 地理的分散デバイスクラスタのための無人航空機(UAV)による分散機械学習(ML)を検討する。 We propose five new technologies/techniq ues: (i) stratified UAV swarms with leader, worker, and coordinator UAVs, (ii) hierarchical nested personalized federated learning (HN-PFL): a holistic distributed ML framework for personalized model training across the worker-leader-core network hierarchy, (iii) cooperative UAV resource pooling for distributed ML using the UAVs' local computational capabilities, (iv) aerial data caching and relaying for efficient data relaying to conduct ML, and (v) concept/model drift, capturing online data variations at the devices. 我々はUAV対応モデルの訓練問題を2つに分けた。 (a)ネットワーク対応HN-PFLでは,デバイス-UAVとUAV-UAV間のデータオフロード,UAVのCPU周波数,通信/計算ネットワークの不均一性を考慮したミニバッチサイズの設定により,エネルギー消費とMLモデル性能のトレードオフを最適化する。 本稿では,ポジノミカル凝縮法を用いてこの問題に対処し,性能保証付き分散アルゴリズムを提案する。 b) 逐次決定問題として定式化されるマクロ軌道と学習期間の設計は, 深層強化学習によって取り組まれている。 シミュレーションでは,分散ml性能,ネットワーク資源の最適化,スウォーム軌道効率に関して,提案手法が優れていることを示す。

We consider distributed machine learning (ML) through unmanned aerial vehicles (UAVs) for geo-distributed device clusters. We propose five new technologies/techniq ues: (i) stratified UAV swarms with leader, worker, and coordinator UAVs, (ii) hierarchical nested personalized federated learning (HN-PFL): a holistic distributed ML framework for personalized model training across the worker-leader-core network hierarchy, (iii) cooperative UAV resource pooling for distributed ML using the UAVs' local computational capabilities, (iv) aerial data caching and relaying for efficient data relaying to conduct ML, and (v) concept/model drift, capturing online data variations at the devices. We split the UAV-enabled model training problem as two parts. (a) Network-aware HN-PFL, where we optimize a tradeoff between energy consumption and ML model performance by configuring data offloading among devices-UAVs and UAV-UAVs, UAVs' CPU frequencies, and mini-batch sizes subject to communication/comput ation network heterogeneity. We tackle this optimization problem via the method of posynomial condensation and propose a distributed algorithm with a performance guarantee. (b) Macro-trajectory and learning duration design, which we formulate as a sequential decision making problem, tackled via deep reinforcement learning. Our simulations demonstrate the superiority of our methodology with regards to the distributed ML performance, the optimization of network resources, and the swarm trajectory efficiency.
翻訳日:2021-07-01 15:16:40 公開日:2021-06-29
# Dual GNN: 限定スーパービジョンによるグラフニューラルネットワーク学習

Dual GNNs: Graph Neural Network Learning with Limited Supervision ( http://arxiv.org/abs/2106.15755v1 )

ライセンス: Link先を確認
Abdullah Alchihabi, Yuhong Guo(参考訳) グラフニューラルネットワーク(GNN)は、半教師付きノード分類タスクにおいて優れた性能を得るために、比較的多数のラベル付きノードと信頼性と不正確なグラフ接続構造を必要とする。 gnnの性能は、ラベル付きノード数の減少や、逆攻撃やデータ測定/コレクションのノイズによってグラフ接続構造が損なわれるため、大幅に低下する可能性がある。 したがって、少数のラベル付きノードとノイズの多いグラフ構造を含む、監督知識が限られている場合に優れたパフォーマンスを達成できるGNNモデルを開発することが重要である。 本稿では,この課題に対処するための新しいDual GNN学習フレームワークを提案する。 提案フレームワークには2つのGNNベースのノード予測モジュールがある。 一次モジュールは入力グラフ構造を用いて正規ノードの埋め込みと予測を通常のGNNベースラインで誘導し、補助モジュールは微細なスペクトルクラスタリングによって新しいグラフ構造を構築し、新しいノードの埋め込みと予測を学ぶ。 2つのモジュールを2つのGNN学習フレームワークに統合することにより、エンドツーエンドで共同学習を行う。 この一般的なフレームワークは多くのGNNベースラインモデルに適用できる。 実験により,ラベル付きノードが不足し,グラフ接続構造がノイズの多い場合,提案したデュアルGNNフレームワークがGNNのベースライン手法を大幅に上回ることを示す。

Graph Neural Networks (GNNs) require a relatively large number of labeled nodes and a reliable/uncorrupted graph connectivity structure in order to obtain good performance on the semi-supervised node classification task. The performance of GNNs can degrade significantly as the number of labeled nodes decreases or the graph connectivity structure is corrupted by adversarial attacks or due to noises in data measurement /collection. Therefore, it is important to develop GNN models that are able to achieve good performance when there is limited supervision knowledge -- a few labeled nodes and noisy graph structures. In this paper, we propose a novel Dual GNN learning framework to address this challenge task. The proposed framework has two GNN based node prediction modules. The primary module uses the input graph structure to induce regular node embeddings and predictions with a regular GNN baseline, while the auxiliary module constructs a new graph structure through fine-grained spectral clusterings and learns new node embeddings and predictions. By integrating the two modules in a dual GNN learning framework, we perform joint learning in an end-to-end fashion. This general framework can be applied on many GNN baseline models. The experimental results validate that the proposed dual GNN framework can greatly outperform the GNN baseline methods when the labeled nodes are scarce and the graph connectivity structure is noisy.
翻訳日:2021-07-01 12:38:23 公開日:2021-06-29
# バッチ正規化と重み崩壊を伴うニューラルネットワークトレーニングの周期的挙動について

On the Periodic Behavior of Neural Network Training with Batch Normalization and Weight Decay ( http://arxiv.org/abs/2106.15739v1 )

ライセンス: Link先を確認
Ekaterina Lobacheva, Maxim Kodryan, Nadezhda Chirkova, Andrey Malinin, Dmitry Vetrov(参考訳) 減量によるバッチ正規化はニューラルネットワークのトレーニングを改善する可能性があるという従来の認識にもかかわらず、最近の研究では、トレーニング後期に関節使用が不安定になる可能性がある。 対照的に他の研究は、均衡、すなわちトレーニングメトリクスの安定化への収束を示している。 本稿では,この矛盾を考察し,安定平衡に収束する代わりに,トレーニングダイナミクスが一貫した周期的挙動に収束することを示す。 つまり、トレーニングプロセスは、しかしながら、完全なトレーニング失敗につながるのではなく、新しいトレーニング期間を引き起こす不安定さを定期的に示します。 本研究では, この周期的挙動のメカニズムを経験的, 理論的両面から厳密に検討し, この周期的挙動がバッチ正規化と重崩壊の相互作用によって引き起こされることを示す。

Despite the conventional wisdom that using batch normalization with weight decay may improve neural network training, some recent works show their joint usage may cause instabilities at the late stages of training. Other works, in contrast, show convergence to the equilibrium, i.e., the stabilization of training metrics. In this paper, we study this contradiction and show that instead of converging to a stable equilibrium, the training dynamics converge to consistent periodic behavior. That is, the training process regularly exhibits instabilities which, however, do not lead to complete training failure, but cause a new period of training. We rigorously investigate the mechanism underlying this discovered periodic behavior both from an empirical and theoretical point of view and show that this periodic behavior is indeed caused by the interaction between batch normalization and weight decay.
翻訳日:2021-07-01 12:36:20 公開日:2021-06-29
# 選択学習のための指数重みアルゴリズム

Exponential Weights Algorithms for Selective Learning ( http://arxiv.org/abs/2106.15662v1 )

ライセンス: Link先を確認
Mingda Qiao, Gregory Valiant(参考訳) Qiao と Valiant が導入した選択学習問題 (2019) について検討し, 学習者はラベル付きデータポイントを1度に1ドルずつ観察する。 選択した時点で、学習者は、モデルクラス $\mathcal{l}$ からウィンドウ長 $w$ とモデル $\hat\ell$ を選択し、次の$w$ データポイントを $\hat\ell$ でラベル付けする。 学習者が引き起こす余剰リスクは、これらの$w$データポイントに対する$\hat\ell$の平均損失と、これらの$w$データポイントに対する$\mathcal{L}$における全てのモデルにおける最小の平均損失との差として定義される。 ハイブリッド指数重みアルゴリズム (hybrid exponential weights algorithm) と呼ばれる改良アルゴリズムは、$o((\log\log|\mathcal{l}| + \log\log n)/\log n)$ の余剰リスクを達成する。 この結果は、最もよく知られた$O(\sqrt{|\mathcal{L}|/\log n})$に対する$|\mathcal{L}|$への依存を2倍指数的に改善する。 正の結果をほぼ一致する下限で補うため、アルゴリズムの最悪の最適性が示唆される。 また,長さ$w$の予測ウィンドウが選択された場合,学習者の判断は最新の$w$データポイントにのみ依存するという意味で,より限定的な学習アルゴリズムについても検討した。 我々は,Qiao and Valiant (2019)におけるERMアルゴリズムの指数重み変量解析を行った。 この新しいアルゴリズムは、期待過剰なリスクである$O(\sqrt{\log |\mathcal{L}|/\log n})$を達成し、すべての有界リコール学習者の間でほぼ最適であることが示されている。 我々の分析は、Drucker (2013), Qiao and Valiant (2019) における選択平均予測問題の一般化版に基づく。

We study the selective learning problem introduced by Qiao and Valiant (2019), in which the learner observes $n$ labeled data points one at a time. At a time of its choosing, the learner selects a window length $w$ and a model $\hat\ell$ from the model class $\mathcal{L}$, and then labels the next $w$ data points using $\hat\ell$. The excess risk incurred by the learner is defined as the difference between the average loss of $\hat\ell$ over those $w$ data points and the smallest possible average loss among all models in $\mathcal{L}$ over those $w$ data points. We give an improved algorithm, termed the hybrid exponential weights algorithm, that achieves an expected excess risk of $O((\log\log|\mathcal{L}| + \log\log n)/\log n)$. This result gives a doubly exponential improvement in the dependence on $|\mathcal{L}|$ over the best known bound of $O(\sqrt{|\mathcal{L}|/\log n})$. We complement the positive result with an almost matching lower bound, which suggests the worst-case optimality of the algorithm. We also study a more restrictive family of learning algorithms that are bounded-recall in the sense that when a prediction window of length $w$ is chosen, the learner's decision only depends on the most recent $w$ data points. We analyze an exponential weights variant of the ERM algorithm in Qiao and Valiant (2019). This new algorithm achieves an expected excess risk of $O(\sqrt{\log |\mathcal{L}|/\log n})$, which is shown to be nearly optimal among all bounded-recall learners. Our analysis builds on a generalized version of the selective mean prediction problem in Drucker (2013); Qiao and Valiant (2019), which may be of independent interest.
翻訳日:2021-07-01 12:33:38 公開日:2021-06-29
# 確率的グラフィカルモデルとテンソルネットワーク:ハイブリッドフレームワーク

Probabilistic Graphical Models and Tensor Networks: A Hybrid Framework ( http://arxiv.org/abs/2106.15666v1 )

ライセンス: Link先を確認
Jacob Miller and Geoffrey Roeder and Tai-Danae Bradley(参考訳) 本稿では,確率的グラフィカルモデル (PGM) とテンソルネットワーク (TN) という,複雑な量子系をシミュレーションする強力なモデリングフレームワークの2つの形式間の対応について検討する。 PGMとTNのグラフィカル計算には多くの類似点があり、離散的無方向性グラフィカルモデル(UGM)はTNの特殊な場合である。 しかし、ボルン機械(BM)のようなより一般的な確率的TNモデルでは、確率間の新しい相関形式を生成するために複素数値隠れ状態を用いる。 離散確率分布の構造を捉えるための新しいモデリングリソースを表す一方で、この振る舞いは標準 pgm ツールの直接適用を不可能にする。 このギャップを、物理的に動機づけられたデコヒーレンスの概念を用いて、量子的な相関関係を原理的にPGMモデルに統合するハイブリッドPGM-TN形式を導入することで埋めることを目指している。 まず、BMモデルの全体に対してデコヒーレンスを適用すると、それを離散的 UGM に変換し、逆に離散的 UGM の任意の部分グラフをデコヒーレンスBM として表現できることを示す。 この方法では、確率的tnモデルの幅広いファミリーを部分的に分離されたbmsとして符号化することができる。 我々は,これらのハイブリッドモデルの性能を逐次モデリングタスクで実験的に検証し,既存のグラフィカルモデルのアプリケーションにおける有望な利用法を明らかにする。

We investigate a correspondence between two formalisms for discrete probabilistic modeling: probabilistic graphical models (PGMs) and tensor networks (TNs), a powerful modeling framework for simulating complex quantum systems. The graphical calculus of PGMs and TNs exhibits many similarities, with discrete undirected graphical models (UGMs) being a special case of TNs. However, more general probabilistic TN models such as Born machines (BMs) employ complex-valued hidden states to produce novel forms of correlation among the probabilities. While representing a new modeling resource for capturing structure in discrete probability distributions, this behavior also renders the direct application of standard PGM tools impossible. We aim to bridge this gap by introducing a hybrid PGM-TN formalism that integrates quantum-like correlations into PGM models in a principled manner, using the physically-motivated concept of decoherence. We first prove that applying decoherence to the entirety of a BM model converts it into a discrete UGM, and conversely, that any subgraph of a discrete UGM can be represented as a decohered BM. This method allows a broad family of probabilistic TN models to be encoded as partially decohered BMs, a fact we leverage to combine the representational strengths of both model families. We experimentally verify the performance of such hybrid models in a sequential modeling task, and identify promising uses of our method within the context of existing applications of graphical models.
翻訳日:2021-07-01 12:33:00 公開日:2021-06-29
# (参考訳) Ladder Polynomial Neural Networks [全文訳有]

Ladder Polynomial Neural Networks ( http://arxiv.org/abs/2106.13834v2 )

ライセンス: CC BY-SA 4.0
Li-Ping Liu, Ruiyuan Gu, Xiaozhe Hu(参考訳) 多項式関数は有用な解析的性質を多数持っているが、それらの関数クラスは制限されていると考えられるため、学習モデルとして使われることは滅多にない。 この研究は、適切な多項式関数を訓練すると強い学習モデルになることを示す。 特にこの研究は、乗法から構築した新しい活性化関数である積活性化を用いて多項式フィードフォワードニューラルネットワークを構築する。 新しいニューラルネットワークは多項式関数であり、多項式の順序を正確に制御する。 バッチ正規化やドロップアウトといった標準的なトレーニングテクニックでトレーニングすることができる。 この新しいfeedforwardネットワークは、いくつかの以前の多項式モデルを特別なケースとしてカバーする。 一般的なフィードフォワードニューラルネットワークと比較して、多項式フィードフォワードネットワークはいくつかの興味深い量のクローズドフォーム計算を持ち、ベイズ学習において非常に有用である。 経験的研究における回帰と分類の一連のタスクにおいて、提案モデルは以前の多項式モデルよりも優れている。

Polynomial functions have plenty of useful analytical properties, but they are rarely used as learning models because their function class is considered to be restricted. This work shows that when trained properly polynomial functions can be strong learning models. Particularly this work constructs polynomial feedforward neural networks using the product activation, a new activation function constructed from multiplications. The new neural network is a polynomial function and provides accurate control of its polynomial order. It can be trained by standard training techniques such as batch normalization and dropout. This new feedforward network covers several previous polynomial models as special cases. Compared with common feedforward neural networks, the polynomial feedforward network has closed-form calculations of a few interesting quantities, which are very useful in Bayesian learning. In a series of regression and classification tasks in the empirical study, the proposed model outperforms previous polynomial models.
翻訳日:2021-07-01 11:36:22 公開日:2021-06-29
# (参考訳) EVPropNet:空中着陸と追尾のためのプロペラを見つける [全文訳有]

EVPropNet: Detecting Drones By Finding Propellers For Mid-Air Landing And Following ( http://arxiv.org/abs/2106.15045v1 )

ライセンス: CC BY 4.0
Nitin J. Sanket, Chahat Deep Singh, Chethan M. Parameshwara, Cornelia Ferm\"uller, Guido C.H.E. de Croon, Yiannis Aloimonos(参考訳) 無人航空機やドローンのアクセシビリティの急速な上昇は、一般的なセキュリティと機密性に脅威をもたらす。 市販またはカスタムメイドのドローンのほとんどはマルチローターであり、複数のプロペラで構成されている。 これらのプロペラは高速回転するので、一般的には画像の最も速い可動部であり、重度の動きのぼやけのない古典的カメラでは直接「固定」できない。 我々は,高時間分解能,低レイテンシ,高ダイナミックレンジを有するイベントカメラと呼ばれるシナリオに適したセンサ群を利用する。 本稿では,プロペラの形状をモデル化し,イベントカメラのデータからプロペラを検出するためにevpropnetと呼ばれる深層ニューラルネットワークを訓練するために使用されるシミュレーションイベントを生成する。 EVPropNetは、微調整やリトレーニングなしに、現実世界に直接転送する。 当社のネットワークには, (a) 目印のないドローンの追跡と追跡, (b) ニアフーバードローンへの着陸という2つの応用例がある。 プロペラ形状と大きさの異なる実世界実験において,提案手法を評価し,実証した。 我々のネットワークは、プロペラの60%を遮断しても85.1%の速度でプロペラを検出でき、2Wの電力予算で35Hzまで動作させることができる。 私たちの知る限り、これは(ドローンを検出するために)プロペラを検出する最初のディープラーニングベースのソリューションです。 最後に,追跡作業と着陸作業のそれぞれが92%,90%という印象的な成功率を示した。

The rapid rise of accessibility of unmanned aerial vehicles or drones pose a threat to general security and confidentiality. Most of the commercially available or custom-built drones are multi-rotors and are comprised of multiple propellers. Since these propellers rotate at a high-speed, they are generally the fastest moving parts of an image and cannot be directly "seen" by a classical camera without severe motion blur. We utilize a class of sensors that are particularly suitable for such scenarios called event cameras, which have a high temporal resolution, low-latency, and high dynamic range. In this paper, we model the geometry of a propeller and use it to generate simulated events which are used to train a deep neural network called EVPropNet to detect propellers from the data of an event camera. EVPropNet directly transfers to the real world without any fine-tuning or retraining. We present two applications of our network: (a) tracking and following an unmarked drone and (b) landing on a near-hover drone. We successfully evaluate and demonstrate the proposed approach in many real-world experiments with different propeller shapes and sizes. Our network can detect propellers at a rate of 85.1% even when 60% of the propeller is occluded and can run at upto 35Hz on a 2W power budget. To our knowledge, this is the first deep learning-based solution for detecting propellers (to detect drones). Finally, our applications also show an impressive success rate of 92% and 90% for the tracking and landing tasks respectively.
翻訳日:2021-07-01 06:47:49 公開日:2021-06-29
# (参考訳) k-zsl: 知識駆動ゼロショット学習のためのリソース [全文訳有]

K-ZSL: Resources for Knowledge-driven Zero-shot Learning ( http://arxiv.org/abs/2106.15047v1 )

ライセンス: CC BY 4.0
Yuxia Geng, Jiaoyan Chen, Zhuo Chen, Jeff Z. Pan, Zonggang Yuan, Huajun Chen(参考訳) 外部知識(つまりサイド情報)はゼロショット学習(zsl)において重要な役割を果たす。 テキストや属性などの外部知識は広く研究されているが,不完全な意味論のみに限られている。 したがって、近年の研究では、知識の種類を表現するために、高い表現性と互換性のため、知識グラフ(KG)を使うことが提案されている。 しかし、ZSLコミュニティは、異なるKGベースのZSL手法の研究と比較のための標準ベンチマークにはまだ不足している。 本稿では,ゼロショット画像分類(ZS-IMGC)とゼロショットKG補完(ZS-KGC)において,KGに基づく5つのリソースを提案する。 各リソースに対して、関係知識から論理表現まで、テキストから属性まで、セマンティックスを含むベンチマークとKGをコントリビュートした。 我々は,zsl手法の性能と説明を評価する場合に,リソースがどのように構築されているか,統計とフォーマット,どのように活用できるかを明確に提示した。 リソースはhttps://github.com/C hina-UK-ZSL/Resource s_for_KZSLで利用可能です。

External knowledge (a.k.a side information) plays a critical role in zero-shot learning (ZSL) which aims to predict with unseen classes that have never appeared in training data. Several kinds of external knowledge such as text and attribute have been widely investigated, but they alone are limited with incomplete semantics. Therefore, some very recent studies propose to use Knowledge Graph (KG) due to its high expressivity and compatibility for representing kinds of knowledge. However, the ZSL community is still short of standard benchmarks for studying and comparing different KG-based ZSL methods. In this paper, we proposed 5 resources for KG-based research in zero-shot image classification (ZS-IMGC) and zero-shot KG completion (ZS-KGC). For each resource, we contributed a benchmark and its KG with semantics ranging from text to attributes, from relational knowledge to logical expressions. We have clearly presented how the resources are constructed, their statistics and formats, and how they can be utilized with cases in evaluating ZSL methods' performance and explanations. Our resources are available at https://github.com/C hina-UK-ZSL/Resource s_for_KZSL.
翻訳日:2021-07-01 06:29:50 公開日:2021-06-29
# (参考訳) FallDeF5: 5GベースのDeep Gated Recurrent Unit Networkを用いたフォール検出フレームワーク [全文訳有]

FallDeF5: A Fall Detection Framework Using 5G-based Deep Gated Recurrent Unit Networks ( http://arxiv.org/abs/2106.15049v1 )

ライセンス: CC BY 4.0
Mabrook S. Al-Rakhami, Abdu Gumaei1, Meteb Altaf, Mohammad Mehedi Hassan, Bader Fahad Alkhamees, Khan Muhammad and Giancarlo Fortino(参考訳) 高齢者の転倒率は高く、転倒による重篤な影響が原因で困難である。 これが迅速な支援が重要な課題である理由です。 環境支援生活(AAL)は、5Gネットワークや医療物のインターネット(IoMT)といった最近の技術を用いて、この研究領域に対処している。 エッジコンピューティングは、従来のヘルスケアサービスやアプリケーションをエンドユーザに近づけることで、高レイテンシや帯域幅使用を含むクラウド通信のコストを削減することができる。 ディープラーニング(DL)のような人工知能(AI)技術は、最近、自動転倒検出や医療サービスのサポートに使われている。 しかし、従来のエッジコンピューティング環境にリンクしたIoMTの性能を向上させるために、DLは膨大なデータと処理能力を必要としている。 本研究は、5G無線ネットワーク内におけるDLアルゴリズムと移動エッジコンピューティング(MEC)に基づく効果的な転倒検出フレームワークを提案する。 また,DGRU(Deep gated Recurrent Unit)ニューラルネットワークを用いて,既存のDLを用いた転倒検出手法の精度を向上させることを提案する。 DGRUは、時系列IoMTデータを扱う利点があり、パラメータの数を減らし、消滅する勾配問題を回避することができる。 2つの公開データセットに対する実験結果から,提案フレームワークのDGRUモデルが,同一データセット上の現在の関連する研究と比較して高い精度を達成することが示された。

Fall prevalence is high among elderly people, which is challenging due to the severe consequences of falling. This is why rapid assistance is a critical task. Ambient assisted living (AAL) uses recent technologies such as 5G networks and the internet of medical things (IoMT) to address this research area. Edge computing can reduce the cost of cloud communication, including high latency and bandwidth use, by moving conventional healthcare services and applications closer to end-users. Artificial intelligence (AI) techniques such as deep learning (DL) have been used recently for automatic fall detection, as well as supporting healthcare services. However, DL requires a vast amount of data and substantial processing power to improve its performance for the IoMT linked to the traditional edge computing environment. This research proposes an effective fall detection framework based on DL algorithms and mobile edge computing (MEC) within 5G wireless networks, the aim being to empower IoMT-based healthcare applications. We also propose the use of a deep gated recurrent unit (DGRU) neural network to improve the accuracy of existing DL-based fall detection methods. DGRU has the advantage of dealing with time-series IoMT data, and it can reduce the number of parameters and avoid the vanishing gradient problem. The experimental results on two public datasets show that the DGRU model of the proposed framework achieves higher accuracy rates compared to the current related works on the same datasets.
翻訳日:2021-07-01 06:08:36 公開日:2021-06-29
# (参考訳) 教師なし領域適応のためのクロスドメインエラー最小化 [全文訳有]

Cross-domain error minimization for unsupervised domain adaptation ( http://arxiv.org/abs/2106.15057v1 )

ライセンス: CC0 1.0
Yuntao Du, Yinghao Chen, Fengli Cui, Xiaowen Zhang, Chongjun Wang(参考訳) 教師なしのドメイン適応は、ラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としています。 従来の手法では,特徴分布間の相違を低減し,ソースエラーを最小限に抑え,顕著な進歩を遂げた。 しかし、最近提案された理論によれば、そのような戦略はドメイン適応の成功には不十分である。 これは、小さなソースエラーの他に、機能分布とラベリング関数間の不一致の両方がドメイン間で小さいことを示しています。 ラベル付け関数間の相違は、本質的に既存のメソッドで無視されるクロスドメインエラーである。 そこで本研究では,全ての目的を統一最適化フレームワークに統合する新しい手法を提案する。 さらに,従来の手法で広く用いられている誤りラベルは,学習中に誤りの蓄積につながる可能性がある。 この問題を解決するために、ソース分類器の他にターゲットドメインの構造情報を利用した擬似ラベルを得るとともに、トレーニング中により正確な擬似ラベルを用いてターゲットサンプルを選択するためのカリキュラム学習に基づく戦略を提案する。 総合実験を行い,本手法が最先端手法より優れていることを確認した。

Unsupervised domain adaptation aims to transfer knowledge from a labeled source domain to an unlabeled target domain. Previous methods focus on learning domain-invariant features to decrease the discrepancy between the feature distributions as well as minimizing the source error and have made remarkable progress. However, a recently proposed theory reveals that such a strategy is not sufficient for a successful domain adaptation. It shows that besides a small source error, both the discrepancy between the feature distributions and the discrepancy between the labeling functions should be small across domains. The discrepancy between the labeling functions is essentially the cross-domain errors which are ignored by existing methods. To overcome this issue, in this paper, a novel method is proposed to integrate all the objectives into a unified optimization framework. Moreover, the incorrect pseudo labels widely used in previous methods can lead to error accumulation during learning. To alleviate this problem, the pseudo labels are obtained by utilizing structural information of the target domain besides source classifier and we propose a curriculum learning based strategy to select the target samples with more accurate pseudo-labels during training. Comprehensive experiments are conducted, and the results validate that our approach outperforms state-of-the-art methods.
翻訳日:2021-07-01 05:51:16 公開日:2021-06-29
# (参考訳) 移動中のアイリスのための終端オートフォーカスカメラ [全文訳有]

An End-to-End Autofocus Camera for Iris on the Move ( http://arxiv.org/abs/2106.15069v1 )

ライセンス: CC BY-SA 4.0
Leyuan Wang, Kunbo Zhang, Yunlong Wang, Zhenan Sun(参考訳) 遠方虹彩認識では、長焦点長レンズは、遠方虹彩像の解像度を確保するために一般的に用いられ、視野の深さを減少させ、潜在的な焦点ずれを生じさせる。 異なる距離のユーザに対応するためには、フォーカスを迅速かつ正確に制御する必要がある。 動作中のユーザに対しては,虹彩領域に対する適切なフォーカスを継続的に維持することが期待される。 本稿では,焦点可変レンズを用いて移動物体の虹彩領域を能動的に再焦点する高速オートフォーカスカメラを提案する。 我々のエンドツーエンドの計算アルゴリズムは、1つのぼやけた画像からベストフォーカス位置を予測し、自動的にレンズダイオプタ制御信号を生成する。 移動物体の虹彩領域のリアルタイムな焦点追跡を可能にするシーンベース能動操作方法。 オートフォーカス手法の評価のために,実世界の焦点スタックを収集するテストベンチを構築した。 私たちのカメラは50fps以上のオートフォーカス速度に達した。 提案するカメラの静的および動的シーンにおけるバイオメトリック知覚におけるアドバンテージを示す。 コードはhttps://github.com/D ebatrix/AquulaCamで公開されている。

For distant iris recognition, a long focal length lens is generally used to ensure the resolution ofiris images, which reduces the depth of field and leads to potential defocus blur. To accommodate users at different distances, it is necessary to control focus quickly and accurately. While for users in motion, it is expected to maintain the correct focus on the iris area continuously. In this paper, we introduced a novel rapid autofocus camera for active refocusing ofthe iris area ofthe moving objects using a focus-tunable lens. Our end-to-end computational algorithm can predict the best focus position from one single blurred image and generate a lens diopter control signal automatically. This scene-based active manipulation method enables real-time focus tracking of the iris area ofa moving object. We built a testing bench to collect real-world focal stacks for evaluation of the autofocus methods. Our camera has reached an autofocus speed ofover 50 fps. The results demonstrate the advantages of our proposed camera for biometric perception in static and dynamic scenes. The code is available at https://github.com/D ebatrix/AquulaCam.
翻訳日:2021-07-01 05:21:10 公開日:2021-06-29
# (参考訳) IREM: 入射神経表現による高分解能MR画像再構成 [全文訳有]

IREM: High-Resolution Magnetic Resonance (MR) Image Reconstruction via Implicit Neural Representation ( http://arxiv.org/abs/2106.15097v1 )

ライセンス: CC BY 4.0
Qing Wu, Yuwei Li, Lan Xu, Ruiming Feng, Hongjiang Wei, Qing Yang, Boliang Yu, Xiaozhao Liu, Jingyi Yu, and Yuyao Zhang(参考訳) 高品質高分解能MR画像の収集のために,複数の低分解能MR画像に基づいてトレーニングし,任意のアップサンプリング率を実現するIREMという新しい画像再構成ネットワークを提案する。 本研究では、3次元画像空間座標の暗黙的連続関数として所望のHR像と、この関数のスパース離散サンプリングとして厚めのLR像とを仮定する。 次に、超分解能(SR)タスクは、フル接続ニューラルネットワークとフーリエ特徴位置符号化を組み合わせて、限られた観測から連続体積関数を学習することである。 各撮像面におけるネットワーク予測と取得したLR画像強度の誤差を最小化することにより、IREMは観察された組織解剖の連続したモデルを表現するように訓練される。 実験結果から, iremは高周波画像特徴の表現に成功し, 実シーンデータ収集において, スキャン時間を短縮し, snrと局所画像の精細さで高品質の高分解能mr画像を実現する。

For collecting high-quality high-resolution (HR) MR image, we propose a novel image reconstruction network named IREM, which is trained on multiple low-resolution (LR) MR images and achieve an arbitrary up-sampling rate for HR image reconstruction. In this work, we suppose the desired HR image as an implicit continuous function of the 3D image spatial coordinate and the thick-slice LR images as several sparse discrete samplings of this function. Then the super-resolution (SR) task is to learn the continuous volumetric function from a limited observations using an fully-connected neural network combined with Fourier feature positional encoding. By simply minimizing the error between the network prediction and the acquired LR image intensity across each imaging plane, IREM is trained to represent a continuous model of the observed tissue anatomy. Experimental results indicate that IREM succeeds in representing high frequency image feature, and in real scene data collection, IREM reduces scan time and achieves high-quality high-resolution MR imaging in terms of SNR and local image detail.
翻訳日:2021-07-01 05:12:07 公開日:2021-06-29
# (参考訳) 司法における性差別 [全文訳有]

Sexism in the Judiciary ( http://arxiv.org/abs/2106.15103v1 )

ライセンス: CC BY 4.0
Noa Baker Gillis(参考訳) 我々は670万件の訴訟法文書を分析し、司法制度における性別バイアスの存在を判断する。 nlpにおける現在バイアス検出手法は,事例法データベースにおいて性別バイアスを判定するには不十分であり,代替手法を提案する。 既存のアルゴリズムの一貫性のない結果が,先行研究によるバイアスそのものの定義の結果であることを示す。 バイアス検出アルゴリズムは、偏見を表すために単語のグループに依存している(例えば、テキストにおける女性に対する潜在的な偏見のあるテーマとして、雇用を表すために'salary'、'job'、'boss'など)。 しかし、これらの単語群を構築する方法にはいくつかの弱点があり、主に単語リストは研究者自身の直観に基づいている。 バイアスを表現するために単語リスト作成を自動化する2つの新しい手法を提案する。 提案手法は現在のNLPバイアス検出法より優れていることがわかった。 本研究は,nlp技術のバイアス検出能力を改善し,影響のある事例法に存在するジェンダーバイアスを強調する。 nlpバイアス検出法の性能をテストするために、過去100年間の女性の労働力への女性の参加に関する国勢調査データに対するケース法の適用において、バイアスの結果を撤回する。

We analyze 6.7 million case law documents to determine the presence of gender bias within our judicial system. We find that current bias detectino methods in NLP are insufficient to determine gender bias in our case law database and propose an alternative approach. We show that existing algorithms' inconsistent results are consequences of prior research's definition of biases themselves. Bias detection algorithms rely on groups of words to represent bias (e.g., 'salary,' 'job,' and 'boss' to represent employment as a potentially biased theme against women in text). However, the methods to build these groups of words have several weaknesses, primarily that the word lists are based on the researchers' own intuitions. We suggest two new methods of automating the creation of word lists to represent biases. We find that our methods outperform current NLP bias detection methods. Our research improves the capabilities of NLP technology to detect bias and highlights gender biases present in influential case law. In order test our NLP bias detection method's performance, we regress our results of bias in case law against U.S census data of women's participation in the workforce in the last 100 years.
翻訳日:2021-07-01 05:01:54 公開日:2021-06-29
# (参考訳) SDL: フルレベルのアノテートドキュメントレイアウトのための新しいデータ生成ツール [全文訳有]

SDL: New data generation tools for full-level annotated document layout ( http://arxiv.org/abs/2106.15117v1 )

ライセンス: CC BY 4.0
Son Nguyen Truong(参考訳) 文書処理のための新しいデータ生成ツールを提案する。 本ツールは,文字位置から段落位置まで,通常型文書における視覚情報の最大レベルの提供に焦点を当てている。 また、低リソース言語で大規模なデータセットを扱うことができ、文書化されたテキストの完全なフルレベル情報を処理する手段を提供する。 データ生成ツールは、ベトナムの合成文書画像320万のデータセットと、他の言語で同様のサイズのデータセットを生成する命令を備える。 https://github.com/t son1997/sdl-document -image-generation

We present a novel data generation tool for document processing. The tool focuses on providing a maximal level of visual information in a normal type document, ranging from character position to paragraph-level position. It also enables working with a large dataset on low-resource languages as well as providing a mean of processing thorough full-level information of the documented text. The data generation tools come with a dataset of 320000 Vietnamese synthetic document images and an instruction to generate a dataset of similar size in other languages. The repository can be found at: https://github.com/t son1997/SDL-Document -Image-Generation
翻訳日:2021-07-01 04:51:35 公開日:2021-06-29
# (参考訳) TWAG: トピックガイド付きウィキペディア抽象ジェネレータ [全文訳有]

TWAG: A Topic-Guided Wikipedia Abstract Generator ( http://arxiv.org/abs/2106.15135v1 )

ライセンス: CC BY-SA 4.0
Fangwei Zhu, Shangqing Tu, Jiaxin Shi, Juanzi Li, Lei Hou, Tong Cui(参考訳) Wikipediaの抽象生成は、ウィキペディアをWebソースから抽出することを目的としており、多文書要約技術を採用することで大きな成功を収めている。 しかし、従来の著作では、抽象を平易なテキストとして捉えており、あるエンティティの記述であり、異なるトピックに分解できるという事実を無視している。 本稿では,トピック情報を用いた2段階モデルTWAGを提案する。 まず, 既存のwikipedia記事に学習した分類器を用いて各入力段落のトピックを検出し, 入力文書を異なるトピックに分割する。 そして,各要約文のトピック分布を予測し,ポインタ・ジェネレータネットワークを用いてトピック認識表現から文をデコードする。 WikiCatSumデータセット上でモデルを評価した結果, \modelnamesは既存のベースラインよりも優れ, 包括的な抽象化を生成することができることがわかった。 私たちのコードとデータセットは \url{https://github.com/T HU-KEG/TWAG} でアクセスできます。

Wikipedia abstract generation aims to distill a Wikipedia abstract from web sources and has met significant success by adopting multi-document summarization techniques. However, previous works generally view the abstract as plain text, ignoring the fact that it is a description of a certain entity and can be decomposed into different topics. In this paper, we propose a two-stage model TWAG that guides the abstract generation with topical information. First, we detect the topic of each input paragraph with a classifier trained on existing Wikipedia articles to divide input documents into different topics. Then, we predict the topic distribution of each abstract sentence, and decode the sentence from topic-aware representations with a Pointer-Generator network. We evaluate our model on the WikiCatSum dataset, and the results show that \modelnames outperforms various existing baselines and is capable of generating comprehensive abstracts. Our code and dataset can be accessed at \url{https://github.com/T HU-KEG/TWAG}
翻訳日:2021-07-01 04:48:04 公開日:2021-06-29
# (参考訳) インスタンス機能の導入による複数アノテーションからの学習 [全文訳有]

Learning from Multiple Annotators by Incorporating Instance Features ( http://arxiv.org/abs/2106.15146v1 )

ライセンス: CC BY 4.0
Jingzheng Li and Hailong Sun and Jiyi Li and Zhijun Chen and Renshuai Tao and Yufei Ge(参考訳) 複数のアノテータから学ぶことは、トレーニングインスタンスから高品質な分類器を誘導することを目的としており、それぞれのアノテータは、様々な能力と独自のバイアスの影響を受けながら、複数のアノテータによって提供される、潜在的にノイズの多いラベルのセットに関連付けられている。 潜在真のラベルから観測されたラベルへの確率遷移過程のモデル化において、既存の手法では、観測されたラベルがインスタンスの特徴に依存しないアノテーションのクラスレベルの混乱行列を採用する。 分類器が達成できる性能を制限することができる。 本研究では,混乱行列に基づくアノテーションの性能に及ぼすインスタンス特徴の影響を考慮した雑音遷移行列を提案する。 さらに,統合ニューラルネットワークアーキテクチャにおいて,分類器モジュールと雑音遷移行列モジュールからなる,単純かつ効果的な学習フレームワークを提案する。 実験により,本手法が最先端手法と比較して優れていることを示す。

Learning from multiple annotators aims to induce a high-quality classifier from training instances, where each of them is associated with a set of possibly noisy labels provided by multiple annotators under the influence of their varying abilities and own biases. In modeling the probability transition process from latent true labels to observed labels, most existing methods adopt class-level confusion matrices of annotators that observed labels do not depend on the instance features, just determined by the true labels. It may limit the performance that the classifier can achieve. In this work, we propose the noise transition matrix, which incorporates the influence of instance features on annotators' performance based on confusion matrices. Furthermore, we propose a simple yet effective learning framework, which consists of a classifier module and a noise transition matrix module in a unified neural network architecture. Experimental results demonstrate the superiority of our method in comparison with state-of-the-art methods.
翻訳日:2021-07-01 04:28:48 公開日:2021-06-29
# (参考訳) SCARF:ランダム特徴破壊を用いた自己監督型コントラスト学習 [全文訳有]

SCARF: Self-Supervised Contrastive Learning using Random Feature Corruption ( http://arxiv.org/abs/2106.15147v1 )

ライセンス: CC BY 4.0
Dara Bahri, Heinrich Jiang, Yi Tay, Donald Metzler(参考訳) 自己教師付きコントラスト表現学習は、視覚領域と自然言語領域で驚くほど成功し、ラベル付きデータの桁違いな順序で最先端のパフォーマンスを実現している。 しかし、そのような方法はドメイン固有であり、実世界の表型データセットでこのテクニックを活用するためにはほとんど行われていない。 そこで我々は,特徴のランダムなサブセットを乱してビューを形成する,単純な,広く適用可能なコントラスト学習手法であるSCARFを提案する。 69の現実世界の深層ニューラルネットワークに適用した場合、OpenML-CC18ベンチマークの表層分類データセットは、完全な教師付き設定における分類精度を向上するだけでなく、ラベルノイズの存在や、利用可能なトレーニングデータのごく一部がラベル付けされたセミ教師付き設定においても、SCARFが適用される。 SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。 我々は広範囲の因子の重要性を詳述し,包括的アブレーションを行う。

Self-supervised contrastive representation learning has proved incredibly successful in the vision and natural language domains, enabling state-of-the-art performance with orders of magnitude less labeled data. However, such methods are domain-specific and little has been done to leverage this technique on real-world tabular datasets. We propose SCARF, a simple, widely-applicable technique for contrastive learning, where views are formed by corrupting a random subset of features. When applied to pre-train deep neural networks on the 69 real-world, tabular classification datasets from the OpenML-CC18 benchmark, SCARF not only improves classification accuracy in the fully-supervised setting but does so also in the presence of label noise and in the semi-supervised setting where only a fraction of the available training data is labeled. We show that SCARF complements existing strategies and outperforms alternatives like autoencoders. We conduct comprehensive ablations, detailing the importance of a range of factors.
翻訳日:2021-07-01 04:19:12 公開日:2021-06-29
# (参考訳) 行動検出のための時空間文脈 [全文訳有]

Spatio-Temporal Context for Action Detection ( http://arxiv.org/abs/2106.15171v1 )

ライセンス: CC BY 4.0
Manuel Sarmiento Calder\'o, David Varas, Elisenda Bou-Balust(参考訳) 近年、ビデオ理解において重要な役割を担っているため、行動検出の研究が増加している。 アクターとそのコンテキスト間の相互作用(空間的あるいは時間的)をモデル化することは、このタスクに不可欠であることが証明されている。 近年の研究では,時空間情報を集約した空間的特徴を用いているが,非時空間情報の利用を提案する。 This is done by adding an attention based method that leverages spatio-temporal interactions between elements in the scene along the clip.The main contribution of this work is the introduction of two cross attention blocks to effectively model the spatial relations and capture short range temporal interactions.Experim ents on the AVA dataset show the advantages of the proposed approach that models spatio-temporal relations between relevant elements in the scene, outperforming other methods that model actor interactions with their context by +0.31 mAP.

Research in action detection has grown in the recentyears, as it plays a key role in video understanding. Modelling the interactions (either spatial or temporal) between actors and their context has proven to be essential for this task. While recent works use spatial features with aggregated temporal information, this work proposes to use non-aggregated temporal information. This is done by adding an attention based method that leverages spatio-temporal interactions between elements in the scene along the clip.The main contribution of this work is the introduction of two cross attention blocks to effectively model the spatial relations and capture short range temporal interactions.Experim ents on the AVA dataset show the advantages of the proposed approach that models spatio-temporal relations between relevant elements in the scene, outperforming other methods that model actor interactions with their context by +0.31 mAP.
翻訳日:2021-07-01 04:01:48 公開日:2021-06-29
# (参考訳) Wrong Colored Vermeer:カラーシメトリ画像歪み [全文訳有]

Wrong Colored Vermeer: Color-Symmetric Image Distortion ( http://arxiv.org/abs/2106.15179v1 )

ライセンス: CC BY 4.0
Hendrik Richter(参考訳) 色対称性は、幾何学的対象の色がその対称性の性質に応じて割り当てられることを意味する。 これは対称性群の要素と色置換を関連付けることで定義される。 私はこの概念を生成芸術に使い、ヨハンス・ヴェルメールの絵画のイメージに対称性に一貫性のある色歪みを適用します。 色置換は、HSV色空間を自身にマッピングするものとして実現される。

Color symmetry implies that the colors of geometrical objects are assigned according to their symmetry properties. It is defined by associating the elements of the symmetry group with a color permutation. I use this concept for generative art and apply symmetry-consistent color distortions to images of paintings by Johannes Vermeer. The color permutations are realized as mappings of the HSV color space onto itself.
翻訳日:2021-07-01 03:55:52 公開日:2021-06-29
# (参考訳) ディープラーニングによるクラウドコンピューティングシステムにおけるソフトウェア障害解析の強化 [全文訳有]

Enhancing the Analysis of Software Failures in Cloud Computing Systems with Deep Learning ( http://arxiv.org/abs/2106.15182v1 )

ライセンス: CC BY 4.0
Domenico Cotroneo, Luigi De Simone, Pietro Liguori, Roberto Natella(参考訳) クラウドコンピューティングシステムの障害モードの特定は、そのようなシステムの複雑さが増大し、障害データの量とノイズが大きくなるため、難しくて時間を要する作業である。 本稿では,人手による特徴工学の微調整を緩和するため,クラウドシステムからの故障データを解析するための新しい手法を提案する。 このアプローチでは、ディープラーニングに基づく教師なしクラスタリングアルゴリズムのファミリーであるdeep embedded clustering(dec)を活用して、データ次元とクラスタ間分散を最適化するオートエンコーダを使用する。 私たちはこのアプローチを,生の障害データと異常検出前処理アルゴリズムを組み合わせた,openstackクラウドコンピューティングプラットフォームのコンテキストに適用しました。 その結果,提案手法の性能は,クラスタの純粋性という面では,手作業で調整したクラスタリングと同等か,あるいはさらに優れている場合もあり,深いドメイン知識の必要性を回避し,分析を行う労力を削減できることがわかった。 いずれの場合も、データに機能工学を適用しない場合、提案手法は教師なしクラスタリングよりも優れたパフォーマンスを提供する。 さらに,提案手法による障害モードの分布は,実際の障害モードの周波数に近い。

Identifying the failure modes of cloud computing systems is a difficult and time-consuming task, due to the growing complexity of such systems, and the large volume and noisiness of failure data. This paper presents a novel approach for analyzing failure data from cloud systems, in order to relieve human analysts from manually fine-tuning the data for feature engineering. The approach leverages Deep Embedded Clustering (DEC), a family of unsupervised clustering algorithms based on deep learning, which uses an autoencoder to optimize data dimensionality and inter-cluster variance. We applied the approach in the context of the OpenStack cloud computing platform, both on the raw failure data and in combination with an anomaly detection pre-processing algorithm. The results show that the performance of the proposed approach, in terms of purity of clusters, is comparable to, or in some cases even better than manually fine-tuned clustering, thus avoiding the need for deep domain knowledge and reducing the effort to perform the analysis. In all cases, the proposed approach provides better performance than unsupervised clustering when no feature engineering is applied to the data. Moreover, the distribution of failure modes from the proposed approach is closer to the actual frequency of the failure modes.
翻訳日:2021-07-01 03:50:57 公開日:2021-06-29
# (参考訳) dcase 2021タスク3 : ポリフォニック音響イベントの局在と検出のためのスペクトル時間整合特徴 [全文訳有]

DCASE 2021 Task 3: Spectrotemporally-al igned Features for Polyphonic Sound Event Localization and Detection ( http://arxiv.org/abs/2106.15190v1 )

ライセンス: CC BY 4.0
Thi Ngoc Tho Nguyen and Karn Watcharasupat and Ngoc Khanh Nguyen and Douglas L. Jones and Woon Seng Gan(参考訳) 音事象の定位と検出は、音事象の検出と方向推定の2つのサブタスクからなる。 音響イベント検出は主に、音のクラスを識別するために時間周波数パターンに依存するが、指向性推定では、音源の方向を推定するためにマイクロホン間の大きさや位相差を用いる。 そのため、これら2つのサブタスクを同時に訓練することはしばしば困難である。 本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張ログ分光法(SALSA)を提案する。 この特徴は、推定された残響率と共に積み重ねられたマルチチャネルログスペクトログラムと、スペクトログラム上の各時間周波数ビンにおける空間共分散行列の主固有ベクトルの正規化バージョンを含む。 指向性干渉による音声イベントの定位と検出のためのDCASE 2021データセットの実験結果から,この新機能で訓練されたディープラーニングベースモデルは,DCASEチャレンジベースラインを大きなマージンで上回った。 dcaseサウンドイベントのローカライズと検出チャレンジのシステムパフォーマンスをさらに改善するために、新機能に基づいてトレーニングされたいくつかの異なるアーキテクチャを結合した。

Sound event localization and detection consists of two subtasks which are sound event detection and direction-of-arrival estimation. While sound event detection mainly relies on time-frequency patterns to distinguish different sound classes, direction-of-arrival estimation uses magnitude or phase differences between microphones to estimate source directions. Therefore, it is often difficult to jointly train these two subtasks simultaneously. We propose a novel feature called spatial cue-augmented log-spectrogram (SALSA) with exact time-frequency mapping between the signal power and the source direction-of-arrival . The feature includes multichannel log-spectrograms stacked along with the estimated direct-to-reverberan t ratio and a normalized version of the principal eigenvector of the spatial covariance matrix at each time-frequency bin on the spectrograms. Experimental results on the DCASE 2021 dataset for sound event localization and detection with directional interference showed that the deep learning-based models trained on this new feature outperformed the DCASE challenge baseline by a large margin. We combined several models with slightly different architectures that were trained on the new feature to further improve the system performances for the DCASE sound event localization and detection challenge.
翻訳日:2021-07-01 03:27:06 公開日:2021-06-29
# (参考訳) 機械翻訳研究の科学的信頼性:769紙のメタ評価 [全文訳有]

Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers ( http://arxiv.org/abs/2106.15195v1 )

ライセンス: CC BY 4.0
Benjamin Marie, Atsushi Fujita, Raphael Rubino(参考訳) 本稿では,機械翻訳(MT)の大規模メタ評価について述べる。 われわれは2010年から2020年にかけて769件の研究論文でMT評価を行った。 本研究は,過去10年間にMT自動評価の実践が劇的に変化し,傾向が続いていることを示す。 MT評価の増大は、統計学的に有意なテストや人的評価を行うことなく、BLEUスコアの違いにのみ依存し、BLEUよりも優れていると主張する少なくとも108の指標が提案されている。 最近の論文におけるmt評価は、同じトレーニング、検証、テストデータが使われていないか、メートル法スコアが同等であるかを確認せずに、メソッドやアルゴリズムの優位性を主張するために、以前の研究から得られた自動測定スコアをコピーして比較する傾向があります。 さらに、標準化されたメートル法スコアを報告するためのツールが、mtコミュニティによって広く採用されるには程遠い。 これらの落とし穴の蓄積が疑わしい評価にどのようにつながるかを示した結果,mt評価の精度を高めるためのガイドラインと,その信頼性を評価するための簡易なメタ評価スコア法を提案する。

This paper presents the first large-scale meta-evaluation of machine translation (MT). We annotated MT evaluations conducted in 769 research papers published from 2010 to 2020. Our study shows that practices for automatic MT evaluation have dramatically changed during the past decade and follow concerning trends. An increasing number of MT evaluations exclusively rely on differences between BLEU scores to draw conclusions, without performing any kind of statistical significance testing nor human evaluation, while at least 108 metrics claiming to be better than BLEU have been proposed. MT evaluations in recent papers tend to copy and compare automatic metric scores from previous work to claim the superiority of a method or an algorithm without confirming neither exactly the same training, validating, and testing data have been used nor the metric scores are comparable. Furthermore, tools for reporting standardized metric scores are still far from being widely adopted by the MT community. After showing how the accumulation of these pitfalls leads to dubious evaluation, we propose a guideline to encourage better automatic MT evaluation along with a simple meta-evaluation scoring method to assess its credibility.
翻訳日:2021-07-01 03:16:21 公開日:2021-06-29
# (参考訳) 安全な電力グリッド管理のためのアクションセットに基づく政策最適化 [全文訳有]

Action Set Based Policy Optimization for Safe Power Grid Management ( http://arxiv.org/abs/2106.15200v1 )

ライセンス: CC BY 4.0
Bo Zhou, Hongsheng Zeng, Yuecheng Liu, Kejiao Li, Fan Wang, Hao Tian(参考訳) 電力消費の変動、再生可能エネルギーからの不安定な電力供給、人工や自然災害などの予測不能な事故により、現代の電力網の安定性を維持することがますます困難になっている。 電力グリッドの運用は将来の安定への影響を考慮する必要があるため、電力グリッド管理におけるシーケンシャルな意思決定のために強化学習(RL)が採用されている。 しかし,既存の手法では環境制約は考慮されていない。 その結果、学習政策は緊急時の制約に違反した行動を選択するリスクがあり、過負荷の電力線の問題がエスカレートし、大規模な停電につながる。 本研究では,探索型計画アルゴリズムを基盤としたこの問題に対する新しい手法を提案する。 計画段階では、検索空間はポリシーによって生成されたアクションセットに限定される。 選択されたアクションは、システムが提供するシミュレーション関数で結果をテストすることによって、厳密に制約に従う。 学習段階では,グラデーションが政策に伝達できないという問題に対処するために,ブラックボックス政策最適化を伴う進化戦略(es)を導入し,政策を直接改善し,長期のリターンを最大化する。 NeurIPS 2020 Learning to Run Power Network (L2RPN)コンペで、我々のソリューションは安全に電力網を管理し、両トラックで第1位となった。

Maintaining the stability of the modern power grid is becoming increasingly difficult due to fluctuating power consumption, unstable power supply coming from renewable energies, and unpredictable accidents such as man-made and natural disasters. As the operation on the power grid must consider its impact on future stability, reinforcement learning (RL) has been employed to provide sequential decision-making in power grid management. However, existing methods have not considered the environmental constraints. As a result, the learned policy has risk of selecting actions that violate the constraints in emergencies, which will escalate the issue of overloaded power lines and lead to large-scale blackouts. In this work, we propose a novel method for this problem, which builds on top of the search-based planning algorithm. At the planning stage, the search space is limited to the action set produced by the policy. The selected action strictly follows the constraints by testing its outcome with the simulation function provided by the system. At the learning stage, to address the problem that gradients cannot be propagated to the policy, we introduce Evolutionary Strategies (ES) with black-box policy optimization to improve the policy directly, maximizing the returns of the long run. In NeurIPS 2020 Learning to Run Power Network (L2RPN) competition, our solution safely managed the power grid and ranked first in both tracks.
翻訳日:2021-07-01 03:03:09 公開日:2021-06-29
# (参考訳) ニューラルマシン翻訳の評価の再考 [全文訳有]

Rethinking the Evaluation of Neural Machine Translation ( http://arxiv.org/abs/2106.15217v1 )

ライセンス: CC BY-SA 4.0
Jianhao Yan, Chenming Wu, Fandong Meng, Jie Zhou(参考訳) ニューラルマシン翻訳システムの評価は、通常、特定の復号法(ビーム探索など)の生成された翻訳と、生成された翻訳(例えばbleu)に対する評価指標に基づいて行われる。 しかし, この評価手法は, ヒューリスティック検索アルゴリズムによる高い探索誤差に悩まされており, 一つの最適候補に対する評価の性質によって制限されている。 本稿では,探索誤りの影響を回避するだけでなく,モデルランキングの観点からシステムレベルの評価を行う新しい評価プロトコルを提案する。 特に,本手法はビームサーチの代わりに,新たに提案した最上位k$デコードに基づいている。 提案手法は,参照によって得られた候補空間とモデルとの距離によってモデル誤差を評価する。 WMT'14の大規模な実験では、悪ランキング能力が有名なビームサーチの呪いと結びついており、最先端のトランスフォーマーモデルは深刻なランキングエラーに直面している。 様々なモデルアーキテクチャや手法を評価することで、いくつかの興味深い知見を得る。 最後に,元のビーム探索と同じ時間コストで正確な探索アルゴリズムを効果的に近似するために,最小ヒープ拡張ビーム探索アルゴリズムを提案する。

The evaluation of neural machine translation systems is usually built upon generated translation of a certain decoding method (e.g., beam search) with evaluation metrics over the generated translation (e.g., BLEU). However, this evaluation framework suffers from high search errors brought by heuristic search algorithms and is limited by its nature of evaluation over one best candidate. In this paper, we propose a novel evaluation protocol, which not only avoids the effect of search errors but provides a system-level evaluation in the perspective of model ranking. In particular, our method is based on our newly proposed exact top-$k$ decoding instead of beam search. Our approach evaluates model errors by the distance between the candidate spaces scored by the references and the model respectively. Extensive experiments on WMT'14 English-German demonstrate that bad ranking ability is connected to the well-known beam search curse, and state-of-the-art Transformer models are facing serious ranking errors. By evaluating various model architectures and techniques, we provide several interesting findings. Finally, to effectively approximate the exact search algorithm with same time cost as original beam search, we present a minimum heap augmented beam search algorithm.
翻訳日:2021-07-01 02:51:09 公開日:2021-06-29
# (参考訳) Fact Check:多言語ニュースソースからの財務事象の分析 [全文訳有]

Fact Check: Analyzing Financial Events from Multilingual News Sources ( http://arxiv.org/abs/2106.15221v1 )

ライセンス: CC BY 4.0
Yang Linyi, Ng Tin Lok James, Smyth Barry, Dong Ruihai(参考訳) 近年の金融ニュースデータの爆発的増加と複雑化により、投資アナリストが貴重な洞察を抽出し分析を行うことがますます困難になっている。 深層学習モデルを用いたWebベースのニュースアグリゲータであるFactCheck in Financeを提案し、多言語ニュースソースから重要な金融イベントの全体像をアナリストに提供し、教師なしクラスタリング手法を用いてイベントを抽出する。 トランスフォーマーベースのファクトチェッカーを用いてニュース記事の信頼性を調べるためのウェブインターフェースを提供する。 ファクトチェッカーの性能は、合併・買収(M\&A)イベントに関するデータセットを用いて評価され、いくつかの強いベースラインを上回ります。

The explosion in the sheer magnitude and complexity of financial news data in recent years makes it increasingly challenging for investment analysts to extract valuable insights and perform analysis. We propose FactCheck in finance, a web-based news aggregator with deep learning models, to provide analysts with a holistic view of important financial events from multilingual news sources and extract events using an unsupervised clustering method. A web interface is provided to examine the credibility of news articles using a transformer-based fact-checker. The performance of the fact checker is evaluated using a dataset related to merger and acquisition (M\&A) events and is shown to outperform several strong baselines.
翻訳日:2021-07-01 02:35:55 公開日:2021-06-29
# (参考訳) 時間知識グラフにおけるリンク予測のための静的モデルの利用 [全文訳有]

Leveraging Static Models for Link Prediction in Temporal Knowledge Graphs ( http://arxiv.org/abs/2106.15223v1 )

ライセンス: CC BY-SA 4.0
Wessel Radstok and Mel Chekol(参考訳) 知識グラフ埋め込み(KGE)に事実の時間的スコープを組み込むことは、結果の埋め込みを改善する重要な機会を示し、結果として下流アプリケーションの性能を向上させる。 しかし、この分野にはほとんど研究努力が集中しておらず、実施された研究報告の多くは、時間的スコープ(静的モデル)無しでトレーニングされたモデルと比較して、わずかに改善された結果のみである。 さらに、静的モデルにおける既存の作業を活用する代わりに、時間的知識グラフに特化した新しいモデルを導入する。 そこで本稿では,データ操作に重点を置くことによって,既存の静的埋め込みモデルのパワーを生かした新たな視点を提案する。 我々の手法であるSpliMeは、信号処理の分野やグラフ埋め込みの初期研究からインスピレーションを得ている。 我々は,時空間KGEにおいて,SpliMeが現在の最先端技術と競合するか,あるいは競争していることを示す。 さらに,時相グラフ上での静的モデルの性能評価に現在使用されているプロシージャの問題点を明らかにし,その対策方法を2つ紹介する。

The inclusion of temporal scopes of facts in knowledge graph embedding (KGE) presents significant opportunities for improving the resulting embeddings, and consequently for increased performance in downstream applications. Yet, little research effort has focussed on this area and much of the carried out research reports only marginally improved results compared to models trained without temporal scopes (static models). Furthermore, rather than leveraging existing work on static models, they introduce new models specific to temporal knowledge graphs. We propose a novel perspective that takes advantage of the power of existing static embedding models by focussing effort on manipulating the data instead. Our method, SpliMe, draws inspiration from the field of signal processing and early work in graph embedding. We show that SpliMe competes with or outperforms the current state of the art in temporal KGE. Additionally, we uncover issues with the procedure currently used to assess the performance of static models on temporal graphs and introduce two ways to counteract them.
翻訳日:2021-07-01 02:32:03 公開日:2021-06-29
# (参考訳) 疾患分類のための新しいアラビア医療データセット [全文訳有]

New Arabic Medical Dataset for Diseases Classification ( http://arxiv.org/abs/2106.15236v1 )

ライセンス: CC BY 4.0
Jaafar Hammoud, Aleksandra Vatian, Natalia Dobrenko, Nikolai Vedernikov, Anatoly Shalyto, Natalia Gusarova(参考訳) アラビア語はディープラーニングモデルのトレーニングに適したデータセットが大幅に不足しており、既存の言語には一般的な非特殊分類が含まれている。 本研究では,アラブ医学百科事典に加え,複数のアラビア語医学ウェブサイトから収集された2千の医学文書を含む,新しいアラブ医学データセットを紹介する。 データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)が含まれている。 データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。

The Arabic language suffers from a great shortage of datasets suitable for training deep learning models, and the existing ones include general non-specialized classifications. In this work, we introduce a new Arab medical dataset, which includes two thousand medical documents collected from several Arabic medical websites, in addition to the Arab Medical Encyclopedia. The dataset was built for the task of classifying texts and includes 10 classes (Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver and Nephrological) diseases. Experiments on the dataset were performed by fine-tuning three pre-trained models: BERT from Google, Arabert that based on BERT with large Arabic corpus, and AraBioNER that based on Arabert with Arabic medical corpus.
翻訳日:2021-07-01 02:08:52 公開日:2021-06-29
# (参考訳) 発話意図認識のための表現に基づくメタラーニング [全文訳有]

Representation based meta-learning for few-shot spoken intent recognition ( http://arxiv.org/abs/2106.15238v1 )

ライセンス: CC BY 4.0
Ashish Mittal, Samarth Bharadwaj, Shreya Khare, Saneem Chemmengath, Karthik Sankaranarayanan, Brian Kingsbury(参考訳) 音声インテント検出は、さまざまなスマートデバイスとのインタフェースを容易化する一般的なアプローチになっている。 しかし、これらのシステムはインテントやコマンドの予め設定されたリストに限られており、パーソナルデバイスの迅速なカスタマイズを新しいインテントに制限している。 本稿ではメタラーニングパラダイムを用いたタスク非依存表現を用いた音声意図分類手法を提案する。 具体的には,一般的な表現型メタラーニング学習を用いて発話のタスクに依存しない表現を構築し,線形分類器を用いて予測を行う。 Google CommandsとFluent Speech Commandsデータセットという2つの一般的な音声意図分類データセット上で開発された,新しい実験プロトコルに関する3つのアプローチを評価する。 新規クラスの5ショット(1ショット)分類のために提案されたフレームワークは、Google Commandsデータセットで88.6%(76.3%)、Fluent Speech Commandsデータセットで78.5%(64.2%)の平均分類精度を提供する。 性能は、豊富なトレーニングサンプルを持つ従来の教師付き分類モデルに匹敵する。

Spoken intent detection has become a popular approach to interface with various smart devices with ease. However, such systems are limited to the preset list of intents-terms or commands, which restricts the quick customization of personal devices to new intents. This paper presents a few-shot spoken intent classification approach with task-agnostic representations via meta-learning paradigm. Specifically, we leverage the popular representation-based meta-learning learning to build a task-agnostic representation of utterances, that then use a linear classifier for prediction. We evaluate three such approaches on our novel experimental protocol developed on two popular spoken intent classification datasets: Google Commands and the Fluent Speech Commands dataset. For a 5-shot (1-shot) classification of novel classes, the proposed framework provides an average classification accuracy of 88.6% (76.3%) on the Google Commands dataset, and 78.5% (64.2%) on the Fluent Speech Commands dataset. The performance is comparable to traditionally supervised classification models with abundant training samples.
翻訳日:2021-07-01 02:00:21 公開日:2021-06-29
# (参考訳) グラフgestaltの生成:カーネル正規化グラフ表現学習 [全文訳有]

Generating the Graph Gestalt: Kernel-Regularized Graph Representation Learning ( http://arxiv.org/abs/2106.15239v1 )

ライセンス: CC0 1.0
Kiarash Zahirnia, Ankita Sakhuja, Oliver Schulte, Parmis Nadaf, Ke Li, Xia Hu(参考訳) グラフ生成モデルに関する最近の研究は、次数分布、密度、クラスタリング係数といったグローバルグラフの特徴によって測定されるように、より現実的なグラフの生成に向けて顕著な進歩を遂げている。 深部生成モデルもまたグラフトポロジの局所的相関のモデル化を通じて大きな進歩を遂げており、これは近くの観測されたグラフ成分からリンクやノードのクラスなどの観測されていないグラフ成分を予測するのに非常に有用である。 グラフデータの完全な科学的理解は、グローバル構造とローカル構造の両方に対処すべきである。 本稿では,グラフVAEフレームワークにおける相補的目的として,両者のジョイントモデルを提案する。 グローバル構造は、損失関数が再構成されたグローバル構造と入力グラフの最大平均不一致(MMD)と密接に関連している確率モデルにグラフカーネルを組み込むことによって取得される。 モデルから派生したELBOの目的は、標準的なローカルリンク再構成項をMDD項で正規化する。 本実験は,グラフ構造メトリクスの1~2桁の精度で生成したグラフ構造のリアリズムが,先行するグラフvaeおよびganモデルと比較して著しく改善することを示す。 ローカルリンクの再構築も、多くの場合改善される。

Recent work on graph generative models has made remarkable progress towards generating increasingly realistic graphs, as measured by global graph features such as degree distribution, density, and clustering coefficients. Deep generative models have also made significant advances through better modelling of the local correlations in the graph topology, which have been very useful for predicting unobserved graph components, such as the existence of a link or the class of a node, from nearby observed graph components. A complete scientific understanding of graph data should address both global and local structure. In this paper, we propose a joint model for both as complementary objectives in a graph VAE framework. Global structure is captured by incorporating graph kernels in a probabilistic model whose loss function is closely related to the maximum mean discrepancy(MMD) between the global structures of the reconstructed and the input graphs. The ELBO objective derived from the model regularizes a standard local link reconstruction term with an MMD term. Our experiments demonstrate a significant improvement in the realism of the generated graph structures, typically by 1-2 orders of magnitude of graph structure metrics, compared to leading graph VAEand GAN models. Local link reconstruction improves as well in many cases.
翻訳日:2021-07-01 01:48:51 公開日:2021-06-29
# (参考訳) 対話型機械読解のための教師なし技術 [全文訳有]

Unsupervised Technique To Conversational Machine Reading ( http://arxiv.org/abs/2106.15247v1 )

ライセンス: CC0 1.0
Peter Ochieng and Dennis Mugambi(参考訳) 会話型機械読取(cmr)ツールは近年急速に進歩している。 現在の既存のツールは、トレーニングにラベル付きデータセットを必要とする教師付き学習技術に依存している。 教師ありのテクニックでは、新しいルールテキストごとに手動でラベル付きデータセットを作成する必要がある。 これは面倒でエラーが多い。 本稿では,教師なし学習技術がCMRの発展にどのように応用できるかを紹介する。 具体的には,CMRのルール抽出と包含モジュールにおいて,教師なし学習がいかに活用できるかを示す。 現在最高のCMRツールと比較すると,マイクロ平均精度が3.3%,マクロ平均精度が1.4%向上している。

Conversational machine reading (CMR) tools have seen a rapid progress in the recent past. The current existing tools rely on the supervised learning technique which require labeled dataset for their training. The supervised technique necessitates that for every new rule text, a manually labeled dataset must be created. This is tedious and error prone. This paper introduces and demonstrates how unsupervised learning technique can be applied in the development of CMR. Specifically, we demonstrate how unsupervised learning can be used in rule extraction and entailment modules of CMR. Compared to the current best CMR tool, our developed framework reports 3.3% improvement in micro averaged accuracy and 1.4 % improvement in macro averaged accuracy.
翻訳日:2021-07-01 01:30:23 公開日:2021-06-29
# (参考訳) MuViS:コモディティWiFi上のマルチユーザアプリケーションのためのオンラインMU-MIMOグループ [全文訳有]

MuViS: Online MU-MIMO Grouping for Multi-User Applications Over Commodity WiFi ( http://arxiv.org/abs/2106.15262v1 )

ライセンス: CC0 1.0
Hannaneh Barahouei Pasandi and Tamer Nadeem and Hadi Amirpour(参考訳) 過去10年間で、帯域幅の拡大とmu-mimoスペクトル効率は、1つのアクセスポイントと複数のユーザ間の同時通信を可能にすることで、データスループットの向上を約束している。 しかし、このMU-MIMO MACプロトコルの改善は、不均一なチャネル条件やデバイスによる実用的なWiFiネットワーク設定によるビデオストリーミング、信頼性の低い送信、下位層と上位層の要求に対する有用なフィードバック交換の欠如など、帯域幅の空きアプリケーションに対して、まだ長い道のりを歩んでいる。 本稿では、IEEE 802.11ac上でのマルチユーザビデオストリーミングのためのMU-MIMO最適化について、Quality of Experience (QoE)を意識した新しい2相最適化フレームワークであるMuViSを紹介する。 MuViSはまず強化学習を用いてMU-MIMOユーザグループを最適化し、PHY/MAC層特性に基づいたモード選択を行う。 ビデオビットレートは、ユーザのモード(MU)またはSingle-User(SU))に基づいて最適化される。 802.11ac WiFiを用いたスマートフォンおよびラップトップ上での設計とその評価について述べる。 様々な屋内環境および構成における実験結果から,多数のユーザが高いビデオレートでストリーミングをサポートし,qoe要件を満たしたスケーラブルなフレームワークが得られた。

Over the last decade, the bandwidth expansion and MU-MIMO spectral efficiency have promised to increase data throughput by allowing concurrent communication between one Access Point and multiple users. However, we are still a long way from enjoying such MU-MIMO MAC protocol improvements for bandwidth hungry applications such as video streaming in practical WiFi network settings due to heterogeneous channel conditions and devices, unreliable transmissions, and lack of useful feedback exchange among the lower and upper layers' requirements. This paper introduces MuViS, a novel dual-phase optimization framework that proposes a Quality of Experience (QoE) aware MU-MIMO optimization for multi-user video streaming over IEEE 802.11ac. MuViS first employs reinforcement learning to optimize the MU-MIMO user group and mode selection for users based on their PHY/MAC layer characteristics. The video bitrate is then optimized based on the user's mode (Multi-User (MU) or Single-User (SU)). We present our design and its evaluation on smartphones and laptops using 802.11ac WiFi. Our experimental results in various indoor environments and configurations show a scalable framework that can support a large number of users with streaming at high video rates and satisfying QoE requirements.
翻訳日:2021-07-01 01:18:42 公開日:2021-06-29
# (参考訳) 連続セマンティックセグメンテーションにおける破滅的予測と背景変化 [全文訳有]

Tackling Catastrophic Forgetting and Background Shift in Continual Semantic Segmentation ( http://arxiv.org/abs/2106.15287v1 )

ライセンス: CC BY 4.0
Arthur Douillard, Yifu Chen, Arnaud Dapogny, Matthieu Cord(参考訳) ディープラーニングアプローチは、現在、セマンティックセグメンテーションや大規模なデータセット、相当な計算能力といったコンピュータビジョンタスクに取り組むために、ユビキタスに使われている。 セマンティックセグメンテーション(CSS)の継続的な学習は、新しいクラスを逐次追加することによって古いモデルを更新する、新たなトレンドである。 しかし、連続学習法は通常、破滅的な忘れがちである。 この問題はcssでさらに悪化し、各ステップにおいて、以前のイテレーションからの古いクラスがバックグラウンドで崩壊する。 本稿では,長大かつ短大な空間関係を特徴レベルで保存する多スケールプール蒸留方式であるLocal PODを提案する。 さらに,背景w.r.tのエントロピーに基づく擬似ラベリングを設計する。 古いモデルによって予測されるクラスは、バックグラウンドシフトに対処し、古いクラスの破滅的な忘れを避ける。 最後に,セグメンテーションに適した新しいリハーサル手法を提案する。 plopと呼ばれるこのアプローチは、既存のcssシナリオや新しく提案された挑戦的ベンチマークにおいて、最先端のメソッドを大幅に上回っている。

Deep learning approaches are nowadays ubiquitously used to tackle computer vision tasks such as semantic segmentation, requiring large datasets and substantial computational power. Continual learning for semantic segmentation (CSS) is an emerging trend that consists in updating an old model by sequentially adding new classes. However, continual learning methods are usually prone to catastrophic forgetting. This issue is further aggravated in CSS where, at each step, old classes from previous iterations are collapsed into the background. In this paper, we propose Local POD, a multi-scale pooling distillation scheme that preserves long- and short-range spatial relationships at feature level. Furthermore, we design an entropy-based pseudo-labelling of the background w.r.t. classes predicted by the old model to deal with background shift and avoid catastrophic forgetting of the old classes. Finally, we introduce a novel rehearsal method that is particularly suited for segmentation. Our approach, called PLOP, significantly outperforms state-of-the-art methods in existing CSS scenarios, as well as in newly proposed challenging benchmarks.
翻訳日:2021-07-01 00:58:45 公開日:2021-06-29
# (参考訳) 細胞はアクターである:somaヒストロジー画像分類のための古典mlを用いたソーシャルネットワーク分析 [全文訳有]

Cells are Actors: Social Network Analysis with Classical ML for SOTA Histology Image Classification ( http://arxiv.org/abs/2106.15299v1 )

ライセンス: CC BY 4.0
Neda Zamanitajeddin, Mostafa Jahanifar, and Nasir Rajpoot(参考訳) 組織像のデジタル化とディープラーニングのような新しい計算手法の出現は、大腸癌(CRA)の自動グレーディングに役立っている。 しかし、現在、craグレーティングの自動化手法は、通常は小さなイメージパッチを使用しており、グレーディングのために組織全体のマイクロアーキテクチャを統合することができない。 これらの課題に取り組むために,核とその接続をネットワークとしてモデル化し,組織微小環境の複雑な構造を記述するための統計的ネットワーク解析手法を提案する。 ネットワーク内の細胞間の相互作用のみを解析することにより、CRAグレーディングのための高度に識別可能な統計的特徴を抽出できることを示す。 他のディープラーニングや畳み込みグラフベースのアプローチとは異なり、この方法は高度にスケーラブルである(数百万のノードからなるセルネットワークで使用できる)。 我々は,広帯域CRCヒストロジー画像データセット上にセルネットワークを作成し,提案手法を実験し,三クラスCRAグレーディングの予測のための最先端性能を報告する。

Digitization of histology images and the advent of new computational methods, like deep learning, have helped the automatic grading of colorectal adenocarcinoma cancer (CRA). Present automated CRA grading methods, however, usually use tiny image patches and thus fail to integrate the entire tissue micro-architecture for grading purposes. To tackle these challenges, we propose to use a statistical network analysis method to describe the complex structure of the tissue micro-environment by modelling nuclei and their connections as a network. We show that by analyzing only the interactions between the cells in a network, we can extract highly discriminative statistical features for CRA grading. Unlike other deep learning or convolutional graph-based approaches, our method is highly scalable (can be used for cell networks consist of millions of nodes), completely explainable, and computationally inexpensive. We create cell networks on a broad CRC histology image dataset, experiment with our method, and report state-of-the-art performance for the prediction of three-class CRA grading.
翻訳日:2021-07-01 00:22:14 公開日:2021-06-29
# (参考訳) 抽出テキスト要約に基づくトピックモデリング [全文訳有]

Topic Modeling Based Extractive Text Summarization ( http://arxiv.org/abs/2106.15313v1 )

ライセンス: CC0 1.0
Kalliath Abdul Rasheed Issam, Shivam Patel, Subalalitha C. N(参考訳) テキスト要約は、テキスト文書に存在する重要な情報を識別するためのアプローチである。 本手法は,ソースコードに含まれる関連情報と健全な情報のみを含むことで,より短いバージョンのソーステキストを生成することを目的とする。 本稿では,トピックモデリング手法を用いて生成した潜在トピックに基づいてテキスト文書をクラスタリングし,識別された各テキストクラスタの抽出要約を生成することにより,テキスト文書を要約する新しい手法を提案する。 すべての抽出サブサマリーは後に結合され、任意のソース文書の要約を生成する。 我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを利用する。 このデータセットは、テキスト要約に使用される一般的なニュースデータセットとは異なる。 有名なニュースデータセットは、ソーステキストの最初の数行で最も重要な情報を表示するため、WikiHowデータセットを要約するよりも、要約がより難しい作業になる。 これらのニュースデータセットとは対照的に、wikihowデータセットのドキュメントは一般的なアプローチで書かれており、より抽象性や圧縮率が低いため、要約を生成することがより困難になる。 現在の最先端のテキスト要約技術の多くは、簡潔さを優先してソースドキュメントに存在する重要な情報を排除する傾向がある。 提案手法は,ソース文書に存在する様々な情報をすべてキャプチャすることを目的としている。 このデータセットは、実験装置内で広範囲なテストを行った結果、他の抽出および抽象的テキスト要約モデルと比較すると、ROUGEの結果と要約が促進されることが判明した。

Text summarization is an approach for identifying important information present within text documents. This computational technique aims to generate shorter versions of the source text, by including only the relevant and salient information present within the source text. In this paper, we propose a novel method to summarize a text document by clustering its contents based on latent topics produced using topic modeling techniques and by generating extractive summaries for each of the identified text clusters. All extractive sub-summaries are later combined to generate a summary for any given source document. We utilize the lesser used and challenging WikiHow dataset in our approach to text summarization. This dataset is unlike the commonly used news datasets which are available for text summarization. The well-known news datasets present their most important information in the first few lines of their source texts, which make their summarization a lesser challenging task when compared to summarizing the WikiHow dataset. Contrary to these news datasets, the documents in the WikiHow dataset are written using a generalized approach and have lesser abstractedness and higher compression ratio, thus proposing a greater challenge to generate summaries. A lot of the current state-of-the-art text summarization techniques tend to eliminate important information present in source documents in the favor of brevity. Our proposed technique aims to capture all the varied information present in source documents. Although the dataset proved challenging, after performing extensive tests within our experimental setup, we have discovered that our model produces encouraging ROUGE results and summaries when compared to the other published extractive and abstractive text summarization models.
翻訳日:2021-07-01 00:15:07 公開日:2021-06-29
# (参考訳) 信念バイアスと説明の相互作用について [全文訳有]

On the Interaction of Belief Bias and Explanations ( http://arxiv.org/abs/2106.15355v1 )

ライセンス: CC BY 4.0
Ana Valeria Gonzalez, Anna Rogers, Anders S{\o}gaard(参考訳) 近年,数多くの説明可能性法が提案されているが,その評価方法についてのコンセンサスはほとんどない。 自動メトリクスはクイックベンチマークを可能にするが、そのようなメトリクスが説明とのヒューマンインタラクションをどのように反映するかは明確ではない。 人間の評価は極めて重要であるが、以前のプロトコルは人間のパフォーマンスに影響する信念バイアスを考慮せず、誤解を招く結論につながる可能性がある。 我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について概説する。 2つの実験パラダイムについて,人間の先行する信念を説明する簡単な方法を導入するグラデーションに基づく説明可能性のケーススタディを提案する。 評価における信念バイアスを考慮に入れることの重要性を指摘し,高パフォーマンス手法に関する結論が変化していることを示す。

A myriad of explainability methods have been proposed in recent years, but there is little consensus on how to evaluate them. While automatic metrics allow for quick benchmarking, it isn't clear how such metrics reflect human interaction with explanations. Human evaluation is of paramount importance, but previous protocols fail to account for belief biases affecting human performance, which may lead to misleading conclusions. We provide an overview of belief bias, its role in human evaluation, and ideas for NLP practitioners on how to account for it. For two experimental paradigms, we present a case study of gradient-based explainability introducing simple ways to account for humans' prior beliefs: models of varying quality and adversarial examples. We show that conclusions about the highest performing methods change when introducing such controls, pointing to the importance of accounting for belief bias in evaluation.
翻訳日:2021-07-01 00:00:37 公開日:2021-06-29
# (参考訳) スパースおよび生成前駆体を用いたサンプル最適圧縮相検索に向けて [全文訳有]

Towards Sample-Optimal Compressive Phase Retrieval with Sparse and Generative Priors ( http://arxiv.org/abs/2106.15358v1 )

ライセンス: CC BY 4.0
Zhaoqiang Liu, Subhroshekhar Ghosh, Jonathan Scarlett(参考訳) 圧縮相検索は標準圧縮センシング問題の一般的な変種であり、測定にはマグニチュード情報のみが含まれる。 本稿では, 深層生成モデルの最近の進歩を動機として, 生成前の位相探索において, 次数-最適サンプル複雑性境界を持つ回復保証を提供する。 まず i. i. d. を使う時に ガウス測度と約$k$-次元入力を持つ$L$-Lipschitz連続生成モデル、およそ$O(k \log L)$サンプルは、信号が振幅に基づく経験的損失関数を最小化するベクトルに近いことを保証するのに十分である。 このサンプルの複雑さを実用的なアルゴリズムで達成することは難しい課題であり、人気のあるスペクトル初期化法が大きなボトルネックとなる。 これを部分的に解決するために、およそ$O(k \log L)$サンプルは、スペクトル初期化のために設計された最適化問題に対して、信号と任意の {\em Global optimal} 解の間の十分な近接性を保証する(そのような解を見つけることは依然として困難である)。 この結果はスパース位相検索に適応し、基礎となる信号が$s$-sparseおよび$n$-dimensionalで情報理論の下界と一致する場合、$O(s \log n)$サンプルは同様の保証に十分であることを示す。 提案手法は, 実測アルゴリズムと直接対応しないが, 実験により, スパース位相検索の既存のスペクトル初期化手法と比較して, 顕著な性能向上を実証し, 実測的なスペクトル初期化手法を提案する。

Compressive phase retrieval is a popular variant of the standard compressive sensing problem, in which the measurements only contain magnitude information. In this paper, motivated by recent advances in deep generative models, we provide recovery guarantees with order-optimal sample complexity bounds for phase retrieval with generative priors. We first show that when using i.i.d. Gaussian measurements and an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs, roughly $O(k \log L)$ samples suffice to guarantee that the signal is close to any vector that minimizes an amplitude-based empirical loss function. Attaining this sample complexity with a practical algorithm remains a difficult challenge, and a popular spectral initialization method has been observed to pose a major bottleneck. To partially address this, we further show that roughly $O(k \log L)$ samples ensure sufficient closeness between the signal and any {\em globally optimal} solution to an optimization problem designed for spectral initialization (though finding such a solution may still be challenging). We adapt this result to sparse phase retrieval, and show that $O(s \log n)$ samples are sufficient for a similar guarantee when the underlying signal is $s$-sparse and $n$-dimensional, matching an information-theoreti c lower bound. While our guarantees do not directly correspond to a practical algorithm, we propose a practical spectral initialization method motivated by our findings, and experimentally observe significant performance gains over various existing spectral initialization methods of sparse phase retrieval.
翻訳日:2021-06-30 23:45:25 公開日:2021-06-29
# (参考訳) 逆ロバストなマルチラベル分類のための攻撃伝達性評価 [全文訳有]

Attack Transferability Characterization for Adversarially Robust Multi-label Classification ( http://arxiv.org/abs/2106.15360v1 )

ライセンス: CC BY 4.0
Zhuo Yang, Yufei Han, Xiangliang Zhang(参考訳) マルチラベル回避攻撃が広範に存在するにもかかわらず、マルチラベル学習システムの対角的脆弱性の起源を特徴づけ、その攻撃可能性を評価することは、オープンで不可欠な問題である。 本研究では,マルチラベル分類器に対する非目標回避攻撃に着目した。 脅威の目標は、可能な限り多くのラベルに対して、同じ入力摂動を伴うミス分類を引き起こすことである。 本研究は,マルチラベル分類器の機能的特性に基づいて,まず攻撃の伝達性を特徴付けることにより,マルチラベル攻撃の詳細な理解を得る。 我々は,攻撃の伝達可能性レベルが,敵のリスクに関する情報理論的解析を確立することにより,分類器の攻撃性を決定する方法を明らかにする。 さらに,sae(soft attackability estimator)と呼ばれる移動性中心攻撃性評価法を提案し,対象とするマルチラベル分類器の脆弱性レベルを評価する。 この推定器は変換可能性調整正規化項として多ラベル学習パラダイムに統合され、逆向きに堅牢な分類を実現する。 実世界データに関する実験的研究は,理論解析を反映し,トランスファー可能性正規化マルチラベル学習法の有効性を検証する。

Despite of the pervasive existence of multi-label evasion attack, it is an open yet essential problem to characterize the origin of the adversarial vulnerability of a multi-label learning system and assess its attackability. In this study, we focus on non-targeted evasion attack against multi-label classifiers. The goal of the threat is to cause miss-classification with respect to as many labels as possible, with the same input perturbation. Our work gains in-depth understanding about the multi-label adversarial attack by first characterizing the transferability of the attack based on the functional properties of the multi-label classifier. We unveil how the transferability level of the attack determines the attackability of the classifier via establishing an information-theoreti c analysis of the adversarial risk. Furthermore, we propose a transferability-cent ered attackability assessment, named Soft Attackability Estimator (SAE), to evaluate the intrinsic vulnerability level of the targeted multi-label classifier. This estimator is then integrated as a transferability-tuni ng regularization term into the multi-label learning paradigm to achieve adversarially robust classification. The experimental study on real-world data echos the theoretical analysis and verify the validity of the transferability-regu larized multi-label learning method.
翻訳日:2021-06-30 22:59:07 公開日:2021-06-29
# (参考訳) MAMLはノイズの多いコントラスト学習者である [全文訳有]

MAML is a Noisy Contrastive Learner ( http://arxiv.org/abs/2106.15367v1 )

ライセンス: CC BY 4.0
Chia-Hsiang Kao, Wei-Chen Chiu and Pin-Yu Chen(参考訳) モデルに依存しないメタラーニング(MAML)は、近年最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。 しかし、タスク固有の学習とメタモデル中心の学習をそれぞれ管理するネストしたインナーループと外ループのユニークな設計により、MAMLの基盤となる学習目的は依然として暗黙的なままであり、それによってより直接的な理解を妨げる。 本稿では,MAMLの動作機構に対する新たな視点を提供する。MAMLは,教師付きコントラスト対象関数を用いたメタラーナに類似しており,クエリ特徴が同一クラスのサポート特徴と異なるクラスのサポート特徴に向けられ,このようなコントラスト性はコサイン類似性に基づく分析によって実験的に検証される。 さらに,バニラmamlアルゴリズムはランダム初期化とクロスタスク相互作用から生じる望ましくない干渉項を持つことを明らかにした。 そこで,本手法がもたらす一貫した改善を実証するため,MiniImagenetとOmniglotのデータセット上で広範囲な実験を行い,その効果を十分に検証する。

Model-agnostic meta-learning (MAML) is one of the most popular and widely-adopted meta-learning algorithms nowadays, which achieves remarkable success in various learning problems. Yet, with the unique design of nested inner-loop and outer-loop updates which respectively govern the task-specific and meta-model-centric learning, the underlying learning objective of MAML still remains implicit and thus impedes a more straightforward understanding of it. In this paper, we provide a new perspective to the working mechanism of MAML and discover that: MAML is analogous to a meta-learner using a supervised contrastive objective function, where the query features are pulled towards the support features of the same class and against those of different classes, in which such contrastiveness is experimentally verified via an analysis based on the cosine similarity. Moreover, our analysis reveals that the vanilla MAML algorithm has an undesirable interference term originating from the random initialization and the cross-task interaction. We therefore propose a simple but effective technique, zeroing trick, to alleviate such interference, where the extensive experiments are then conducted on both miniImagenet and Omniglot datasets to demonstrate the consistent improvement brought by our proposed technique thus well validating its effectiveness.
翻訳日:2021-06-30 22:37:46 公開日:2021-06-29
# (参考訳) 量子オートエンコーダの実用的可能性の検討 [全文訳有]

On exploring practical potentials of quantum auto-encoder with advantages ( http://arxiv.org/abs/2106.15432v1 )

ライセンス: CC BY 4.0
Yuxuan Du, Dacheng Tao(参考訳) 量子オートエンコーダ(QAE)は、高次元空間に存在する量子状態から低次元パターンを抽出する能力によって、量子物理学で遭遇する次元の呪いを和らげる強力なツールである。 魅力的な性質にもかかわらず、qaeの実用的応用についてはほとんど知られていない。 これらの問題に対処するために、QAEを用いて固有値を効率的に計算し、高次元量子状態の対応する固有ベクトルを低ランク特性で作成できることを証明する。 そこで我々は,QAEに基づく3つの効果的な学習プロトコルを考案し,低ランク状態の忠実度推定,量子ギブス状態準備,量子メトロジータスクをそれぞれ解決した。 特に、これらのプロトコルはすべてスケーラブルで、短期的な量子マシン上で簡単に実行できる。 さらに,提案手法の誤差範囲が従来の文献よりも優れていることを証明した。 数値シミュレーションは理論解析と協調する。 我々の研究は、様々な量子物理学や量子情報処理問題にスケーラブルな方法で取り組むためにQAEを活用する新たな道を開く。

Quantum auto-encoder (QAE) is a powerful tool to relieve the curse of dimensionality encountered in quantum physics, celebrated by the ability to extract low-dimensional patterns from quantum states living in the high-dimensional space. Despite its attractive properties, little is known about the practical applications of QAE with provable advantages. To address these issues, here we prove that QAE can be used to efficiently calculate the eigenvalues and prepare the corresponding eigenvectors of a high-dimensional quantum state with the low-rank property. With this regard, we devise three effective QAE-based learning protocols to solve the low-rank state fidelity estimation, the quantum Gibbs state preparation, and the quantum metrology tasks, respectively. Notably, all of these protocols are scalable and can be readily executed on near-term quantum machines. Moreover, we prove that the error bounds of the proposed QAE-based methods outperform those in previous literature. Numerical simulations collaborate with our theoretical analysis. Our work opens a new avenue of utilizing QAE to tackle various quantum physics and quantum information processing problems in a scalable way.
翻訳日:2021-06-30 22:21:57 公開日:2021-06-29
# (参考訳) モデルによらない説明から意味論的推論 [全文訳有]

Semantic Reasoning from Model-Agnostic Explanations ( http://arxiv.org/abs/2106.15433v1 )

ライセンス: CC0 1.0
Timen Stepi\v{s}nik Perdih, Nada Lavra\v{c}, Bla\v{z} \v{S}krlj(参考訳) ブラックボックスモデルが広く採用されると、limeやshapといったインスタンスベースの\emph{post hoc}説明ツールが普及した。 これらのツールは、与えられた予測に関連する重要な特徴の貢献を指摘し、説明を生成する。 しかし、得られた説明は生の特徴レベルに留まり、広範なドメイン知識を持たない人間の専門家によっては必ずしも理解できない。 ReEx(Reasoning with Explanations, Reasoning with Explanations)は、SHAPのような任意のインスタンスレベルの説明者によって生成される説明に適用できる手法である。 背景知識をオントロジーの形で使用することにより、インスタンス説明を最小の一般化のような方法で一般化する。 得られた記号的記述は個々のクラスに特有であり、説明者の出力に基づいて一般化を提供する。 派生したセマンティックな説明は、生物学的プロセスのレベルで、より一般的な背景知識の文脈における重要な属性を記述するため、潜在的に有益である。 本稿では,9つの生物学的データセット上でReExの性能を示すとともに,用語を特徴名に直接リンクする一般的なオントロジーマッピングよりも,コンパクトで意味的な説明が得られることを示す。 ReExはシンプルなPythonライブラリとして提供され、SHAPなどのツールと互換性がある。 我々の知る限り、これは意味論的推論と現代のモデル説明法を直接結合する最初の方法の1つである。 この紙はプレプリントです。 フル版 doi is 10.1109/sami50585.20 21.9378668

With the wide adoption of black-box models, instance-based \emph{post hoc} explanation tools, such as LIME and SHAP became increasingly popular. These tools produce explanations, pinpointing contributions of key features associated with a given prediction. However, the obtained explanations remain at the raw feature level and are not necessarily understandable by a human expert without extensive domain knowledge. We propose ReEx (Reasoning with Explanations), a method applicable to explanations generated by arbitrary instance-level explainers, such as SHAP. By using background knowledge in the form of ontologies, ReEx generalizes instance explanations in a least general generalization-like manner. The resulting symbolic descriptions are specific for individual classes and offer generalizations based on the explainer's output. The derived semantic explanations are potentially more informative, as they describe the key attributes in the context of more general background knowledge, e.g., at the biological process level. We showcase ReEx's performance on nine biological data sets, showing that compact, semantic explanations can be obtained and are more informative than generic ontology mappings that link terms directly to feature names. ReEx is offered as a simple-to-use Python library and is compatible with tools such as SHAP and similar. To our knowledge, this is one of the first methods that directly couples semantic reasoning with contemporary model explanation methods. This paper is a preprint. Full version's doi is: 10.1109/SAMI50585.20 21.9378668
翻訳日:2021-06-30 21:31:27 公開日:2021-06-29
# (参考訳) zoo-tuning: モデルの動物園からの適応移動 [全文訳有]

Zoo-Tuning: Adaptive Transfer from a Zoo of Models ( http://arxiv.org/abs/2106.15434v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhi Kou, Zhangjie Cao, Jianmin Wang, Mingsheng Long(参考訳) 様々な大規模データセット上のディープネットワークの開発により、事前訓練されたモデルの大きな動物園が利用可能である。 モデル動物園から転校する場合、古典的単モデルに基づく転校学習手法を各ソースモデルに適用することは高い計算負荷を被り、動物園の豊富な知識を十分に活用できない。 本稿では,これらの課題に対処するために,事前学習されたモデルのパラメータを目標タスクに適応的に転送することを学ぶためのemph{Zoo-Tuning}を提案する。 学習可能なチャネルアライメント層とアダプティブアグリゲーション層により、Zoo-Tuning \emph{adaptively aggregates channel aligned pretrained parameters} がターゲットモデルを導出し、複数のソースモデルを下流タスクに同時に適応させることで知識伝達を促進する。 アダプティブアグリゲーションは、トレーニングと推論の両方の計算コストを大幅に削減する。 さらに,バッチ平均ゲーティング値の時間的アンサンブルにより,推定時の保存コストを低減できる簡易なZoo-Tuningを提案する。 我々は,強化学習,画像分類,顔のランドマーク検出など,さまざまなタスクにおけるアプローチを評価した。 実験の結果,提案する適応伝達学習手法は,モデルの動物園からより効果的かつ効率的に知識を伝達できることがわかった。

With the development of deep networks on various large-scale datasets, a large zoo of pretrained models are available. When transferring from a model zoo, applying classic single-model based transfer learning methods to each source model suffers from high computational burden and cannot fully utilize the rich knowledge in the zoo. We propose \emph{Zoo-Tuning} to address these challenges, which learns to adaptively transfer the parameters of pretrained models to the target task. With the learnable channel alignment layer and adaptive aggregation layer, Zoo-Tuning \emph{adaptively aggregates channel aligned pretrained parameters} to derive the target model, which promotes knowledge transfer by simultaneously adapting multiple source models to downstream tasks. The adaptive aggregation substantially reduces the computation cost at both training and inference. We further propose lite Zoo-Tuning with the temporal ensemble of batch average gating values to reduce the storage cost at the inference time. We evaluate our approach on a variety of tasks, including reinforcement learning, image classification, and facial landmark detection. Experiment results demonstrate that the proposed adaptive transfer learning approach can transfer knowledge from a zoo of models more effectively and efficiently.
翻訳日:2021-06-30 21:18:15 公開日:2021-06-29
# (参考訳) 宇宙から野生の牛とエルクを検出する [全文訳有]

Detecting Cattle and Elk in the Wild from Space ( http://arxiv.org/abs/2106.15448v1 )

ライセンス: CC BY 4.0
Caleb Robinson, Anthony Ortiz, Lacey Hughey, Jared A. Stabach, Juan M. Lavista Ferres(参考訳) 非常に高解像度の衛星画像で大型の無重力動物(牛やエルクなど)を局在化・計数することは、生態学的研究を支援する上で重要な課題だ。 従来の研究では、これは深層学習法やサブメートルマルチスペクトル衛星画像で実現可能であることが示されている。 本研究では,画像中の動物数を推定するベースライン手法であるcownetを提案し,画像中の動物数を推定し,その位置をピクセルレベルで予測する手法を提案する。 また, 騒音ラベルの不確実性と, 環境モニタリングタスクにおけるステークホルダーが必要とする情報を考慮した, 大規模シーンにおけるカウントおよびローカライズタスクの評価手法を提案する。 最後に,シーン内のオブジェクトをカウントするart vision法を用いて,ベースライン手法のベンチマークを行った。 本稿では,カリフォルニア州ポイント・レーズ海浜の大規模景観における結果モデルの時間的一般化を特に検証する。 その結果,lc-fcnモデルが最も優れており,0.56から0.61の平均精度を達成し,3つのテストシーンの平均リコール率は0.78から0.92であった。

Localizing and counting large ungulates -- hoofed mammals like cows and elk -- in very high-resolution satellite imagery is an important task for supporting ecological studies. Prior work has shown that this is feasible with deep learning based methods and sub-meter multi-spectral satellite imagery. We extend this line of work by proposing a baseline method, CowNet, that simultaneously estimates the number of animals in an image (counts), as well as predicts their location at a pixel level (localizes). We also propose an methodology for evaluating such models on counting and localization tasks across large scenes that takes the uncertainty of noisy labels and the information needed by stakeholders in ecological monitoring tasks into account. Finally, we benchmark our baseline method with state of the art vision methods for counting objects in scenes. We specifically test the temporal generalization of the resulting models over a large landscape in Point Reyes Seashore, CA. We find that the LC-FCN model performs the best and achieves an average precision between 0.56 and 0.61 and an average recall between 0.78 and 0.92 over three held out test scenes.
翻訳日:2021-06-30 20:57:21 公開日:2021-06-29
# (参考訳) 表情認識における領域適応の体系的評価 [全文訳有]

A Systematic Evaluation of Domain Adaptation in Facial Expression Recognition ( http://arxiv.org/abs/2106.15453v1 )

ライセンス: CC BY 4.0
Yan San Kong, Varsha Suresh, Jonathan Soh, Desmond C. Ong(参考訳) 顔認識は商業的に重要な応用であるが、一般的な制限の一つは、ターゲット画像がモデルがトレーニングした画像とは全く異なる特性を持つ可能性がある、サンプル外分布の予測を必要とする場合が多いことである。 これらのモデルは、見当たらないターゲットドメインに対して、どの程度うまく、または悪いか? 本稿では,表情認識における領域適応の体系的評価について述べる。 最先端の伝達学習技術と6つの一般的な表情データセット(実験室で収集された3つと「内部3つ」)を用いて、最先端CNNモデルの分類精度を調べるために、広範囲なラウンドロビン実験を行った。 我々はまた、モデルが複数のソースデータセットから転送する能力を調べるマルチソース実験を行い、例えば、(i)内部設定(例えば、実験室から実験室)、(ii)クロスセット(例えば、実験室から実験室へ)、(iii)混合設定(例えば、実験室と野生から実験室へ)トランスファー学習実験を含む。 その結果,移動学習の精度は高くなく,対象のデータセットと慣用的に変化し,より少ない範囲のソースデータセットが得られることがわかった。 一般的に、転送に最適な設定は、事前訓練されたモデルの重みを微調整することであり、設定にかかわらず、より多くのデータセットによるトレーニングが転送性能を向上させることが分かる。 最後に、特にデプロイされたアプリケーションにおいて、ferモデルの一般化可能性に関するより(そして定期的な)系統的な調査の必要性について論じる。

Facial Expression Recognition is a commercially important application, but one common limitation is that applications often require making predictions on out-of-sample distributions, where target images may have very different properties from the images that the model was trained on. How well, or badly, do these models do on unseen target domains? In this paper, we provide a systematic evaluation of domain adaptation in facial expression recognition. Using state-of-the-art transfer learning techniques and six commonly-used facial expression datasets (three collected in the lab and three "in-the-wild"), we conduct extensive round-robin experiments to examine the classification accuracies for a state-of-the-art CNN model. We also perform multi-source experiments where we examine a model's ability to transfer from multiple source datasets, including (i) within-setting (e.g., lab to lab), (ii) cross-setting (e.g., in-the-wild to lab), (iii) mixed-setting (e.g., lab and wild to lab) transfer learning experiments. We find sobering results that the accuracy of transfer learning is not high, and varies idiosyncratically with the target dataset, and to a lesser extent the source dataset. Generally, the best settings for transfer include fine-tuning the weights of a pre-trained model, and we find that training with more datasets, regardless of setting, improves transfer performance. We end with a discussion of the need for more -- and regular -- systematic investigations into the generalizability of FER models, especially for deployed applications.
翻訳日:2021-06-30 20:46:37 公開日:2021-06-29
# (参考訳) グラフコントラスト学習による電子健康記録符号化 [全文訳有]

Few-Shot Electronic Health Record Coding through Graph Contrastive Learning ( http://arxiv.org/abs/2106.15467v1 )

ライセンス: CC BY 4.0
Shanshan Wang, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Huasheng Liang, Qiang Yan, Evangelos Kanoulas, Maarten de Rijke(参考訳) 電子健康記録 (EHR) コーディングは、各 EHR に ICD コードを割り当てるタスクである。 これまでのほとんどの研究は、頻繁なICDコードのみに焦点を当てるか、稀で頻繁なICDコードを同じように扱うかのどちらかであった。 これらの手法は、頻繁なICD符号に対して良好に動作するが、CD符号の極端に不均衡な分布のため、稀なICD符号の性能は十分ではない。 コントラストグラフベースの EHR コーディングフレームワークである CoGraph を用いて,数ショットの学習タスクとして EHR コーディングを再放送することにより,頻繁かつ稀な ICD コードの性能向上を図る。 まず,EHRから抽出した単語やエンティティがノードとして機能し,それらの関係がエッジとして機能するヘテロジニアスなHEWEグラフを構築する。 次に、CoGraphは、異なるICDコードからHEWEグラフ間の類似性と相似性を学び、それら間で情報を転送する。 数ショットの学習シナリオでは、モデルはトレーニング中の頻繁なICDコードのみにアクセスでき、頻繁なICDコードにのみ有用な機能をエンコードせざるを得ない。 このリスクを軽減するため、CoGraphは、転送可能な特徴をエンコードするためにHEWEグラフ構造を利用する2つのグラフコントラスト学習スキーム、GSCLとGECLを考案した。 GSCLはHEWEグラフからの異なるサブグラフの相互相関を利用しており、GECLはHEWEグラフの異なる臨床段階における相互相関を利用する。 MIMIC-IIIベンチマークデータセットの実験では、CoGraphは、頻繁なICDコードだけでなく、稀なコードでも、いくつかの評価指標で、最先端のEHR符号化法よりも大幅に優れていた。 頻繁なICD符号ではGSCLとGECLがそれぞれ分類精度を1.31%、F1を0.61%改善し、希少なICD符号ではCoGraphの方が2.12%と2.95%改善している。

Electronic health record (EHR) coding is the task of assigning ICD codes to each EHR. Most previous studies either only focus on the frequent ICD codes or treat rare and frequent ICD codes in the same way. These methods perform well on frequent ICD codes but due to the extremely unbalanced distribution of ICD codes, the performance on rare ones is far from satisfactory. We seek to improve the performance for both frequent and rare ICD codes by using a contrastive graph-based EHR coding framework, CoGraph, which re-casts EHR coding as a few-shot learning task. First, we construct a heterogeneous EHR word-entity (HEWE) graph for each EHR, where the words and entities extracted from an EHR serve as nodes and the relations between them serve as edges. Then, CoGraph learns similarities and dissimilarities between HEWE graphs from different ICD codes so that information can be transferred among them. In a few-shot learning scenario, the model only has access to frequent ICD codes during training, which might force it to encode features that are useful for frequent ICD codes only. To mitigate this risk, CoGraph devises two graph contrastive learning schemes, GSCL and GECL, that exploit the HEWE graph structures so as to encode transferable features. GSCL utilizes the intra-correlation of different sub-graphs sampled from HEWE graphs while GECL exploits the inter-correlation among HEWE graphs at different clinical stages. Experiments on the MIMIC-III benchmark dataset show that CoGraph significantly outperforms state-of-the-art methods on EHR coding, not only on frequent ICD codes, but also on rare codes, in terms of several evaluation indicators. On frequent ICD codes, GSCL and GECL improve the classification accuracy and F1 by 1.31% and 0.61%, respectively, and on rare ICD codes CoGraph has more obvious improvements by 2.12% and 2.95%.
翻訳日:2021-06-30 20:28:47 公開日:2021-06-29
# (参考訳) 異種ラベルノイズはニューラルネットの一般化にどのように影響するか? [全文訳有]

How Does Heterogeneous Label Noise Impact Generalization in Neural Nets? ( http://arxiv.org/abs/2106.15475v1 )

ライセンス: CC BY 4.0
Bidur Khanal and Christopher Kanan(参考訳) 誤ラベル付き例(ラベルノイズ)は、現実のコンピュータビジョンデータセットで一般的である。 深層ニューラルネットワークの学習におけるラベルノイズの影響は先行研究で研究されてきたが、これらの研究はラベルノイズの均質性、すなわちラベルノイズの程度にのみ焦点が当てられている。 しかし、現実の世界ではラベルノイズはしばしば異種であり、一部のカテゴリは他のカテゴリよりも大きな影響を受けている。 ここでは、文献のこのギャップに対処する。 異種ラベルノイズがラベルノイズを伴わないクラスに移行しなければ,ラベルノイズを持つクラスにのみ影響すると仮定した。 この仮説を検証するために,MNIST,CIFAR-10,CIFA R-100,MS-COCOを用いたコンピュータビジョン研究を設計し,マルチクラス,マルチタスク,マルチラベルシステムのトレーニング中に異種ラベルノイズを課した。 ラベルノイズは、転送がない限り、影響を受けるクラスにのみ影響します。

Incorrectly labeled examples, or label noise, is common in real-world computer vision datasets. While the impact of label noise on learning in deep neural networks has been studied in prior work, these studies have exclusively focused on homogeneous label noise, i.e., the degree of label noise is the same across all categories. However, in the real-world, label noise is often heterogeneous, with some categories being affected to a greater extent than others. Here, we address this gap in the literature. We hypothesized that heterogeneous label noise would only affect the classes that had label noise unless there was transfer from those classes to the classes without label noise. To test this hypothesis, we designed a series of computer vision studies using MNIST, CIFAR-10, CIFAR-100, and MS-COCO where we imposed heterogeneous label noise during the training of multi-class, multi-task, and multi-label systems. Our results provide evidence in support of our hypothesis: label noise only affects the class affected by it unless there is transfer.
翻訳日:2021-06-30 20:05:14 公開日:2021-06-29
# (参考訳) ガウス過程を用いた個人化フェデレーション学習 [全文訳有]

Personalized Federated Learning with Gaussian Processes ( http://arxiv.org/abs/2106.15482v1 )

ライセンス: CC0 1.0
Idan Achituve, Aviv Shamsian, Aviv Navon, Gal Chechik, Ethan Fetaya(参考訳) フェデレートラーニングは、クライアントデバイス上でクロスクライアント通信に制限のあるグローバルモデルを学ぶことを目的としている。 パーソナライズド・フェデレーション・ラーニング(PFL)はこの設定を拡張して、パーソナライズされたモデルを学ぶことで、クライアント間のデータの均一性を処理する。 この設定における重要な課題は、各クライアントがサイズに制限のあるユニークなデータを持っているにも関わらず、クライアント間で効果的に学習することである。 ここでは、深いカーネル学習を伴うガウス過程(GP)に基づくPFLの解であるpFedGPを紹介する。 GPは、ベイズの性質上、低データ構造でうまく機能する非常に表現力のあるモデルである。 しかし、GPをPFLに適用することは様々な課題を引き起こす。 主に、GPのパフォーマンスは優れたカーネル関数へのアクセスに大きく依存し、カーネルの学習には大規模なトレーニングセットが必要である。 そこで我々は,ニューラルネットワークによってパラメータ化された共有カーネル関数を,各クライアントのGP分類器を用いて学習する。 我々はさらに pFedGP を拡張して, 2 つの新しい手法を用いて点を誘導し, 1 つ目は低データ構造における一般化の改善に役立ち, 2 つ目は計算コストを削減した。 新規クライアントに限定したPAC-Bayes一般化を導出し,非空き保証を実証的に示す。 CIFAR-10, CIFAR-100, CINIC-10 による標準 PFL ベンチマークと, 入力雑音下での学習の新たな設定により, pFedGP は高い校正精度を達成し, ベースライン法を著しく上回り, 精度の 21% に達することを示した。

Federated learning aims to learn a global model that performs well on client devices with limited cross-client communication. Personalized federated learning (PFL) further extends this setup to handle data heterogeneity between clients by learning personalized models. A key challenge in this setting is to learn effectively across clients even though each client has unique data that is often limited in size. Here we present pFedGP, a solution to PFL that is based on Gaussian processes (GPs) with deep kernel learning. GPs are highly expressive models that work well in the low data regime due to their Bayesian nature. However, applying GPs to PFL raises multiple challenges. Mainly, GPs performance depends heavily on access to a good kernel function, and learning a kernel requires a large training set. Therefore, we propose learning a shared kernel function across all clients, parameterized by a neural network, with a personal GP classifier for each client. We further extend pFedGP to include inducing points using two novel methods, the first helps to improve generalization in the low data regime and the second reduces the computational cost. We derive a PAC-Bayes generalization bound on novel clients and empirically show that it gives non-vacuous guarantees. Extensive experiments on standard PFL benchmarks with CIFAR-10, CIFAR-100, and CINIC-10, and on a new setup of learning under input noise show that pFedGP achieves well-calibrated predictions while significantly outperforming baseline methods, reaching up to 21% in accuracy gain.
翻訳日:2021-06-30 19:53:58 公開日:2021-06-29
# (参考訳) 一般化直交問題に対する一般化パワー法:大域収束と最適化ランドスケープ解析

Generalized Power Method for Generalized Orthogonal Procrustes Problem: Global Convergence and Optimization Landscape Analysis ( http://arxiv.org/abs/2106.15493v1 )

ライセンス: CC BY 4.0
Shuyang Ling(参考訳) 複数の点雲が与えられたとき、これらの点雲が整列しているような剛性変換(回転、反射、シフト)をどうやって見つけるか。 この問題はGOPP(Generalized orthogonal Procrustes problem)として知られ、統計学、画像科学、コンピュータビジョンなどいくつかの科学分野において基本的な役割を果たす。 非常に現実的な重要性があるにもかかわらず、本質的な非凸性のため、依然として難しい計算問題である。 本稿では,一般化直交プロクリスト問題の半定値プログラミング(SDP)緩和について検討し,信号-雑音比(SNR)が比較的大きい場合,SDP緩和の厳密性は最小二乗推定器と完全に等しいことを示す。 また,適切な初期化を持つ効率的な一般化解法が最小二乗推定器への大域的線形収束を享受できることを証明した。 さらに,Burer-Monteiro の分解を解析し,SNR が大きければ,対応する最適化ランドスケープが急激な局所最適化を伴わないことを示す。 これは、ランダム初期化を持つ一階リーマン勾配法が通常、非凸性にもかかわらず満足のいく解を生み出す理由を説明する。 我々の研究のハイライトは、理論的な保証は純粋に代数的であり、ノイズの統計的性質に関する仮定を必要としないことである。 一般化直交プロクリスト問題の解法におけるSDP緩和の厳密性について,[Bandeira, Khoo, Singer, 2014]で提起された1つのオープン問題を部分的に解決した。 理論的解析を補完する数値シミュレーションが提供される。

Given a set of multiple point clouds, how to find the rigid transformations (rotation, reflection, and shifting) such that these point clouds are well aligned? This problem, known as the generalized orthogonal Procrustes problem (GOPP), plays a fundamental role in several scientific disciplines including statistics, imaging science and computer vision. Despite its tremendous practical importance, it is still a challenging computational problem due to the inherent nonconvexity. In this paper, we study the semidefinite programming (SDP) relaxation of the generalized orthogonal Procrustes problems and prove that the tightness of the SDP relaxation holds, i.e., the SDP estimator exactly equals the least squares estimator, if the signal-to-noise ratio (SNR) is relatively large. We also prove that an efficient generalized power method with a proper initialization enjoys global linear convergence to the least squares estimator. In addition, we analyze the Burer-Monteiro factorization and show the corresponding optimization landscape is free of spurious local optima if the SNR is large. This explains why first-order Riemannian gradient methods with random initializations usually produce a satisfactory solution despite the nonconvexity. One highlight of our work is that the theoretical guarantees are purely algebraic and do not require any assumptions on the statistical property of the noise. Our results partially resolve one open problem posed in [Bandeira, Khoo, Singer, 2014] on the tightness of the SDP relaxation in solving the generalized orthogonal Procrustes problem. Numerical simulations are provided to complement our theoretical analysis.
翻訳日:2021-06-30 19:28:09 公開日:2021-06-29
# (参考訳) ソーシャルメディアからの消費者信念文の分類 [全文訳有]

Classification of Consumer Belief Statements From Social Media ( http://arxiv.org/abs/2106.15498v1 )

ライセンス: CC BY 4.0
Gerhard Hagerer and Wenbin Le and Hannah Danner and Georg Groh(参考訳) ソーシャルメディアは、顧客の要求を満たすために市場調査を行うための多くの情報を提供している。 この研究の方法の1つは、ドメインの専門家がユーザ生成したコンテンツを複雑できめ細かいクラス構造にまとめて分類することです。 そのような場合、ほとんどデータが複雑なアノテーションを満たさない。 分類にどのように活用できるかは、まだ完全には分かっていない。 a) 細粒度クラスが多く,b) 抽象クラスが少ない場合,専門家ラベルの分類精度について検討する。 シナリオb) ドメインエキスパートによって与えられた抽象クラスラベルをベースラインと自動階層クラスタリングによって比較します。 これを、クラス構造全体が完全に教師なしのクラスタリングアプローチによって与えられる別のベースラインと比較する。 そうすることで、この研究は、専門家のアノテーションがいかに複雑で有益であるかの例となり、非常に特定のドメインにおける意見マイニングにおいて最も最適な方法で利用することができる。 様々な技術や実験を探索することにより、自動化されたクラス抽象化アプローチ、特に教師なしアプローチが、テキスト分類タスクのドメインエキスパートベースラインに対して著しく優れていることが分かる。 これは、市場研究者を実際に支援し、大規模できめ細かい自動コンテンツ分析を刺激するために、意見マイニングアプリケーションを促進する可能性がある。

Social media offer plenty of information to perform market research in order to meet the requirements of customers. One way how this research is conducted is that a domain expert gathers and categorizes user-generated content into a complex and fine-grained class structure. In many of such cases, little data meets complex annotations. It is not yet fully understood how this can be leveraged successfully for classification. We examine the classification accuracy of expert labels when used with a) many fine-grained classes and b) few abstract classes. For scenario b) we compare abstract class labels given by the domain expert as baseline and by automatic hierarchical clustering. We compare this to another baseline where the entire class structure is given by a completely unsupervised clustering approach. By doing so, this work can serve as an example of how complex expert annotations are potentially beneficial and can be utilized in the most optimal way for opinion mining in highly specific domains. By exploring across a range of techniques and experiments, we find that automated class abstraction approaches in particular the unsupervised approach performs remarkably well against domain expert baseline on text classification tasks. This has the potential to inspire opinion mining applications in order to support market researchers in practice and to inspire fine-grained automated content analysis on a large scale.
翻訳日:2021-06-30 19:26:56 公開日:2021-06-29
# (参考訳) 自己コントラスト学習 [全文訳有]

Self-Contrastive Learning ( http://arxiv.org/abs/2106.15499v1 )

ライセンス: CC BY 4.0
Sangmin Bae, Sungnyun Kim, Jongwoo Ko, Gihun Lee, Seungjong Noh, Se-Young Yun(参考訳) 本稿では,ネットワークの異なるレベルから複数のアウトプット内で自己コントラストを学習する,自己コントラスト学習(SelfContrastive Learning,SelfCon)と呼ばれる新しいコントラスト学習フレームワークを提案する。 我々は、SelfCon損失が中間表現と最後の表現の間の相互情報の低境界を保証することを確認した。 さらに,様々なMI推定器を用いて,自己Con損失はMIの増加と分類性能の向上に大きく相関することを示した。 実験では,マルチビューのバッチを必要とせず,より安価な計算コストで教師付きコントラスト(supcon)学習を超越した。 In particular on ResNet-18, we achieved top-1 classification accuracy of 76.45% for the CIFAR-100 data, which is 2.87% and 4.36% higher than SupCon and cross-entropy loss。 グラデーションの消失とオーバーフィッティングの問題の両方を緩和することで、私たちのメソッドがそれよりも優れていることが分かりました。

This paper proposes a novel contrastive learning framework, coined as Self-Contrastive (SelfCon) Learning, that self-contrasts within multiple outputs from the different levels of a network. We confirmed that SelfCon loss guarantees the lower bound of mutual information (MI) between the intermediate and last representations. Besides, we empirically showed, via various MI estimators, that SelfCon loss highly correlates to the increase of MI and better classification performance. In our experiments, SelfCon surpasses supervised contrastive (SupCon) learning without the need for a multi-viewed batch and with the cheaper computational cost. Especially on ResNet-18, we achieved top-1 classification accuracy of 76.45% for the CIFAR-100 dataset, which is 2.87% and 4.36% higher than SupCon and cross-entropy loss, respectively. We found that mitigating both vanishing gradient and overfitting issue makes our method outperform the counterparts.
翻訳日:2021-06-30 19:18:33 公開日:2021-06-29
# (参考訳) Curious Explorer: 政策学習における実証可能な探索戦略

Curious Explorer: a provable exploration strategy in Policy Learning ( http://arxiv.org/abs/2106.15503v1 )

ライセンス: CC BY 4.0
Marco Miani, Maurizio Parton, Marco Romito(参考訳) 再スタート分布(いわゆるワイドカバレッジ仮定)へのアクセスは、ポリシー勾配法において極めて重要である。 これは、目的関数が不可能な状態の更新に敏感であるのに対して、エージェントがほぼ最適のペイオフに達するためには、これらの状態を改善する必要があるという事実による。 このため、実用的な政策勾配法の理論的性質を解析する際には、広い範囲が何らかの形で用いられる。 しかし、学習がオンラインである場合や、固定初期状態からのみ再起動が可能な場合など、特定の環境では実現不可能である。 このような場合、古典的なポリシー勾配アルゴリズムは収束特性やサンプル効率が非常に劣る。 本稿では,任意の開始分布を$\rho$で利用可能な,新規かつシンプルな反復的状態空間探索戦略であるCurious Explorerを開発する。 Curious Explorerは$\rho$から始まり、未訪問状態の集合に割り当てられた本質的な報酬を使用して一連のポリシーを生成し、それぞれがインフォメーションされた方法で前のものよりも探索的になり、最終的に探索ポリシーの状態訪問分布に基づいて再起動モデル$\mu$を出力する。 キュリオシティー・エクスプローラー(Curious Explorer)は、最適な政策が訪問不足の州をいかに頻繁に訪れるかという理論的上限を提供するという意味で、証明可能である。 これらのバウンダリは、Curious ExplorerにPACオプティマイザを差し込むと、PAC収束とサンプル効率を証明できる。 これにより、広範囲なカバレッジでpac収束を確実にする他のポリシーグラデーション手法に対して、補足のためのカバレッジ仮定なしに、グローバル収束とサンプル効率結果を達成することができる。 最後に、Curious ExplorerをREINFORCEとTRPOに(出力)プラグインし、探索に挑戦してMDPの性能を向上させることを実証的に示す。

Having access to an exploring restart distribution (the so-called wide coverage assumption) is critical with policy gradient methods. This is due to the fact that, while the objective function is insensitive to updates in unlikely states, the agent may still need improvements in those states in order to reach a nearly optimal payoff. For this reason, wide coverage is used in some form when analyzing theoretical properties of practical policy gradient methods. However, this assumption can be unfeasible in certain environments, for instance when learning is online, or when restarts are possible only from a fixed initial state. In these cases, classical policy gradient algorithms can have very poor convergence properties and sample efficiency. In this paper, we develop Curious Explorer, a novel and simple iterative state space exploration strategy that can be used with any starting distribution $\rho$. Curious Explorer starts from $\rho$, then using intrinsic rewards assigned to the set of poorly visited states produces a sequence of policies, each one more exploratory than the previous one in an informed way, and finally outputs a restart model $\mu$ based on the state visitation distribution of the exploratory policies. Curious Explorer is provable, in the sense that we provide theoretical upper bounds on how often an optimal policy visits poorly visited states. These bounds can be used to prove PAC convergence and sample efficiency results when a PAC optimizer is plugged in Curious Explorer. This allows to achieve global convergence and sample efficiency results without any coverage assumption for REINFORCE, and potentially for any other policy gradient method ensuring PAC convergence with wide coverage. Finally, we plug (the output of) Curious Explorer into REINFORCE and TRPO, and show empirically that it can improve performance in MDPs with challenging exploration.
翻訳日:2021-06-30 19:01:53 公開日:2021-06-29
# (参考訳) GraphAnoGAN: 分散グラフから異常スナップショットを検出する [全文訳有]

GraphAnoGAN: Detecting Anomalous Snapshots from Attributed Graphs ( http://arxiv.org/abs/2106.15504v1 )

ライセンス: CC BY 4.0
Siddharth Bhatia, Yiwei Wang, Bryan Hooi, Tanmoy Chakraborty(参考訳) グラフから異常なスナップショットを見つけることは、最近大きな注目を集めている。 既存の研究では、サブスペースの選択、エゴネットワーク、コミュニティ分析などの浅い学習メカニズムを用いてこの問題に対処している。 これらのモデルは、ネットワークの構造と属性の間の多面的相互作用を考慮していない。 本稿では,2つのコアコンポーネント – 生成的および識別的モデル – からなる,異常なスナップショットランキングフレームワークであるgraphanoganを提案する。 具体的には、生成モデルは、グラフスナップショットの候補セットから異常なサンプルの分布を近似し、識別モデルは、サンプリングされたスナップショットが地中からのものであるか否かを検出する。 4つの実世界のネットワークでの実験では、GraphAnoGANは6つのベースライン(全データセットで平均される最良ベースラインと比較して、それぞれ28.29%と22.01%高い精度とリコール)を上回っている。

Finding anomalous snapshots from a graph has garnered huge attention recently. Existing studies address the problem using shallow learning mechanisms such as subspace selection, ego-network, or community analysis. These models do not take into account the multifaceted interactions between the structure and attributes in the network. In this paper, we propose GraphAnoGAN, an anomalous snapshot ranking framework, which consists of two core components -- generative and discriminative models. Specifically, the generative model learns to approximate the distribution of anomalous samples from the candidate set of graph snapshots, and the discriminative model detects whether the sampled snapshot is from the ground-truth or not. Experiments on 4 real-world networks show that GraphAnoGAN outperforms 6 baselines with a significant margin (28.29% and 22.01% higher precision and recall, respectively compared to the best baseline, averaged across all datasets).
翻訳日:2021-06-30 19:00:13 公開日:2021-06-29
# (参考訳) 適応的コスト感応損失関数に基づく高速高精度道路き裂検出 [全文訳有]

Fast and Accurate Road Crack Detection Based on Adaptive Cost-Sensitive Loss Function ( http://arxiv.org/abs/2106.15510v1 )

ライセンス: CC BY 4.0
Kai Li, Bo Wang, Yingjie Tian, and Zhiquan Qi(参考訳) 道路ひび割れ検出を含むコンピュータビジョンにおける多数の検出問題は、前景と後景の不均衡に苦しむ。 幸いなことに、損失関数の修正はこのパズルを何度となく解くように見える。 本稿では,Jaccard距離と連動して画素ベースの適応重み付きクロスエントロピー損失を提案し,高品質な画素レベルの道路亀裂検出を実現する。 本研究は, 検出結果に対する損失関数の影響を深く示し, 亀裂検出領域における高精度な連続的改善に光を当てる。 具体的には,提案手法の有効性を検証するために,クラックフォレスト,aiglern,crack360,bj n260の4つの公開データベースについて広範な実験を行った。 バニラ重み付きクロスエントロピーと比較して、提案された損失は試験精度を維持しながらトレーニングプロセスを著しく高速化する。

Numerous detection problems in computer vision, including road crack detection, suffer from exceedingly foreground-backgroun d imbalance. Fortunately, modification of loss function appears to solve this puzzle once and for all. In this paper, we propose a pixel-based adaptive weighted cross-entropy loss in conjunction with Jaccard distance to facilitate high-quality pixel-level road crack detection. Our work profoundly demonstrates the influence of loss functions on detection outcomes, and sheds light on the sophisticated consecutive improvements in the realm of crack detection. Specifically, to verify the effectiveness of the proposed loss, we conduct extensive experiments on four public databases, i.e., CrackForest, AigleRN, Crack360, and BJN260. Compared with the vanilla weighted cross-entropy, the proposed loss significantly speeds up the training process while retaining the test accuracy.
翻訳日:2021-06-30 18:48:04 公開日:2021-06-29
# (参考訳) 分子特性予測のための幾何対応トランス [全文訳有]

Geometry-aware Transformer for molecular property prediction ( http://arxiv.org/abs/2106.15516v1 )

ライセンス: CC BY 4.0
Bumju Kwak, Jeonghee Jo, Byunghan Lee, Sungroh Yoon(参考訳) 近年,グラフニューラルネットワーク(GNN)は量子力学的問題に対して顕著な性能を発揮している。 しかし、グラフの畳み込みは局所化領域のみをカバーすることができ、原子の長距離相互作用を捉えることはできない。 この挙動は、空間ベースGNNの基本的制限である理論的原子間ポテンシャルとは反対である。 本稿では,分子特性予測タスクのための新しい注意に基づくフレームワークを提案する。 分子配座は原子-原子間距離特性と結合し,GeoT (Geometry-aware Transformer) と命名された。 特に,シーケンシャルデータに広く使用されているトランスフォーマーアーキテクチャを採用する。 提案モデルは分子グラフの逐次表現をグローバルに構築した注意に基づいて訓練し,原子対の空間配置をすべて維持する。 本手法は, アングル計算などのコスト集中計算に支障を来さない。 いくつかの公開ベンチマークと可視化マップによる実験結果から、長距離の原子間特性の維持がモデル予測可能性を大幅に改善することが確認された。

Recently, graph neural networks (GNNs) have achieved remarkable performances for quantum mechanical problems. However, a graph convolution can only cover a localized region, and cannot capture long-range interactions of atoms. This behavior is contrary to theoretical interatomic potentials, which is a fundamental limitation of the spatial based GNNs. In this work, we propose a novel attention-based framework for molecular property prediction tasks. We represent a molecular conformation as a discrete atomic sequence combined by atom-atom distance attributes, named Geometry-aware Transformer (GeoT). In particular, we adopt a Transformer architecture, which has been widely used for sequential data. Our proposed model trains sequential representations of molecular graphs based on globally constructed attentions, maintaining all spatial arrangements of atom pairs. Our method does not suffer from cost intensive computations, such as angle calculations. The experimental results on several public benchmarks and visualization maps verified that keeping the long-range interatomic attributes can significantly improve the model predictability.
翻訳日:2021-06-30 18:22:49 公開日:2021-06-29
# (参考訳) 静的BERT埋め込みを用いたヘイトスピーチ検出 [全文訳有]

Hate speech detection using static BERT embeddings ( http://arxiv.org/abs/2106.15537v1 )

ライセンス: CC BY 4.0
Gaurav Rajput, Narinder Singh punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) ソーシャルメディアプラットフォームの人気が高まっているなかで、暴力を広めるために性別、宗教、民族といった特定のグループの特徴をターゲットとした虐待的なスピーチを表現している。 以前の人々は口頭でヘイトスピーチを配信していたが、今やテクノロジーが拡大し、ソーシャルメディアプラットフォームを使ってヘイトスピーチを投稿、共有、コメントなどで広めている。 クライストチャーチ・モスクの銃撃事件であろうと、西側のアジア人に対する憎悪犯罪であろうと、受刑者はオンラインでのヘイト・テキストの影響を強く受けていることが観察されている。 このようなテキストにフラグを付けるAIシステムは存在するが、重要な課題の1つは、偽陽性率(憎悪を嫌悪とみなす)を下げることであり、これらのシステムは表現の自由を損なうことなくヘイトスピーチを検出することができる。 本稿では,ETHOS のヘイトスピーチ検出データセットを用いて,単語埋め込み (fastText (FT), GloVe (GV), FT + GV) を静的BERT埋め込み (BE) に置き換えることにより,ヘイトスピーチ検出分類器の性能を解析する。 実験により, 単語埋め込みとしてFT, GV, FT + GVを用いた場合と比較して, ニューラルネットワークは静的BEで良好な性能を示した。 細調整されたBERTと比較して、大幅に改善された指標は特異性である。

With increasing popularity of social media platforms hate speech is emerging as a major concern, where it expresses abusive speech that targets specific group characteristics, such as gender, religion or ethnicity to spread violence. Earlier people use to verbally deliver hate speeches but now with the expansion of technology, some people are deliberately using social media platforms to spread hate by posting, sharing, commenting, etc. Whether it is Christchurch mosque shootings or hate crimes against Asians in west, it has been observed that the convicts are very much influenced from hate text present online. Even though AI systems are in place to flag such text but one of the key challenges is to reduce the false positive rate (marking non hate as hate), so that these systems can detect hate speech without undermining the freedom of expression. In this paper, we use ETHOS hate speech detection dataset and analyze the performance of hate speech detection classifier by replacing or integrating the word embeddings (fastText (FT), GloVe (GV) or FT + GV) with static BERT embeddings (BE). With the extensive experimental trails it is observed that the neural network performed better with static BE compared to using FT, GV or FT + GV as word embeddings. In comparison to fine-tuned BERT, one metric that significantly improved is specificity.
翻訳日:2021-06-30 18:14:13 公開日:2021-06-29
# (参考訳) 医用画像翻訳のための不確実性誘導プログレッシブガン [全文訳有]

Uncertainty-Guided Progressive GANs for Medical Image Translation ( http://arxiv.org/abs/2106.15542v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Yanbei Chen, Tobias Hepp, Sergios Gatidis, Zeynep Akata(参考訳) 画像から画像への変換は、減衰補正、運動補正、アンサンプされた再構成、ノイズ除去などの様々な医療画像処理に重要な役割を果たしている。 生成的敵ネットワークは,これらのタスクに対して高忠実度画像を生成するための最先端技術を実現することが示されている。 しかし、現在最先端のGANベースのフレームワークは、情報化医療決定とその後の医療専門家による改訂に不可欠なネットワークによる予測の不確かさを見積もっておらず、最近、そのモデルの性能と解釈性の向上が示されている。 本研究では,画像間翻訳のための不確実性誘導学習手法を提案する。 漸進的に訓練されたGANの注意マップとしてアレタリック不確かさを取り入れることで、徐々に忠実度が増大する画像を生成する。 PETからCTへの変換,MRIのアンサンプ化,MRIの運動アーチファクト補正などの3つの課題に対して,本モデルの有効性を実証した。 私たちのモデルは3つの異なるタスクでうまく一般化し、限られたデータで完全なスーパービジョンと弱いスーパービジョンの下での最先端のパフォーマンスを改善します。 https://github.com/E xplainableML/UncerGu idedI2I

Image-to-image translation plays a vital role in tackling various medical imaging tasks such as attenuation correction, motion correction, undersampled reconstruction, and denoising. Generative adversarial networks have been shown to achieve the state-of-the-art in generating high fidelity images for these tasks. However, the state-of-the-art GAN-based frameworks do not estimate the uncertainty in the predictions made by the network that is essential for making informed medical decisions and subsequent revision by medical experts and has recently been shown to improve the performance and interpretability of the model. In this work, we propose an uncertainty-guided progressive learning scheme for image-to-image translation. By incorporating aleatoric uncertainty as attention maps for GANs trained in a progressive manner, we generate images of increasing fidelity progressively. We demonstrate the efficacy of our model on three challenging medical image translation tasks, including PET to CT translation, undersampled MRI reconstruction, and MRI motion artefact correction. Our model generalizes well in three different tasks and improves performance over state of the art under full-supervision and weak-supervision with limited data. Code is released here: https://github.com/E xplainableML/UncerGu idedI2I
翻訳日:2021-06-30 18:05:33 公開日:2021-06-29
# (参考訳) Bayesian Confidence Propagation Neural Networkを用いた半教師付き学習 [全文訳有]

Semi-supervised learning with Bayesian Confidence Propagation Neural Network ( http://arxiv.org/abs/2106.15546v1 )

ライセンス: CC BY-SA 4.0
Naresh Balaji Ravichandran, Anders Lansner, Pawel Herman(参考訳) ラベルなしのデータから内部表現を学ぶことは、大量のラベルなしデータを使用することを可能にする機械学習研究に有用である。 本研究では,BCPNN(Bayes Confidence Propagation Neural Network)モデルを用いた。 近年,これらのネットワークがベイズ・ヘビー語学習規則を用いて,データから有用な内部表現を学習できることが実証されている。 本稿では,これらの表現を半教師設定でどのように活用できるかを,分類器の分類・比較によって示す。 また,このネットワークを他の一般的な半教師付き分類器と比較した。

Learning internal representations from data using no or few labels is useful for machine learning research, as it allows using massive amounts of unlabeled data. In this work, we use the Bayesian Confidence Propagation Neural Network (BCPNN) model developed as a biologically plausible model of the cortex. Recent work has demonstrated that these networks can learn useful internal representations from data using local Bayesian-Hebbian learning rules. In this work, we show how such representations can be leveraged in a semi-supervised setting by introducing and comparing different classifiers. We also evaluate and compare such networks with other popular semi-supervised classifiers.
翻訳日:2021-06-30 17:41:24 公開日:2021-06-29
# (参考訳) 画像品質向上のための混合スーパービジョン多レベルGANフレームワーク [全文訳有]

A Mixed-Supervision Multilevel GAN Framework for Image Quality Enhancement ( http://arxiv.org/abs/2106.15575v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Suyash Awate(参考訳) 画像品質向上のためのディープニューラルネットワークは、通常、低品質の画像とそれに対応する高品質の画像からなる大量の高度に計算されたトレーニングデータを必要とする。 高品質の画像取得は一般的に高価で時間を要するが、中質の画像は入手が早く、設備コストが低く、大量で利用可能である。 そこで本稿では,複数の品質レベル(高品質,中品質など)のトレーニングデータを活用し,データキュレーションのコストを制限しつつ,パフォーマンスを向上させることを目的とした,新たなジェネレーティブ・アドバーサリー・ネットワーク(gan)を提案する。 我々は, (i) super-resolve histopathology images と (ii) super- resolution と surgical smoke removal を併用した腹腔鏡画像の強調を行った。 臨床および臨床前の大規模データセットの結果は,術式に対する混合スーパービジョンGANの利点を示している。

Deep neural networks for image quality enhancement typically need large quantities of highly-curated training data comprising pairs of low-quality images and their corresponding high-quality images. While high-quality image acquisition is typically expensive and time-consuming, medium-quality images are faster to acquire, at lower equipment costs, and available in larger quantities. Thus, we propose a novel generative adversarial network (GAN) that can leverage training data at multiple levels of quality (e.g., high and medium quality) to improve performance while limiting costs of data curation. We apply our mixed-supervision GAN to (i) super-resolve histopathology images and (ii) enhance laparoscopy images by combining super-resolution and surgical smoke removal. Results on large clinical and pre-clinical datasets show the benefits of our mixed-supervision GAN over the state of the art.
翻訳日:2021-06-30 17:36:24 公開日:2021-06-29
# (参考訳) 連続作用空間におけるモンテカルロ計画のための有限深度帯域ベース戦略 [全文訳有]

Limited depth bandit-based strategy for Monte Carlo planning in continuous action spaces ( http://arxiv.org/abs/2106.15594v1 )

ライセンス: CC BY 4.0
Ricardo Quinteiro, Francisco S. Melo, Pedro A. Santos(参考訳) 本稿では,探索木を用いた最適制御の問題に対処する。 まず,連続行動空間を用いたマルチアームバンディット問題を考察し,階層的楽観最適化(HOO)アルゴリズムの限定的な深度変種であるLD-HOOを提案する。 我々はLD-HOOの後悔解析を行い、漸近的に、我々のアルゴリズムは、より高速でよりメモリ効率の良いオリジナルのHOOと同じ累積後悔を示すことを示す。 次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。

This paper addresses the problem of optimal control using search trees. We start by considering multi-armed bandit problems with continuous action spaces and propose LD-HOO, a limited depth variant of the hierarchical optimistic optimization (HOO) algorithm. We provide a regret analysis for LD-HOO and show that, asymptotically, our algorithm exhibits the same cumulative regret as the original HOO while being faster and more memory efficient. We then propose a Monte Carlo tree search algorithm based on LD-HOO for optimal control problems and illustrate the resulting approach's application in several optimal control problems.
翻訳日:2021-06-30 17:26:42 公開日:2021-06-29
# (参考訳) スマートホームにおける環境支援生活のための屋内配置のためのマルチモーダルアプローチ

Multimodal Approaches for Indoor Localization for Ambient Assisted Living in Smart Homes ( http://arxiv.org/abs/2106.15606v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur and Chia Y. Han(参考訳) この研究は、スマートホームにおける環境支援生活の屋内局在の分野に、複数の科学的貢献をもたらしている。 まず,ユーザインタラクションのマルチモーダルコンポーネントを調査し,bluetooth low energy (ble) ビーコンおよびbleスキャナからデータを解析し,日常生活活動中の特定のアクティビティベースゾーンにおけるユーザの屋内位置を検出するビッグデータ駆動手法を提案する。 第2に、さまざまな行動パターンから加速度計とジャイロスコープデータを解釈して、IoT(Internet of Things)ベースの環境において、ユーザのゾーンベースの屋内位置を検出する、コンテキストに依存しないアプローチを導入する。 これらの2つのアプローチは、それぞれ81.36%と81.13%のパフォーマンス向上を達成した。 第3に、関連するルート平均二乗誤差(ISO/IEC18305:2016におけるパフォーマンス評価指標の1つ)と同様に、この分野における全ての類似の作業に優れるユーザの屋内位置の空間座標を検出する手法を提案する。 最後に、Random Forest、Artificial Neural Network、Decision Tree、Support Vector Machine、k-NN、Gradient Boosted Trees、Deep Learning、Linear Regressionを含む包括的な比較研究を示し、屋内ローカライゼーションの最適な機械学習アプローチを特定するという課題に対処する。

This work makes multiple scientific contributions to the field of Indoor Localization for Ambient Assisted Living in Smart Homes. First, it presents a Big-Data driven methodology that studies the multimodal components of user interactions and analyzes the data from Bluetooth Low Energy (BLE) beacons and BLE scanners to detect a user's indoor location in a specific activity-based zone during Activities of Daily Living. Second, it introduces a context independent approach that can interpret the accelerometer and gyroscope data from diverse behavioral patterns to detect the zone-based indoor location of a user in any Internet of Things (IoT)-based environment. These two approaches achieved performance accuracies of 81.36% and 81.13%, respectively, when tested on a dataset. Third, it presents a methodology to detect the spatial coordinates of a user's indoor position that outperforms all similar works in this field, as per the associated root mean squared error - one of the performance evaluation metrics in ISO/IEC18305:2016- an international standard for testing Localization and Tracking Systems. Finally, it presents a comprehensive comparative study that includes Random Forest, Artificial Neural Network, Decision Tree, Support Vector Machine, k-NN, Gradient Boosted Trees, Deep Learning, and Linear Regression, to address the challenge of identifying the optimal machine learning approach for Indoor Localization.
翻訳日:2021-06-30 17:08:19 公開日:2021-06-29
# (参考訳) ユビキタス環境における環境知能に基づく行動モニタリングフレームワーク [全文訳有]

An Ambient Intelligence-Based Human Behavior Monitoring Framework for Ubiquitous Environments ( http://arxiv.org/abs/2106.15609v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur and Chia Y. Han(参考訳) このヒューマンビヘイビアモニタリングの枠組みは、日常生活活動(adl)中の人間の行動を研究し、追跡し、監視し、分析するための包括的アプローチを取ることを目的としている。 フレームワークは2つの新しい機能から構成される。 まず、ADL中の多様なコンテキストパラメータにおけるユーザインタラクションのセマンティック分析を行い、異なる複雑なアクティビティに関連する異なる行動パターンのリストを識別する。 第2に、これらの行動パターンとその環境の動的文脈的および空間的特徴との関係を分析し、緊急性を構成する可能性のあるユーザーの行動の異常を検出するインテリジェントな意思決定アルゴリズムである。 これらの学際的フレームワークの機能は、人間とコンピュータのインタラクション、機械学習、モノのインターネット、パターン認識、ユビキタスコンピューティングにおける最新の進歩と技術を統合することによって開発された。 このフレームワークはadlのデータセット上で評価され、これら2つの機能の性能は76.71%と83.87%であった。 本研究は,IoT(Internet of Things, モノのインターネット)を基盤とするユビキタスな生活環境(スマートホームなど)の将来において,生活の質向上に貢献する上での,この枠組みの意義と大きな可能性を裏付けるものである。

This framework for human behavior monitoring aims to take a holistic approach to study, track, monitor, and analyze human behavior during activities of daily living (ADLs). The framework consists of two novel functionalities. First, it can perform the semantic analysis of user interactions on the diverse contextual parameters during ADLs to identify a list of distinct behavioral patterns associated with different complex activities. Second, it consists of an intelligent decision-making algorithm that can analyze these behavioral patterns and their relationships with the dynamic contextual and spatial features of the environment to detect any anomalies in user behavior that could constitute an emergency. These functionalities of this interdisciplinary framework were developed by integrating the latest advancements and technologies in human-computer interaction, machine learning, Internet of Things, pattern recognition, and ubiquitous computing. The framework was evaluated on a dataset of ADLs, and the performance accuracies of these two functionalities were found to be 76.71% and 83.87%, respectively. The presented and discussed results uphold the relevance and immense potential of this framework to contribute towards improving the quality of life and assisted living of the aging population in the future of Internet of Things (IoT)-based ubiquitous living environments, e.g., smart homes.
翻訳日:2021-06-30 17:06:56 公開日:2021-06-29
# (参考訳) 高齢者の知的感情認識型スマートホーム環境のための枠組み [全文訳有]

Framework for an Intelligent Affect Aware Smart Home Environment for Elderly People ( http://arxiv.org/abs/2106.15599v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur and Chia Y. Han(参考訳) 高齢者の人口は過去数十年間で急速に増加しており、今後さらに増加すると予想されている。 人口の増加は、身体障害や認知の問題、記憶力の弱体化、高齢者が年齢とともに直面する無秩序な行動といった問題によるニーズの増加に関連している。 世界経済への財政負担を軽減し、生活の質を高めるためには、自然に適応し、アシストし、インテリジェントな技術に基づくソリューションを開発することが不可欠である。 iotベースの環境において、日々のテクノロジーとのインタラクションの文脈で高齢者の行動を分析するだけでなく、予測することのできるインテリジェントな影響認識システムは、スマートホームにおける高齢者のユーザエクスペリエンスを改善するための長期的なソリューションとして大きな可能性を秘めている。 そこで本研究では,高齢者を対象とした知的影響意識環境の枠組みを提案する。高齢者はインタラクションの情緒的要素を分析できるだけでなく,スマートホーム環境において活動を開始する前にユーザエクスペリエンスを予測することができる。 このユーザエクスペリエンスの予測は、そのようなインテリジェントなシステムの補助的かつ適応的な性質を高めるためのスコープを提供する。 スマートホームにおける高齢者の生活の質向上のための枠組みの有効性を実証するため,3つのデータセットを用いて検証を行い,その結果について考察した。

The population of elderly people has been increasing at a rapid rate over the last few decades and their population is expected to further increase in the upcoming future. Their increasing population is associated with their increasing needs due to problems like physical disabilities, cognitive issues, weakened memory and disorganized behavior, that elderly people face with increasing age. To reduce their financial burden on the world economy and to enhance their quality of life, it is essential to develop technology-based solutions that are adaptive, assistive and intelligent in nature. Intelligent Affect Aware Systems that can not only analyze but also predict the behavior of elderly people in the context of their day to day interactions with technology in an IoT-based environment, holds immense potential for serving as a long-term solution for improving the user experience of elderly in smart homes. This work therefore proposes the framework for an Intelligent Affect Aware environment for elderly people that can not only analyze the affective components of their interactions but also predict their likely user experience even before they start engaging in any activity in the given smart home environment. This forecasting of user experience would provide scope for enhancing the same, thereby increasing the assistive and adaptive nature of such intelligent systems. To uphold the efficacy of this proposed framework for improving the quality of life of elderly people in smart homes, it has been tested on three datasets and the results are presented and discussed.
翻訳日:2021-06-30 16:16:23 公開日:2021-06-29
# 共有行や列のない行列分解のためのメタラーニング

Meta-learning for Matrix Factorization without Shared Rows or Columns ( http://arxiv.org/abs/2106.15133v1 )

ライセンス: Link先を確認
Tomoharu Iwata(参考訳) 本稿では,様々な行列から行列分解に関する知識をメタ学習し,未知の行列を分解する知識を用いる手法を提案する。 提案手法では,行列を入力とし,与えられた行列の因子化行列の事前分布を生成するニューラルネットワークを用いる。 ニューラルネットワークは、最大後続推定(MAP)により、因子化行列を各行列に適合させる際に、予測された計算誤差を最小限に抑えるようにメタ学習される。 我々はMAP推定に勾配降下法を用い、各勾配降下ステップが閉じた形で書かれ、微分可能であるため、ニューラルネットワークパラメータを更新するための勾配降下ステップを通して予測計算誤差をバックプロパゲートすることができる。 提案手法は,行や列が共有されていない場合でも行列からメタ学習が可能であり,そのサイズは異なる。 3つのユーザ項目評価データセットを用いた実験において,提案手法は,異なる行列で学習した後,未知行列の限られた数の観測値から欠落値を導出できることを実証する。

We propose a method that meta-learns a knowledge on matrix factorization from various matrices, and uses the knowledge for factorizing unseen matrices. The proposed method uses a neural network that takes a matrix as input, and generates prior distributions of factorized matrices of the given matrix. The neural network is meta-learned such that the expected imputation error is minimized when the factorized matrices are adapted to each matrix by a maximum a posteriori (MAP) estimation. We use a gradient descent method for the MAP estimation, which enables us to backpropagate the expected imputation error through the gradient descent steps for updating neural network parameters since each gradient descent step is written in a closed form and is differentiable. The proposed method can meta-learn from matrices even when their rows and columns are not shared, and their sizes are different from each other. In our experiments with three user-item rating datasets, we demonstrate that our proposed method can impute the missing values from a limited number of observations in unseen matrices after being trained with different matrices.
翻訳日:2021-06-30 15:48:43 公開日:2021-06-29
# 混合オラクルによる潜在因果グラフの学習

Learning latent causal graphs via mixture oracles ( http://arxiv.org/abs/2106.15563v1 )

ライセンス: Link先を確認
Bohdan Kivva, Goutham Rajendran, Pradeep Ravikumar and Bryon Aragam(参考訳) 潜在変数の存在下でデータから因果的グラフィカルモデルを再構成する問題について検討する。 主な関心事は、潜伏変数上の因果構造を回復し、変数間の一般に、潜在的に非線形な依存を可能にすることである。 多くの実践的な問題では、生の観察(例)への依存が重要である。 画像中のピクセル)は、特定の高レベルで潜伏した特徴(例えば)の依存性よりもはるかに重要ではない。 概念やオブジェクト) そして、これは関心の設定です。 我々は,潜伏表現と潜伏因果モデルの両方が混合オラクルへの還元によって識別できる条件を提供する。 この証明は構成的であり、グラフィカルモデル全体を明示的に再構築するためのいくつかのアルゴリズムをもたらす。 効率的なアルゴリズムを議論し,実際にアルゴリズムを例示する実験を行う。

We study the problem of reconstructing a causal graphical model from data in the presence of latent variables. The main problem of interest is recovering the causal structure over the latent variables while allowing for general, potentially nonlinear dependence between the variables. In many practical problems, the dependence between raw observations (e.g. pixels in an image) is much less relevant than the dependence between certain high-level, latent features (e.g. concepts or objects), and this is the setting of interest. We provide conditions under which both the latent representations and the underlying latent causal model are identifiable by a reduction to a mixture oracle. The proof is constructive, and leads to several algorithms for explicitly reconstructing the full graphical model. We discuss efficient algorithms and provide experiments illustrating the algorithms in practice.
翻訳日:2021-06-30 15:48:26 公開日:2021-06-29
# apcと同じくらい簡単:分散度および重度クラス不均衡の異なる時系列分類の文脈における自己教師あり学習の活用

As easy as APC: Leveraging self-supervised learning in the context of time series classification with varying levels of sparsity and severe class imbalance ( http://arxiv.org/abs/2106.15577v1 )

ライセンス: Link先を確認
Fiorella Wever, T. Anderson Keller, Victor Garcia, Laura Symul(参考訳) 高レベルのスパーシリティと強いクラス不均衡は、現実の時系列データでしばしば同時に提示されるユビキタスな課題である。 ほとんどの手法はそれぞれの問題に個別に対処するが、提案手法はデータに対する仮定を減らしながら協調的に処理する。 本研究では,自己教師あり型予測符号化(autoregressive prediction coding, apc)という自己教師あり学習手法を用いて,欠落データとクラス不均衡の文脈における時系列データの関連隠れ表現を学習することを提案する。 実世界の2つのデータセットにGRUまたはGRU-Dエンコーダを用いてAPCを適用し,APCを用いたワンステップアヘッド予測により,すべての設定における分類結果を改善することを示す。 実際、GRU-D-APCを適用することで、Phyloonetベンチマークで最先端のAUPRC結果が得られる。

High levels of sparsity and strong class imbalance are ubiquitous challenges that are often presented simultaneously in real-world time series data. While most methods tackle each problem separately, our proposed approach handles both in conjunction, while imposing fewer assumptions on the data. In this work, we propose leveraging a self-supervised learning method, specifically Autoregressive Predictive Coding (APC), to learn relevant hidden representations of time series data in the context of both missing data and class imbalance. We apply APC using either a GRU or GRU-D encoder on two real-world datasets, and show that applying one-step-ahead prediction with APC improves the classification results in all settings. In fact, by applying GRU-D - APC, we achieve state-of-the-art AUPRC results on the Physionet benchmark.
翻訳日:2021-06-30 15:48:15 公開日:2021-06-29
# コンビネーションによるオープンセット表現学習

Open-Set Representation Learning through Combinatorial Embedding ( http://arxiv.org/abs/2106.15278v1 )

ライセンス: Link先を確認
Geeho Kim and Bohyung Han(参考訳) 視覚認識タスクは、単に残りのクラスのラベルが利用できないため、クラスの小さなサブセットを扱うために制限されることが多い。 我々は、ラベル付きクラスとラベルなしクラスの両方の例に基づいて表現学習を行い、認識の地平を既知のクラスと新規クラスの両方に広げることに興味がある。 この課題に対処するために、異種ラベル空間上の複数の教師付きメタクラス化器が与える構成知識を用いて、自然に未知のクラスにサンプルをクラスタリングする組合せ学習手法を提案する。 また,既知クラスと新規クラス間の意味関係を効果的に保持する非ラベル例の表現を改善するために,ペアワイズ擬似ラベルを推定するメトリック学習戦略を提案する。 提案アルゴリズムは,未確認クラスの識別性の向上と,新しいクラスに一般化可能な既知のクラス表現の学習を併用して,新しい概念を探索する。 提案手法は,複数画像検索と新しいクラス探索ベンチマークにおいて顕著な性能向上を示した。

Visual recognition tasks are often limited to dealing with a small subset of classes simply because the labels for the remaining classes are unavailable. We are interested in identifying novel concepts in a dataset through representation learning based on the examples in both labeled and unlabeled classes, and extending the horizon of recognition to both known and novel classes. To address this challenging task, we propose a combinatorial learning approach, which naturally clusters the examples in unseen classes using the compositional knowledge given by multiple supervised meta-classifiers on heterogeneous label spaces. We also introduce a metric learning strategy to estimate pairwise pseudo-labels for improving representations of unlabeled examples, which preserves semantic relations across known and novel classes effectively. The proposed algorithm discovers novel concepts via a joint optimization of enhancing the discrimitiveness of unseen classes as well as learning the representations of known classes generalizable to novel ones. Our extensive experiments demonstrate remarkable performance gains by the proposed approach in multiple image retrieval and novel class discovery benchmarks.
翻訳日:2021-06-30 15:47:58 公開日:2021-06-29
# ラベル雑音下でのロバスト学習のための適応サンプル選択

Adaptive Sample Selection for Robust Learning under Label Noise ( http://arxiv.org/abs/2106.15292v1 )

ライセンス: Link先を確認
Deep Patel and P.S. Sastry(参考訳) ディープニューラルネットワーク(DNN)は、ノイズの多いラベル付きデータの存在下で記憶や過度な適合の影響を受けることが示されている。 このような雑音データ下でのロバスト学習問題に対して,いくつかのアルゴリズムが提案されている。 著名なアルゴリズムのクラスは、カリキュラム学習に動機づけられたサンプル選択戦略に依存している。 例えば、多くのアルゴリズムでは、特定の閾値未満の損失値を持つ少数のサンプルをトレーニングに選択する‘小さな損失トリック’を使用している。 これらのアルゴリズムはそのようなしきい値に敏感であり、これらのしきい値の修正や学習は困難である。 多くの場合、これらのアルゴリズムはラベルノイズ率などの情報を必要とする。 本稿では,ラベルノイズに対するロバスト性を提供するため,与えられたミニバッチのバッチ統計のみに依存するデータ依存適応サンプル選択戦略を提案する。 このアルゴリズムにはサンプル選択のための追加のハイパーパラメータはなく、ノイズレートに関する情報も必要とせず、クリーンなラベルで別々のデータにアクセスする必要もない。 ベンチマークデータセットにおけるアルゴリズムの有効性を実証する。

Deep Neural Networks (DNNs) have been shown to be susceptible to memorization or overfitting in the presence of noisily labelled data. For the problem of robust learning under such noisy data, several algorithms have been proposed. A prominent class of algorithms rely on sample selection strategies, motivated by curriculum learning. For example, many algorithms use the `small loss trick' wherein a fraction of samples with loss values below a certain threshold are selected for training. These algorithms are sensitive to such thresholds, and it is difficult to fix or learn these thresholds. Often, these algorithms also require information such as label noise rates which are typically unavailable in practice. In this paper, we propose a data-dependent, adaptive sample selection strategy that relies only on batch statistics of a given mini-batch to provide robustness against label noise. The algorithm does not have any additional hyperparameters for sample selection, does not need any information on noise rates, and does not need access to separate data with clean labels. We empirically demonstrate the effectiveness of our algorithm on benchmark datasets.
翻訳日:2021-06-30 15:47:41 公開日:2021-06-29
# 半定義型プログラミングによるスペクトル次元低減・最大分散展開・カーネル学習のための統一フレームワーク:チュートリアルとサーベイ

Unified Framework for Spectral Dimensionality Reduction, Maximum Variance Unfolding, and Kernel Learning By Semidefinite Programming: Tutorial and Survey ( http://arxiv.org/abs/2106.15379v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本稿では,スペクトル次元減少法の統合,半有限計画法 (SDP) によるカーネル学習,最大変数展開法 (MVU) あるいは半有限埋め込み法 (SDE) とその変種に関するチュートリアルおよび調査論文である。 まず,スペクトル次元低減法をカーネル主成分分析 (pca) と異なるカーネルで統一する方法について述べる。 この統一は距離行列の観点から固有関数学習あるいはカーネルの表現と解釈できる。 そして、スペクトル法はカーネルPCAとして統一されているので、データの多様体を最大分散に展開するための最適なカーネルを学ばせましょう。 本稿ではまず,SDPによるカーネル学習について紹介する。 次に、MVUの詳細を説明する。 近接グラフを用いた教師付きMVUの様々なバージョン、クラスワイド展開、フィッシャー基準、色付きMVUについて説明する。 また,固有関数とカーネルマッピングを用いたmvuのサンプル外拡張についても述べる。 最後に、埋め込みを尊重するアクション、緩和されたMVU、ビッグデータのためのランドマークMVUなど、MVUの他のバリエーションを紹介します。

This is a tutorial and survey paper on unification of spectral dimensionality reduction methods, kernel learning by Semidefinite Programming (SDP), Maximum Variance Unfolding (MVU) or Semidefinite Embedding (SDE), and its variants. We first explain how the spectral dimensionality reduction methods can be unified as kernel Principal Component Analysis (PCA) with different kernels. This unification can be interpreted as eigenfunction learning or representation of kernel in terms of distance matrix. Then, since the spectral methods are unified as kernel PCA, we say let us learn the best kernel for unfolding the manifold of data to its maximum variance. We first briefly introduce kernel learning by SDP for the transduction task. Then, we explain MVU in detail. Various versions of supervised MVU using nearest neighbors graph, by class-wise unfolding, by Fisher criterion, and by colored MVU are explained. We also explain out-of-sample extension of MVU using eigenfunctions and kernel mapping. Finally, we introduce other variants of MVU including action respecting embedding, relaxed MVU, and landmark MVU for big data.
翻訳日:2021-06-30 15:47:25 公開日:2021-06-29
# 仮想バックグラウンドで従業員を欺かない:ビデオ会議操作検出システム

Do Not Deceive Your Employer with a Virtual Background: A Video Conferencing Manipulation-Detecti on System ( http://arxiv.org/abs/2106.15130v1 )

ライセンス: Link先を確認
Mauro Conti, Simone Milani, Ehsan Nowroozi, Gabriele Orazi(参考訳) 最新のビデオ会議ソフトウェアは、プライバシー上の懸念から、特に他の雇用主との公式会議において、仮想背景を利用して個人的な環境を隠すことができる。 一方、ユーザーは会議の参加者を騙し、仮想的な背景から自分の居場所を隠そうとしているのかもしれない。 この場合、仮想背景を理解するためのツールの開発は、ミーティングで人を騙すのに役立ちます。 さらに、悪意のあるユーザーがビデオに一連の敵の編集手順を適用して、露呈するフットプリントを隠蔽することで、検知器を騙すことができるため、このような検知器はさまざまな種類の攻撃に対して堅牢でなければならない。 本稿では,ビデオ会議のユーザ背景が本物かどうかを検出するための効率的なツールの実現可能性について検討する。 特に,画素共起行列を計算し,スペクトルおよび空間帯域間の不整合を探索する最初のツールを提供する。 実験により, クロス共起行列は, 異なる種類の攻撃に対する検出器の頑健性を向上させることが確認された。 この作品のパフォーマンスは特にSPAM色の特徴について注目に値する。 さらに, 幾何変換, フィルタリング, コントラスト強調, jpeg圧縮などの後処理に対するロバスト性については, 品質要因の違いが特に重要である。

The last-generation video conferencing software allows users to utilize a virtual background to conceal their personal environment due to privacy concerns, especially in official meetings with other employers. On the other hand, users maybe want to fool people in the meeting by considering the virtual background to conceal where they are. In this case, developing tools to understand the virtual background utilize for fooling people in meeting plays an important role. Besides, such detectors must prove robust against different kinds of attacks since a malicious user can fool the detector by applying a set of adversarial editing steps on the video to conceal any revealing footprint. In this paper, we study the feasibility of an efficient tool to detect whether a videoconferencing user background is real. In particular, we provide the first tool which computes pixel co-occurrences matrices and uses them to search for inconsistencies among spectral and spatial bands. Our experiments confirm that cross co-occurrences matrices improve the robustness of the detector against different kinds of attacks. This work's performance is especially noteworthy with regard to color SPAM features. Moreover, the performance especially is significant with regard to robustness versus post-processing, like geometric transformations, filtering, contrast enhancement, and JPEG compression with different quality factors.
翻訳日:2021-06-30 15:47:06 公開日:2021-06-29
# テキスト生成のための編集不変シーケンス損失

Don't Take It Literally: An Edit-Invariant Sequence Loss for Text Generation ( http://arxiv.org/abs/2106.15078v1 )

ライセンス: Link先を確認
Guangyi Liu, Zichao Yang, Tianhua Tao, Xiaodan Liang, Zhen Li, Bowen Zhou, Shuguang Cui, Zhiting Hu(参考訳) ニューラルテキスト生成モデルは、典型的には、シーケンスのクロスエントロピー損失を最大化することで、ターゲットシーケンスと生成されたシーケンスとの正確なトークン・バイ・トークンマッチングを促進することによって訓練される。 このようなトレーニング対象は、ターゲットシーケンスが完璧でない場合、例えば、ターゲットシーケンスがノイズで破損した場合、または弱いシーケンス監視しかできない場合、準最適である。 そこで本研究では,n-gramとn-gramのマッチング損失を計算する新しい編集不変シーケンス損失(eisl)を提案する。 EISLは画像に不変な畳み込みネットワーク(ConvNet)からインスピレーションを得ているため、ターゲットシーケンスの編集を許容するn-gramsのシフトに対して堅牢である。 さらに、EISLの計算は基本的にカーネルとしてn-gramをターゲットとする畳み込み演算であり、既存のライブラリで容易に実装できる。 eislの有効性を実証するために,ノイズのあるターゲットシーケンスを用いた機械翻訳,教師なしテキストの転送,非自己回帰機械翻訳の3つのタスクについて実験を行った。 実験の結果, この3つの課題において, クロスエントロピー損失を有意に上回った。

Neural text generation models are typically trained by maximizing log-likelihood with the sequence cross entropy loss, which encourages an exact token-by-token match between a target sequence with a generated sequence. Such training objective is sub-optimal when the target sequence not perfect, e.g., when the target sequence is corrupted with noises, or when only weak sequence supervision is available. To address this challenge, we propose a novel Edit-Invariant Sequence Loss (EISL), which computes the matching loss of a target n-gram with all n-grams in the generated sequence. EISL draws inspirations from convolutional networks (ConvNets) which are shift-invariant to images, hence is robust to the shift of n-grams to tolerate edits in the target sequences. Moreover, the computation of EISL is essentially a convolution operation with target n-grams as kernels, which is easy to implement with existing libraries. To demonstrate the effectiveness of EISL, we conduct experiments on three tasks: machine translation with noisy target sequences, unsupervised text style transfer, and non-autoregressive machine translation. Experimental results show our method significantly outperforms cross entropy loss on these three tasks.
翻訳日:2021-06-30 15:46:22 公開日:2021-06-29
# 低リソース言語のためのニューラルマシン翻訳:調査

Neural Machine Translation for Low-Resource Languages: A Survey ( http://arxiv.org/abs/2106.15115v1 )

ライセンス: Link先を確認
Surangika Ranathunga, En-Shiun Annie Lee, Marjana Prifti Skenduli, Ravi Shekhar, Mehreen Alam and Rishemjit Kaur(参考訳) ニューラルネットワーク翻訳(NMT)は10年足らずで急速に成長し、すでに成熟した段階に入った。 機械翻訳の最も広く使われているソリューションと考えられているが、大規模な並列コーパスが利用できないため、低リソースの言語ペアの性能は、高リソースのコーパスに比べてまだサブ最適である。 そのため、最近のNMT研究領域では、低リソース言語対に対するNMT技術の実装が注目されているため、この話題について報告された膨大な研究結果が得られている。 本稿では,低リソース言語NMT(LRL-NMT)における研究の進歩と,最もポピュラーなソリューションを特定するための定量的分析について述べる。 本研究は,先行研究から得られた知見に基づいて,所定のLRLデータ設定のためのNMT手法を選択するための一連のガイドラインを提供する。 また、LRL-NMT研究の全体像を概観し、LRL-NMT研究のさらなる強化に向けた勧告のリストを提供する。

Neural Machine Translation (NMT) has seen a tremendous spurt of growth in less than ten years, and has already entered a mature phase. While considered as the most widely used solution for Machine Translation, its performance on low-resource language pairs still remains sub-optimal compared to the high-resource counterparts, due to the unavailability of large parallel corpora. Therefore, the implementation of NMT techniques for low-resource language pairs has been receiving the spotlight in the recent NMT research arena, thus leading to a substantial amount of research reported on this topic. This paper presents a detailed survey of research advancements in low-resource language NMT (LRL-NMT), along with a quantitative analysis aimed at identifying the most popular solutions. Based on our findings from reviewing previous work, this survey paper provides a set of guidelines to select the possible NMT technique for a given LRL data setting. It also presents a holistic view of the LRL-NMT research landscape and provides a list of recommendations to further enhance the research efforts on LRL-NMT.
翻訳日:2021-06-30 15:46:01 公開日:2021-06-29
# モバイルデバイス上の画像認識システムにおける不明瞭な逆パッチ

Inconspicuous Adversarial Patches for Fooling Image Recognition Systems on Mobile Devices ( http://arxiv.org/abs/2106.15202v1 )

ライセンス: Link先を確認
Tao Bai, Jinqi Luo, Jun Zhao(参考訳) ディープラーニングに基づく画像認識システムは、今日の世界のモバイルデバイスに広くデプロイされている。 しかし、近年の研究では、ディープラーニングモデルは敵の例に弱いことが示されている。 敵パッチと呼ばれる敵の例の変種は、強力な攻撃能力のために研究者の注意を引き付けている。 対向パッチは高い攻撃成功率を達成するが、パッチと元の画像との視覚的矛盾により容易に検出される。 さらに、通常、文学における敵対的なパッチ生成のために大量のデータが必要であり、計算コストが高く、時間がかかる。 これらの課題に取り組むため,我々は1つの画像で目立たない逆境パッチを生成する手法を提案する。 本手法では,まず,被害者モデルの知覚感度に基づくパッチ配置を決定し,複数スケールのジェネレータと判別器を用いて,粗い対極のパッチを生成する。 パッチは、強力な攻撃能力を保ちながら、敵の訓練を受けた背景画像と整合することが推奨される。 提案手法は,ホワイトボックス設定における強力な攻撃能力と,ブラックボックス設定における優れた転送性を示す。 他の敵のパッチと比較して、我々の敵のパッチは検出すべき最も無視できるリスクを保持しており、人的観察を避けることができる。 最後に,我々の逆パッチは物理的世界に適用可能であることを示す。

Deep learning based image recognition systems have been widely deployed on mobile devices in today's world. In recent studies, however, deep learning models are shown vulnerable to adversarial examples. One variant of adversarial examples, called adversarial patch, draws researchers' attention due to its strong attack abilities. Though adversarial patches achieve high attack success rates, they are easily being detected because of the visual inconsistency between the patches and the original images. Besides, it usually requires a large amount of data for adversarial patch generation in the literature, which is computationally expensive and time-consuming. To tackle these challenges, we propose an approach to generate inconspicuous adversarial patches with one single image. In our approach, we first decide the patch locations basing on the perceptual sensitivity of victim models, then produce adversarial patches in a coarse-to-fine way by utilizing multiple-scale generators and discriminators. The patches are encouraged to be consistent with the background images with adversarial training while preserving strong attack abilities. Our approach shows the strong attack abilities in white-box settings and the excellent transferability in black-box settings through extensive experiments on various models with different architectures and training methods. Compared to other adversarial patches, our adversarial patches hold the most negligible risks to be detected and can evade human observations, which is supported by the illustrations of saliency maps and results of user evaluations. Lastly, we show that our adversarial patches can be applied in the physical world.
翻訳日:2021-06-30 15:45:13 公開日:2021-06-29
# 感性分析のための自動生成カウンタの有効性を探る

Exploring the Efficacy of Automatically Generated Counterfactuals for Sentiment Analysis ( http://arxiv.org/abs/2106.15231v1 )

ライセンス: Link先を確認
Yang Linyi, Li Jiazheng, Cunningham P\'adraig, Zhang Yue, Smyth Barry, Dong Ruihai(参考訳) 近年、最先端nlpモデルが幅広いタスクの優れた性能を達成している一方で、トレーニングやテストデータに存在するような体系的バイアスに対するロバスト性とその基盤となる感度について、重要な疑問が提起されている。 このような問題は、フィールドのアウト・オブ・ディストリビューションデータに直面すると、パフォーマンス問題に現れます。 最近のソリューションの1つは、元のデータに存在する可能性のあるスプリアスパターンへの依存を減らすために、逆さまに拡張されたデータセットを使用することだった。 人間のフィードバックやクラウドソーシングの努力を必要とするため、高品質なデータの生成にはコストと時間を要する。 本研究では,データ拡張と説明のための反実データの自動生成手法を記述し,評価する手法を提案する。 いくつかの異なるデータセットを包括的に評価し、さまざまな最先端ベンチマークを用いて、我々のアプローチが、原データでのモデルトレーニングや、人間の生成した拡張データの恩恵を受けたモデルと比較しても、モデルパフォーマンスの大幅な改善を実現する方法を示している。

While state-of-the-art NLP models have been achieving the excellent performance of a wide range of tasks in recent years, important questions are being raised about their robustness and their underlying sensitivity to systematic biases that may exist in their training and test data. Such issues come to be manifest in performance problems when faced with out-of-distribution data in the field. One recent solution has been to use counterfactually augmented datasets in order to reduce any reliance on spurious patterns that may exist in the original data. Producing high-quality augmented data can be costly and time-consuming as it usually needs to involve human feedback and crowdsourcing efforts. In this work, we propose an alternative by describing and evaluating an approach to automatically generating counterfactual data for data augmentation and explanation. A comprehensive evaluation on several different datasets and using a variety of state-of-the-art benchmarks demonstrate how our approach can achieve significant improvements in model performance when compared to models training on the original data and even when compared to models trained with the benefit of human-generated augmented data.
翻訳日:2021-06-30 15:44:36 公開日:2021-06-29
# 正規化OFU:非線形帯域の効率的なUPB推定器

Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual Bandit ( http://arxiv.org/abs/2106.15128v1 )

ライセンス: Link先を確認
Yichi Zhou, Shihong Song, Huishuai Zhang, Jun Zhu, Wei Chen, Tie-Yan Liu(参考訳) 両立探索と搾取(EE)は、同性間の盗賊の根本的問題である。 EEトレードオフの強力な原則の1つは、エージェントが報酬の上限(UCB)に従って行動を起こす、不確実性(OFU)に対する最適主義(Optimism in Face of Uncer-tainty)である。 OFUは、lin-ear/kernelコンテキストの盗賊に対する(ほぼ)最適後悔を達成している。 しかしながら、ニューラルネットワークを報酬関数とするコンテキストバンディットのような非線形複合タスクに対して、効率良く効果的なeeトレードオフ法を導出する方法は一般には分かっていない。 本稿では,ROFU(ROFU)と呼ばれる新しいOFUアルゴリズムを提案する。 InROFU, we measure the uncertainty of the reward by a differentiable function andcompute the upper confidence bound by solve a regularized optimization prob-lem。 ROFUは、マルチアーム帯域幅、カーネルコンテキスト帯域幅およびニューラルタングルトカーネル帯域幅において、理論的にはEEトレードオフにおける有効性を正当化する一定の不確実性尺度との(ほぼ)最適後悔境界を達成できることを証明した。 経験的評価は、ROFUが様々な環境下での文脈的帯域に対して極めてうまく機能することを示した。

Balancing exploration and exploitation (EE) is a fundamental problem in contex-tual bandit. One powerful principle for EE trade-off isOptimism in Face of Uncer-tainty(OFU), in which the agent takes the action according to an upper confidencebound (UCB) of reward. OFU has achieved (near-)optimal regret bound for lin-ear/kernel contextual bandits. However, it is in general unknown how to deriveefficient and effective EE trade-off methods for non-linearcomplex tasks, suchas contextual bandit with deep neural network as the reward function. In thispaper, we propose a novel OFU algorithm namedregularized OFU(ROFU). InROFU, we measure the uncertainty of the reward by a differentiable function andcompute the upper confidence bound by solving a regularized optimization prob-lem. We prove that, for multi-armed bandit, kernel contextual bandit and neuraltangent kernel bandit, ROFU achieves (near-)optimal regret bounds with certainuncertainty measure, which theoretically justifies its effectiveness on EE trade-off.Importantl y, ROFU admits a very efficient implementation with gradient-basedoptimi zer, which easily extends to general deep neural network models beyondneural tangent kernel, in sharp contrast with previous OFU methods. The em-pirical evaluation demonstrates that ROFU works extremelywell for contextualbandits under various settings.
翻訳日:2021-06-30 15:44:17 公開日:2021-06-29
# 線形解法マルコフ決定過程に対するグローバル最適階層強化学習

Globally Optimal Hierarchical Reinforcement Learning for Linearly-Solvable Markov Decision Processes ( http://arxiv.org/abs/2106.15380v1 )

ライセンス: Link先を確認
Guillermo Infante, Anders Jonsso, Vicen\c{c} G\'omez(参考訳) 本研究では,線形解決可能なマルコフ決定過程に対する階層的強化学習手法を提案する。 我々のアプローチでは、状態空間が分割されていると仮定し、サブタスクはパーティション間の移動によって構成される。 いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。 このポリシーは、サブタスク間で分解されるのではなく、これらの最適値推定に暗黙的に定義されている。 その結果、我々のアプローチはグローバルな最適政策を学習することができ、ハイレベルな決定の非定常性に苦しむことはない。 いくつかのパーティションが等価なダイナミクスを持つ場合、これらのパーティションのサブタスクを共有できる。 境界状態の集合が状態空間全体よりも小さい場合、我々の手法は平らな学習者よりもサンプルの複雑さが著しく小さくなり、いくつかの実験でこれを実証的に検証する。

In this work we present a novel approach to hierarchical reinforcement learning for linearly-solvable Markov decision processes. Our approach assumes that the state space is partitioned, and the subtasks consist in moving between the partitions. We represent value functions on several levels of abstraction, and use the compositionality of subtasks to estimate the optimal values of the states in each partition. The policy is implicitly defined on these optimal value estimates, rather than being decomposed among the subtasks. As a consequence, our approach can learn the globally optimal policy, and does not suffer from the non-stationarity of high-level decisions. If several partitions have equivalent dynamics, the subtasks of those partitions can be shared. If the set of boundary states is smaller than the entire state space, our approach can have significantly smaller sample complexity than that of a flat learner, and we validate this empirically in several experiments.
翻訳日:2021-06-30 15:43:50 公開日:2021-06-29
# 収束性と効率的な深部Qネットワークアルゴリズム

A Convergent and Efficient Deep Q Network Algorithm ( http://arxiv.org/abs/2106.15419v1 )

ライセンス: Link先を確認
Zhikang T. Wang, Masahito Ueda(参考訳) ディープQネットワーク(DQN)強化学習アルゴリズムとそのバリエーションの実証的な成功にもかかわらず、DQNはまだよく理解されておらず、収束を保証していない。 本研究は,DQNが現実的な環境で分散し,動作を停止できることを示す。 勾配に基づく収束法は存在するが、実際に学習行動に固有の問題があり、なぜ頻繁に失敗するのかを明らかにする。 これらの問題を解決するために、DQNを慎重に修正し、収束DQNアルゴリズム(C-DQN)を提案し、このアルゴリズムが収束し、大きな割引係数(0.9998)で動作することを示す。 難しい環境で頑健に学習し、適度な計算予算内でdqnが失敗するatari 2600ベンチマークでいくつかの難しいゲームを学べる。 私たちのコードは公開され、結果の再現に使用できます。

Despite the empirical success of the deep Q network (DQN) reinforcement learning algorithm and its variants, DQN is still not well understood and it does not guarantee convergence. In this work, we show that DQN can diverge and cease to operate in realistic settings. Although there exist gradient-based convergent methods, we show that they actually have inherent problems in learning behaviour and elucidate why they often fail in practice. To overcome these problems, we propose a convergent DQN algorithm (C-DQN) by carefully modifying DQN, and we show that the algorithm is convergent and can work with large discount factors (0.9998). It learns robustly in difficult settings and can learn several difficult games in the Atari 2600 benchmark where DQN fail, within a moderate computational budget. Our codes have been publicly released and can be used to reproduce our results.
翻訳日:2021-06-30 15:43:22 公開日:2021-06-29
# オートエンコーダを用いた整列潜在空間の生成機構

A Mechanism for Producing Aligned Latent Spaces with Autoencoders ( http://arxiv.org/abs/2106.15456v1 )

ライセンス: Link先を確認
Saachi Jain, Adityanarayanan Radhakrishnan, Caroline Uhler(参考訳) 入力空間における意味的意味的シフトが埋め込み空間内の変換に対応するようなアライメント潜在空間は、教師なしクラスタリングやデータインプテーションのような下流タスクの成功において重要な役割を果たす。 本研究では、線形および非線形オートエンコーダが、データの左特異ベクトルに沿ってストレッチすることで、整列潜在空間を生成することを示す。 線形オートエンコーダにおけるストレッチの量を完全に特徴付け、これらのネットワークを用いて任意の方向に沿ってストレッチする初期化スキームを提供する。 また,非線形オートエンコーダのストレッチの量を簡易な設定で定量化する。 我々は、遺伝子発現空間における細胞タイプ間の薬物のシグネチャと、単語埋め込み空間における意味的変化の調整に、理論的な結果を用いる。

Aligned latent spaces, where meaningful semantic shifts in the input space correspond to a translation in the embedding space, play an important role in the success of downstream tasks such as unsupervised clustering and data imputation. In this work, we prove that linear and nonlinear autoencoders produce aligned latent spaces by stretching along the left singular vectors of the data. We fully characterize the amount of stretching in linear autoencoders and provide an initialization scheme to arbitrarily stretch along the top directions using these networks. We also quantify the amount of stretching in nonlinear autoencoders in a simplified setting. We use our theoretical results to align drug signatures across cell types in gene expression space and semantic shifts in word embedding spaces.
翻訳日:2021-06-30 15:43:08 公開日:2021-06-29
# グラフニューラルネットワークのサブグループ一般化と公平性

Subgroup Generalization and Fairness of Graph Neural Networks ( http://arxiv.org/abs/2106.15535v1 )

ライセンス: Link先を確認
Jiaqi Ma, Junwei Deng, Qiaozhu Mei(参考訳) 近年のグラフニューラルネットワーク(gnns)の膨大な応用にもかかわらず、その一般化能力の理論的理解、特にデータが独立で同一分布(iid)でないノードレベルのタスクは、疎結合である。 一般化性能の理論的研究は、gnnモデルの基本問題(公平性など)を理解し、より良い学習方法を設計する上で有用である。 本稿では,非IID半教師付き学習環境下でのGNNに対する新しいPAC-Bayesian解析を提案する。 さらに、未ラベルノードの異なる部分群における一般化性能を分析し、理論的な観点からGNNの精度(離散性)スタイル(不均一性)をさらに研究することができる。 合理的な仮定の下では、テストサブグループとトレーニングセットの間の距離が、公平な学習のためにトレーニングノードの選択に特に注意を向ける、そのサブグループのgnnパフォーマンスに影響を与える重要な要因であることを実証する。 複数のGNNモデルとデータセットにまたがる実験は、理論的結果を支持する。

Despite enormous successful applications of graph neural networks (GNNs) recently, theoretical understandings of their generalization ability, especially for node-level tasks where data are not independent and identically-distribu ted (IID), have been sparse. The theoretical investigation of the generalization performance is beneficial for understanding fundamental issues (such as fairness) of GNN models and designing better learning methods. In this paper, we present a novel PAC-Bayesian analysis for GNNs under a non-IID semi-supervised learning setup. Moreover, we analyze the generalization performances on different subgroups of unlabeled nodes, which allows us to further study an accuracy-(dis)parity -style (un)fairness of GNNs from a theoretical perspective. Under reasonable assumptions, we demonstrate that the distance between a test subgroup and the training set can be a key factor affecting the GNN performance on that subgroup, which calls special attention to the training node selection for fair learning. Experiments across multiple GNN models and datasets support our theoretical results.
翻訳日:2021-06-30 15:42:54 公開日:2021-06-29
# メタラーニングにおける列車分割の重要性に関する表現学習の視点

A Representation Learning Perspective on the Importance of Train-Validation Splitting in Meta-Learning ( http://arxiv.org/abs/2106.15615v1 )

ライセンス: Link先を確認
Nikunj Saunshi, Arushi Gupta, Wei Hu(参考訳) メタラーニングにおける効果的なアプローチは、複数の"トレーニングタスク"を使用してモデルパラメータの適切な初期化を学習し、この初期化から微調整することで、非常に少ないサンプルで"テストタスク"の未解決を解決するのに役立つ。 実際には成功したが、理論的な理解は限られている。 この研究は、これらの手法の重要な側面として、各タスクからトレーニング(サポート)と検証(クエリ)セットにデータを分割する。 最近の研究 (Raghu et al., 2020) に触発されて、表現学習のレンズを通してこのようなメタラーニング手法を考察し、高階表現を奨励する非分割変異とは対照的に、列車価分割は表現性を損なうことなく学習された表現を低ランクにすることを奨励すると主張している。 サンプル効率は低ランク性から得られるため、テストタスクの未解決を解決するために、分割戦略は非常に少ないサンプルを必要とする。 サブスペースメタラーニングインスタンスにおける線形表現学習のアイデアを定式化するための理論的結果を示し,シミュレーションと標準メタラーニングベンチマークの分割による実用的効果を実験的に検証する。

An effective approach in meta-learning is to utilize multiple "train tasks" to learn a good initialization for model parameters that can help solve unseen "test tasks" with very few samples by fine-tuning from this initialization. Although successful in practice, theoretical understanding of such methods is limited. This work studies an important aspect of these methods: splitting the data from each task into train (support) and validation (query) sets during meta-training. Inspired by recent work (Raghu et al., 2020), we view such meta-learning methods through the lens of representation learning and argue that the train-validation split encourages the learned representation to be low-rank without compromising on expressivity, as opposed to the non-splitting variant that encourages high-rank representations. Since sample efficiency benefits from low-rankness, the splitting strategy will require very few samples to solve unseen test tasks. We present theoretical results that formalize this idea for linear representation learning on a subspace meta-learning instance, and experimentally verify this practical benefit of splitting in simulations and on standard meta-learning benchmarks.
翻訳日:2021-06-30 15:42:37 公開日:2021-06-29
# 進化グラフガウス過程

Evolving-Graph Gaussian Processes ( http://arxiv.org/abs/2106.15127v1 )

ライセンス: Link先を確認
David Blanco-Mulero, Markus Heinonen, Ville Kyrki(参考訳) Graph Gaussian Processs (GGP) はグラフ構造化ドメイン上でデータ効率のよいソリューションを提供する。 既存のアプローチは静的構造に重点を置いているが、多くの実グラフデータは動的構造を表しており、ggpsの応用を制限している。 そこで我々は進化グラフガウス過程(e-ggps)を提案する。 提案手法は,近傍カーネルと時間とともにグラフ頂点の遷移関数を学習し,頂点間の接続と相互作用の変化をモデル化する。 グラフが経時的に進化する時系列回帰問題における本手法の性能を評価する。 静的グラフガウス過程アプローチに対するe-ggpsの利点を実証する。

Graph Gaussian Processes (GGPs) provide a data-efficient solution on graph structured domains. Existing approaches have focused on static structures, whereas many real graph data represent a dynamic structure, limiting the applications of GGPs. To overcome this we propose evolving-Graph Gaussian Processes (e-GGPs). The proposed method is capable of learning the transition function of graph vertices over time with a neighbourhood kernel to model the connectivity and interaction changes between vertices. We assess the performance of our method on time-series regression problems where graphs evolve over time. We demonstrate the benefits of e-GGPs over static graph Gaussian Process approaches.
翻訳日:2021-06-30 15:42:05 公開日:2021-06-29
# INN:ディープニューラルネットワークにおける一貫性効果によるクリーンアノテートサンプルの同定手法

INN: A Method Identifying Clean-annotated Samples via Consistency Effect in Deep Neural Networks ( http://arxiv.org/abs/2106.15185v1 )

ライセンス: Link先を確認
Dongha Kim, Yongchan Choi, Kunwoong Kim, Yongdai Kim(参考訳) 多くの分類問題では、大量のクリーンアノテートデータの収集は容易ではなく、ノイズの多いラベルのデータを扱うために多くの研究がなされている。 近年のノイズラベル問題に対する最先端のソリューションは, 記憶効果を利用した小型化戦略に基づいている。 これは強力なツールであるが、記憶効果にはいくつかの欠点がある。 演奏は、記憶効果を利用するのに必要な訓練期間の選択に敏感である。 また,ラベルが汚染されたり不均衡になったりした場合,低損失戦略に基づく手法がクリーンなラベル付きデータを識別できない場合に,暗記効果が起こらない場合がある。 INN(Integration with the Nearest Neborhoods)と呼ばれる新しい手法を導入し、ノイズのあるラベルを用いたトレーニングデータからクリーンなラベル付きデータを洗練する。 提案手法は,クリーンラベルデータの隣接領域における予測パターンが,トレーニング期間に関わらずノイズラベルデータの予測パターンと一貫して異なるという新たな発見に基づく。 INN法は計算量が多いが、小型の戦略よりも安定で強力である。 様々な実験を行うことで, INN法は暗記効果の欠点をうまく解決し, ノイズラベル付きトレーニングデータを用いたより正確な深部予測モデルの構築に有用であることを示す。

In many classification problems, collecting massive clean-annotated data is not easy, and thus a lot of researches have been done to handle data with noisy labels. Most recent state-of-art solutions for noisy label problems are built on the small-loss strategy which exploits the memorization effect. While it is a powerful tool, the memorization effect has several drawbacks. The performances are sensitive to the choice of a training epoch required for utilizing the memorization effect. In addition, when the labels are heavily contaminated or imbalanced, the memorization effect may not occur in which case the methods based on the small-loss strategy fail to identify clean labeled data. We introduce a new method called INN(Integration with the Nearest Neighborhoods) to refine clean labeled data from training data with noisy labels. The proposed method is based on a new discovery that a prediction pattern at neighbor regions of clean labeled data is consistently different from that of noisy labeled data regardless of training epochs. The INN method requires more computation but is much stable and powerful than the small-loss strategy. By carrying out various experiments, we demonstrate that the INN method resolves the shortcomings in the memorization effect successfully and thus is helpful to construct more accurate deep prediction models with training data with noisy labels.
翻訳日:2021-06-30 15:41:58 公開日:2021-06-29
# $\beta$-divergence を用いた非負行列因子化の連乗極小化

Joint Majorization-Minimiz ation for Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2106.15214v1 )

ライセンス: Link先を確認
Arthur Marmin and Jos\'e Henrique de Morais Goulart and C\'edric F\'evotte(参考訳) 本稿では,$\beta$-divergence 目的関数を持つ非負行列分解 (nmf) に対する新しい乗法的更新を提案する。 我々の新しい更新は,2つの要因に対して補助関数(目的関数の厳密な上界)を構築し,各イテレーションで最小化する連立偏極最小化(MM)スキームから導かれる。 これは、因子を交互に最適化し、各因子に個別にMMスキームを適用する古典的なアプローチとは対照的である。 従来の手法と同様に、我々のジョイントMMアルゴリズムも簡単に実装できる乗法的更新をもたらす。 しかし、特に2乗ユークリッド距離やクルバックリーバー(英語版)や板倉斎藤ダイバージェンス(英語版)のような重要な応用的関心のある約$\beta$-divergences( 英語版)に対して、計算時間が大幅に減少する(等しくよい解の場合)。 種々のデータセット(顔画像,音声スペクトログラム,ハイパースペクトルデータ,歌曲数)を用いて実験結果を報告する。 データセット上の$\beta$の値によっては、我々の共同mmアプローチでは、従来の代替スキームと比較して、cpuタイムを約10\%$から78\%$に下げることができます。

This article proposes new multiplicative updates for nonnegative matrix factorization (NMF) with the $\beta$-divergence objective function. Our new updates are derived from a joint majorization-minimiz ation (MM) scheme, in which an auxiliary function (a tight upper bound of the objective function) is built for the two factors jointly and minimized at each iteration. This is in contrast with the classic approach in which the factors are optimized alternately and a MM scheme is applied to each factor individually. Like the classic approach, our joint MM algorithm also results in multiplicative updates that are simple to implement. They however yield a significant drop of computation time (for equally good solutions), in particular for some $\beta$-divergences of important applicative interest, such as the squared Euclidean distance and the Kullback-Leibler or Itakura-Saito divergences. We report experimental results using diverse datasets: face images, audio spectrograms, hyperspectral data and song play counts. Depending on the value of $\beta$ and on the dataset, our joint MM approach yields a CPU time reduction of about $10\%$ to $78\%$ in comparison to the classic alternating scheme.
翻訳日:2021-06-30 15:41:39 公開日:2021-06-29
# ランダム射影濃度を用いたスライス・ワッサーシュタイン距離の高速近似

Fast Approximation of the Sliced-Wasserstein Distance Using Concentration of Random Projections ( http://arxiv.org/abs/2106.15427v1 )

ライセンス: Link先を確認
Kimia Nadjahi, Alain Durmus, Pierre E. Jacob, Roland Badeau, Umut \c{S}im\c{s}ekli(参考訳) Sliced-Wasserstein 距離 (SW) は、Wasserstein 距離の代替として機械学習アプリケーションで利用され、計算的および統計的に有益である。 ランダム射影上の期待として定義されるため、sw はモンテカルロによって近似される。 我々は測度現象の集中を利用してSWを近似する新しい視点を採用する:軽微な仮定の下では、高次元のランダムベクトルの1次元射影は約ガウス的である。 本手法では,多数のランダムな投射をサンプリングする必要はなく,通常のモンテカルロ近似と比較して正確かつ容易に利用できる。 我々は,本手法の漸近的保証を導出し,データ分布に対する弱い依存条件の下で,近似誤差が次元の増大とともにゼロとなることを示す。 本研究では,合成データセットに関する理論的知見を検証し,生成的モデリング問題に対する近似を提案する。

The Sliced-Wasserstein distance (SW) is being increasingly used in machine learning applications as an alternative to the Wasserstein distance and offers significant computational and statistical benefits. Since it is defined as an expectation over random projections, SW is commonly approximated by Monte Carlo. We adopt a new perspective to approximate SW by making use of the concentration of measure phenomenon: under mild assumptions, one-dimensional projections of a high-dimensional random vector are approximately Gaussian. Based on this observation, we develop a simple deterministic approximation for SW. Our method does not require sampling a number of random projections, and is therefore both accurate and easy to use compared to the usual Monte Carlo approximation. We derive nonasymptotical guarantees for our approach, and show that the approximation error goes to zero as the dimension increases, under a weak dependence condition on the data distribution. We validate our theoretical findings on synthetic datasets, and illustrate the proposed approximation on a generative modeling problem.
翻訳日:2021-06-30 15:40:33 公開日:2021-06-29
# 連続潜在プロセスフロー

Continuous Latent Process Flows ( http://arxiv.org/abs/2106.15580v1 )

ライセンス: Link先を確認
Ruizhi Deng, Marcus A. Brubaker, Greg Mori, Andreas M. Lehrmann(参考訳) 任意のタイムスタンプにおける連続時系列ダイナミクスの部分的観察は多くの分野に存在する。 このタイプのデータを連続力学で統計モデルに適合させることは、直感的なレベルでの有望なだけでなく、連続的な軌跡を生成する機能や、以前は目に見えないタイムスタンプでの推論など、実用的なメリットもある。 この分野におけるエキサイティングな進歩にもかかわらず、既存のモデルは、その表現力と変分近似の品質という点で依然として課題に直面している。 確率微分方程式により駆動される時間依存正規化フローを用いて、連続潜時過程を連続可観測プロセスに復号する原理的アーキテクチャである連続潜時プロセスフロー(CLPF)を用いてこれらの課題に取り組む。 最大推定値を用いたモデル最適化のために,変分後処理の断片的構築を提案し,軌道再重み付けによる対応する変分下界を導出する。 我々のアブレーション研究は、不規則な時間グリッド上での様々な推論タスクへの貢献の有効性を示す。 最先端のベースラインとの比較は、合成データと実世界の時系列データの両方において、我々のモデルが好むパフォーマンスを示している。

Partial observations of continuous time-series dynamics at arbitrary time stamps exist in many disciplines. Fitting this type of data using statistical models with continuous dynamics is not only promising at an intuitive level but also has practical benefits, including the ability to generate continuous trajectories and to perform inference on previously unseen time stamps. Despite exciting progress in this area, the existing models still face challenges in terms of their representational power and the quality of their variational approximations. We tackle these challenges with continuous latent process flows (CLPF), a principled architecture decoding continuous latent processes into continuous observable processes using a time-dependent normalizing flow driven by a stochastic differential equation. To optimize our model using maximum likelihood, we propose a novel piecewise construction of a variational posterior process and derive the corresponding variational lower bound using trajectory re-weighting. Our ablation studies demonstrate the effectiveness of our contributions in various inference tasks on irregular time grids. Comparisons to state-of-the-art baselines show our model's favourable performance on both synthetic and real-world time-series data.
翻訳日:2021-06-30 15:40:15 公開日:2021-06-29
# 生成モデルによる顔認識における相反パッチの転送性の向上

Improving Transferability of Adversarial Patches on Face Recognition with Generative Models ( http://arxiv.org/abs/2106.15058v1 )

ライセンス: Link先を確認
Zihao Xiao, Xianfeng Gao, Chilin Fu, Yinpeng Dong, Wei Gao, Xiaolu Zhang, Jun Zhou, Jun Zhu(参考訳) 顔認識は深層畳み込みニューラルネットワーク(cnns)によって大幅に改善されている。 近年,これらの顔認識モデルはセキュリティに敏感なアプリケーションにおける識別認証に利用されている。 しかし、ディープCNNは、物理的に実現可能でステルス的な、敵のパッチに弱いため、これらのモデルの現実世界のアプリケーションに新たなセキュリティ上の懸念が生じる。 本稿では,攻撃者がターゲットモデルへのアクセシビリティを制限した移動可能性に基づく対向パッチを用いて,顔認識モデルのロバスト性を評価する。 まず、既存の転送ベースの攻撃手法を拡張して、転送可能な敵パッチを生成する。 しかし,トランスファービリティは初期化に敏感であり,摂動マグニチュードが大きい場合には劣化し,代用モデルに過度に適合することを示す。 次に,低次元データ多様体上の逆パッチの正規化を提案する。 この多様体は、正統な人間の顔画像で事前訓練された生成モデルによって表現される。 多様体上の最適化による逆摂動として顔のような特徴を用い, 置換モデルの応答と対象モデルとの差が劇的に減少し, 移動性が向上することを示した。 ブラックボックス設定における提案手法の優位性を示すため,大規模なデジタルワールド実験を行った。 提案手法を物理世界にも適用する。

Face recognition is greatly improved by deep convolutional neural networks (CNNs). Recently, these face recognition models have been used for identity authentication in security sensitive applications. However, deep CNNs are vulnerable to adversarial patches, which are physically realizable and stealthy, raising new security concerns on the real-world applications of these models. In this paper, we evaluate the robustness of face recognition models using adversarial patches based on transferability, where the attacker has limited accessibility to the target models. First, we extend the existing transfer-based attack techniques to generate transferable adversarial patches. However, we observe that the transferability is sensitive to initialization and degrades when the perturbation magnitude is large, indicating the overfitting to the substitute models. Second, we propose to regularize the adversarial patches on the low dimensional data manifold. The manifold is represented by generative models pre-trained on legitimate human face images. Using face-like features as adversarial perturbations through optimization on the manifold, we show that the gaps between the responses of substitute models and the target models dramatically decrease, exhibiting a better transferability. Extensive digital world experiments are conducted to demonstrate the superiority of the proposed method in the black-box setting. We apply the proposed method in the physical world as well.
翻訳日:2021-06-30 15:39:56 公開日:2021-06-29
# 注意機構の有効性の理解に向けて

Towards Understanding the Effectiveness of Attention Mechanism ( http://arxiv.org/abs/2106.15067v1 )

ライセンス: Link先を確認
Xiang Ye and Zihang He and Heng Wang and Yong Li(参考訳) 注意機構はコンピュータビジョンタスクにおける畳み込みニューラルネットワーク(CNN)の性能を改善するために広く用いられている手法である。 その広汎性にもかかわらず、その有効性についてはあまり理解していない。 その効果は、入力全体を摂取するのではなく、入力データの重要な部分に焦点を当てた視覚的注意説明に由来すると一般に信じられている。 本稿では,特徴の注意重みと重要度との間には,弱い一貫性しかないことを見出した。 特徴マップの乗算によってもたらされる高階の非線形性により、cnnはcnnsにおいて正規化の役割を担い、実際のcnnと比較して実際のサンプルに近いスムースでより安定したランドスケープを学ぶことができた。 この滑らかさと安定性は、実際のサンプル間のより予測可能で安定した動作を誘発し、cnnをより良く生成する。 さらに,特徴マップ乗算の有効性が提案されていることから,ResNetにおける特徴マップ加算を特徴マップ乗算に置き換えることで特徴マップ乗算ネットワーク(FMMNet)を設計する。 FMMNetは、さまざまなデータセット上でResNetより優れており、既存のメソッドで微妙に設計された注意機構がなくても、機能マップの乗算がパフォーマンスを改善する上で重要な役割を果たすことを示している。

Attention Mechanism is a widely used method for improving the performance of convolutional neural networks (CNNs) on computer vision tasks. Despite its pervasiveness, we have a poor understanding of what its effectiveness stems from. It is popularly believed that its effectiveness stems from the visual attention explanation, advocating focusing on the important part of input data rather than ingesting the entire input. In this paper, we find that there is only a weak consistency between the attention weights of features and their importance. Instead, we verify the crucial role of feature map multiplication in attention mechanism and uncover a fundamental impact of feature map multiplication on the learned landscapes of CNNs: with the high order non-linearity brought by the feature map multiplication, it played a regularization role on CNNs, which made them learn smoother and more stable landscapes near real samples compared to vanilla CNNs. This smoothness and stability induce a more predictive and stable behavior in-between real samples, and make CNNs generate better. Moreover, motivated by the proposed effectiveness of feature map multiplication, we design feature map multiplication network (FMMNet) by simply replacing the feature map addition in ResNet with feature map multiplication. FMMNet outperforms ResNet on various datasets, and this indicates that feature map multiplication plays a vital role in improving the performance even without finely designed attention mechanism in existing methods.
翻訳日:2021-06-30 15:39:38 公開日:2021-06-29
# ElephantBook:elephan t再同定のための半自動ロボットシステム

ElephantBook: A Semi-Automated Human-in-the-Loop System for Elephant Re-Identification ( http://arxiv.org/abs/2106.15083v1 )

ライセンス: Link先を確認
Peter Kulits and Jake Wall and Anka Bedetti and Michelle Henley and Sara Beery(参考訳) アフリカゾウは生態系にとって不可欠であるが、ヒトとエレファントとの紛争や密猟の高まりによって人口が脅かされている。 個体群動態のモニタリングは保全活動に不可欠であるが、ゾウの追跡は難しい作業であり、通常はgps首輪の侵入的かつ時には危険な配置に依存している。 コンピュータビジョン技術を用いて他の種の自動識別に成功してきたが、象の識別は非常に困難であり、一般的には個体群の象に精通するだけでなく専門知識も必要である。 我々は,手作業による属性ラベリングと最新のコンピュータビジョンアルゴリズムを組み合わせたエレファントの再識別のためのwebベースのプラットフォームとデータベースを構築し,デプロイした。 当システムは現在マラゾウプロジェクトで使用されており,マサイ・マラ生態系におけるゾウの保護および絶滅危惧種の監視を支援している。 ElephantBookは、非専門家が象を再識別し、複数の保護NGOで使用するためにスケーラブルにする。

African elephants are vital to their ecosystems, but their populations are threatened by a rise in human-elephant conflict and poaching. Monitoring population dynamics is essential in conservation efforts; however, tracking elephants is a difficult task, usually relying on the invasive and sometimes dangerous placement of GPS collars. Although there have been many recent successes in the use of computer vision techniques for automated identification of other species, identification of elephants is extremely difficult and typically requires expertise as well as familiarity with elephants in the population. We have built and deployed a web-based platform and database for human-in-the-loop re-identification of elephants combining manual attribute labeling and state-of-the-art computer vision algorithms, known as ElephantBook. Our system is currently in use at the Mara Elephant Project, helping monitor the protected and at-risk population of elephants in the Greater Maasai Mara ecosystem. ElephantBook makes elephant re-identification usable by non-experts and scalable for use by multiple conservation NGOs.
翻訳日:2021-06-30 15:39:14 公開日:2021-06-29
# TUCaN: カプセルに着色を積極的に教える

TUCaN: Progressively Teaching Colourisation to Capsules ( http://arxiv.org/abs/2106.15176v1 )

ライセンス: Link先を確認
Rita Pucci, Niki Martinel(参考訳) オートマチック・イメージ・カラー化(Automatic Image Colorisation)は、グレースケール画像のカラー化方法を研究するコンピュータビジョン研究パスである。 深層学習技術は、驚くべき結果をもたらす画像のカラー化を改善した。 これらは、構造の違い、入力タイプ、ユーザアシストなど、さまざまな要因によって異なる。 その多くは、オブジェクトの特徴抽出に特化したレイヤに重点を置いていない、畳み込み層に基づくアーキテクチャ構造である。 本稿では,畳み込み層とカプセル層の協調を利用して,各画像に存在するエンティティの鮮やかな色分けを実現する,tucan (tiny ucapsnet) と呼ばれる新しいダウンサンプリングアップサンプリングアーキテクチャを提案する。 スキップと残差接続により、これらの層間の協調を強制することによって得られる。 我々は、色を量子化された空間内のビンとして識別するピクセルごとの色分類タスクとして問題を提起する。 ネットワークをトレーニングするために、標準のエンドツーエンド学習法とは対照的に、モデルを変更することなく学習プロセスを操作することで、オブジェクトのコンテキストを抽出するプログレッシブ学習方式を提案する。 このスキームでは、アップサンプリングは低解像度画像の再構成から始まり、トレーニングフェーズを通して徐々に高解像度画像へと成長する。 3つのベンチマークデータセットの実験的結果は、imagenet10kデータセットを用いたアプローチが、標準品質メトリクスの既存の手法を上回っており、画像のカラー化におけるアートパフォーマンスの状態を実現できることを示している。 そこで我々は,TUCaNがエンド・ツー・エンド・スキームよりも優れた色を達成できたこと,既存の評価指標の限界を指摘できること,を実証し,カラー化結果の知覚的リアリズムを定量化するためにユーザスタディを行った。

Automatic image colourisation is the computer vision research path that studies how to colourise greyscale images (for restoration). Deep learning techniques improved image colourisation yielding astonishing results. These differ by various factors, such as structural differences, input types, user assistance, etc. Most of them, base the architectural structure on convolutional layers with no emphasis on layers specialised in object features extraction. We introduce a novel downsampling upsampling architecture named TUCaN (Tiny UCapsNet) that exploits the collaboration of convolutional layers and capsule layers to obtain a neat colourisation of entities present in every single image. This is obtained by enforcing collaboration among such layers by skip and residual connections. We pose the problem as a per pixel colour classification task that identifies colours as a bin in a quantized space. To train the network, in contrast with the standard end to end learning method, we propose the progressive learning scheme to extract the context of objects by only manipulating the learning process without changing the model. In this scheme, the upsampling starts from the reconstruction of low resolution images and progressively grows to high resolution images throughout the training phase. Experimental results on three benchmark datasets show that our approach with ImageNet10k dataset outperforms existing methods on standard quality metrics and achieves state of the art performances on image colourisation. We performed a user study to quantify the perceptual realism of the colourisation results demonstrating: that progressive learning let the TUCaN achieve better colours than the end to end scheme; and pointing out the limitations of the existing evaluation metrics.
翻訳日:2021-06-30 15:38:55 公開日:2021-06-29
# スケーラブルなマルチビュークラスタリングのためのマルチグラフ学習

Multiple Graph Learning for Scalable Multi-view Clustering ( http://arxiv.org/abs/2106.15382v1 )

ライセンス: Link先を確認
Tianyu Jiang, Quanxue Gao(参考訳) 複雑な構造とマルチメディアデータ間の関係を特徴付ける効率が向上したため,グラフベースのマルチビュークラスタリングは活発な話題となっている。 しかし,既存の手法では,(1)グラフ構築や固有分解などにより,大規模なグラフ学習では効率が悪く,あるいは失敗する場合がある。 (2)異なる視点のグラフに埋め込まれた補完的情報と空間構造の両方をうまく活用できない。 グラフベースマルチビュークラスタリングの課題であるスケーラビリティ問題に対して,補完的情報をうまく活用するために,少数のアンカーポイントとテンソルシャッテンpノルム最小化による効率的な複数グラフ学習モデルを提案する。 具体的には,各ビューに対するアンカーグラフによる隠れて扱いやすい大きなグラフを構築し,テンソルシャッテンpノルム正規化器によって異なるビューのアンカーグラフに埋め込まれた補完的情報をうまく活用する。 最後に,提案モデルを解くために,データサイズと線形にスケールする効率的なアルゴリズムを開発した。 複数のデータセットにおける広範囲な実験結果から,提案手法が最先端のマルチビュークラスタリングアルゴリズムよりも優れていることが示された。

Graph-based multi-view clustering has become an active topic due to the efficiency in characterizing both the complex structure and relationship between multimedia data. However, existing methods have the following shortcomings: (1) They are inefficient or even fail for graph learning in large scale due to the graph construction and eigen-decomposition. (2) They cannot well exploit both the complementary information and spatial structure embedded in graphs of different views. To well exploit complementary information and tackle the scalability issue plaguing graph-based multi-view clustering, we propose an efficient multiple graph learning model via a small number of anchor points and tensor Schatten p-norm minimization. Specifically, we construct a hidden and tractable large graph by anchor graph for each view and well exploit complementary information embedded in anchor graphs of different views by tensor Schatten p-norm regularizer. Finally, we develop an efficient algorithm, which scales linearly with the data size, to solve our proposed model. Extensive experimental results on several datasets indicate that our proposed method outperforms some state-of-the-art multi-view clustering algorithms.
翻訳日:2021-06-30 15:38:05 公開日:2021-06-29
# 画像は1000語以上の価値があります:野生の絡み合いに向かって

An Image is Worth More Than a Thousand Words: Towards Disentanglement in the Wild ( http://arxiv.org/abs/2106.15610v1 )

ライセンス: Link先を確認
Aviv Gabbay, Niv Cohen, Yedid Hoshen(参考訳) 教師なしの絡み合いは、モデルとデータに誘導的バイアスを伴わずに理論的に不可能であることが示されている。 代替アプローチとして、近年の手法は、変化の要因を混乱させ、その識別性を許容する限られた監督に依存している。 真の生成因子の注釈は限られた数の観測にのみ必要とされるが、実世界の画像分布を記述する全ての変動因子を列挙することは不可能である。 そこで本稿では, 部分的にラベル付けされた因子の集合を分離する手法を提案するとともに, 明示的に指定されていない因子の相補的集合を分離する手法を提案する。 合成ベンチマークで実証されたこの挑戦的な設定の成功は、実際の画像領域における属性のサブセットを部分的にアノテートするために、オフザシェルフイメージ記述子を活用するきっかけとなる。 人間の顔について)最小限の手作業で。 具体的には、最近の言語画像埋め込みモデル(clip)を用いて、関心のある属性のセットをゼロショット方式で注釈付けし、最先端の画像操作結果を示す。

Unsupervised disentanglement has been shown to be theoretically impossible without inductive biases on the models and the data. As an alternative approach, recent methods rely on limited supervision to disentangle the factors of variation and allow their identifiability. While annotating the true generative factors is only required for a limited number of observations, we argue that it is infeasible to enumerate all the factors of variation that describe a real-world image distribution. To this end, we propose a method for disentangling a set of factors which are only partially labeled, as well as separating the complementary set of residual factors that are never explicitly specified. Our success in this challenging setting, demonstrated on synthetic benchmarks, gives rise to leveraging off-the-shelf image descriptors to partially annotate a subset of attributes in real image domains (e.g. of human faces) with minimal manual effort. Specifically, we use a recent language-image embedding model (CLIP) to annotate a set of attributes of interest in a zero-shot manner and demonstrate state-of-the-art disentangled image manipulation results.
翻訳日:2021-06-30 15:37:45 公開日:2021-06-29
# ganspeech: 高度多話者音声合成のための逆学習

GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis ( http://arxiv.org/abs/2106.15153v1 )

ライセンス: Link先を確認
Jinhyeok Yang, Jae-Sung Bae, Taejun Bak, Youngik Kim, Hoon-Young Cho(参考訳) ニューラルマルチスピーカー音声合成(TTS)モデルの最近の進歩により、単一のモデルで合理的に優れた音声品質の生成が可能となり、限られた訓練データで話者の音声を合成できるようになった。 対象話者データをマルチスピーカモデルで微調整することで、より良い品質が得られるが、実際の音声サンプルとの違いは依然として存在し、モデルは話者に依存する。 本研究では,非自己回帰型マルチスピーカTSモデルに逆方向学習法を適用した高忠実度マルチスピーカTSモデルであるGANSpeechを提案する。 さらに,敵の訓練で使用する特徴マッチング損失に対する簡易かつ効率的な自動スケーリング手法を提案する。 主観的聴力試験では, GANSpeechはベースライン型マルチスピーカーであるFastSpeechとFastSpeech2より有意に優れ, 話者特異的なFastSpeech2よりも優れたMOSスコアを示した。

Recent advances in neural multi-speaker text-to-speech (TTS) models have enabled the generation of reasonably good speech quality with a single model and made it possible to synthesize the speech of a speaker with limited training data. Fine-tuning to the target speaker data with the multi-speaker model can achieve better quality, however, there still exists a gap compared to the real speech sample and the model depends on the speaker. In this work, we propose GANSpeech, which is a high-fidelity multi-speaker TTS model that adopts the adversarial training method to a non-autoregressive multi-speaker TTS model. In addition, we propose simple but efficient automatic scaling methods for feature matching loss used in adversarial training. In the subjective listening tests, GANSpeech significantly outperformed the baseline multi-speaker FastSpeech and FastSpeech2 models, and showed a better MOS score than the speaker-specific fine-tuned FastSpeech2.
翻訳日:2021-06-30 15:37:26 公開日:2021-06-29
# 任意回帰モデルに対する実測的説明

Counterfactual Explanations for Arbitrary Regression Models ( http://arxiv.org/abs/2106.15212v1 )

ライセンス: Link先を確認
Thomas Spooner, Danial Dervovic, Jason Long, Jon Shepard, Jiahao Chen, Daniele Magazzeni(参考訳) 本稿では,分類モデルと回帰モデルの両方に適用可能なベイズ最適化に基づく反事実説明法(cfes)を提案する。 提案手法は,任意の回帰モデルと特徴スパーシティや実行可能なリコースといった制約をサポートし,さらに複数の反事実的質問に対して,先行クエリから学習しながら並列に応答できるグローバル収束型探索アルゴリズムである。 我々は、微分可能ポテンシャルを用いた厳密な数学的枠組みによる回帰モデルのCFE探索を定式化し、しきい値に基づく目的のロバスト性問題を解決する。 この枠組みでは、(a)反事実の存在の検証がnp完全であること、(b)そのようなポテンシャルを用いたインスタンスの探索がcls完全であることを証明する。 本稿では,期待される改善と望ましい特性を持つ指数多項式(EP)ファミリーの両方を構成する特別な獲得関数を用いたCFEの統一アルゴリズムについて述べる。 実世界のベンチマーク領域に対する評価は,高い試料効率と精度を示す。

We present a new method for counterfactual explanations (CFEs) based on Bayesian optimisation that applies to both classification and regression models. Our method is a globally convergent search algorithm with support for arbitrary regression models and constraints like feature sparsity and actionable recourse, and furthermore can answer multiple counterfactual questions in parallel while learning from previous queries. We formulate CFE search for regression models in a rigorous mathematical framework using differentiable potentials, which resolves robustness issues in threshold-based objectives. We prove that in this framework, (a) verifying the existence of counterfactuals is NP-complete; and (b) that finding instances using such potentials is CLS-complete. We describe a unified algorithm for CFEs using a specialised acquisition function that composes both expected improvement and an exponential-polynomi al (EP) family with desirable properties. Our evaluation on real-world benchmark domains demonstrate high sample-efficiency and precision.
翻訳日:2021-06-30 15:37:08 公開日:2021-06-29
# DRILL--$\mathcal{ALC}$におけるリファインメント演算子の深部強化学習

DRILL-- Deep Reinforcement Learning for Refinement Operators in $\mathcal{ALC}$ ( http://arxiv.org/abs/2106.15373v1 )

ライセンス: Link先を確認
Caglar Demir and Axel-Cyrille Ngonga Ngomo(参考訳) RDF知識グラフ上でのクラス表現学習に洗練された演算子に基づくアプローチがうまく適用されている。 これらのアプローチは、適切な仮説を見つけるために、しばしば多くの概念を探求する必要がある。 これは必然的に、無限の概念空間を通して探索を導くための神秘的ヒューリスティック関数に依存する現在のアプローチに由来する。 次に、深層強化学習(deep reinforcement learning)は、累積された将来の報酬状態が約束する金額を見積もることで、ミオピアに対処する効果的な手段を提供する。 本研究では,畳み込み型深層q学習モデルを用いた新しいクラス表現学習手法である drill の提案により,概念の学習を高速化する深層強化学習手法を提案する。 そのアーキテクチャにより、DRILLは標準ハードウェア上で1秒で10^3$以上のクラス表現の期待値の累積的な将来の報酬を計算することができる。 我々は,4つのベンチマークデータセット上でDRILLを評価した。 我々の結果は、DRILLが目標状態に収束し、全てのベンチマークデータセットの最先端モデルよりも少なくとも2.7$\times$速いことを示唆している。 トレーニングと評価のスクリプトと事前訓練されたモデルを含む、我々のアプローチのオープンソース実装を提供する。

Approaches based on refinement operators have been successfully applied to class expression learning on RDF knowledge graphs. These approaches often need to explore a large number of concepts to find adequate hypotheses. This need arguably stems from current approaches relying on myopic heuristic functions to guide their search through an infinite concept space. In turn, deep reinforcement learning provides effective means to address myopia by estimating how much discounted cumulated future reward states promise. In this work, we leverage deep reinforcement learning to accelerate the learning of concepts in $\mathcal{ALC}$ by proposing DRILL -- a novel class expression learning approach that uses a convolutional deep Q-learning model to steer its search. By virtue of its architecture, DRILL is able to compute the expected discounted cumulated future reward of more than $10^3$ class expressions in a second on standard hardware. We evaluate DRILL on four benchmark datasets against state-of-the-art approaches. Our results suggest that DRILL converges to goal states at least 2.7$\times$ faster than state-of-the-art models on all benchmark datasets. We provide an open-source implementation of our approach, including training and evaluation scripts as well as pre-trained models.
翻訳日:2021-06-30 15:36:53 公開日:2021-06-29
# 物理インフォームドデジタル双対のスケーラブル校正のための注意神経過程とバッチベイズ最適化

Attentive Neural Processes and Batch Bayesian Optimization for Scalable Calibration of Physics-Informed Digital Twins ( http://arxiv.org/abs/2106.15502v1 )

ライセンス: Link先を確認
Ankush Chakrabarty, Gordon Wichern, Christopher Laughman(参考訳) 物理インフォームド力学系モデルは、構築された環境のデジタル双対の重要な構成要素を形成する。 これらのディジタルツインはエネルギー効率の高いインフラの設計を可能にするが、下流の予測と分析のためにシステム動作を正確に反映するために適切に調整する必要がある。 現代の建物の力学系モデルは通常、シミュレーション中に多数のパラメータと重要な計算支出によって記述される。 ANP-BBO(ANP-BBO:a scalable and parallelizable batch-wise Bayesian Optimization (BBO) method that leverages attentive Neural Process (ANPs))を提案する。

Physics-informed dynamical system models form critical components of digital twins of the built environment. These digital twins enable the design of energy-efficient infrastructure, but must be properly calibrated to accurately reflect system behavior for downstream prediction and analysis. Dynamical system models of modern buildings are typically described by a large number of parameters and incur significant computational expenditure during simulations. To handle large-scale calibration of digital twins without exorbitant simulations, we propose ANP-BBO: a scalable and parallelizable batch-wise Bayesian optimization (BBO) methodology that leverages attentive neural processes (ANPs).
翻訳日:2021-06-30 15:36:34 公開日:2021-06-29
# 機械学習研究における価値

The Values Encoded in Machine Learning Research ( http://arxiv.org/abs/2106.15590v1 )

ライセンス: Link先を確認
Abeba Birhane, Pratyusha Kalluri, Dallas Card, William Agnew, Ravit Dotan, Michelle Bao(参考訳) 機械学習(ML)は現在、世界に大きな影響を与え、コミュニティや機関の実践に影響を与えている。 したがって、フィールドの曖昧な概念を価値中立的あるいは普遍的に有益として疑問視し、フィールドが進展している特定の値を調べることは重要である。 本稿では,初回MLカンファレンス,ICML,NeurIPSで発行された100の高度に引用されたML論文を定量的に定性的に分析することにより,フィールドの価値の厳密な検証を行う。 我々は、彼らの価値を明らかにする論文の重要な特徴として、プロジェクトの選択を正当化する方法、どの側面を隆起させるか、潜在的なネガティブな結果に対する考慮、制度的なアフィリエイトや資金源などを挙げる。 社会的なニーズは一般的にプロジェクトの選択と非常にゆるく結びついていますが、否定的な結果に対する考慮は極めて稀です。 機械学習の研究で浮き彫りになった67の値を特定し、その中で最も論文は、パフォーマンス、一般化、効率、研究者の理解、ノベルティ、そして過去の研究に基づいて自らを正当化し評価することを発見した。 我々は,これらの値の操作方法に関する広範な文書的証拠と分析を行う。 特に、これらの上位値は現在定義されており、一般的にパワーの集中化を支持する仮定や含意で適用されている。 そして最後に、これらの高度に引用された論文とハイテク企業とエリート大学の間には、ますます密接な関係がある。

Machine learning (ML) currently exerts an outsized influence on the world, increasingly affecting communities and institutional practices. It is therefore critical that we question vague conceptions of the field as value-neutral or universally beneficial, and investigate what specific values the field is advancing. In this paper, we present a rigorous examination of the values of the field by quantitatively and qualitatively analyzing 100 highly cited ML papers published at premier ML conferences, ICML and NeurIPS. We annotate key features of papers which reveal their values: how they justify their choice of project, which aspects they uplift, their consideration of potential negative consequences, and their institutional affiliations and funding sources. We find that societal needs are typically very loosely connected to the choice of project, if mentioned at all, and that consideration of negative consequences is extremely rare. We identify 67 values that are uplifted in machine learning research, and, of these, we find that papers most frequently justify and assess themselves based on performance, generalization, efficiency, researcher understanding, novelty, and building on previous work. We present extensive textual evidence and analysis of how these values are operationalized. Notably, we find that each of these top values is currently being defined and applied with assumptions and implications generally supporting the centralization of power. Finally, we find increasingly close ties between these highly cited papers and tech companies and elite universities.
翻訳日:2021-06-30 15:36:21 公開日:2021-06-29
# タスクインフォームド抽象化の学習

Learning Task Informed Abstraction ( http://arxiv.org/abs/2106.15612v1 )

ライセンス: Link先を確認
Xiang Fu, Ge Yang, Pulkit Agrawal, Tommi Jaakkola(参考訳) 現在のモデルベース強化学習法は,タスク関連特徴の優先順位付けができないため,複雑な視覚シーンからの操作に苦慮している。 この問題を軽減するために,報酬関係の視覚的特徴を障害から明確に分離するタスク情報抽象化(TIA)の学習を提案する。 タスクインフォームドmdp (timdp) の形式化は,協調的再構築によって視覚特徴を学習する2つのモデルを訓練することで実現されるが,1つのモデルでは報酬信号から相反的に分離される。 経験的評価により、tiaは多くのビジュアルコントロールタスクにおいて最先端のメソッドよりも大きなパフォーマンス向上をもたらすことが示されている。

Current model-based reinforcement learning methods struggle when operating from complex visual scenes due to their inability to prioritize task-relevant features. To mitigate this problem, we propose learning Task Informed Abstractions (TIA) that explicitly separates reward-correlated visual features from distractors. For learning TIA, we introduce the formalism of Task Informed MDP (TiMDP) that is realized by training two models that learn visual features via cooperative reconstruction, but one model is adversarially dissociated from the reward signal. Empirical evaluation shows that TIA leads to significant performance gains over state-of-the-art methods on many visual control tasks where natural and unconstrained visual distractions pose a formidable challenge.
翻訳日:2021-06-30 15:35:58 公開日:2021-06-29
# ニューラル音声合成に関する調査研究

A Survey on Neural Speech Synthesis ( http://arxiv.org/abs/2106.15561v1 )

ライセンス: Link先を確認
Xu Tan, Tao Qin, Frank Soong, Tie-Yan Liu(参考訳) text to speech(tts)または speech synthesis(音声合成)は、言語、言語、機械学習のコミュニティにおいてホットな研究テーマであり、業界に広く応用されている。 ディープラーニングと人工知能の発展に伴い、ニューラルネットワークベースのTSは、近年、合成音声の品質を大幅に改善している。 本稿では,ニューラルTSに関する総合的な調査を行い,現在の研究状況と今後の動向をよく理解することを目的としている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネント、高速TS、低リソースTS、ロバストTS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。 さらに、ttsに関連するリソース(データセット、オープンソース実装など)を要約し、今後の研究の方向性について論じる。 この調査は、TSに携わる学術研究者と業界実践者の両方に役立てることができる。

Text to speech (TTS), or speech synthesis, which aims to synthesize intelligible and natural speech given text, is a hot research topic in speech, language, and machine learning communities and has broad applications in the industry. As the development of deep learning and artificial intelligence, neural network-based TTS has significantly improved the quality of synthesized speech in recent years. In this paper, we conduct a comprehensive survey on neural TTS, aiming to provide a good understanding of current research and future trends. We focus on the key components in neural TTS, including text analysis, acoustic models and vocoders, and several advanced topics, including fast TTS, low-resource TTS, robust TTS, expressive TTS, and adaptive TTS, etc. We further summarize resources related to TTS (e.g., datasets, opensource implementations) and discuss future research directions. This survey can serve both academic researchers and industry practitioners working on TTS.
翻訳日:2021-06-30 15:35:42 公開日:2021-06-29
# ランダム順序オンライン最適化のための最適レート

Optimal Rates for Random Order Online Optimization ( http://arxiv.org/abs/2106.15207v1 )

ライセンス: Link先を確認
Uri Sherman, Tomer Koren, Yishay Mansour(参考訳) ランダム順序モデルのオンライン凸最適化について研究し、最近 \citet{garber2020online} によって提案され、損失関数は敵によって選択されるが、一様ランダム順序でオンラインアルゴリズムに提示される。 累積損失関数が(強く)凸であるが、個々の損失関数は滑らかであるが、凸でないかもしれないというシナリオに注目して、最適境界を満たし、<citet{garber2020online} の結果を著しく上回るアルゴリズムを与え、次元依存を完全に取り除き、強い凸パラメータに対するスケーリングを改善する。 本分析は, アルゴリズムの安定性と, 再置換を伴わないサンプリングの一般化との新たな関係と, 確率勾配勾配の洗練された平均安定性解析に依存する。

We study online convex optimization in the random order model, recently proposed by \citet{garber2020online}, where the loss functions may be chosen by an adversary, but are then presented to the online algorithm in a uniformly random order. Focusing on the scenario where the cumulative loss function is (strongly) convex, yet individual loss functions are smooth but might be non-convex, we give algorithms that achieve the optimal bounds and significantly outperform the results of \citet{garber2020online}, completely removing the dimension dependence and improving their scaling with respect to the strong convexity parameter. Our analysis relies on novel connections between algorithmic stability and generalization for sampling without-replacement analogous to those studied in the with-replacement i.i.d.~setting, as well as on a refined average stability analysis of stochastic gradient descent.
翻訳日:2021-06-30 15:34:24 公開日:2021-06-29
# フェデレーション学習の統計的最適性:定点を超えて

Achieving Statistical Optimality of Federated Learning: Beyond Stationary Points ( http://arxiv.org/abs/2106.15216v1 )

ライセンス: Link先を確認
Lili Su, Jiaming Xu, Pengkun Yang(参考訳) Federated Learning(FL)は、プライバシ保護とクラウドでの計算負荷の低減に大きな可能性を持つ、有望なフレームワークである。 FedAvgとFedProxは広く採用されている2つのアルゴリズムである。 しかし、最近の研究は、(1)その固定点が元の最適化問題の定常点に対応していないこと、(2)見いだされた共通モデルが局所的にうまく一般化できないことを懸念している。 本稿ではこれらの懸念を緩和する。 これに向けて,統計学習の観点を取り入れつつ,分布を不均一にし,局所データを不均衡にする。 一般的なカーネル回帰設定では、FedAvgとFedProxの両方が極小最大誤差率に収束することを示す。 さらに、核関数が有限階数であるとき、収束は指数関数的に高速である。 さらに, モデルの不均一性の影響を解析的に定量化し, フェデレーションゲインを特徴付けることにより, 最適な局所推定器と比較して, 労働者がフェデレーション学習に参加する際の推定誤差を低減させる。 我々の知る限り、我々はFedAvgとFedProxの下でミニマックスエラー率の達成可能性を示す最初の人物であり、FLに加入する際の利益を特徴づける最初の人物である。 数値実験により、FedAvgとFedProxの統計的最適性とフェデレーションゲインに関する理論的知見がさらに裏付けられる。

Federated Learning (FL) is a promising framework that has great potentials in privacy preservation and in lowering the computation load at the cloud. FedAvg and FedProx are two widely adopted algorithms. However, recent work raised concerns on these two methods: (1) their fixed points do not correspond to the stationary points of the original optimization problem, and (2) the common model found might not generalize well locally. In this paper, we alleviate these concerns. Towards this, we adopt the statistical learning perspective yet allow the distributions to be heterogeneous and the local data to be unbalanced. We show, in the general kernel regression setting, that both FedAvg and FedProx converge to the minimax-optimal error rates. Moreover, when the kernel function has a finite rank, the convergence is exponentially fast. Our results further analytically quantify the impact of the model heterogeneity and characterize the federation gain - the reduction of the estimation error for a worker to join the federated learning compared to the best local estimator. To the best of our knowledge, we are the first to show the achievability of minimax error rates under FedAvg and FedProx, and the first to characterize the gains in joining FL. Numerical experiments further corroborate our theoretical findings on the statistical optimality of FedAvg and FedProx and the federation gains.
翻訳日:2021-06-30 15:34:05 公開日:2021-06-29
# 比較解析のための対話的次元性低減

Interactive Dimensionality Reduction for Comparative Analysis ( http://arxiv.org/abs/2106.15481v1 )

ライセンス: Link先を確認
Takanori Fujiwara, Xinhai Wei, Jian Zhao, Kwan-Liu Ma(参考訳) データセットの2つ以上のグループ間の類似点と相違点を見つけることは、基本的な分析課題である。 高次元データでは、次元還元(dr)法が各群の特性を見つけるためにしばしば用いられる。 しかし、既存のDR法は、グループを最も区別する要因を識別するなど、各手法が狭義の分析対象にのみ設計されているため、比較分析に限られた能力と柔軟性を提供する。 本研究では,新しいDR手法であるULCA(Unified linear comparative analysis)と対話型ビジュアルインタフェースを統合する対話型DRフレームワークを提案する。 ULCAは差別分析とコントラスト学習という2つのDRスキームを統合し、様々な比較分析タスクをサポートする。 比較分析の柔軟性を実現するため,分析者がULCA結果をインタラクティブに洗練する最適化アルゴリズムを開発した。 さらに,豊富な解析ライブラリを用いてULCA結果を調べるためのインタラクティブな可視化インタフェースを提供する。 我々は、ULCAと最適化アルゴリズムを評価し、その効率性を示すとともに、実世界のデータセットを用いた複数のケーススタディを提示し、我々のフレームワークの有用性を実証する。

Finding the similarities and differences between two or more groups of datasets is a fundamental analysis task. For high-dimensional data, dimensionality reduction (DR) methods are often used to find the characteristics of each group. However, existing DR methods provide limited capability and flexibility for such comparative analysis as each method is designed only for a narrow analysis target, such as identifying factors that most differentiate groups. In this work, we introduce an interactive DR framework where we integrate our new DR method, called ULCA (unified linear comparative analysis), with an interactive visual interface. ULCA unifies two DR schemes, discriminant analysis and contrastive learning, to support various comparative analysis tasks. To provide flexibility for comparative analysis, we develop an optimization algorithm that enables analysts to interactively refine ULCA results. Additionally, we provide an interactive visualization interface to examine ULCA results with a rich set of analysis libraries. We evaluate ULCA and the optimization algorithm to show their efficiency as well as present multiple case studies using real-world datasets to demonstrate the usefulness of our framework.
翻訳日:2021-06-30 15:33:39 公開日:2021-06-29
# すべての次元に対するほぼ最適説明可能な$k$-Means

Near-Optimal Explainable $k$-Means for All Dimensions ( http://arxiv.org/abs/2106.15566v1 )

ライセンス: Link先を確認
Moses Charikar, Lunjia Hu(参考訳) 多くのクラスタリングアルゴリズムは、広く使われている$k$-meansコストのような特定のコスト関数によって導かれる。 これらのアルゴリズムは、しばしば複雑な境界を持つクラスタにデータポイントを分割する。 最近の研究で、Dasgupta、Frost、Moshkovitz、Rashtchian (ICML'20) は、クラスタ境界が軸平行超平面であり、クラスタ化はデータに決定木を適用して得られる説明可能なクラスタリングを導入した。 説明可能性の制約は、コスト関数の価値をどの程度増加させるのか? d$-dimensionalデータポイントが与えられると、k$-meansコストが最大$k^{12/d}\mathrm{poly}(d\log k) である説明可能なクラスタリングを見つける効率的なアルゴリズムを示し、説明可能性制約のないクラスタリングによって達成可能な最小コストの2倍を$k,d\ge 2$と仮定する。 これをmatalchev と shan (icml'21) の独立作品と組み合わせると、$k^{1 - 2/d}\mathrm{polylog}(k)$ が改善され、k,d\ge 2$ から $k$ の多対数因子までが最適であることが分かる。 特に$d = 2$の場合、$o(\log k\log k)$バウンドを示し、以前のベストバウンドである$\widetilde o(k)$よりも指数関数的に改善する。

Many clustering algorithms are guided by certain cost functions such as the widely-used $k$-means cost. These algorithms divide data points into clusters with often complicated boundaries, creating difficulties in explaining the clustering decision. In a recent work, Dasgupta, Frost, Moshkovitz, and Rashtchian (ICML'20) introduced explainable clustering, where the cluster boundaries are axis-parallel hyperplanes and the clustering is obtained by applying a decision tree to the data. The central question here is: how much does the explainability constraint increase the value of the cost function? Given $d$-dimensional data points, we show an efficient algorithm that finds an explainable clustering whose $k$-means cost is at most $k^{1 - 2/d}\mathrm{poly}(d\log k)$ times the minimum cost achievable by a clustering without the explainability constraint, assuming $k,d\ge 2$. Combining this with an independent work by Makarychev and Shan (ICML'21), we get an improved bound of $k^{1 - 2/d}\mathrm{polylog}(k)$, which we show is optimal for every choice of $k,d\ge 2$ up to a poly-logarithmic factor in $k$. For $d = 2$ in particular, we show an $O(\log k\log\log k)$ bound, improving exponentially over the previous best bound of $\widetilde O(k)$.
翻訳日:2021-06-30 15:33:21 公開日:2021-06-29
# CNNと衛星マルチスペクトル画像によるオンボード火山噴火検出

On-board Volcanic Eruption Detection through CNNs and Satellite Multispectral Imagery ( http://arxiv.org/abs/2106.15281v1 )

ライセンス: Link先を確認
Maria Pia Del Rosso, Alessandro Sebastianelli, Dario Spiller, Pierre Philippe Mathieu and Silvia Liberata Ullo(参考訳) 近年、さまざまなアプリケーションにおける機械学習アルゴリズムの成長は、実際のシナリオにおけるこれらのアルゴリズムの適用性に関する多くの研究を提起している。 中でも最も難しいシナリオの1つは、その物理的要求のため、航空宇宙である。 この文脈において,本稿の著者は,最初のプロトタイプの提案と,aiモデルが搭載される可能性についての研究を目的としている。 ケーススタディとして著者らは、火山噴火の検出を迅速に警告を生成する方法として検討することにした。 2つの畳み込みニューラルネットワークが提案され、作成され、実際のハードウェア上でそれらを正しく実装する方法と、CNNの複雑さが計算要求にどのように適合するかを示している。

In recent years, the growth of Machine Learning algorithms in a variety of different applications has raised numerous studies on the applicability of these algorithms in real scenarios. Among all, one of the hardest scenarios, due to its physical requirements, is the aerospace one. In this context, the authors of this work aim to propose a first prototype and a study of feasibility for an AI model to be 'loaded' on board. As a case study, the authors decided to investigate the detection of volcanic eruptions as a method to swiftly produce alerts. Two Convolutional Neural Networks have been proposed and created, also showing how to correctly implement them on real hardware and how the complexity of a CNN can be adapted to fit computational requirements.
翻訳日:2021-06-30 15:32:33 公開日:2021-06-29
# 畳み込みスパース符号化高速近似と反射率推定への応用

Convolutional Sparse Coding Fast Approximation with Application to Seismic Reflectivity Estimation ( http://arxiv.org/abs/2106.15296v1 )

ライセンス: Link先を確認
Deborah Pereg, Israel Cohen, and Anthony A. Vassiliou(参考訳) スパース符号化では、データは本質的に基本構成要素のスパース重ね合わせとして構成されていると仮定して、入力ベクトルの特徴を抽出する。 同様に、ニューラルネットワークはトレーニングデータセットの特徴を学習することで所定のタスクを実行する。 近年,データ駆動型とモデル駆動型の両方の機能抽出手法が広く普及し,目覚ましい成果を上げている。 しかし、現実的な実装は現実のシナリオ、特にリアルタイムアプリケーションで使われるには遅すぎる。 本研究では,畳み込みスパース符号を2~5回の反復で近似する,従来の反復しきい値アルゴリズムの高速化版を提案する。 速度の優位性は主に、ほとんどの解法が非効率なグローバルしきい値設定によって遅くなるという観察から得られる。 主なアイデアは、しきい値を適用する前に、各データポイントを局所受容場エネルギーで正規化することである。 これにより、強力な特徴表現に対する自然な傾向が抑制され、容易に近似したり、トレーニング中に学習したりできるグローバルしきい値に依存することができる。 提案アルゴリズムは、既知の所定の辞書や、訓練された辞書で使用することができる。 トレーニングされたバージョンは、提案したソルバの展開として設計されたニューラルネットとして実装される。 提案手法の性能は, 合成シナリオと実データシナリオの両方において, 地震インバージョン問題によって実証される。 また,安定した支援回復の理論的保証も提供する。 すなわち、ある条件下では、最初のイテレーションで真のサポートが完全に回復されることを証明します。

In sparse coding, we attempt to extract features of input vectors, assuming that the data is inherently structured as a sparse superposition of basic building blocks. Similarly, neural networks perform a given task by learning features of the training data set. Recently both data-driven and model-driven feature extracting methods have become extremely popular and have achieved remarkable results. Nevertheless, practical implementations are often too slow to be employed in real-life scenarios, especially for real-time applications. We propose a speed-up upgraded version of the classic iterative thresholding algorithm, that produces a good approximation of the convolutional sparse code within 2-5 iterations. The speed advantage is gained mostly from the observation that most solvers are slowed down by inefficient global thresholding. The main idea is to normalize each data point by the local receptive field energy, before applying a threshold. This way, the natural inclination towards strong feature expressions is suppressed, so that one can rely on a global threshold that can be easily approximated, or learned during training. The proposed algorithm can be employed with a known predetermined dictionary, or with a trained dictionary. The trained version is implemented as a neural net designed as the unfolding of the proposed solver. The performance of the proposed solution is demonstrated via the seismic inversion problem in both synthetic and real data scenarios. We also provide theoretical guarantees for a stable support recovery. Namely, we prove that under certain conditions the true support is perfectly recovered within the first iteration.
翻訳日:2021-06-30 15:32:20 公開日:2021-06-29
# 企業知識ベースの自動構築

Automatic Construction of Enterprise Knowledge Base ( http://arxiv.org/abs/2106.15085v1 )

ライセンス: Link先を確認
Junyi Chai, Yujie He, Homa Hashemi, Bing Li, Daraksha Parveen, Ranganath Kondapally, Wenjin Xu(参考訳) 本稿では,人間の介入を最小限に抑えた大規模企業文書の自動知識ベース構築システムを提案する。 企業におけるこのような知識マイニングシステムの設計と展開において,データ分散シフト,パフォーマンス評価,コンプライアンス要件など,いくつかの課題に直面した。 我々は,最先端のディープラーニングモデルを用いて文書レベルで情報(名前付きエンティティと定義)を抽出し,さらに古典的機械学習技術を用いてグローバル統計情報を処理し,知識ベースを改善する。 実験結果は実際の企業文書で報告されている。 このシステムは、現在microsoft 365サービスの一部として機能している。

In this paper, we present an automatic knowledge base construction system from large scale enterprise documents with minimal efforts of human intervention. In the design and deployment of such a knowledge mining system for enterprise, we faced several challenges including data distributional shift, performance evaluation, compliance requirements and other practical issues. We leveraged state-of-the-art deep learning models to extract information (named entities and definitions) at per document level, then further applied classical machine learning techniques to process global statistical information to improve the knowledge base. Experimental results are reported on actual enterprise documents. This system is currently serving as part of a Microsoft 365 service.
翻訳日:2021-06-30 15:31:11 公開日:2021-06-29
# 符号混合テキストの簡易かつ効率的な確率的言語モデル

A Simple and Efficient Probabilistic Language model for Code-Mixed Text ( http://arxiv.org/abs/2106.15102v1 )

ライセンス: Link先を確認
M Zeeshan Ansari, Tanvir Ahmad, M M Sufyan Beg, Asma Ikram(参考訳) 従来の自然言語処理アプローチは口語的談話や非均質な特徴からソーシャルメディアのテキストに慣れていない。 特に、情報検索、名前付きエンティティ認識、関係抽出など、複数の情報抽出アプリケーションにおいて、多言語文書における言語識別が先行するサブタスクであることが確認される。 この問題は、テキストをフレーミングしながら外国語の単語をベース言語に書き込むコード混合文書において、しばしば困難である。 単語埋め込みは、単語または文書間の類似性を得るために有用なテキスト文書の表現のための強力な言語モデリングツールである。 提案手法は,Hindi- English short test messageをTwitterから抽出した言語で識別し,効率の良い単語埋め込みを構築するための単純な確率論的手法である。 双方向lstmとsvmを用いた分類タスクの有効性を検証し,既存の各種コード混合組込みにおけるスコアの改善を観察した。

The conventional natural language processing approaches are not accustomed to the social media text due to colloquial discourse and non-homogeneous characteristics. Significantly, the language identification in a multilingual document is ascertained to be a preceding subtask in several information extraction applications such as information retrieval, named entity recognition, relation extraction, etc. The problem is often more challenging in code-mixed documents wherein foreign languages words are drawn into base language while framing the text. The word embeddings are powerful language modeling tools for representation of text documents useful in obtaining similarity between words or documents. We present a simple probabilistic approach for building efficient word embedding for code-mixed text and exemplifying it over language identification of Hindi-English short test messages scrapped from Twitter. We examine its efficacy for the classification task using bidirectional LSTMs and SVMs and observe its improved scores over various existing code-mixed embeddings
翻訳日:2021-06-30 15:31:03 公開日:2021-06-29
# ヒンズー英語多言語テキスト処理のための言語語彙

Language Lexicons for Hindi-English Multilingual Text Processing ( http://arxiv.org/abs/2106.15105v1 )

ライセンス: Link先を確認
Mohd Zeeshan Ansari, Tanvir Ahmad and Noaima Bari(参考訳) テキスト文書中の言語識別は、その内容に基づいて文書に含まれる言語を自動的に検出するプロセスである。 現在の言語識別技術は、ある文書が固定された言語の1つにテキストを含むことを前提としているが、複数の可能な言語を含む多言語文書を扱う場合、この推定は誤りである。 ヒンズー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、我々は複数の多言語言語処理タスクをサポートする新しい辞書データベースであるlanguage lexiconsを提案する。 これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。 設計されたレキシコンは、可視化技術を用いて明らかにされる主要な収集源よりもリッチな量的特徴を有する。

Language Identification in textual documents is the process of automatically detecting the language contained in a document based on its content. The present Language Identification techniques presume that a document contains text in one of the fixed set of languages, however, this presumption is incorrect when dealing with multilingual document which includes content in more than one possible language. Due to the unavailability of large standard corpora for Hindi-English mixed lingual language processing tasks we propose the language lexicons, a novel kind of lexical database that supports several multilingual language processing tasks. These lexicons are built by learning classifiers over transliterated Hindi and English vocabulary. The designed lexicons possess richer quantitative characteristic than its primary source of collection which is revealed using the visualization techniques.
翻訳日:2021-06-30 15:30:49 公開日:2021-06-29
# 時間的知識基盤としての時間的言語モデル

Time-Aware Language Models as Temporal Knowledge Bases ( http://arxiv.org/abs/2106.15110v1 )

ライセンス: Link先を確認
Bhuwan Dhingra, Jeremy R. Cole, Julian Martin Eisenschlos, Daniel Gillick, Jacob Eisenstein, William W. Cohen(参考訳) 多くの事実は、プレジデントの名前からバスケットボールチームレブロン・ジェームズのプレーまで、有効期限が付けられている。 しかし、言語モデル(LM)は特定のタイミングで収集されたデータのスナップショットに基づいて訓練されており、特に事前学習コーパスがモデルが記憶すべき事実を含む必要があるクローズドブック設定において、その実用性を制限することができる。 我々は、時間とともに変化し、特定の時間データのスライスと広範囲の時間データでトレーニングされたデータに基づいて、スペクトルの両端でLMの問題をハイライトする、事実知識のためのLMの探索を目的とした診断データセットを紹介します。 これらの問題を緩和するために,テキストをタイムスタンプでモデリングする簡単な手法を提案する。 これにより、トレーニング期間からの目撃事実の記憶を改善するとともに、将来の期間からの未確認事実の予測を校正する。 また,スクラッチから再トレーニングする必要なしに,新たなデータが到着すると,時間的文脈でトレーニングされたモデルが効率良く ‘refreshed'' できることを示す。

Many facts come with an expiration date, from the name of the President to the basketball team Lebron James plays for. But language models (LMs) are trained on snapshots of data collected at a specific moment in time, and this can limit their utility, especially in the closed-book setting where the pretraining corpus must contain the facts the model should memorize. We introduce a diagnostic dataset aimed at probing LMs for factual knowledge that changes over time and highlight problems with LMs at either end of the spectrum -- those trained on specific slices of temporal data, as well as those trained on a wide range of temporal data. To mitigate these problems, we propose a simple technique for jointly modeling text with its timestamp. This improves memorization of seen facts from the training time period, as well as calibration on predictions about unseen facts from future time periods. We also show that models trained with temporal context can be efficiently ``refreshed'' as new data arrives, without the need for retraining from scratch.
翻訳日:2021-06-30 15:30:38 公開日:2021-06-29
# 包括的知識向上によるトピック・ツー・エッセイ生成

Topic-to-Essay Generation with Comprehensive Knowledge Enhancement ( http://arxiv.org/abs/2106.15142v1 )

ライセンス: Link先を確認
Zhiyue Liu, Jiahai Wang, Zhenghong Li(参考訳) 一連のトピックによる高品質で多様なエッセイの生成は、自然言語生成において難しい課題である。 いくつかのトピックは限られた情報源情報しか提供しないため、エッセイ生成性能を向上させるには様々なトピック関連知識を活用することが不可欠である。 しかし、それまでの作品は、その知識を十分に利用して、生成手順を容易にすることはできない。 本稿では,内部知識と外部知識の両方から情報を抽出し,エッセイ生成を改善することを目的とする。 そこで,TEGKEと呼ばれる包括的知識向上を伴うトピック・ツー・エッセイ生成モデルを提案する。 内部知識の強化のために、トピックと関連するエッセイの両方をソース情報として教師ネットワークに送付する。 そして、教師ネットワークから情報的特徴を取得し、トピックのみを入力として、教師ネットワークと同等の情報を提供する学生ネットワークに転送する。 外部知識向上のために,トピック知識グラフエンコーダを提案する。 コモンセンスベースにおけるトピックの最も近い近傍のみを使用する以前の作品とは異なり、我々のトピックナレッジグラフエンコーダは、エッセイ生成を容易にするために、コモンセンスナレッジグラフのより構造的かつ意味的な情報を利用することができる。 さらに,wasserstein距離に基づく敵対的トレーニングにより,生成品質の向上が期待できる。 実験の結果,tegkeは自動評価と人間評価の両方において最先端のパフォーマンスを達成できた。

Generating high-quality and diverse essays with a set of topics is a challenging task in natural language generation. Since several given topics only provide limited source information, utilizing various topic-related knowledge is essential for improving essay generation performance. However, previous works cannot sufficiently use that knowledge to facilitate the generation procedure. This paper aims to improve essay generation by extracting information from both internal and external knowledge. Thus, a topic-to-essay generation model with comprehensive knowledge enhancement, named TEGKE, is proposed. For internal knowledge enhancement, both topics and related essays are fed to a teacher network as source information. Then, informative features would be obtained from the teacher network and transferred to a student network which only takes topics as input but provides comparable information compared with the teacher network. For external knowledge enhancement, a topic knowledge graph encoder is proposed. Unlike the previous works only using the nearest neighbors of topics in the commonsense base, our topic knowledge graph encoder could exploit more structural and semantic information of the commonsense knowledge graph to facilitate essay generation. Moreover, the adversarial training based on the Wasserstein distance is proposed to improve generation quality. Experimental results demonstrate that TEGKE could achieve state-of-the-art performance on both automatic and human evaluation.
翻訳日:2021-06-30 15:30:20 公開日:2021-06-29
# ファウショット名前付きエンティティ認識のための異種単語からの学習

Learning from Miscellaneous Other-Class Words for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2106.15167v1 )

ライセンス: Link先を確認
Meihan Tong, Shuai Wang, Bin Xu, Yixin Cao, Minghui Liu, Lei Hou, Juanzi Li(参考訳) 名前付きエンティティ認識(NER)は、名前付きエンティティの参照を識別し分類するために、ほんの一握りのアノテーションを利用する。 prototypical network は ner で優れたパフォーマンスを示している。 しかし、既存の原型的手法では、他のクラスの単語でリッチなセマンティクスを区別することができない。 この問題に対処するために、他のクラスから異なる未定義クラスを自動的に誘導し、少数ショット NER を改善する新しいモデルである Mining Undefined Classes from Other-class (MUCO) を提案する。 これらのラベル付き未定義クラスにより、NER分類器の識別能力が向上し、スタンドバイセマンティック知識による事前定義クラスの理解が向上する。 実験の結果,4つのnerベンチマークの1ショットおよび5ショット設定において,本モデルが5つの最先端モデルを上回ることがわかった。 受け入れ次第、コードをリリースします。 ソースコードはhttps: //github.com/shuaiwa 16/OtherClassNER.git で公開されている。

Few-shot Named Entity Recognition (NER) exploits only a handful of annotations to identify and classify named entity mentions. Prototypical network shows superior performance on few-shot NER. However, existing prototypical methods fail to differentiate rich semantics in other-class words, which will aggravate overfitting under few shot scenario. To address the issue, we propose a novel model, Mining Undefined Classes from Other-class (MUCO), that can automatically induce different undefined classes from the other class to improve few-shot NER. With these extra-labeled undefined classes, our method will improve the discriminative ability of NER classifier and enhance the understanding of predefined classes with stand-by semantic knowledge. Experimental results demonstrate that our model outperforms five state-of-the-art models in both 1-shot and 5-shots settings on four NER benchmarks. We will release the code upon acceptance. The source code is released on https: //github.com/shuaiwa 16/OtherClassNER.git .
翻訳日:2021-06-30 15:30:00 公開日:2021-06-29
# Coach2vec: サッカーコーチのプレースタイルの自動エンコーディング

Coach2vec: autoencoding the playing style of soccer coaches ( http://arxiv.org/abs/2106.15444v1 )

ライセンス: Link先を確認
Paolo Cintia, Luca Pappalardo(参考訳) プロのサッカーコーチのプレースタイルを捉えることは複雑だが、スポーツ分析においてはほとんど研究されていない。 今日では、サッカーの試合の時空間的側面を記述したデジタルデータが利用可能になり、選手、チーム、コーチのプレースタイルを自動で捉えて分析することができる。 本稿では,マッチングイベントストリームと人工知能を用いて,プロコーチの演奏スタイルを捉えるワークフローである coach2vec を提案する。 coach2vecは各試合からボールの持ち物を抽出し、その類似性に基づいて集合し、コーチの典型的なボールの持ち物を再構築する。 次に、AIニューラルネットワークの一種であるオートエンコーダを使用して、各コーチの演奏スタイルの簡潔な表現(符号化)を得る。 イタリア第1部の最後の4シーズンを解説したサッカー・ログで実施した実験では,卓越したコーチ間の興味深い類似性,演奏スタイルのシミュレーションへの道のり,プロコーチの定量的比較が明らかになった。

Capturing the playing style of professional soccer coaches is a complex, and yet barely explored, task in sports analytics. Nowadays, the availability of digital data describing every relevant spatio-temporal aspect of soccer matches, allows for capturing and analyzing the playing style of players, teams, and coaches in an automatic way. In this paper, we present coach2vec, a workflow to capture the playing style of professional coaches using match event streams and artificial intelligence. Coach2vec extracts ball possessions from each match, clusters them based on their similarity, and reconstructs the typical ball possessions of coaches. Then, it uses an autoencoder, a type of artificial neural network, to obtain a concise representation (encoding) of the playing style of each coach. Our experiments, conducted on soccer-logs describing the last four seasons of the Italian first division, reveal interesting similarities between prominent coaches, paving the road to the simulation of playing styles and the quantitative comparison of professional coaches.
翻訳日:2021-06-30 15:29:44 公開日:2021-06-29
# GuidedMix-Net:ラベル付き画像を参照して擬似マスクを改善する学習

GuidedMix-Net: Learning to Improve Pseudo Masks Using Labeled Images as Reference ( http://arxiv.org/abs/2106.15064v1 )

ライセンス: Link先を確認
Peng Tu, Yawen Huang, Rongrong Ji, Feng Zheng, Ling Shao(参考訳) 半教師付き学習は、限られた数のラベル付き例から学習することでモデルを構築することを目的とした課題である。 この問題に取り組むために多くの方法が提案されており、ほとんどがネットワークを正規化するためにラベルなしインスタンス一貫性の予測を活用することに重点を置いている。 しかし、ラベル付きとラベルなしのデータを別々に扱うと、ラベル付き例から学んだ大量の事前知識が破棄され、ラベル付きとラベルなしの画像ペア間の特徴的相互作用を掘り起こせなくなることが多い。 本稿では,ラベルなしインスタンスの学習を指導するためにラベル付き情報を活用することで,半教師付き意味セグメンテーションのための新しい手法であるguidedmix-netを提案する。 具体的には,ラベル付きデータとラベル付きデータとの間の特徴アライメント目標を導入し,類似する画像ペアをキャプチャし,それらから混合入力を生成する。 クラスタ仮定に基づく相互情報伝達 (MITrans) は, 混合データ空間におけるラベルなしデータのより高度な精細化のための強力な知識モジュールであることが示されている。 ラベル付きサンプルを利用してラベルなしデータ学習をガイドするために,ラベルなしデータに対して高品質な擬似マスクを生成するマスク生成モジュールを提案する。 ラベル付きデータの教師付き学習とともに、ラベルなしデータの予測を混合データから生成された擬似マスクと共同で学習する。 PASCAL VOC 2012において,PASCAL-ContextとCityscapesの広範な実験により,競争的セグメンテーション精度を実現し,mIoUを従来の最先端アプローチに比べて+7$\%大幅に改善した GuidedMix-Netの有効性が示された。

Semi-supervised learning is a challenging problem which aims to construct a model by learning from a limited number of labeled examples. Numerous methods have been proposed to tackle this problem, with most focusing on utilizing the predictions of unlabeled instances consistency alone to regularize networks. However, treating labeled and unlabeled data separately often leads to the discarding of mass prior knowledge learned from the labeled examples, and failure to mine the feature interaction between the labeled and unlabeled image pairs. In this paper, we propose a novel method for semi-supervised semantic segmentation named GuidedMix-Net, by leveraging labeled information to guide the learning of unlabeled instances. Specifically, we first introduce a feature alignment objective between labeled and unlabeled data to capture potentially similar image pairs and then generate mixed inputs from them. The proposed mutual information transfer (MITrans), based on the cluster assumption, is shown to be a powerful knowledge module for further progressive refining features of unlabeled data in the mixed data space. To take advantage of the labeled examples and guide unlabeled data learning, we further propose a mask generation module to generate high-quality pseudo masks for the unlabeled data. Along with supervised learning for labeled data, the prediction of unlabeled data is jointly learned with the generated pseudo masks from the mixed data. Extensive experiments on PASCAL VOC 2012, PASCAL-Context and Cityscapes demonstrate the effectiveness of our GuidedMix-Net, which achieves competitive segmentation accuracy and significantly improves the mIoU by +7$\%$ compared to previous state-of-the-art approaches.
翻訳日:2021-06-30 15:28:51 公開日:2021-06-29
# 深層学習を用いたマルチスケール意味的・空間的特徴量に基づく頚椎全摘画像解析フレームワーク

An Efficient Cervical Whole Slide Image Analysis Framework Based on Multi-scale Semantic and Spatial Features using Deep Learning ( http://arxiv.org/abs/2106.15113v1 )

ライセンス: Link先を確認
Ziquan Wei, Shenghua Cheng, Xiuli Liu, Shaoqun Zeng(参考訳) 臨床診断にはデジタルギガピクセル全スライド画像(WSI)が広く使われており,自動WSI分析がコンピュータ支援診断の鍵となっている。 現在、ResNet分類器によって符号化された大量のローカルパッチから、確率の統合記述子や特徴マップを分析することが、WSIレベルの予測の主要な方法である。 しかし, 頚部スライドにおけるスパース細胞と小病変細胞の特徴表現は, 上流部エンコーダでは依然として困難であり, 未使用の頚部細胞の空間表現はセマンティクス解析に有効な特徴である。 重複および繰り返し処理を伴うパッチサンプリングと同様に、非効率性と予測不能な副作用を引き起こす。 本研究では,YOLCO(You Only Look Cytopathology Once)という名前の軽量モデルを構築するために,空間情報のさらなる監視を行うことにより,インライン接続ネットワーク(InCNet)を設計する。 提案モデルでは,WSIを重なりなく縫合可能なメガピクセルへの入力サイズを10^3\sim10^4$から10^1\sim10^2$に拡大し,特徴と予測を2つのスケールで収集する。 統合マルチスケールマルチタスクの特徴を分類するTransformerに基づいて、実験結果は4つの走査デバイスから2,019のスライドからなるマルチコートデータセットをWSI分類において最も優れた方法よりも0.872$ AUCスコアと2.51\times$高速に表示される。

Digital gigapixel whole slide image (WSI) is widely used in clinical diagnosis, and automated WSI analysis is key for computer-aided diagnosis. Currently, analyzing the integrated descriptor of probabilities or feature maps from massive local patches encoded by ResNet classifier is the main manner for WSI-level prediction. Feature representations of the sparse and tiny lesion cells in cervical slides, however, are still challengeable for the under-promoted upstream encoders, while the unused spatial representations of cervical cells are the available features to supply the semantics analysis. As well as patches sampling with overlap and repetitive processing incur the inefficiency and the unpredictable side effect. This study designs a novel inline connection network (InCNet) by enriching the multi-scale connectivity to build the lightweight model named You Only Look Cytopathology Once (YOLCO) with the additional supervision of spatial information. The proposed model allows the input size enlarged to megapixel that can stitch the WSI without any overlap by the average repeats decreased from $10^3\sim10^4$ to $10^1\sim10^2$ for collecting features and predictions at two scales. Based on Transformer for classifying the integrated multi-scale multi-task features, the experimental results appear $0.872$ AUC score better and $2.51\times$ faster than the best conventional method in WSI classification on multicohort datasets of 2,019 slides from four scanning devices.
翻訳日:2021-06-30 15:28:19 公開日:2021-06-29
# 意味駆動生成型逆ネットワークによる顔スケッチ合成

Face Sketch Synthesis via Semantic-Driven Generative Adversarial Network ( http://arxiv.org/abs/2106.15121v1 )

ライセンス: Link先を確認
Xingqun Qi, Muyi Sun, Weining Wang, Xiaoxiao Dong, Qi Li, Caifeng Shan(参考訳) 近年、深層ニューラルネットワークの開発において、顔スケッチ合成は大きな進歩を遂げている。 スケッチ肖像画の繊細な描写は、デジタルエンターテイメントや法執行機関のような幅広い応用を促進する。 しかし、実際のシーンの照明のバリエーションや背景が複雑であることから、正確で現実的な顔スケッチ生成はいまだに難しい課題である。 これらの課題に対処するために,グローバルな構造レベルのインジェクションと局所的なクラスレベルの知識再重み付けを組み込んだ,セマンティック型生成適応ネットワーク(SDGAN)を提案する。 具体的には、入力された顔写真に対して顔の塩味検出を行い、全体の顔のテクスチャ構造を提供する。 さらに,SDGANのジェネレータにグローバルな構造的スタイル注入を強制する前に,顔解析レイアウトを意味レベル空間として活用する。 さらに,詳細の現実的な効果を高めるために,異なる意味クラスの貢献のバランスをとるために,新しい適応的再重み付け損失(arloss)を提案する。 実験的に,CUFSおよびCUFSFデータセットに関する広範な実験により,提案アルゴリズムが最先端の性能を達成することを示す。

Face sketch synthesis has made significant progress with the development of deep neural networks in these years. The delicate depiction of sketch portraits facilitates a wide range of applications like digital entertainment and law enforcement. However, accurate and realistic face sketch generation is still a challenging task due to the illumination variations and complex backgrounds in the real scenes. To tackle these challenges, we propose a novel Semantic-Driven Generative Adversarial Network (SDGAN) which embeds global structure-level style injection and local class-level knowledge re-weighting. Specifically, we conduct facial saliency detection on the input face photos to provide overall facial texture structure, which could be used as a global type of prior information. In addition, we exploit face parsing layouts as the semantic-level spatial prior to enforce globally structural style injection in the generator of SDGAN. Furthermore, to enhance the realistic effect of the details, we propose a novel Adaptive Re-weighting Loss (ARLoss) which dedicates to balance the contributions of different semantic classes. Experimentally, our extensive experiments on CUFS and CUFSF datasets show that our proposed algorithm achieves state-of-the-art performance.
翻訳日:2021-06-30 15:27:50 公開日:2021-06-29
# 骨格に基づく行動認識のためのより強靭で高速なベースラインの構築

Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition ( http://arxiv.org/abs/2106.15125v1 )

ライセンス: Link先を確認
Yi-Fan Song, Zhang Zhang, Caifeng Shan, Liang Wang(参考訳) 骨格に基づく行動認識における重要な問題は、すべての骨格関節で識別的特徴を抽出する方法である。 しかし、最近のステートオフ・ザ・アルト(SOTA)モデルの複雑さは、非常に高度で過度にパラメータ化される傾向にある。 モデルトレーニングと推論の低効率化により、大規模データセットにおけるモデルアーキテクチャの検証コストが増大した。 上記の問題に対処するため、最近の高度な分離可能な畳み込み層を早期に融合したMultiple Input Branches (MIB)ネットワークに組み込み、スケルトンに基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)ベースラインを構築する。 さらに,そのようなベースラインに基づいて,モデルの幅と深さを同期的に拡張する複合スケーリング戦略を設計し,その結果,'x'がスケーリング係数を表すような,高精度かつ少量のトレーニング可能なパラメータを持つ効率的なGCNベースラインのファミリーを得る。 NTU RGB+D 60と120という2つの大規模データセットでは、提案されたEfficientGCN-B4ベースラインは、NTU 60データセットのクロスオブジェクトベンチマークにおいて91.7%の精度を達成し、MS-G3Dよりも3.15倍小さく、3.21倍高速である。 PyTorchバージョンと事前訓練されたモデルのソースコードはhttps://github.com/y fsong0709/EfficientG CNv1で入手できる。

One essential problem in skeleton-based action recognition is how to extract discriminative features over all skeleton joints. However, the complexity of the recent State-Of-The-Art (SOTA) models for this task tends to be exceedingly sophisticated and over-parameterized. The low efficiency in model training and inference has increased the validation costs of model architectures in large-scale datasets. To address the above issue, recent advanced separable convolutional layers are embedded into an early fused Multiple Input Branches (MIB) network, constructing an efficient Graph Convolutional Network (GCN) baseline for skeleton-based action recognition. In addition, based on such the baseline, we design a compound scaling strategy to expand the model's width and depth synchronously, and eventually obtain a family of efficient GCN baselines with high accuracies and small amounts of trainable parameters, termed EfficientGCN-Bx, where ''x'' denotes the scaling coefficient. On two large-scale datasets, i.e., NTU RGB+D 60 and 120, the proposed EfficientGCN-B4 baseline outperforms other SOTA methods, e.g., achieving 91.7% accuracy on the cross-subject benchmark of NTU 60 dataset, while being 3.15x smaller and 3.21x faster than MS-G3D, which is one of the best SOTA methods. The source code in PyTorch version and the pretrained models are available at https://github.com/y fsong0709/EfficientG CNv1.
翻訳日:2021-06-30 15:27:30 公開日:2021-06-29
# 動的推論のためのマルチエクイット視覚トランス

Multi-Exit Vision Transformer for Dynamic Inference ( http://arxiv.org/abs/2106.15183v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) ディープニューラルネットワークは、中間層の一部の後に早期出口ブランチを挿入することで、マルチエクイットアーキテクチャに変換できる。 これによって推論プロセスは動的になり、時間的に重要なIoTアプリケーションに対して、レイテンシの厳しい要件があるのに、時間的な通信や計算リソースを持つのに役立ちます。 特にエッジコンピューティングシステムやIoTネットワークでは、正確な計算時間予算が可変であり、事前に分かっていない。 vision transformerは、最近提案されたアーキテクチャで、コンピュータビジョンのさまざまな領域にまたがる多くのアプリケーションを見出した。 本研究では,視覚トランスフォーマーバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。 分類問題と回帰問題の両方を含む広範な実験を通じて,提案するアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。

Deep neural networks can be converted to multi-exit architectures by inserting early exit branches after some of their intermediate layers. This allows their inference process to become dynamic, which is useful for time critical IoT applications with stringent latency requirements, but with time-variant communication and computation resources. In particular, in edge computing systems and IoT networks where the exact computation time budget is variable and not known beforehand. Vision Transformer is a recently proposed architecture which has since found many applications across various domains of computer vision. In this work, we propose seven different architectures for early exit branches that can be used for dynamic inference in Vision Transformer backbones. Through extensive experiments involving both classification and regression problems, we show that each one of our proposed architectures could prove useful in the trade-off between accuracy and speed.
翻訳日:2021-06-30 15:27:06 公開日:2021-06-29
# 一般化可能な人物再同定のためのドメインクラス相関分解

Domain-Class Correlation Decomposition for Generalizable Person Re-Identification ( http://arxiv.org/abs/2106.15206v1 )

ライセンス: Link先を確認
Kaiwen Yang and Xinmei Tian(参考訳) 個人再識別におけるドメインの一般化は、複数のソースドメインからのデータで訓練されたモデルが、ターゲットとなるドメインを十分に一般化することが期待される、非常に重要で実践的なタスクである。 ドメイン対逆学習は、敵対的訓練を通じて潜在表現におけるドメイン情報を除去することを目的とした、有望なドメイン一般化手法である。 しかし, 個人再識別においては, ドメインとクラスは相関関係にあり, 理論的には, このドメインとクラスの相関関係により, クラスに関する特定の情報を失うことが示される。 カジュアルな推論にヒントを得て、ドメインクラス相関を分解することを目的として、ドメインファクタ$d$への介入を行う。 この目的を達成するために、一階および二階の統計特性マッチングによる介入によって生じる結果表現 $z^{*}$ を推定することを提案した。 具体的には,各領域の統計特性を復元するメモリバンクを構築する。 次に、新たに生成されたサンプル $\{z^{*},y,d^{*}\}$ を用いて損失関数を計算する。 これらのサンプルはドメインクラス相関を分解し、より多くのクラス関連の特徴をキャプチャできるドメイン不変表現を学習することができる。 大規模なドメイン一般化Re-IDベンチマークにおいて,本モデルが最先端の手法より優れていることを示す。

Domain generalization in person re-identification is a highly important meaningful and practical task in which a model trained with data from several source domains is expected to generalize well to unseen target domains. Domain adversarial learning is a promising domain generalization method that aims to remove domain information in the latent representation through adversarial training. However, in person re-identification, the domain and class are correlated, and we theoretically show that domain adversarial learning will lose certain information about class due to this domain-class correlation. Inspired by casual inference, we propose to perform interventions to the domain factor $d$, aiming to decompose the domain-class correlation. To achieve this goal, we proposed estimating the resulting representation $z^{*}$ caused by the intervention through first- and second-order statistical characteristic matching. Specifically, we build a memory bank to restore the statistical characteristics of each domain. Then, we use the newly generated samples $\{z^{*},y,d^{*}\}$ to compute the loss function. These samples are domain-class correlation decomposed; thus, we can learn a domain-invariant representation that can capture more class-related features. Extensive experiments show that our model outperforms the state-of-the-art methods on the large-scale domain generalization Re-ID benchmark.
翻訳日:2021-06-30 15:26:52 公開日:2021-06-29
# ロバスト回帰を使ってフォントの使用傾向を見つける

Using Robust Regression to Find Font Usage Trends ( http://arxiv.org/abs/2106.15232v1 )

ライセンス: Link先を確認
Kaigen Tsuji, Daichi Haraguchi, Seiichi Uchida, Brian Kenji Iwana(参考訳) フォントは、発明された時期だけでなく、その使用や人気においても、その歴史を通じてトレンドがあった。 本稿では,テキスト画像の大規模なコレクションにおいて,ロバスト回帰を用いてフォント使用傾向を具体的に把握しようとする。 映画のポスターは,その公開日を用いて,時間を表すことができるので,映画のポスターをフォントの源泉として活用する。 また、映画のポスターは、慎重にデザインされ、幅広いフォントを表現する文書である。 映画ポスターのフォントと時間の関係を理解するために,回帰畳み込みニューラルネットワーク(cnn)を用いて,分離したタイトルテキスト画像を用いて映画の公開年を推定する。 課題の難易度から,平均二乗誤差 (mse) とタキーの2重重損失の組合せを用いたハイブリッドトレーニング手法を提案する。 さらに、時間を通してフォントの傾向を徹底的に分析する。

Fonts have had trends throughout their history, not only in when they were invented but also in their usage and popularity. In this paper, we attempt to specifically find the trends in font usage using robust regression on a large collection of text images. We utilize movie posters as the source of fonts for this task because movie posters can represent time periods by using their release date. In addition, movie posters are documents that are carefully designed and represent a wide range of fonts. To understand the relationship between the fonts of movie posters and time, we use a regression Convolutional Neural Network (CNN) to estimate the release year of a movie using an isolated title text image. Due to the difficulty of the task, we propose to use of a hybrid training regimen that uses a combination of Mean Squared Error (MSE) and Tukey's biweight loss. Furthermore, we perform a thorough analysis on the trends of fonts through time.
翻訳日:2021-06-30 15:26:31 公開日:2021-06-29
# AutoNovel: 新しいビジュアルカテゴリの自動発見と学習

AutoNovel: Automatically Discovering and Learning Novel Visual Categories ( http://arxiv.org/abs/2106.15252v1 )

ライセンス: Link先を確認
Kai Han and Sylvestre-Alvise Rebuffi and S\'ebastien Ehrhardt and Andrea Vedaldi and Andrew Zisserman(参考訳) 本稿では,他のクラスをラベル付けした画像コレクションにおける新しいクラス発見の問題に取り組む。 We present a new approach called AutoNovel to address this problem by combining three ideas: (1) we suggest that the common approach of bootstrapping an image representation using the labelled data only introduces an unwanted bias, and that this can be avoided by using self-supervised learning to train the representation from scratch on the union of labelled and unlabelled data; (2) we use ranking statistics to transfer the model's knowledge of the labelled classes to the problem of clustering the unlabelled images; and, (3) we train the data representation by optimizing a joint objective function on the labelled and unlabelled subsets of the data, improving both the supervised classification of the labelled data, and the clustering of the unlabelled data. また,新しいカテゴリの数が事前に分かっていない場合に,クラス数を推定する手法を提案する。 我々はAutoNovelを標準分類ベンチマークで評価し、新しいカテゴリー発見の手法をかなり上回っている。 さらに,AutoNovelが完全に教師なしの画像クラスタリングに利用でき,有望な結果が得られることを示す。

We tackle the problem of discovering novel classes in an image collection given labelled examples of other classes. We present a new approach called AutoNovel to address this problem by combining three ideas: (1) we suggest that the common approach of bootstrapping an image representation using the labelled data only introduces an unwanted bias, and that this can be avoided by using self-supervised learning to train the representation from scratch on the union of labelled and unlabelled data; (2) we use ranking statistics to transfer the model's knowledge of the labelled classes to the problem of clustering the unlabelled images; and, (3) we train the data representation by optimizing a joint objective function on the labelled and unlabelled subsets of the data, improving both the supervised classification of the labelled data, and the clustering of the unlabelled data. Moreover, we propose a method to estimate the number of classes for the case where the number of new categories is not known a priori. We evaluate AutoNovel on standard classification benchmarks and substantially outperform current methods for novel category discovery. In addition, we also show that AutoNovel can be used for fully unsupervised image clustering, achieving promising results.
翻訳日:2021-06-30 15:26:17 公開日:2021-06-29
# SRF-Net:アンカーレス動作検出のための選択的受容場ネットワーク

SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal Action Detection ( http://arxiv.org/abs/2106.15258v1 )

ライセンス: Link先を確認
Ranyu Ning, Can Zhang, Yuexian Zou(参考訳) 時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。 現在の主流のワンステージTADは、事前に定義されたアンカーに依存したアクション提案のローカライズと分類にアプローチしている。 このようなアンカーベースのTAD法は、その一般化能力を制限し、ビデオがリッチなアクション変動を含む場合、パフォーマンスが低下する。 本研究では,tad法における事前定義されたアンカーの必要性を解消する。 特徴マップにおいて、各時間的位置における位置オフセットと分類スコアを直接推定し、エンドツーエンドでsrf-netを訓練可能な、選択的受容場ネットワーク(srf-net)と呼ばれる新しいtadモデルを開発した。 革新的に、SRFC(Selective Receptive Field Convolution)と呼ばれるビルディングブロックは、特徴写像の各時間的位置における入力情報の複数のスケールに応じて、その受信フィールドサイズを適応的に調整できるように設計されている。 THUMOS14データセットで大規模な実験を行い、最先端のTADアプローチと比較して優れた結果を報告した。

Temporal action detection (TAD) is a challenging task which aims to temporally localize and recognize the human action in untrimmed videos. Current mainstream one-stage TAD approaches localize and classify action proposals relying on pre-defined anchors, where the location and scale for action instances are set by designers. Obviously, such an anchor-based TAD method limits its generalization capability and will lead to performance degradation when videos contain rich action variation. In this study, we explore to remove the requirement of pre-defined anchors for TAD methods. A novel TAD model termed as Selective Receptive Field Network (SRF-Net) is developed, in which the location offsets and classification scores at each temporal location can be directly estimated in the feature map and SRF-Net is trained in an end-to-end manner. Innovatively, a building block called Selective Receptive Field Convolution (SRFC) is dedicatedly designed which is able to adaptively adjust its receptive field size according to multiple scales of input information at each temporal location in the feature map. Extensive experiments are conducted on the THUMOS14 dataset, and superior results are reported comparing to state-of-the-art TAD approaches.
翻訳日:2021-06-30 15:26:01 公開日:2021-06-29
# MFR 2021:マスク付き顔認識コンペティション

MFR 2021: Masked Face Recognition Competition ( http://arxiv.org/abs/2106.15288v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Jan Niklas Kolf, Kiran Raja, Florian Kirchbuchner, Raghavendra Ramachandra, Arjan Kuijper, Pengcheng Fang, Chao Zhang, Fei Wang, David Montero, Naiara Aginako, Basilio Sierra, Marcos Nieto, Mustafa Ekrem Erakin, Ugur Demir, Hazim Kemal, Ekenel, Asaki Kataoka, Kohei Ichikawa, Shizuma Kubo, Jie Zhang, Mingjie He, Dan Han, Shiguang Shan, Klemen Grm, Vitomir \v{S}truc, Sachith Seneviratne, Nuran Kasthuriarachchi, Sanka Rasnayaka, Pedro C. Neto, Ana F. Sequeira, Joao Ribeiro Pinto, Mohsen Saffari, and Jaime S. Cardoso(参考訳) 本稿では,2021年の国際生体認証合同会議(ijcb 2021)において,マスク付き顔認識コンペティション(mfr)について概説する。 参加チームは10チームが参加し、応募は有効だった。 これらのチームの提携は多様であり、9カ国のアカデミアや産業と結びついている。 これらのチームは18の有効な解決策を提出した。 このコンペティションは、マスクされた顔の顔認識精度を高めるソリューションの動機付けを目的としている。 さらに,顔認識モデルのコンパクト性を考慮し,提案手法の展開可能性を検討した。 提案ソリューションを評価するために、コラボレーティブでマルチセッション、リアルマスク、キャプチャシナリオを表すプライベートデータセットが使用される。 トップパフォーマンスのアカデミック顔認識ソリューションの1つと比較すると、提出された18のソリューションのうち10つは、マスク付き顔認証の精度が高かった。

This paper presents a summary of the Masked Face Recognition Competitions (MFR) held within the 2021 International Joint Conference on Biometrics (IJCB 2021). The competition attracted a total of 10 participating teams with valid submissions. The affiliations of these teams are diverse and associated with academia and industry in nine different countries. These teams successfully submitted 18 valid solutions. The competition is designed to motivate solutions aiming at enhancing the face recognition accuracy of masked faces. Moreover, the competition considered the deployability of the proposed solutions by taking the compactness of the face recognition models into account. A private dataset representing a collaborative, multi-session, real masked, capture scenario is used to evaluate the submitted solutions. In comparison to one of the top-performing academic face recognition solutions, 10 out of the 18 submitted solutions did score higher masked face verification accuracy.
翻訳日:2021-06-30 15:25:42 公開日:2021-06-29
# 固有オートエンコーダを用いた画像キャプション評価のためのコントラスト意味的類似性学習

Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder ( http://arxiv.org/abs/2106.15312v1 )

ライセンス: Link先を確認
Chao Zeng, Tiesong Zhao, Sam Kwong(参考訳) 画像キャプションの品質を自動評価することは、人間の言語が柔軟であるため、同じ意味の様々な表現が存在するため、非常に難しい。 現在のキャプション指標のほとんどは、候補キャプションと接地真理ラベル文のトークンレベルマッチングに依存している。 通常は文レベルの情報を無視する。 自己エンコーダ機構と対比表現学習の進歩に動機づけられた画像キャプションのための学習ベースメトリクスを提案し,本質的画像キャプション評価($i^2ce$)と呼ぶ。 文レベルの表現を学習するために,3つのプログレッシブなモデル構造を開発する-単一分岐モデル,二重分岐モデル,三重分岐モデル。 両枝構造で訓練した$I^2CE$は,現代の画像キャプション評価指標よりも,人間の判断との整合性が良好であることを示す。 さらに,同時代の指標と提案した$I^2CE$に関して,いくつかの最先端画像キャプションモデルを選択し,MS COCOデータセット上でその性能を検証した。 実験の結果,提案手法は他の指標から得られたスコアとよく一致することがわかった。 この点に関して、提案した指標は、既存の指標と相補的なキャプション間の固有情報の新たな指標として機能する可能性がある。

Automatically evaluating the quality of image captions can be very challenging since human language is quite flexible that there can be various expressions for the same meaning. Most of the current captioning metrics rely on token level matching between candidate caption and the ground truth label sentences. It usually neglects the sentence-level information. Motivated by the auto-encoder mechanism and contrastive representation learning advances, we propose a learning-based metric for image captioning, which we call Intrinsic Image Captioning Evaluation($I^2CE$). We develop three progressive model structures to learn the sentence level representations--sin gle branch model, dual branches model, and triple branches model. Our empirical tests show that $I^2CE$ trained with dual branches structure achieves better consistency with human judgments to contemporary image captioning evaluation metrics. Furthermore, We select several state-of-the-art image captioning models and test their performances on the MS COCO dataset concerning both contemporary metrics and the proposed $I^2CE$. Experiment results show that our proposed method can align well with the scores generated from other contemporary metrics. On this concern, the proposed metric could serve as a novel indicator of the intrinsic information between captions, which may be complementary to the existing ones.
翻訳日:2021-06-30 15:25:29 公開日:2021-06-29
# テキスト先行案内シーンテキスト画像の超解像

Text Prior Guided Scene Text Image Super-resolution ( http://arxiv.org/abs/2106.15368v1 )

ライセンス: Link先を確認
Jianqi Ma, Shi Guo, Lei Zhang(参考訳) シーンテキスト画像スーパーレゾリューション(stisr)は、低解像度(lr)シーンテキスト画像の解像度と視覚品質を改善し、テキスト認識の性能を向上させることを目的としている。 しかし、既存のSTISR手法の多くは、テキストの分類情報を無視して、テキストイメージを自然なシーンイメージとみなしている。 本稿では,stisrモデルの学習に先立って,カテゴリー的テキストを組み込むという印象的な試みを行う。 具体的には、文字確率列を先行するテキストとして採用し、テキスト認識モデルから便利に得ることができる。 テキスト先行は、高解像度(HR)テキストイメージを復元するための分類的ガイダンスを提供する。 一方、再構成されたHR画像は、返却前にテキストを洗練することができる。 最後に、STISRのためのマルチステージテキストガイド付き超解像(TPGSR)フレームワークを提案する。 ベンチマークのTextZoomデータセットを用いた実験により,TPGSRはシーンテキスト画像の視覚的品質を効果的に向上するだけでなく,既存のSTISR法よりもテキスト認識精度を大幅に向上させることができることがわかった。 また、TextZoomでトレーニングしたモデルでは、他のデータセットのLR画像に対して特定の一般化能力を示す。

Scene text image super-resolution (STISR) aims to improve the resolution and visual quality of low-resolution (LR) scene text images, and consequently boost the performance of text recognition. However, most of existing STISR methods regard text images as natural scene images, ignoring the categorical information of text. In this paper, we make an inspiring attempt to embed categorical text prior into STISR model training. Specifically, we adopt the character probability sequence as the text prior, which can be obtained conveniently from a text recognition model. The text prior provides categorical guidance to recover high-resolution (HR) text images. On the other hand, the reconstructed HR image can refine the text prior in return. Finally, we present a multi-stage text prior guided super-resolution (TPGSR) framework for STISR. Our experiments on the benchmark TextZoom dataset show that TPGSR can not only effectively improve the visual quality of scene text images, but also significantly improve the text recognition accuracy over existing STISR methods. Our model trained on TextZoom also demonstrates certain generalization capability to the LR images in other datasets.
翻訳日:2021-06-30 15:25:02 公開日:2021-06-29
# imenet:反復的相互強化による統合3次元意味シーン補完と2次元意味セグメンテーション

IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation through Iterative Mutual Enhancement ( http://arxiv.org/abs/2106.15413v1 )

ライセンス: Link先を確認
Jie Li, Laiyan Ding and Rui Huang(参考訳) 3Dセマンティックシーン補完と2Dセマンティックセグメンテーションは,2つの密接な相関関係を持つタスクであり,どちらも屋内シーン理解に不可欠である。 現在の方法では、初期のRGB-D画像から抽出した2D特徴を2Dセグメンテーションに利用して、3Dシーンの完了を改善する。 このシーケンシャルなスキームは,これらの2つのタスクが相互に完全に利益を得られることを保証せず,相互強化ネットワーク(IMENet)を連携して解決し,後期予測段階で2つのタスクを対話的に改善する。 具体的には、2つのリファインメントモジュールを2つのタスクを統一したフレームワークで開発する。 1つは2次元変形可能なコンテキストピラミッド(DCP)モジュールで、現在の3次元予測から投影を受け取り、2次元予測を洗練させる。 また,2次元予測から得られた再予測結果を活用して,粗い3次元予測を更新するために,dda(deformable depth attention)モジュールを提案する。 この反復融合は、遅い段階で両方のタスクの安定した高レベルな特徴に起こる。 提案手法の有効性を検証するため,NYUおよびNYUCADデータセットの大規模な実験を行い,本手法は3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において技術状況よりも優れることを示した。

3D semantic scene completion and 2D semantic segmentation are two tightly correlated tasks that are both essential for indoor scene understanding, because they predict the same semantic classes, using positively correlated high-level features. Current methods use 2D features extracted from early-fused RGB-D images for 2D segmentation to improve 3D scene completion. We argue that this sequential scheme does not ensure these two tasks fully benefit each other, and present an Iterative Mutual Enhancement Network (IMENet) to solve them jointly, which interactively refines the two tasks at the late prediction stage. Specifically, two refinement modules are developed under a unified framework for the two tasks. The first is a 2D Deformable Context Pyramid (DCP) module, which receives the projection from the current 3D predictions to refine the 2D predictions. In turn, a 3D Deformable Depth Attention (DDA) module is proposed to leverage the reprojected results from 2D predictions to update the coarse 3D predictions. This iterative fusion happens to the stable high-level features of both tasks at a late stage. Extensive experiments on NYU and NYUCAD datasets verify the effectiveness of the proposed iterative late fusion scheme, and our approach outperforms the state of the art on both 3D semantic scene completion and 2D semantic segmentation.
翻訳日:2021-06-30 15:24:27 公開日:2021-06-29
# ゴール指向視覚対話における記述的質問生成のための統一質問変換器

Unified Questioner Transformer for Descriptive Question Generation in Goal-Oriented Visual Dialogue ( http://arxiv.org/abs/2106.15550v1 )

ライセンス: Link先を確認
Shoya Matsumori, Kosuke Shingyouchi, Yuki Abe, Yosuke Fukuchi, Komei Sugiura, and Michita Imai(参考訳) 現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。 特に,ターンテイク対話中に質問して情報を求めるエージェントが目指す目標指向の視覚対話は,近年,学術的に注目を集めている。 既存のモデルが いくつかあるのに データセットが提案され、質問者は一般的に単純なカテゴリベースの質問や絶対的な空間的な質問を尋ねる。 これは、オブジェクトが属性を共有する複雑なシーンや、オブジェクトを区別するために記述的な質問が必要な場合に問題となる。 本稿では,参照表現を用いた記述的質問生成のためのunified questioner transformer (uniqer) という新しい質問者アーキテクチャを提案する。 さらに,CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築した。 質問者が記述的な質問を生成する必要がある複雑な場面を合成する。 私たちは、CLEVR Askデータセットの2つのバリエーションでモデルをトレーニングします。 定量的および定性的な評価の結果は、UniQerがベースラインを上回っていることを示している。

Building an interactive artificial intelligence that can ask questions about the real world is one of the biggest challenges for vision and language problems. In particular, goal-oriented visual dialogue, where the aim of the agent is to seek information by asking questions during a turn-taking dialogue, has been gaining scholarly attention recently. While several existing models based on the GuessWhat?! dataset have been proposed, the Questioner typically asks simple category-based questions or absolute spatial questions. This might be problematic for complex scenes where the objects share attributes or in cases where descriptive questions are required to distinguish objects. In this paper, we propose a novel Questioner architecture, called Unified Questioner Transformer (UniQer), for descriptive question generation with referring expressions. In addition, we build a goal-oriented visual dialogue task called CLEVR Ask. It synthesizes complex scenes that require the Questioner to generate descriptive questions. We train our model with two variants of CLEVR Ask datasets. The results of the quantitative and qualitative evaluations show that UniQer outperforms the baseline.
翻訳日:2021-06-30 15:24:00 公開日:2021-06-29
# コントラスト心エコー図における心筋分画の多彩なアノテーションによる分節化

Segmentation with Multiple Acceptable Annotations: A Case Study of Myocardial Segmentation in Contrast Echocardiography ( http://arxiv.org/abs/2106.15597v1 )

ライセンス: Link先を確認
Dewen Zeng, Mingqi Li, Yukun Ding, Xiaowei Xu, Qiu Xie, Ruixue Xu, Hongwen Fei, Meiping Huang, Jian Zhuang and Yiyu Shi(参考訳) 画像セグメンテーションのための既存のディープラーニングベースのフレームワークの多くは、ユニークな基底真理が知られ、パフォーマンス評価に使用できると仮定している。 これは多くのアプリケーションに当てはまるが、すべてではない。 自動心筋灌流解析における重要な課題である心筋コントラストエコー法(MCE)の心筋セグメンテーションの例である。 MCEデータの低解像度化と深刻なアーティファクトのため、異なる心臓科医のアノテーションは著しく異なっており、どれがベストかを判断することは困難である。 この場合、セグメンテーション性能を評価する良い方法を見つけるにはどうすればいいのか、ニューラルネットワークをどのようにトレーニングすればよいのか? 本稿では,多重受理基底真理が存在する場合のセグメンテーション性能を効果的に評価するために,新たな拡張diceを提案することで,最初の問題に対処する。 次に,提案手法に基づき,ニューラルネットが心筋の一般的な特徴を柔軟に学習できるロス関数に,新たなメトリックをさらに取り入れることで,第2の問題を解決する。 臨床MCEデータセットを用いた実験結果から,提案した損失関数を用いてトレーニングしたニューラルネットワークは,複数のアノテーションから独特な基底真理を定量的に,定性的に取得しようとするニューラルネットワークよりも優れていることが示された。 最後に,拡張Diceを評価指標として用いることで,手動修正が必要なセグメント化結果の同定がDiceと比較できることを示す。

Most existing deep learning-based frameworks for image segmentation assume that a unique ground truth is known and can be used for performance evaluation. This is true for many applications, but not all. Myocardial segmentation of Myocardial Contrast Echocardiography (MCE), a critical task in automatic myocardial perfusion analysis, is an example. Due to the low resolution and serious artifacts in MCE data, annotations from different cardiologists can vary significantly, and it is hard to tell which one is the best. In this case, how can we find a good way to evaluate segmentation performance and how do we train the neural network? In this paper, we address the first problem by proposing a new extended Dice to effectively evaluate the segmentation performance when multiple accepted ground truth is available. Then based on our proposed metric, we solve the second problem by further incorporating the new metric into a loss function that enables neural networks to flexibly learn general features of myocardium. Experiment results on our clinical MCE data set demonstrate that the neural network trained with the proposed loss function outperforms those existing ones that try to obtain a unique ground truth from multiple annotations, both quantitatively and qualitatively. Finally, our grading study shows that using extended Dice as an evaluation metric can better identify segmentation results that need manual correction compared with using Dice.
翻訳日:2021-06-30 15:23:43 公開日:2021-06-29
# 大規模分子特性予測のためのグラフニューラルネットワークアンサンブルについて

On Graph Neural Network Ensembles for Large-Scale Molecular Property Prediction ( http://arxiv.org/abs/2106.15529v1 )

ライセンス: Link先を確認
Edward Elson Kosasih, Joaquin Cabezas, Xavier Sumba, Piotr Bielak, Kamil Tagowski, Kelvin Idanwekhai, Benedict Aaron Tjandra, Arian Rokkum Jamasb(参考訳) 大規模グラフ機械学習を推進するため、KDDカップ2021でOpen Graph Benchmark Large Scale Challenge (OGB-LSC)が提案された。 PCQM4M-LSCデータセットは、約3.8Mグラフ上の分子HOMO-LUMO特性予測タスクを定義する。 本稿では、GIN, Bayesian Neural Networks, DiffPoolをベースとした3つのグラフニューラルネットワークモデルのアンサンブルを構築する、現行のワーク・イン・プログレス・ソリューションについて述べる。 我々のアプローチは、提供されたベースラインを7.6%上回る。 さらに、アンサンブルの予測の不確実性を用いて、HOMO-LUMOギャップが予測しにくい分子を同定することができる(ピアソンの相関式0.5181)。 これが活発な学習を促進すると期待している。

In order to advance large-scale graph machine learning, the Open Graph Benchmark Large Scale Challenge (OGB-LSC) was proposed at the KDD Cup 2021. The PCQM4M-LSC dataset defines a molecular HOMO-LUMO property prediction task on about 3.8M graphs. In this short paper, we show our current work-in-progress solution which builds an ensemble of three graph neural networks models based on GIN, Bayesian Neural Networks and DiffPool. Our approach outperforms the provided baseline by 7.6%. Moreover, using uncertainty in our ensemble's prediction, we can identify molecules whose HOMO-LUMO gaps are harder to predict (with Pearson's correlation of 0.5181). We anticipate that this will facilitate active learning.
翻訳日:2021-06-30 15:22:52 公開日:2021-06-29
# 政策対応型adversarialデータ拡張による強化学習の一般化

Generalization of Reinforcement Learning with Policy-Aware Adversarial Data Augmentation ( http://arxiv.org/abs/2106.15587v1 )

ライセンス: Link先を確認
Hanping Zhang, Yuhong Guo(参考訳) 強化学習(RL)における一般化ギャップは、RLエージェントが一般的なスキルを習得し、様々な環境に適応することを妨げる重要な障害である。 RLシステムの一般化能力を高めることで、実環境における性能を大幅に向上させることができる。 本研究では,自動生成トラジェクトリデータを用いた標準方針学習手法を改良するための,新しい方針対応逆データ拡張手法を提案する。 一般的な観測変換に基づくデータ拡張とは違って,提案手法は方針勾配目標に基づく新たな軌道データを生成し,ポリシー認識データ拡張により,rlエージェントの一般化能力をより効果的に向上することを目的としている。 さらに,先行データと生成データを統合するためのミックスアップステップを展開し,敵データの過大化を緩和しつつ,一般化能力を高める。 提案手法を標準ベースラインと比較し,最先端のmixregアプローチを用いて一般化性能を検討するため,多数のrlタスクについて実験を行った。 以上の結果から,本手法はトレーニングの多様性が限定され,最先端の一般化テスト性能が得られることを示した。

The generalization gap in reinforcement learning (RL) has been a significant obstacle that prevents the RL agent from learning general skills and adapting to varying environments. Increasing the generalization capacity of the RL systems can significantly improve their performance on real-world working environments. In this work, we propose a novel policy-aware adversarial data augmentation method to augment the standard policy learning method with automatically generated trajectory data. Different from the commonly used observation transformation based data augmentations, our proposed method adversarially generates new trajectory data based on the policy gradient objective and aims to more effectively increase the RL agent's generalization ability with the policy-aware data augmentation. Moreover, we further deploy a mixup step to integrate the original and generated data to enhance the generalization capacity while mitigating the over-deviation of the adversarial data. We conduct experiments on a number of RL tasks to investigate the generalization performance of the proposed method by comparing it with the standard baselines and the state-of-the-art mixreg approach. The results show our method can generalize well with limited training diversity, and achieve the state-of-the-art generalization test performance.
翻訳日:2021-06-30 15:22:39 公開日:2021-06-29
# 自尊心の価格: ALCSelf の接続型クエリエンターメントは 2expTime-hard である

The Price of Selfishness: Conjunctive Query Entailment for ALCSelf is 2ExpTime-hard ( http://arxiv.org/abs/2106.15150v1 )

ライセンス: Link先を確認
Bartosz Bednarczyk and Sebastian Rudolph(参考訳) 論理に基づく知識表現では、クエリ応答は基本的に、主関心の推論問題として単に満足度チェックに置き換えられている。 基本記述論理 ALC の知識ベースでは、連結クエリ(CQ)応答の計算複雑性はExpTime完全であることがよく知られており、満足度よりも難しくはない。 これは論理が特定の特徴(数え上げや役割階層など)によって拡張されたときに変化しないが、他のもの(逆、名目、推移性)を追加するとcqは指数関数的に難しくなる。 我々は、他の多くの文脈で無意味であることが証明された自己作用素によってalcを拡張することさえも、cqの複雑さを2exptimeに増やすことで、この一連の結果に寄与する。 この種の問題に共通して、我々の証明は指数空間で動作するチューリングマシンの交互化による削減を確立するが、その特定の制限された環境でアプローチを動作させるためには、いくつかの新しいアイデアと符号化トリックが必要である。

In logic-based knowledge representation, query answering has essentially replaced mere satisfiability checking as the inferencing problem of primary interest. For knowledge bases in the basic description logic ALC, the computational complexity of conjunctive query (CQ) answering is well known to be ExpTime-complete and hence not harder than satisfiability. This does not change when the logic is extended by certain features (such as counting or role hierarchies), whereas adding others (inverses, nominals or transitivity together with role-hierarchies) turns CQ answering exponentially harder. We contribute to this line of results by showing the surprising fact that even extending ALC by just the Self operator - which proved innocuous in many other contexts - increases the complexity of CQ entailment to 2ExpTime. As common for this type of problem, our proof establishes a reduction from alternating Turing machines running in exponential space, but several novel ideas and encoding tricks are required to make the approach work in that specific, restricted setting.
翻訳日:2021-06-30 15:22:19 公開日:2021-06-29
# 分解可能なタスクのエンドツーエンド評価を再考する:音声言語理解のケーススタディ

Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding ( http://arxiv.org/abs/2106.15065v1 )

ライセンス: Link先を確認
Siddhant Arora, Alissa Ostapenko, Vijay Viswanathan, Siddharth Dalmia, Florian Metze, Shinji Watanabe, Alan W Black(参考訳) 分解可能なタスクは複雑で、サブタスクの階層から構成される。 例えば、音声意図予測は、自動音声認識と自然言語理解を組み合わせたものである。 しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例を示す。 その結果、これらのベンチマークで同様のパフォーマンスを持つモデルは、他のサブタスクで性能の差を観測できない可能性がある。 競合するエンドツーエンドアーキテクチャ間の洞察に富んだ比較を可能にするため、サブタスク固有のユーティリティ関数上の座標アセントを用いて堅牢なテストセットを構築するためのフレームワークを提案する。 分離可能なタスクのデータセットが与えられた場合,各サブタスクに対して,エンド・ツー・エンドモデルのサブコンポーネントを個別に評価するためのテストセットを最適に作成する。 音声言語理解のケーススタディとして,Fluent Speech CommandsとSnips SmartLightsデータセットの新しい分割を生成する。 各スプリットには、自然言語理解能力を評価する保留発話と、音声処理スキルをテストする保留話者の2つのテストセットがある。 当社の分割では、最初のテストセットで互いに1%以内のエンドツーエンドシステム間のパフォーマンスギャップを最大10%特定しています。 これらのパフォーマンスギャップは、異なるアーキテクチャ間のより現実的で実行可能な比較を可能にし、将来のモデル開発を促進する。 私たちはコミュニティのための分割とツールをリリースします。

Decomposable tasks are complex and comprise of a hierarchy of sub-tasks. Spoken intent prediction, for example, combines automatic speech recognition and natural language understanding. Existing benchmarks, however, typically hold out examples for only the surface-level sub-task. As a result, models with similar performance on these benchmarks may have unobserved performance differences on the other sub-tasks. To allow insightful comparisons between competitive end-to-end architectures, we propose a framework to construct robust test sets using coordinate ascent over sub-task specific utility functions. Given a dataset for a decomposable task, our method optimally creates a test set for each sub-task to individually assess sub-components of the end-to-end model. Using spoken language understanding as a case study, we generate new splits for the Fluent Speech Commands and Snips SmartLights datasets. Each split has two test sets: one with held-out utterances assessing natural language understanding abilities, and one with held-out speakers to test speech processing skills. Our splits identify performance gaps up to 10% between end-to-end systems that were within 1% of each other on the original test sets. These performance gaps allow more realistic and actionable comparisons between different architectures, driving future model development. We release our splits and tools for the community.
翻訳日:2021-06-30 15:21:51 公開日:2021-06-29
# O2O-Afford: アノテーションなしの大規模オブジェクト強調学習

O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance Learning ( http://arxiv.org/abs/2106.15087v1 )

ライセンス: Link先を確認
Kaichun Mo, Yuzhe Qin, Fanbo Xiang, Hao Su, Leonidas Guibas(参考訳) モデリング、知覚、およびエージェント・オブジェクトの理解に関する膨大な文献(例えば、人間-オブジェクト、手-オブジェクト、ロボット-オブジェクト)とは対照的に、ロボットの操作や計画作業において重要な役割を果たすオブジェクト-オブジェクトの相互作用のタスクについて研究した過去の著作はほとんどない。 私たちの日常生活には、乱雑なテーブルの上にオブジェクトを置く、引き出しの中にオブジェクトを入れる、ツールを使ってオブジェクトを押す、など、オブジェクトとオブジェクトの相互作用のシナリオが豊富にあります。 本稿では,様々なタスクのオブジェクト間インタラクションを学習するための統一的なアフォーアンス学習フレームワークを提案する。 物理シミュレーション(SAPIEN)と幾何多様性の豊富な何千ものShapeNetモデルを用いて、4つのオブジェクト・オブジェクト・インタラクション・タスク環境を構築することにより、人間のアノテーションやデモンストレーションを必要とせずに大規模オブジェクト・オブジェクト・アベイランス学習を行うことができる。 技術的コントリビューションの核心として、2つのオブジェクト間の詳細な相互作用を推論するオブジェクトカーネルポイント畳み込みネットワークを提案する。 大規模合成データと実世界データの実験により,提案手法の有効性が証明された。 code, data, video, and more materials: https://cs.stanford. edu/~kaichun/o2oaffo rd

Contrary to the vast literature in modeling, perceiving, and understanding agent-object (e.g., human-object, hand-object, robot-object) interaction in computer vision and robotics, very few past works have studied the task of object-object interaction, which also plays an important role in robotic manipulation and planning tasks. There is a rich space of object-object interaction scenarios in our daily life, such as placing an object on a messy tabletop, fitting an object inside a drawer, pushing an object using a tool, etc. In this paper, we propose a unified affordance learning framework to learn object-object interaction for various tasks. By constructing four object-object interaction task environments using physical simulation (SAPIEN) and thousands of ShapeNet models with rich geometric diversity, we are able to conduct large-scale object-object affordance learning without the need for human annotations or demonstrations. At the core of technical contribution, we propose an object-kernel point convolution network to reason about detailed interaction between two objects. Experiments on large-scale synthetic data and real-world data prove the effectiveness of the proposed approach. Please refer to the project webpage for code, data, video, and more materials: https://cs.stanford. edu/~kaichun/o2oaffo rd
翻訳日:2021-06-30 15:21:08 公開日:2021-06-29
# 深層学習による都市景観の定量化 : 美的評価に着目して

Quantifying urban streetscapes with deep learning: focus on aesthetic evaluation ( http://arxiv.org/abs/2106.15361v1 )

ライセンス: Link先を確認
Yusuke Kumakoshi, Shigeaki Onoda, Tetsuya Takahashi, Yuji Yoshimura(参考訳) 都市景観の障害は、人々の美的品質に対する認識に悪影響を及ぼす。 ビルのファサードにおける看板の存在は、この障害の重要な要因と考えられているが、その定量化手法はまだスケーラブルな方法で開発されていない。 このギャップを埋めるために,本稿では,街路景観におけるファサードと看板によってカバーされたエリアを認識するために,東京で用意されたユニークなデータセット上でのディープラーニングモデルの性能について報告する。 このモデルはiou(intersection-ove r-union)によって測定された63.17パーセントの精度を達成し、研究者や実践者が人々の好みのデータを組み合わせて街並みのデザインについての洞察を得ることを可能にした。

The disorder of urban streetscapes would negatively affect people's perception of their aesthetic quality. The presence of billboards on building facades has been regarded as an important factor of the disorder, but its quantification methodology has not yet been developed in a scalable manner. To fill the gap, this paper reports the performance of our deep learning model on a unique data set prepared in Tokyo to recognize the areas covered by facades and billboards in streetscapes, respectively. The model achieved 63.17 % of accuracy, measured by Intersection-over-Un ion (IoU), thus enabling researchers and practitioners to obtain insights on urban streetscape design by combining data of people's preferences.
翻訳日:2021-06-30 15:20:42 公開日:2021-06-29
# 薄切片mr画像再構成のための2段階自己教師付きサイクルコンシスタンスネットワーク

Two-Stage Self-Supervised Cycle-Consistency Network for Reconstruction of Thin-Slice MR Images ( http://arxiv.org/abs/2106.15395v1 )

ライセンス: Link先を確認
Zhiyang Lu, Zheng Li, Jun Wang, Jun shi, Dinggang Shen(参考訳) 厚いスライス磁気共鳴(MR)画像は、しばしば冠状および矢状視で構造的にぼやけており、診断や画像後処理に害を与える。 深層学習(DL)は,これらの低分解能(LR)症例から高分解能(HR)薄膜MR画像を再構築する大きな可能性を示し,本研究のスライス補間課題と呼ぶ。 しかし, 大量のLR-HR MR画像のサンプリングは一般的に困難であるため, 従来の完全教師付きDLベースモデルは, 堅牢な性能を得るために効果的に訓練できない。 そこで本研究では,mrスライス補間のための2段階自己教師付きサイクルコンシスタンスネットワーク (tscnet) を提案し,非教師なしdlネットワークトレーニングのための2段階自己教師付き学習 (ssl) 戦略を開発した。 このペアLR-HR画像は、第1ステージSSLにおけるネットワークプリトレーニングのための入力LR画像の矢状方向とコロナ方向に沿って合成され、さらに第2ステージSSLにおいて、トリプルト軸スライスに基づく巡回的補間手順が設計される。 改良された補間性能を保証するためのガイダンスとして、あらゆる方向にリッチなコンテキストを持つトレーニングサンプルが利用される。 さらに、この循環手順を監督するために、よりリアルなHR画像の再構成を促す新しいサイクル一貫性制約を提案する。 実MRIデータセットを用いた実験結果から, TSCNetは従来のSSLベースのアルゴリズムよりも優れた性能を示し, 完全教師付きアルゴリズムと比較して, 競合する定性的かつ定量的な結果が得られることがわかった。

The thick-slice magnetic resonance (MR) images are often structurally blurred in coronal and sagittal views, which causes harm to diagnosis and image post-processing. Deep learning (DL) has shown great potential to re-construct the high-resolution (HR) thin-slice MR images from those low-resolution (LR) cases, which we refer to as the slice interpolation task in this work. However, since it is generally difficult to sample abundant paired LR-HR MR images, the classical fully supervised DL-based models cannot be effectively trained to get robust performance. To this end, we propose a novel Two-stage Self-supervised Cycle-consistency Network (TSCNet) for MR slice interpolation, in which a two-stage self-supervised learning (SSL) strategy is developed for unsupervised DL network training. The paired LR-HR images are synthesized along the sagittal and coronal directions of input LR images for network pretraining in the first-stage SSL, and then a cyclic in-terpolation procedure based on triplet axial slices is designed in the second-stage SSL for further refinement. More training samples with rich contexts along all directions are exploited as guidance to guarantee the improved in-terpolation performance. Moreover, a new cycle-consistency constraint is proposed to supervise this cyclic procedure, which encourages the network to reconstruct more realistic HR images. The experimental results on a real MRI dataset indicate that TSCNet achieves superior performance over the conventional and other SSL-based algorithms, and obtains competitive quali-tative and quantitative results compared with the fully supervised algorithm.
翻訳日:2021-06-30 15:20:29 公開日:2021-06-29
# 線形モデルのための認証マシンアンラーニング

Certifiable Machine Unlearning for Linear Models ( http://arxiv.org/abs/2106.15093v1 )

ライセンス: Link先を確認
Ananth Mahadevan and Michael Mathioudakis(参考訳) 機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。 タスクのメソッドは、有効性と効率性、すなわち、削除されたデータを効果的に「解き放つ」ことが望ましいが、少量の削除のために過剰な計算労力(例えば、完全な再訓練)を必要としない方法である。 このような組み合わせは、通常、アンラーニングである程度の近似を解き放つことによって達成される。 さらに、「忘れられる権利」の精神における法律や規則は、正当性、すなわち削除されたデータが実際にMLモデルによって学習されていないことを示す能力の要求を生じさせた。 本稿では,線形モデルに対する3つの非学習手法に関する実験的検討を行い,各手法の効率性,有効性,妥当性のトレードオフを実証する。 本研究の実施にあたっては,既存の作業を拡張し,実世界の6つのデータセットとさまざまな設定に関する未学習手法の比較と評価を行うための共通MLパイプラインを記述する。 本稿では,削除されたデータの量と分布がmlモデルに与える影響と,各学習方法の性能に与える影響について考察する。 また,機械学習モデルの完全再トレーニングを保証できるほど,学習未学習からの累積誤差が大きくなるかどうかを判断する実用的なオンライン戦略を提案する。

Machine unlearning is the task of updating machine learning (ML) models after a subset of the training data they were trained on is deleted. Methods for the task are desired to combine effectiveness and efficiency, i.e., they should effectively "unlearn" deleted data, but in a way that does not require excessive computation effort (e.g., a full retraining) for a small amount of deletions. Such a combination is typically achieved by tolerating some amount of approximation in the unlearning. In addition, laws and regulations in the spirit of "the right to be forgotten" have given rise to requirements for certifiability, i.e., the ability to demonstrate that the deleted data has indeed been unlearned by the ML model. In this paper, we present an experimental study of the three state-of-the-art approximate unlearning methods for linear models and demonstrate the trade-offs between efficiency, effectiveness and certifiability offered by each method. In implementing the study, we extend some of the existing works and describe a common ML pipeline to compare and evaluate the unlearning methods on six real-world datasets and a variety of settings. We provide insights into the effect of the quantity and distribution of the deleted data on ML models and the performance of each unlearning method in different settings. We also propose a practical online strategy to determine when the accumulated error from approximate unlearning is large enough to warrant a full retrain of the ML model.
翻訳日:2021-06-30 15:19:16 公開日:2021-06-29
# GraphPiece: サブ構造を持つ高品質分子グラフを効率よく生成する

GraphPiece: Efficiently Generating High-Quality Molecular Graph with Substructures ( http://arxiv.org/abs/2106.15098v1 )

ライセンス: Link先を確認
Xiangzhe Kong, Zhixing Tan, Yang Liu(参考訳) 分子グラフ生成は、薬物発見や物質科学といった様々な応用における基本的な課題であるが、望ましい性質を持つ有効な分子を生成する必要がある。 自己回帰モデルは通常、ノードとエッジを原子レベルで追加するシーケンシャルな動作に従ってグラフを構成するが、近年急速に進歩している。 しかし、これらの原子レベルモデルは、分子内の原子結合の規則性を捉えるだけでなく、しばしば所望の化学的性質と関連する高周波サブグラフを無視している。 本稿では、与えられた分子グラフからそのような共通部分構造を自動的に発見する手法を提案する。 グラフのピースに基づいて、変分オートエンコーダを利用して2つのフェーズ(ピースレベルグラフ生成と結合完了)で分子を生成する。 実験により,グラフ片変動オートエンコーダは,計算効率の高い特性最適化と制約付き特性最適化タスクにおいて,最先端のベースラインよりも優れた性能を実現することが示された。

Molecular graph generation is a fundamental but challenging task in various applications such as drug discovery and material science, which requires generating valid molecules with desired properties. Auto-regressive models, which usually construct graphs following sequential actions of adding nodes and edges at the atom-level, have made rapid progress in recent years. However, these atom-level models ignore high-frequency subgraphs that not only capture the regularities of atomic combination in molecules but also are often related to desired chemical properties. In this paper, we propose a method to automatically discover such common substructures, which we call {\em graph pieces}, from given molecular graphs. Based on graph pieces, we leverage a variational autoencoder to generate molecules in two phases: piece-level graph generation followed by bond completion. Experiments show that our graph piece variational autoencoder achieves better performance over state-of-the-art baselines on property optimization and constrained property optimization tasks with higher computational efficiency.
翻訳日:2021-06-30 15:18:52 公開日:2021-06-29
# 植物マイクロRNA予測のための機械学習 : 系統的レビュー

Machine learning for plant microRNA prediction: A systematic review ( http://arxiv.org/abs/2106.15159v1 )

ライセンス: Link先を確認
Shyaman Jayasundara, Sandali Lokuge, Puwasuru Ihalagedara and Damayanthi Herath(参考訳) マイクロRNA(miRNA)は、転写後遺伝子制御において重要な役割を果たす内因性の小さな非コードRNAである。 しかし、miRNA配列と構造の実験的な決定は高価で時間を要する。 したがって、新しいマイクロrnaを予測するために計算と機械学習に基づくアプローチが採用されている。 データサイエンスと機械学習の生物学への関与により、異なる計算方法と異なるmiRNA特徴を持つマイクロRNAを見つけるために複数の研究が実施された。 複数のアプローチについて,使用した学習アルゴリズム/s,検討した特徴,使用するデータセット/s,評価に使用する基準について詳細に検討した。 本研究は,植物におけるmiRNA識別のための機械学習手法について概説する。 これは、研究者が過去の研究に関する詳細なアイデアを入手し、過去の研究で生じた欠点を解決する新しい経路を特定するのに役立つ。 この結果から, 植物特異的なmiRNA同定法の必要性が示唆された。

MicroRNAs (miRNAs) are endogenous small non-coding RNAs that play an important role in post-transcriptional gene regulation. However, the experimental determination of miRNA sequence and structure is both expensive and time-consuming. Therefore, computational and machine learning-based approaches have been adopted to predict novel microRNAs. With the involvement of data science and machine learning in biology, multiple research studies have been conducted to find microRNAs with different computational methods and different miRNA features. Multiple approaches are discussed in detail considering the learning algorithm/s used, features considered, dataset/s used and the criteria used in evaluations. This systematic review focuses on the machine learning methods developed for miRNA identification in plants. This will help researchers to gain a detailed idea about past studies and identify novel paths that solve drawbacks occurred in past studies. Our findings highlight the need for plant-specific computational methods for miRNA identification.
翻訳日:2021-06-30 15:18:33 公開日:2021-06-29
# 幾何認識学習による一般化型深部慣性追跡

Towards Generalisable Deep Inertial Tracking via Geometry-Aware Learning ( http://arxiv.org/abs/2106.15178v1 )

ライセンス: Link先を確認
Mohammed Alloulah, Maximilian Arnold, Anton Isopoussu(参考訳) 未整備および未準備環境における自律ナビゲーションは、次世代の屋内および屋外の位置情報ベースのサービスに対する基本的な需要である。 このような野心をもたらすには、困難な動的条件によらず、性能を維持するために、協調的な感覚モダリティのスイートが必要である。 提供中の多くのモダリティのうち、慣性追跡は、周囲の環境から独立しているため、一時的に不都合な運用条件下で重要な役割を果たす。 しかし慣性追跡は伝統的に(i)過度なエラーの増大に悩まされ、(ii)広範囲で面倒なチューニングを必要とした。 これらの問題はどちらも慣性追跡の魅力と実用性を制限している。 本稿では,従来の制約を克服する新しいディープラーニング慣性追跡システムであるDITについて述べる。 DITは、(i)DITは機械式スライダサブシステムで強化されたロボットプラットフォームを使用し、異なるセンサー搭載ジオメトリから生じる慣性信号の変動を自動的にサンプリングする。 我々はこのプラットフォームを使用して、21キロメートルの集合距離を11のインデックス付きセンサー搭載ジオメトリに分割した720万のサンプルデータセットを社内でキュレートする。 (II)DITは、ディープラーニング、最適輸送、ドメイン適応(DA)を用いて、センサ配置幾何学における可変性に頑健なモデルを作成する。 システム全体は、エンドツーエンドのロボット学習方式で高性能で汎用的な慣性航法モデルを合成する。 本評価では,産業用グレードのセンサフュージョンベースラインを10倍(90%),技術用対人DA技術を2.5倍(90%),トレーニング時間で10倍(90%)に向上させた。

Autonomous navigation in uninstrumented and unprepared environments is a fundamental demand for next generation indoor and outdoor location-based services. To bring about such ambition, a suite of collaborative sensing modalities is required in order to sustain performance irrespective of challenging dynamic conditions. Of the many modalities on offer, inertial tracking plays a key role under momentary unfavourable operational conditions owing to its independence of the surrounding environment. However, inertial tracking has traditionally (i) suffered from excessive error growth and (ii) required extensive and cumbersome tuning. Both of these issues have limited the appeal and utility of inertial tracking. In this paper, we present DIT: a novel Deep learning Inertial Tracking system that overcomes prior limitations; namely, by (i) significantly reducing tracking drift and (ii) seamlessly constructing robust and generalisable learned models. DIT describes two core contributions: (i) DIT employs a robotic platform augmented with a mechanical slider subsystem that automatically samples inertial signal variabilities arising from different sensor mounting geometries. We use the platform to curate in-house a 7.2 million sample dataset covering an aggregate distance of 21 kilometres split into 11 indexed sensor mounting geometries. (ii) DIT uses deep learning, optimal transport, and domain adaptation (DA) to create a model which is robust to variabilities in sensor mounting geometry. The overall system synthesises high-performance and generalisable inertial navigation models in an end-to-end, robotic-learning fashion. In our evaluation, DIT outperforms an industrial-grade sensor fusion baseline by 10x (90th percentile) and a state-of-the-art adversarial DA technique by > 2.5x in performance (90th percentile) and >10x in training time.
翻訳日:2021-06-30 15:18:21 公開日:2021-06-29
# リンク予測のための畳み込みハイパープレックス埋め込み

Convolutional Hypercomplex Embeddings for Link Prediction ( http://arxiv.org/abs/2106.15230v1 )

ライセンス: Link先を確認
Caglar Demir, Diego Moussallem, Stefan Heindorf, Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ埋め込みの研究は主に2つの最小ノルム分割代数、$\mathbb{R}$と$\mathbb{C}$に焦点を当てている。 最近の結果は、四元価値埋め込みの三線型積がリンク予測に取り組むためのより効果的な手段であることを示唆している。 さらに、実数値埋め込みの畳み込みに基づくモデルはしばしばリンク予測のための最先端の結果をもたらす。 本稿では,超複素乗算を用いた畳み込み演算の構成について検討する。 本稿では,リンク予測問題に対処するため,QMult,OMult,ConvQ,C onvOの4つのアプローチを提案する。 QMult と OMult は、DistMult や ComplEx を含む従来の最先端アプローチの四元数拡張と八元数拡張と見なすことができる。 ConvQとConvOは、残留学習フレームワークにインスパイアされた方法で畳み込み操作を含めることで、QMultとOMultの上に構築する。 我々は,WN18RR,FB15K-237,YA GO3-10を含む7つのリンク予測データセットについて検討した。 実験結果から,知識グラフのサイズや複雑さが大きくなるにつれて,超複素数値ベクトル表現の学習のメリットがより明らかになることが示された。 ConvOは、MRR、Hit@1、Hit@3のFB15K-237における最先端のアプローチよりも優れており、QMult、OMult、ConvQ、ConvOは、YAGO3-10における最先端のアプローチよりも優れています。 また,予測平均化によってリンク予測の性能がさらに向上することが示唆された。 再現可能な研究を促進するために,我々は,事前学習されたモデルだけでなく,トレーニングや評価スクリプトを含むアプローチのオープンソース実装を提供する。

Knowledge graph embedding research has mainly focused on the two smallest normed division algebras, $\mathbb{R}$ and $\mathbb{C}$. Recent results suggest that trilinear products of quaternion-valued embeddings can be a more effective means to tackle link prediction. In addition, models based on convolutions on real-valued embeddings often yield state-of-the-art results for link prediction. In this paper, we investigate a composition of convolution operations with hypercomplex multiplications. We propose the four approaches QMult, OMult, ConvQ and ConvO to tackle the link prediction problem. QMult and OMult can be considered as quaternion and octonion extensions of previous state-of-the-art approaches, including DistMult and ComplEx. ConvQ and ConvO build upon QMult and OMult by including convolution operations in a way inspired by the residual learning framework. We evaluated our approaches on seven link prediction datasets including WN18RR, FB15K-237 and YAGO3-10. Experimental results suggest that the benefits of learning hypercomplex-valued vector representations become more apparent as the size and complexity of the knowledge graph grows. ConvO outperforms state-of-the-art approaches on FB15K-237 in MRR, Hit@1 and Hit@3, while QMult, OMult, ConvQ and ConvO outperform state-of-the-approac hes on YAGO3-10 in all metrics. Results also suggest that link prediction performances can be further improved via prediction averaging. To foster reproducible research, we provide an open-source implementation of approaches, including training and evaluation scripts as well as pretrained models.
翻訳日:2021-06-30 15:17:52 公開日:2021-06-29
# 信頼性と高速なリカレントニューラルネットワークアーキテクチャの最適化

Reliable and Fast Recurrent Neural Network Architecture Optimization ( http://arxiv.org/abs/2106.15295v1 )

ライセンス: Link先を確認
Andr\'es Camero and Jamal Toutouh and Enrique Alba(参考訳) 本稿では、リカレントニューラルネットワークアーキテクチャを最適化する新しい自動手法であるRandom Error Smpling-based Neuroevolution(RESN) を紹介する。 RESNは、進化的アルゴリズムとトレーニング不要評価アプローチを組み合わせる。 その結果,RESNは計算時間を半分減らしながら,最先端のエラー性能を実現することがわかった。

This article introduces Random Error Sampling-based Neuroevolution (RESN), a novel automatic method to optimize recurrent neural network architectures. RESN combines an evolutionary algorithm with a training-free evaluation approach. The results show that RESN achieves state-of-the-art error performance while reducing by half the computational time.
翻訳日:2021-06-30 15:17:22 公開日:2021-06-29
# Spiking-GAN: タイム・ツー・ファースト・スパイク符号化を用いたスパイク生成敵ネットワーク

Spiking-GAN: A Spiking Generative Adversarial Network Using Time-To-First-Spike Coding ( http://arxiv.org/abs/2106.15420v1 )

ライセンス: Link先を確認
Vineet Kotariya, Udayan Ganguly(参考訳) スパイキングニューラルネットワーク(SNN)は、エネルギー効率の良い方法でディープラーニング問題を解決する大きな可能性を示している。 しかし、それらは単純な分類タスクに限定されている。 本稿では,最初のスパイクベース生成支援ネットワーク(GAN)であるSpking-GANを提案する。 タイム・ツー・ファースト・スパイク・コーディングと呼ばれる時間的コーディング方式を採用している。 時間領域における近似バックプロパゲーションを用いてトレーニングする。 我々は,ニューロン1個あたりのスパイクの最大値を確保するために,非常に高い屈折期間を有する単純な統合・火災ニューロンを用いている。 これにより、モデルがスパイクレートベースのシステムよりもスペアになる。 我々の修正時間損失関数である「攻撃的TTFS」は、ネットワークの推論時間を33%以上改善し、ネットワーク内のスパイク数を11%以上削減する。 実験により,mnistデータセット上でネットワークをトレーニングすると,高品質なサンプルを生成できることを示した。 これにより、スパイク領域におけるこのような問題を解決するためのこのフレームワークの可能性を示す。

Spiking Neural Networks (SNNs) have shown great potential in solving deep learning problems in an energy-efficient manner. However, they are still limited to simple classification tasks. In this paper, we propose Spiking-GAN, the first spike-based Generative Adversarial Network (GAN). It employs a kind of temporal coding scheme called time-to-first-spike coding. We train it using approximate backpropagation in the temporal domain. We use simple integrate-and-fire (IF) neurons with very high refractory period for our network which ensures a maximum of one spike per neuron. This makes the model much sparser than a spike rate-based system. Our modified temporal loss function called 'Aggressive TTFS' improves the inference time of the network by over 33% and reduces the number of spikes in the network by more than 11% compared to previous works. Our experiments show that on training the network on the MNIST dataset using this approach, we can generate high quality samples. Thereby demonstrating the potential of this framework for solving such problems in the spiking domain.
翻訳日:2021-06-30 15:17:01 公開日:2021-06-29
# 視覚障害者のための画像自動記述の評価

Evaluation of Automated Image Descriptions for Visually Impaired Students ( http://arxiv.org/abs/2106.15553v1 )

ライセンス: Link先を確認
Anett Hoppe and David Morris and Ralph Ewerth(参考訳) イラストは教育で広く使われており、視覚障害者の生徒には代替手段が利用できないこともある。 したがって、これらの学生は自動図面記述システムから大きな恩恵を受けるだろうが、その記述が完全で正確で、スクリーンリーダーで容易に理解できる場合に限られる。 本稿では,自動画像記述の評価に関する研究について報告する。 評価基準を定式化するために専門家にインタビューし,視認された非熟練者に対する評価アンケートと説明テンプレートの作成に用いた。 テンプレートベースの自動画像記述装置で生成できる記述の質を評価するために,本アンケートを用いた。 本報告では,これらのテンプレートが有用な記述を生成できる可能性が示唆され,質問紙は説明テンプレートを用いて問題を特定する。

Illustrations are widely used in education, and sometimes, alternatives are not available for visually impaired students. Therefore, those students would benefit greatly from an automatic illustration description system, but only if those descriptions were complete, correct, and easily understandable using a screenreader. In this paper, we report on a study for the assessment of automated image descriptions. We interviewed experts to establish evaluation criteria, which we then used to create an evaluation questionnaire for sighted non-expert raters, and description templates. We used this questionnaire to evaluate the quality of descriptions which could be generated with a template-based automatic image describer. We present evidence that these templates have the potential to generate useful descriptions, and that the questionnaire identifies problems with description templates.
翻訳日:2021-06-30 15:16:46 公開日:2021-06-29
# ニューラルネットワークによるブラウン映画からのエントロピー生成と散逸マップの実現

Attaining entropy production and dissipation maps from Brownian movies via neural networks ( http://arxiv.org/abs/2106.15108v1 )

ライセンス: Link先を確認
Youngkyoung Bae, Dong-Kyum Kim, Hawoong Jeong(参考訳) エントロピー生成の定量化(EP)は、生物や生物集合体などのメソスコピックスケールの確率系を理解するために不可欠である。 しかし、関連する変数を追跡せずに、実験から記録された時系列画像データからEPがいつ、どの程度起こるかを知ることは困難である。 本稿では,画像処理のための強力なツールである畳み込みニューラルネットワーク(cnn)を用いて,映画からのみ計算する教師なし学習アルゴリズムによるepの推定手法を開発した。 CNNの最終層のアテンションマップとともに、我々の手法は確率EPの定量化だけでなく、EPの時空間パターン(散逸マップ)も生成できる。 本手法はEPを正確に測定し,2つの非平衡系,ビーズスプリングモデルと弾性フィラメントのネットワークで散逸マップを作成する。 さらにノイズや空間分解能の低いデータ,部分的に観察された状況でも高い性能を確認した。 本手法は, 散逸マップを得るための実用的な方法を提供し, 最終的に複素系の非平衡性を明らかにすることに寄与する。

Quantifying entropy production (EP) is essential to understand stochastic systems at mesoscopic scales, such as living organisms or biological assemblies. However, without tracking the relevant variables, it is challenging to figure out where and to what extent EP occurs from recorded time-series image data from experiments. Here, applying a convolutional neural network (CNN), a powerful tool for image processing, we develop an estimation method for EP through an unsupervised learning algorithm that calculates only from movies. Together with an attention map of the CNN's last layer, our method can not only quantify stochastic EP but also produce the spatiotemporal pattern of the EP (dissipation map). We show that our method accurately measures the EP and creates a dissipation map in two nonequilibrium systems, the bead-spring model and a network of elastic filaments. We further confirm high performance even with noisy, low spatial resolution data, and partially observed situations. Our method will provide a practical way to obtain dissipation maps and ultimately contribute to uncovering the nonequilibrium nature of complex systems.
翻訳日:2021-06-30 15:16:25 公開日:2021-06-29
# FastPitchFormant:音声合成のためのソースフィルタに基づく分解モデリング

FastPitchFormant: Source-filter based Decomposed Modeling for Speech Synthesis ( http://arxiv.org/abs/2106.15123v1 )

ライセンス: Link先を確認
Taejun Bak, Jae-Sung Bae, Hanbin Bae, Young-Ik Kim, Hoon-Young Cho(参考訳) ニューラルテキスト音声(TTS)モデルにおいて,音響特性を用いた韻律のモデル化と制御手法が提案されている。 音響特徴をコンディショニングすることで韻律音声を生成することができる。 しかし、ピッチシフトの大きい合成音声は、音質劣化と話者特性の変形に悩まされる。 そこで本研究では,ソース・フィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。 このモデルはFastPitchFormantと呼ばれ、テキストと音響機能を並列に扱うユニークな構造を持っている。 各特徴を個別にモデル化することで、モデルが2つの特徴の関係を学習する傾向を緩和することができる。

Methods for modeling and controlling prosody with acoustic features have been proposed for neural text-to-speech (TTS) models. Prosodic speech can be generated by conditioning acoustic features. However, synthesized speech with a large pitch-shift scale suffers from audio quality degradation, and speaker characteristics deformation. To address this problem, we propose a feed-forward Transformer based TTS model that is designed based on the source-filter theory. This model, called FastPitchFormant, has a unique structure that handles text and acoustic features in parallel. With modeling each feature separately, the tendency that the model learns the relationship between two features can be mitigated.
翻訳日:2021-06-30 15:16:05 公開日:2021-06-29
# パルスと星座形状の協調最適化によるエンドツーエンド波形学習

End-to-end Waveform Learning Through Joint Optimization of Pulse and Constellation Shaping ( http://arxiv.org/abs/2106.15158v1 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 通信システムは、サブTHzスペクトルの一部を統合通信やセンシング、利用といった新しいサービスを可能にすることを目的としているため、これらの新興アプリケーションをサポートする新しい波形の設計はますます困難になっている。 本研究では、パルス整形と星座形状の合同学習による波形設計のためのエンドツーエンド学習手法と、ニューラルネットワーク(NN)ベースの受信機を提案する。 帯域外放出と電力エンベロープの制約を満たすとともに、達成可能な情報レートを最大化する最適化を行う。 提案手法は,従来のフィルタと競合するピーク・ツー・平均電力比 (PAPR) の隣接チャネルリーク比 (ACLRs) の桁数が最大で,付加的な白色ガウス雑音 (AWGN) チャネルにおける情報損失がなく,送信側で付加的な複雑さを伴わないことを示す。

As communication systems are foreseen to enable new services such as joint communication and sensing and utilize parts of the sub-THz spectrum, the design of novel waveforms that can support these emerging applications becomes increasingly challenging. We present in this work an end-to-end learning approach to design waveforms through joint learning of pulse shaping and constellation geometry, together with a neural network (NN)-based receiver. Optimization is performed to maximize an achievable information rate, while satisfying constraints on out-of-band emission and power envelope. Our results show that the proposed approach enables up to orders of magnitude smaller adjacent channel leakage ratios (ACLRs) with peak-to-average power ratios (PAPRs) competitive with traditional filters, without significant loss of information rate on an additive white Gaussian noise (AWGN) channel, and no additional complexity at the transmitter.
翻訳日:2021-06-30 15:15:55 公開日:2021-06-29
# プライバシー予算のスケジューリング

Privacy Budget Scheduling ( http://arxiv.org/abs/2106.15335v1 )

ライセンス: Link先を確認
Tao Luo, Mingen Pan, Pierre Tholoniat, Asaf Cidon, Roxana Geambasu, Mathias L\'ecuyer(参考訳) 個人データに基づいてトレーニングされた機械学習(ML)モデルは、ユーザに関する情報を漏洩させる。 差分プライバシー(DP)は、この漏洩を保証したモデルトレーニングを可能にする。 DPでトレーニングされた各新しいモデルは、データ漏洩の制限を増大させ、グローバルなプライバシ予算の一部を消費すると見なすことができる。 この予算は不十分なリソースであり、うまくトレーニングされたモデルの数を最大化するために慎重に管理されなければならない。 PrivateKubeは、一般的なKubernetesデータセンタオーケストレータの拡張で、CPUやGPU、メモリといった従来の計算リソースと並行して管理される新たなタイプのリソースとして、プライバシを追加するものだ。 私たちがプライバシリソース用に設計した抽象化は、従来のリソースとしてkubernetesで定義したものと同じですが、大きな違いもあります。 例えば、従来の計算リソースは補足可能だが、プライバシはそうではない。 モデルが実行を終えた後、cpuは取り戻せるが、プライバシ予算はできない。 この区別はスケジューラの再設計を強制する。 DPF (Dominant Private Block Fairness) - 有名なDominant Resource Fairness (DRF) アルゴリズムの亜種で、再生不能なプライバシリソースを対象としているが、DRFと同じような理論的特性を持っている。 マイクロベンチマーク上でPrivateKubeとDPFを評価し,Amazon Reviewsデータ上でMLワークロードを評価する。 既存のベースラインと比較して、DPFは同じグローバルプライバシ保証の下で、より多くのモデルをトレーニングすることができる。 これは特に R'enyi DP 上の DPF には当てはまる。

Machine learning (ML) models trained on personal data have been shown to leak information about users. Differential privacy (DP) enables model training with a guaranteed bound on this leakage. Each new model trained with DP increases the bound on data leakage and can be seen as consuming part of a global privacy budget that should not be exceeded. This budget is a scarce resource that must be carefully managed to maximize the number of successfully trained models. We describe PrivateKube, an extension to the popular Kubernetes datacenter orchestrator that adds privacy as a new type of resource to be managed alongside other traditional compute resources, such as CPU, GPU, and memory. The abstractions we design for the privacy resource mirror those defined by Kubernetes for traditional resources, but there are also major differences. For example, traditional compute resources are replenishable while privacy is not: a CPU can be regained after a model finishes execution while privacy budget cannot. This distinction forces a re-design of the scheduler. We present DPF (Dominant Private Block Fairness) -- a variant of the popular Dominant Resource Fairness (DRF) algorithm -- that is geared toward the non-replenishable privacy resource but enjoys similar theoretical properties as DRF. We evaluate PrivateKube and DPF on microbenchmarks and an ML workload on Amazon Reviews data. Compared to existing baselines, DPF allows training more models under the same global privacy guarantee. This is especially true for DPF over R\'enyi DP, a highly composable form of DP.
翻訳日:2021-06-30 15:15:36 公開日:2021-06-29
# COVID-19の音:オーディオベースのデジタルテストの現実的なパフォーマンスを探る

Sounds of COVID-19: exploring realistic performance of audio-based digital testing ( http://arxiv.org/abs/2106.15523v1 )

ライセンス: Link先を確認
Jing Han and Tong Xia and Dimitris Spathis and Erika Bondareva and Chlo\"e Brown and Jagmohan Chauhan and Ting Dang and Andreas Grammenos and Apinan Hasthanasombat and Andres Floto and Pietro Cicuta and Cecilia Mascolo(参考訳) 研究者たちは、コロナウイルス(COVID-19)の患者をいかに効果的に、かつ安価かつ大規模に特定できるかという問題に直面している。 近年の研究では、呼吸音声データ(コー、呼吸、音声)を収集する音声ベースのアプローチがテストにどのように役立つかが示されているが、バイアスや方法論的決定がこれらのツールのパフォーマンスにどのように影響するかの探究が不足している。 本稿では、COVID-19の音声によるデジタル検査の現実的な性能について検討する。 これを調べるために、私たちはモバイルアプリを通じて大規模なクラウドソースによる呼吸器オーディオデータセットを収集しました。 収集したデータセットの中で,2,478人の参加者から5,240のサンプルを選択し,モデル開発と検証のために,参加者非依存の異なるセットに分割した。 これらのうち、人口統計や言語など、潜在的に混在する要因を制御した。 非バイアスモデルでは、呼吸、うずみ、音声信号から抽出した特徴を予測器として取り出し、AUC-ROCは0.71(95 % CI: 0.65$-$0.77)となる。 さらに、バイアスと参加者の分裂がパフォーマンスに与える影響を示すために、さまざまなアンバランスな分布についても検討する。 最後に,本モデルが臨床実践にどのように統合され,人口規模での連続的,ユビキタス,持続可能,手頃なテストを実現するかについて議論する。

Researchers have been battling with the question of how we can identify Coronavirus disease (COVID-19) cases efficiently, affordably and at scale. Recent work has shown how audio based approaches, which collect respiratory audio data (cough, breathing and voice) can be used for testing, however there is a lack of exploration of how biases and methodological decisions impact these tools' performance in practice. In this paper, we explore the realistic performance of audio-based digital testing of COVID-19. To investigate this, we collected a large crowdsourced respiratory audio dataset through a mobile app, alongside recent COVID-19 test result and symptoms intended as a ground truth. Within the collected dataset, we selected 5,240 samples from 2,478 participants and split them into different participant-independ ent sets for model development and validation. Among these, we controlled for potential confounding factors (such as demographics and language). The unbiased model takes features extracted from breathing, coughs, and voice signals as predictors and yields an AUC-ROC of 0.71 (95\% CI: 0.65$-$0.77). We further explore different unbalanced distributions to show how biases and participant splits affect performance. Finally, we discuss how the realistic model presented could be integrated in clinical practice to realize continuous, ubiquitous, sustainable and affordable testing at population scale.
翻訳日:2021-06-30 15:14:13 公開日:2021-06-29
# (参考訳) トランスフォーマーを用いたマルチモーダルmr画像の高速化 [全文訳有]

Accelerated Multi-Modal MR Imaging with Transformers ( http://arxiv.org/abs/2106.14248v2 )

ライセンス: CC BY 4.0
Chun-Mei Feng and Yunlu Yan and Geng Chen, Huazhu Fu and Yong Xu and Ling Shao(参考訳) 多モード磁気共鳴(MR)イメージングは、高速MRイメージングのための新しい効果的ソリューションであり、補助的モードから誘導されたアンダーサンプルからターゲットモダリティを復元する際の優れた性能を提供する。 しかし、既存の作品は単に補助モダリティを事前情報として導入しており、2つのモダリティを融合するための潜在的なメカニズムに関する詳細な調査を欠いている。 さらに、彼らは通常、ローカル情報に重点を置いた畳み込みニューラルネットワーク(CNN)に依存しており、グローバル知識の長距離依存関係を完全にキャプチャすることができない。 そこで本研究では,MTrans(Multi-modal transformer)を提案する。 トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。 具体的には、目標モダリティと補助モダリティをまず2つの分岐に分割し、次にマルチモーダルトランスモジュールを用いて融合する。 このモジュールはクロスアテンションモジュールと呼ばれる改良されたマルチヘッドアテンション機構に基づいており、ターゲットのモダリティに寄与する補助モダリティから特徴を吸収する。 i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。 (ii) 各ブランチに異なるスケールで有用な情報を活用するために,新たなクロスアテンションモジュールを提案する。 異なる構造情報と微妙なピクセルレベルの情報の両方を持ち、ターゲットのモダリティを効果的に補う。

Accelerating multi-modal magnetic resonance (MR) imaging is a new and effective solution for fast MR imaging, providing superior performance in restoring the target modality from its undersampled counterpart with guidance from an auxiliary modality. However, existing works simply introduce the auxiliary modality as prior information, lacking in-depth investigations on the potential mechanisms for fusing two modalities. Further, they usually rely on the convolutional neural networks (CNNs), which focus on local information and prevent them from fully capturing the long-distance dependencies of global knowledge. To this end, we propose a multi-modal transformer (MTrans), which is capable of transferring multi-scale features from the target modality to the auxiliary modality, for accelerated MR imaging. By restructuring the transformer architecture, our MTrans gains a powerful ability to capture deep multi-modal information. More specifically, the target modality and the auxiliary modality are first split into two branches and then fused using a multi-modal transformer module. This module is based on an improved multi-head attention mechanism, named the cross attention module, which absorbs features from the auxiliary modality that contribute to the target modality. Our framework provides two appealing benefits: (i) MTrans is the first attempt at using improved transformers for multi-modal MR imaging, affording more global information compared with CNN-based methods. (ii) A new cross attention module is proposed to exploit the useful information in each branch at different scales. It affords both distinct structural information and subtle pixel-level information, which supplement the target modality effectively.
翻訳日:2021-06-30 13:06:41 公開日:2021-06-29
# (参考訳) SDOF-Tracker:スクリッピング検出と光流による高速かつ高精度なマルチヒューマントラッキング [全文訳有]

SDOF-Tracker: Fast and Accurate Multiple Human Tracking by Skipped-Detection and Optical-Flow ( http://arxiv.org/abs/2106.14259v2 )

ライセンス: CC BY 4.0
Hitoshi Nishimura, Satoshi Komorita, Yasutomo Kawanishi, Hiroshi Murase(参考訳) 複数の人間の追跡はシーン理解の基本的な問題である。 実世界のアプリケーションでは精度と速度の両方が要求されるが、ディープラーニングに基づく最近の追跡手法は精度を重視しており、かなりの実行時間を必要とする。 本研究は, 走行時間の大半を占めるため, 一定フレーム間隔で人間検出を行うことにより, 走行速度の向上を目的とする。 問題は、人間の検出をスキップしながら精度を維持する方法だ。 本稿では,隣接するフレーム間で人の外観があまり変化しないという事実に基づいて,検出結果を光学フローで補完する手法を提案する。 追跡精度を維持するために,人間の領域におけるロバストな関心点選択と,関心点の分布によって算出された追跡終了指標を提案する。 MOTChallengeのMOT20データセットでは、提案されたSDOF-Trackerは、MOTAメトリックを維持しながら、総実行速度で最高の性能を達成した。 私たちのコードはhttps://anonymous.4o pen.science/r/sdof-t racker-75AEで利用可能です。

Multiple human tracking is a fundamental problem for scene understanding. Although both accuracy and speed are required in real-world applications, recent tracking methods based on deep learning have focused on accuracy and require substantial running time. This study aims to improve running speed by performing human detection at a certain frame interval because it accounts for most of the running time. The question is how to maintain accuracy while skipping human detection. In this paper, we propose a method that complements the detection results with optical flow, based on the fact that someone's appearance does not change much between adjacent frames. To maintain the tracking accuracy, we introduce robust interest point selection within human regions and a tracking termination metric calculated by the distribution of the interest points. On the MOT20 dataset in the MOTChallenge, the proposed SDOF-Tracker achieved the best performance in terms of the total running speed while maintaining the MOTA metric. Our code is available at https://anonymous.4o pen.science/r/sdof-t racker-75AE.
翻訳日:2021-06-30 12:21:17 公開日:2021-06-29
# (参考訳) エキスパート・イン・ザ・ループ機械学習によるモデルインフォームドッキング [全文訳有]

Towards Model-informed Precision Dosing with Expert-in-the-loop Machine Learning ( http://arxiv.org/abs/2106.14384v2 )

ライセンス: CC BY 4.0
Yihuang Kang, Yi-Wen Chiu, Ming-Yen Lin, Fang-yi Su, Sheng-Tai Huang(参考訳) 機械学習(ML)とその応用は私たちの生活を変えつつありますが、公正で説明責任があり、透明で倫理的な人工知能の開発に関する問題も生み出しています。 mlモデルはまだ完全には理解できないため、アルゴリズムによる意思決定プロセスの一部として人間が必要であることは明らかです。 本稿では,モデル学習を高速化し,モデル学習ループに人間専門家を組み込むことで解釈可能性を向上させるMLフレームワークを検討する。 本稿では,データアノテーションのコストが高く,目的タスクと入力特徴の関係をモデル化する適切なデータがないという学習問題に対処することを目的とした,新たなヒューマン・イン・ザ・ループMLフレームワークを提案する。 実験結果から,データから解釈可能なルールを学習し,データアノテーションをルール表現に置き換えることで,専門家の作業負荷を低減できる可能性が示唆された。 このアプローチは、反復的なモデル学習プロセスに専門家のフィードバックを導入することで、アルゴリズムバイアスを取り除くのにも役立ちます。

Machine Learning (ML) and its applications have been transforming our lives but it is also creating issues related to the development of fair, accountable, transparent, and ethical Artificial Intelligence. As the ML models are not fully comprehensible yet, it is obvious that we still need humans to be part of algorithmic decision-making processes. In this paper, we consider a ML framework that may accelerate model learning and improve its interpretability by incorporating human experts into the model learning loop. We propose a novel human-in-the-loop ML framework aimed at dealing with learning problems that the cost of data annotation is high and the lack of appropriate data to model the association between the target tasks and the input features. With an application to precision dosing, our experimental results show that the approach can learn interpretable rules from data and may potentially lower experts' workload by replacing data annotation with rule representation editing. The approach may also help remove algorithmic bias by introducing experts' feedback into the iterative model learning process.
翻訳日:2021-06-30 12:11:47 公開日:2021-06-29
# (参考訳) monotone single index multi-variate autoregressive model による予測とネットワーク推定の改善

Improved Prediction and Network Estimation Using the Monotone Single Index Multi-variate Autoregressive Model ( http://arxiv.org/abs/2106.14630v2 )

ライセンス: CC BY 4.0
Yue Gao, Garvesh Raskutti(参考訳) 多変量点プロセスや時系列データからのネットワーク推定は基本的な問題である。 先行研究は、既知のパラメトリックモデルを必要とするパラメトリックなアプローチに焦点を合わせており、推定手順が不特定化、非線形性、不均一性をモデル化するのによりロバストではない。 本稿では,これらの課題に対処する単調単一インデックス多変量自己回帰モデル(SIMAM)に基づく半パラメトリックアプローチを開発する。 従属データに対する理論的保証と交互に投影された勾配降下アルゴリズムを提供する。 重要なことは、プロセス上の混合条件を明示的に仮定しない(ただし、強い凸性に類似した条件は必要だが)し、$O(T^{-\frac{1}{3}} \sqrt{s\log(TM)})$(独立設計の場合、最適)$s$は空間レベルを示すネットワークの最大インディグリーのしきい値であり、$M$はアクターの数であり、$T$は時間点数である。 さらに、シミュレーションデータと2つの実データ例の両方において、予測とネットワーク推定の両方において、simamアプローチが最先端のパラメトリック手法よりも優れていることを示す。

Network estimation from multi-variate point process or time series data is a problem of fundamental importance. Prior work has focused on parametric approaches that require a known parametric model, which makes estimation procedures less robust to model mis-specification, non-linearities and heterogeneities. In this paper, we develop a semi-parametric approach based on the monotone single-index multi-variate autoregressive model (SIMAM) which addresses these challenges. We provide theoretical guarantees for dependent data and an alternating projected gradient descent algorithm. Significantly we do not explicitly assume mixing conditions on the process (although we do require conditions analogous to restricted strong convexity) and we achieve rates of the form $O(T^{-\frac{1}{3}} \sqrt{s\log(TM)})$ (optimal in the independent design case) where $s$ is the threshold for the maximum in-degree of the network that indicates the sparsity level, $M$ is the number of actors and $T$ is the number of time points. In addition, we demonstrate the superior performance both on simulated data and two real data examples where our SIMAM approach out-performs state-of-the-art parametric methods both in terms of prediction and network estimation.
翻訳日:2021-06-30 11:59:58 公開日:2021-06-29
# (参考訳) 詐欺と戦うことで善を尽くす:モバイル決済のための倫理的反詐欺システム [全文訳有]

Doing good by fighting fraud: Ethical anti-fraud systems for mobile payments ( http://arxiv.org/abs/2106.14861v2 )

ライセンス: CC BY 4.0
Zainul Abi Din (1), Hari Venugopalan (1), Henry Lin (2), Adam Wushensky (2), Steven Liu (2), Samuel T. King (1 and 2) ((1) University of California, Davis, (2) Bouncer Technologies)(参考訳) アプリビルダーは一般的に、ステップアップ認証の一種であるセキュリティ課題を使用して、アプリケーションにセキュリティを追加する。 しかし、この種の建築の倫理的影響は以前にも研究されていない。 本稿では,モバイルデバイス上で動作している実際のアプリケーションにおいて,既存のセキュリティ問題であるBoxerを大規模に測定する。 Boxerは全体的にうまく機能するが、機械学習モデルを実行するデバイスを毎秒1フレーム未満(FPS)で効率的にスキャンすることができず、安価なデバイスを使用するユーザをブロックしている。 現代のモバイルデバイスで見られる幅広いパフォーマンス特性とハードウェア構成にまたがる、支払いカードのスキャンのための新しいアンチフレイドシステムであるdaredevilをデザインした。 Daredevilは、1FPS以下で動くデバイスの数を、Boxerに比べて桁違いに減らし、詐欺と戦うためのより公平なシステムを提供する。 総計5,085,444台の実デバイスから、プロダクションソフトウェアを実行し、実際のユーザと対話する496個の実アプリにまたがるデータを収集した。

App builders commonly use security challenges, a form of step-up authentication, to add security to their apps. However, the ethical implications of this type of architecture has not been studied previously. In this paper, we present a large-scale measurement study of running an existing anti-fraud security challenge, Boxer, in real apps running on mobile devices. We find that although Boxer does work well overall, it is unable to scan effectively on devices that run its machine learning models at less than one frame per second (FPS), blocking users who use inexpensive devices. With the insights from our study, we design Daredevil, anew anti-fraud system for scanning payment cards that work swell across the broad range of performance characteristics and hardware configurations found on modern mobile devices. Daredevil reduces the number of devices that run at less than one FPS by an order of magnitude compared to Boxer, providing a more equitable system for fighting fraud. In total, we collect data from 5,085,444 real devices spread across 496 real apps running production software and interacting with real users.
翻訳日:2021-06-30 11:55:59 公開日:2021-06-29
# エキスパートq-learning: エキスパート例からのステート値を用いた深いq-learning

Expert Q-learning: Deep Q-learning With State Values From Expert Examples ( http://arxiv.org/abs/2106.14642v2 )

ライセンス: Link先を確認
Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad(参考訳) 本稿では,エキスパートQ学習という新しいアルゴリズムを提案する。 Q-ラーニングの専門家は、Q-ラーニングにインスパイアされ、Q-バリューを状態値と行動アドバンテージに分割することで、半教師付き学習のアイデアを強化学習に取り入れることを目的とした。 Generative Adversarial Imitation LearningやDeep Q-Learningとは違い、私たちが使ったオフラインの専門家は、{-1, 0, 1}から状態の価値を予測するだけで、これが悪いか、中立か、良い状態かを示す。 q-networkに加えて専門家ネットワークが設計され、専門家のサンプルバッファが空でないと、定期的にオフラインのミニバッチ更新後に更新される。 Q-networkはアップデート時にのみ、アドバンテージ関数の役割を担う。 また,本アルゴリズムでは,Q-ネットワークとエキスパートネットワークの非同期コピーも保持し,Double Q-learningと同じ方法で目標値を予測する。 我々はOthelloのアルゴリズムを、Double Q-learningとDueling Q-learningを組み合わせた最先端のQ-learningアルゴリズムと比較した。 その結果,専門家のq-learningは有益であり,q-learningの過大評価バイアスに対する抵抗性が高かった。 ベースラインQ学習アルゴリズムは、特に確率的プレイヤーと対戦する場合、不安定で準最適動作を示し、一方エキスパートQ学習はより高いスコアでより堅牢な性能を示した。 例を使用しないエキスパートQ-ラーニングも、固定プレイヤーに対してトレーニングとテストを行う場合、ベースラインアルゴリズムよりも優れた結果を得た。 一方,実例のないエキスパートq-learningは,過剰推定バイアスの低減効果も示しているにもかかわらず,直接ゲームコンペティションにおいて,ベースラインq-learningアルゴリズムに勝てない。

We propose a novel algorithm named Expert Q-learning. Expert Q-learning was inspired by Dueling Q-learning and aimed at incorporating the ideas from semi-supervised learning into reinforcement learning through splitting Q-values into state values and action advantages. Different from Generative Adversarial Imitation Learning and Deep Q-Learning from Demonstrations, the offline expert we have used only predicts the value of a state from {-1, 0, 1}, indicating whether this is a bad, neutral or good state. An expert network was designed in addition to the Q-network, which updates each time following the regular offline minibatch update whenever the expert example buffer is not empty. The Q-network plays the role of the advantage function only during the update. Our algorithm also keeps asynchronous copies of the Q-network and expert network, predicting the target values using the same manner as of Double Q-learning. We compared on the game of Othello our algorithm with the state-of-the-art Q-learning algorithm, which was a combination of Double Q-learning and Dueling Q-learning. The results showed that Expert Q-learning was indeed useful and more resistant to the overestimation bias of Q-learning. The baseline Q-learning algorithm exhibited unstable and suboptimal behavior, especially when playing against a stochastic player, whereas Expert Q-learning demonstrated more robust performance with higher scores. Expert Q-learning without using examples has also gained better results than the baseline algorithm when trained and tested against a fixed player. On the other hand, Expert Q-learning without examples cannot win against the baseline Q-learning algorithm in direct game competitions despite the fact that it has also shown the strength of reducing the overestimation bias.
翻訳日:2021-06-30 11:27:33 公開日:2021-06-29
# EARLIN:資源効率の協調推論のための早期分布検出

EARLIN: Early Out-of-Distribution Detection for Resource-efficient Collaborative Inference ( http://arxiv.org/abs/2106.13842v2 )

ライセンス: Link先を確認
Sumaiya Tabassum Nimi, Md Adnan Arefeen, Md Yusuf Sarwar Uddin, Yugyung Lee(参考訳) 協調推論により、リソース制約のあるエッジデバイスは、重いディープラーニングモデルを実行するサーバ(クラウド)に入力(画像など)をアップロードすることで、推論を行うことができる。 このセットアップは、成功した推論のためにコスト効率よく機能するが、モデルがトレーニングされていない入力サンプル(OOD(Out-of-Distribu tion)サンプル)に直面すると、非常にパフォーマンスが低下する。 エッジデバイスが少なくとも、入力サンプルがOODであることを検出できれば、推論ワークロードのためにこれらの入力をサーバにアップロードしないことで、通信と計算リソースを節約できる可能性がある。 本稿では,事前学習したCNNモデルの浅い層から重要な特徴を抽出し,縮小した特徴空間上に定義された距離関数に基づいて,入力サンプルをID(In-Distribution)またはOODとして検出する,新しい軽量なOOD検出手法を提案する。 提案手法(a)は,事前学習したモデルに対して,それらのモデルの再トレーニングを伴わずに動作し,(b)任意のOODデータセットに自身を公開しない(すべての検出パラメータはIDトレーニングデータセットから得られる)。 この目的のために、事前訓練されたモデルを用いて、OOD検出層でモデルを分割し、エッジデバイスとその他をクラウド上に展開するEARLIN(EARLy OOD Detection for Collaborative Inference)を開発した。 実際のデータセットとプロトタイプの実装を用いて実験することにより,ベンチマークデータセットで事前学習された一般的なディープラーニングモデル上で,一般的なoodデータセットに対してテストした場合の全体的な精度とコストの観点から,他のアプローチよりも優れた結果が得られることを示す。

Collaborative inference enables resource-constrained edge devices to make inferences by uploading inputs (e.g., images) to a server (i.e., cloud) where the heavy deep learning models run. While this setup works cost-effectively for successful inferences, it severely underperforms when the model faces input samples on which the model was not trained (known as Out-of-Distribution (OOD) samples). If the edge devices could, at least, detect that an input sample is an OOD, that could potentially save communication and computation resources by not uploading those inputs to the server for inference workload. In this paper, we propose a novel lightweight OOD detection approach that mines important features from the shallow layers of a pretrained CNN model and detects an input sample as ID (In-Distribution) or OOD based on a distance function defined on the reduced feature space. Our technique (a) works on pretrained models without any retraining of those models, and (b) does not expose itself to any OOD dataset (all detection parameters are obtained from the ID training dataset). To this end, we develop EARLIN (EARLy OOD detection for Collaborative INference) that takes a pretrained model and partitions the model at the OOD detection layer and deploys the considerably small OOD part on an edge device and the rest on the cloud. By experimenting using real datasets and a prototype implementation, we show that our technique achieves better results than other approaches in terms of overall accuracy and cost when tested against popular OOD datasets on top of popular deep learning models pretrained on benchmark datasets.
翻訳日:2021-06-30 11:26:44 公開日:2021-06-29
# プロファイル認識のための注意誘導プログレッシブマッピング

Attention-guided Progressive Mapping for Profile Face Recognition ( http://arxiv.org/abs/2106.14124v2 )

ライセンス: Link先を確認
Junyang Huang and Changxing Ding(参考訳) 過去数年間、ディープラーニングの進歩により顔認識の分野で大きな進歩が見られた。 しかし、クロスポーズ顔認識は依然として大きな課題である。 多くのディープラーニングアルゴリズムでは、ポーズの変化によるパフォーマンスギャップを狭めることが困難であり、その主な理由は、異なるポーズにおける顔画像間のクラス内不一致と、トレーニングデータセットのポーズ不均衡である。 前面の特徴空間を横切ることでポーズ・ロバストな特徴を学習することは、この問題を緩和するための効果的で安価な方法を提供する。 本稿では,一対方向の注意損失を伴うプロファイル顔表現を正準ポーズに漸進的に変換する手法を提案する。 まず,プロファイルフェースを正面ポーズへ直接変換することの難しさを軽減するため,ブロック・バイ・ブロック方式でソースポーズとその近傍ポーズ間の特徴残差を学習し,学習残差を付加することにより,より小さなポーズの特徴空間に遷移することを提案する。 次に,最も効果的な方向に進展する特徴変換を導くために,対方向の注意的損失を提案する。 最後に、提案したプログレッシブモジュールと注意的ペアワイズ損失は軽量で実装が容易であり、約7:5%のパラメータしか追加しない。 CFPおよびCPLFWデータセットの評価は,提案手法の優位性を示す。 コードはhttps://github.com/h jy1312/AGPMで入手できる。

The past few years have witnessed great progress in the domain of face recognition thanks to advances in deep learning. However, cross pose face recognition remains a significant challenge. It is difficult for many deep learning algorithms to narrow the performance gap caused by pose variations; the main reasons for this relate to the intra-class discrepancy between face images in different poses and the pose imbalances of training datasets. Learning pose-robust features by traversing to the feature space of frontal faces provides an effective and cheap way to alleviate this problem. In this paper, we present a method for progressively transforming profile face representations to the canonical pose with an attentive pair-wise loss. Firstly, to reduce the difficulty of directly transforming the profile face features into a frontal pose, we propose to learn the feature residual between the source pose and its nearby pose in a block-byblock fashion, and thus traversing to the feature space of a smaller pose by adding the learned residual. Secondly, we propose an attentive pair-wise loss to guide the feature transformation progressing in the most effective direction. Finally, our proposed progressive module and attentive pair-wise loss are light-weight and easy to implement, adding only about 7:5% extra parameters. Evaluations on the CFP and CPLFW datasets demonstrate the superiority of our proposed method. Code is available at https://github.com/h jy1312/AGPM.
翻訳日:2021-06-30 11:26:12 公開日:2021-06-29
# クラス及び層別VAEによる意味的画像合成と編集の多様化

Diversifying Semantic Image Synthesis and Editing via Class- and Layer-wise VAEs ( http://arxiv.org/abs/2106.13416v2 )

ライセンス: Link先を確認
Yuki Endo, Yoshihiro Kanamori(参考訳) セマンティック画像合成は、単一のセマンティックマスクからフォトリアリスティック画像を生成するプロセスである。 マルチモーダル画像合成の多様性を高めるため、従来の手法では1つの潜在空間を学習することで出力画像のグローバル外観を制御する。 しかし、オブジェクトの外観が複数の要因に依存するため、複数のオブジェクトスタイルをキャプチャするには、単一の潜時コードは不十分であることが多い。 オブジェクトのスタイルを決定する個々の要素を扱うため、複数の潜在空間を学習することにより、各オブジェクトクラスをローカルからグローバルレベルまで柔軟に制御できるvaruational autoencoder(vae)フレームワークのクラスおよびレイヤごとに拡張する。 さらに,本手法は3つの異なる領域における実データと合成データを用いた広範囲な実験により,最先端の手法と比較して,多種多様な画像を生成することを実証する。 また,本手法は画像合成や編集作業において幅広い応用が可能となることを示した。

Semantic image synthesis is a process for generating photorealistic images from a single semantic mask. To enrich the diversity of multimodal image synthesis, previous methods have controlled the global appearance of an output image by learning a single latent space. However, a single latent code is often insufficient for capturing various object styles because object appearance depends on multiple factors. To handle individual factors that determine object styles, we propose a class- and layer-wise extension to the variational autoencoder (VAE) framework that allows flexible control over each object class at the local to global levels by learning multiple latent spaces. Furthermore, we demonstrate that our method generates images that are both plausible and more diverse compared to state-of-the-art methods via extensive experiments with real and synthetic datasets inthree different domains. We also show that our method enables a wide range of applications in image synthesis and editing tasks.
翻訳日:2021-06-30 11:25:50 公開日:2021-06-29
# 交通カメラ画像における高精度領域の同定と道路交通指標の推定

Identifying High Accuracy Regions in Traffic Camera Images to Enhance the Estimation of Road Traffic Metrics: A Quadtree Based Method ( http://arxiv.org/abs/2106.14049v2 )

ライセンス: Link先を確認
Yue Lin, Ningchuan Xiao(参考訳) 都市部におけるリアルタイムカメラフィードの増加により、効率的な交通計画、運用、管理のための高品質な交通データの提供が可能になった。 しかし、現在の車両検出技術の限界や、高さや解像度などの様々なカメラ条件により、これらのカメラフィードから信頼性の高い交通指標を導き出すことは課題となっている。 本研究では,検出精度の高い領域のみが残るまで画像範囲を連続的に分割するクワッドツリー型アルゴリズムを開発した。 本論文では,これらの領域を高精度識別領域(HAIR)と呼ぶ。 本研究では,中央オハイオの異なる高さと解像度の交通カメラ画像を用いて,HAIRを用いた交通密度推定の精度向上を実証する。 実験の結果,提案アルゴリズムは,車両検出精度が原画像の41%以上であるロバストなHAIRを導出するのに有効であることがわかった。 HAIRの使用はまた、ルート平均2乗誤差の49%を全体で減少させ、トラフィック密度の推定を著しく改善する。

The growing number of real-time camera feeds in urban areas has made it possible to provide high-quality traffic data for effective transportation planning, operations, and management. However, deriving reliable traffic metrics from these camera feeds has been a challenge due to the limitations of current vehicle detection techniques, as well as the various camera conditions such as height and resolution. In this work, a quadtree based algorithm is developed to continuously partition the image extent until only regions with high detection accuracy are remained. These regions are referred to as the high-accuracy identification regions (HAIR) in this paper. We demonstrate how the use of the HAIR can improve the accuracy of traffic density estimates using images from traffic cameras at different heights and resolutions in Central Ohio. Our experiments show that the proposed algorithm can be used to derive robust HAIR where vehicle detection accuracy is 41 percent higher than that in the original image extent. The use of the HAIR also significantly improves the traffic density estimation with an overall decrease of 49 percent in root mean squared error.
翻訳日:2021-06-30 11:25:35 公開日:2021-06-29
# ACN: 欠損児の脳腫瘍分節に対する対人協調訓練ネットワーク

ACN: Adversarial Co-training Network for Brain Tumor Segmentation with Missing Modalities ( http://arxiv.org/abs/2106.14591v2 )

ライセンス: Link先を確認
Yixin Wang, Yang Zhang, Yang Liu, Zihao Lin, Jiang Tian, Cheng Zhong, Zhongchao Shi, Jianping Fan, Zhiqiang He(参考訳) MRIによる脳腫瘍の正確なセグメンテーションは、診断、予後、手術治療に臨床的に関係しており、相補的な形態学的および生理学的情報を提供するために複数のモダリティを必要とする。 しかし、モダリティの欠如は、画像の破損、人工物、異なる取得プロトコル、あるいは臨床実践における特定のコントラスト剤に対するアレルギーに起因することが多い。 既存の取り組みは、すべての欠落状況に対する統一モデルの可能性を示しているが、そのほとんどは、1つ以上のモダリティが欠落している場合に不適切なパフォーマンスを示す。 本稿では,この問題を解決するための新しい逆共学習ネットワーク(adversarial co-training network,acn)を提案する。 特に、acnは、相互のドメインと特徴表現を補うために、完全モダリティと欠落モダリティの両方の結合学習プロセスを可能にする新しい共学習ネットワークを採用しており、さらに重要なこととして、欠落モダリティの「ミス」情報を復元する。 次に,2つの教師なしモジュール,すなわちエントロピーと知識逆学習モジュールを提案し,予測信頼性を高めつつドメインギャップを最小化し,潜在表現のアライメントを促進する。 また,モダリティ情報伝達学習をacnに適用し,モダリティ間の豊かな相互情報を保持する。 brats2018データセットに関する広範囲な実験により,提案手法が不足している状況下では,すべての最先端メソッドを著しく上回ることがわかった。

Accurate segmentation of brain tumors from magnetic resonance imaging (MRI) is clinically relevant in diagnoses, prognoses and surgery treatment, which requires multiple modalities to provide complementary morphological and physiopathologic information. However, missing modality commonly occurs due to image corruption, artifacts, different acquisition protocols or allergies to certain contrast agents in clinical practice. Though existing efforts demonstrate the possibility of a unified model for all missing situations, most of them perform poorly when more than one modality is missing. In this paper, we propose a novel Adversarial Co-training Network (ACN) to solve this issue, in which a series of independent yet related models are trained dedicated to each missing situation with significantly better results. Specifically, ACN adopts a novel co-training network, which enables a coupled learning process for both full modality and missing modality to supplement each other's domain and feature representations, and more importantly, to recover the `missing' information of absent modalities. Then, two unsupervised modules, i.e., entropy and knowledge adversarial learning modules are proposed to minimize the domain gap while enhancing prediction reliability and encouraging the alignment of latent representations, respectively. We also adapt modality-mutual information knowledge transfer learning to ACN to retain the rich mutual information among modalities. Extensive experiments on BraTS2018 dataset show that our proposed method significantly outperforms all state-of-the-art methods under any missing situation.
翻訳日:2021-06-30 11:25:19 公開日:2021-06-29
# プログレッシブ・ジョイントによる低光度強調とノイズ除去

Progressive Joint Low-light Enhancement and Noise Removal for Raw Images ( http://arxiv.org/abs/2106.14844v2 )

ライセンス: Link先を確認
Yucheng Lu and Seung-Won Jung(参考訳) モバイルデバイスでの低照度撮像は、比較的小さな開口部を通過する入射光が不足しているため、信号対雑音比が低いため、通常困難である。 従来の低照度画像処理のほとんどは、照明調整、色強調、ノイズ除去などの単一タスクのみに焦点を絞ったものや、特定のカメラモデルから収集した短距離露光画像対に大きく依存するジョイント照明調整およびデノナイジングタスクに重点を置いているため、カメラ固有のジョイントエンハンスメントと復元が必要な現実の環境では、これらのアプローチは実用的でなく一般化可能である。 そこで本稿では, 共同照明調整, 色強調, デノイングを行う低照度画像処理フレームワークを提案する。 モデル固有のデータ収集の難しさと取得した画像の超高精細な定義を考慮し、係数推定ブランチと合同拡張・分節という2つのブランチを設計した。 係数推定枝は、低分解能空間で動作し、二元学習により拡張係数を予測する一方、関節強化及び脱雑音分岐はフル分解能空間で機能し、進行的に関節強化及び脱雑音を行う。 既存の手法とは対照的に,我々のフレームワークは,他のカメラモデルに適応する際に,大規模なデータを再構成する必要がないため,実用化のためにアプローチを微調整するのに要する労力を大幅に削減できる。 広範な実験を通じて,現在の最先端手法と比較して,実世界の低光度イメージング応用におけるその大きな可能性を示す。

Low-light imaging on mobile devices is typically challenging due to insufficient incident light coming through the relatively small aperture, resulting in a low signal-to-noise ratio. Most of the previous works on low-light image processing focus either only on a single task such as illumination adjustment, color enhancement, or noise removal; or on a joint illumination adjustment and denoising task that heavily relies on short-long exposure image pairs collected from specific camera models, and thus these approaches are less practical and generalizable in real-world settings where camera-specific joint enhancement and restoration is required. To tackle this problem, in this paper, we propose a low-light image processing framework that performs joint illumination adjustment, color enhancement, and denoising. Considering the difficulty in model-specific data collection and the ultra-high definition of the captured images, we design two branches: a coefficient estimation branch as well as a joint enhancement and denoising branch. The coefficient estimation branch works in a low-resolution space and predicts the coefficients for enhancement via bilateral learning, whereas the joint enhancement and denoising branch works in a full-resolution space and performs joint enhancement and denoising in a progressive manner. In contrast to existing methods, our framework does not need to recollect massive data when being adapted to another camera model, which significantly reduces the efforts required to fine-tune our approach for practical usage. Through extensive experiments, we demonstrate its great potential in real-world low-light imaging applications when compared with current state-of-the-art methods.
翻訳日:2021-06-30 11:24:48 公開日:2021-06-29
# 自己監督的模倣によるシーケンスレコメンデーション整合性の改善

Improving Sequential Recommendation Consistency with Self-Supervised Imitation ( http://arxiv.org/abs/2106.14031v2 )

ライセンス: Link先を確認
Xu Yuan, Hongshen Chen, Yonghao Song, Xiaofang Zhao, Zhuoye Ding, Zhen He, Bo Long(参考訳) ほとんどのシーケンシャルレコメンデーションモデルは、ユーザとイテムのインタラクション履歴における連続したアイテムの特徴をキャプチャする。 有効ではあるが、その表現表現性は、いまだにスパース学習信号によって妨げられている。 その結果、シーケンシャルレコメンダは一貫性のない予測を行う傾向にある。 本稿では,自己監視型イミテーションによる逐次レコメンデーションの整合性を改善するモデルであるSSIを提案する。 時間的整合性とペルソナ整合性は,時間的順序とペルソナ感の両面からユーザインタラクションのダイナミクスを捉えた3つの自己指導型事前学習タスクを利用して,一貫性知識を抽出する。 さらに、グローバルな視点でモデルを提供するため、グローバルインタラクションシーケンスとローカルインタラクションシーケンス間の相互情報を最大化することにより、グローバルセッション一貫性を導入する。 最後に、一貫性強化知識の3つの独立した側面を総合的に活用するために、統合模倣学習フレームワークを確立した。 整合性知識は、従来の予測ロジットと整合性向上アイテム表現を模倣することにより、学生モデルに効果的に内部化され、伝達される。 さらに、フレキシブルな自己監督型模倣フレームワークは、他の学生レコメンデーションにもメリットがある。 4つの実世界のデータセットの実験により、SSIは最先端のシーケンシャルレコメンデーション手法よりも効果的に優れていることが示された。

Most sequential recommendation models capture the features of consecutive items in a user-item interaction history. Though effective, their representation expressiveness is still hindered by the sparse learning signals. As a result, the sequential recommender is prone to make inconsistent predictions. In this paper, we propose a model, SSI, to improve sequential recommendation consistency with Self-Supervised Imitation. Precisely, we extract the consistency knowledge by utilizing three self-supervised pre-training tasks, where temporal consistency and persona consistency capture user-interaction dynamics in terms of the chronological order and persona sensitivities, respectively. Furthermore, to provide the model with a global perspective, global session consistency is introduced by maximizing the mutual information among global and local interaction sequences. Finally, to comprehensively take advantage of all three independent aspects of consistency-enhanced knowledge, we establish an integrated imitation learning framework. The consistency knowledge is effectively internalized and transferred to the student model by imitating the conventional prediction logit as well as the consistency-enhanced item representations. In addition, the flexible self-supervised imitation framework can also benefit other student recommenders. Experiments on four real-world datasets show that SSI effectively outperforms the state-of-the-art sequential recommendation methods.
翻訳日:2021-06-30 11:24:17 公開日:2021-06-29
# multi-task over-the-air federated learning: non-orthogonal transmission アプローチ

Multi-task Over-the-Air Federated Learning: A Non-Orthogonal Transmission Approach ( http://arxiv.org/abs/2106.14229v2 )

ライセンス: Link先を確認
Haoming Ma, Xiaojun Yuan, Dian Fan, Zhi Ding, Xin Wang(参考訳) 本稿では,複数の学習タスクがエッジサーバ(ES)の協調の下で,データ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。 特に、全タスクのモデル更新は、オーバーザエア計算により非直交アップリンクチャネル上で同時に送信および重畳され、このターボ圧縮センシングアルゴリズムの拡張バージョンにより、全タスクの集約結果をESで再構成する。 収束解析と数値計算の結果から,moaflフレームワークは,学習性能の低下を招くことなく,複数のタスクのアップリンク帯域消費を大幅に削減できることがわかった。

In this letter, we propose a multi-task over-theair federated learning (MOAFL) framework, where multiple learning tasks share edge devices for data collection and learning models under the coordination of a edge server (ES). Specially, the model updates for all the tasks are transmitted and superpositioned concurrently over a non-orthogonal uplink channel via over-the-air computation, and the aggregation results of all the tasks are reconstructed at the ES through an extended version of the turbo compressed sensing algorithm. Both the convergence analysis and numerical results demonstrate that the MOAFL framework can significantly reduce the uplink bandwidth consumption of multiple tasks without causing substantial learning performance degradation.
翻訳日:2021-06-30 11:23:55 公開日:2021-06-29