このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210912となっている論文です。

PDF登録状況(公開日: 20210912)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般化RIFの代数的意味論

Algebraic Semantics of Generalized RIFs ( http://arxiv.org/abs/2109.12998v1 )

ライセンス: Link先を確認
A Mani(参考訳) 粗包摂関数(RIF)のような多くの数値測度は、一般に粗集合やソフトコンピューティングで用いられる。 しかし、これらはしばしば定義によって侵入的であり、データについて不当な仮定をする量である。 汚染問題は、これに関連する談話の領域を認識し、エラーを特定し、それに対するデータ侵入を減らすことである。 本研究では, 弱準粗包含関数(wqrifs)を, 汚染を制限できる範囲の一般粒状作用素空間に一般化する。 新しい代数演算はそのような関数の集合上で定義され、現在著者によって研究されている。 一般化された wqRIF によって形成される代数は、追加作用素を持つ順序ヘミリングであることを示す。 対照的に、一般化された粗包含関数は同様の構造を持たない。 これは、そのような機能の選択(おそらく自動)の改善、トレーニング方法、アプリケーションにおける汚染(およびデータ侵入)の低減に寄与する可能性がある。 基礎となるフレームワークと関連する概念は、比較的新しいので、ある程度詳細に説明されている。

A number of numeric measures like rough inclusion functions (RIFs) are used in general rough sets and soft computing. But these are often intrusive by definition, and amount to making unjustified assumptions about the data. The contamination problem is also about recognizing the domains of discourses involved in this, specifying errors and reducing data intrusion relative to them. In this research, weak quasi rough inclusion functions (wqRIFs) are generalized to general granular operator spaces with scope for limiting contamination. New algebraic operations are defined over collections of such functions, and are studied by the present author. It is shown by her that the algebras formed by the generalized wqRIFs are ordered hemirings with additional operators. By contrast, the generalized rough inclusion functions lack similar structure. This potentially contributes to improving the selection (possibly automatic) of such functions, training methods, and reducing contamination (and data intrusion) in applications. The underlying framework and associated concepts are explained in some detail, as they are relatively new.
翻訳日:2021-10-03 10:39:02 公開日:2021-09-12
# ビデオ間翻訳ネットワークの計算流体力学への応用

Application of Video-to-Video Translation Networks to Computational Fluid Dynamics ( http://arxiv.org/abs/2109.10679v1 )

ライセンス: Link先を確認
Hiromitsu Kigure(参考訳) 近年,人工知能,特にディープラーニングの進化は目覚ましいものであり,様々な分野への応用が急速に進んでいる。 本稿では,GAN,特にビデオ間翻訳ネットワークを計算流体力学(CFD)シミュレーションに適用した結果について報告する。 本研究の目的は,GANを用いたCFDシミュレーションの計算コストを削減することである。 本研究におけるGANのアーキテクチャは、画像間翻訳ネットワーク(いわゆる「ピクセル2ピクセル」)とLong Short-Term Memory(LSTM)の組み合わせである。 高速・高精度シミュレーション(高精細グリッド)の結果は,低コスト・低精細グリッドシミュレーション(低精細グリッド)の結果から推定できることが示されている。 特に、gansを介して低分解能グリッドの場合から高分解能グリッドの場合における密度分布の時間発展を再現し、gansによって生成された画像から推定される密度不均質性は精度良く基底真理を回復する。 また,提案手法といくつかの超解像アルゴリズムの結果の質的,定量的な比較を行った。

In recent years, the evolution of artificial intelligence, especially deep learning, has been remarkable, and its application to various fields has been growing rapidly. In this paper, I report the results of the application of generative adversarial networks (GANs), specifically video-to-video translation networks, to computational fluid dynamics (CFD) simulations. The purpose of this research is to reduce the computational cost of CFD simulations with GANs. The architecture of GANs in this research is a combination of the image-to-image translation networks (the so-called "pix2pix") and Long Short-Term Memory (LSTM). It is shown that the results of high-cost and high-accuracy simulations (with high-resolution computational grids) can be estimated from those of low-cost and low-accuracy simulations (with low-resolution grids). In particular, the time evolution of density distributions in the cases of a high-resolution grid is reproduced from that in the cases of a low-resolution grid through GANs, and the density inhomogeneity estimated from the image generated by GANs recovers the ground truth with good accuracy. Qualitative and quantitative comparisons of the results of the proposed method with those of several super-resolution algorithms are also presented.
翻訳日:2021-09-26 22:31:50 公開日:2021-09-12
# (参考訳) 同期フェデレーショントレーニングにおけるシステム最適化 [全文訳有]

System Optimization in Synchronous Federated Training: A Survey ( http://arxiv.org/abs/2109.03999v2 )

ライセンス: CC BY 4.0
Zhifeng Jiang, Wei Wang(参考訳) プライバシー保護方式による協調機械学習に対する前例のない需要は、フェデレートラーニング(FL)と呼ばれる新しい機械学習パラダイムを生み出している。 十分なレベルのプライバシー保証が与えられた場合、FLシステムの実用性は主にトレーニングプロセス中の時間と精度のパフォーマンスに依存する。 FLは従来の分散トレーニングと多少似ているが、情報不足、コントラスト要因の結合、クライアントの不均一性、巨大な構成空間といった、より短い時間から正確性への最適化を複雑にする4つの異なる課題がある。 本稿では,関連研究の必要性に感銘を受けて,FL文学における高度に関連性の高い試みを調査し,関連する学習段階(選択,構成,報告)によって整理する。 また、fl開発者をフレンドリーにサポートするための測定研究やベンチマークツールを含む探索的作業についてもレビューする。 FLに関するいくつかの調査記事は存在するが、我々の研究は焦点、分類、意味という点ではそれらとは異なる。

The unprecedented demand for collaborative machine learning in a privacy-preserving manner gives rise to a novel machine learning paradigm called federated learning (FL). Given a sufficient level of privacy guarantees, the practicality of an FL system mainly depends on its time-to-accuracy performance during the training process. Despite bearing some resemblance with traditional distributed training, FL has four distinct challenges that complicate the optimization towards shorter time-to-accuracy: information deficiency, coupling for contrasting factors, client heterogeneity, and huge configuration space. Motivated by the need for inspiring related research, in this paper we survey highly relevant attempts in the FL literature and organize them by the related training phases in the standard workflow: selection, configuration, and reporting. We also review exploratory work including measurement studies and benchmarking tools to friendly support FL developers. Although a few survey articles on FL already exist, our work differs from them in terms of the focus, classification, and implications.
翻訳日:2021-09-19 02:56:00 公開日:2021-09-12
# (参考訳) ソーシャルメディア利用による友人の影響による利用者の価値変化の予測 [全文訳有]

Predicting Users' Value Changes by the Friends' Influence from Social Media Usage ( http://arxiv.org/abs/2109.08021v1 )

ライセンス: CC BY 4.0
Md. Saddam Hossain Mukta, Ahmed Shahriar Sakib, Md. Adnanul Islam, Mohiuddin Ahmed, Mumshad Ahamed Rifat(参考訳) 基本的人間の価値観は、セキュリティ、独立、成功、優しさ、喜びといった、私たちの生活にとって重要な価値のセットを表します。 それぞれが意味の異なる異なる値を持っています。 既存の研究によれば、個人の価値はソーシャルネットワークの利用から識別できる。 しかし、生活経験、影響、社会構造、技術など様々な要因により、人の価値の優先順位は時間とともに変化する可能性がある。 既存の研究では、社会的影響、すなわち集団説得から利用者の価値の変化がソーシャルメディアの利用を形作るという分析は行われていない。 本研究では,まず,友人のソーシャルメディア利用に対する影響から,利用者の価値スコアを推定する。 本研究では,Facebookにおける275の異なるエゴネットワークから,境界信頼度モデル(BCM)に基づく価値ダイナミクスモデルを提案する。 そこで我々は,粒子群最適化に基づくハイパーパラメータチューニング技術を用いて予測を行う。 これらの最適化されたハイパーパラメータは、正確な将来の値スコアを生成する。 また、異なる機械学習ベースの手法でアプローチを実行し、サポートベクター回帰(SVR)が他の回帰モデルより優れていることを発見した。 BCMモデルで最高のハイパーパラメータを持つSVRを用いて、最小の平均正方形誤差(MSE)スコア0.00347を求める。

Basic human values represent a set of values such as security, independence, success, kindness, and pleasure, which we deem important to our lives. Each of us holds different values with different degrees of significance. Existing studies show that values of a person can be identified from their social network usage. However, the value priority of a person may change over time due to different factors such as life experiences, influence, social structure and technology. Existing studies do not conduct any analysis regarding the change of users' value from the social influence, i.e., group persuasion, form the social media usage. In our research, first, we predict users' value score by the influence of friends from their social media usage. We propose a Bounded Confidence Model (BCM) based value dynamics model from 275 different ego networks in Facebook that predicts how social influence may persuade a person to change their value over time. Then, to predict better, we use particle swarm optimization based hyperparameter tuning technique. We observe that these optimized hyperparameters produce accurate future value score. We also run our approach with different machine learning based methods and find support vector regression (SVR) outperforms other regressor models. By using SVR with the best hyperparameters of BCM model, we find the lowest Mean Squared Error (MSE) score 0.00347.
翻訳日:2021-09-18 13:24:47 公開日:2021-09-12
# (参考訳) AIの倫理: 原則と課題の体系的な文献レビュー [全文訳有]

Ethics of AI: A Systematic Literature Review of Principles and Challenges ( http://arxiv.org/abs/2109.07906v1 )

ライセンス: CC BY 4.0
Arif Ali Khan, Sher Badshah, Peng Liang, Bilal Khan, Muhammad Waseem, Mahmood Niazi, Muhammad Azeem Akbar(参考訳) AIにおける倫理は、政策立案者と学術研究者の両方にとって世界的な関心事となっている。 ここ数年、さまざまな研究組織、弁護士、シンクタンク、規制機関がAI倫理ガイドラインや原則の開発に関与している。 しかし、これらの原則の意義についてはまだ議論がある。 我々は、AI原則の意義に関する合意を調査し、AI倫理原則の採用に悪影響を及ぼす可能性のある困難な要因を特定するために、体系的な文献レビュー(SLR)研究を行った。 その結果、グローバル収束セットは22の倫理原則と15の課題からなることが明らかになった。 透明性、プライバシ、説明責任、公正性は、最も一般的なAI倫理原則として識別される。 同様に、倫理的知識の欠如と曖昧な原則が、AIにおける倫理を考える上で重要な課題として報告されている。 本研究は,AIシステムの倫理的能力を評価し,さらなる改善のためのベストプラクティスを提供する成熟度モデルを提案するための予備的インプットである。

Ethics in AI becomes a global topic of interest for both policymakers and academic researchers. In the last few years, various research organizations, lawyers, think tankers and regulatory bodies get involved in developing AI ethics guidelines and principles. However, there is still debate about the implications of these principles. We conducted a systematic literature review (SLR) study to investigate the agreement on the significance of AI principles and identify the challenging factors that could negatively impact the adoption of AI ethics principles. The results reveal that the global convergence set consists of 22 ethical principles and 15 challenges. Transparency, privacy, accountability and fairness are identified as the most common AI ethics principles. Similarly, lack of ethical knowledge and vague principles are reported as the significant challenges for considering ethics in AI. The findings of this study are the preliminary inputs for proposing a maturity model that assess the ethical capabilities of AI systems and provide best practices for further improvements.
翻訳日:2021-09-18 13:16:33 公開日:2021-09-12
# (参考訳) メタ学習によるゼロショットテキストからSQLへのテーブルコンテンツ活用 [全文訳有]

Leveraging Table Content for Zero-shot Text-to-SQL with Meta-Learning ( http://arxiv.org/abs/2109.05395v1 )

ライセンス: CC BY 4.0
Yongrui Chen, Xinnan Guo, Chaojie Wang, Jian Qiu, Guilin Qi, Meng Wang, Huiying Li(参考訳) シングルテーブルのテキスト-to-SQLは、自然言語の質問を単一のテーブルに従ってSQLクエリに変換することを目的としている。 最近の作業は、事前学習された言語モデルとマルチサブモジュールフレームワークによって、このタスクに有望な進歩を遂げている。 しかし、ゼロショットテーブル、すなわちトレーニングセットの目に見えないテーブルは、現在、既存のアプローチを現実のシナリオに適用することを制限する最も重要なボトルネックである。 ゼロショットテーブルの処理に補助的なタスクを用いた作業もあるが、高価な手作業によるアノテーションは実用性を制限している。 本稿では,追加のマニュアルアノテーションに依存しないゼロショットテキストからsqlへのタスクに対する新しいアプローチを提案する。 我々のアプローチは2つの部分からなる。 まず、質問とゼロショットテーブル間のマッピングを確立するために、テーブルコンテンツの豊富な情報を活用する新しいモデルを提案する。 さらに,モデル学習のための簡易かつ効率的なメタラーニング戦略を提案する。 この戦略は、2段階の勾配更新を利用して、モデルをゼロショットテーブルへの一般化能力を学習させる。 オープンドメインのテキスト-SQLデータセットWikiSQLと、ドメイン固有のデータセットESQLについて広範な実験を行う。 同じ事前学習モデルを用いた既存手法と比較して,本手法は両方のデータセットで大幅に改善されている。 より大きな事前学習モデルと表特化事前学習モデルと比較すると,我々のアプローチはいまだに競争力がある。 さらに重要なことは、両方のデータセットのゼロショットサブセットにおいて、我々のアプローチはさらに改善を増加させます。

Single-table text-to-SQL aims to transform a natural language question into a SQL query according to one single table. Recent work has made promising progress on this task by pre-trained language models and a multi-submodule framework. However, zero-shot table, that is, the invisible table in the training set, is currently the most critical bottleneck restricting the application of existing approaches to real-world scenarios. Although some work has utilized auxiliary tasks to help handle zero-shot tables, expensive extra manual annotation limits their practicality. In this paper, we propose a new approach for the zero-shot text-to-SQL task which does not rely on any additional manual annotations. Our approach consists of two parts. First, we propose a new model that leverages the abundant information of table content to help establish the mapping between questions and zero-shot tables. Further, we propose a simple but efficient meta-learning strategy to train our model. The strategy utilizes the two-step gradient update to force the model to learn a generalization ability towards zero-shot tables. We conduct extensive experiments on a public open-domain text-to-SQL dataset WikiSQL and a domain-specific dataset ESQL. Compared to existing approaches using the same pre-trained model, our approach achieves significant improvements on both datasets. Compared to the larger pre-trained model and the tabular-specific pre-trained model, our approach is still competitive. More importantly, on the zero-shot subsets of both the datasets, our approach further increases the improvements.
翻訳日:2021-09-17 06:57:25 公開日:2021-09-12
# (参考訳) マルチエージェント経路探索のための学習選択コミュニケーション [全文訳有]

Learning Selective Communication for Multi-Agent Path Finding ( http://arxiv.org/abs/2109.05413v1 )

ライセンス: CC BY 4.0
Ziyuan Ma, Yudong Luo, Jia Pan(参考訳) 近年,Multi-Agent Path Finding (MAPF) の解法として,深層強化学習 (RL) や模倣学習 (IL) による学習コミュニケーションが有効であることが示されている。 しかし、既存の通信ベースのmapfソルバはブロードキャスト通信にフォーカスしており、エージェントがメッセージを他のすべてのまたは事前定義されたエージェントにブロードキャストする。 これは非現実的なだけでなく、マルチエージェントの協力を損なう可能性のある冗長な情報にも繋がる。 簡潔なコミュニケーション方式は、各エージェントの意思決定プロセスに関連があり、影響を及ぼす情報を学習すべきである。 この問題に対処するために、我々は要求応答シナリオを考察し、エージェントが訓練と実行の両方で通信を行えるように簡易かつ効率的なモデルである決定因果通信(DCC)を提案する。 具体的には、この隣接体の存在が中央エージェントの決定調整を引き起こす場合にのみ、隣接体を関連性および影響性として判定する。 この判断はエージェントの局所的な観察に基づいてのみ学習され、大規模な問題に対処するための分散実行に適している。 障害物の多い環境における実証評価は,本手法の通信オーバーヘッドの低い高い成功率を示す。

Learning communication via deep reinforcement learning (RL) or imitation learning (IL) has recently been shown to be an effective way to solve Multi-Agent Path Finding (MAPF). However, existing communication based MAPF solvers focus on broadcast communication, where an agent broadcasts its message to all other or predefined agents. It is not only impractical but also leads to redundant information that could even impair the multi-agent cooperation. A succinct communication scheme should learn which information is relevant and influential to each agent's decision making process. To address this problem, we consider a request-reply scenario and propose Decision Causal Communication (DCC), a simple yet efficient model to enable agents to select neighbors to conduct communication during both training and execution. Specifically, a neighbor is determined as relevant and influential only when the presence of this neighbor causes the decision adjustment on the central agent. This judgment is learned only based on agent's local observation and thus suitable for decentralized execution to handle large scale problems. Empirical evaluation in obstacle-rich environment indicates the high success rate with low communication overhead of our method.
翻訳日:2021-09-17 06:42:54 公開日:2021-09-12
# (参考訳) EMVLight: 救急車両の効率向上のための分散型強化学習フレームワーク [全文訳有]

EMVLight: A Decentralized Reinforcement Learning Framework for EfficientPassage of Emergency Vehicles ( http://arxiv.org/abs/2109.05429v1 )

ライセンス: CC BY 4.0
Haoran Su, Yaofeng Desmond Zhong, Biswadip Dey, Amit Chakraborty(参考訳) 救急車(EMV)は、都市部における救急医療や火災発生などの時間的危機に対応する上で重要な役割を担っている。 EMVが交通を移動する時間が少なくなればなるほど、人々の命を救い、財産の損失を減らすのに役立つだろう。 EMVの走行時間を短縮するために、過去の交通フローデータと最適な経路に基づく信号プリエンプションに基づいて経路最適化を行った。 しかし、トラヒック信号プリエンプションはトラフィックフローを動的に変更し、それによってemvの最適経路が変更される。 加えて、信号のプリエンプションの慣行は、通常、交通の流れを著しく乱し、非EMVの走行時間を増加させる。 本稿では,動的ルーティングと信号制御を同時に行うための分散強化学習(RL)フレームワークであるEMVLightを提案する。 EMVLight は Dijkstra のアルゴリズムを拡張して,トラフィックネットワークを走行する EMV の最適経路を効率的に更新する。 分散RLエージェントは、EMV走行時間を短縮するだけでなく、ネットワーク内の非EMVの平均走行時間を短縮するネットワークレベルの協調交通信号位相戦略を学習する。 この利点は、合成および実世界の地図を用いた包括的な実験を通じて実証されてきた。 これらの実験により、EMVLightは、既存のRLベースの信号制御手法とベンチマーク輸送技術より優れていることが示された。

Emergency vehicles (EMVs) play a crucial role in responding to time-critical events such as medical emergencies and fire outbreaks in an urban area. The less time EMVs spend traveling through the traffic, the more likely it would help save people's lives and reduce property loss. To reduce the travel time of EMVs, prior work has used route optimization based on historical traffic-flow data and traffic signal pre-emption based on the optimal route. However, traffic signal pre-emption dynamically changes the traffic flow which, in turn, modifies the optimal route of an EMV. In addition, traffic signal pre-emption practices usually lead to significant disturbances in traffic flow and subsequently increase the travel time for non-EMVs. In this paper, we propose EMVLight, a decentralized reinforcement learning (RL) framework for simultaneous dynamic routing and traffic signal control. EMVLight extends Dijkstra's algorithm to efficiently update the optimal route for the EMVs in real time as it travels through the traffic network. The decentralized RL agents learn network-level cooperative traffic signal phase strategies that not only reduce EMV travel time but also reduce the average travel time of non-EMVs in the network. This benefit has been demonstrated through comprehensive experiments with synthetic and real-world maps. These experiments show that EMVLight outperforms benchmark transportation engineering techniques and existing RL-based signal control methods.
翻訳日:2021-09-17 06:24:21 公開日:2021-09-12
# (参考訳) 性中立クエリは本当に性中立なのか? 画像検索におけるジェンダーバイアスの軽減 [全文訳有]

Are Gender-Neutral Queries Really Gender-Neutral? Mitigating Gender Bias in Image Search ( http://arxiv.org/abs/2109.05433v1 )

ライセンス: CC BY 4.0
Jialu Wang and Yang Liu and Xin Eric Wang(参考訳) インターネット検索は人々の世界の認知に影響を与えるため、検索結果のバイアスを緩和し、公正なモデルを学ぶことは社会的利益にとって不可欠である。 検索画像は、ジェンダーニュートラルな自然言語クエリに対して、しばしば性別不均衡である。 2つの典型的な画像検索モデル、ドメイン内データセットでトレーニングされた専用モデル、およびインターネット上の大規模画像およびテキストデータで事前トレーニングされた一般化表現モデルとを診断する。 どちらのモデルも厳しい性別の偏見に苦しむ。 そこで本研究では,トレーニングモデルの男女不均衡問題に対処するインプロセッシング・フェアサンプリング法と,事前学習モデルのマルチモーダル表現をデバイアスする相互情報に基づくポストプロセッシング機能クリッピング法という2つの新しいデバイアス手法を提案する。 MS-COCO と Flickr30K ベンチマークの大規模な実験により,画像検索モデルにおける性別バイアスを大幅に低減した。

Internet search affects people's cognition of the world, so mitigating biases in search results and learning fair models is imperative for social good. We study a unique gender bias in image search in this work: the search images are often gender-imbalanced for gender-neutral natural language queries. We diagnose two typical image search models, the specialized model trained on in-domain datasets and the generalized representation model pre-trained on massive image and text data across the internet. Both models suffer from severe gender bias. Therefore, we introduce two novel debiasing approaches: an in-processing fair sampling method to address the gender imbalance issue for training models, and a post-processing feature clipping method base on mutual information to debias multimodal representations of pre-trained models. Extensive experiments on MS-COCO and Flickr30K benchmarks show that our methods significantly reduce the gender bias in image search models.
翻訳日:2021-09-17 06:08:51 公開日:2021-09-12
# (参考訳) zero-constraint 違反によるconcaveユーティリティ強化学習

Concave Utility Reinforcement Learning with Zero-Constraint Violations ( http://arxiv.org/abs/2109.05439v1 )

ライセンス: CC BY 4.0
Mridul Agarwal, Qinbo Bai, Vaneet Aggarwal(参考訳) 凸制約付きCURL(Tabular infinite horizon concave utility reinforcement Learning)の問題点を考察する。 ロボット工学のような制約のある様々な学習アプリケーションは、制約に違反するポリシーを許可しない。 そこで本研究では,制約違反ゼロを実現するモデルベース学習アルゴリズムを提案する。 この結果を得るために、凹面の目的と凸の制約が、実現可能な占領対策の集合の内部に解を持つと仮定する。 そして,不正確なモデル知識とモデル確率性にもかかわらず,制約が決して破られないように,より厳密な最適化問題を解く。 また,確率的ポリシーを解析可能な表状無限ホライゾン設定に対するベルマン誤差に基づく新しい解析法を提案する。 ベルマン誤差に基づく解析とより厳密な最適化方程式を組み合わせることで、環境との$T$相互作用に対して、他の要因を除いて$\Tilde{O}(1/\sqrt{T})$として成長する目的に対する後悔の保証が得られる。

We consider the problem of tabular infinite horizon concave utility reinforcement learning (CURL) with convex constraints. Various learning applications with constraints, such as robotics, do not allow for policies that can violate constraints. To this end, we propose a model-based learning algorithm that achieves zero constraint violations. To obtain this result, we assume that the concave objective and the convex constraints have a solution interior to the set of feasible occupation measures. We then solve a tighter optimization problem to ensure that the constraints are never violated despite the imprecise model knowledge and model stochasticity. We also propose a novel Bellman error based analysis for tabular infinite-horizon setups which allows to analyse stochastic policies. Combining the Bellman error based analysis and tighter optimization equation, for $T$ interactions with the environment, we obtain a regret guarantee for objective which grows as $\Tilde{O}(1/\sqrt{T})$, excluding other factors.
翻訳日:2021-09-17 05:48:14 公開日:2021-09-12
# (参考訳) クロスバリデーション特徴選択を伴う傾斜ブースティングツリーの特徴的重要性 [全文訳有]

Feature Importance in Gradient Boosting Trees with Cross-Validation Feature Selection ( http://arxiv.org/abs/2109.05468v1 )

ライセンス: CC BY 4.0
Afek Ilay Adler and Amichai Painsky(参考訳) グラディエントブースティングマシン(GBM)は、表形式のデータに対するゴートアルゴリズムの一つであり、多くの予測タスクで結果の状態を生成する。 その人気にもかかわらず、gbmフレームワークは基本学習者の根本的な欠陥に悩まされている。 特に、ほとんどの実装では、大きな濃度を持つカテゴリ変数に偏った決定木を利用する。 このバイアスの効果は、主に予測性能の観点から、長年にわたって広く研究されてきた。 本研究は,GBM特徴重要度(FI)尺度に対する偏りのある基礎学習者の影響を,対象範囲を拡張して検討する。 これらの実装は高い競争力を持つ予測性能を示すが、それでもFIのバイアスに悩まされている。 クロスバリデード(CV)非バイアスベース学習者を利用して,この欠陥を比較的低い計算コストで修正する。 提案手法を各種の合成・実世界の構成で実証し, 予測精度を比較的同等に保ちながら, 全GBM FI尺度に有意な改善が見られた。

Gradient Boosting Machines (GBM) are among the go-to algorithms on tabular data, which produce state of the art results in many prediction tasks. Despite its popularity, the GBM framework suffers from a fundamental flaw in its base learners. Specifically, most implementations utilize decision trees that are typically biased towards categorical variables with large cardinalities. The effect of this bias was extensively studied over the years, mostly in terms of predictive performance. In this work, we extend the scope and study the effect of biased base learners on GBM feature importance (FI) measures. We show that although these implementation demonstrate highly competitive predictive performance, they still, surprisingly, suffer from bias in FI. By utilizing cross-validated (CV) unbiased base learners, we fix this flaw at a relatively low computational cost. We demonstrate the suggested framework in a variety of synthetic and real-world setups, showing a significant improvement in all GBM FI measures while maintaining relatively the same level of prediction accuracy.
翻訳日:2021-09-17 05:47:05 公開日:2021-09-12
# (参考訳) 深層学習推論における計算・エネルギー消費の動向 [全文訳有]

Compute and Energy Consumption Trends in Deep Learning Inference ( http://arxiv.org/abs/2109.05472v1 )

ライセンス: CC BY 4.0
Radosvet Desislavov, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo(参考訳) ディープラーニングのようなAIパラダイムの進歩は、パラメータ数の指数的な増加と関連していると言われている。 これらの傾向を裏付ける研究は数多くあるが、これはエネルギー消費の指数的な増加に繋がるのだろうか? この質問に答えるために、私たちは、トレーニングコストよりも推論コストに焦点を当てています。 また、アルゴリズムの革新とは別に、通常は重要なエネルギー効率の最適化を伴う、より具体的で強力なハードウェア(より高いFLOPSに導かれる)についても説明します。 また,画期的な論文の初回実装から,1~2年後の技術統合版へと焦点を移した。 この特徴的かつ包括的な視点の下で、コンピュータビジョンと自然言語処理の領域における関連するモデルについて検討する。 唯一注意すべき点は、未来のAIが侵入を増やし、より広く普及するにつれて、乗法的要因であることだ。

The progress of some AI paradigms such as deep learning is said to be linked to an exponential growth in the number of parameters. There are many studies corroborating these trends, but does this translate into an exponential increase in energy consumption? In order to answer this question we focus on inference costs rather than training costs, as the former account for most of the computing effort, solely because of the multiplicative factors. Also, apart from algorithmic innovations, we account for more specific and powerful hardware (leading to higher FLOPS) that is usually accompanied with important energy efficiency optimisations. We also move the focus from the first implementation of a breakthrough paper towards the consolidated version of the techniques one or two year later. Under this distinctive and comprehensive perspective, we study relevant models in the areas of computer vision and natural language processing: for a sustained increase in performance we see a much softer growth in energy consumption than previously anticipated. The only caveat is, yet again, the multiplicative factor, as future AI increases penetration and becomes more pervasive.
翻訳日:2021-09-16 14:29:36 公開日:2021-09-12
# (参考訳) 非並列訓練データを用いたスタイリスティック検索に基づく対話システム [全文訳有]

Stylistic Retrieval-based Dialogue System with Unparallel Training Data ( http://arxiv.org/abs/2109.05477v1 )

ライセンス: CC BY 4.0
Hao Fu, Yan Wang, Ruihua Song, Tianran Hu, Jianyun Nie(参考訳) 会話中に一貫した言語スタイルを表現するダイアログシステムの能力は、ユーザビリティとユーザの満足度に直接的なポジティブな影響を与える。 従来の研究では、大量の並列データでスタイル転送が可能であることが示されているが、異なるスタイルでそのようなデータを収集することはしばしば不可能である。 本稿では,あるスタイルで会話データを手作業で構築する代わりに,並列データなしで特定の人物の言語スタイルを模倣するために汎用検索ベースの対話システムを適用する柔軟な枠組みを提案する。 このアプローチは、jargonの使用法を学習してスタイリッシュなデータを自動的に生成し、jargonを組み込むことで汎用的な会話をスタイリッシュなデータに書き換える手法である。 実験では,5つの異なる言語スタイルの対話システムを実装した。その結果,反応の関連性,スタイルの程度,内容の多様性の平均スコアにおいて,我々のフレームワークは,ベースラインよりも有意に優れていた。 商用チャットボットでのa/bテストは、ユーザーが我々のシステムに満足していることを示している。 本研究では,単純なデータ拡張によるスタイリスティック対話システムの実現可能性を示す。

The ability of a dialog system to express consistent language style during conversations has a direct, positive impact on its usability and on user satisfaction. Although previous studies have demonstrated that style transfer is feasible with a large amount of parallel data, it is often impossible to collect such data for different styles. In this paper, instead of manually constructing conversation data with a certain style, we propose a flexible framework that adapts a generic retrieval-based dialogue system to mimic the language style of a specified persona without any parallel data. Our approach is based on automatic generation of stylized data by learning the usage of jargon, and then rewriting the generic conversations to a stylized one by incorporating the jargon. In experiments we implemented dialogue systems with five distinct language styles, and the result shows our framework significantly outperforms baselines in terms of the average score of responses' relevance and style degree, and content diversity. A/B testing on a commercial chatbot shows that users are more satisfied with our system. This study demonstrates the feasibility of building stylistic dialogue systems by simple data augmentation.
翻訳日:2021-09-16 13:51:17 公開日:2021-09-12
# (参考訳) 対話生成における未知のエンティティの扱いを改善するための知識強化微調整 [全文訳有]

Knowledge Enhanced Fine-Tuning for Better Handling Unseen Entities in Dialogue Generation ( http://arxiv.org/abs/2109.05487v1 )

ライセンス: CC BY 4.0
Leyang Cui, Yu Wu, Shujie Liu, Yue Zhang(参考訳) 事前学習モデルは対話生成において大きな成功を収めているが、入力が事前学習や微調整データセット(未知のエンティティ)に現れないエンティティを含むと、そのパフォーマンスは劇的に低下する。 この問題に対処するため、既存の手法は外部知識ベースを利用して適切な応答を生成する。 現実のシナリオでは、エンティティは知識ベースに含まれたり、知識検索の正確さに悩まされることはない。 この問題を解決するため、知識ベースを入力として導入するのではなく、入力コンテキストのみに基づいて知識ベース内の情報を予測することで、モデルにより良い意味表現を学習させます。 具体的には,知識基盤の助けを借りて,補助訓練目標を2つ紹介する。 1) 文脈により仮面実体の意味を推測する仮面語を解釈する。 2)ハイパーニム生成(hypernym generation)は、コンテキストに基づいてエンティティのハイパーニムを予測する。 2つの対話コーパスにおける実験結果から,本手法の有効性を確認した。

Although pre-training models have achieved great success in dialogue generation, their performance drops dramatically when the input contains an entity that does not appear in pre-training and fine-tuning datasets (unseen entity). To address this issue, existing methods leverage an external knowledge base to generate appropriate responses. In real-world scenario, the entity may not be included by the knowledge base or suffer from the precision of knowledge retrieval. To deal with this problem, instead of introducing knowledge base as the input, we force the model to learn a better semantic representation by predicting the information in the knowledge base, only based on the input context. Specifically, with the help of a knowledge base, we introduce two auxiliary training objectives: 1) Interpret Masked Word, which conjectures the meaning of the masked entity given the context; 2) Hypernym Generation, which predicts the hypernym of the entity based on the context. Experiment results on two dialogue corpus verify the effectiveness of our methods under both knowledge available and unavailable settings.
翻訳日:2021-09-16 13:37:38 公開日:2021-09-12
# (参考訳) レベル生成のための拡散型ニューラルネットワークオートマトン [全文訳有]

Illuminating Diverse Neural Cellular Automata for Level Generation ( http://arxiv.org/abs/2109.05489v1 )

ライセンス: CC BY 4.0
Sam Earle, Justin Snider, Matthew C. Fontaine, Stefanos Nikolaidis, and Julian Togelius(参考訳) 本稿では,ゲームレベルを設計するためのニューラルネットワークオートマトン(NCA)のコレクションを生成する手法を提案する。 NCA はこれまでに,教師あり学習を通じてのみ訓練されているが,我々は NCA レベルジェネレータのコレクションを生成するための品質多様性 (QD) アプローチを提案する。 この問題をQD問題とすることで,本手法は審美的基準や機能的基準に基づいて出力レベルが異なる多様なレベルジェネレータを訓練することができる。 CMA-ME(Covariance Matrix Adaptation MAP-Elites)は連続的な探索空間を専門とする品質多様性アルゴリズムである。 本手法は,maze game, sokoban, zeldaなどの2d tileベースのゲームに対してレベルジェネレータを生成する。 以上の結果から,CMA-MEは多種多様で有能な小さなNCAを生成でき,多くの場合,決定論的エージェントの複雑な可溶性基準を満たすことが示唆された。 合成パターン生成ネットワーク (CPPN) のベースラインと比較し, NCA表現がより優れたレベル空間探索をもたらすことを示す。

We present a method of generating a collection of neural cellular automata (NCA) to design video game levels. While NCAs have so far only been trained via supervised learning, we present a quality diversity (QD) approach to generating a collection of NCA level generators. By framing the problem as a QD problem, our approach can train diverse level generators, whose output levels vary based on aesthetic or functional criteria. To efficiently generate NCAs, we train generators via Covariance Matrix Adaptation MAP-Elites (CMA-ME), a quality diversity algorithm which specializes in continuous search spaces. We apply our new method to generate level generators for several 2D tile-based games: a maze game, Sokoban, and Zelda. Our results show that CMA-ME can generate small NCAs that are diverse yet capable, often satisfying complex solvability criteria for deterministic agents. We compare against a Compositional Pattern-Producing Network (CPPN) baseline trained to produce diverse collections of generators and show that the NCA representation yields a better exploration of level-space.
翻訳日:2021-09-16 13:24:54 公開日:2021-09-12
# (参考訳) LEA-Net:効率的なカラー異常検出のためのレイヤワイド外部注意ネットワーク [全文訳有]

LEA-Net: Layer-wise External Attention Network for Efficient Color Anomaly Detection ( http://arxiv.org/abs/2109.05493v1 )

ライセンス: CC BY 4.0
Ryoya Katafuchi and Terumasa Tokunaga(参考訳) 異常検出における先行知識の利用は重要な課題である。 近年,視覚的注意機構はコンピュータビジョンタスクにおけるCNNの性能向上に期待できる方法となっている。 本稿では,効率的な画像異常検出のための層別外部注意ネットワーク(lea-net)と呼ばれる新しいモデルを提案する。 中心となるアイデアは、視覚注意機構を介して、教師なし、監督なしの異常検出器の統合に依存している。 我々の戦略は以下の通りである。 (i)異常に関する事前知識は、通常のインスタンスの教師なし学習によって生成される異常マップとして表現される。 (ii)異常マップは、外部ネットワークによって注意マップに変換される。 (iii)アテンションマップを異常検出ネットワークの中間層に組み込む。 特に、この階層的な外部注意は、エンドツーエンドのトレーニング方法で任意のCNNモデルに適用することができる。 パイロット実験では,色異常検出タスクにおいてlea-netを検証する。 plantvillage、mvtec ad、cloud datasetsの広範な実験を通じて、提案手法が既存のcnnモデルの異常検出性能を一貫して高めることを実証する。 さらに,注意機構がいくつかのCNNモデルの性能を向上することを示す。

The utilization of prior knowledge about anomalies is an essential issue for anomaly detections. Recently, the visual attention mechanism has become a promising way to improve the performance of CNNs for some computer vision tasks. In this paper, we propose a novel model called Layer-wise External Attention Network (LEA-Net) for efficient image anomaly detection. The core idea relies on the integration of unsupervised and supervised anomaly detectors via the visual attention mechanism. Our strategy is as follows: (i) Prior knowledge about anomalies is represented as the anomaly map generated by unsupervised learning of normal instances, (ii) The anomaly map is translated to an attention map by the external network, (iii) The attention map is then incorporated into intermediate layers of the anomaly detection network. Notably, this layer-wise external attention can be applied to any CNN model in an end-to-end training manner. For a pilot study, we validate LEA-Net on color anomaly detection tasks. Through extensive experiments on PlantVillage, MVTec AD, and Cloud datasets, we demonstrate that the proposed layer-wise visual attention mechanism consistently boosts anomaly detection performances of an existing CNN model, even on imbalanced datasets. Moreover, we show that our attention mechanism successfully boosts the performance of several CNN models.
翻訳日:2021-09-16 13:13:25 公開日:2021-09-12
# (参考訳) 決定可能性に基づく損失関数 [全文訳有]

A Decidability-Based Loss Function ( http://arxiv.org/abs/2109.05524v1 )

ライセンス: CC BY 4.0
Pedro Silva and Gladston Moreira and Vander Freitas and Rodrigo Silva and David Menotti and Eduardo Luz(参考訳) 今日では、顔認識や音声認識などバイオメトリックスを含む幅広い問題に対して、ディープラーニングが標準的なアプローチとなっている。 バイオメトリックな問題は、しばしばディープラーニングモデルを使用して、埋め込みとして知られる画像から特徴を抽出する。 また,学習中のロス関数は,生成した組込みの品質に大きく影響する。 本研究では,検証ルーチンの埋め込み品質を向上させるために,決定可能性指数に基づく損失関数を提案する。 我々の提案であるD-lossは、ハードサンプルやトリッキーパラメータチューニングなど、トリプルトに基づく損失のいくつかを回避し、収束が遅くなる可能性がある。 提案手法は, mnist, fashion-mnist, cifar10, casia-irisv4の4種類のベンチマークにおいて, softmax (cross-entropy), triplets soft-hard, and multi similarity loss と比較した。 その結果,他の文献と比較すると,提案手法の有効性が示された。 D-loss計算は単純で非パラメトリックで実装が容易なだけでなく、クラス間とクラス内の両方のシナリオを好んでいる。

Nowadays, deep learning is the standard approach for a wide range of problems, including biometrics, such as face recognition and speech recognition, etc. Biometric problems often use deep learning models to extract features from images, also known as embeddings. Moreover, the loss function used during training strongly influences the quality of the generated embeddings. In this work, a loss function based on the decidability index is proposed to improve the quality of embeddings for the verification routine. Our proposal, the D-loss, avoids some Triplet-based loss disadvantages such as the use of hard samples and tricky parameter tuning, which can lead to slow convergence. The proposed approach is compared against the Softmax (cross-entropy), Triplets Soft-Hard, and the Multi Similarity losses in four different benchmarks: MNIST, Fashion-MNIST, CIFAR10 and CASIA-IrisV4. The achieved results show the efficacy of the proposal when compared to other popular metrics in the literature. The D-loss computation, besides being simple, non-parametric and easy to implement, favors both the inter-class and intra-class scenarios.
翻訳日:2021-09-16 12:52:08 公開日:2021-09-12
# (参考訳) 指紋分類のための教師なしディープラーニング手法:CCAEネットワークとハイブリッドクラスタリング戦略 [全文訳有]

An Unsupervised Deep-Learning Method for Fingerprint Classification: the CCAE Network and the Hybrid Clustering Strategy ( http://arxiv.org/abs/2109.05526v1 )

ライセンス: CC BY 4.0
Yue-Jie Hou, Zai-Xin Xie, Jian-Hu, Yao-Shen, and Chi-Chun Zhou(参考訳) 指紋分類は, 指紋照合プロセスの迅速化と精度向上のために重要かつ効果的な手法である。 従来の教師付き手法は大量の事前ラベル付きデータを必要とし、そのため膨大な人的資源を消費する。 本稿では,指紋の特徴を抽出し,自動的に指紋パターンを分類できる,効率的で教師なしの深層学習手法を提案する。 本手法では,制約畳み込み自動エンコーダ(CCAE)と呼ばれる新しいモデルを用いて指紋の特徴を抽出し,最終的なクラスタを得るためのハイブリッドクラスタリング戦略を適用する。 NIST-DB4データセットの一連の実験により、提案手法は指紋分類における効率的な性能を示す。 例えば、CCAEはNIST-DB4の1000個の未ラベル指紋に対して97.3%の精度を達成している。

The fingerprint classification is an important and effective method to quicken the process and improve the accuracy in the fingerprint matching process. Conventional supervised methods need a large amount of pre-labeled data and thus consume immense human resources. In this paper, we propose a new and efficient unsupervised deep learning method that can extract fingerprint features and classify fingerprint patterns automatically. In this approach, a new model named constraint convolutional auto-encoder (CCAE) is used to extract fingerprint features and a hybrid clustering strategy is applied to obtain the final clusters. A set of experiments in the NIST-DB4 dataset shows that the proposed unsupervised method exhibits the efficient performance on fingerprint classification. For example, the CCAE achieves an accuracy of 97.3% on only 1000 unlabeled fingerprints in the NIST-DB4.
翻訳日:2021-09-16 12:39:18 公開日:2021-09-12
# (参考訳) 低所得・中所得経済における国家吸収能力・経済成長・発展の比較分析のための新しいパネルMSKデータセットの推定

Estimating a new panel MSK dataset for comparative analyses of national absorptive capacity systems, economic growth, and development in low and middle income economies ( http://arxiv.org/abs/2109.05529v1 )

ライセンス: CC BY 4.0
Muhammad Salar Khan(参考訳) 国家の革新システム文学の中では、実証分析は発展途上国に著しく欠落している。 特に、世界銀行の国際開発協会(IDA)の支援を受ける低所得国や中所得国(LMIC)は、成長、開発、革新に関する実証的な議論にはほとんど参加していない。 LMICのパネル分析を妨げる主要な問題の一つは、完全なデータ可用性の欠如である。 この作業は、新しい完全なパネルデータセットを提供し、IDAのサポートに該当するLMICに欠落する値はない。 rubin (1987) が開発した標準で広く尊敬されている複数のインプテーション手法(特に予測平均マッチング)を使用します。 この手法は、多変量連続パネルデータの構造を国レベルで尊重する。 私はこのテクニックを使って、公開されている既存のソースから描かれた多くの変数からなる大きなデータセットを作成します。 これらの変数は、技術的能力、財政的能力、人的資本能力、インフラ的能力、公共政策能力、社会的な能力の6つの重要な国レベルの能力を取得する。 このような容量は、National Absorptive Capacity Systems (NACS)の一部と小包である。 このデータセット(MSKデータセット)は2005年から2019年までの82のLMICに対して47変数のデータを含む。 このデータセットは品質と信頼性のチェックをパスし、国家の吸収能力の比較分析やlmicの発達、遷移、収束解析に使用できる。

Within the national innovation system literature, empirical analyses are severely lacking for developing economies. Particularly, the low- and middle-income countries (LMICs) eligible for the World Bank's International Development Association (IDA) support, are rarely part of any empirical discourse on growth, development, and innovation. One major issue hindering panel analyses in LMICs, and thus them being subject to any empirical discussion, is the lack of complete data availability. This work offers a new complete panel dataset with no missing values for LMICs eligible for IDA's support. I use a standard, widely respected multiple imputation technique (specifically, Predictive Mean Matching) developed by Rubin (1987). This technique respects the structure of multivariate continuous panel data at the country level. I employ this technique to create a large dataset consisting of many variables drawn from publicly available established sources. These variables, in turn, capture six crucial country-level capacities: technological capacity, financial capacity, human capital capacity, infrastructural capacity, public policy capacity, and social capacity. Such capacities are part and parcel of the National Absorptive Capacity Systems (NACS). The dataset (MSK dataset) thus produced contains data on 47 variables for 82 LMICs between 2005 and 2019. The dataset has passed a quality and reliability check and can thus be used for comparative analyses of national absorptive capacities and development, transition, and convergence analyses among LMICs.
翻訳日:2021-09-16 12:28:00 公開日:2021-09-12
# (参考訳) 閉形式解法を用いた逆表現学習 [全文訳有]

Adversarial Representation Learning With Closed-Form Solvers ( http://arxiv.org/abs/2109.05535v1 )

ライセンス: CC BY-SA 4.0
Bashir Sadeghi, Lan Wang, and Vishnu Naresh Boddeti(参考訳) 対立表現学習は、意図しない機密情報を同時に取り除きながら、対象タスクのデータ表現を学習することを目的としている。 既存の手法では、確率勾配勾配上昇によってモデルパラメータを反復的に学習する。 この課題を克服するために、敵タスクと目標タスクにクローズドフォームソルバを採用する。 我々はそれらをカーネルリッジレセプタとしてモデル化し、表現の最適次元について上界を解析的に決定する。 我々のソリューションは OptNet-ARL と呼ばれ、安定なワンショット最適化問題に還元され、確実かつ効率的に解決できる。 OptNet-ARLは、複数のターゲットタスクや機密属性の場合に容易に一般化できる。 数値実験では、小規模データセットと大規模データセットの両方において、最適化の観点から、opnet-arlは安定しており、3倍から5倍の収束速度を示している。 パフォーマンスを賢く - ターゲット属性と機密属性が依存する場合、opnet-arlは、よりよいトレードオフのフロントを提供する表現を学習する (a)公平な分類のための有用性とバイアス (b)既存のソリューションよりも個人情報の漏洩を軽減し、実用性とプライバシー

Adversarial representation learning aims to learn data representations for a target task while removing unwanted sensitive information at the same time. Existing methods learn model parameters iteratively through stochastic gradient descent-ascent, which is often unstable and unreliable in practice. To overcome this challenge, we adopt closed-form solvers for the adversary and target task. We model them as kernel ridge regressors and analytically determine an upper-bound on the optimal dimensionality of representation. Our solution, dubbed OptNet-ARL, reduces to a stable one one-shot optimization problem that can be solved reliably and efficiently. OptNet-ARL can be easily generalized to the case of multiple target tasks and sensitive attributes. Numerical experiments, on both small and large scale datasets, show that, from an optimization perspective, OptNet-ARL is stable and exhibits three to five times faster convergence. Performance wise, when the target and sensitive attributes are dependent, OptNet-ARL learns representations that offer a better trade-off front between (a) utility and bias for fair classification and (b) utility and privacy by mitigating leakage of private information than existing solutions.
翻訳日:2021-09-16 12:25:39 公開日:2021-09-12
# (参考訳) 個人再識別のための合成データによる教師なしドメイン適応学習 [全文訳有]

Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification ( http://arxiv.org/abs/2109.05542v1 )

ライセンス: CC BY 4.0
Qi Wang, Sikai Bai, Junyu Gao, Yuan Yuan, Xuelong Li(参考訳) 人物再識別(re-ID)は、インテリジェントなビデオ監視に広く応用されているため、ますます注目を集めている。 残念なことに、メインストリームのディープラーニング手法では、モデルのトレーニングには大量のラベル付きデータが必要である。 さらに、異なるデータセット間のドメインギャップのため、ラベルリッチデータセット(ソースドメイン)で事前トレーニングされたre-IDモデルが、他のラベルなしデータセット(ターゲットドメイン)に直接適用されると、パフォーマンスが劇的に低下する。 本稿では,これらの問題をデータと方法論という2つの側面から解決しようとする。 まず,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築し,重データコレクションやアノテーションから人間を解放する。 これらに基づいて、異なるスケールの2つの合成人物再IDデータセット「GSPR」と「ミニGSPR」を構築した。 第2に,合成事前学習モジュールと,複数の領域から貴重な知識を十分に習得するための2つの協調再定義モジュールを含む合成型多領域協調改善(smcr)ネットワークを提案する。 大規模な実験により,提案フレームワークは,複数の教師なし領域適応タスクにおける最先端手法よりも,大幅な性能向上を実現していることがわかった。

Person re-identification (re-ID) has gained more and more attention due to its widespread applications in intelligent video surveillance. Unfortunately, the mainstream deep learning methods still need a large quantity of labeled data to train models, and annotating data is an expensive work in real-world scenarios. In addition, due to domain gaps between different datasets, the performance is dramatically decreased when re-ID models pre-trained on label-rich datasets (source domain) are directly applied to other unlabeled datasets (target domain). In this paper, we attempt to remedy these problems from two aspects, namely data and methodology. Firstly, we develop a data collector to automatically generate synthetic re-ID samples in a computer game, and construct a data labeler to simultaneously annotate them, which free humans from heavy data collections and annotations. Based on them, we build two synthetic person re-ID datasets with different scales, "GSPR" and "mini-GSPR" datasets. Secondly, we propose a synthesis-based multi-domain collaborative refinement (SMCR) network, which contains a synthetic pretraining module and two collaborative-refine ment modules to implement sufficient learning for the valuable knowledge from multiple domains. Extensive experiments show that our proposed framework obtains significant performance improvements over the state-of-the-art methods on multiple unsupervised domain adaptation tasks of person re-ID.
翻訳日:2021-09-16 12:05:26 公開日:2021-09-12
# (参考訳) CoG: グラフ上の敵攻撃を防御するための2ビューコトレーニングフレームワーク [全文訳有]

CoG: a Two-View Co-training Framework for Defending Adversarial Attacks on Graph ( http://arxiv.org/abs/2109.05558v1 )

ライセンス: CC BY 4.0
Xugang Wu, Huijun Wu, Xu Zhou, Kai Lu(参考訳) グラフニューラルネットワークはグラフデータ解析において顕著な性能を示す。 しかし、GNNモデルの堅牢性は依然として課題である。 その結果、それらは重要なアプリケーションにデプロイされるほど信頼できない。 近年の研究では、GNNは逆方向の摂動、特に構造摂動で容易に騙されうることが示されている。 このような脆弱性は、予測を行う構造情報への過度な依存に起因する。 堅牢性を向上するためには、より包括的な機能を備えたGNNの予測を構築することが望ましい。 グラフデータには、ほとんどの場合、構造情報と特徴情報という2つの情報ビューがある。 本稿では,この2つの視点を組み合わさって堅牢性を実現するための,シンプルで効果的な協調学習フレームワークであるCoGを提案する。 CoGは、特徴ビューと構造ビューから独立したサブモデルをトレーニングし、トレーニングセットに最も自信のないラベル付きデータを付加することで、相互に知識を蒸留することができる。 これら2つのビューの直交性はサブモデルを多様化させ、アンサンブルの堅牢性を高める。 その結果,cogは,クリーンデータに対する性能を犠牲にすることなく,敵対的攻撃に対するグラフモデルのロバスト性を大幅に向上させることがわかった。 また,ノード特徴とグラフ構造が乱れても,CoGが良好な堅牢性を実現することを示す。

Graph neural networks exhibit remarkable performance in graph data analysis. However, the robustness of GNN models remains a challenge. As a result, they are not reliable enough to be deployed in critical applications. Recent studies demonstrate that GNNs could be easily fooled with adversarial perturbations, especially structural perturbations. Such vulnerability is attributed to the excessive dependence on the structure information to make predictions. To achieve better robustness, it is desirable to build the prediction of GNNs with more comprehensive features. Graph data, in most cases, has two views of information, namely structure information and feature information. In this paper, we propose CoG, a simple yet effective co-training framework to combine these two views for the purpose of robustness. CoG trains sub-models from the feature view and the structure view independently and allows them to distill knowledge from each other by adding their most confident unlabeled data into the training set. The orthogonality of these two views diversifies the sub-models, thus enhancing the robustness of their ensemble. We evaluate our framework on three popular datasets, and results show that CoG significantly improves the robustness of graph models against adversarial attacks without sacrificing their performance on clean data. We also show that CoG still achieves good robustness when both node features and graph structures are perturbed.
翻訳日:2021-09-16 10:32:28 公開日:2021-09-12
# (参考訳) PQ変換器:ポイントクラウドから3次元オブジェクトとレイアウトを共同解析する [全文訳有]

PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds ( http://arxiv.org/abs/2109.05566v1 )

ライセンス: CC BY 4.0
Xiaoxue Chen, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) 点雲からの3Dシーン理解は、様々なロボットアプリケーションにおいて重要な役割を果たす。 残念ながら、現在の最先端の手法では、オブジェクト検出や部屋のレイアウト推定など、さまざまなタスクに別々のニューラルネットワークを使用する。 そのようなスキームには2つの制限がある。 1) 異なるタスクのための複数のネットワークの保存と実行は、一般的なロボットプラットフォームでは高価である。 2) 分離出力の固有の構造は無視され、潜在的に侵害される可能性がある。 そこで本稿では,ポイントクラウド入力を用いて3dオブジェクトとレイアウトを同時に予測する最初のトランスフォーマーアーキテクチャを提案する。 レイアウトキーポイントやエッジを推定する既存の方法とは異なり、ルームレイアウトをクワッドのセットとして直接パラメータ化します。 したがって、提案されたアーキテクチャは p(oint)q(uad)-transf ormer と呼ばれる。 本稿では,新しいクワッド表現とともに,オブジェクトレイアウトの干渉を阻害する物理制約損失関数を提案する。 公開ベンチマークscannetの定量的・質的評価により,提案するpq変換器は,効率指向最適化を伴わずに準リアルタイム (8.91 fps) で動作する3dオブジェクトとレイアウトを共同で解析することに成功した。 さらに、新しい物理的制約損失により、強いベースラインが向上し、部屋レイアウトのF1スコアが37.9%から57.9%に大幅に向上する。

3D scene understanding from point clouds plays a vital role for various robotic applications. Unfortunately, current state-of-the-art methods use separate neural networks for different tasks like object detection or room layout estimation. Such a scheme has two limitations: 1) Storing and running several networks for different tasks are expensive for typical robotic platforms. 2) The intrinsic structure of separate outputs are ignored and potentially violated. To this end, we propose the first transformer architecture that predicts 3D objects and layouts simultaneously, using point cloud inputs. Unlike existing methods that either estimate layout keypoints or edges, we directly parameterize room layout as a set of quads. As such, the proposed architecture is termed as P(oint)Q(uad)-Transf ormer. Along with the novel quad representation, we propose a tailored physical constraint loss function that discourages object-layout interference. The quantitative and qualitative evaluations on the public benchmark ScanNet show that the proposed PQ-Transformer succeeds to jointly parse 3D objects and layouts, running at a quasi-real-time (8.91 FPS) rate without efficiency-oriented optimization. Moreover, the new physical constraint loss can improve strong baselines, and the F1-score of the room layout is significantly promoted from 37.9% to 57.9%.
翻訳日:2021-09-16 10:17:33 公開日:2021-09-12
# (参考訳) MovieCuts: カット型認識のための新しいデータセットとベンチマーク [全文訳有]

MovieCuts: A New Dataset and Benchmark for Cut Type Recognition ( http://arxiv.org/abs/2109.05569v1 )

ライセンス: CC BY 4.0
Alejandro Pardo, Fabian Caba Heilbron, Juan Le\'on Alc\'azar, Ali Thabet, Bernard Ghanem(参考訳) 映画とその構造パターンを理解することは、ビデオ編集の工芸を解読するための重要な課題である。 以前の作品は、文字の検出や撮影レベルの撮影特性の認識といった一般的な分析ツールを開発したが、最も基本的なビデオ編集であるthe cutの理解に費やされる労力は少ない。 本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。 新しいタスクの研究に火をつけるために,10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセットであるMovieCutsを構築した。 我々は、この問題のマルチモーダルおよびマルチラベルの性質を扱うものを含む、一連のオーディオ視覚アプローチをベンチマークする。 我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。

Understanding movies and their structural patterns is a crucial task to decode the craft of video editing. While previous works have developed tools for general analysis such as detecting characters or recognizing cinematography properties at the shot level, less effort has been devoted to understanding the most basic video edit, the Cut. This paper introduces the cut type recognition task, which requires modeling of multi-modal information. To ignite research in the new task, we construct a large-scale dataset called MovieCuts, which contains more than 170K videoclips labeled among ten cut types. We benchmark a series of audio-visual approaches, including some that deal with the problem's multi-modal and multi-label nature. Our best model achieves 45.7% mAP, which suggests that the task is challenging and that attaining highly accurate cut type recognition is an open research problem.
翻訳日:2021-09-16 10:02:51 公開日:2021-09-12
# (参考訳) Nystr\"om法によるカーネルPCA

Kernel PCA with the Nystr\"om method ( http://arxiv.org/abs/2109.05578v1 )

ライセンス: CC BY 4.0
Fredrik Hallgren(参考訳) カーネル法は強力だが非線形学習のための計算に要求される手法である。 一般的な治療法であるNystr\"omメソッドは、カーネルメソッドを非常に大きなデータセットにスケールアップすることができ、精度の低下はほとんどない。 しかし、Nystr\"om法によるカーネルPCAは広く研究されていない。 本稿では,カーネルpcaをnystr\"om法で導出し,その精度について検討し,nystr\"omと標準経験的再構成誤差との差を限定した有限サンプル信頼度を与える。 手法とバウンドの挙動は、実世界のデータに関する広範なコンピュータ実験を通して説明される。 この手法の応用として, カーネル主成分回帰法をnystr\"om法で提案する。

Kernel methods are powerful but computationally demanding techniques for non-linear learning. A popular remedy, the Nystr\"om method has been shown to be able to scale up kernel methods to very large datasets with little loss in accuracy. However, kernel PCA with the Nystr\"om method has not been widely studied. In this paper we derive kernel PCA with the Nystr\"om method and study its accuracy, providing a finite-sample confidence bound on the difference between the Nystr\"om and standard empirical reconstruction errors. The behaviours of the method and bound are illustrated through extensive computer experiments on real-world data. As an application of the method we present kernel principal component regression with the Nystr\"om method.
翻訳日:2021-09-16 09:46:35 公開日:2021-09-12
# (参考訳) 脳腫瘍自動分割のためのジョイントグラフと画像畳み込みネットワーク [全文訳有]

A Joint Graph and Image Convolution Network for Automatic Brain Tumor Segmentation ( http://arxiv.org/abs/2109.05580v1 )

ライセンス: CC BY-SA 4.0
Camillo Saueressig, Adam Berkley, Reshma Munbodh, Ritambhara Singh(参考訳) 本稿では,脳腫瘍分離(BraTS)2021チャレンジへの参加として,共同グラフ畳み込み画像畳み込みニューラルネットワークを提案する。 各脳を、まずグラフニューラルネットワーク(gnn)によって分割された異なる画像領域からなるグラフとしてモデル化する。 その後、GNNによって同定された腫瘍体積は、最終セグメンテーションを生成する単純な(ボクセル)畳み込みニューラルネットワーク(CNN)によってさらに洗練される。 このアプローチは、畳み込みフィルタを用いて、グラフィカルな表現と局所的な画像の詳細を通して、グローバルな脳機能相互作用をキャプチャする。 我々は、GNN成分自体が脳腫瘍を効果的に同定し、分類できることを発見した。 CNNの追加により、評価されたすべてのメトリクスに対して、モデルの中央値のパフォーマンスが2%向上する。 gnn-cnnモデルでは, 腫瘍, コア腫瘍, 造影腫瘍のそれぞれ0.89, 0.81, 0.73および平均ハウスドルフ距離(95%)が6.8mm, 12.6mm, 28.2mmであった。

We present a joint graph convolution-image convolution neural network as our submission to the Brain Tumor Segmentation (BraTS) 2021 challenge. We model each brain as a graph composed of distinct image regions, which is initially segmented by a graph neural network (GNN). Subsequently, the tumorous volume identified by the GNN is further refined by a simple (voxel) convolutional neural network (CNN), which produces the final segmentation. This approach captures both global brain feature interactions via the graphical representation and local image details through the use of convolutional filters. We find that the GNN component by itself can effectively identify and segment the brain tumors. The addition of the CNN further improves the median performance of the model by 2 percent across all metrics evaluated. On the validation set, our joint GNN-CNN model achieves mean Dice scores of 0.89, 0.81, 0.73 and mean Hausdorff distances (95th percentile) of 6.8, 12.6, 28.2mm on the whole tumor, core tumor, and enhancing tumor, respectively.
翻訳日:2021-09-16 09:45:14 公開日:2021-09-12
# (参考訳) スマートシティのためのデータ分析:挑戦と約束 [全文訳有]

Data Analytics for Smart cities: Challenges and Promises ( http://arxiv.org/abs/2109.05581v1 )

ライセンス: CC BY 4.0
Farid Ghareh Mohammadi, Farzan Shenavarmasouleh, M. Hadi Amini, and Hamid R. Arabnia(参考訳) 人工知能、センサー技術、無線通信における進歩の爆発は、分散センサーによるユビキタスセンシングを活性化させる。 これらのセンサーは、医療、交通、環境、および関連するブランチ/ネットワークのスマートシステムに私たちを導くさまざまなネットワークのドメインです。 スマートシステム間でのコラボレーティブなインタラクションは、スマートシティと呼ばれる新たな統合エンティティの実現を可能にするエンドユーザデバイスを相互に接続する。 本研究の目的は,スマートシティにおけるデータ分析の包括的調査を提供することである。 本稿では,スマートシティの重要な分野であるスマートモビリティに焦点をあてるとともに,スマートシティの意思決定プロセスに対する肯定的な影響について述べる。 スマートモビリティにおけるインテリジェントな意思決定システムは、省エネ、都市交通の中継、そしてさらに重要なのは、リアルタイムの有用な情報と命令的知識を提供することによって大気汚染を減らすなど、多くの利点を提供している。 スマートシティにおける意思決定は、多様かつ高次元的な要因やパラメータが頻繁に収集されないため、難しい。 本稿では,まず,スマートシティにおける現在の課題に取り組み,これらの課題に対する潜在的な解決策について概説する。 そして、スマートシティにおけるスマートモビリティを最適化するための、データキャプチャ、データ分析、意思決定の3つの主要なセクションを備えた、ユニバーサルスマートシティ意思決定と呼ばれるこれらのソリューションのフレームワークを提供します。 このフレームワークを用いて,スマートシティに適用されてきたビッグデータ,機械学習,深層学習アルゴリズムの基本概念を詳細に解説するとともに,スマートシティにおけるスマートモビリティ意思決定におけるこれらのアルゴリズムの役割について論じる。

The explosion of advancements in artificial intelligence, sensor technologies, and wireless communication activates ubiquitous sensing through distributed sensors. These sensors are various domains of networks that lead us to smart systems in healthcare, transportation, environment, and other relevant branches/networks. Having collaborative interaction among the smart systems connects end-user devices to each other which enables achieving a new integrated entity called Smart Cities. The goal of this study is to provide a comprehensive survey of data analytics in smart cities. In this paper, we aim to focus on one of the smart cities important branches, namely Smart Mobility, and its positive ample impact on the smart cities decision-making process. Intelligent decision-making systems in smart mobility offer many advantages such as saving energy, relaying city traffic, and more importantly, reducing air pollution by offering real-time useful information and imperative knowledge. Making a decision in smart cities in time is challenging due to various and high dimensional factors and parameters, which are not frequently collected. In this paper, we first address current challenges in smart cities and provide an overview of potential solutions to these challenges. Then, we offer a framework of these solutions, called universal smart cities decision making, with three main sections of data capturing, data analysis, and decision making to optimize the smart mobility within smart cities. With this framework, we elaborate on fundamental concepts of big data, machine learning, and deep leaning algorithms that have been applied to smart cities and discuss the role of these algorithms in decision making for smart mobility in smart cities.
翻訳日:2021-09-16 09:36:20 公開日:2021-09-12
# (参考訳) Auto Componentwise Boosting: 解釈可能なAutoMLシステム [全文訳有]

Automatic Componentwise Boosting: An Interpretable AutoML System ( http://arxiv.org/abs/2109.05583v1 )

ライセンス: CC BY 4.0
Stefan Coors and Daniel Schalk and Bernd Bischl and David R\"ugamer(参考訳) 実際には、機械学習(ML)ワークフローは、データ前処理、値インプットの欠如、モデル選択、モデルチューニング、モデル評価など、さまざまなステップを必要とする。 これらのステップの多くは、人間のML専門家に依存しています。 これらのMLパイプラインを自動化する分野であるAutoMLは、専門家の知識なしにMLをオフザシェルフに適用する実践者を支援する。 Auto-sklearnやH20-AutoML、TPOTといった現代のAutoMLシステムは高い予測性能を目標としており、ブラックボックスモデルのみで構成されるアンサンブルを生成する。 これにより、素人の解釈がより複雑になり、ユーザーにとって不透明な別の層が加わった。 本稿では,高スケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて,解釈可能な付加モデルを構築するAutoMLシステムを提案する。 本システムでは,部分的効果や相互相互作用の可視化などの容易なモデル解釈のためのツールを提供し,特徴量を直接計算し,与えられたタスクに適合するために必要なモデル複雑性に関する洞察を提供する。 一般的なフレームワークを紹介し、その実装について概説する。 フレームワークの有効性を示すため、OpenML AutoML-Benchmarkに基づく既存のシステムと比較する。 解釈可能なモデル空間に制限されているにもかかわらず、我々のシステムは、よりユーザーフレンドリーで透明でありながら、ほとんどのデータセットで予測性能の点で競争力がある。

In practice, machine learning (ML) workflows require various different steps, from data preprocessing, missing value imputation, model selection, to model tuning as well as model evaluation. Many of these steps rely on human ML experts. AutoML - the field of automating these ML pipelines - tries to help practitioners to apply ML off-the-shelf without any expert knowledge. Most modern AutoML systems like auto-sklearn, H20-AutoML or TPOT aim for high predictive performance, thereby generating ensembles that consist almost exclusively of black-box models. This, in turn, makes the interpretation for the layperson more intricate and adds another layer of opacity for users. We propose an AutoML system that constructs an interpretable additive model that can be fitted using a highly scalable componentwise boosting algorithm. Our system provides tools for easy model interpretation such as visualizing partial effects and pairwise interactions, allows for a straightforward calculation of feature importance, and gives insights into the required model complexity to fit the given task. We introduce the general framework and outline its implementation autocompboost. To demonstrate the frameworks efficacy, we compare autocompboost to other existing systems based on the OpenML AutoML-Benchmark. Despite its restriction to an interpretable model space, our system is competitive in terms of predictive performance on most data sets while being more user-friendly and transparent.
翻訳日:2021-09-16 09:24:33 公開日:2021-09-12
# (参考訳) u-net convolutional network for recognition of vessel and materials in chemistry lab (特集 コンボリューションネットワーク) [全文訳有]

U-Net Convolutional Network for Recognition of Vessels and Materials in Chemistry Lab ( http://arxiv.org/abs/2109.05585v1 )

ライセンス: CC BY 4.0
Zhihao Shang and Di Bo(参考訳) 畳み込みネットワークはコンピュータビジョンシステムに広く応用されている。 これらの結果から,最近のvector-labpicsデータセットを用いて,化学実験室の容器や材料の認識にu-net畳み込みネットワークを適用した。 学習速度や学習速度の減衰を含むハイパーパラメータを最適化することにより,血管認識の精度が87%向上した。 比較的小さなトレーニングとテストセット(比較的稀な資料では500未満のトレーニングセットサンプル数と100未満のテストセットサンプル数)の場合,IoUでは18%,ベストモデルでは19%以上の総合的な改善が達成された。 改良された畳み込みネットワーク構造をモデルに組み込むことで、さらなる改善が可能かもしれない。

Convolutional networks have been widely applied for computer vision system. Encouraged by these results, a U-Net convolutional network was applied to recognition of vessels and materials in chemistry lab using the recent Vector-LabPics dataset, which contains 2187 images of materials within mostly transparent vessels in a chemistry lab and other general settings, labeled with 13 classes. By optimizing hyperparameters including learning rates and learning rate decays, 87% accuracy in vessel recognition was achieved. In the case of relatively small training and test sets (relatively rare materials states, the number of training set samples less than 500 and the number of test set samples less than 100), a comprehensive improvement over 18% in IoU and 19% in accuracy for the best model were achieved. Further improvements may be achievable by incorporating improved convolutional network structure into our models.
翻訳日:2021-09-16 09:10:34 公開日:2021-09-12
# (参考訳) センサデータを用いた手書き数学用語の検出 [全文訳有]

Detecting Handwritten Mathematical Terms with Sensor Based Data ( http://arxiv.org/abs/2109.05594v1 )

ライセンス: CC BY-SA 4.0
Lukas Wegmeth, Alexander Hoelzemann, Kristof Van Laerhoven(参考訳) 本研究では,手書きの数学的用語をDigiPenで取得した時系列センサデータに基づいて自動的に分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。 入力データセットは、異なる書き手のデータを含み、合計15の異なる可能な文字からなるラベル文字列である。 ラベルはまず、個別の文字に分けて分類するべきです。 この問題はラベル付きデータにデータ依存およびルールに基づく情報抽出アルゴリズムを適用することで解決される。 結果データを使用して、2つの分類器が構築される。 1つ目は、未知のデータに対して、サンプルが書き込み活動の一部である場合の予測が可能なバイナリ分類器で、抽出された特徴を90%以上のF1スコアで分類するように訓練されたランダムフォレストと結合したディープニューラルネットワーク特徴抽出器で構成される。 第2の分類器はDeep Neural Network(ディープニューラルネットワーク)で、畳み込みレイヤとリカレントレイヤを組み合わせることで、F1スコアが60%の15の可能なクラスのうち、ひとつのラベルでウィンドウを予測する。 チャレンジ評価手順のシミュレーションでは,レベンセイン距離が8であり,選択したアプローチが全体的な精度とリアルタイム適用性に欠けていることが示されている。

In this work we propose a solution to the UbiComp 2021 Challenge by Stabilo in which handwritten mathematical terms are supposed to be automatically classified based on time series sensor data captured on the DigiPen. The input data set contains data of different writers, with label strings constructed from a total of 15 different possible characters. The label should first be split into separate characters to classify them one by one. This issue is solved by applying a data-dependant and rule-based information extraction algorithm to the labeled data. Using the resulting data, two classifiers are constructed. The first is a binary classifier that is able to predict, for unknown data, if a sample is part of a writing activity, and consists of a Deep Neural Network feature extractor in concatenation with a Random Forest that is trained to classify the extracted features at an F1 score of >90%. The second classifier is a Deep Neural Network that combines convolution layers with recurrent layers to predict windows with a single label, out of the 15 possible classes, at an F1 score of >60%. A simulation of the challenge evaluation procedure reports a Levensthein Distance of 8 and shows that the chosen approach still lacks in overall accuracy and real-time applicability.
翻訳日:2021-09-16 09:06:54 公開日:2021-09-12
# (参考訳) ニューラルネットワークによる相転移の秩序パラメータと高エントロピー合金への応用 [全文訳有]

Neural network based order parameter for phase transitions and its applications in high-entropy alloys ( http://arxiv.org/abs/2109.05598v1 )

ライセンス: CC BY-SA 4.0
Junqi Yin and Zongrui Pei and Michael Gao(参考訳) 相転移は自然界で最も重要な現象の1つであり、材料設計において中心的な役割を果たす。 全ての相転移は、秩序-秩序相転移を含む適切な順序パラメータによって特徴づけられる。 しかし、高エントロピー合金のような複雑な系の代表的秩序パラメータの発見は簡単ではない。 高次元データを少数の主成分に還元する可変オートエンコーダ(VAE)の強度を考慮し、「VAE順序パラメータ」という新しい概念を考案する。 VAEラテント空間におけるマンハッタン距離は、秩序相転移の一般的な順序パラメータとして機能することを提案する。 規則パラメータの物性は、複数の屈折高エントロピー合金によって定量的に解釈され、実証される。 その助けを借りて、元素の自然混合を模倣して一般的に応用できる合金設計の概念を提案する。 物理的に解釈可能な「VAE秩序パラメータ」は化学秩序化による合金設計の理解の基礎となる。

Phase transition is one of the most important phenomena in nature and plays a central role in materials design. All phase transitions are characterized by suitable order parameters, including the order-disorder phase transition. However, finding a representative order parameter for complex systems is nontrivial, such as for high-entropy alloys. Given variational autoencoder's (VAE) strength of reducing high dimensional data into few principal components, here we coin a new concept of "VAE order parameter". We propose that the Manhattan distance in the VAE latent space can serve as a generic order parameter for order-disorder phase transitions. The physical properties of the order parameter are quantitatively interpreted and demonstrated by multiple refractory high-entropy alloys. Assisted by it, a generally applicable alloy design concept is proposed by mimicking the nature mixing of elements. Our physically interpretable "VAE order parameter" lays the foundation for the understanding of and alloy design by chemical ordering.
翻訳日:2021-09-16 08:57:56 公開日:2021-09-12
# (参考訳) fedtrinet:federated semi-supervised learningのための3人のプレーヤによる擬似ラベリング手法 [全文訳有]

FedTriNet: A Pseudo Labeling Method with Three Players for Federated Semi-supervised Learning ( http://arxiv.org/abs/2109.05612v1 )

ライセンス: CC BY 4.0
Liwei Che and Zewei Long and Jiaqi Wang and Yaqing Wang and Houping Xiao and Fenglong Ma(参考訳) Federated Learningは、分散データ利用とプライバシ保護に大きな可能性を示している。 既存の連合学習のアプローチのほとんどは教師付き設定にフォーカスしており、つまり各クライアントに格納されているすべてのデータはラベルを持っている。 しかし、現実世界のアプリケーションでは、クライアントデータが完全にラベル付けされることは不可能である。 したがって、ラベルのないデータをどう活用するかは、連邦学習の新しい課題である。 この課題を克服しようとする研究はいくつかあるが、情報漏洩や誤った情報利用の問題に悩まされている。 本稿では,2つの学習フェーズからなるFedTriNetという,新しいフェデレーション付き半教師付き学習手法を提案する。 第1フェーズでは、ラベル付きデータとFedAvgを使ってFedTriNetを事前訓練します。 第2フェーズでは、ラベルのないデータの大半をモデル学習に役立てることを目指しています。 特に3つのネットワークと動的品質制御機構を用いて、トレーニングセットに追加されるラベルなしデータの高品質な擬似ラベルを生成することを提案する。 最後に、FedTriNetはモデルの再トレーニングに新しいトレーニングセットを使用する。 3つの公開データセットの実験結果から、提案されたFedTriNetは、IIDと非IID設定の両方で最先端のベースラインを上回っている。

Federated Learning has shown great potentials for the distributed data utilization and privacy protection. Most existing federated learning approaches focus on the supervised setting, which means all the data stored in each client has labels. However, in real-world applications, the client data are impossible to be fully labeled. Thus, how to exploit the unlabeled data should be a new challenge for federated learning. Although a few studies are attempting to overcome this challenge, they may suffer from information leakage or misleading information usage problems. To tackle these issues, in this paper, we propose a novel federated semi-supervised learning method named FedTriNet, which consists of two learning phases. In the first phase, we pre-train FedTriNet using labeled data with FedAvg. In the second phase, we aim to make most of the unlabeled data to help model learning. In particular, we propose to use three networks and a dynamic quality control mechanism to generate high-quality pseudo labels for unlabeled data, which are added to the training set. Finally, FedTriNet uses the new training set to retrain the model. Experimental results on three publicly available datasets show that the proposed FedTriNet outperforms state-of-the-art baselines under both IID and Non-IID settings.
翻訳日:2021-09-16 08:38:41 公開日:2021-09-12
# (参考訳) RockNER: 名前付きエンティティ認識モデルのロバスト性を評価するための逆例の作成方法 [全文訳有]

RockNER: A Simple Method to Create Adversarial Examples for Evaluating the Robustness of Named Entity Recognition Models ( http://arxiv.org/abs/2109.05620v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Wenyang Gao, Jun Yan, Ryan Moreno, Xiang Ren(参考訳) 名前付きエンティティ認識(NER)モデルのロバスト性を評価するため,自然対向例を作成するためのシンプルで効果的なRockNERを提案する。 具体的には、エンティティレベルでは、ターゲットエンティティをWikidata内の同じセマンティッククラスの他のエンティティに置き換える。コンテキストレベルでは、事前訓練された言語モデル(例えばBERT)を使用して単語置換を生成する。 この2つのレベルのアタックは、ターゲットモデルがトレーニングされたトレーニングデータからシフトした分布をもたらす、自然な敵対的な例を生み出します。 提案手法をOntoNotesデータセットに適用し,システム評価プロトコルを用いて既存のNERモデルのロバスト性を評価するため,OntoRockという新しいベンチマークを作成する。 我々の実験と分析により、最高のモデルでさえ大きなパフォーマンス低下があり、これらのモデルはコンテキストから推論するのではなく、ドメイン内のエンティティパターンを記憶しているようです。 また,nerモデルのロバスト性を改善するために,簡単なデータ拡張手法が与える影響についても検討した。

To audit the robustness of named entity recognition (NER) models, we propose RockNER, a simple yet effective method to create natural adversarial examples. Specifically, at the entity level, we replace target entities with other entities of the same semantic class in Wikidata; at the context level, we use pre-trained language models (e.g., BERT) to generate word substitutions. Together, the two levels of attack produce natural adversarial examples that result in a shifted distribution from the training data on which our target models have been trained. We apply the proposed method to the OntoNotes dataset and create a new benchmark named OntoRock for evaluating the robustness of existing NER models via a systematic evaluation protocol. Our experiments and analysis reveal that even the best model has a significant performance drop, and these models seem to memorize in-domain entity patterns instead of reasoning from the context. Our work also studies the effects of a few simple data augmentation methods to improve the robustness of NER models.
翻訳日:2021-09-16 08:22:34 公開日:2021-09-12
# (参考訳) AdViCE: 機械学習モデル検証のための集合的視覚対実説明 [全文訳有]

AdViCE: Aggregated Visual Counterfactual Explanations for Machine Learning Model Validation ( http://arxiv.org/abs/2109.05629v1 )

ライセンス: CC BY 4.0
Oscar Gomez, Steffen Holter, Jun Yuan, Enrico Bertini(参考訳) 機械学習モデルの性能が急速に向上し、データ駆動意思決定の最前線に進出した。 一方、様々なアプリケーションドメインへのこれらのモデルの統合が増加すると、解釈可能性と透明性がさらに高まる必要性が浮き彫りになった。 バイアス、過度な適合、不正確な相関などの問題を識別するために、データサイエンティストはこれらのモデル決定が行われるメカニズムを説明するツールを必要とする。 本稿では,ブラックボックスモデルデバッグとバリデーションのユーザガイドを目的とした視覚分析ツールであるAdViCEを紹介する。 このソリューションは、2つの主要なビジュアルユーザインタフェースの革新を基礎としている:(1)ユーザ定義データサブセットにおける決定の比較を可能にするインタラクティブなビジュアライゼーション設計;(2)データ特徴が元の値から乱れたときにモデルの結果を描写する、反事実的説明を計算し視覚化するためのアルゴリズムとビジュアルデザイン。 提案手法の能力と潜在的な限界を示すユースケースを通じて,ツールのデモンストレーションを行う。

Rapid improvements in the performance of machine learning models have pushed them to the forefront of data-driven decision-making. Meanwhile, the increased integration of these models into various application domains has further highlighted the need for greater interpretability and transparency. To identify problems such as bias, overfitting, and incorrect correlations, data scientists require tools that explain the mechanisms with which these model decisions are made. In this paper we introduce AdViCE, a visual analytics tool that aims to guide users in black-box model debugging and validation. The solution rests on two main visual user interface innovations: (1) an interactive visualization design that enables the comparison of decisions on user-defined data subsets; (2) an algorithm and visual design to compute and visualize counterfactual explanations - explanations that depict model outcomes when data features are perturbed from their original values. We provide a demonstration of the tool through a use case that showcases the capabilities and potential limitations of the proposed approach.
翻訳日:2021-09-16 08:08:56 公開日:2021-09-12
# (参考訳) 縫製パターンによる3次元衣服のデータセット生成 [全文訳有]

Generating Datasets of 3D Garments with Sewing Patterns ( http://arxiv.org/abs/2109.05633v1 )

ライセンス: CC BY 4.0
Maria Korosteleva, Sung-Hee Lee(参考訳) 衣料品は、現実と多くの仮想世界の両方で普及している。 非常に変形可能な物であり、多種多様なデザインや形状を呈するが、ほとんどの衣服は、定期的に形づくった平らな断片から作られている。 衣服構造の探索は,物体構造推定タスクに特有な場合を示し,衣服形状に強く先行することにより,神経3次元衣料モデリングや再構成の下流課題に有用である可能性が示唆された。 そこで本研究では,3次元衣料デザインの大規模合成データセットとその縫製パターンを作成する手法を提案する。 本手法は,パラメトリックな縫製パターンテンプレートを記述可能なフレキシブルな記述構造と,手動操作の少ない衣服3Dモデルを生成する自動生成パイプラインから構成される。 リアリズムを追加するために、パイプラインは3Dスキャンのアーティファクトを模倣する最終メッシュの破損したバージョンも生成する。 このパイプラインを用いて、縫製パターンを用いた3D衣服モデルの大規模な合成データセットを作成した。 データセットには19の異なるベースタイプから生成される20000以上の衣料デザインのバリエーションが含まれている。 これらの衣服の種類のうち7種類は、衣服の縫製パターントポロジにおける一般化の評価を目的としたものである。

Garments are ubiquitous in both real and many of the virtual worlds. They are highly deformable objects, exhibit an immense variety of designs and shapes, and yet, most garments are created from a set of regularly shaped flat pieces. Exploration of garment structure presents a peculiar case for an object structure estimation task and might prove useful for downstream tasks of neural 3D garment modeling and reconstruction by providing strong prior on garment shapes. To facilitate research in these directions, we propose a method for generating large synthetic datasets of 3D garment designs and their sewing patterns. Our method consists of a flexible description structure for specifying parametric sewing pattern templates and the automatic generation pipeline to produce garment 3D models with little-to-none manual intervention. To add realism, the pipeline additionally creates corrupted versions of the final meshes that imitate artifacts of 3D scanning. With this pipeline, we created the first large-scale synthetic dataset of 3D garment models with their sewing patterns. The dataset contains more than 20000 garment design variations produced from 19 different base types. Seven of these garment types are specifically designed to target evaluation of the generalization across garment sewing pattern topologies.
翻訳日:2021-09-16 07:59:57 公開日:2021-09-12
# ニューラルネットワークによる人口相関の最大化による領域適応

Domain Adaptation by Maximizing Population Correlation with Neural Architecture Search ( http://arxiv.org/abs/2109.06652v1 )

ライセンス: Link先を確認
Zhixiong Yue, Pengxin Guo, Yu Zhang(参考訳) ソースとターゲットドメインの特徴分布が異なるドメイン適応(DA)では、ソースとターゲットドメイン間の差を最小限に抑えるために、様々な距離ベースの手法が提案されている。 本稿では,DAの領域差を測定するために,PC(Population correlation)と呼ばれる新しい類似性関数を提案する。 pc関数のベースとして,daのためのドメイン不変特徴表現を学ぶために,人口相関(dampc)を最大化することで,ドメイン適応と呼ばれる新しい手法を提案する。 さらに、既存のDA手法の多くは手作りのボトルネックネットワークを使用し、対応するモデルのキャパシティと柔軟性を制限する可能性がある。 そこで本研究では,DAMPCの最適ネットワークアーキテクチャを探索する,DAMPC with Neural Architecture Search (DAMPC-NAS)を提案する。 Office-31、Office-Home、VisDA-2017などのベンチマークデータセットの実験では、提案されたDAMPC-NASメソッドが最先端のDAメソッドよりも優れた結果が得られることが示された。

In Domain Adaptation (DA), where the feature distributions of the source and target domains are different, various distance-based methods have been proposed to minimize the discrepancy between the source and target domains to handle the domain shift. In this paper, we propose a new similarity function, which is called Population Correlation (PC), to measure the domain discrepancy for DA. Base on the PC function, we propose a new method called Domain Adaptation by Maximizing Population Correlation (DAMPC) to learn a domain-invariant feature representation for DA. Moreover, most existing DA methods use hand-crafted bottleneck networks, which may limit the capacity and flexibility of the corresponding model. Therefore, we further propose a method called DAMPC with Neural Architecture Search (DAMPC-NAS) to search the optimal network architecture for DAMPC. Experiments on several benchmark datasets, including Office-31, Office-Home, and VisDA-2017, show that the proposed DAMPC-NAS method achieves better results than state-of-the-art DA methods.
翻訳日:2021-09-15 15:53:52 公開日:2021-09-12
# クロップデフェンダー:訓練に便利で、切り倒しに対してより頑丈な深い透かし

CropDefender: deep watermark which is more convenient to train and more robust against cropping ( http://arxiv.org/abs/2109.06651v1 )

ライセンス: Link先を確認
Jiayu Ding, Yuchen Cao, Changhao Shi(参考訳) デジタル画像透かし(Digital image watermarking)は、財産権保護などの分野において、視覚的に情報を画像に埋め込む技術である。 近年,自然画像に透かしを追加するニューラルネットワークの利用が提案されている。 StegaStampを研究の例として挙げる。 輝度、コントラスト、彩度調整、あるいは1ビット変換のようなスタイル変更といった従来の画像編集方法に直面すると、stegastampは従来の透かし技術よりもはるかに堅牢であるが、依然として2つの欠点がある。 ニワトリの脆弱性の原因は,エッジに関する情報の喪失ではなく,透かしの位置の移動であることがわかった。 訓練中にトリッピングの摂動を明示的に導入することにより、トリッピング耐性が著しく向上する。 難解なトレーニングでは,消失勾配の解法としてインスタンス正規化を導入し,学習可能なパラメータとして損失の重みを設定し,ハイパーパラメータ数を削減し,sgmoidを用いて生成画像の画素値を制限する。

Digital image watermarking, which is a technique for invisibly embedding information into an image, is used in fields such as property rights protection. In recent years, some research has proposed the use of neural networks to add watermarks to natural images. We take StegaStamp as an example for our research. Whether facing traditional image editing methods, such as brightness, contrast, saturation adjustment, or style change like 1-bit conversion, GAN, StegaStamp has robustness far beyond traditional watermarking techniques, but it still has two drawbacks: it is vulnerable to cropping and is hard to train. We found that the causes of vulnerability to cropping is not the loss of information on the edge, but the movement of watermark position. By explicitly introducing the perturbation of cropping into the training, the cropping resistance is significantly improved. For the problem of difficult training, we introduce instance normalization to solve the vanishing gradient, set losses' weights as learnable parameters to reduce the number of hyperparameters, and use sigmoid to restrict pixel values of the generated image.
翻訳日:2021-09-15 15:36:09 公開日:2021-09-12
# (参考訳) 交差エントロピーと期待損失項の混合 [全文訳有]

Mixing between the Cross Entropy and the Expectation Loss Terms ( http://arxiv.org/abs/2109.05635v1 )

ライセンス: CC BY 4.0
Barak Battash, Lior Wolf, Tamir Hazan(参考訳) クロスエントロピー損失は、その有効性と固い理論的な接地により広く利用されている。 しかしながら、トレーニングが進むにつれて、損失はサンプルの分類が難しくなる傾向にあり、ネットワークのパフォーマンス向上を妨げる可能性がある。 この分野のほとんどの研究は、ハードネガティブを分類する方法を提案するが、高い確率で誤分類されたサンプルに焦点を当てるために、戦略的にハードネガティブを置き去りにすることを提案する。 最適化目標に期待損失を加えることで、ゼロワン損失の近似性が向上し、ネットワークの精度が向上することを示す。 そこで,本研究では,トレーニングの後半段階での期待損失に着目して,トレーニング中の2つの損失間のシフトを提案する。 実験により,コンピュータビジョン,自然言語処理,表形式データ,シーケンスなど,さまざまな分類領域における新たなトレーニングプロトコルの性能向上が示された。 私たちのコードとスクリプトは補足で利用可能です。

The cross entropy loss is widely used due to its effectiveness and solid theoretical grounding. However, as training progresses, the loss tends to focus on hard to classify samples, which may prevent the network from obtaining gains in performance. While most work in the field suggest ways to classify hard negatives, we suggest to strategically leave hard negatives behind, in order to focus on misclassified samples with higher probabilities. We show that adding to the optimization goal the expectation loss, which is a better approximation of the zero-one loss, helps the network to achieve better accuracy. We, therefore, propose to shift between the two losses during training, focusing more on the expectation loss gradually during the later stages of training. Our experiments show that the new training protocol improves performance across a diverse set of classification domains, including computer vision, natural language processing, tabular data, and sequences. Our code and scripts are available at supplementary.
翻訳日:2021-09-15 15:16:29 公開日:2021-09-12
# (参考訳) グラフニューラルネットワークがノードの分類を行う本当の夜景か? [全文訳有]

Is Heterophily A Real Nightmare For Graph Neural Networks To Do Node Classification? ( http://arxiv.org/abs/2109.05641v1 )

ライセンス: CC BY 4.0
Sitao Luan, Chenqing Hua, Qincheng Lu, Jiaqi Zhu, Mingde Zhao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup(参考訳) グラフニューラルネットワーク(GNN)は、関係帰納バイアス(ホモフィリー仮定)に基づいたグラフ構造を用いて、基本ニューラルネットワーク(NN)を拡張する。 GNNは現実世界のタスクにおいてNNより優れていると考えられているが、グラフに依存しないNNよりも、GNNのパフォーマンス上の優位性は、一般的には満足できないようである。 ヘテロフィリーが主な原因と見なされ、それに対応するために多くの研究が進められている。 本稿では, 集約操作を行うGNNに対して, ヘテロフィリのすべての症例が有害であることを示す。 次に,グラフ構造と入力特徴の両方がgnnに与える影響を考慮した類似度行列に基づく新しい指標を提案する。 これらの指標は、合成グラフの試験によってよく使われるホモフィリー測度よりも利点を示す。 測定値と観測結果から,多角化操作によって有害な異種性に対処できる事例がいくつか見いだされた。 この事実とフィルターバンクの知識を用いて,各GNN層におけるアグリゲーション,多様化,アイデンティティチャネルを適応的に活用し,有害なヘテロフィリに対処する適応チャネル混合(ACM)フレームワークを提案する。 10個の実世界のノード分類タスクでACM拡張ベースラインを検証する。 それらは一貫して大きなパフォーマンス向上を実現し、多くのタスクにおいて最先端のGNNをはるかに上回っている。

Graph Neural Networks (GNNs) extend basic Neural Networks (NNs) by using the graph structures based on the relational inductive bias (homophily assumption). Though GNNs are believed to outperform NNs in real-world tasks, performance advantages of GNNs over graph-agnostic NNs seem not generally satisfactory. Heterophily has been considered as a main cause and numerous works have been put forward to address it. In this paper, we first show that not all cases of heterophily are harmful for GNNs with aggregation operation. Then, we propose new metrics based on a similarity matrix which considers the influence of both graph structure and input features on GNNs. The metrics demonstrate advantages over the commonly used homophily metrics by tests on synthetic graphs. From the metrics and the observations, we find some cases of harmful heterophily can be addressed by diversification operation. With this fact and knowledge of filterbanks, we propose the Adaptive Channel Mixing (ACM) framework to adaptively exploit aggregation, diversification and identity channels in each GNN layer to address harmful heterophily. We validate the ACM-augmented baselines with 10 real-world node classification tasks. They consistently achieve significant performance gain and exceed the state-of-the-art GNNs on most of the tasks without incurring significant computational burden.
翻訳日:2021-09-15 12:49:14 公開日:2021-09-12
# ポストホック解釈評価における論理トラップ

The Logic Traps in Evaluating Post-hoc Interpretations ( http://arxiv.org/abs/2109.05463v1 )

ライセンス: Link先を確認
Yiming Ju, Yuanzhe Zhang, Zhao Yang, Zhongtao Jiang, Kang Liu and Jun Zhao(参考訳) ポストホック解釈は、トレーニングされたモデルを説明し、モデルがどのように決定に達するかを明らかにすることを目的としている。 ポストホック解釈の研究は急速に進んでいるが、この分野での痛みは解釈の評価が難しいことである。 既存の評価メソッドには重要なロジックトラップがいくつかあるが、ほとんどの作業では無視されている。 本稿では,4種類の評価手法を要約し,その背後にある論理トラップを指摘する。 我々はこれらの罠を無視し、断固として結論を引き出すのではなく、明確にすべきであると主張する。

Post-hoc interpretation aims to explain a trained model and reveal how the model arrives at a decision. Though research on post-hoc interpretations has developed rapidly, one growing pain in this field is the difficulty in evaluating interpretations. There are some crucial logic traps behind existing evaluation methods, which are ignored by most works. In this opinion piece, we summarize four kinds evaluation methods and point out the corresponding logic traps behind them. We argue that we should be clear about these traps rather than ignore them and draw conclusions assertively.
翻訳日:2021-09-14 16:15:56 公開日:2021-09-12
# TEASEL:トランスフォーマーに基づく音声修正言語モデル

TEASEL: A Transformer-Based Speech-Prefixed Language Model ( http://arxiv.org/abs/2109.05522v1 )

ライセンス: Link先を確認
Mehdi Arjmand, Mohammad Javad Dousti, Hadi Moradi(参考訳) マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としたNLPの急成長分野である。 この領域では、レキシコンは通常、トランスフォーマーベースのモデルを介して大きなコーパスで事前訓練されるため、他のモダリティよりも優れる。 高い性能にもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティで訓練することは、通常、不十分なデータのために達成できない。 本研究はTEASELと呼ばれるトランスフォーマーベース音声修正言語モデルを提案し,完全なトランスフォーマーモデルを訓練することなく,上記の制約にアプローチする。 TEASELモデルは、従来の言語モデルと比較して、テキストモダリティ以外の動的接頭辞として音声モダリティを含む。 本手法は,従来の事前学習型言語モデルをクロスモーダルトランスフォーマーモデルとして活用する。 CMU-MOSIデータセットで定義されたマルチモーダル感情分析タスクに対してTEASELを評価した。 大規模な実験により,本モデルは一助ベースライン言語モデルよりも4%優れ,現在のマルチモーダル・オブ・ザ・アート(SoTA)モデルよりも1%優れていた。 また,提案手法はSoTAモデルよりも72%小さい。

Multimodal language analysis is a burgeoning field of NLP that aims to simultaneously model a speaker's words, acoustical annotations, and facial expressions. In this area, lexicon features usually outperform other modalities because they are pre-trained on large corpora via Transformer-based models. Despite their strong performance, training a new self-supervised learning (SSL) Transformer on any modality is not usually attainable due to insufficient data, which is the case in multimodal language learning. This work proposes a Transformer-Based Speech-Prefixed Language Model called TEASEL to approach the mentioned constraints without training a complete Transformer model. TEASEL model includes speech modality as a dynamic prefix besides the textual modality compared to a conventional language model. This method exploits a conventional pre-trained language model as a cross-modal Transformer model. We evaluated TEASEL for the multimodal sentiment analysis task defined by CMU-MOSI dataset. Extensive experiments show that our model outperforms unimodal baseline language models by 4% and outperforms the current multimodal state-of-the-art (SoTA) model by 1% in F1-score. Additionally, our proposed method is 72% smaller than the SoTA model.
翻訳日:2021-09-14 16:15:48 公開日:2021-09-12
# SphereFaceが復活:超球面顔認識を統一

SphereFace Revived: Unifying Hyperspherical Face Recognition ( http://arxiv.org/abs/2109.05565v1 )

ライセンス: Link先を確認
Weiyang Liu, Yandong Wen, Bhiksha Raj, Rita Singh, Adrian Weller(参考訳) 本稿では,理想的顔特徴が最適に選択された距離空間における最小クラス間距離よりもクラス内距離が小さいという,オープンセットプロトコルの下での深層顔認識問題に対処する。 この目的のために、有望な研究として、超球面顔認識が注目され、次第に顔認識研究の主要な焦点となっている。 超球面顔認識における初期の研究の1つとして、SphereFaceは、クラス間の大きな縁を持つ顔埋め込みを学ぶことを提案した。 しかし、SphereFaceはいまだに厳しいトレーニングの不安定性に悩まされており、実際には適用が制限されている。 この問題に対処するために,超球面顔認識において大きな角マージンを理解するための統一フレームワークを提案する。 このフレームワークでは、SphereFaceの研究を拡張し、トレーニング安定性を大幅に向上した改良版SphereFace-Rを提案する。 具体的には、乗法マージンを実装する2つの新しい方法を提案し、3つの異なる特徴正規化スキーム(特徴正規化、ハード特徴正規化、ソフト特徴正規化)の下で球面-rを研究する。 また、トレーニングを安定させるために「特性勾配分離」の実装戦略も提案する。 sphereface-rに関する広範な実験は、最先端の手法よりも一貫して優れているか、あるいは競合していることを示している。

This paper addresses the deep face recognition problem under an open-set protocol, where ideal face features are expected to have smaller maximal intra-class distance than minimal inter-class distance under a suitably chosen metric space. To this end, hyperspherical face recognition, as a promising line of research, has attracted increasing attention and gradually become a major focus in face recognition research. As one of the earliest works in hyperspherical face recognition, SphereFace explicitly proposed to learn face embeddings with large inter-class angular margin. However, SphereFace still suffers from severe training instability which limits its application in practice. In order to address this problem, we introduce a unified framework to understand large angular margin in hyperspherical face recognition. Under this framework, we extend the study of SphereFace and propose an improved variant with substantially better training stability -- SphereFace-R. Specifically, we propose two novel ways to implement the multiplicative margin, and study SphereFace-R under three different feature normalization schemes (no feature normalization, hard feature normalization and soft feature normalization). We also propose an implementation strategy -- "characteristic gradient detachment" -- to stabilize training. Extensive experiments on SphereFace-R show that it is consistently better than or competitive with state-of-the-art methods.
翻訳日:2021-09-14 16:13:55 公開日:2021-09-12
# 対話コーパスによるConceptNetの強化による生成チャットボット内のトピックフローの誘導

Guiding Topic Flows in the Generative Chatbot by Enhancing the ConceptNet with the Conversation Corpora ( http://arxiv.org/abs/2109.05406v1 )

ライセンス: Link先を確認
Pengda Si, Yao Qiu, Jinchao Zhang, Yujiu Yang(参考訳) 人間の会話は合理的で自然な話題の流れから成り、発話をまたがる概念のシフトとして観察される。 外部コモンセンスナレッジグラフを組み込んだ従来のチャットボットは、概念シフトのモデル化が、鈍く、非形式的な応答ジレンマを効果的に軽減できることを証明している。 しかし、自然会話における概念関係と外部コモンセンス知識グラフとのギャップは依然として存在し、これは解決すべき問題である。 具体的には、外部コモンセンス知識グラフの概念関係は、会話のシナリオから直感的に構築されるのではなく、世界知識によって構築される。 このギャップを埋めるために,会話コーパスから抽出した概念関係をより多く提供し,チャットボット構築のための概念グラフを再構築する手法を提案する。 さらに,従来のgnnアーキテクチャを置き換えるために,edge-transformerと呼ばれる新しい,強力で高速なグラフエンコーディングアーキテクチャを提案する。 Redditの会話データセットを用いた実験結果から,提案手法は強いベースラインシステムよりも優れ,新たなSOTA結果が得られることが示された。 さらなる分析により、拡張概念グラフとエッジ変換アーキテクチャの有効性が個々に証明される。

Human conversations consist of reasonable and natural topic flows, which are observed as the shifts of the mentioned concepts across utterances. Previous chatbots that incorporate the external commonsense knowledge graph prove that modeling the concept shifts can effectively alleviate the dull and uninformative response dilemma. However, there still exists a gap between the concept relations in the natural conversation and those in the external commonsense knowledge graph, which is an issue to solve. Specifically, the concept relations in the external commonsense knowledge graph are not intuitively built from the conversational scenario but the world knowledge, which makes them insufficient for the chatbot construction. To bridge the above gap, we propose the method to supply more concept relations extracted from the conversational corpora and reconstruct an enhanced concept graph for the chatbot construction. In addition, we present a novel, powerful, and fast graph encoding architecture named the Edge-Transformer to replace the traditional GNN architecture. Experimental results on the Reddit conversation dataset indicate our proposed method significantly outperforms strong baseline systems and achieves new SOTA results. Further analysis individually proves the effectiveness of the enhanced concept graph and the Edge-Transformer architecture.
翻訳日:2021-09-14 16:09:33 公開日:2021-09-12
# すべての否定は等しくない: きめ細かいテキスト分類のためのラベル認識コントラスト損失

Not All Negatives are Equal: Label-Aware Contrastive Loss for Fine-grained Text Classification ( http://arxiv.org/abs/2109.05427v1 )

ライセンス: Link先を確認
Varsha Suresh and Desmond C. Ong(参考訳) きめ細かい分類には、より多数のクラスを持つデータセットを微妙な違いで扱います。 モデルにこれらの一般的な難解なクラス間の次元の微分に焦点を合わせることが、きめ細かいタスクのパフォーマンス向上の鍵となる。 本研究では,2つの細かいテキスト分類タスク,感情分類,感情分析において,事前学習した言語モデルの対照的な微調整を行う。 クラス関係を対照的な目的関数に適応的に組み込んで、正と負の異なる重み付けをし、特に、類似の負の例よりもはるかに難解な負の重み付けを行う。 ラベル認識のコントラスト損失は,多くのクラスやクラスが存在する場合において,従来のコントラスト手法よりも優れており,モデルがより差別化された出力分布を生成するのに役立つ。

Fine-grained classification involves dealing with datasets with larger number of classes with subtle differences between them. Guiding the model to focus on differentiating dimensions between these commonly confusable classes is key to improving performance on fine-grained tasks. In this work, we analyse the contrastive fine-tuning of pre-trained language models on two fine-grained text classification tasks, emotion classification and sentiment analysis. We adaptively embed class relationships into a contrastive objective function to help differently weigh the positives and negatives, and in particular, weighting closely confusable negatives more than less similar negative examples. We find that Label-aware Contrastive Loss outperforms previous contrastive methods, in the presence of larger number and/or more confusable classes, and helps models to produce output distributions that are more differentiated.
翻訳日:2021-09-14 16:09:12 公開日:2021-09-12
# 発話伝達を利用したオンラインショッピングのエンド・ツー・エンド会話検索

End-to-End Conversational Search for Online Shopping with Utterance Transfer ( http://arxiv.org/abs/2109.05460v1 )

ライセンス: Link先を確認
Liqiang Xiao, Jun Ma2, Xin Luna Dong, Pascual Martinez-Gomez, Nasser Zalmout, Wei Chen, Tong Zhao, Hao He, Yaohui Jin(参考訳) 会話型検索が成功すれば、オンラインショッピングの顧客に自然で適応的でインタラクティブなショッピング体験を提供できる。 しかし、このようなシステムをスクラッチから構築することは、不完全な製品スキーマ/知識とトレーニングダイアログデータの欠如の両方から語学上の課題に直面しており、まず、ダイアログシステムと検索を深く組み合わせたエンドツーエンドの対話検索システムであるConvSearchを提案する。 これは、製品属性のみを使用する場合と比較して、不完全な製品スキーマ/知識に対して堅牢である。 次に,既存のダイアログを用いて対話発話を生成する発話伝達アプローチを提案し,eコマース小売業者の検索行動データを活用することで,データ課題の欠如に対処する。 発話伝達では,オンラインショッピングのための対話型検索データセットを導入する。 実験の結果,提案手法はクラウドソーシングを伴わずに対話データの学習能力を大幅に向上させることができ,対話型検索システムは最良のベースラインを著しく上回っていた。

Successful conversational search systems can present natural, adaptive and interactive shopping experience for online shopping customers. However, building such systems from scratch faces real word challenges from both imperfect product schema/knowledge and lack of training dialog data.In this work we first propose ConvSearch, an end-to-end conversational search system that deeply combines the dialog system with search. It leverages the text profile to retrieve products, which is more robust against imperfect product schema/knowledge compared with using product attributes alone. We then address the lack of data challenges by proposing an utterance transfer approach that generates dialogue utterances by using existing dialog from other domains, and leveraging the search behavior data from e-commerce retailer. With utterance transfer, we introduce a new conversational search dataset for online shopping. Experiments show that our utterance transfer method can significantly improve the availability of training dialogue data without crowd-sourcing, and the conversational search system significantly outperformed the best tested baseline.
翻訳日:2021-09-14 16:08:57 公開日:2021-09-12
# 画像テキスト検索のための多点重ね重ね合わせのためのフレーズレベルセマンティックラベルの構築

Constructing Phrase-level Semantic Labels to Form Multi-Grained Supervision for Image-Text Retrieval ( http://arxiv.org/abs/2109.05523v1 )

ライセンス: Link先を確認
Zhihao Fan, Zhongyu Wei, Zejun Li, Siyuan Wang, Haijun Shan, Xuanjing Huang, Jianqing Fan(参考訳) 既存の画像検索研究は,検索画像の一致文と不一致文を区別するために,主に文レベルの監督に頼っている。 しかし、画像と文間の意味的ミスマッチは通常、より微細な粒、すなわち句レベルで起こる。 本稿では,テキスト中の不一致単位の識別精度向上のためのフレーズレベルの追加的監視を提案する。 実際には、文レベルと句レベルの両方のクエリイメージに対して、複数の粒度のセマンティックラベルが自動的に構築される。 マッチング文のテキストシーングラフを構築し,句レベルラベルとしてエンティティとトリプルを抽出する。 文レベルと句レベルを両立させるため,多モーダル表現学習のためのセマンティック構造対応マルチモーダルトランス (SSAMT) を提案する。 SSAMTの内部では、視覚と言語の両方で多粒意味単位の相互作用を強制するために、異なる種類の注意機構を利用する。 本研究は,グローバルとローカルの両方の視点から,複数スケールのマッチング損失を提案し,ミスマッチしたフレーズをペナルティ化する。 MS-COCO と Flickr30K による実験結果から,提案手法の有効性が示された。

Existing research for image text retrieval mainly relies on sentence-level supervision to distinguish matched and mismatched sentences for a query image. However, semantic mismatch between an image and sentences usually happens in finer grain, i.e., phrase level. In this paper, we explore to introduce additional phrase-level supervision for the better identification of mismatched units in the text. In practice, multi-grained semantic labels are automatically constructed for a query image in both sentence-level and phrase-level. We construct text scene graphs for the matched sentences and extract entities and triples as the phrase-level labels. In order to integrate both supervision of sentence-level and phrase-level, we propose Semantic Structure Aware Multimodal Transformer (SSAMT) for multi-modal representation learning. Inside the SSAMT, we utilize different kinds of attention mechanisms to enforce interactions of multi-grain semantic units in both sides of vision and language. For the training, we propose multi-scale matching losses from both global and local perspectives, and penalize mismatched phrases. Experimental results on MS-COCO and Flickr30K show the effectiveness of our approach compared to some state-of-the-art models.
翻訳日:2021-09-14 16:07:11 公開日:2021-09-12
# ArtiBoost: オンライン探索と合成による3Dハンドオブジェクトの姿勢推定

ArtiBoost: Boosting Articulated 3D Hand-Object Pose Estimation via Online Exploration and Synthesis ( http://arxiv.org/abs/2109.05488v1 )

ライセンス: Link先を確認
Kailin Li, Lixin Yang, Xinyu Zhan, Jun Lv, Wenqiang Xu, Jiefeng Li, Cewu Lu(参考訳) 単一のRGB画像から3Dハンドオブジェクトの合成を推定することは、さまざまな手ポーズ、オブジェクトポーズ、カメラ視点を含む大規模なデータセットを必要とする非常に曖昧で困難な問題である。 ほとんどの現実世界のデータセットには、この多様性がない。 対照的に、合成データセットは幅広い多様性を容易に確保できるが、それらから学ぶことは非効率であり、重いトレーニング消費に悩まされる。 上記の課題に対処するために,手動ポーズ推定をデータの観点から強化する軽量オンラインデータ豊か化手法であるArtiBoostを提案する。 ArtiBoostは、実世界のソースデータセットと一緒に使用される。 訓練中、artiboostはデータ探索と合成を行う。 ArtiBoostは、構成的な手オブジェクト構成と視点空間(CCV-space)に基づいて、さまざまな手オブジェクトのポーズやカメラの視点をカバーでき、マイニング戦略によって現在の難しいサンプルを適応的に強化することができる。 簡単な学習ベースラインネットワークにArtiBoostを適用し、いくつかのハンドオブジェクトベンチマークのパフォーマンス向上を示す。 ArtiBoostの例では、単純なベースラインネットワークでさえ、HO3Dデータセット上のTransformerに基づく前回の起動よりも優れています。 私たちのコードはhttps://github.com/M VIG-SJTU/ArtiBoost.c omから入手可能です。

Estimating the articulated 3D hand-object pose from a single RGB image is a highly ambiguous and challenging problem requiring large-scale datasets that contain diverse hand poses, object poses, and camera viewpoints. Most real-world datasets lack this diversity. In contrast, synthetic datasets can easily ensure vast diversity, but learning from them is inefficient and suffers from heavy training consumption. To address the above issues, we propose ArtiBoost, a lightweight online data enrichment method that boosts articulated hand-object pose estimation from the data perspective. ArtiBoost is employed along with a real-world source dataset. During training, ArtiBoost alternatively performs data exploration and synthesis. ArtiBoost can cover various hand-object poses and camera viewpoints based on a Compositional hand-object Configuration and Viewpoint space (CCV-space) and can adaptively enrich the current hard-discernable samples by a mining strategy. We apply ArtiBoost on a simple learning baseline network and demonstrate the performance boost on several hand-object benchmarks. As an illustrative example, with ArtiBoost, even a simple baseline network can outperform the previous start-of-the-art based on Transformer on the HO3D dataset. Our code is available at https://github.com/M VIG-SJTU/ArtiBoost.
翻訳日:2021-09-14 16:06:06 公開日:2021-09-12
# ペアワイズによる文表現のコントラスト学習

Pairwise Supervised Contrastive Learning of Sentence Representations ( http://arxiv.org/abs/2109.05424v1 )

ライセンス: Link先を確認
Dejiao Zhang, Shang-Wen Li, Wei Xiao, Henghui Zhu, Ramesh Nallapati, Andrew O. Arnold, Bing Xiang(参考訳) 近年の文表現学習における多くの成功は、三重項損失やシアム損失を伴う自然言語推論(NLI)データセットの微調整によって達成されている。 それにもかかわらず、それらは共通の弱点を共有している: 矛盾する対の文は必ずしも異なる意味圏からのものではない。 したがって、意味的帰結と矛盾の推論の目的のみを最適化することは、高レベルの意味構造を捉えるには不十分である。 欠点は、バニラ・サイムズや三重項の損失が個々の文対や三重項からしか学ばないという事実によって、しばしば悪い局所的最適性に悩まされる。 本稿では,意味的包含と矛盾理解を高レベルな分類概念エンコーディングに橋渡しすることを目的とした,インスタンス識別に基づくPairSupConを提案する。 PairSupConは、異なる粒度の文意味論の理解を含む様々な下流タスクで評価する。 従来の最先端手法では,8つのクラスタリングタスクの平均値改善が10\%--13\%,7つのセマンティックテキスト類似性(STS)タスクの平均値改善が5\%--6\%であった。

Many recent successes in sentence representation learning have been achieved by simply fine-tuning on the Natural Language Inference (NLI) datasets with triplet loss or siamese loss. Nevertheless, they share a common weakness: sentences in a contradiction pair are not necessarily from different semantic categories. Therefore, optimizing the semantic entailment and contradiction reasoning objective alone is inadequate to capture the high-level semantic structure. The drawback is compounded by the fact that the vanilla siamese or triplet losses only learn from individual sentence pairs or triplets, which often suffer from bad local optima. In this paper, we propose PairSupCon, an instance discrimination based approach aiming to bridge semantic entailment and contradiction understanding with high-level categorical concept encoding. We evaluate PairSupCon on various downstream tasks that involve understanding sentence semantics at different granularities. We outperform the previous state-of-the-art method with $10\%$--$13\%$ averaged improvement on eight clustering tasks, and $5\%$--$6\%$ averaged improvement on seven semantic textual similarity (STS) tasks.
翻訳日:2021-09-14 16:05:43 公開日:2021-09-12
# HyAR:ハイブリッド行動表現による離散連続行動強化学習への取り組み

HyAR: Addressing Discrete-Continuous Action Reinforcement Learning via Hybrid Action Representation ( http://arxiv.org/abs/2109.05490v1 )

ライセンス: Link先を確認
Boyan Li, Hongyao Tang, Yan Zheng, Jianye Hao, Pengyi Li, Zhen Wang, Zhaopeng Meng, Li Wang(参考訳) 離散連続ハイブリッドアクション空間は、ロボット制御やゲームAIなど、多くの実践的な問題において自然な設定である。 しかしながら、これまでのReinforcement Learning (RL) の作業は、離散的または連続的なアクション空間による制御の成功を実証するだけであり、ハイブリッドなアクション空間を考慮することはめったにない。 ハイブリッドアクションRLに対処する方法の1つは、従来のRLアルゴリズムを適用できるように、離散化または連続化によってハイブリッドアクション空間を統一された均一なアクション空間に変換することである。 しかし、これはハイブリッドアクション空間の基盤となる構造を無視し、スケーラビリティの問題と追加の近似の困難を招き、結果として生じる結果に繋がる。 本稿では,ハイブリッドアクション空間のコンパクトかつデコダブルな潜在表現空間を学習するためのハイブリッドアクション表現(hyar)を提案する。 HyARは遅延空間を構築し、個別アクションと連続パラメータの依存性を埋め込みテーブルと条件付きVariantional Auto-Encoder (VAE)を介して埋め込む。 さらに効果を高めるために、非教師なし環境力学予測により、動作表現を意味的に滑らかにするよう訓練する。 最後に、エージェントは学習された表現空間における従来のDRLアルゴリズムとポリシーを学び、元のアクション空間へのハイブリッドアクション埋め込みをデコードすることで環境と相互作用する。 離散連続行動空間を持つ様々な環境におけるHyARの評価を行った。 その結果,HyARが従来のベースライン,特に高次元動作空間と比較して優れていることが示された。

Discrete-continuous hybrid action space is a natural setting in many practical problems, such as robot control and game AI. However, most previous Reinforcement Learning (RL) works only demonstrate the success in controlling with either discrete or continuous action space, while seldom take into account the hybrid action space. One naive way to address hybrid action RL is to convert the hybrid action space into a unified homogeneous action space by discretization or continualization, so that conventional RL algorithms can be applied. However, this ignores the underlying structure of hybrid action space and also induces the scalability issue and additional approximation difficulties, thus leading to degenerated results. In this paper, we propose Hybrid Action Representation (HyAR) to learn a compact and decodable latent representation space for the original hybrid action space. HyAR constructs the latent space and embeds the dependence between discrete action and continuous parameter via an embedding table and conditional Variantional Auto-Encoder (VAE). To further improve the effectiveness, the action representation is trained to be semantically smooth through unsupervised environmental dynamics prediction. Finally, the agent then learns its policy with conventional DRL algorithms in the learned representation space and interacts with the environment by decoding the hybrid action embeddings to the original action space. We evaluate HyAR in a variety of environments with discrete-continuous action space. The results demonstrate the superiority of HyAR when compared with previous baselines, especially for high-dimensional action spaces.
翻訳日:2021-09-14 16:03:42 公開日:2021-09-12
# 分散検出におけるスプリアス相関の影響について

On the Impact of Spurious Correlation for Out-of-distribution Detection ( http://arxiv.org/abs/2109.05642v1 )

ライセンス: Link先を確認
Yifei Ming, Hang Yin, Yixuan Li(参考訳) 現代のニューラルネットワークは、トレーニングディストリビューションの外から引き出されたインプットに高い信頼性を割り当て、実際のデプロイメントにおけるモデルに脅威を与えることができる。 新たなout-of-distribution (ood) 検出法の設計には多くの研究が注目されているが、oodの正確な定義はしばしば曖昧さに残されており、現実にはoodの望ましい概念には及ばない。 本稿では,不変性と環境(清潔な)特性を考慮した新たな形式化とデータシフトをモデル化する。 このような形式化の下で,トレーニングセットにおけるスプリアス相関がOOD検出に与える影響を系統的に検討した。 その結果, トレーニングセットにおいて, 突発的特徴とラベルの相関が大きくなると, 検出性能が著しく悪化することが示唆された。 さらに, 環境特性への依存がOOD検出誤差の増大につながる理由を理論的に分析し, 相関効果の低減に有効である検出方法について考察する。 本研究の目的は,OODサンプルとその形式化の理解を深めることと,OOD検出を強化する手法の探索である。

Modern neural networks can assign high confidence to inputs drawn from outside the training distribution, posing threats to models in real-world deployments. While much research attention has been placed on designing new out-of-distribution (OOD) detection methods, the precise definition of OOD is often left in vagueness and falls short of the desired notion of OOD in reality. In this paper, we present a new formalization and model the data shifts by taking into account both the invariant and environmental (spurious) features. Under such formalization, we systematically investigate how spurious correlation in the training set impacts OOD detection. Our results suggest that the detection performance is severely worsened when the correlation between spurious features and labels is increased in the training set. We further show insights on detection methods that are more effective in reducing the impact of spurious correlation and provide theoretical analysis on why reliance on environmental features leads to high OOD detection error. Our work aims to facilitate a better understanding of OOD samples and their formalization, as well as the exploration of methods that enhance OOD detection.
翻訳日:2021-09-14 16:03:16 公開日:2021-09-12
# 不正な線形マルコフ決定過程のアルゴリズムの改良

Improved Algorithms for Misspecified Linear Markov Decision Processes ( http://arxiv.org/abs/2109.05546v1 )

ライセンス: Link先を確認
Daniel Vial, Advait Parulekar, Sanjay Shakkottai, R. Srikant(参考訳) Jinらによる不特定線形マルコフ決定過程(MLMDP)モデルについて。 [2020] では, 3つの望ましい特性を持つアルゴリズムを提案する。 (P1) k$エピソード後の後悔は、$k \max \{ \varepsilon_{\text{mis}}, \varepsilon_{\text{tol}} \}$であり、$\varepsilon_{\text{mis}}$は誤特定度であり、$\varepsilon_{\text{tol}}$はユーザー指定のエラー許容度である。 (P2) その空間とエピソード毎の時間複雑性は、$K \rightarrow \infty$として有界である。 (P3) 入力として$\varepsilon_{\text{mis}}$を必要としない。 私たちの知る限り、これは3つの特性をすべて満たす最初のアルゴリズムである。 また、$\varepsilon_{\text{tol}}$の具体的な選択については、(P2) または (P3) を達成しながら、既存の後悔境界(ログファクタまで)を改善します。 高レベルでは,本アルゴリズムは,竹村らが開発したSup-Lin-UCBアルゴリズムを一般化し,洗練する。 [2021]は最近,文脈的帯域設定で満足感(P3)を示した。

For the misspecified linear Markov decision process (MLMDP) model of Jin et al. [2020], we propose an algorithm with three desirable properties. (P1) Its regret after $K$ episodes scales as $K \max \{ \varepsilon_{\text{mis}}, \varepsilon_{\text{tol}} \}$, where $\varepsilon_{\text{mis}}$ is the degree of misspecification and $\varepsilon_{\text{tol}}$ is a user-specified error tolerance. (P2) Its space and per-episode time complexities remain bounded as $K \rightarrow \infty$. (P3) It does not require $\varepsilon_{\text{mis}}$ as input. To our knowledge, this is the first algorithm satisfying all three properties. For concrete choices of $\varepsilon_{\text{tol}}$, we also improve existing regret bounds (up to log factors) while achieving either (P2) or (P3) (existing algorithms satisfy neither). At a high level, our algorithm generalizes (to MLMDPs) and refines the Sup-Lin-UCB algorithm, which Takemura et al. [2021] recently showed satisfies (P3) in the contextual bandit setting.
翻訳日:2021-09-14 16:02:07 公開日:2021-09-12
# フェデレーションラーニングにおける臨界学習期間

Critical Learning Periods in Federated Learning ( http://arxiv.org/abs/2109.05613v1 )

ライセンス: Link先を確認
Gang Yan, Hao Wang, Jian Li(参考訳) フェデレートラーニング(FL)は、機械学習(ML)モデルを分散データでトレーニングする一般的なテクニックである。 大規模な研究でグローバルモデルの性能が研究されているが、トレーニングプロセスが最終的なテスト精度にどう影響するかは不明だ。 この問題をさらに悪化させるのは、FLの実行がクライアント間で不均一なデータ特性を持つ従来のMLとは大きく異なるという事実である。 そこで本研究では,flの最終的なテスト精度は,学習過程の初期段階,すなわち,小さな勾配誤差が最終テスト精度に不可解な影響を与えうる臨界学習期間によって劇的に影響を受けることを示す。 この現象をさらに説明するために、FedFIM(Fiher Information Matrix)の痕跡をFLに一般化し、FLでのトレーニング開始から各クライアントの局所曲率を反映したFedFIMと呼ばれる新しい概念を定義する。 以上の結果から,「em初期学習段階」はfl性能の理解において重要な役割を担っていることが示唆された。 これは、FLの最終精度を初期段階の訓練と結びつけない既存の多くの作品とは対照的である。 最後に、flにおけるクリティカルラーニング期間の取得は独立した関心事であり、ラウンド毎に選択されたクライアント数、バッチサイズなどハイパーパラメータの選択など、flトレーニングとテストのパフォーマンスを改善するために、他の問題にも有用である。

Federated learning (FL) is a popular technique to train machine learning (ML) models with decentralized data. Extensive works have studied the performance of the global model; however, it is still unclear how the training process affects the final test accuracy. Exacerbating this problem is the fact that FL executions differ significantly from traditional ML with heterogeneous data characteristics across clients, involving more hyperparameters. In this work, we show that the final test accuracy of FL is dramatically affected by the early phase of the training process, i.e., FL exhibits critical learning periods, in which small gradient errors can have irrecoverable impact on the final test accuracy. To further explain this phenomenon, we generalize the trace of the Fisher Information Matrix (FIM) to FL and define a new notion called FedFIM, a quantity reflecting the local curvature of each clients from the beginning of the training in FL. Our findings suggest that the {\em initial learning phase} plays a critical role in understanding the FL performance. This is in contrast to many existing works which generally do not connect the final accuracy of FL to the early phase training. Finally, seizing critical learning periods in FL is of independent interest and could be useful for other problems such as the choices of hyperparameters such as the number of client selected per round, batch size, and more, so as to improve the performance of FL training and testing.
翻訳日:2021-09-14 16:01:42 公開日:2021-09-12
# DRo:ディープラーニングベースのセキュリティシステムのパフォーマンスに革命をもたらすデータ共有メカニズム

DRo: A data-scarce mechanism to revolutionize the performance of Deep Learning based Security Systems ( http://arxiv.org/abs/2109.05470v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay, Hemant Rathore(参考訳) Supervised Deep Learningは、多くのラベル付きデータを収束させ、タスク固有の学習に最適に実行する。 そこで本稿では,DRo(Deep Routing)と呼ばれるセキュリティなどのデータスカースドメインのための新しいメカニズムを提案する。 DRoアプローチは、Deep-Clusteringの最近の開発の上に構築されている。 特に、合成生成した局所摂動を用いて自己誘導訓練機構を利用する。 DRoはスパースラベルデータの課題を緩和するだけでなく、多くのユニークなアドバンテージを提供する。 また,androidの暗黙的インテント(暗黙的インテント)を唯一の機能として使用する既存のマルウェア検出システムの性能を向上させるために,dro機構を使用するdroidというシステムを開発した。 一般的なAndroidマルウェアデータセットを用いてDRoIDの実験を行い、ダウンストリーム分類器によって生成された偽アラームを67.9%削減し、同時に精度を11.3%向上させることを発見した。 これは、達成された成果が並列性がないだけでなく、使われたフィーチャが分類器を訓練するのに十分なリッチと見なされることはなかったため、これらのフィーチャを分離して使用するまで、いかなるマルウェア分類システムでも、正常なパフォーマンスを報告できないためである。 結果から、DRo機構は、疎ラベルデータを用いたディープラーニングモデルの分類性能を高めることを目的とした、既知のすべてのシステムにおいて支配的な位置を主張する。

Supervised Deep Learning requires plenty of labeled data to converge, and hence perform optimally for task-specific learning. Therefore, we propose a novel mechanism named DRo (for Deep Routing) for data-scarce domains like security. The DRo approach builds upon some of the recent developments in Deep-Clustering. In particular, it exploits the self-augmented training mechanism using synthetically generated local perturbations. DRo not only allays the challenges with sparse-labeled data but also offers many unique advantages. We also developed a system named DRoID that uses the DRo mechanism for enhancing the performance of an existing Malware Detection System that uses (low information features like the) Android implicit Intent(s) as the only features. We conduct experiments on DRoID using a popular and standardized Android malware dataset and found that the DRo mechanism could successfully reduce the false-alarms generated by the downstream classifier by 67.9%, and also simultaneously boosts its accuracy by 11.3%. This is significant not only because the gains achieved are unparalleled but also because the features used were never considered rich enough to train a classifier on; and hence no decent performance could ever be reported by any malware classification system till-date using these features in isolation. Owing to the results achieved, the DRo mechanism claims a dominant position amongst all known systems that aims to enhance the classification performance of deep learning models with sparse-labeled data.
翻訳日:2021-09-14 15:57:59 公開日:2021-09-12
# 行列補完の基本極限について:階層的類似性グラフの活用

On the Fundamental Limits of Matrix Completion: Leveraging Hierarchical Similarity Graphs ( http://arxiv.org/abs/2109.05408v1 )

ライセンス: Link先を確認
Junhyung Ahn, Adel Elmahdy, Soheil Mohajer, Changho Suh(参考訳) 本稿では,階層的類似性グラフを推薦システムのコンテキストにおける側情報として活用する行列補完問題について検討する。 実有意な社会グラフと低ランク格付け行列をよく尊重する階層的確率ブロックモデルの下で,サンプル複雑性の鋭い上下境界を証明し,観測された行列エントリ数(すなわち最適なサンプル複雑性)の正確な情報理論的限界を特徴付ける。 達成可能性証明では, 十分な条件が満たされれば, 十分な数のユーザやアイテムに対して, 最大推定器の誤差の確率がなくなることを示す。 一方、逆証明 (impossibility) は genie-aided maximum max estimator に基づいている。 各条件下では,十分な数のユーザとアイテムに対してエラーの確率が失われないことを示すために,ジェニー支援推定器の例を示す。 この結果の重要な結果の1つは、ソーシャルグラフの階層構造を利用すると、それらの間の関係構造に頼らずに、単に異なるグループを識別するのに対して、サンプルの複雑さが大幅に向上するということである。 より具体的には、最適なサンプルの複雑さを分析し、階層的類似性グラフの側情報の品質指標に依存する特徴を識別する。 最後に, 理論的知見を裏付けるシミュレーション結果を示し, 特徴的情報理論の限界を漸近的に達成できることを示す。

We study the matrix completion problem that leverages hierarchical similarity graphs as side information in the context of recommender systems. Under a hierarchical stochastic block model that well respects practically-relevant social graphs and a low-rank rating matrix model, we characterize the exact information-theoreti c limit on the number of observed matrix entries (i.e., optimal sample complexity) by proving sharp upper and lower bounds on the sample complexity. In the achievability proof, we demonstrate that probability of error of the maximum likelihood estimator vanishes for sufficiently large number of users and items, if all sufficient conditions are satisfied. On the other hand, the converse (impossibility) proof is based on the genie-aided maximum likelihood estimator. Under each necessary condition, we present examples of a genie-aided estimator to prove that the probability of error does not vanish for sufficiently large number of users and items. One important consequence of this result is that exploiting the hierarchical structure of social graphs yields a substantial gain in sample complexity relative to the one that simply identifies different groups without resorting to the relational structure across them. More specifically, we analyze the optimal sample complexity and identify different regimes whose characteristics rely on quality metrics of side information of the hierarchical similarity graph. Finally, we present simulation results to corroborate our theoretical findings and show that the characterized information-theoreti c limit can be asymptotically achieved.
翻訳日:2021-09-14 15:56:25 公開日:2021-09-12
# Team NeuroPoly: MICCAI 2021のパイプラインの解説 MS New Lesions Segmentation Challenge

Team NeuroPoly: Description of the Pipelines for the MICCAI 2021 MS New Lesions Segmentation Challenge ( http://arxiv.org/abs/2109.05409v1 )

ライセンス: Link先を確認
Uzay Macar, Enamundram Naga Karthik, Charley Gros, Andr\'eanne Lemay, Julien Cohen-Adad(参考訳) 本稿では,MICCAI 2021 Challenge on Multiple Sclerosis Lesion Segmentationの第2版に使用されたパイプラインについて詳述する。 適用されるデータの前処理手順の概要と、アーキテクチャとハイパーパラメータの観点で使用されるパイプラインの簡単な説明が提供されている。 この作業のコードは、https://github.com/i vadomed/ms-challenge -2021で確認できます。

This paper gives a detailed description of the pipelines used for the 2nd edition of the MICCAI 2021 Challenge on Multiple Sclerosis Lesion Segmentation. An overview of the data preprocessing steps applied is provided along with a brief description of the pipelines used, in terms of the architecture and the hyperparameters. Our code for this work can be found at: https://github.com/i vadomed/ms-challenge -2021.
翻訳日:2021-09-14 15:55:14 公開日:2021-09-12
# 正規化トランスファー学習を用いた顔面解剖学的ランドマーク検出と胎児アルコール症候群認識への応用

Facial Anatomical Landmark Detection using Regularized Transfer Learning with Application to Fetal Alcohol Syndrome Recognition ( http://arxiv.org/abs/2109.05485v1 )

ライセンス: Link先を確認
Zeyu Fu, Jianbo Jiao, Michael Suttie and J. Alison Noble(参考訳) 出生前アルコール暴露による胎児アルコール症候群(FAS)は、一連の頭蓋顔面異常、行動および神経認知の問題を引き起こす。 FASの現在の診断は、通常、手動検査によってしばしば得られる顔の特徴のセットを特定することによって行われる。 高度な幾何学的情報を提供する解剖学的ランドマーク検出は,FAS関連顔面異常の検出に重要である。 このイメージングアプリケーションは、ラベル付きデータの外観と限られた可用性の大きなバリエーションによって特徴付けられる。 自然画像における顔のランドマーク検出のために設計された現在のディープラーニングに基づく熱マップ回帰法は、大きなデータセットの可用性を前提としており、この用途には適していない。 この制約に対処するために,大規模顔認識データセットで学習したネットワークの知識を活用した,新しい正規化転送学習手法を開発した。 事前学習した重みの調整に重点を置く標準伝達学習とは対照的に,提案した学習手法はモデルの振舞いを規則化する。 ターゲットタスクデータ上のドメイン類似のソースモデルのリッチなビジュアルセマンティクスを、ランドマーク検出最適化を規則化する追加の監督信号として明示的に再利用する。 具体的には、分類層と中間層からの特徴出力の制約や、空間レベルとチャネルレベルのアクティベーションアテンションマップの一致を含む、トランスファーラーニングのための4つの規則化制約を開発する。 収集した臨床画像データセットの実験的評価により,本手法は限られたトレーニングサンプルでモデルの一般化性を効果的に改善できることが示され,文献の他のアプローチに有利である。

Fetal alcohol syndrome (FAS) caused by prenatal alcohol exposure can result in a series of cranio-facial anomalies, and behavioral and neurocognitive problems. Current diagnosis of FAS is typically done by identifying a set of facial characteristics, which are often obtained by manual examination. Anatomical landmark detection, which provides rich geometric information, is important to detect the presence of FAS associated facial anomalies. This imaging application is characterized by large variations in data appearance and limited availability of labeled data. Current deep learning-based heatmap regression methods designed for facial landmark detection in natural images assume availability of large datasets and are therefore not wellsuited for this application. To address this restriction, we develop a new regularized transfer learning approach that exploits the knowledge of a network learned on large facial recognition datasets. In contrast to standard transfer learning which focuses on adjusting the pre-trained weights, the proposed learning approach regularizes the model behavior. It explicitly reuses the rich visual semantics of a domain-similar source model on the target task data as an additional supervisory signal for regularizing landmark detection optimization. Specifically, we develop four regularization constraints for the proposed transfer learning, including constraining the feature outputs from classification and intermediate layers, as well as matching activation attention maps in both spatial and channel levels. Experimental evaluation on a collected clinical imaging dataset demonstrate that the proposed approach can effectively improve model generalizability under limited training samples, and is advantageous to other approaches in the literature.
翻訳日:2021-09-14 15:55:07 公開日:2021-09-12
# 他のドアをチェック! 周波数領域におけるバックドア攻撃の確立

Check Your Other Door! Establishing Backdoor Attacks in the Frequency Domain ( http://arxiv.org/abs/2109.05507v1 )

ライセンス: Link先を確認
Hasan Abed Al Kader Hammoud, Bernard Ghanem(参考訳) ディープニューラルネットワーク(DNN)は,画像分類や顔認識,医用画像解析,リアルタイム物体検出など,さまざまな用途で利用されている。 我々のモデルがより洗練され複雑になるにつれて、そのようなモデルの訓練にかかる計算コストは、中小企業や個人にとって負担となり、そのため、トレーニングプロセスのアウトソーシングが、そのようなユーザにとっての選択肢となっている。 残念ながら、トレーニングプロセスのアウトソーシングは、バックドア攻撃に対する脆弱性のコストが伴う。 これらの攻撃は、モデルが良質なサンプルに対して良好に動作するようにDNN内に隠れたバックドアを確立することを目的としているが、入力にトリガが適用されると特定のターゲットラベルを出力する。 現在のバックドア攻撃は、イメージ/ピクセルドメイン内でトリガーを生成することに依存しているが、本稿で示すように、エクスプロイトする唯一のドメインではなく、常に"他のドアをチェックする"必要がある。 本研究では,周波数領域において動的で効率的で目に見えないバックドア攻撃を発生させる完全パイプラインを提案する。 様々なデータセットやネットワークアーキテクチャに関する広範な実験を通じて、検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。 バックドアモデルは、様々な最先端の防御を壊す。 また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。 本研究は,ネットワークの学習能力とバックドア攻撃をモデルに組み込む能力について,いくつかの発言で締めくくった。

Deep Neural Networks (DNNs) have been utilized in various applications ranging from image classification and facial recognition to medical imagery analysis and real-time object detection. As our models become more sophisticated and complex, the computational cost of training such models becomes a burden for small companies and individuals; for this reason, outsourcing the training process has been the go-to option for such users. Unfortunately, outsourcing the training process comes at the cost of vulnerability to backdoor attacks. These attacks aim at establishing hidden backdoors in the DNN such that the model performs well on benign samples but outputs a particular target label when a trigger is applied to the input. Current backdoor attacks rely on generating triggers in the image/pixel domain; however, as we show in this paper, it is not the only domain to exploit and one should always "check the other doors". In this work, we propose a complete pipeline for generating a dynamic, efficient, and invisible backdoor attack in the frequency domain. We show the advantages of utilizing the frequency domain for establishing undetectable and powerful backdoor attacks through extensive experiments on various datasets and network architectures. The backdoored models are shown to break various state-of-the-art defences. We also show two possible defences that succeed against frequency-based backdoor attacks and possible ways for the attacker to bypass them. We conclude the work with some remarks regarding a network's learning capacity and the capability of embedding a backdoor attack in the model.
翻訳日:2021-09-14 15:54:37 公開日:2021-09-12
# biolcnet: 報酬調整型ローカル接続スパイクニューラルネットワーク

BioLCNet: Reward-modulated Locally Connected Spiking Neural Networks ( http://arxiv.org/abs/2109.05539v1 )

ライセンス: Link先を確認
Hafez Ghaemi, Erfan Mirzaei, Mahbod Nouri, Saeed Reza Kheradpisheh(参考訳) 近年の研究では、畳み込みニューラルネットワーク(CNN)が画像分類の可能な唯一のソリューションではないことが示されている。 さらに、cnnで使用される重量共有とバックプロパゲーションは、霊長類視覚系に存在するメカニズムとは一致しない。 より生物学的に妥当なソリューションを提案するため,スパイク刺激依存型可塑性(STDP)と報酬変調型学習規則(R-STDP)を用いて訓練した局所接続型スパイクニューラルネットワーク(SNN)を設計した。 スパイクニューロンと局所接続と強化学習(RL)を併用することにより,提案アーキテクチャの命名法としてBioLCNetを開発した。 ネットワークは、レートコードされた入力層と、ローカルに接続された隠れ層とデコード出力層から構成される。 出力層における復号化には、スパイク人口に基づく投票方式を採用する。 mnistデータセットを用いて画像分類精度を求め,ターゲット応答の変化に対する報奨システムのロバスト性を評価する。

Recent studies have shown that convolutional neural networks (CNNs) are not the only feasible solution for image classification. Furthermore, weight sharing and backpropagation used in CNNs do not correspond to the mechanisms present in the primate visual system. To propose a more biologically plausible solution, we designed a locally connected spiking neural network (SNN) trained using spike-timing-depende nt plasticity (STDP) and its reward-modulated variant (R-STDP) learning rules. The use of spiking neurons and local connections along with reinforcement learning (RL) led us to the nomenclature BioLCNet for our proposed architecture. Our network consists of a rate-coded input layer followed by a locally connected hidden layer and a decoding output layer. A spike population-based voting scheme is adopted for decoding in the output layer. We used the MNIST dataset to obtain image classification accuracy and to assess the robustness of our rewarding system to varying target responses.
翻訳日:2021-09-14 15:54:16 公開日:2021-09-12
# ノックオフフィルタによる微分プライベート変数の選択

Differentially Private Variable Selection via the Knockoff Filter ( http://arxiv.org/abs/2109.05402v1 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) 最近BarberとCandesによって開発されたノックオフフィルタは、制御された偽発見率(FDR)で変数選択を効果的に行う方法である。 ガウス機構とラプラス機構を組み込んだノックオフフィルタのプライベートバージョンを提案し,制御されたfdrを用いた変数選択が可能となることを示す。 シミュレーションは、我々の設定が合理的な統計力を持っていることを示している。

The knockoff filter, recently developed by Barber and Candes, is an effective procedure to perform variable selection with a controlled false discovery rate (FDR). We propose a private version of the knockoff filter by incorporating Gaussian and Laplace mechanisms, and show that variable selection with controlled FDR can be achieved. Simulations demonstrate that our setting has reasonable statistical power.
翻訳日:2021-09-14 15:52:56 公開日:2021-09-12
# 登場人物に物語を伝える』:登場人物中心の物語理解のためのデータセット

"Let Your Characters Tell Their Story": A Dataset for Character-Centric Narrative Understanding ( http://arxiv.org/abs/2109.05438v1 )

ライセンス: Link先を確認
Faeze Brahman, Meng Huang, Oyvind Tafjord, Chao Zhao, Mrinmaya Sachan and Snigdha Chaturvedi(参考訳) 文学作品を読む際、読者は様々な登場人物の役割、個性、関係性、意図、行動などについて推測することが多い。 人間は過去の経験から物語のキャラクター中心の視点を構築することができるが、物語のキャラクターを理解することは機械にとって難しい課題である。 文字中心の物語理解のこの分野での研究を促進するために,文学作品の新しいデータセットLiSCUと,それらに現れる文字の記述とを組み合わせた要約を提示する。 また,LiSCUにおける文字識別と文字記述生成という2つの新しいタスクを導入する。 これらの課題に適応した事前学習言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。

When reading a literary piece, readers often make inferences about various characters' roles, personalities, relationships, intents, actions, etc. While humans can readily draw upon their past experiences to build such a character-centric view of the narrative, understanding characters in narratives can be a challenging task for machines. To encourage research in this field of character-centric narrative understanding, we present LiSCU -- a new dataset of literary pieces and their summaries paired with descriptions of characters that appear in them. We also introduce two new tasks on LiSCU: Character Identification and Character Description Generation. Our experiments with several pre-trained language models adapted for these tasks demonstrate that there is a need for better models of narrative comprehension.
翻訳日:2021-09-14 15:48:31 公開日:2021-09-12
# Few-Shot関係抽出におけるタスクの難しさの探索

Exploring Task Difficulty for Few-Shot Relation Extraction ( http://arxiv.org/abs/2109.05473v1 )

ライセンス: Link先を確認
Jiale Han, Bo Cheng and Wei Lu(参考訳) Few-shot Relation extract (FSRE) は、わずかに注釈付きインスタンスで学習することで、新しい関係を認識することに焦点を当てている。 このようなタスクにはメタラーニングが広く採用されており、ランダムに生成された少数のタスクを訓練して汎用的なデータ表現を学ぶ。 素晴らしい結果が得られたにも拘わらず、既存のモデルはFSREタスクを扱う際にも、その関係はきめ細やかで、互いに類似している。 既存のモデルは、学習プロセスにおいて難しいタスクと簡単なタスクを区別しないからです。 本稿では,関係ラベル情報を利用してより良い表現を学習するコントラスト学習に基づく新しいアプローチを提案する。 さらに、モデルを適応的にハードタスクに集中する方法を学ぶための手法を設計する。 2つの標準データセットの実験により,本手法の有効性が示された。

Few-shot relation extraction (FSRE) focuses on recognizing novel relations by learning with merely a handful of annotated instances. Meta-learning has been widely adopted for such a task, which trains on randomly generated few-shot tasks to learn generic data representations. Despite impressive results achieved, existing models still perform suboptimally when handling hard FSRE tasks, where the relations are fine-grained and similar to each other. We argue this is largely because existing models do not distinguish hard tasks from easy ones in the learning process. In this paper, we introduce a novel approach based on contrastive learning that learns better representations by exploiting relation label information. We further design a method that allows the model to adaptively learn how to focus on hard tasks. Experiments on two standard datasets demonstrate the effectiveness of our method.
翻訳日:2021-09-14 15:48:20 公開日:2021-09-12
# 双曲幾何学による事象時間関係の抽出

Extracting Event Temporal Relations via Hyperbolic Geometry ( http://arxiv.org/abs/2109.05527v1 )

ライセンス: Link先を確認
Xingwei Tan, Gabriele Pergola, Yulan He(参考訳) イベントの検出と時間的進化は、自然言語理解において重要な課題である。 事象の時間的関係抽出に対する最近のニューラルネットワークは、イベントをユークリッド空間の埋め込みにマッピングし、イベントペア間の時間的関係を検出するために分類器を訓練する。 しかし、ユークリッド空間への埋め込みは、事象の時間関係のようなよりリッチな非対称関係を捉えることができない。 そこで我々は,階層構造のモデル化を本質的に指向した双曲空間へのイベントの埋め込みを提案する。 双曲空間における事象とその時間関係をエンコードする2つの手法を提案する。 一つのアプローチは双曲埋め込みを利用して単純な幾何学演算を通して直接事象関係を推測する。 第2に、時間的関係抽出作業に適した双曲型ニューラルネットワークユニットからなるエンドツーエンドアーキテクチャを考案する。 広く使われているデータセットに対する十分な実験的評価は、異なる幾何学的空間におけるタスクを再考する利点を示しており、その結果、いくつかの標準メトリクスにおける最先端のパフォーマンスが得られた。 最後に、アブレーション研究といくつかの定性解析は、双曲空間に暗黙的にエンコードされたリッチなイベント意味論を強調した。

Detecting events and their evolution through time is a crucial task in natural language understanding. Recent neural approaches to event temporal relation extraction typically map events to embeddings in the Euclidean space and train a classifier to detect temporal relations between event pairs. However, embeddings in the Euclidean space cannot capture richer asymmetric relations such as event temporal relations. We thus propose to embed events into hyperbolic spaces, which are intrinsically oriented at modeling hierarchical structures. We introduce two approaches to encode events and their temporal relations in hyperbolic spaces. One approach leverages hyperbolic embeddings to directly infer event relations through simple geometrical operations. In the second one, we devise an end-to-end architecture composed of hyperbolic neural units tailored for the temporal relation extraction task. Thorough experimental assessments on widely used datasets have shown the benefits of revisiting the tasks on a different geometrical space, resulting in state-of-the-art performance on several standard metrics. Finally, the ablation study and several qualitative analyses highlighted the rich event semantics implicitly encoded into hyperbolic spaces.
翻訳日:2021-09-14 15:48:07 公開日:2021-09-12
# 良質な例外挿

Good-Enough Example Extrapolation ( http://arxiv.org/abs/2109.05602v1 )

ライセンス: Link先を確認
Jason Wei(参考訳) 本稿では、あるクラスから別のクラスへのテキスト例の隠れ空間分布の補間が、データ拡張の有効な帰納バイアスであるかどうかを問う。 本稿では,この問題を運用するために,GE3(Good-enough example extrapolation)と呼ばれる単純なデータ拡張プロトコルを提案する。 GE3は軽量でハイパーパラメータを持たない。 さまざまなデータ不均衡シナリオのための3つのテキスト分類データセットに適用されるGE3は、アップサンプリングやその他の隠れスペースデータ拡張メソッドよりもパフォーマンスが向上する。

This paper asks whether extrapolating the hidden space distribution of text examples from one class onto another is a valid inductive bias for data augmentation. To operationalize this question, I propose a simple data augmentation protocol called "good-enough example extrapolation" (GE3). GE3 is lightweight and has no hyperparameters. Applied to three text classification datasets for various data imbalance scenarios, GE3 improves performance more than upsampling and other hidden-space data augmentation methods.
翻訳日:2021-09-14 15:47:51 公開日:2021-09-12
# 単語レベルの品質評価のためのレベンシュテイントレーニング

Levenshtein Training for Word-level Quality Estimation ( http://arxiv.org/abs/2109.05611v1 )

ライセンス: Link先を確認
Shuoyang Ding, Marcin Junczys-Dowmunt, Matt Post, Philipp Koehn(参考訳) 本稿では,単語レベルの品質推定を行うためにLevenshtein Transformerを使用する新しい手法を提案する。 Levenshtein Transformerは、反復的な方法でデコードを実行するように訓練され、Levenshtein Transformerは明示的な監督なしに後処理を学ぶことができる。 翻訳タスクと単語レベルのQEタスクのミスマッチをさらに最小化するために,拡張データと人間の後編集データの両方に対する2段階のトランスファー学習手順を提案する。 また,サブワードレベルの微調整や推論と互換性のある参照ラベルを構築するためのヒューリスティックスを提案する。 WMT 2020 QE共有タスクデータセットの結果,提案手法はデータ制約条件下でのデータ効率と非制約条件下での競合性能に優れていた。

We propose a novel scheme to use the Levenshtein Transformer to perform the task of word-level quality estimation. A Levenshtein Transformer is a natural fit for this task: trained to perform decoding in an iterative manner, a Levenshtein Transformer can learn to post-edit without explicit supervision. To further minimize the mismatch between the translation task and the word-level QE task, we propose a two-stage transfer learning procedure on both augmented data and human post-editing data. We also propose heuristics to construct reference labels that are compatible with subword-level finetuning and inference. Results on WMT 2020 QE shared task dataset show that our proposed method has superior data efficiency under the data-constrained setting and competitive performance under the unconstrained setting.
翻訳日:2021-09-14 15:47:41 公開日:2021-09-12
# ディープフェイクの課題と解決策

Challenges and Solutions in DeepFakes ( http://arxiv.org/abs/2109.05397v1 )

ライセンス: Link先を確認
Jatin Sharma and Sahil Sharma(参考訳) ディープラーニングは、ビッグデータ分析からコンピュータビジョンまで、さまざまな複雑な問題を解決することに成功している。 最近登場したディープラーニングベースのアプリケーションはDeep Fakeだ。 それは、人間が本物のものと区別できない偽の画像やビデオを作るのに役立ち、そして最近のオフ棚操作技術では、1つのビデオで2つのアイデンティティーを交換できる。 テクノロジーは物議を醸すテクノロジーであり、社会に影響を及ぼす多くの課題がある。 そこで、この新たな問題を解決するために、nvidiaが収集したflickrデータセットから7kのリアル顔を含む140kのリアル顔とフェイク顔のデータセットと、style ganが生成した100万のフェイク顔からサンプリングした7kのフェイク顔を紹介します。 モデルは実際の顔や偽の顔を識別できるように、データセットでモデルをトレーニングします。

Deep learning has been successfully appertained to solve various complex problems in the area of big data analytics to computer vision. A deep learning-powered application recently emerged is Deep Fake. It helps to create fake images and videos that human cannot distinguish them from the real ones and are recent off-shelf manipulation technique that allows swapping two identities in a single video. Technology is a controversial technology with many wide-reaching issues impacting society. So, to counter this emerging problem, we introduce a dataset of 140k real and fake faces which contain 70k real faces from the Flickr dataset collected by Nvidia, as well as 70k fake faces sampled from 1 million fake faces generated by style GAN. We will train our model in the dataset so that our model can identify real or fake faces.
翻訳日:2021-09-14 15:40:04 公開日:2021-09-12
# 画像認識のためのスパースMLP:自己認識は本当に必要か?

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? ( http://arxiv.org/abs/2109.05422v1 )

ライセンス: Link先を確認
Chuanxin Tang, Yucheng Zhao, Guangting Wang, Chong Luo, Wenxuan Xie and Wenjun Zeng(参考訳) トランスフォーマーはコンピュータビジョンの分野に登場した。 本研究では,Transformerのコア自己保持モジュールが,画像認識における優れた性能を実現する鍵となるかを検討する。 この目的のために、既存のMLPベースの視覚モデルに基づいて、注意のないネットワーク「sMLPNet」を構築した。 具体的には、トークンミキシングのステップで MLP モジュールを新しいスパース MLP (sMLP) モジュールに置き換える。 2D画像トークンの場合、sMLPは軸方向に沿って1D MLPを適用し、パラメータは行または列間で共有される。 接続と重みの疎結合により、sMLPモジュールはモデルパラメータと計算複雑性を大幅に削減し、MLPのようなモデルの性能を悩ませる一般的な過度な問題を回避する。 ImageNet-1Kデータセットでのみトレーニングされた場合、提案されたsMLPNetは、たった24Mパラメータで81.9%のトップ1精度を達成した。 最大66mのパラメータをスケールすると、smlpnetは83.4%のtop-1精度を実現している。 sMLPNetの成功は、自己保持機構がコンピュータビジョンにおいて必ずしも銀の弾丸ではないことを示唆している。 コードは公開される予定だ。

Transformers have sprung up in the field of computer vision. In this work, we explore whether the core self-attention module in Transformer is the key to achieving excellent performance in image recognition. To this end, we build an attention-free network called sMLPNet based on the existing MLP-based vision models. Specifically, we replace the MLP module in the token-mixing step with a novel sparse MLP (sMLP) module. For 2D image tokens, sMLP applies 1D MLP along the axial directions and the parameters are shared among rows or columns. By sparse connection and weight sharing, sMLP module significantly reduces the number of model parameters and computational complexity, avoiding the common over-fitting problem that plagues the performance of MLP-like models. When only trained on the ImageNet-1K dataset, the proposed sMLPNet achieves 81.9% top-1 accuracy with only 24M parameters, which is much better than most CNNs and vision Transformers under the same model size constraint. When scaling up to 66M parameters, sMLPNet achieves 83.4% top-1 accuracy, which is on par with the state-of-the-art Swin Transformer. The success of sMLPNet suggests that the self-attention mechanism is not necessarily a silver bullet in computer vision. Code will be made publicly available.
翻訳日:2021-09-14 15:39:49 公開日:2021-09-12
# 資源適応型スーパーネットトレーニングのための優先サブネットサンプリング

Prioritized Subnet Sampling for Resource-Adaptive Supernet Training ( http://arxiv.org/abs/2109.05432v1 )

ライセンス: Link先を確認
Bohong Chen, Mingbao Lin, Liujuan Cao, Jianzhuang Liu, Qixiang Ye, Baochang Zhang, Wei Zeng, Yonghong Tian, Rongrong Ji(参考訳) リソース適応スーパーネットは、動的に利用可能なリソースに適合するようにサブネットを調整する。 本稿では,資源適応型スーパーネットであるPSS-Netを学習するための優先順位付きサブネットサンプリングを提案する。 我々は複数のサブネットプールを維持しており、それぞれがリソース消費に類似した実質的なサブネットの情報を保存する。 リソース制約を考えると、このリソース制約に基づいて条件付けられたサブネットは予め定義されたサブネット構造空間からサンプリングされ、高品質なサブネットは対応するサブネットプールに挿入される。 その後、サンプリングは徐々にサブネットプールからサブネットをサンプリングする傾向にある。 さらに、より良いパフォーマンス指標を持つものは、サンプリングがサブネットプールからのものである場合、pss-netのトレーニングを優先するように割り当てられます。 トレーニングの終了時、pss-netは各プールの最高のサブネットを保持し、利用可能なリソースが異なる場合に、高品質のサブネットを高速に切り替える権利を付与します。 MobileNetV1/V2を用いたImageNetの実験では、我々のPSS-Netは最先端のリソース適応型スーパーネットより優れた性能を発揮する。 私たちのプロジェクトはhttps://github.com/c henbong/PSS-Netにあります。

A resource-adaptive supernet adjusts its subnets for inference to fit the dynamically available resources. In this paper, we propose Prioritized Subnet Sampling to train a resource-adaptive supernet, termed PSS-Net. We maintain multiple subnet pools, each of which stores the information of substantial subnets with similar resource consumption. Considering a resource constraint, subnets conditioned on this resource constraint are sampled from a pre-defined subnet structure space and high-quality ones will be inserted into the corresponding subnet pool. Then, the sampling will gradually be prone to sampling subnets from the subnet pools. Moreover, the one with a better performance metric is assigned with higher priority to train our PSS-Net, if sampling is from a subnet pool. At the end of training, our PSS-Net retains the best subnet in each pool to entitle a fast switch of high-quality subnets for inference when the available resources vary. Experiments on ImageNet using MobileNetV1/V2 show that our PSS-Net can well outperform state-of-the-art resource-adaptive supernets. Our project is at https://github.com/c henbong/PSS-Net.
翻訳日:2021-09-14 15:39:26 公開日:2021-09-12
# LiDARに基づく知覚のための円筒・非対称3次元畳み込みネットワーク

Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception ( http://arxiv.org/abs/2109.05441v1 )

ライセンス: Link先を確認
Xinge Zhu, Hui Zhou, Tai Wang, Fangzhou Hong, Wei Li, Yuexin Ma, Hongsheng Li, Ruigang Yang, Dahua Lin(参考訳) 最先端のLiDARベースの認識(ポイントクラウドセマンティックセグメンテーション、パン光学セグメンテーション、および3D検出を含む)のための最先端の方法は、しばしばポイントクラウドを2D空間に投影し、2D畳み込みによって処理する。 この協力は点雲の競合性を示しているが、必然的に3Dトポロジーと幾何学的関係を変更・放棄する。 3次元ボクセル化と3次元畳み込みネットワークを利用するのが自然な方法である。 しかし、屋外の点雲では、このような方法で得られる改善は極めて限られていることがわかった。 重要な理由は、屋外の点雲の性質、すなわち空間密度と密度の変化である。 そこで本研究では, 円筒状分割と非対称な3次元畳み込みネットワークを設計し, これらの特性を維持しながら3次元幾何学的パターンを探索する, 屋外LiDARセグメンテーションのための新しい枠組みを提案する。 提案モデルはバックボーンとして機能し,このモデルから得られた特徴は,ポイントクラウドセマンティックスやパンプトセグメンテーション,あるいは3D検出などの下流タスクに利用できる。 本稿では,これら3つのタスクについて,モデルの評価を行う。 セマンティックセグメンテーションでは,いくつかの大規模データセット,Shaie,SemanticKITTI ,nuScenes,A2D2で提案したモデルを評価する。 提案手法は,SemanticKITTI(シングルスキャンとマルチスキャンの両課題)のリーダボード上での最先端化を実現し,nuScenesとA2D2データセットの既存手法を著しく上回っている。 さらに,提案する3dフレームワークは,lidar panopticセグメンテーションとlidar 3d検出において高い性能と優れた一般化を示す。

State-of-the-art methods for driving-scene LiDAR-based perception (including point cloud semantic segmentation, panoptic segmentation and 3D detection, \etc) often project the point clouds to 2D space and then process them via 2D convolution. Although this cooperation shows the competitiveness in the point cloud, it inevitably alters and abandons the 3D topology and geometric relations. A natural remedy is to utilize the 3D voxelization and 3D convolution network. However, we found that in the outdoor point cloud, the improvement obtained in this way is quite limited. An important reason is the property of the outdoor point cloud, namely sparsity and varying density. Motivated by this investigation, we propose a new framework for the outdoor LiDAR segmentation, where cylindrical partition and asymmetrical 3D convolution networks are designed to explore the 3D geometric pattern while maintaining these inherent properties. The proposed model acts as a backbone and the learned features from this model can be used for downstream tasks such as point cloud semantic and panoptic segmentation or 3D detection. In this paper, we benchmark our model on these three tasks. For semantic segmentation, we evaluate the proposed model on several large-scale datasets, \ie, SemanticKITTI, nuScenes and A2D2. Our method achieves the state-of-the-art on the leaderboard of SemanticKITTI (both single-scan and multi-scan challenge), and significantly outperforms existing methods on nuScenes and A2D2 dataset. Furthermore, the proposed 3D framework also shows strong performance and good generalization on LiDAR panoptic segmentation and LiDAR 3D detection.
翻訳日:2021-09-14 15:39:08 公開日:2021-09-12
# 表情中に顔に何が起こるのか? データマイニング技術を用いた表情運動ベクトルの解析

What happens in Face during a facial expression? Using data mining techniques to analyze facial expression motion vectors ( http://arxiv.org/abs/2109.05457v1 )

ライセンス: Link先を確認
Mohamad Roshanzamir, Roohallah Alizadehsani, Mahdi Roshanzamir, Afshin Shoeibi, Juan M. Gorriz, Abbas Khosrave, Saeid Nahavandi(参考訳) 人間とコンピュータの相互作用で最もよく見られる問題は、表情の自動認識である。 人間の観察者は表情を認識することは容易であるが、機械では自動認識は難しいままである。 機械が表情を認識する方法の1つは、表情提示中の顔の変化を分析することである。 本稿では,顔の表情による変形や動きベクトルの抽出に光学的フローアルゴリズムを用いた。 そして、これらの抽出された動きベクトルを用いて解析する。 彼らの位置と方向は、異なるデータマイニング技術を用いて自動表情認識に利用された。 運動ベクトル特徴をデータとして使用することで,表情認識が可能となった。 C5.0, CRT, QUEST, CHAID, Deep Learning (DL), SVM, Discriminantといった最先端の分類アルゴリズムを用いて, 抽出した動きベクトルを分類した。 10倍のクロスバリデーションを用いて,その性能を計算した。 より正確に比較するために、テストは50回繰り返された。 一方、この研究では顔の変形も分析された。 例えば、人が恐怖を感じたとき、顔の各部分に何が起こったのか? Extended Cohen-Kanade (CK+) の表情データセットによる実験の結果、最良の方法は、それぞれ95.3%、92.8%、90.2%の精度でDL、SVM、C5.0であることがわかった。

One of the most common problems encountered in human-computer interaction is automatic facial expression recognition. Although it is easy for human observer to recognize facial expressions, automatic recognition remains difficult for machines. One of the methods that machines can recognize facial expression is analyzing the changes in face during facial expression presentation. In this paper, optical flow algorithm was used to extract deformation or motion vectors created in the face because of facial expressions. Then, these extracted motion vectors are used to be analyzed. Their positions and directions were exploited for automatic facial expression recognition using different data mining techniques. It means that by employing motion vector features used as our data, facial expressions were recognized. Some of the most state-of-the-art classification algorithms such as C5.0, CRT, QUEST, CHAID, Deep Learning (DL), SVM and Discriminant algorithms were used to classify the extracted motion vectors. Using 10-fold cross validation, their performances were calculated. To compare their performance more precisely, the test was repeated 50 times. Meanwhile, the deformation of face was also analyzed in this research. For example, what exactly happened in each part of face when a person showed fear? Experimental results on Extended Cohen-Kanade (CK+) facial expression dataset demonstrated that the best methods were DL, SVM and C5.0, with the accuracy of 95.3%, 92.8% and 90.2% respectively.
翻訳日:2021-09-14 15:38:35 公開日:2021-09-12
# DSSL:テキストベースの人物検索のための深層人物分離学習

DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval ( http://arxiv.org/abs/2109.05534v1 )

ライセンス: Link先を確認
Aichun Zhu, Zijie Wang, Yifeng Li, Xili Wan, Jing Jin, Tian Wang, Fangqiang Hu, Gang Hua(参考訳) テキストに基づく人物検索タスクの多くの手法は、視覚とテキストのモダリティからモダリティ不変な特徴を抽出する目的で、潜在共通空間マッピングの学習に費やされている。 しかし、高次元データの複雑さのため、制約のないマッピングパラダイムは、不整合情報を落としながら、対応する人物の識別的手がかりを適切に把握できない。 直感的には、視覚データに含まれる情報は、互いに排他的な人物情報(PI)と周囲情報(SI)に分けることができる。 そこで本論文では,人物情報を効果的に抽出しマッチングし,より優れた検索精度を実現するために,新しいDeep Surroundings-person separated learning(DSSL)モデルを提案する。 周囲対人分離融合機構は、相互排他制約下で正確かつ効果的な周囲対人分離を実現するために重要な役割を果たす。 マルチモーダルおよびマルチグラニュラー情報を高い精度で適切に活用するために、5つの異なるアライメントパラダイムを採用する。 CUHK-PEDESで提案したDSSLは、現在テキストベースの人物検索タスクで唯一アクセス可能なデータセットである。 DSSLはCUHK-PEDESで最先端のパフォーマンスを実現する。 実シナリオで提案したDSSLを適切に評価するために、Real Scenarios Text-based Person Reidentification (RSTPReid)データセットを構築し、テキストベースの人物検索の今後の研究に役立てる。

Many previous methods on text-based person retrieval tasks are devoted to learning a latent common space mapping, with the purpose of extracting modality-invariant features from both visual and textual modality. Nevertheless, due to the complexity of high-dimensional data, the unconstrained mapping paradigms are not able to properly catch discriminative clues about the corresponding person while drop the misaligned information. Intuitively, the information contained in visual data can be divided into person information (PI) and surroundings information (SI), which are mutually exclusive from each other. To this end, we propose a novel Deep Surroundings-person Separation Learning (DSSL) model in this paper to effectively extract and match person information, and hence achieve a superior retrieval accuracy. A surroundings-person separation and fusion mechanism plays the key role to realize an accurate and effective surroundings-person separation under a mutually exclusion constraint. In order to adequately utilize multi-modal and multi-granular information for a higher retrieval accuracy, five diverse alignment paradigms are adopted. Extensive experiments are carried out to evaluate the proposed DSSL on CUHK-PEDES, which is currently the only accessible dataset for text-base person retrieval task. DSSL achieves the state-of-the-art performance on CUHK-PEDES. To properly evaluate our proposed DSSL in the real scenarios, a Real Scenarios Text-based Person Reidentification (RSTPReid) dataset is constructed to benefit future research on text-based person retrieval, which will be publicly available.
翻訳日:2021-09-14 15:38:12 公開日:2021-09-12
# 3次元形状表現のための多分解能深絞り関数

Multiresolution Deep Implicit Functions for 3D Shape Representation ( http://arxiv.org/abs/2109.05591v1 )

ライセンス: Link先を確認
Zhang Chen and Yinda Zhang and Kyle Genova and Sean Fanello and Sofien Bouaziz and Christian Haene and Ruofei Du and Cem Keskin and Thomas Funkhouser and Danhang Tang(参考訳) 形状整形などのグローバルな操作を行なえるとともに,微細な幾何学的詳細を復元できる階層表現であるMDIF(Multi resolution Deep Implicit Function)を導入する。 我々のモデルは、遅延格子の階層構造を持つ複雑な3次元形状を表現し、様々な詳細レベルにデコードでき、精度も向上する。 形状完備化のために,潜時空間の部分データをシミュレーションし,デコーダ側へ遅延する潜在格子ドロップアウトを提案する。 マルチレス設計と合わせて,デコーダのみの潜時最適化による形状仕上げ品質が大幅に向上する。 我々の知る限り、MDIFは(1)異なる詳細レベルを表現でき、プログレッシブデコードを可能にする最初の暗黙関数モデルであり、(2)エンコーダ-デコーダ推論とデコーダのみの潜在最適化の両方をサポートし、複数のアプリケーションに対応し、(3)詳細なデコーダのみの形状補完を行う。 実験は、様々な3次元再構築タスクにおいて、先行技術に対する優れた性能を示す。

We introduce Multiresolution Deep Implicit Functions (MDIF), a hierarchical representation that can recover fine geometry detail, while being able to perform global operations such as shape completion. Our model represents a complex 3D shape with a hierarchy of latent grids, which can be decoded into different levels of detail and also achieve better accuracy. For shape completion, we propose latent grid dropout to simulate partial data in the latent space and therefore defer the completing functionality to the decoder side. This along with our multires design significantly improves the shape completion quality under decoder-only latent optimization. To the best of our knowledge, MDIF is the first deep implicit function model that can at the same time (1) represent different levels of detail and allow progressive decoding; (2) support both encoder-decoder inference and decoder-only latent optimization, and fulfill multiple applications; (3) perform detailed decoder-only shape completion. Experiments demonstrate its superior performance against prior art in various 3D reconstruction tasks.
翻訳日:2021-09-14 15:37:48 公開日:2021-09-12
# 三角型2ファジィ線形回帰を用いた高精度予測

Accurate Prediction Using Triangular Type-2 Fuzzy Linear Regression ( http://arxiv.org/abs/2109.05461v1 )

ライセンス: Link先を確認
Assef Zare, Afshin Shoeibi, Narges Shafaei, Parisa Moridian, Roohallah Alizadehsani, Majid Halaji, Abbas Khosravi(参考訳) 1型ファジィ回帰を用いてデータの不確実性を扱うために多くの研究がなされている。 2型ファジィ回帰作業は1型ファジィメンバシップを用いた不確定モデルのためのインターバルタイプ2を用いた。 本研究では,データの不確実性を扱うことでモデルの効率を改善するための三角型2次元ファジィ回帰(tt2fr)モデルを提案する。 三角二次会員関数は広く使われているインターバル型モデルの代わりに用いられる。 提案モデルでは, 一次ファジィ集合と二次ファジィ集合の曖昧さを最小化するとともに, 予測値の同一面に観測値の指定されたx面を含む。 三次元型2ファジィ集合(DT2FS)を2次元間隔型2ファジィモデル(2DIT2F)に還元することにより、T2Fモデルの複素計算を単純化する。 現在の調査では、より一般的なT2Fメンバシップ関数の形式を考慮し、T2Fの回帰モデルを提案する。 TAIEXとCOVID-19予測データセットを用いて,開発したモデルの性能を評価する。 開発したモデルは,他の最先端技術と比較して高い性能を示した。 開発した手法はより不確定なデータでテスト可能で,天気予報や株価予報の予測に利用できる可能性がある。

Many works have been done to handle the uncertainties in the data using type 1 fuzzy regression. Few type 2 fuzzy regression works used interval type 2 for indeterminate modeling using type 1 fuzzy membership. The current survey proposes a triangular type-2 fuzzy regression (TT2FR) model to ameliorate the efficiency of the model by handling the uncertainty in the data. The triangular secondary membership function is used instead of widely used interval type models. In the proposed model, vagueness in primary and secondary fuzzy sets is minimized and also, a specified x-plane of observed value is included in the same {\alpha}- plane of the predicted value. Complex calculations of the type-2 fuzzy (T2F) model are simplified by reducing three dimensional type-2 fuzzy set (3DT2FS) into two dimensional interval type-2 fuzzy (2DIT2F) models. The current survey presents a new regression model of T2F by considering the more general form of T2F membership functions and thus avoids high complexity. The performance of the developed model is evaluated using the TAIEX and COVID-19 forecasting datasets. Our developed model reached the highest performance as compared to the other state-of-art techniques. Our developed method is ready to be tested with more uncertain data and has the potential to use to predict the weather and stock prediction.
翻訳日:2021-09-14 15:30:25 公開日:2021-09-12
# 真実の状態は? OOD検出法はデータセット間で一貫性がない

No True State-of-the-Art? OOD Detection Methods are Inconsistent across Datasets ( http://arxiv.org/abs/2109.05554v1 )

ライセンス: Link先を確認
Fahim Tajwar, Ananya Kumar, Sang Michael Xie, Percy Liang(参考訳) 分散検出は信頼性の高いmlシステムの重要なコンポーネントである。 以前の文献では、msp (hendrycks & gimpel, 2017), odin (liang et al., 2018), mahalanobis (lee et al., 2018) など、さまざまな方法を提案しており、選択された分散(id)と分散(ood)データセットのセットで以前の方法よりも優れていることを示している。 本研究では,これらの手法が16対の標準セット(ID, OOD)上でのOOD検出において,他の方法よりも本質的に優れていることを示す。 一方の手法が他の手法よりも優れているかどうかが問題となるIDとOODデータセットの構造に依存している場合、これらの矛盾を単純な玩具データセットで説明できる。 最後に、ある(ID, OOD)ペアにおいて他の(ID, OOD)ペアよりも優れる手法が、低データ方式では実現できないことを示す。 低データ環境では,siameseネットワークに基づく距離ベース手法であるペアワイズood検出(pod)を提案し,コストのかかる共分散推定ステップを副ステップとしてマハラノビスよりも改善する。 以上の結果から,ood検出問題は広すぎる可能性があり,さらに具体的な構造を考慮すべきである。

Out-of-distribution detection is an important component of reliable ML systems. Prior literature has proposed various methods (e.g., MSP (Hendrycks & Gimpel, 2017), ODIN (Liang et al., 2018), Mahalanobis (Lee et al., 2018)), claiming they are state-of-the-art by showing they outperform previous methods on a selected set of in-distribution (ID) and out-of-distribution (OOD) datasets. In this work, we show that none of these methods are inherently better at OOD detection than others on a standardized set of 16 (ID, OOD) pairs. We give possible explanations for these inconsistencies with simple toy datasets where whether one method outperforms another depends on the structure of the ID and OOD datasets in question. Finally, we show that a method outperforming another on a certain (ID, OOD) pair may not do so in a low-data regime. In the low-data regime, we propose a distance-based method, Pairwise OOD detection (POD), which is based on Siamese networks and improves over Mahalanobis by sidestepping the expensive covariance estimation step. Our results suggest that the OOD detection problem may be too broad, and we should consider more specific structures for leverage.
翻訳日:2021-09-14 15:30:02 公開日:2021-09-12
# 分類課題におけるサブクラス知識蒸留の効率について

On the Efficiency of Subclass Knowledge Distillation in Classification Tasks ( http://arxiv.org/abs/2109.05587v1 )

ライセンス: Link先を確認
Ahmad Sajedi and Konstantinos N. Plataniotis(参考訳) 本研究は,既存のサブクラスに関する情報が利用可能で考慮されているタスクを分類するための新しい知識蒸留フレームワークを提案する。 クラス数が少ないクラスやバイナリ検出(2クラス)の分類タスクでは、教師から学生ネットワークに転送される情報の量を制限するため、知識蒸留の有用性が制限される。 分類タスクで利用可能なクラス内で可能なサブクラスに関する情報を活用することで、パフォーマンスを改善することができる。 そこで,我々は,サブクラスの予測知識を大規模教員モデルから小学生モデルへ移行するプロセスである,いわゆるサブクラス知識蒸留(skd)フレームワークを提案する。 SKDを通じて、教師のクラスロジットにはないが、サブクラス(例えばクラス内の類似点)に存在する付加的な有意義な情報が生徒に伝達され、そのパフォーマンスが向上する。 数学的には、教師がSKDフレームワークを通じて、生徒に提供できる余分な情報ビット数を計測する。 本発明の枠組みは臨床応用、すなわち大腸ポリープ二分分類において評価される。 本アプリケーションでは, 臨床医が提供したアノテーションを用いて, 学習のカリキュラムスタイルにおけるアノテーションラベルの変動性に基づいたサブクラスを定義できる。 提案フレームワークで学習した軽量で低複雑性の学生は, 85.05%のf1スコアを達成し, 従来の知識蒸留を伴わずに訓練した生徒よりも2.14%, 1.49%向上した。 これらの結果から,学級別知識(学習サンプル1個あたり0.4656ラベルビット)は教師の一般化に関するより多くの情報を提供することができ,それゆえskdは学生の成績向上により多くの情報を活用することができることがわかった。

This work introduces a novel knowledge distillation framework for classification tasks where information on existing subclasses is available and taken into consideration. In classification tasks with a small number of classes or binary detection (two classes) the amount of information transferred from the teacher to the student network is restricted, thus limiting the utility of knowledge distillation. Performance can be improved by leveraging information about possible subclasses within the available classes in the classification task. To that end, we propose the so-called Subclass Knowledge Distillation (SKD) framework, which is the process of transferring the subclasses' prediction knowledge from a large teacher model into a smaller student one. Through SKD, additional meaningful information which is not in the teacher's class logits but exists in subclasses (e.g., similarities inside classes) will be conveyed to the student and boost its performance. Mathematically, we measure how many extra information bits the teacher can provide for the student via SKD framework. The framework developed is evaluated in clinical application, namely colorectal polyp binary classification. In this application, clinician-provided annotations are used to define subclasses based on the annotation label's variability in a curriculum style of learning. A lightweight, low complexity student trained with the proposed framework achieves an F1-score of 85.05%, an improvement of 2.14% and 1.49% gain over the student that trains without and with conventional knowledge distillation, respectively. These results show that the extra subclasses' knowledge (i.e., 0.4656 label bits per training sample in our experiment) can provide more information about the teacher generalization, and therefore SKD can benefit from using more information to increase the student performance.
翻訳日:2021-09-14 15:29:37 公開日:2021-09-12
# 低リソース言語におけるASR構築のための教師なしドメイン適応方式

Unsupervised Domain Adaptation Schemes for Building ASR in Low-resource Languages ( http://arxiv.org/abs/2109.05494v1 )

ライセンス: Link先を確認
Anoop C S, Prathosh A P, A G Ramakrishnan(参考訳) スクラッチから自動音声認識(ASR)システムを構築するには、多くの言語で収集が困難である大量の注釈付き音声データが必要である。 しかし、ASRを構築するのに十分なアノテートデータを持つ高リソース言語と、低リソース言語が共通の音響空間を共有する場合もある。 このような場合、教師なしドメイン適応(UDA)スキームを通じて高リソース言語から学習したドメイン非依存音響モデルにより、低リソース言語におけるASRの性能が向上することを示す。 私たちは、ソースドメインのhindiとターゲットドメインのsanskritの特定の例を使っています。 2つのアーキテクチャを探求します 一 勾配反転層(GRL)を用いたドメイン逆行訓練及び 二 ドメイン分離ネットワーク(DSN) grlとdsnアーキテクチャはそれぞれ6.71%と7.32%の絶対的な改善を行い、ターゲットドメインの5.5時間のデータでトレーニングされた場合、ベースラインのディープニューラルネットワークモデルよりもエラー率が高い。 また、ソースドメイン内で適切な言語(telugu)を選択することでさらなる改善が期待できることを示す。 その結果,UDA スキームは低リソース言語用 ASR システムの開発に有効であることが示唆され,大量の注釈付き音声データ収集の難しさが軽減された。

Building an automatic speech recognition (ASR) system from scratch requires a large amount of annotated speech data, which is difficult to collect in many languages. However, there are cases where the low-resource language shares a common acoustic space with a high-resource language having enough annotated data to build an ASR. In such cases, we show that the domain-independent acoustic models learned from the high-resource language through unsupervised domain adaptation (UDA) schemes can enhance the performance of the ASR in the low-resource language. We use the specific example of Hindi in the source domain and Sanskrit in the target domain. We explore two architectures: i) domain adversarial training using gradient reversal layer (GRL) and ii) domain separation networks (DSN). The GRL and DSN architectures give absolute improvements of 6.71% and 7.32%, respectively, in word error rate over the baseline deep neural network model when trained on just 5.5 hours of data in the target domain. We also show that choosing a proper language (Telugu) in the source domain can bring further improvement. The results suggest that UDA schemes can be helpful in the development of ASR systems for low-resource languages, mitigating the hassle of collecting large amounts of annotated speech data.
翻訳日:2021-09-14 15:26:45 公開日:2021-09-12
# can3d: コンパクトコンテキストアグリゲーションによる高速3次元医用画像セグメンテーション

CAN3D: Fast 3D Medical Image Segmentation via Compact Context Aggregation ( http://arxiv.org/abs/2109.05443v1 )

ライセンス: Link先を確認
Wei Dai, Boyeong Woo, Siyu Liu, Matthew Marques, Craig B. Engstrom, Peter B. Greer, Stuart Crozier, Jason A. Dowling and Shekhar S. Chandras(参考訳) 磁気共鳴(MR)イメージングのような3次元医用画像からの物体の直接的自動分割は、しばしば調査中の大量の複雑なジオメトリを含む多数の個々の物体を正確に識別するので、困難である。 これらの課題に対処するため、ほとんどのディープラーニングアプローチは、モデル内の複雑性やトレーニング可能なパラメータの数を大幅に増やすことで、学習能力を高める。 したがって、一般的にこれらのモデルは、臨床mrシステムを操作する標準ワークステーション上で長い推論時間を必要とし、その大きなメモリ要求のために高性能コンピューティングハードウェアに制限される。 さらに, コンピュータメモリの限られたモデルを用いて3Dデータセットを適合させるため, 診断目的で臨床的に重要な入力画像からの微細な幾何学的情報を犠牲にするパッチワイドトレーニングなどのトレードオフ技術がよく用いられる。 これらの課題に対処するために、最先端性能に必要なモデルパラメータ数を効率的に削減するために、メモリフットプリントが浅いコンパクト畳み込みニューラルネットワークを提案する。 ほとんどの臨床環境は、計算能力と記憶力に制限のあるローエンドハードウェアしか持たない。 提案するネットワークは,大規模な3次元入力ボリュームをパッチなしで直接処理することでデータの完全性を維持し,トレーニングと推論の両方に要する計算時間を著しく短縮することができる。 また, 3次元mr画像における不均衡クラスの精度を向上させるために, 形状制約を付加した新しい損失関数を提案する。

Direct automatic segmentation of objects from 3D medical imaging, such as magnetic resonance (MR) imaging, is challenging as it often involves accurately identifying a number of individual objects with complex geometries within a large volume under investigation. To address these challenges, most deep learning approaches typically enhance their learning capability by substantially increasing the complexity or the number of trainable parameters within their models. Consequently, these models generally require long inference time on standard workstations operating clinical MR systems and are restricted to high-performance computing hardware due to their large memory requirement. Further, to fit 3D dataset through these large models using limited computer memory, trade-off techniques such as patch-wise training are often used which sacrifice the fine-scale geometric information from input images which could be clinically significant for diagnostic purposes. To address these challenges, we present a compact convolutional neural network with a shallow memory footprint to efficiently reduce the number of model parameters required for state-of-art performance. This is critical for practical employment as most clinical environments only have low-end hardware with limited computing power and memory. The proposed network can maintain data integrity by directly processing large full-size 3D input volumes with no patches required and significantly reduces the computational time required for both training and inference. We also propose a novel loss function with extra shape constraint to improve the accuracy for imbalanced classes in 3D MR images.
翻訳日:2021-09-14 15:24:37 公開日:2021-09-12
# 非均質画像デハジングのための高効率再パラメータ残差注意ネットワーク

Efficient Re-parameterization Residual Attention Network For Nonhomogeneous Image Dehazing ( http://arxiv.org/abs/2109.05479v1 )

ライセンス: Link先を確認
Tian Ye, ErKang Chen, XinRui Huang, Peng Chen(参考訳) 本稿では,非均一なハズ画像を直接復元する,終端から終端までの効率的な再パラメータ化Residual Attention Network(ERRA-Net)を提案する。 本論文の貢献は主に以下の3つの側面からなる。 1)新しいマルチブランチ注意ブロック(MA)。 空間的注意機構は高周波特徴をよりよく再構成し、チャネル注意機構は異なるチャネルの特徴を異なる方法で扱う。 マルチブランチ構造はモデルの表現能力を劇的に改善し、再パラメータ化後に単一パス構造に変更して推論プロセスを高速化する。 Local Residual Connectionは、非均一領域の低周波情報を処理せずにブロックを通過させ、ブロックが詳細な特徴に集中できるようにする。 2)軽量ネットワーク構造。 我々は, ステップ毎に高周波の特徴を抽出するために, カスケードMAブロックを用い, モデルの浅層および深部の特徴を結合させて, クリーン画像の残像を得る。 3) 2つの新しい損失関数を提案し,色覚失調とラプラスピラミッド失調を再現した。 ERRA-Netは1200x1600のHD画質の画像を平均166.11 fpsで処理する。 大規模な評価の結果,ERSANet は実世界のハズイ画像に対する SOTA アプローチに対して好意的に作用することが示された。

This paper proposes an end-to-end Efficient Re-parameterizationR esidual Attention Network(ERRA-Net) to directly restore the nonhomogeneous hazy image. The contribution of this paper mainly has the following three aspects: 1) A novel Multi-branch Attention (MA) block. The spatial attention mechanism better reconstructs high-frequency features, and the channel attention mechanism treats the features of different channels differently. Multi-branch structure dramatically improves the representation ability of the model and can be changed into a single path structure after re-parameterization to speed up the process of inference. Local Residual Connection allows the low-frequency information in the nonhomogeneous area to pass through the block without processing so that the block can focus on detailed features. 2) A lightweight network structure. We use cascaded MA blocks to extract high-frequency features step by step, and the Multi-layer attention fusion tail combines the shallow and deep features of the model to get the residual of the clean image finally. 3)We propose two novel loss functions to help reconstruct the hazy image ColorAttenuation loss and Laplace Pyramid loss. ERRA-Net has an impressive speed, processing 1200x1600 HD quality images with an average runtime of 166.11 fps. Extensive evaluations demonstrate that ERSANet performs favorably against the SOTA approaches on the real-world hazy images.
翻訳日:2021-09-14 15:24:10 公開日:2021-09-12
# 複雑な制約付き全変動画像除算アルゴリズムと位相検索への応用

A Complex Constrained Total Variation Image Denoising Algorithm with Application to Phase Retrieval ( http://arxiv.org/abs/2109.05496v1 )

ライセンス: Link先を確認
Yunhui Gao, Liangcai Cao(参考訳) 本稿では,複素数値画像に対する制約付き全変動(TV)復調問題について考察する。 我々は,実数値画像に対するテレビセミノルムの定義を,複素数値画像を扱うように拡張する。 特に, 等方性と異方性の両方において, 2種類の複合テレビを導入する。 制約付き denoising 問題を解くために、双対アプローチを採用し、加速勾配予測アルゴリズムを導出する。 さらに,テレビレギュレータを用いた複雑な制約付き最適化問題を解くために,提案アルゴリズムを近位勾配方式の鍵構築ブロックとして一般化する。 一例として,提案手法を位相探索に適用する。 制約付きテレビモデルにおいて, 複素tv正規化器と従来の投影方式を組み合わせた。 シミュレーション実験と光学実験の両方からの最初の結果は、複素値画像内のスパーシティ優先抽出における制約付きテレビモデルの妥当性を示し、また収束を早めるために物理的に扱いやすい制約も活用している。

This paper considers the constrained total variation (TV) denoising problem for complex-valued images. We extend the definition of TV seminorms for real-valued images to dealing with complex-valued ones. In particular, we introduce two types of complex TV in both isotropic and anisotropic forms. To solve the constrained denoising problem, we adopt a dual approach and derive an accelerated gradient projection algorithm. We further generalize the proposed denoising algorithm as a key building block of the proximal gradient scheme to solve a vast class of complex constrained optimization problems with TV regularizers. As an example, we apply the proposed algorithmic framework to phase retrieval. We combine the complex TV regularizer with the conventional projection-based method within the constraint complex TV model. Initial results from both simulated and optical experiments demonstrate the validity of the constrained TV model in extracting sparsity priors within complex-valued images, while also utilizing physically tractable constraints that help speed up convergence.
翻訳日:2021-09-14 15:23:47 公開日:2021-09-12
# 惑星ミッションにおける飛行ロボットのロバストな単眼視計測に向けて

Towards Robust Monocular Visual Odometry for Flying Robots on Planetary Missions ( http://arxiv.org/abs/2109.05509v1 )

ライセンス: Link先を確認
Martin Wudenka and Marcus G. M\"uller and Nikolaus Demmel and Armin Wedler and Rudolph Triebel and Daniel Cremers and Wolfgang St\"urzl(参考訳) 将来的には、地球外探査はローバーだけでなく飛行ロボットも行うようになるでしょう。 火星に着陸したばかりのドローン「Ingenuity」は、地形の移動に支障を来さない新時代の探検の始まりを告げる。 それにはロバストな自己ローカライゼーションが不可欠です。 軽量で安価で情報に富んだカメラは、すでに車両の自走運動を推定するために使われている。 しかし、人工の環境で働くことが証明された方法は、単に他の惑星に配備することができない。 火星の荒地に存在する非常に反復的なテクスチャは、マッチングに基づくアプローチを記述するための大きな課題となる。 本稿では,画像間の特徴対応と改良されたキーフレーム選択基準を得るために,効率的な光フロー追跡を用いたロバスト単眼オドメトリーアルゴリズムを提案する。 他のほとんどのアプローチとは対照的に、我々のフレームワークは、特にモノクロオドメトリーシステムでは難しい回転のみの運動を処理できる。 さらに, 相対翻訳情報行列の主成分分析に基づいて, スケールドリフトの現在のリスクを推定する新しい手法を提案する。 このようにして、明らかな不確実性の尺度を得る。 火星のような環境で得られた挑戦的な実世界のデータセットの全てのシーケンスに対する我々のアプローチの有効性を評価し、最先端のアプローチよりも優れていることを示す。

In the future, extraterrestrial expeditions will not only be conducted by rovers but also by flying robots. The technical demonstration drone Ingenuity, that just landed on Mars, will mark the beginning of a new era of exploration unhindered by terrain traversability. Robust self-localization is crucial for that. Cameras that are lightweight, cheap and information-rich sensors are already used to estimate the ego-motion of vehicles. However, methods proven to work in man-made environments cannot simply be deployed on other planets. The highly repetitive textures present in the wastelands of Mars pose a huge challenge to descriptor matching based approaches. In this paper, we present an advanced robust monocular odometry algorithm that uses efficient optical flow tracking to obtain feature correspondences between images and a refined keyframe selection criterion. In contrast to most other approaches, our framework can also handle rotation-only motions that are particularly challenging for monocular odometry systems. Furthermore, we present a novel approach to estimate the current risk of scale drift based on a principal component analysis of the relative translation information matrix. This way we obtain an implicit measure of uncertainty. We evaluate the validity of our approach on all sequences of a challenging real-world dataset captured in a Mars-like environment and show that it outperforms state-of-the-art approaches.
翻訳日:2021-09-14 15:23:32 公開日:2021-09-12
# MSGDD-cGAN:マルチスケールグラディエントデュアル識別器条件付き生成逆ネットワーク

MSGDD-cGAN: Multi-Scale Gradients Dual Discriminator Conditional Generative Adversarial Network ( http://arxiv.org/abs/2109.05614v1 )

ライセンス: Link先を確認
Mohammadreza Naderi, Zahra Nabizadeh, Nader Karimi, Shahram Shirani, Shadrokh Samavi(参考訳) 条件付き生成逆ネットワーク(cGAN)は多くの画像処理タスクで使われている。 しかし、それらには、入力の出力条件付けと、対応する基底真理に基づく所望の分布による出力生成のバランスを保ち続ける深刻な問題がある。 従来の多くのGANと同様に、従来のcGANは、識別器からジェネレータへのバックプロパガンダである、消失する勾配に悩まされている。 さらに、従来のcGANは、前述の勾配問題によりアーキテクチャの変更に敏感である。 したがって、cgansのアーキテクチャのバランスはほぼ不可能である。 近年,ジェネレータと識別器を複数接続することで,GANの性能を安定させるMSG-GANが提案されている。 本研究では,マルチコネクション勾配流を用いて,まずcGANの性能を安定化するMSGDD-cGANを提案する。 第二に、提案するネットワークアーキテクチャは、入力に対する出力の相関と目標分布に対する出力の適合性のバランスをとる。 このバランスは、提案された双対識別手順を用いて生成される。 胎児超音波画像のセグメンテーションによる実験を行った。 本モデルでは,CGANのピクセルバージョンと比較してF1スコアが3.18%増加した。

Conditional Generative Adversarial Networks (cGANs) have been used in many image processing tasks. However, they still have serious problems maintaining the balance between conditioning the output on the input and creating the output with the desired distribution based on the corresponding ground truth. The traditional cGANs, similar to most conventional GANs, suffer from vanishing gradients, which backpropagate from the discriminator to the generator. Moreover, the traditional cGANs are sensitive to architectural changes due to previously mentioned gradient problems. Therefore, balancing the architecture of the cGANs is almost impossible. Recently MSG-GAN has been proposed to stabilize the performance of the GANs by applying multiple connections between the generator and discriminator. In this work, we propose a method called MSGDD-cGAN, which first stabilizes the performance of the cGANs using multi-connections gradients flow. Secondly, the proposed network architecture balances the correlation of the output to input and the fitness of the output on the target distribution. This balance is generated by using the proposed dual discrimination procedure. We tested our model by segmentation of fetal ultrasound images. Our model shows a 3.18% increase in the F1 score comparing to the pix2pix version of cGANs.
翻訳日:2021-09-14 15:23:15 公開日:2021-09-12
# 生成型adversarial network を用いた前頭側頭側認知症とアルツハイマー病の鑑別診断

Differential Diagnosis of Frontotemporal Dementia and Alzheimer's Disease using Generative Adversarial Network ( http://arxiv.org/abs/2109.05627v1 )

ライセンス: Link先を確認
Ma Da and Lu Donghuan and Popuri Karteek and Beg Mirza Faisal(参考訳) 前頭側頭型認知症とアルツハイマー病は2つの共通型認知症であり、臨床症状の類似性により、互いに容易に誤診される。 2つの認知症タイプの違いは、疾患特異的な介入と治療を決定する上で重要である。 近年の医学画像処理分野における深層学習に基づくアプローチの開発は,複数の認知症に対する神経画像に基づく分化などの鑑別診断への応用は行われていないが,多くのバイナリ分類タスクにおいて最高の性能を提供している。 本研究では, FTD, AD, および通常の制御対象を識別するために, 磁気共鳴画像スキャンから粗大から微細な構造スケールで抽出した体積特性を用いて, ジェネレーティブ・アドバイサル・ネットワーク技術を用いて新しい枠組みを提案する。 1,954画像における10倍クロスバリデーションの実験は高精度に達成された。 提案する枠組みにより,多元的構造的特徴と生成的逆ネットワークに基づく合成データ拡張の組み合わせにより,認知症サブタイプの分化などの課題を解決できることを実証した。

Frontotemporal dementia and Alzheimer's disease are two common forms of dementia and are easily misdiagnosed as each other due to their similar pattern of clinical symptoms. Differentiating between the two dementia types is crucial for determining disease-specific intervention and treatment. Recent development of Deep-learning-based approaches in the field of medical image computing are delivering some of the best performance for many binary classification tasks, although its application in differential diagnosis, such as neuroimage-based differentiation for multiple types of dementia, has not been explored. In this study, a novel framework was proposed by using the Generative Adversarial Network technique to distinguish FTD, AD and normal control subjects, using volumetric features extracted at coarse-to-fine structural scales from Magnetic Resonance Imaging scans. Experiments of 10-folds cross-validation on 1,954 images achieved high accuracy. With the proposed framework, we have demonstrated that the combination of multi-scale structural features and synthetic data augmentation based on generative adversarial network can improve the performance of challenging tasks such as differentiating Dementia sub-types.
翻訳日:2021-09-14 15:22:56 公開日:2021-09-12
# 音声ナレーションにおける音声挿入のためのゼロショット音声合成

Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration ( http://arxiv.org/abs/2109.05426v1 )

ライセンス: Link先を確認
Chuanxin Tang, Chong Luo, Zhiyuan Zhao, Dacheng Yin, Yucheng Zhao and Wenjun Zeng(参考訳) テキストベースの音声編集は、音声の断片とその転写テキストが与えられたとき、テキストを編集することで、与えられた音声にシームレスに挿入できる音声を生成する。 既存の方法は2段階のアプローチを採用する: 入力テキストを汎用テキスト音声(TTS)エンジンで合成し、音声変換(VC)を用いて音声を所望の音声に変換する。 このフレームワークの大きな問題は、vcが、満足に働くために適度な量の並列トレーニングデータを必要とする難しい問題であることです。 本稿では,対象話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。 特に,挿入されたテキストに対して正確なゼロショット期間予測を行うことができた。 予測期間は、テキスト埋め込みと音声埋め込みの両方を制御するために使用される。 そして、アライメントされたクロスモダリティ入力に基づいて、変換器ベースのデコーダを用いて、編集音声のメルスペクトログラムを直接生成する。 主観的聴力テストの結果,話者の学習データが不足しているにもかかわらず,本手法は良好な結果を得た。 これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。

Given a piece of speech and its transcript text, text-based speech editing aims to generate speech that can be seamlessly inserted into the given speech by editing the transcript. Existing methods adopt a two-stage approach: synthesize the input text using a generic text-to-speech (TTS) engine and then transform the voice to the desired voice using voice conversion (VC). A major problem of this framework is that VC is a challenging problem which usually needs a moderate amount of parallel training data to work satisfactorily. In this paper, we propose a one-stage context-aware framework to generate natural and coherent target speech without any training data of the target speaker. In particular, we manage to perform accurate zero-shot duration prediction for the inserted text. The predicted duration is used to regulate both text embedding and speech embedding. Then, based on the aligned cross-modality input, we directly generate the mel-spectrogram of the edited speech with a transformer-based decoder. Subjective listening tests show that despite the lack of training data for the speaker, our method has achieved satisfactory results. It outperforms a recent zero-shot TTS engine by a large margin.
翻訳日:2021-09-14 15:17:46 公開日:2021-09-12
# シングルトラック道路問題に対する社会的に意識された強化学習エージェント

A Socially Aware Reinforcement Learning Agent for The Single Track Road Problem ( http://arxiv.org/abs/2109.05486v1 )

ライセンス: Link先を確認
Ido Shapira and Amos Azaria(参考訳) 単線道路問題について述べる。 この問題において、2つのエージェントは、一度に1つのエージェントしか通過できない道路の反対位置で互いに対向する。 我々は1つのエージェントが人間であるシナリオに焦点を当て、もう1つは自律的なエージェントである。 単線道路問題をシミュレートした単純なグリッドドメインで被験者と実験を行う。 本研究では,データに制限がある場合,正確な人間モデルを構築することは極めて困難であり,そのデータに基づく強化学習エージェントは実際にはうまく機能しないことを示す。 しかしながら、人間のユーティリティと自身のユーティリティの線形結合を最大化しようとするエージェントは高いスコアを達成し、自身のユーティリティのみを最大化しようとするエージェントを含む、他のベースラインよりも大幅に優れていることを示す。

We present the single track road problem. In this problem two agents face each-other at opposite positions of a road that can only have one agent pass at a time. We focus on the scenario in which one agent is human, while the other is an autonomous agent. We run experiments with human subjects in a simple grid domain, which simulates the single track road problem. We show that when data is limited, building an accurate human model is very challenging, and that a reinforcement learning agent, which is based on this data, does not perform well in practice. However, we show that an agent that tries to maximize a linear combination of the human's utility and its own utility, achieves a high score, and significantly outperforms other baselines, including an agent that tries to maximize only its own utility.
翻訳日:2021-09-14 15:17:28 公開日:2021-09-12
# ニムバー保存と同型スプラグ・グランディゲーム符号化

Nimber-Preserving Reductions and Homomorphic Sprague-Grundy Game Encodings ( http://arxiv.org/abs/2109.05622v1 )

ライセンス: Link先を確認
Kyle Burke, Matthew Ferland, Shanghua Teng(参考訳) nimbers--a.k. grundy-values または nim-values-の概念は組合せゲーム理論の基本である。 nimbersは、不公平なゲーム間の戦略的な相互作用を、それらの和とウィンナビリティで完全に特徴づける。 本稿では,公平なゲーム間におけるニンバー保存削減の研究を開始する。 これらの還元は、コンビネータゲームにおける従来の計算特性のウィンナビリティ保存還元を促進する。 一般化地理学は、ニムバー保存還元の下で多項式的にショートなイペンシャルな規則セットの自然類 $\cal{I}^P$ に対して完備であることを証明する。 対照的に、$\cal{I}^P$ のすべての PSPACE 完全規則セットが $\cal{I}^P$ に対して Sprague-Grundy-compl ete であることも示している。 すべての不偏なゲームをnimberのエンコードとして考えることで、我々の技術的結果は次の印象的な準同型定理を確立している: $\cal{i}^p$ に対するnimber計算のpspace完全性にもかかわらず、任意の対のゲームに対して$g_1$, $g_2$ of $\cal{i}^p$ , 素ゲーム(つまり、和として書けないゲーム)$h$ of $\cal{i}^p$, を満たす: nimber($h$) = nimber($g_1$)$\oplus $ nimber($g_2$)。

The concept of nimbers--a.k.a. Grundy-values or nim-values--is fundamental to combinatorial game theory. Nimbers provide a complete characterization of strategic interactions among impartial games in their disjunctive sums as well as the winnability. In this paper, we initiate a study of nimber-preserving reductions among impartial games. These reductions enhance the winnability-preservi ng reductions in traditional computational characterizations of combinatorial games. We prove that Generalized Geography is complete for the natural class, $\cal{I}^P$ , of polynomially-short impartial rulesets under nimber-preserving reductions, a property we refer to as Sprague-Grundy-compl ete. In contrast, we also show that not every PSPACE-complete ruleset in $\cal{I}^P$ is Sprague-Grundy-compl ete for $\cal{I}^P$ . By considering every impartial game as an encoding of its nimber, our technical result establishes the following striking cryptography-inspire d homomorphic theorem: Despite the PSPACE-completeness of nimber computation for $\cal{I}^P$ , there exists a polynomial-time algorithm to construct, for any pair of games $G_1$, $G_2$ of $\cal{I}^P$ , a prime game (i.e. a game that cannot be written as a sum) $H$ of $\cal{I}^P$ , satisfying: nimber($H$) = nimber($G_1$) $\oplus$ nimber($G_2$).
翻訳日:2021-09-14 15:16:52 公開日:2021-09-12
# バッファリング故障確率の勾配と下位勾配

Gradients and Subgradients of Buffered Failure Probability ( http://arxiv.org/abs/2109.05391v1 )

ライセンス: Link先を確認
Johannes O. Royset and Ji-Eun Byun(参考訳) 勾配と下位勾配はバッファリング故障確率の最適化と感度解析の中心である。 本稿では,有限確率分布における部分微分積分に基づく部分次数の特徴付けと,それに加え,一般分布に対する勾配式を提案する。 いくつかの例は、特に最適条件の文脈における結果の適用を例示している。

Gradients and subgradients are central to optimization and sensitivity analysis of buffered failure probabilities. We furnish a characterization of subgradients based on subdifferential calculus in the case of finite probability distributions and, under additional assumptions, also a gradient expression for general distributions. Several examples illustrate the application of the results, especially in the context of optimality conditions.
翻訳日:2021-09-14 15:14:36 公開日:2021-09-12
# DynSTGAT:交通信号制御のための動的空間時間グラフ注意ネットワーク

DynSTGAT: Dynamic Spatial-Temporal Graph Attention Network for Traffic Signal Control ( http://arxiv.org/abs/2109.05491v1 )

ライセンス: Link先を確認
Libing Wu, Min Wang, Dan Wu, Jia Wu(参考訳) 適応型交通信号制御はスマートシティの構築において重要な役割を果たす。 この課題は、近隣の交差点や動的な交通シナリオとの連携など、多くの重要な要因により困難である。 まず、交通信号の協調を容易にするために、既存の研究はグラフニューラルネットワークを用いて、周囲の交差点の時間的および空間的影響を目標交差点に組み込む。 しかしながら、これらの方法の欠点の一つは、空間-時間相関が適切な制御スキームを得るために十分に活用されていないことである。 第二に、動的な交通環境において、交差点の歴史的状態は将来の信号切替を予測する上でも重要である。 従来,交通の流れが空間的にも時間的にも連続的に変化しており,歴史的状態を扱わないという事実を無視して,現在の交差点の状態を用いてこの問題を解決してきた。 本稿では,DynSTGATという新しいニューラルネットワークフレームワークを提案する。このフレームワークは動的履歴を新しい空間時間グラフアテンションネットワークに統合し,上記の2つの問題に対処する。 より具体的には、我々のDynSTGATモデルは、空間時間情報の結合関係を適切に活用することを目的とした、新しいマルチヘッドグラフアテンション機構を採用している。 そして,交差点の歴史的状態情報を効率的に活用するために,時間的畳み込みネットワーク(TCN)を用いたシーケンスモデルを設計し,その性能を向上させるために,その履歴情報を空間情報とマージする。 合成データと実世界のデータを用いた多層断面積実験により,本手法が最先端の手法に対して,旅行時間およびスループットにおいて優れた性能を達成できることが確認された。

Adaptive traffic signal control plays a significant role in the construction of smart cities. This task is challenging because of many essential factors, such as cooperation among neighboring intersections and dynamic traffic scenarios. First, to facilitate cooperation of traffic signals, existing work adopts graph neural networks to incorporate the temporal and spatial influences of the surrounding intersections into the target intersection, where spatial-temporal information is used separately. However, one drawback of these methods is that the spatial-temporal correlations are not adequately exploited to obtain a better control scheme. Second, in a dynamic traffic environment, the historical state of the intersection is also critical for predicting future signal switching. Previous work mainly solves this problem using the current intersection's state, neglecting the fact that traffic flow is continuously changing both spatially and temporally and does not handle the historical state. In this paper, we propose a novel neural network framework named DynSTGAT, which integrates dynamic historical state into a new spatial-temporal graph attention network to address the above two problems. More specifically, our DynSTGAT model employs a novel multi-head graph attention mechanism, which aims to adequately exploit the joint relations of spatial-temporal information. Then, to efficiently utilize the historical state information of the intersection, we design a sequence model with the temporal convolutional network (TCN) to capture the historical information and further merge it with the spatial information to improve its performance. Extensive experiments conducted in the multi-intersection scenario on synthetic data and real-world data confirm that our method can achieve superior performance in travel time and throughput against the state-of-the-art methods.
翻訳日:2021-09-14 15:14:31 公開日:2021-09-12
# グラフニューラルネットワークを用いたリンクスケジューリング

Link Scheduling using Graph Neural Networks ( http://arxiv.org/abs/2109.05536v1 )

ライセンス: Link先を確認
Zhongyuan Zhao, Gunjan Verma, Chirag Rao, Ananthram Swami, Santiago Segarra(参考訳) 伝送の効率的なスケジューリングは、無線ネットワークの重要な問題である。 主な課題は、最適リンクスケジューリングがnpハードであることが知られている最大重み付き独立集合(mwis)問題を解決することである。 実用的なリンクスケジューリングスキームでは、MWIS問題の解を近似するために、集中的および分散的なグリーディヒューリスティックがよく用いられる。 しかし、これらの欲望のスキームは、主に無線ネットワークの重要なトポロジー情報を無視している。 この制限を克服するために,グラフ畳み込みネットワーク(GCN)に基づく高速ヒューリスティックスを提案する。 我々の集中型MWISソルバは、トレーニング可能なGCNモジュールと1ステップのロールアウトによってガイドされたツリーサーチに基づいている。 分散MWISソルバにおいて、トレーニング可能なGCNモジュールは、分散グリーディソルバを呼び出す前に、ネットワーク重みと組み合わせたトポロジ対応ノード埋め込みを学習する。 中規模の無線ネットワーク上でのテスト結果から,GCNベースの集中型MWISソルバがほぼ最適解に迅速に到達できることが分かる。 さらに,GCNをベースとした分散MWISスケジューラは,分散グリージーソルバの最適値以下で,複雑さが最小限に抑えられることを示した。 提案手法は,グラフおよび重み分布の一般化性も良好である。

Efficient scheduling of transmissions is a key problem in wireless networks. The main challenge stems from the fact that optimal link scheduling involves solving a maximum weighted independent set (MWIS) problem, which is known to be NP-hard. For practical link scheduling schemes, centralized and distributed greedy heuristics are commonly used to approximate the solution to the MWIS problem. However, these greedy schemes mostly ignore important topological information of the wireless network. To overcome this limitation, we propose fast heuristics based on graph convolutional networks (GCNs) that can be implemented in centralized and distributed manners. Our centralized MWIS solver is based on tree search guided by a trainable GCN module and 1-step rollout. In our distributed MWIS solver, a trainable GCN module learns topology-aware node embeddings that are combined with the network weights before calling a distributed greedy solver. Test results on medium-sized wireless networks show that a GCN-based centralized MWIS solver can reach a near-optimal solution quickly. Moreover, we demonstrate that a shallow GCN-based distributed MWIS scheduler can reduce by nearly half the suboptimality gap of the distributed greedy solver with minimal increase in complexity. The proposed scheduling solutions also exhibit good generalizability across graph and weight distributions.
翻訳日:2021-09-14 15:14:02 公開日:2021-09-12
# フェデレーションアンサンブルモデルに基づく強化学習

Federated Ensemble Model-based Reinforcement Learning ( http://arxiv.org/abs/2109.05549v1 )

ライセンス: Link先を確認
Jin Wang, Jia Hu, Jed Mills, and Geyong Min(参考訳) Federated Learning(FL)は、データを収集することなく、地理的に分散した異種ユーザ間の協調トレーニングを可能にする、プライバシ保護機械学習パラダイムである。 FLを従来の教師付き学習パラダイムを超えて拡張することで、自律運転のような様々なプライバシーに敏感なアプリケーションに対して、逐次的な意思決定問題を扱うために、連合強化学習(RL)が提案された。 しかし、既存の連合RLアルゴリズムはモデルフリーRLをFLと直接結合し、一般に高いサンプル複雑性を持ち、理論的保証がない。 上記の課題に対処するため,モデルベースRLとアンサンブル知識蒸留をFLに組み込んだ新しい連合RLアルゴリズムを提案する。 具体的には、flと知識蒸留を利用してクライアントからダイナミクスモデルのアンサンブルを作成し、実際の環境と相互作用することなくアンサンブルモデルのみを用いてポリシーを訓練する。 さらに,提案アルゴリズムの単調改善が保証されていることを理論的に証明する。 実験結果から, 本アルゴリズムは, 連続制御ベンチマーク環境において, フェデレートされたモデルレスRLアルゴリズムに比べて, 試料効率が有意に高いことを示した。 また,非IIDクライアントデータと局所更新ステップがフェデレートRLの性能に及ぼす影響を検証し,理論的解析から得られた知見を検証した。

Federated learning (FL) is a privacy-preserving machine learning paradigm that enables collaborative training among geographically distributed and heterogeneous users without gathering their data. Extending FL beyond the conventional supervised learning paradigm, federated Reinforcement Learning (RL) was proposed to handle sequential decision-making problems for various privacy-sensitive applications such as autonomous driving. However, the existing federated RL algorithms directly combine model-free RL with FL, and thus generally have high sample complexity and lack theoretical guarantees. To address the above challenges, we propose a new federated RL algorithm that incorporates model-based RL and ensemble knowledge distillation into FL. Specifically, we utilise FL and knowledge distillation to create an ensemble of dynamics models from clients, and then train the policy by solely using the ensemble model without interacting with the real environment. Furthermore, we theoretically prove that the monotonic improvement of the proposed algorithm is guaranteed. Extensive experimental results demonstrate that our algorithm obtains significantly higher sample efficiency compared to federated model-free RL algorithms in the challenging continuous control benchmark environments. The results also show the impact of non-IID client data and local update steps on the performance of federated RL, validating the insights obtained from our theoretical analysis.
翻訳日:2021-09-14 15:13:44 公開日:2021-09-12
# 深層強化学習ポリシーの微調整のための直接ランダム探索法

Direct Random Search for Fine Tuning of Deep Reinforcement Learning Policies ( http://arxiv.org/abs/2109.05604v1 )

ライセンス: Link先を確認
Sean Gillen, Asutay Ozmen, Katie Byl(参考訳) 研究者は、Deep Reinforcement Learning(DRL)が複雑なロボットシステムでうまく機能するポリシーを見つけるための強力なツールであることを示した。 しかし、これらのポリシーはしばしば予測不可能であり、わずかに異なる初期条件で評価した場合、高度に変動する振る舞いを引き起こす。 訓練の考慮事項はDRLアルゴリズムの設計を制約し、ほとんどのアルゴリズムは訓練中に確率的ポリシーを使わなければならない。 しかしながら、デプロイメントで使用されるポリシーは、各ステップで最大可能性アクション(mla)を使用する決定論的なものです。 本研究では,決定論的ロールアウトを用いて直接最適化することにより,DRLポリシーを微調整する上で,直接ランダム検索が極めて有効であることを示す。 異なるアルゴリズムから得られた多種多様なポリシーを用いて、強化学習環境の大規模な集合について説明する。 その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。 さらに,この手法を用いて,Deep Neural Network (DNN) ポリシーの下で動作している閉ループシステムの到達可能な状態空間の次元を縮小する方法について,これまでの研究を拡張できることを示す。

Researchers have demonstrated that Deep Reinforcement Learning (DRL) is a powerful tool for finding policies that perform well on complex robotic systems. However, these policies are often unpredictable and can induce highly variable behavior when evaluated with only slightly different initial conditions. Training considerations constrain DRL algorithm designs in that most algorithms must use stochastic policies during training. The resulting policy used during deployment, however, can and frequently is a deterministic one that uses the Maximum Likelihood Action (MLA) at each step. In this work, we show that a direct random search is very effective at fine-tuning DRL policies by directly optimizing them using deterministic rollouts. We illustrate this across a large collection of reinforcement learning environments, using a wide variety of policies obtained from different algorithms. Our results show that this method yields more consistent and higher performing agents on the environments we tested. Furthermore, we demonstrate how this method can be used to extend our previous work on shrinking the dimensionality of the reachable state space of closed-loop systems run under Deep Neural Network (DNN) policies.
翻訳日:2021-09-14 15:13:22 公開日:2021-09-12
# グラフアテンションネットワークによる到着推定の一画素圧縮方向

Graph Attention Network Based Single-Pixel Compressive Direction of Arrival Estimation ( http://arxiv.org/abs/2109.05466v1 )

ライセンス: Link先を確認
K\"ur\c{s}at Tekb{\i}y{\i}k, Okan Yurduseven, G\"une\c{s} Karabulut Kurt(参考訳) 本稿では,グラフアテンションネットワーク(GAT)に基づくディープラーニングフレームワークを活用した,単画素圧縮方向到着方向推定手法を提案する。 物理層圧縮は符号化アパーチャ技術を用いて達成され、時空間的非コヒーレントモードのセットを用いて開口部に入射する遠方磁場源のスペクトルを探索する。 この情報は符号化され、符号化されたアパーチャのチャネルに圧縮される。 符号化開口型受信機は単一チャネルを示し、従来のマルチチャネルラスタスキャンに基づく解をDoA推定に置き換える。 GATネットワークにより、圧縮DoA推定フレームワークは、符号化開口を用いて取得した測定値から直接DoA情報を学習することができる。 このステップは、追加の再構築ステップの必要性をなくし、処理層を著しく単純化してdoa推定を得る。 提案したGAT統合単一画素レーダフレームワークは,比較的低信号対雑音比(SNR)でも高い忠実度DoA情報を取得可能であることを示す。

In this paper, we present a single-pixel compressive direction of arrival (DoA) estimation technique leveraging a graph attention network (GAT) based deep-learning framework. The physical layer compression is achieved using a coded-aperture technique, probing the spectrum of far-field sources incident on the aperture using a set of spatio-temporally incoherent modes. This information is then encoded and compressed into the channel of the coded-aperture. The coded-aperture based receiver exhibits a single-channel, replacing the conventional multichannel raster scan based solutions for DoA estimation. The GAT network enables the compressive DoA estimation framework to learn the DoA information directly from the measurements acquired using the coded-aperture. This step eliminates the need for an additional reconstruction step and significantly simplifies the processing layer to obtain the DoA estimate. We show that the presented GAT integrated single-pixel radar framework can retrieve high fidelity DoA information even under relatively low signal-to-noise ratio (SNR) levels.
翻訳日:2021-09-14 15:09:08 公開日:2021-09-12
# トランスを用いたDNAデータの単一読取再構成

Single-Read Reconstruction for DNA Data Storage Using Transformers ( http://arxiv.org/abs/2109.05478v1 )

ライセンス: Link先を確認
Yotam Nahum, Eyar Ben-Tolila, Leon Anavy(参考訳) 大規模データストレージの世界的な需要が指数関数的に増加する中、既存のストレージ技術は、密度とエネルギー消費の観点から、理論的および機能的な限界に近づいている。 いくつかの研究は、高情報密度(ペタバイト/グラム)のDNAベースのストレージシステムを導入した。 しかし、DNA合成とシークエンシング技術は誤った出力をもたらす。 これらの誤りを修正するアルゴリズム的アプローチは、各シーケンスの複数のコピーを読み取ることに依存する。 言語モデリングのためのディープラーニングアーキテクチャとしてTransformersが前例のない成功を収めたことは、さまざまな領域にわたるさまざまなタスクを解決するための再開発につながった。 そこで本研究では,エンコーダ・デコーダ・トランスフォーマアーキテクチャを用いて,DNAベースのデータストレージを実現する手法を提案する。 本稿では,誤り訂正処理を自己教師付きシーケンス・ツー・シーケンスタスクとして扱い,合成ノイズインジェクションを用いて復号化読み取りのみを用いてモデルを訓練する。 提案手法は,デコードされた各ファイルに固有の冗長性を利用して,その基盤となる構造を学習する。 提案手法を実証するために,テキスト,画像,コードスクリプトファイルをDNAにエンコードし,高忠実度エラーシミュレータを用いてエラーを生成し,ノイズのある読み出しから元のファイルを再構成する。 本モデルでは,DNA鎖の1つの読み取りから元のデータを再構成する際の誤り率を2~3コピーを用いた最新アルゴリズムと比較した。 これは、dnaベースのストレージにおける単一読み取り再構成にディープラーニングモデルを使用することによる、プロセス全体のコスト削減を可能にする最初の例である。 このアプローチは様々なドメインに適用可能であり、新しいドメインにも一般化できることを示す。

As the global need for large-scale data storage is rising exponentially, existing storage technologies are approaching their theoretical and functional limits in terms of density and energy consumption, making DNA based storage a potential solution for the future of data storage. Several studies introduced DNA based storage systems with high information density (petabytes/gram). However, DNA synthesis and sequencing technologies yield erroneous outputs. Algorithmic approaches for correcting these errors depend on reading multiple copies of each sequence and result in excessive reading costs. The unprecedented success of Transformers as a deep learning architecture for language modeling has led to its repurposing for solving a variety of tasks across various domains. In this work, we propose a novel approach for single-read reconstruction using an encoder-decoder Transformer architecture for DNA based data storage. We address the error correction process as a self-supervised sequence-to-sequence task and use synthetic noise injection to train the model using only the decoded reads. Our approach exploits the inherent redundancy of each decoded file to learn its underlying structure. To demonstrate our proposed approach, we encode text, image and code-script files to DNA, produce errors with high-fidelity error simulator, and reconstruct the original files from the noisy reads. Our model achieves lower error rates when reconstructing the original data from a single read of each DNA strand compared to state-of-the-art algorithms using 2-3 copies. This is the first demonstration of using deep learning models for single-read reconstruction in DNA based storage which allows for the reduction of the overall cost of the process. We show that this approach is applicable for various domains and can be generalized to new domains as well.
翻訳日:2021-09-14 15:08:52 公開日:2021-09-12
# Jordan-Lee-Preskill量子アルゴリズムの変分に向けて

Towards a variational Jordan-Lee-Preskill quantum algorithm ( http://arxiv.org/abs/2109.05547v1 )

ライセンス: Link先を確認
Junyu Liu, Jinzhao Sun, Xiao Yuan(参考訳) 量子情報技術の急速な発展は、短期量子デバイスにおける量子場理論をシミュレートする有望な機会を示している。 本研究では、量子場理論の量子シミュレーションのために明確に設計された(時間依存の)変動量子シミュレーションの理論を定式化する。 我々は,1+1次元の$\lambda \phi^4$量子場理論において,符号化,状態生成,時間進化を含む粒子散乱実験において重要な要素に対するハイブリッド量子古典アルゴリズムを開発した。 これらのアルゴリズムは、普遍量子デバイスを用いた場の量子論をシミュレートする基本的なアルゴリズムであるjordan-lee-preskillアルゴリズムの短期的類似物として理解することができる。 量子場理論における物理解釈を伴うユニタリ結合型クラスター ansatz のボソニックバージョン、部分空間の忠実性に関する議論、1+1次元の$\lambda \phi^4$理論における異なる基底の比較、量子場理論シミュレーションにおける「スペクトル群集」なども含まれる。

Rapid developments of quantum information technology show promising opportunities for simulating quantum field theory in near-term quantum devices. In this work, we formulate the theory of (time-dependent) variational quantum simulation, explicitly designed for quantum simulation of quantum field theory. We develop hybrid quantum-classical algorithms for crucial ingredients in particle scattering experiments, including encoding, state preparation, and time evolution, with several numerical simulations to demonstrate our algorithms in the 1+1 dimensional $\lambda \phi^4$ quantum field theory. These algorithms could be understood as near-term analogs of the Jordan-Lee-Preskill algorithm, the basic algorithm for simulating quantum field theory using universal quantum devices. Our contribution also includes a bosonic version of the Unitary Coupled Cluster ansatz with physical interpretation in quantum field theory, a discussion about the subspace fidelity, a comparison among different bases in the 1+1 dimensional $\lambda \phi^4$ theory, and the "spectral crowding" in the quantum field theory simulation.
翻訳日:2021-09-14 15:06:10 公開日:2021-09-12
# モバイルエッジネットワークにおけるコスト効果フェデレーション学習

Cost-Effective Federated Learning in Mobile Edge Networks ( http://arxiv.org/abs/2109.05411v1 )

ライセンス: Link先を確認
Bing Luo, Xiang Li, Shiqiang Wang, Jianwei Huang, Leandros Tassiulas(参考訳) フェデレーション学習(federated learning、fl)は、多数のモバイルデバイスが、生のデータを共有することなく、中央サーバの調整の下で協調的にモデルを学習できる分散学習パラダイムである。 その実用的効率と有効性にもかかわらず、反復的なオンデバイス学習プロセス(例えば、ローカル計算とサーバとのグローバル通信)は、選択したクライアントの数と各トレーニングラウンドにおけるローカルイテレーションの数に大きく依存する、学習時間とエネルギー消費の点でかなりのコストを発生させる。 本稿では,これらの基本制御変数を最適に選択し,収束を確保しつつ,総コストを最小化するモバイルエッジネットワークにおける適応FLの設計方法を分析する。 本研究では,総コストと制御変数のコンバージェンス上限による解析関係を確立する。 コスト最小化の問題を効率的に解くため,低コストなサンプリングベースアルゴリズムを開発し,収束に関連する未知のパラメータを学習する。 異なる最適化メトリクスの設計原則を効果的に識別する重要なソリューション特性を導出します。 本研究は,シミュレーション環境とハードウェアプロトタイプの両方で理論的結果を評価する。 実験的なエビデンスから得られた特性を検証し, 様々なデータセット, 異種システム, 統計的設定の最適化指標に対して, 提案手法がほぼ最適であることを示す。

Federated learning (FL) is a distributed learning paradigm that enables a large number of mobile devices to collaboratively learn a model under the coordination of a central server without sharing their raw data. Despite its practical efficiency and effectiveness, the iterative on-device learning process (e.g., local computations and global communications with the server) incurs a considerable cost in terms of learning time and energy consumption, which depends crucially on the number of selected clients and the number of local iterations in each training round. In this paper, we analyze how to design adaptive FL in mobile edge networks that optimally chooses these essential control variables to minimize the total cost while ensuring convergence. We establish the analytical relationship between the total cost and the control variables with the convergence upper bound. To efficiently solve the cost minimization problem, we develop a low-cost sampling-based algorithm to learn the convergence related unknown parameters. We derive important solution properties that effectively identify the design principles for different optimization metrics. Practically, we evaluate our theoretical results both in a simulated environment and on a hardware prototype. Experimental evidence verifies our derived properties and demonstrates that our proposed solution achieves near-optimal performance for different optimization metrics for various datasets and heterogeneous system and statistical settings.
翻訳日:2021-09-14 15:05:49 公開日:2021-09-12
# (参考訳) Spike2Vec: COVID-19スパイクシーケンスの効率的かつスケーラブルな埋め込みアプローチ [全文訳有]

Spike2Vec: An Efficient and Scalable Embedding Approach for COVID-19 Spike Sequences ( http://arxiv.org/abs/2109.05019v1 )

ライセンス: CC0 1.0
Sarwan Ali; Murray Patterson(参考訳) 新型コロナウイルス(COVID-19)の世界的な普及に伴い、ゲノム配列データを含む、このウイルスに関連するデータがますます増えつつある。 GISAIDなどのプラットフォームで公開されているゲノム配列の総数は、現在数百万であり、毎日増え続けている。 そのような \textit{big data} が利用可能になると、研究者はこのウイルスを詳細に研究する新たな機会が生まれる。 これは、covid-19の変種が出現し、循環する上で、特に重要である。 この豊富なデータソースは、このような脅威を緩和または排除するという究極の目標を掲げ、この状況と将来のパンデミック脅威に対するゲノム監視を行う最善の方法に関する洞察を提供する。 数百万のゲノム配列の解析と処理は難しい課題である。 従来の配列分類法は有効であることが証明されているが、これらの特定のゲノム配列を扱うように設計されていない。 さらに、既存のメソッドの多くはスケーラビリティの問題にも直面する。 コロナゲノムデータに合わせた以前の研究では、完全なゲノム配列ではなくスパイクシーケンス(ゲノムのサブシーケンスに対応する)を使用して分類やクラスタリングなどの異なる機械学習(ML)タスクを実行することが提案されていた。 しかし、これらの手法はスケーラビリティの問題に悩まされている。 本稿では,下流mlタスクに使用可能なスパイクシーケンス毎に,効率良くスケーラブルな機能ベクトル表現を行うspike2vecという手法を提案する。 実験により,Spike2Vecは数百万のスパイクシーケンスに対してスケーラブルであるだけでなく,予測精度やF1スコアなどの観点からも,ベースラインモデルよりも優れていることがわかった。

With the rapid global spread of COVID-19, more and more data related to this virus is becoming available, including genomic sequence data. The total number of genomic sequences that are publicly available on platforms such as GISAID is currently several million, and is increasing with every day. The availability of such \textit{Big Data} creates a new opportunity for researchers to study this virus in detail. This is particularly important with all of the dynamics of the COVID-19 variants which emerge and circulate. This rich data source will give us insights on the best ways to perform genomic surveillance for this and future pandemic threats, with the ultimate goal of mitigating or eliminating such threats. Analyzing and processing the several million genomic sequences is a challenging task. Although traditional methods for sequence classification are proven to be effective, they are not designed to deal with these specific types of genomic sequences. Moreover, most of the existing methods also face the issue of scalability. Previous studies which were tailored to coronavirus genomic data proposed to use spike sequences (corresponding to a subsequence of the genome), rather than using the complete genomic sequence, to perform different machine learning (ML) tasks such as classification and clustering. However, those methods suffer from scalability issues. In this paper, we propose an approach called Spike2Vec, an efficient and scalable feature vector representation for each spike sequence that can be used for downstream ML tasks. Through experiments, we show that Spike2Vec is not only scalable on several million spike sequences, but also outperforms the baseline models in terms of prediction accuracy, F1-score, etc.
翻訳日:2021-09-13 14:41:36 公開日:2021-09-12