このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200114となっている論文です。

PDF登録状況(公開日: 20200114)

TitleAuthorsAbstract論文公表日・翻訳日
# 講義翻訳改善のためのコースラコーパスマイニングと多段階ファインチューニング

Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures Translation ( http://arxiv.org/abs/1912.11739v2 )

ライセンス: Link先を確認
Haiyue Song, Raj Dabre, Atsushi Fujita, Sadao Kurohashi(参考訳) 講演翻訳は言語翻訳の事例であり、この目的のために公開されている並列コーパスが欠如している。 そこで本研究では,courseraで公開されている講義から並列コーパスをマイニングするための迅速かつ効果的な手法である並列コーパスマイニングのための言語独立フレームワークについて検討する。 本手法は,連続空間文表現における機械翻訳とコサイン類似性に依存する文アライメントを決定する。 また,高品質講義翻訳のための多段微調整に基づくドメイン適応におけるコーパスの使い方を示す。 日本語-英語の講義翻訳では,約4万行の並列データを抽出し,手動フィルタリングを用いて翻訳性能のベンチマークを行う。 本手法は,多段階学習による領域外並列コーパスと併用することにより,翻訳品質が大幅に向上することを示す。 また, コーパスの収集とクリーン化, 並列文のマイニング, マイニングデータ中のノイズへの対処, 高品質な評価スプリットの作成に関するガイドラインを提案する。 再現性のために、並列データ作成のためのコードをリリースします。

Lectures translation is a case of spoken language translation and there is a lack of publicly available parallel corpora for this purpose. To address this, we examine a language independent framework for parallel corpus mining which is a quick and effective way to mine a parallel corpus from publicly available lectures at Coursera. Our approach determines sentence alignments, relying on machine translation and cosine similarity over continuous-space sentence representations. We also show how to use the resulting corpora in a multistage fine-tuning based domain adaptation for high-quality lectures translation. For Japanese--English lectures translation, we extracted parallel data of approximately 40,000 lines and created development and test sets through manual filtering for benchmarking translation performance. We demonstrate that the mined corpus greatly enhances the quality of translation when used in conjunction with out-of-domain parallel corpora via multistage training. This paper also suggests some guidelines to gather and clean corpora, mine parallel sentences, address noise in the mined data, and create high-quality evaluation splits. For the sake of reproducibility, we will release our code for parallel data creation.
翻訳日:2023-06-10 08:37:15 公開日:2020-01-14
# 自律型シャトル・アズ・ア・サービス(ASaaS):課題、機会、社会的意味

Autonomous Shuttle-as-a-Service (ASaaS): Challenges, Opportunities, and Social Implications ( http://arxiv.org/abs/2001.09763v1 )

ライセンス: Link先を確認
Antonio Bucchiarone, Sandro Battisti, Annapaola Marconi, Roberto Maldacea, and Diego Cardona Ponce(参考訳) 現代の都市は、住民や訪問者に効果的なサービスを提供するために存在する複雑な社会技術システムで構成されている。 この文脈において、スマートモビリティシステムは、都市の交通施設の効率的な利用と、都市環境における持続可能なモビリティを支援することを目的としている。 人々は、都市内の数ブロックの旅行から、都市を横断する旅まで、さまざまな規模の場所を迅速かつ便利に移動する必要があります。 同時に、ユーザーとビジネスの両方のニーズを考慮して、商品をタイムリーに配達する必要があります。 モビリティとデリバリーのソリューションのほとんどは、かなりの距離と複数のリクエストをカバーできるが、その要求は、成長する近所や、都市中心部、本社、病院など、手が届かない地域から来ると苦しむ。 ここ数年、いくつかの都市は「ラストマイル」モビリティサービスに自律走行車(AV)を使うことに関心を示した。 それによって、車が少なくなると人や商品の取り回しが容易になるようだ。 この文脈で、自動運転シャトル(as)は、狭い通りが伝統的なバスで簡単に運行できない都市中心部への新しい移動・配送サービスと見なされ始めている。 これにより、新しいインフラが最小限に抑えられ、騒音や汚染を低減できる。 本稿の目標は、asaas(autonomous shuttles-as-a service)概念の導入に関する革新的なビジョンを、革新的で持続可能な近接移動の実現のための重要な柱として提示することである。 我々は、実際のアプリケーションシナリオのセットを通して、我々の見解を示し、将来の移動性を再イメージするこの方法がもたらした課題、機会、社会的影響について論じる。

Modern cities are composed of complex socio-technical systems that exist to provide services effectively to their residents and visitors. In this context, smart mobility systems aim to support the efficient exploitation of the city transport facilities as well as sustainable mobility within the urban environment. People need to travel quickly and conveniently between locations at different scales, ranging from a trip of a few blocks within a city to a journey across cities or further. At the same time, goods need to be timely delivered considering the needs of both the users and the businesses. While most of the mobility and delivery solutions can cover significant distances and multiple requests, they suffer when the requests come from the growing neighborhoods and hard-to-reach areas such as city centers, corporate headquarters, and hospitals. In the last few years, several cities indicated interest in using Autonomous Vehicles (AV) for the "last-mile" mobility services. With them, it seems to be easier to get people and goods around using fewer vehicles. In this context, Autonomous Shuttles (AS) are beginning to be thought of as a new mobility/delivery service into the city center where narrow streets are not easily served by traditional buses. They allow them to serve critical areas with minimal new infrastructure and reducing noise and pollution. The goal of this article is to present an innovative vision on the introduction of the Autonomous Shuttles-as-a service (ASaaS) concept as the key pillar for the realization of innovative and sustainable proximity mobility. Through a set of real application scenarios, we present our view, and we discuss a set of challenges, opportunities, and social implications that this way to reimage the mobility of the future introduces.
翻訳日:2023-06-08 02:15:30 公開日:2020-01-14
# データ駆動型AIシステムにおけるバイアス - 入門調査

Bias in Data-driven AI Systems -- An Introductory Survey ( http://arxiv.org/abs/2001.09762v1 )

ライセンス: Link先を確認
Eirini Ntoutsi, Pavlos Fafalios, Ujwal Gadiraju, Vasileios Iosifidis, Wolfgang Nejdl, Maria-Esther Vidal, Salvatore Ruggieri, Franco Turini, Symeon Papadopoulos, Emmanouil Krasanakis, Ioannis Kompatsiaris, Katharina Kinder-Kurlanda, Claudia Wagner, Fariba Karimi, Miriam Fernandez, Harith Alani, Bettina Berendt, Tina Kruegel, Christian Heinze, Klaus Broelemann, Gjergji Kasneci, Thanassis Tiropanis, Steffen Staab(参考訳) AIベースのシステムは、個人や社会に大きく影響する決定を下すために、近年広く利用されている。 彼らの決定は、あらゆる場所、そしていつでもすべての人に影響を与え、人権問題に対する懸念を抱くかもしれない。 したがって、予測性能に最適化された従来のAIアルゴリズムを超えて、その設計、トレーニング、デプロイメントに倫理的および法的原則を組み込んで、AI技術の巨大なポテンシャルから恩恵を受けながら、社会的に良いことを保証する必要がある。 この調査の目的は、aiシステムにおけるバイアスの分野に関する幅広い分野の概観を提供することであり、技術的な課題と解決策に焦点を当て、法的な枠組みに根ざしたアプローチに向けた新たな研究方向を提案することである。 この調査では、AIの大部分は(大きな)データと強力な機械学習(ML)アルゴリズムによって支えられているため、データ駆動型AIに焦点を当てている。 そうでない場合は、一般的なバイアスを使ってデータの収集や処理に関連する問題を記述します。

AI-based systems are widely employed nowadays to make decisions that have far-reaching impacts on individuals and society. Their decisions might affect everyone, everywhere and anytime, entailing concerns about potential human rights issues. Therefore, it is necessary to move beyond traditional AI algorithms optimized for predictive performance and embed ethical and legal principles in their design, training and deployment to ensure social good while still benefiting from the huge potential of the AI technology. The goal of this survey is to provide a broad multi-disciplinary overview of the area of bias in AI systems, focusing on technical challenges and solutions as well as to suggest new research directions towards approaches well-grounded in a legal frame. In this survey, we focus on data-driven AI, as a large part of AI is powered nowadays by (big) data and powerful Machine Learning (ML) algorithms. If otherwise not specified, we use the general term bias to describe problems related to the gathering or processing of data that might result in prejudiced decisions on the bases of demographic features like race, sex, etc.
翻訳日:2023-06-08 02:15:02 公開日:2020-01-14
# サービスとしての人工知能」の誤用監視

Monitoring Misuse for Accountable 'Artificial Intelligence as a Service' ( http://arxiv.org/abs/2001.09723v1 )

ライセンス: Link先を確認
Seyyed Ahmad Javadi, Richard Cloete, Jennifer Cobbe, Michelle Seng Ah Lee and Jatinder Singh(参考訳) AIはますます‘サービスとしての’(AIaaS)として提供されています。 これには、オブジェクト認識、テキスト翻訳、テキスト音声変換、顔認識などのタスクのために、事前に構築されたAIモデルやサービスへのアクセスを提供するサービスプロバイダが含まれる。 この提供により、顧客は、さまざまな強力なAI駆動機能をアプリケーションに簡単に統合できる。 顧客はプロバイダのAPIを通じてこれらのモデルにアクセスし、特定のデータをどのモデルが適用されるか、結果が返される。 しかし、aiの使用が問題となる状況はたくさんある。 aiaasサービスは一般的に汎用機能を表し、クリックで利用可能である。 それゆえ、プロバイダーは、評判や責任の理由から、彼らが提供するaiaasサービスが、顧客が「適切な」目的のために使用されていることを保証することができる。 本稿では,AIaaSプロバイダがユーザによるサービス誤用の可能性を明らかにするコンセプトを紹介し,検討する。 トピックの例を例に挙げて,監視を要する状況に合図する技術利用パターンを検討し,誤用監視の法的・技術的課題を提起する。 全体として、この概念を導入することで、幅広い視点からさらなる調査を行う可能性を示す。

AI is increasingly being offered 'as a service' (AIaaS). This entails service providers offering customers access to pre-built AI models and services, for tasks such as object recognition, text translation, text-to-voice conversion, and facial recognition, to name a few. The offerings enable customers to easily integrate a range of powerful AI-driven capabilities into their applications. Customers access these models through the provider's APIs, sending particular data to which models are applied, the results of which returned. However, there are many situations in which the use of AI can be problematic. AIaaS services typically represent generic functionality, available 'at a click'. Providers may therefore, for reasons of reputation or responsibility, seek to ensure that the AIaaS services they offer are being used by customers for 'appropriate' purposes. This paper introduces and explores the concept whereby AIaaS providers uncover situations of possible service misuse by their customers. Illustrated through topical examples, we consider the technical usage patterns that could signal situations warranting scrutiny, and raise some of the legal and technical challenges of monitoring for misuse. In all, by introducing this concept, we indicate a potential area for further inquiry from a range of perspectives.
翻訳日:2023-06-08 02:14:43 公開日:2020-01-14
# ロボットの権利? 代わりに人間福祉について話しよう

Robot Rights? Let's Talk about Human Welfare Instead ( http://arxiv.org/abs/2001.05046v1 )

ライセンス: Link先を確認
Abeba Birhane and Jelle van Dijk(参考訳) ロボットの権利」とそれに関連する「ロボット責任」に関する議論は、ai倫理における最も分断された立場を招いている。 ロボットに人間と同等の権利を与えると主張する者もいれば、ロボットは権利を尊重するものではなく、我々の奴隷であるべき対象であると主張する者もいる。 ポストカルト時代の哲学的基礎に根ざして、我々はロボットを「権利」を否定するだけでなく、人間から生まれて仲介する人工物としてロボットが、そもそも権利を付与できるものであることを否定する。 ロボットを人間の仲介者と見なすと、ロボットの権利の議論は、機械バイアス、機械による人的労働の搾取、プライバシーの侵食といった緊急の倫理的な懸念を犠牲にして、第一世界の問題にどのように焦点をあてているかを理解することができる。 人間が私たちの出発点であり、人間の福祉が主な関心事であるならば、機械システムから生じるネガティブな影響に加えて、そのような機械を設計、販売、展開する人々による責任を負うことの欠如は、AIにおける最も差し迫った倫理的議論のままである。

The 'robot rights' debate, and its related question of 'robot responsibility', invokes some of the most polarized positions in AI ethics. While some advocate for granting robots rights on a par with human beings, others, in a stark opposition argue that robots are not deserving of rights but are objects that should be our slaves. Grounded in post-Cartesian philosophical foundations, we argue not just to deny robots 'rights', but to deny that robots, as artifacts emerging out of and mediating human being, are the kinds of things that could be granted rights in the first place. Once we see robots as mediators of human being, we can understand how the `robots rights' debate is focused on first world problems, at the expense of urgent ethical concerns, such as machine bias, machine elicited human labour exploitation, and erosion of privacy all impacting society's least privileged individuals. We conclude that, if human being is our starting point and human welfare is the primary concern, the negative impacts emerging from machinic systems, as well as the lack of taking responsibility by people designing, selling and deploying such machines, remains the most pressing ethical discussion in AI.
翻訳日:2023-06-08 02:14:25 公開日:2020-01-14
# パスワード強度の識別における知覚・ユーザ要因のシェード

Shades of Perception- User Factors in Identifying Password Strength ( http://arxiv.org/abs/2001.04930v1 )

ライセンス: Link先を確認
Jason M. Pittman, Nikki Robinson(参考訳) 本研究の目的は,参加者の教育,職業,技能レベルがパスワード強度の識別と関係しているかを測定することである。 参加者は50のパスワードをレビューし、それぞれが弱いか強いとラベル付けした。 独立性の2乗テストは、弱いパスワード識別と強いパスワード識別の頻度に対する教育、職業、技術スキルレベルの関係を測定するために用いられた。 その結果、技術的スキルと強いパスワードを除いて、すべての変数の組み合わせで有意な関係を示した。 この研究には3つの限界がある。 データ収集は参加者の自己報告に依存しており、外部電源が限られている。 さらに、全ての参加者が英語を読め、パスワード強度の概念を理解できるという仮定のもとにこの装置が構築された。 最後に、外部ツールの使用(パスワード強度メーター)を制御できませんでした。 その結果,特定のパスワードに対するユーザ認識の総合的理解と認証の両面において,既存の文献に基づく結果が得られた。 以前の研究では同様の領域が検討されていたが、参加者にパスワードを作らせている。 この研究は、予め生成されたパスワードの知覚を測定する。 結果は、ユーザーがなぜ弱いパスワードに依存し続けるのかをさらに調査する必要があることを示している。 この研究の独創性は、幅広い参加者を誘致し、参加者の教育、専門職、技術スキルレベルの間の潜在的な相関を測ることにある。

The purpose of this study was to measure whether participant education, profession, and technical skill level exhibited a relationship with identification of password strength. Participants reviewed 50 passwords and labeled each as weak or strong. A Chi-square test of independence was used to measure relationships between education, profession, technical skill level relative to the frequency of weak and strong password identification. The results demonstrate significant relationships across all variable combinations except for technical skill and strong passwords which demonstrated no relationship. This research has three limitations. Data collection was dependent upon participant self-reporting and has limited externalized power. Further, the instrument was constructed under the assumption that all participants could read English and understood the concept of password strength. Finally, we did not control for external tool use (i.e., password strength meter). The results build upon existing literature insofar as the outcomes add to the collective understanding of user perception of passwords in specific and authentication in general. Whereas prior research has explored similar areas, such work has done so by having participants create passwords. This work measures perception of pre-generated passwords. The results demonstrate a need for further investigation into why users continue to rely on weak passwords. The originality of this work rests in soliciting a broad spectrum of participants and measuring potential correlations between participant education, profession, and technical skill level.
翻訳日:2023-06-08 02:14:03 公開日:2020-01-14
# Google Home Miniの予備研究

Preliminary Study of a Google Home Mini ( http://arxiv.org/abs/2001.04574v1 )

ライセンス: Link先を確認
Min Jin Park, Joshua I. James(参考訳) 多くの人工知能(AI)スピーカーが最近市場に出回っている。 amazon echoをはじめ、多くの企業が独自のスピーカー技術を作っている。 技術の限界により、ほとんどの話者は同様の機能を持つが、それぞれの話者のデータを扱う方法が異なる。 Amazonの例では、クラウドのAPIは誰でも自分のAPIを開発できる。 Amazon Echoは以前から存在しており、多くの研究がなされている。 しかし、デジタル調査のためのgoogle home mini分析についてはあまり研究されていない。 本稿では,google home miniのデータ保存とセキュリティに関する初期研究を行う。

Many artificial intelligence (AI) speakers have recently come to market. Beginning with Amazon Echo, many companies producing their own speaker technologies. Due to the limitations of technology, most speakers have similar functions, but the way of handling the data of each speaker is different. In the case of Amazon echo, the API of the cloud is open for any developers to develop their API. The Amazon Echo has been around for a while, and much research has been done on it. However, not much research has been done on Google Home Mini analysis for digital investigations. In this paper, we will conduct some initial research on the data storing and security methods of Google Home Mini.
翻訳日:2023-06-08 02:13:26 公開日:2020-01-14
# 確率勾配自由降下

Stochastic gradient-free descents ( http://arxiv.org/abs/1912.13305v5 )

ライセンス: Link先を確認
Xiaopeng Luo and Xin Xu(参考訳) 本稿では,確率的最適化問題を解くためのモーメント付き確率的勾配自由法と加速法を提案する。 これらの手法はすべて確率的勾配よりも確率的方向に依存する。 平均分散フレームワークの下でこれらの手法の収束挙動を解析し、また確率的条件におけるモーメントの包含に関する理論的解析を行い、使用したモーメント項が次数$\mathcal{O}(1/k)$の偏差を付加することを示したが、$k$1/k)$の次数$\mathcal{O}(1/k)$で分散を制御する。 So it is shown that, when employing a decaying stepsize $\alpha_k=\mathcal{O}(1/k)$, the stochastic gradient-free methods can still maintain the sublinear convergence rate $\mathcal{O}(1/k)$ and the accelerated methods with momentum can achieve a convergence rate $\mathcal{O}(1/k^2)$ in probability for the strongly convex objectives with Lipschitz gradients; and all these methods converge to a solution with a zero expected gradient norm when the objective function is nonconvex, twice differentiable and bounded below.

In this paper we propose stochastic gradient-free methods and accelerated methods with momentum for solving stochastic optimization problems. All these methods rely on stochastic directions rather than stochastic gradients. We analyze the convergence behavior of these methods under the mean-variance framework, and also provide a theoretical analysis about the inclusion of momentum in stochastic settings which reveals that the momentum term we used adds a deviation of order $\mathcal{O}(1/k)$ but controls the variance at the order $\mathcal{O}(1/k)$ for the $k$th iteration. So it is shown that, when employing a decaying stepsize $\alpha_k=\mathcal{O}(1/k)$, the stochastic gradient-free methods can still maintain the sublinear convergence rate $\mathcal{O}(1/k)$ and the accelerated methods with momentum can achieve a convergence rate $\mathcal{O}(1/k^2)$ in probability for the strongly convex objectives with Lipschitz gradients; and all these methods converge to a solution with a zero expected gradient norm when the objective function is nonconvex, twice differentiable and bounded below.
翻訳日:2023-01-16 21:38:51 公開日:2020-01-14
# タスクフリー連続学習のためのニューラルディリクレ過程混合モデル

A Neural Dirichlet Process Mixture Model for Task-Free Continual Learning ( http://arxiv.org/abs/2001.00689v2 )

ライセンス: Link先を確認
Soochan Lee, Junsoo Ha, Dongsu Zhang, Gunhee Kim(参考訳) 継続的学習への関心は高まっているが、現代の作品の多くは、タスクが明確に区別可能で、タスク境界がトレーニング中に知られている、かなり制限された環境で研究されている。 しかし、人間と同じように学習するアルゴリズムを開発することが目標であれば、この設定は現実的とは程遠いものであり、タスクフリーな手法を開発することが不可欠である。 一方、継続学習のいくつかの分野において、拡張ベースの手法は、新しいリソースを割り当てて新しいデータを学ぶことで破滅的な忘れをなくすという利点がある。 本研究では,タスクフリー連続学習のための拡張型アプローチを提案する。 我々のモデルであるContinuous Neural Dirichlet Process Mixture (CN-DPM)は、データのサブセットを担当するニューラルネットワーク専門家のセットで構成されています。 CN-DPMはベイズ非パラメトリックフレームワークの下で、原則的に専門家の数を拡大する。 広範にわたる実験により,画像分類や画像生成などの識別的・生成的タスクに対して,タスクフリーな連続学習が成功していることを示す。

Despite the growing interest in continual learning, most of its contemporary works have been studied in a rather restricted setting where tasks are clearly distinguishable, and task boundaries are known during training. However, if our goal is to develop an algorithm that learns as humans do, this setting is far from realistic, and it is essential to develop a methodology that works in a task-free manner. Meanwhile, among several branches of continual learning, expansion-based methods have the advantage of eliminating catastrophic forgetting by allocating new resources to learn new data. In this work, we propose an expansion-based approach for task-free continual learning. Our model, named Continual Neural Dirichlet Process Mixture (CN-DPM), consists of a set of neural network experts that are in charge of a subset of the data. CN-DPM expands the number of experts in a principled way under the Bayesian nonparametric framework. With extensive experiments, we show that our model successfully performs task-free continual learning for both discriminative and generative tasks such as image classification and image generation.
翻訳日:2023-01-14 17:19:50 公開日:2020-01-14
# リカレントニューラルネットワークにおける内部表現ダイナミクスと幾何学

Internal representation dynamics and geometry in recurrent neural networks ( http://arxiv.org/abs/2001.03255v2 )

ライセンス: Link先を確認
Stefan Horoi, Guillaume Lajoie and Guy Wolf(参考訳) 逐次データ処理におけるリカレントニューラルネットワーク(RNN)の効率性は長年にわたって確立されてきた。 しかしながら、特定の特徴の認識を各レイヤに分類できる深い畳み込みネットワークとは異なり、単一の再帰的なステップやレイヤが達成する"サブタスク"が何であるかは明確ではない。 我々の研究は、バニラRNNがネットワークのダイナミクスとその隠れ状態の幾何学的性質を分析して、単純な分類タスクをどのように実装するかを明らかにすることを目的としている。 初期の内部表現は実際のデータラベルを連想させるが、この情報は出力層に直接アクセスできない。 さらに、ネットワークのダイナミクスとシーケンス長は、追加のタスク関連情報が提供されていない場合でも、正しい分類に重要である。

The efficiency of recurrent neural networks (RNNs) in dealing with sequential data has long been established. However, unlike deep, and convolution networks where we can attribute the recognition of a certain feature to every layer, it is unclear what "sub-task" a single recurrent step or layer accomplishes. Our work seeks to shed light onto how a vanilla RNN implements a simple classification task by analysing the dynamics of the network and the geometric properties of its hidden states. We find that early internal representations are evocative of the real labels of the data but this information is not directly accessible to the output layer. Furthermore the network's dynamics and the sequence length are both critical to correct classifications even when there is no additional task relevant information provided.
翻訳日:2023-01-13 04:10:58 公開日:2020-01-14
# Montage: ニューラルネットワーク言語モデルによるJavaScriptエンジンファズー

Montage: A Neural Network Language Model-Guided JavaScript Engine Fuzzer ( http://arxiv.org/abs/2001.04107v2 )

ライセンス: Link先を確認
Suyoung Lee, HyungSeok Han, Sang Kil Cha, Sooel Son(参考訳) JavaScript(JS)エンジンの脆弱性は、数十億のWebブラウザに重大なセキュリティ脅威をもたらす。 ファジングはそのような脆弱性を見つけるための一般的なテクニックであるが、ニューラルネットワーク言語モデル(nnlms)の最近の進歩を利用する研究は少ない。 本稿では,JS エンジンの脆弱性を発見するための NNLM 誘導ファザである Montage を紹介する。 我々の技術の重要な側面は、JS抽象構文木(AST)を、一般的なNNLMを直接トレーニングできるASTサブツリーのシーケンスに変換することである。 montageが有効なjsテストを生成することができることを実証し、脆弱性発見の観点で以前の研究よりも優れていることを示す。 montage氏は最新のjsエンジンで3つのcveを含む37の現実世界のバグを発見し、jsエンジンのバグ発見の有効性を示した。

JavaScript (JS) engine vulnerabilities pose significant security threats affecting billions of web browsers. While fuzzing is a prevalent technique for finding such vulnerabilities, there have been few studies that leverage the recent advances in neural network language models (NNLMs). In this paper, we present Montage, the first NNLM-guided fuzzer for finding JS engine vulnerabilities. The key aspect of our technique is to transform a JS abstract syntax tree (AST) into a sequence of AST subtrees that can directly train prevailing NNLMs. We demonstrate that Montage is capable of generating valid JS tests, and show that it outperforms previous studies in terms of finding vulnerabilities. Montage found 37 real-world bugs, including three CVEs, in the latest JS engines, demonstrating its efficacy in finding JS engine bugs.
翻訳日:2023-01-11 23:51:05 公開日:2020-01-14
# GridMaskデータ拡張

GridMask Data Augmentation ( http://arxiv.org/abs/2001.04086v2 )

ライセンス: Link先を確認
Pengguang Chen, Shu Liu, Hengshuang Zhao, Jiaya Jia(参考訳) 本稿では,新しいデータ拡張手法であるGridMaskを提案する。 情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。 我々は情報落下の要件を分析する。 次に,既存の情報投下アルゴリズムの限界を示し,単純かつ極めて効果的な構造化手法を提案する。 これは入力画像の領域の削除に基づいている。 大規模な実験により,我々の手法は最新のAutoAugmentよりも優れており,最も優れたポリシーを見つけるために強化学習を用いることにより,計算コストがはるかに高いことが判明した。 認識のためのImageNetデータセット、COCO2017オブジェクト検出、セマンティックセグメンテーションのためのCityscapesデータセットでは、ベースラインよりもパフォーマンスが著しく向上する。 実験により,新しい手法の有効性と一般化が示された。

We propose a novel data augmentation method `GridMask' in this paper. It utilizes information removal to achieve state-of-the-art results in a variety of computer vision tasks. We analyze the requirement of information dropping. Then we show limitation of existing information dropping algorithms and propose our structured method, which is simple and yet very effective. It is based on the deletion of regions of the input image. Our extensive experiments show that our method outperforms the latest AutoAugment, which is way more computationally expensive due to the use of reinforcement learning to find the best policies. On the ImageNet dataset for recognition, COCO2017 object detection, and on Cityscapes dataset for semantic segmentation, our method all notably improves performance over baselines. The extensive experiments manifest the effectiveness and generality of the new method.
翻訳日:2023-01-11 23:15:16 公開日:2020-01-14
# $\alpha$-Mutual Informationによるロバスト一般化

Robust Generalization via $\alpha$-Mutual Information ( http://arxiv.org/abs/2001.06399v1 )

ライセンス: Link先を確認
Amedeo Roberto Esposito, Michael Gastpar, Ibrahim Issa(参考訳) 本研究の目的は、R\'enyi $\alpha$-divergences と Sibson の $\alpha$-Mutual Information を用いて、同じ事象の2つの確率測度を接続する境界を提供することである。 特定の利害関係のケースは、考えられる2つの確率測度が合同分布と対応する辺の積(統計的に独立したシナリオを示す)であるときに見ることができる。 この場合、シブソンの$\alpha-$mutual情報を用いたバウンドが検索され、その結果は一般アルファベットへの最大漏洩を含む。 これらの結果は、学習アルゴリズムの一般化誤差から適応データ分析のより一般的な枠組みへのバウンダリングから、そのような分析に使用する発散度および/または情報測度が対応可能である(すなわち、後処理に頑健であり、適応的に構成する)ことへの幅広い応用がある。 一般化誤差境界は高確率事象に対して導出されるが、期待される一般化誤差に対する対応する境界も検索される。

The aim of this work is to provide bounds connecting two probability measures of the same event using R\'enyi $\alpha$-Divergences and Sibson's $\alpha$-Mutual Information, a generalization of respectively the Kullback-Leibler Divergence and Shannon's Mutual Information. A particular case of interest can be found when the two probability measures considered are a joint distribution and the corresponding product of marginals (representing the statistically independent scenario). In this case, a bound using Sibson's $\alpha-$Mutual Information is retrieved, extending a result involving Maximal Leakage to general alphabets. These results have broad applications, from bounding the generalization error of learning algorithms to the more general framework of adaptive data analysis, provided that the divergences and/or information measures used are amenable to such an analysis ({\it i.e.,} are robust to post-processing and compose adaptively). The generalization error bounds are derived with respect to high-probability events but a corresponding bound on expected generalization error is also retrieved.
翻訳日:2023-01-11 13:56:14 公開日:2020-01-14
# 量子液体の温度駆動ダイナミクス:対数非線形性、位相構造、上昇力

Temperature-driven dynamics of quantum liquids: Logarithmic nonlinearity, phase structure and rising force ( http://arxiv.org/abs/2001.04688v1 )

ライセンス: Link先を確認
Konstantin G. Zloshchastiev(参考訳) 我々は, 正規化可能な複素数値関数によって特徴づけられる, 強い相互作用を持つ凝縮物のような物質を多数研究する。 対数非線形性を持つ量子波動方程式は、少なくとも序列近似において、非線形結合が温度に関連しているような系を記述することが知られている。 この方程式は、内在的な表面張力とキャピラリティを持つ無粘性バロトロピック流体の流れ方程式にマッピングすることができ、流体の温度によって非自明な位相構造が制御されることが示されている。 異なる非線形カップリングの場合、カップリングの勾配と平行な付加的な力が生じることが示されている。 このモデルは、温度差が重力の力に対しても量子液体が流れる空間の方向を生成することを予測している。 また,超流動,液化冷気の超流動成分,あるいは超伝導体内のクーパー対が密接な位置にある加速度測定装置に影響を与える理由を説明する。

We study a large class of strongly interacting condensate-like materials, which can be characterized by a normalizable complex-valued function. A quantum wave equation with logarithmic nonlinearity is known to describe such systems, at least in a leading-order approximation, wherein the nonlinear coupling is related to temperature. This equation can be mapped onto the flow equations of an inviscid barotropic fluid with intrinsic surface tension and capillarity; the fluid is shown to have a nontrivial phase structure controlled by its temperature. It is demonstrated that in the case of a varying nonlinear coupling an additional force occurs, which is parallel to a gradient of the coupling. The model predicts that the temperature difference creates a direction in space in which quantum liquids can flow, even against the force of gravity. We also present arguments explaining why superfluids; be it superfluid components of liquified cold gases, or Cooper pairs inside superconductors, can affect closely positioned acceleration-measuring devices.
翻訳日:2023-01-11 13:55:23 公開日:2020-01-14
# スピン-$1/2$ xxzスピン鎖における磁壁融解:フラクタル準粒子電荷をもつ創発性ルッティンガー液体

Domain-wall melting in the spin-$1/2$ XXZ spin chain: emergent Luttinger liquid with fractal quasi-particle charge ( http://arxiv.org/abs/2001.04948v1 )

ライセンス: Link先を確認
Mario Collura, Andrea De Luca, Pasquale Calabrese, J\'er\^ome Dubail(参考訳) 磁化を保った局所ユニタリ進化を持つスピン鎖において、ドメインウォール状態 $\left| \dots \uparrow \uparrow \uparrow \uparrow \uparrow \downarrow \downarrow \downarrow \downarrow \downarrow \dots \right>$は通常「メルト」である。 多くの場合、非自明な磁化プロファイルは、ドメインウォールの初期位置の周りの拡大領域に発達する。 非可積分力学では、融解は拡散的であり、エントロピー生成はサイズ$\sqrt{t}$ の融解領域内である。 対照的に、進化が可積分であるときには、弾道輸送が支配され、融解した領域が時間的に直線的に成長し、広範囲なエントロピー生成がない:スピン鎖はいつでもゼロエントロピー状態のままである。 ここでは、積分可能なスピン-1/2$ XXZ鎖に対して、融点内の低エネルギーの量子ゆらぎが、平衡と著しく異なる創発的なルッティンガー液体を生じさせることを示す。 この創発的なルッティンガー液体の顕著な特徴は準粒子電荷(またはルッティンガーパラメータ$K$)であり、XXZ鎖の異方性パラメータ$\Delta$に対するフラクタル依存を取得する。

In spin chains with local unitary evolution preserving the magnetization $S^{\rm z}$, the domain-wall state $\left| \dots \uparrow \uparrow \uparrow \uparrow \uparrow \downarrow \downarrow \downarrow \downarrow \downarrow \dots \right>$ typically "melts". At large times, a non-trivial magnetization profile develops in an expanding region around the initial position of the domain-wall. For non-integrable dynamics the melting is diffusive, with entropy production within a melted region of size $\sqrt{t}$. In contrast, when the evolution is integrable, ballistic transport dominates and results in a melted region growing linearly in time, with no extensive entropy production: the spin chain remains locally in states of zero entropy at any time. Here we show that, for the integrable spin-$1/2$ XXZ chain, low-energy quantum fluctuations in the melted region give rise to an emergent Luttinger liquid which, remarkably, differs from the equilibrium one. The striking feature of this emergent Luttinger liquid is its quasi-particle charge (or Luttinger parameter $K$) which acquires a fractal dependence on the XXZ chain anisotropy parameter $\Delta$.
翻訳日:2023-01-11 13:54:34 公開日:2020-01-14
# 非エルミートハミルトンのビコヒーレント状態経路積分量子化

Bicoherent-State Path Integral Quantization of a non-Hermitian Hamiltonian ( http://arxiv.org/abs/2001.04955v1 )

ライセンス: Link先を確認
F. Bagarello and J. Feinberg(参考訳) 非エルミタン系を定量化する手法として,初めて二コヒーレント状態経路積分を導入する。 バイコヒーレント状態経路積分は通常のコヒーレント状態経路積分の自然な一般化として現れる。 我々はこれら全てを具体的な例、すなわち、従来の$PT$-transformationでは不変ではない Swanson のモデルの準エルミート多様体のプロパゲータの計算によって行う。 結果として得られるプロパゲータは標準調和振動子のプロパゲータのそれと一致するが、これは対応するハミルトニアンの類似性変換によって考慮されたモデルと同型である。 また、ファインマン経路積分を用いて位置空間におけるこのモデルの伝搬子を計算し、2つの結果の整合性を検証する。

We introduce, for the first time, bicoherent-state path integration as a method for quantizing non-hermitian systems. Bicoherent-state path integrals arise as a natural generalization of ordinary coherent-state path integrals, familiar from hermitian quantum physics. We do all this by working out a concrete example, namely, computation of the propagator of a certain quasi-hermitian variant of Swanson's model, which is not invariant under conventional $PT$-transformation. The resulting propagator coincides with that of the propagator of the standard harmonic oscillator, which is isospectral with the model under consideration by virtue of a similarity transformation relating the corresponding hamiltonians. We also compute the propagator of this model in position space by means of Feynman path integration and verify the consistency of the two results.
翻訳日:2023-01-11 13:54:01 公開日:2020-01-14
# エネルギーバンドのオイラー特性数とその非整数値の理由

Euler characteristic number of the energy band and the reason for its non-integer values ( http://arxiv.org/abs/2001.05946v1 )

ライセンス: Link先を確認
Yu-Quan Ma(参考訳) 以前の研究で提案されたエネルギーバンドのトポロジカルなオイラー特性数(Yu-Quan Ma et al., arXiv:1202.2397; EPL 103, 10008 (2013))は、最近X. Tan et al., Physによって実験的に観察されている。 Rev. Lett. 超伝導回路でシミュレートされた時間反転対称系の位相相転移は、消滅するチャーン数の代わりに占有帯域のオイラー数によって観測される。 しかし、位相的自明な位相におけるオイラー数の非整数的挙動にはいくつかの混乱がある。 本稿では、量子計量テンソル $g_{\mu \nu} $ が実際に正の半定義であることから、その理由は単純であることを示す。 一般的な2次元の2バンド系では、(1)位相が位相的自明であれば、第一ブリルアンゾーンのある領域において、量子計量は退化(特異な)~--$\det {g_{\mu \nu} }=0$でなければならない。 このことはガウス・ボネットの公式の無効性をもたらし、不定義の ' `non-integer Euler number''; (2) 位相が 0 でないベリー曲率を持つ位相的非自明であれば、量子計量は第1ブリルアンゾーン全体の正定リーマン計量となる。 したがって、エネルギーバンドのオイラー数は、閉 2 次元ブロッホエネルギーバンド多様体上のガウス・ボネットの定理により、非自明な位相位相のクラスに対して有効な位相指数を与える、閉 2 次元ブロッホエネルギーバンド多様体上の偶数 $\chi=2(1-g)$ を保証される。

The topological Euler characteristic number of the energy band proposed in our previous work (see Yu-Quan Ma et al., arXiv:1202.2397; EPL 103, 10008 (2013)) has been recently experimentally observed by X. Tan et al., Phys. Rev. Lett. \textbf{122}, 210401 (2019), in which a topological phase transition in a time-reversal-symmetric system simulated by the superconducting circuits is witnessed by the Euler number of the occupied band instead of the vanishing Chern number. However, we note that there are some confusions about the non-integer behaviors of the Euler number in the topological trivial phase. In this paper, we show that the reason is straightforward because the quantum metric tensor $g_{\mu \nu} $ is actually positive semi-definite. In a general two-dimensional two-band system, we can proved that: (1) If the phase is topological trivial, then the quantum metric must be degenerate (singular)~--- $\det {g_{\mu \nu} }=0$ in some region of the first Brillouin zone. This leads to the invalidity of the Gauss-Bonnet formula and exhibits an ill-defined ``non-integer Euler number''; (2) If the phase is topological nontrivial with a non-vanishing Berry curvature, then the quantum metric will be a positive definite Riemann metric in the entire first Brillouin zone. Therefore the Euler number of the energy band will be guaranteed an even number $\chi=2(1-g)$ by the Gauss-Bonnet theorem on the closed two-dimensional Bloch energy band manifold with the genus $g$, which provides an effective topological index for a class of nontrivial topological phases.
翻訳日:2023-01-11 13:53:25 公開日:2020-01-14
# 偏極量子ドットにおける単一電荷占有

Single-charge occupation in ambipolar quantum dots ( http://arxiv.org/abs/2001.05045v1 )

ライセンス: Link先を確認
A. J. Sousa de Almeida, A. Marquez Seco, T. van den Berg, B. van de Ven, F. Bruijnes, S. V. Amitonov and F. A. Zwanenburg(参考訳) 電荷センサによるシリコン中のアンビポーラ量子ドットの単一電荷占有を示す。 我々は、単孔トランジスタの隣の単一電子トランジスタからなるシリコン金属酸化物半導体ヘテロ構造において、両極性量子ドット(qd)デバイスを構築した。 両方のqdsを調整して、他方の電荷遷移を同時に感知することができる。 さらに, 能動電荷センシングにより, 両極性デバイスのqds中の極小電子及び極小ホールレジームを検出できる。

We demonstrate single-charge occupation of ambipolar quantum dots in silicon via charge sensing. We have fabricated ambipolar quantum dot (QD) devices in a silicon metal-oxide-semiconductor heterostructure comprising a single-electron transistor next to a single-hole transistor. Both QDs can be tuned to simultaneously sense charge transitions of the other. We further detect the few-electron and few-hole regimes in the QDs of our ambipolar device by active charge sensing.
翻訳日:2023-01-11 13:46:52 公開日:2020-01-14
# CVDで成長した<400>単結晶ダイヤモンドナノピラーからの光抽出 0V SF6プラズマによる選択電荷状態操作

Light extraction from CVD-grown <400> single crystal diamond nanopillars. Selective charge state manipulations with 0V SF6 plasma ( http://arxiv.org/abs/2001.05069v1 )

ライセンス: Link先を確認
Mariusz Radtke, Abdallah Slablab, Sandra Van Vlierberghe, Chao-Nan Lin, Ying-Jie Lu, Chong-Xin Shan(参考訳) 単結晶ダイヤモンド(SCD)ナノピラーからの光抽出の可能性を検討する。 これは、負電荷窒素空洞(nv-)の519nmレーザー誘起スピン状態開始によって達成された。 化学気相沈着(CVD)合成における成長過程によって自然に発生するNV(-)のスピンレディングを,成長後の移植戦略を使わずに,初めて効果的に行うことが可能となる。 応用ダイヤモンドは14N+に移植されず、CVD合成SCDも加熱されず、窒素空孔の存在は顕著な現象であった。 電子線リソグラフィー(EBL)と乾燥誘導結合プラズマ/反応性イオンエッチング(ICP-RIE)によりSCDのトップダウンナノファブリケーションを行い,光集束ナノピラーを作製した。 また,排他的0v icpプラズマによるダイヤモンド表面のフッ素化も行った。 光抽出とスピン操作を光ルミネッセンス(pl)分光法と光検出磁気共鳴(odmr)を用いて室温で行った。 我々は選択的0vsf6プラズマエッチングによる顕著な効果を観察し, 文献所見とは対照的にnv(-)中心の非活性化を示した。 2次元ホールガス (2HG) とフェルミ帯の曲げ加工について, 脱活性化機構を詳細に論じる。

We investigate the possibilities to realize light extraction from single crystal diamond (SCD) nanopillars. This was achieved by dedicated 519 nm laser-induced spin-state initiation of negatively charged nitrogen vacancies (NV-). For the first time, we present possibility to perform effective spin-readout of NV(-)s that were naturally generated by the growth process during chemical vapor deposition (CVD) synthesis within SCD without any post-growth implantation strategies. Applied diamond was neither implanted with 14N+, nor was the CVD synthesized SCD annealed, making the presence of nitrogen vacancy a remarkable phenomenon. To investigate the possibility to realize light extraction by the utilization of NV(-) bright photoluminescence at room temperature and ambient conditions with the waveguiding effect, we have performed a top-down nanofabrication of SCD by electron beam lithography (EBL) and dry inductively-coupled plasma/ reactive ion etching (ICP-RIE) to generate light focusing nanopillars. In addition, we have fluorinated the diamond's surface by dedicated 0V ICP plasma. Light extraction and spin manipulations were performed with photoluminescence (PL) spectroscopy and optically detected magnetic resonance (ODMR) at room temperature. We have observed a remarkable effect based on the selective 0V SF6 plasma etching and surprisingly, in contrast to literature findings, deactivation of NV(-) centers. We discuss the possible deactivation mechanism in detail regarding 2-dimensional hole gas (2HG) and Fermi band bending.
翻訳日:2023-01-11 13:46:45 公開日:2020-01-14
# 量子論のための密度形式論

Density Formalism for Quantum Theory ( http://arxiv.org/abs/2001.05869v1 )

ライセンス: Link先を確認
Roderick Sutherland(参考訳) 量子論の単純な数学的拡張を示す。 計算の代替方法の可能性を開放すると同時に、追加の形式主義は、外部現実の図を提供することによって標準理論の新たな物理的解釈を示唆する。 単一粒子の場合のために最初に開発された新しい形式主義は、直ちに量子場理論に一般化し、素粒子の生成や消滅といった相対論的現象を記述するという利点を持つ。

A simple mathematical extension of quantum theory is presented. As well as opening the possibility of alternative methods of calculation, the additional formalism implies a new physical interpretation of the standard theory by providing a picture of an external reality. The new formalism, developed first for the single-particle case, has the advantage of generalizing immediately to quantum field theory and to the description of relativistic phenomena such as particle creation and annihilation.
翻訳日:2023-01-11 13:46:22 公開日:2020-01-14
# 一次元の散乱のj行列法:相対論的理論

J-matrix method of scattering in one dimension: The relativistic theory ( http://arxiv.org/abs/2001.06298v1 )

ライセンス: Link先を確認
A. D. Alhaidari(参考訳) 散乱の一次元J行列法の相対論的拡張を行う。 相対論的ポテンシャル行列はベクトル、スカラー、擬スカラー成分の組み合わせである。 これらは非特異な短距離ポテンシャル関数(必ずしも解析的ではない)であり、自由ディラック作用素に対する三角対称行列表現をサポートする平方可積分基底集合の有限部分集合において行列要素によってよく表現される。 伝送係数と反射係数は、異なるポテンシャル結合モードに対して計算される。 これは、この部分で理論を開発し、次に2番目の応用でそれに従う2紙シーケンスの最初のものである。

We make a relativistic extension of the one-dimensional J-matrix method of scattering. The relativistic potential matrix is a combination of vector, scalar, and pseudo-scalar components. These are non-singular short-range potential functions (not necessarily analytic) such that they are well represented by their matrix elements in a finite subset of a square integrable basis set that supports a tridiagonal symmetric matrix representation for the free Dirac operator. Transmission and reflection coefficients are calculated for different potential coupling modes. This is the first of a two-paper sequence where we develop the theory in this part then follow it with applications in the second.
翻訳日:2023-01-11 13:46:14 公開日:2020-01-14
# 量子ウォークの速度はどれくらい?

How fast do quantum walks mix? ( http://arxiv.org/abs/2001.06305v1 )

ライセンス: Link先を確認
Shantanav Chakraborty, Kyle Luh, J\'er\'emie Roland(参考訳) emph{mixing} と呼ばれるネットワーク上の量子ウォークの限界分布からのサンプリングの基本的な問題は、量子情報と計算のいくつかの分野で広く応用されている。 これらの応用のほとんどにおいて特に興味を持つのは、量子ウォークの瞬時確率分布がこの制限分布に近づき続ける最小時間であり、これは「emph{quantum mix time}」と呼ばれる。 しかし、この量は少数の特定のネットワークでしか知られていない。 このレターでは、emph{almost all networks} の量子混合時間(すなわち、我々の境界が持つネットワークの分数)の上界が漸近極限の1つになることを示す。 この目的のために、ランダム行列理論におけるいくつかの結果を用いて、erd\"os-renyiランダムネットワークの量子混合時間(英語版)(quantum mixed time)を見いだす。 例えば、$p$ が定数であるような密なランダムネットワークの場合、量子混合時間は $\mathcal{o}\left(n^{3/2 + o(1)}\right)$ である。 ランダムネットワーク上の量子力学の解析研究の道を開くことに加えて、我々の研究は量子情報処理以外の応用を見つけることができる。 ウィグナー乱数行列の普遍性により、ランダムグラフのスペクトル特性は、いくつかの物理学の分野においてユビキタスな乱数行列の一般クラスに対して保持される。 特に, 量子統計力学における基礎問題であるランダムハミルトニアンによって定義される孤立量子系の平衡時間に関する新たな知見が得られた。

The fundamental problem of sampling from the limiting distribution of quantum walks on networks, known as \emph{mixing}, finds widespread applications in several areas of quantum information and computation. Of particular interest in most of these applications, is the minimum time beyond which the instantaneous probability distribution of the quantum walk remains close to this limiting distribution, known as the \emph{quantum mixing time}. However this quantity is only known for a handful of specific networks. In this letter, we prove an upper bound on the quantum mixing time for \emph{almost all networks}, i.e.\ the fraction of networks for which our bound holds, goes to one in the asymptotic limit. To this end, using several results in random matrix theory, we find the quantum mixing time of Erd\"os-Renyi random networks: networks of $n$ nodes where each edge exists with probability $p$ independently. For example for dense random networks, where $p$ is a constant, we show that the quantum mixing time is $\mathcal{O}\left(n^{3/2 + o(1)}\right)$. Besides opening avenues for the analytical study of quantum dynamics on random networks, our work could find applications beyond quantum information processing. Owing to the universality of Wigner random matrices, our results on the spectral properties of random graphs hold for general classes of random matrices that are ubiquitous in several areas of physics. In particular, our results could lead to novel insights into the equilibration times of isolated quantum systems defined by random Hamiltonians, a foundational problem in quantum statistical mechanics.
翻訳日:2023-01-11 13:46:04 公開日:2020-01-14
# 月面異常検出のための教師なし分布学習

Unsupervised Distribution Learning for Lunar Surface Anomaly Detection ( http://arxiv.org/abs/2001.04634v1 )

ライセンス: Link先を確認
Adam Lesnikowski, Valentin T. Bickel, Daniel Angerhausen(参考訳) 本研究では、現代のデータ駆動機械学習技術が月面リモートセンシングデータに適用され、教師なしの方法でデータ分布の十分な表現を学習し、月面テクノシグナチャと異常検出を可能にすることを示す。 特に、教師なし分散学習ニューラルネットワークモデルをトレーニングし、データセット固有のモデルやハイパーパラメータチューニングなしで、テストデータセットでアポロ15号着陸モジュールを見つける。 十分な教師なしデータ密度の推定は、将来の宇宙飛行や植民地化のための月面資源の探索、新しい衝突クレーターや月面の再形成の発見、電力と帯域の制限されたミッションから送り返すためのラベルなしサンプルの重要性をアルゴリズム的に決定することなど、非常に有用な下流タスクを可能にする。 本研究では,このような教師なし学習が,月面リモートセンシングや宇宙科学の文脈でうまく行えることを示す。

In this work we show that modern data-driven machine learning techniques can be successfully applied on lunar surface remote sensing data to learn, in an unsupervised way, sufficiently good representations of the data distribution to enable lunar technosignature and anomaly detection. In particular we train an unsupervised distribution learning neural network model to find the Apollo 15 landing module in a testing dataset, with no dataset specific model or hyperparameter tuning. Sufficiently good unsupervised data density estimation has the promise of enabling myriad useful downstream tasks, including locating lunar resources for future space flight and colonization, finding new impact craters or lunar surface reshaping, and algorithmically deciding the importance of unlabeled samples to send back from power- and bandwidth-constrained missions. We show in this work that such unsupervised learning can be successfully done in the lunar remote sensing and space science contexts.
翻訳日:2023-01-11 13:45:18 公開日:2020-01-14
# CNN加速器用MLC STT-RAMバッファの信頼性とエネルギー効率

Reliable and Energy Efficient MLC STT-RAM Buffer for CNN Accelerators ( http://arxiv.org/abs/2001.08806v1 )

ライセンス: Link先を確認
Masoomeh Jasemi, Shaahin Hessabi, Nader Bagherzadeh(参考訳) 本稿では,ベースラインよりもソフトエラーを許容できるように,データブロックの形成を変更する軽量なスキームを提案する。 私たちの研究の背景にある重要な洞察は、cnnの重みは各畳み込み層の後に-1から1の間で正規化され、半精度浮動小数点表現では1ビットが使われないということです。 未使用のビットを活用することで、ソフトエラーから保護するために、最も重要なビットのバックアップを作成します。 また、MLC STT-RAMでは、メモリ操作のコスト(読み書き)とセルの信頼性がコンテントに依存している(一部のパターンは、より大きな電流と長い時間を要するが、ソフトエラーの影響を受けやすい)という事実を考慮して、データブロックを再構成し、コストのかかるビットパターンの数を最小限に抑える。 これら2つのテクニックを組み合わせることで、エラーのないベースラインと同等の精度が得られ、読み出しエネルギーは9%、書き込みエネルギーは6%向上する。

We propose a lightweight scheme where the formation of a data block is changed in such a way that it can tolerate soft errors significantly better than the baseline. The key insight behind our work is that CNN weights are normalized between -1 and 1 after each convolutional layer, and this leaves one bit unused in half-precision floating-point representation. By taking advantage of the unused bit, we create a backup for the most significant bit to protect it against the soft errors. Also, considering the fact that in MLC STT-RAMs the cost of memory operations (read and write), and reliability of a cell are content-dependent (some patterns take larger current and longer time, while they are more susceptible to soft error), we rearrange the data block to minimize the number of costly bit patterns. Combining these two techniques provides the same level of accuracy compared to an error-free baseline while improving the read and write energy by 9% and 6%, respectively.
翻訳日:2023-01-11 13:37:53 公開日:2020-01-14
# アルコールと薬物による人を識別する新しいアプローチ

A Novel Approach Towards Identification of Alcohol and Drug Induced People ( http://arxiv.org/abs/2001.10344v1 )

ライセンス: Link先を確認
Joyjit Chatterjee, Anita Thakur, Vajja Mukesh(参考訳) 本稿では、ウェアラブルブレスレットを用いて、アルコールと薬物を誘発する人々を識別する新しいアプローチを提案する。アルコールと薬物を誘発するヒトは無意識の精神状態にあるため、周囲からの外部からの援助が必要である。 個人の血中アルコール含量(BAC)とパルスレートとの間には明確な関係があり、飲酒者や薬物摂取者を特定する。 このパルス速度とBACの関係を圧電センサで検知し,ブレスレット装置として警告システムを開発した。 ブラスレットの生存性は、199人のBACとパルスレートの特徴のデータベースをシミュレートして検証し、アルコール誘発および正常人の分類を行う。 分類では、Ensemble Boosted Tree Algorithmが81.9%の精度で使われている。

The paper proposes a novel approach towards identification of alcohol and drug induced people, through the use of a wearable bracelet.As alcohol and drug induced human people are in an unconscious state of mind, they need external help from the surroundings.With proposed Bracelet system we can identify the alcohol and drug indused people and warning trigger message is sent to their care takers. There is a definite relationship between an individual's Blood Alcohol Content (BAC) and Pulse Rate to identify the alcohol or drug consumed person .This relationship of pulse rate with BAC is sensed by piezoelectric sensor and warning system is developed as a Bracelet device . The viability of the Bracelet is verified by Simulating a Database of 199 People's BAC and Pulse Rate Features and classification is done among the Alcohol Induced and Normal People. For classification,Ensemble Boosted Tree Algorithm is used which is having 81.9% accuracy in decision.
翻訳日:2023-01-11 13:37:13 公開日:2020-01-14
# ブロックされたRydberg原子による$(n+1)$-qubit Toffoliゲート球のスケーラビリティと高効率性

Scalability and high-efficiency of an $(n+1)$-qubit Toffoli gate sphere via blockaded Rydberg atoms ( http://arxiv.org/abs/2001.04599v1 )

ライセンス: Link先を確認
Dongmin Yu, Yichun Gao, Weiping Zhang, Jinming Liu and Jing Qian(参考訳) 可逆量子計算の基本構成要素としてのtoffoliゲートは、量子通信におけるエラー耐性率を改善する上で大きな可能性を示している。 toffoliゲート作成への現在のルートは、長い動作時間と低い平均忠実度で制限された、シーケンシャルな1ビットと2量子ビットのゲートを実装する必要がある。 我々は、rydbergブロック機構に基づく普遍的な$(n+1)$-qubit toffoliゲート球体を構築するための新しい理論的プロトコルを開発した。 その利点は、制御原子番号$n$とは無関係にわずか5$\pi$パルスを使用することで、全体のゲート時間は$\sim$125$n$sとなり、平均忠実度は0.999となる。 制御原子の最大充填数は最大で$n=46$であり、2つの閉じ込められた原子格子の間の近傍の間隔によって決定される。 実例として n=2,3,4$ とすると, ゲートの誤差は, 不完全な閉塞強度, 自発的な原子損失および不完全な基底状態の準備に起因することが確認できる。 1次元アレイ構成とは対照的に、球状原子サンプルは$n$の増加に対して高忠実な出力を保ち、スケーラブルな量子シミュレーションと複数の中性原子との絡み合いの研究に光を当てている。

The Toffoli gate serving as a basic building block for reversible quantum computation, has manifested its great potentials in improving the error-tolerant rate in quantum communication. While current route to the creation of Toffoli gate requires implementing sequential single- and two-qubit gates, limited by longer operation time and lower average fidelity. We develop a new theoretical protocol to construct a universal $(n+1)$-qubit Toffoli gate sphere based on the Rydberg blockade mechanism, by constraining the behavior of one central target atom with $n$ surrounding control atoms. Its merit lies in the use of only five $\pi$ pulses independent of the control atom number $n$ which leads to the overall gate time as fast as $\sim$125$n$s and the average fidelity closing to 0.999. The maximal filling number of control atoms can be up to $n=46$, determined by the spherical diameter which is equal to the blockade radius, as well as by the nearest neighbor spacing between two trapped-atom lattices. Taking $n=2,3,4$ as examples we comparably show the gate performance with experimentally accessible parameters, and confirm that the gate errors mainly attribute to the imperfect blockade strength, the spontaneous atomic loss and the imperfect ground-state preparation. In contrast to an one-dimensional-array configuration it is remarkable that the spherical atomic sample preserves a high-fidelity output against the increasing of $n$, shedding light on the study of scalable quantum simulation and entanglement with multiple neutral atoms.
翻訳日:2023-01-11 13:36:59 公開日:2020-01-14
# エネルギー格子上のスピンモデルによるスピン依存ポテンシャルのフェルミオンのシミュレーション

Simulating fermions in spin-dependent potentials with spin models on an energy lattice ( http://arxiv.org/abs/2001.04615v1 )

ライセンス: Link先を確認
Michael L. Wall(参考訳) スピン依存ポテンシャルのスピン1/2フェルミオンについて,単粒子モードの総占有率を変化させる原子間衝突を無視する \emph{spin model approximation} で検討した。 スピンモデル近似は相互作用フェルミオン問題を、スピン-スピン相互作用が長距離かつスピン異方性を持つエネルギー空間における格子スピンモデルのアンサンブルに写像する。 スピンモデル近似は、高調波振動子周波数と比較して弱い相互作用に対して正確であることを示し、摂動理論により予想されるよりもはるかに長い時間スケールでスピンの集合ダイナミクスを捉える。 スピンモデルに対する補正と、現実的な無調和ポテンシャル補正を考慮した場合の補正の相対的重要性について検討する。 また,エネルギー格子上でのスピンモデル解析に有用な数値的手法として,実効時間進化として多体状態の単一粒子基底変化の実施,指数関数との空間的不均一な長距離相互作用の適合などを提案する。 後者の手法はdmrg分析に使用する行列積演算子の構築に有用であり、テンソルネットワークコミュニティ内で広く適用できる可能性がある。

We study spin-1/2 fermions in spin dependent potentials under the \emph{spin model approximation}, in which interatomic collisions that change the total occupation of single-particle modes are ignored. The spin model approximation maps the interacting fermion problem to an ensemble of lattice spin models in energy space, where spin-spin interactions are long-ranged and spin-anisotropic. We show that the spin model approximation is accurate for weak interactions compared to the harmonic oscillator frequency, and captures the collective spin dynamics to timescales much longer than would be expected from perturbation theory. We explore corrections to the spin model, and the relative importance of corrections when realistic anharmonic potential corrections are taken into account. Additionally, we present numerical techniques that are useful for analysis of spin models on an energy lattice, including enacting a change of single-particle basis on a many-body state as an effective time evolution, and fitting of spatially inhomogeneous long-range interactions with exponentials. This latter technique is useful for constructing matrix product operators for use in DMRG analyses, and may have broader applicability within the tensor network community.
翻訳日:2023-01-11 13:36:28 公開日:2020-01-14
# 3量子系における集合状態の励起

Excitation of the collective states in a three-qubit system ( http://arxiv.org/abs/2001.04618v1 )

ライセンス: Link先を確認
Ya. S. Greenberg and A. A. Shtygashev(参考訳) 本稿では,線形鎖内のキュービットの集合状態のキャラクタリゼーションのための実験的に実現可能な手法を提案する。 1次元導波路に埋め込まれた3つの相互作用量子ビットによる単一光子パルスの吸収の時間ダイナミクスについて検討した。 周波数の異なるガウス型パルスと量子ビット間の相互作用パラメータの数値シミュレーションを行った。 各キュービットに対する励起確率の動的挙動について検討した。 その結果、外部励起の周波数が系の対応する固有状態の励起の周波数と一致する場合に、量子ビットの励起の最大確率振幅に達することがわかった。 この場合、鎖内の各量子ビットの確率振幅の大きさは、系の対応する集合状態に対するこの量子ビットの寄与とあいまいに相関し、これらの振幅の減衰は、導波管の光子場との相互作用から生じる共振幅によって決定される。 そこで, パルス高調波プローブは, 1次元クビット鎖における集合状態のエネルギー, 幅, 波動関数のキャラクタリゼーションに利用できることを示す。

In the present paper, we have proposed the experimentally achievable method for the characterization of the collective states of qubits in a linear chain. We study temporal dynamics of absorption of a single-photon pulse by three interacting qubits embedded in a one-dimensional waveguide. Numerical simulations were performed for a Gaussian-shaped pulse with different frequency detunings and interaction parameters between qubits. The dynamic behavior of the excitation probability for each qubit is investigated. It was shown that the maximum probability amplitudes of excitation of qubits are reached when the frequency of external excitation coincides with the frequency of excitation of the a corresponding eigenstate of the system. In this case, the the magnitude of the probability amplitude of each qubit in the chain unambiguously correlates with the contribution of this qubit to the corresponding collective state of the system, and the decay of these amplitudes are determined by the resonance width arising from the interaction of the qubit with the photon field of the waveguide. Therefore, we show that the pulsed harmonic probe can be used for the characterization of the energies, widths, and the wavefunctions of the collective states in a one-dimensional qubit chain.
翻訳日:2023-01-11 13:36:08 公開日:2020-01-14
# 古典的揺らぎ関係からの温度と量子誘起偏差の定量化

Quantifying athermality and quantum induced deviations from classical fluctuation relations ( http://arxiv.org/abs/2001.04926v1 )

ライセンス: Link先を確認
Zoe Holmes, Erick Hinds Mingo, Calvin Y.-R. Chen, Florian Mintert(参考訳) 近年,非古典現象をゆらぎ関係に組み込む量子情報理論の枠組みが出現している。 ここでは、初期熱系の熱的性質と系のエネルギー供給の量子コヒーレンスから生じる古典的ゆらぎ関係からの逸脱を探究することで、この枠組みを解明する。 特に,光子付加または光子減熱状態で調製された発振器系のクルックス様等式を開発し,平均作業抽出のためのジャルジンスキー様等式を導出する。 これらの等式を用いて、光子の追加や減算が状態の情報量を増やす程度を議論し、自由エネルギー増大過程の抑制を増幅する。 我々は、純粋な二項状態のエネルギー供給に対してクルックスのような等式を導出し、その結果の不可逆性に対するエネルギーとコヒーレンスからの非自明な寄与をもたらす。 双項状態等式が、以前に導かれたコヒーレント状態等式にどのように適合するかを示し、よりリッチな特徴集合を提供する。

In recent years a quantum information theoretic framework has emerged for incorporating non-classical phenomena into fluctuation relations. Here we elucidate this framework by exploring deviations from classical fluctuation relations resulting from the athermality of the initial thermal system and quantum coherence of the system's energy supply. In particular we develop Crooks-like equalities for an oscillator system which is prepared either in photon added or photon subtracted thermal states and derive a Jarzynski-like equality for average work extraction. We use these equalities to discuss the extent to which adding or subtracting a photon increases the informational content of a state thereby amplifying the suppression of free energy increasing process. We go on to derive a Crooks-like equality for an energy supply that is prepared in a pure binomial state, leading to a non-trivial contribution from energy and coherence on the resultant irreversibility. We show how the binomial state equality fits in relation to a previously derived coherent state equality and offers a richer feature-set.
翻訳日:2023-01-11 13:35:26 公開日:2020-01-14
# テンポラルセグメンテーションを用いた4次元顕微鏡による微小血管ダイナミックス

Microvascular Dynamics from 4D Microscopy Using Temporal Segmentation ( http://arxiv.org/abs/2001.05076v1 )

ライセンス: Link先を確認
Shir Gur, Lior Wolf, Lior Golgher, Pablo Blinder(参考訳) 近年, 高速連続体積2光子顕微鏡法が開発され, 前例のない時空間分解能で, 数百個の神経細胞のニューロン活動の観察や, 隣接血管における血流の変化が促進されている。 しかし、高撮影速度は完全な自動画像解析を必要とする一方、組織濁度と光毒性の制限は、非常にスパースでノイズの多い画像をもたらす。 本研究では,最近提案されている深層学習用体積血管セグメンテーションネットワークを拡張し,時間的解析を支援する。 この技術により、経時的脳血流量の変化を追跡し、ピア表面に向かって伝播する自発的動脈拡張を同定することができる。 この新しい機能は、機能的磁気共鳴画像(fMRI)をベースとした血行動態応答関数を特徴付けるための有望なステップである。

Recently developed methods for rapid continuous volumetric two-photon microscopy facilitate the observation of neuronal activity in hundreds of individual neurons and changes in blood flow in adjacent blood vessels across a large volume of living brain at unprecedented spatio-temporal resolution. However, the high imaging rate necessitates fully automated image analysis, whereas tissue turbidity and photo-toxicity limitations lead to extremely sparse and noisy imagery. In this work, we extend a recently proposed deep learning volumetric blood vessel segmentation network, such that it supports temporal analysis. With this technology, we are able to track changes in cerebral blood volume over time and identify spontaneous arterial dilations that propagate towards the pial surface. This new capability is a promising step towards characterizing the hemodynamic response function upon which functional magnetic resonance imaging (fMRI) is based.
翻訳日:2023-01-11 13:29:22 公開日:2020-01-14
# 確率自由異常検出支援シミュレーション

Simulation Assisted Likelihood-free Anomaly Detection ( http://arxiv.org/abs/2001.05001v1 )

ライセンス: Link先を確認
Anders Andreassen, Benjamin Nachman, and David Shih(参考訳) 大型ハドロン衝突型加速器(lhc)における新しい粒子の発見の証拠がないため、探索プログラムを拡大することが重要である。 様々なモデルに依存しない探索が提案され、予期せぬ信号に感度を加える。 一般に、シミュレーションに大きく依存する検索と、完全に(ラベル付けされていない)データに基づく検索の2つのタイプがある。 本稿では,両アプローチを最大限に活用するハイブリッド手法を提案する。 1つの特徴において共振性を持つポテンシャル信号に対して、この新しい手法は、まずパラメータ化再重み付け関数を学習し、与えられたシミュレーションを変形して、データをサイドバンドで整合させる。 この関数を信号領域に補間し、再重み付けされたバックグラウンドのみのシミュレーションを教師付き学習や背景推定に使用することができる。 再重み付けシミュレーションからの背景推定は、分類に用いられる特徴と共鳴特徴との間の非自明な相関を可能にする。 ジェットサブストラクチャーを用いたジジェットサーチを用いて新しい方法を示す。 SALAD(Simulation Assisted Likelihood-free Anomaly Detection)の今後の応用には、様々な最終状態と、他のモデルに依存しないアプローチとの潜在的な組み合わせが含まれる。

Given the lack of evidence for new particle discoveries at the Large Hadron Collider (LHC), it is critical to broaden the search program. A variety of model-independent searches have been proposed, adding sensitivity to unexpected signals. There are generally two types of such searches: those that rely heavily on simulations and those that are entirely based on (unlabeled) data. This paper introduces a hybrid method that makes the best of both approaches. For potential signals that are resonant in one known feature, this new method first learns a parameterized reweighting function to morph a given simulation to match the data in sidebands. This function is then interpolated into the signal region and then the reweighted background-only simulation can be used for supervised learning as well as for background estimation. The background estimation from the reweighted simulation allows for non-trivial correlations between features used for classification and the resonant feature. A dijet search with jet substructure is used to illustrate the new method. Future applications of Simulation Assisted Likelihood-free Anomaly Detection (SALAD) include a variety of final states and potential combinations with other model-independent approaches.
翻訳日:2023-01-11 13:28:51 公開日:2020-01-14
# ロジット混合モデルにおけるスパース共分散推定

Sparse Covariance Estimation in Logit Mixture Models ( http://arxiv.org/abs/2001.05034v1 )

ライセンス: Link先を確認
Youssef M Aboutaleb, Mazen Danaf, Yifei Xie, and Moshe Ben-Akiva(参考訳) 本稿では,ロジット混合モデルにおけるランダム係数のスパース共分散行列を推定するための新しいデータ駆動手法を提案する。 研究者はロジット混合モデルにおいて、非制限完全共分散行列(すべてのランダム係数間の相関を許す)または制限対角行列(全く相関を許さない)という2つの極端な仮定の下で共分散行列を指定するのが一般的である。 我々の目的は、共分散を推定する相関係数の最適部分集合を見つけることである。 マルコフ連鎖モンテカルロ(mcmc)を非制限完全共分散行列から後方引き出すことにより,任意の所望のスパーシティレベルに対して相関係数のサブセットに対応する共分散行列の最適ブロック対角構造仕様を求めるために,misc(mixed-integer optimization)プログラムを用いた新しい推定器を提案する。 共分散行列の最適スパーシリティレベルは、サンプル外検証を用いて決定される。 合成データから真の共分散構造を正確に復元するMISCの能力を実証する。 移動モードに関する所定の選好調査を用いた経験的な例では、miscを用いて属性の選好が相互にどのように関連しているかを示すスパース共分散行列を得る。

This paper introduces a new data-driven methodology for estimating sparse covariance matrices of the random coefficients in logit mixture models. Researchers typically specify covariance matrices in logit mixture models under one of two extreme assumptions: either an unrestricted full covariance matrix (allowing correlations between all random coefficients), or a restricted diagonal matrix (allowing no correlations at all). Our objective is to find optimal subsets of correlated coefficients for which we estimate covariances. We propose a new estimator, called MISC, that uses a mixed-integer optimization (MIO) program to find an optimal block diagonal structure specification for the covariance matrix, corresponding to subsets of correlated coefficients, for any desired sparsity level using Markov Chain Monte Carlo (MCMC) posterior draws from the unrestricted full covariance matrix. The optimal sparsity level of the covariance matrix is determined using out-of-sample validation. We demonstrate the ability of MISC to correctly recover the true covariance structure from synthetic data. In an empirical illustration using a stated preference survey on modes of transportation, we use MISC to obtain a sparse covariance matrix indicating how preferences for attributes are related to one another.
翻訳日:2023-01-11 13:28:32 公開日:2020-01-14
# 高忠実度測定による歩行者配向ダイナミクス

Pedestrian orientation dynamics from high-fidelity measurements ( http://arxiv.org/abs/2001.04646v1 )

ライセンス: Link先を確認
Joris Willems, Alessandro Corbetta, Vlado Menkovski, Federico Toschi(参考訳) 本研究では, 歩行歩行者の身体回転, 歩行動作の動態を, 実生活環境において極めて高精度に調査し, 形状, 姿勢, 歩行動作の多様さから, 非常に複雑な作業を行う。 本研究では,歩行者の運動の一般的な物理的特性に基づいて学習するディープ・ニューラル・アーキテクチャに基づく新しい計測手法を提案する。 具体的には、個々の速度と身体の向きの強い統計的相関を利用して、速度方向は肩線に対して直交する。 この近似は、瞬時にわずかに不完全ではあるが平均的に正しいという合理的な仮定を立てる。 これにより,個別方向の高精度なポイント推定のためのラベルとして速度データを使用できるため,専門的なアノテーション作業が不要なトレーニングが可能となる。 本研究では, 合成データと実時間データの両方において, 測定精度を議論し, 誤差スケーリングを示す。 このツールは、方向が重要な人間の群集ダイナミクスの研究において、新たな可能性を開く。 実生活環境における身体回転のダイナミクスを解析した結果,平均遅延100msを中心とするornstein-uhlenbeckプロセスによってランダム性が与えられる方向とランダム遅延の組み合わせにより,瞬時速度方向を記述できることを示した。 これらのダイナミクスを定量化することは、提案されたツールの正確さのおかげで可能だった。

We investigate in real-life conditions and with very high accuracy the dynamics of body rotation, or yawing, of walking pedestrians - an highly complex task due to the wide variety in shapes, postures and walking gestures. We propose a novel measurement method based on a deep neural architecture that we train on the basis of generic physical properties of the motion of pedestrians. Specifically, we leverage on the strong statistical correlation between individual velocity and body orientation: the velocity direction is typically orthogonal with respect to the shoulder line. We make the reasonable assumption that this approximation, although instantaneously slightly imperfect, is correct on average. This enables us to use velocity data as training labels for a highly-accurate point-estimator of individual orientation, that we can train with no dedicated annotation labor. We discuss the measurement accuracy and show the error scaling, both on synthetic and real-life data: we show that our method is capable of estimating orientation with an error as low as 7.5 degrees. This tool opens up new possibilities in the studies of human crowd dynamics where orientation is key. By analyzing the dynamics of body rotation in real-life conditions, we show that the instantaneous velocity direction can be described by the combination of orientation and a random delay, where randomness is provided by an Ornstein-Uhlenbeck process centered on an average delay of 100ms. Quantifying these dynamics could have only been possible thanks to a tool as precise as that proposed.
翻訳日:2023-01-11 13:27:42 公開日:2020-01-14
# コミュニティをループに維持する - マシンラーニングベースのシステムにおけるWikipedia Stakeholderの価値を理解する

Keeping Community in the Loop: Understanding Wikipedia Stakeholder Values for Machine Learning-Based Systems ( http://arxiv.org/abs/2001.04879v1 )

ライセンス: Link先を確認
C. Estelle Smith, Bowen Yu, Anjali Srivastava, Aaron Halfaker, Loren Terveen, Haiyi Zhu(参考訳) wikipediaでは、高度なアルゴリズムツールを使用して編集の質を評価し、修正措置を取る。 しかし、アルゴリズムは、それらを使用するコミュニティの価値と矛盾した場合、彼らが設計した問題を解決することができない可能性がある。 本研究では,コミュニティが作成・維持する「客観的修正評価システム」(objective revision evaluation system,ores)と呼ばれる機械学習に基づくアルゴリズムを理解するために,価値に敏感なアルゴリズム設計手法を採用する。 利害関係者グループ(およびその依存するアプリケーション)に集約された5つの大きな価値は、(1)コミュニティの維持努力を減らす、(2)最終的な権威として人間の判断を維持する、(3)人々の異なるワークフローをサポートする、(4)多様な編集者グループとの積極的な関わりを促進する、(5)コミュニティ内の人々とアルゴリズムの信頼性を確立する、の5つだ。 我々はこれらの値間の緊張関係を明らかにし、ORESのようなアルゴリズムを改善するための将来の研究の意味について議論する。

On Wikipedia, sophisticated algorithmic tools are used to assess the quality of edits and take corrective actions. However, algorithms can fail to solve the problems they were designed for if they conflict with the values of communities who use them. In this study, we take a Value-Sensitive Algorithm Design approach to understanding a community-created and -maintained machine learning-based algorithm called the Objective Revision Evaluation System (ORES)---a quality prediction system used in numerous Wikipedia applications and contexts. Five major values converged across stakeholder groups that ORES (and its dependent applications) should: (1) reduce the effort of community maintenance, (2) maintain human judgement as the final authority, (3) support differing peoples' differing workflows, (4) encourage positive engagement with diverse editor groups, and (5) establish trustworthiness of people and algorithms within the community. We reveal tensions between these values and discuss implications for future research to improve algorithms like ORES.
翻訳日:2023-01-11 13:26:57 公開日:2020-01-14
# 資源制約システム上での畳み込みニューラルネットワークの高速推論と簡単な展開のためのCコード生成器

A C Code Generator for Fast Inference and Simple Deployment of Convolutional Neural Networks on Resource Constrained Systems ( http://arxiv.org/abs/2001.05572v1 )

ライセンス: Link先を確認
Oliver Urbann, Simon Camphausen, Arne Moos, Ingmar Schwarz, S\"oren Kerner, Maximilian Otten(参考訳) 時間クリティカルなアプリケーションにおける畳み込みニューラルネットワークの推論は通常GPUを必要とする。 ロボティクスや組み込みデバイスでは、エネルギー、空間、コストの制約のために利用できないことが多い。 さらに、ディープラーニングフレームワークやネイティブコンパイラをターゲットプラットフォームにインストールすることも不可能である。 本稿では、訓練されたCNNから1つの関数で推論をカプセル化するプレーンなANSI Cコードファイルを生成するニューラルネットワークコード生成器(NNCG)を提案する。 既存のプロジェクトに簡単に組み込むことができ、依存関係の欠如のため、通常はクロスコンパイルが可能である。 さらに、コード生成は、既知のトレーニング済みcnnとターゲットプラットフォームに基づいて、4つの設計原則に従って最適化される。 このアプリケーション用に設計された小型CNNを用いて評価を行う。 TensorFlow XLAと比較すると、最大11.81のGlowスピードアップが示され、GPUでさえレイテンシに関してパフォーマンスが向上している。

Inference of Convolutional Neural Networks in time critical applications usually requires a GPU. In robotics or embedded devices these are often not available due to energy, space and cost constraints. Furthermore, installation of a deep learning framework or even a native compiler on the target platform is not possible. This paper presents a neural network code generator (NNCG) that generates from a trained CNN a plain ANSI C code file that encapsulates the inference in single a function. It can easily be included in existing projects and due to lack of dependencies, cross compilation is usually possible. Additionally, the code generation is optimized based on the known trained CNN and target platform following four design principles. The system is evaluated utilizing small CNN designed for this application. Compared to TensorFlow XLA and Glow speed-ups of up to 11.81 can be shown and even GPUs are outperformed regarding latency.
翻訳日:2023-01-11 13:26:17 公開日:2020-01-14
# 最大100キュービットの線形鎖における非マルコフ超越性

Non-Markovian super-superradiance in a linear chain of up to 100 qubits ( http://arxiv.org/abs/2001.04999v1 )

ライセンス: Link先を確認
Fatih Dinc, Agata M. Bra\'nczyk(参考訳) 1次元導波路に結合した100キュービットの線形鎖における集団励起の自然放出における非マルコフ効果について検討した。 量子ビットの臨界分離においては、系は通常のディック超放射よりも強い集団崩壊を引き起こす超超放射能(SSR)の挙動を示す。 ここでは、時間遅延コヒーレントな量子フィードバック効果が通常のディック超放射効果の上に作用している。 ここで、$\gamma_0$は1次元導波路に対する単一のエミッタ減衰率であり、$\gamma_{\rm dicke}\sim n \gamma_0$ for dicke superradianceとは対照的に、$\gamma_{\rm ssr} \sim 2.277n \gamma_0$である。 SSR崩壊速度は量子ビット分離距離で調整でき、従って量子技術にも応用できる。

We study non-Markovian enhancement effects in the spontaneous emission of a collective excitation in a linear chain of up to 100 qubits coupled to a 1D waveguide. We find that for a critical separation of qubits, the system exhibits super-superradiant (SSR) behavior leading to collective decay stronger than the usual Dicke superradiance. Here, time-delayed coherent quantum feedback effects are at play on top of the usual Dicke superradiance effects. We find a linear scaling for the SSR decay rate with increasing qubit number $N$ such that $\Gamma_{\rm SSR} \sim 2.277 N \gamma_0$, where $\gamma_0$ is the single emitter decay rate to a one-dimensional waveguide, as opposed to $\Gamma_{\rm Dicke}\sim N \gamma_0$ for Dicke superradiance. The SSR decay rate can be tuned with qubit separation distance and may therefore have application for quantum technologies.
翻訳日:2023-01-11 13:21:06 公開日:2020-01-14
# オープン・クローズド・ワールドにおける不完全データベースの等価性とコアについて

On Equivalence and Cores for Incomplete Databases in Open and Closed Worlds ( http://arxiv.org/abs/2001.04757v1 )

ライセンス: Link先を確認
Henrik Forssell and Evgeny Kharlamov and Evgenij Thorstensen(参考訳) データ交換は不完全なデータベースインスタンスの概念に大きく依存している。 このような事例のセマンティクスが提案され、オープン(OWA)、クローズド(CWA)、オープンクローズド(OCWA)の世界が含まれる。 これらすべての意味論について重要な疑問は、ある不完全なインスタンスが別のインスタンスを意味的に意味的に含んでいるかどうか、二つのインスタンスが意味的に同値である場合、あるいは小さいまたは小さい意味的に同値なインスタンスが存在するかどうかである。 OWAとCWAにとって、これらの質問は完全に答えられる。 しかし、OCWAのいくつかの変種については、未解決のままである。 本研究では,2011 年の Libkin と Sirangelo の OCWA 意味論と OCWA 意味論について述べる。 OCWA*と呼ばれる新しいOCWA意味論を、両方の意味論を仮定する同型被覆の観点で定義し、そのような被覆の観点で意味的含意と等価性を特徴づける。 この特徴付けにより、同値性を決定するための推測と検証のアルゴリズムが得られ、問題はNP完全であることを示す。 最小化問題に対して、極小性のいくつかの一般的な概念に対して、一般に閉パワーセット意味論の唯一の極小同値なインスタンスはなく、したがってより表現力のあるOCWA*に対しても存在しないことを示す。 しかし、閉集合セマンティクスについては、任意の不完全データベースに対して、元の不完全データベースと意味的に等価なすべてのインスタンスの副インスタンス(ヌルのリネームまで)である一意な有限集合を見つけることができる。 この集合の性質を研究し,解析を ocwa* に拡張する。

Data exchange heavily relies on the notion of incomplete database instances. Several semantics for such instances have been proposed and include open (OWA), closed (CWA), and open-closed (OCWA) world. For all these semantics important questions are: whether one incomplete instance semantically implies another; when two are semantically equivalent; and whether a smaller or smallest semantically equivalent instance exists. For OWA and CWA these questions are fully answered. For several variants of OCWA, however, they remain open. In this work we adress these questions for Closed Powerset semantics and the OCWA semantics of Libkin and Sirangelo, 2011. We define a new OCWA semantics, called OCWA*, in terms of homomorphic covers that subsumes both semantics, and characterize semantic implication and equivalence in terms of such covers. This characterization yields a guess-and-check algorithm to decide equivalence, and shows that the problem is NP-complete. For the minimization problem we show that for several common notions of minimality there is in general no unique minimal equivalent instance for Closed Powerset semantics, and consequently not for the more expressive OCWA* either. However, for Closed Powerset semantics we show that one can find, for any incomplete database, a unique finite set of its subinstances which are subinstances (up to renaming of nulls) of all instances semantically equivalent to the original incomplete one. We study properties of this set, and extend the analysis to OCWA*.
翻訳日:2023-01-11 13:20:00 公開日:2020-01-14
# データ効率向上の社会的・ガバナンス的意義

Social and Governance Implications of Improved Data Efficiency ( http://arxiv.org/abs/2001.05068v1 )

ライセンス: Link先を確認
Aaron D. Tucker, Markus Anderljung, and Allan Dafoe(参考訳) 多くの研究者が機械学習のデータ効率の改善に取り組んでいる。 成功すればどうなるのか? 本稿では,データ効率の向上による社会経済的影響について考察する。 具体的には、データ効率が既存のデータ豊富なai企業を保護するための参入障壁を損なうという直観を検証し、データ汚染企業との競争を激化させます。 データ効率は、MLアプリケーションの作成を容易にしますが、大規模なAI企業は、より高いパフォーマンスのAIシステムからより多くのものを得ることができます。 さらに,プライバシやデータ市場,堅牢性,誤用などへの影響は複雑である。 例えば、データ効率とともに誤用リスクが増加し、より多くのアクターが任意のレベルの能力にアクセスできるようになることは直感的に思えるが、ネット効果は、どれだけの防衛措置が改善されるかに大きく依存する。 データ効率のさらなる調査と「AI生産機能」の研究は、AI産業の発展とその社会的影響を理解するための鍵となるだろう。

Many researchers work on improving the data efficiency of machine learning. What would happen if they succeed? This paper explores the social-economic impact of increased data efficiency. Specifically, we examine the intuition that data efficiency will erode the barriers to entry protecting incumbent data-rich AI firms, exposing them to more competition from data-poor firms. We find that this intuition is only partially correct: data efficiency makes it easier to create ML applications, but large AI firms may have more to gain from higher performing AI systems. Further, we find that the effect on privacy, data markets, robustness, and misuse are complex. For example, while it seems intuitive that misuse risk would increase along with data efficiency -- as more actors gain access to any level of capability -- the net effect crucially depends on how much defensive measures are improved. More investigation into data efficiency, as well as research into the "AI production function", will be key to understanding the development of the AI industry and its societal impacts.
翻訳日:2023-01-11 13:19:28 公開日:2020-01-14
# 検閲データを用いた最適動的処理環境推定のためのマルチカテゴリアングル学習

Multicategory Angle-based Learning for Estimating Optimal Dynamic Treatment Regimes with Censored Data ( http://arxiv.org/abs/2001.04629v1 )

ライセンス: Link先を確認
Fei Xue, Yanqing Zhang, Wenzhuo Zhou, Haoda Fu, Annie Qu(参考訳) 最適な動的治療体制(DTR)は、HIV感染症やがんなどの慢性疾患に適用できる長期的利益を最大化する一連の決定規則からなる。 本稿では,生存データのための多カテゴリ処理フレームワークを用いて,最適なDTRを探索するための新しい角度ベースアプローチを開発する。 提案手法はDTR後の患者の条件生存機能を最大化する。 提案手法は,2次処理の枠組み下での生存時間を最大化するために設計された既存手法と対照的に,複数段階の検閲データに対するマルチカテゴリ処理問題を解く。 具体的には,複数の段階における決定規則の推定を,より計算効率が高く頑健な制約を課すことなく,単一のマルチカテゴリ分類アルゴリズムに統合することにより,最適DTRを得る。 理論上,正則性条件下で提案手法のフィッシャー整合性を確立する。 提案手法は条件付き生存関数の最大化の観点から競合する手法より優れていることを示す。 提案手法は,Framingham心筋データとAIDS(Imimdeficiency syndrome)の臨床データという2つの実データに適用した。

An optimal dynamic treatment regime (DTR) consists of a sequence of decision rules in maximizing long-term benefits, which is applicable for chronic diseases such as HIV infection or cancer. In this paper, we develop a novel angle-based approach to search the optimal DTR under a multicategory treatment framework for survival data. The proposed method targets maximization the conditional survival function of patients following a DTR. In contrast to most existing approaches which are designed to maximize the expected survival time under a binary treatment framework, the proposed method solves the multicategory treatment problem given multiple stages for censored data. Specifically, the proposed method obtains the optimal DTR via integrating estimations of decision rules at multiple stages into a single multicategory classification algorithm without imposing additional constraints, which is also more computationally efficient and robust. In theory, we establish Fisher consistency of the proposed method under regularity conditions. Our numerical studies show that the proposed method outperforms competing methods in terms of maximizing the conditional survival function. We apply the proposed method to two real datasets: Framingham heart study data and acquired immunodeficiency syndrome (AIDS) clinical data.
翻訳日:2023-01-11 13:19:11 公開日:2020-01-14
# 公共空間における社会ロボットのためのロバストASRの改良

Improved Robust ASR for Social Robots in Public Spaces ( http://arxiv.org/abs/2001.04619v1 )

ライセンス: Link先を確認
Charles Jankowski, Vishwas Mruthyunjaya, Ruixi Lin(参考訳) 公共空間に展開する社会ロボットは,20~5dBのノイズSNRを含む様々な要因により,ASRにとって困難な課題となる。 既存のASRモデルは、この範囲では高いSNRに対して良好に機能するが、より多くのノイズで大幅に劣化する。 本研究は,asrの性能向上のための手法について検討する。 AiShell-1中国語音声コーパスとKaldi ASRツールキットを用いて評価を行う。 SNRは20dB未満で最先端のASR性能を超えることができ、オープンソースツールキットと何百時間ものトレーニングデータを用いて比較的高性能なASRを実現することが可能であった。

Social robots deployed in public spaces present a challenging task for ASR because of a variety of factors, including noise SNR of 20 to 5 dB. Existing ASR models perform well for higher SNRs in this range, but degrade considerably with more noise. This work explores methods for providing improved ASR performance in such conditions. We use the AiShell-1 Chinese speech corpus and the Kaldi ASR toolkit for evaluations. We were able to exceed state-of-the-art ASR performance with SNR lower than 20 dB, demonstrating the feasibility of achieving relatively high performing ASR with open-source toolkits and hundreds of hours of training data, which is commonly available.
翻訳日:2023-01-11 13:18:53 公開日:2020-01-14
# ハイパースペクトル画像超解像のための空間スペクトル残差ネットワーク

Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2001.04609v1 )

ライセンス: Link先を確認
Qi Wang, Qiang Li, and Xuelong Li(参考訳) 近年,深層学習に基づくハイパースペクトル画像超解像法が大きな成功を収めている。 しかし、既存のほとんどのモデルは、バンド間の空間情報とスペクトル情報を同時に探索することができず、比較的低い性能が得られる。 本稿では,超スペクトル画像超解像(ssrnet)のための新しいスペクトル空間残差ネットワークを提案する。 提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。 さらに,ssrm(spectrum-spatial residual module)の設計を行い,局所的特徴融合により,すべての階層的特徴からより効果的な特徴を適応的に学習し,アルゴリズムの性能を向上させる。 各ユニットでは,空間的および時間的分離可能な3次元畳み込みを用いて空間的およびスペクトル的情報を抽出する。 3つのベンチマークデータセットの大規模な評価と比較は、提案手法が既存の最先端手法と比較して優れた性能を発揮することを示す。

Deep learning-based hyperspectral image super-resolution (SR) methods have achieved great success recently. However, most existing models can not effectively explore spatial information and spectral information between bands simultaneously, obtaining relatively low performance. To address this issue, in this paper, we propose a novel spectral-spatial residual network for hyperspectral image super-resolution (SSRNet). Our method can effectively explore spatial-spectral information by using 3D convolution instead of 2D convolution, which enables the network to better extract potential information. Furthermore, we design a spectral-spatial residual module (SSRM) to adaptively learn more effective features from all the hierarchical features in units through local feature fusion, significantly improving the performance of the algorithm. In each unit, we employ spatial and temporal separable 3D convolution to extract spatial and spectral information, which not only reduces unaffordable memory usage and high computational cost, but also makes the network easier to train. Extensive evaluations and comparisons on three benchmark datasets demonstrate that the proposed approach achieves superior performance in comparison to existing state-of-the-art methods.
翻訳日:2023-01-11 13:18:41 公開日:2020-01-14
# 回路ベース量子コンピュータにおける一般単一量子ビット正の演算子評価尺度の実装

Implementation of a general single-qubit positive operator-valued measure on a circuit-based quantum computer ( http://arxiv.org/abs/2001.04749v1 )

ライセンス: Link先を確認
Yordan S. Yordanov and Crispin H. W. Barnes(参考訳) 我々は,短期回路ベースの量子コンピュータ上での汎用単一量子POVMを実装するための決定論的プロトコルを導出する。 このプロトコルはモジュール構造を持ち、$n$要素のPOVMは$(n-1)$回路モジュールのシーケンスとして実装される。 各モジュールは2ドルのPOVMを実行する。 プロトコルの2つのバリエーションが提案され、1つはアシラ量子ビットの数で最適、もう1つはキュービットゲート演算数と量子回路深さで最適である。 このプロトコルを使って、2つの公開量子コンピューティングデバイスに2ドルと3ドルのPOVMを実装します。 その結果,非自明なpovmの実装は,現在の雑音量子コンピューティングデバイスの範囲内にある可能性が示唆された。

We derive a deterministic protocol to implement a general single-qubit POVM on near-term circuit-based quantum computers. The protocol has a modular structure, such that an $n$-element POVM is implemented as a sequence of $(n-1)$ circuit modules. Each module performs a $2$-element POVM. Two variations of the protocol are suggested, one optimal in terms of number of ancilla qubits, the other optimal in terms of number of qubit gate operations and quantum circuit depth. We use the protocol to implement $2$- and $3$-element POVMs on two publicly available quantum computing devices. The results we obtain suggest that implementing non-trivial POVMs could be within the reach of the current noisy quantum computing devices.
翻訳日:2023-01-11 13:11:44 公開日:2020-01-14
# 放散性ボソニックジョセフソン接合におけるパラメトリック振動

Parametric oscillations in a dissipative bosonic Josephson junction ( http://arxiv.org/abs/2001.04785v1 )

ライセンス: Link先を確認
Abhik Kumar Saha, Deb Shankar Ray, and Bimalendu Deb(参考訳) 非線形散逸ボソニックジョセフソン接合(bjj)の相互作用項における時間依存正弦波摂動を伴うダイナミクスについて検討した。 放散存在下でも周期的な振動が持続するパラメトリック共鳴を実証する。 これは摂動の周波数が摂動しないジョセフソン振動の周波数の2倍近くであり、摂動の強さが臨界しきい値を超える場合に起こる。 パラメトリック振動のしきい値条件を定式化した。 振動の性質を探索するため,パラメータ空間におけるV字形のアーノルド舌の安定性境界の多重時間スケール解析を行った。 非線形ジョセフソン効果のゼロ、ランニング、および$\pi$相モードの完全な数値シミュレーションが実施されている。 以上の結果から,通常のパラメトリック振動からカオスなパラメトリック振動への遷移が安定境界を横切るときの遷移を,$\pi$-phaseモードで行うことができることが示された。 また、位相差は、持続パラメトリック発振を実行する前に位相スリップを行う。

We study the dynamics of a nonlinear dissipative bosonic Josephson junction (BJJ) with a time-dependent sinusoidal perturbation in interaction term. We demonstrate parametric resonance where the system undergoes sustained periodic oscillations even in the presence of dissipation. This happens when the frequency of the perturbation is close to twice the frequency of the unperturbed Josephson oscillations and the strength of perturbation exceeds a critical threshold. We have formulated the threshold conditions for parametric oscillations. To explore the nature of the oscillations, we carry out a multiple time scale analysis of the stability boundaries in terms of the V-shaped Arnold's tongue in the parameter space. Full numerical simulations have been performed for the zero-, running- and $\pi$-phase modes of nonlinear Josephson effect. Our results demonstrate that in $\pi$-phase mode, the system is capable of making a transition from regular parametric to chaotic parametric oscillations as one crosses the stability boundary. Also, the phase difference undergoes phase slip before executing sustained parametric oscillations.
翻訳日:2023-01-11 13:10:42 公開日:2020-01-14
# シリコン系スピン量子ビットの高忠実性幾何ゲート

High-fidelity geometric gate for silicon-based spin qubits ( http://arxiv.org/abs/2001.04855v1 )

ライセンス: Link先を確認
Chengxian Zhang, Tao Chen, Sai Li, Xin Wang, Zheng-Yuan Xue(参考訳) 高忠実性操作は、フォールトトレラント量子計算の物理的実現の鍵である。 本稿では,シリコン系スピン量子ビットのための普遍的断熱幾何ゲートを実現するプロトコルを提案する。 力学ゲート上の幾何学的ゲートの利点は、幾何学的位相を構成するための進化ループに大きく依存する。 適切な進化ループの下では、幾何学的単一キュービットゲートとcnotゲートの両方が、系統的およびデチューン的ノイズの両方に対して動的に対応するものを上回ることができる。 また,シリコン実験と整合した雑音振幅を用いたランダム化ベンチマークを行う。 静的ノイズモデルでは、幾何ゲートの平均フィデリティは99.90\%以上であり、時間依存の1/f$型ノイズの場合、デチューニングノイズのみが存在する場合、フィデリティは約99.98\%である。 また、動的ゲートに対する幾何ゲートの忠実度の向上は、通常、1/f$の雑音の指数$\alpha$で増加し、その比が$\alpha\approx 3$のときの4倍になることを示す。 この結果から, 偏微分的に選択された進化ループを持つ幾何ゲートは, 高忠実度量子ゲートを実現する強力な方法であることが示唆された。

High-fidelity manipulation is the key for the physical realization of fault-tolerant quantum computation. Here, we present a protocol to realize universal nonadiabatic geometric gates for silicon-based spin qubits. We find that the advantage of geometric gates over dynamical gates depends crucially on the evolution loop for the construction of the geometric phase. Under appropriate evolution loops, both the geometric single-qubit gates and the CNOT gate can outperform their dynamical counterparts for both systematic and detuning noises. We also perform randomized benchmarking using noise amplitudes consistent with experiments in silicon. For the static noise model, the averaged fidelities of geometric gates are around 99.90\% or above, while for the time-dependent $1/f$-type noise, the fidelities are around 99.98\% when only the detuning noise is present. We also show that the improvement in fidelities of the geometric gates over dynamical ones typically increases with the exponent $\alpha$ of the $1/f$ noise, and the ratio can be as high as 4 when $\alpha\approx 3$. Our results suggest that geometric gates with judiciously chosen evolution loops can be a powerful way to realize high-fidelity quantum gates.
翻訳日:2023-01-11 13:10:08 公開日:2020-01-14
# DeepFactors: リアルタイム確率的高密度モノクロSLAM

DeepFactors: Real-Time Probabilistic Dense Monocular SLAM ( http://arxiv.org/abs/2001.05049v1 )

ライセンス: Link先を確認
Jan Czarnowski, Tristan Laidlow, Ronald Clark and Andrew J. Davison(参考訳) モノクロ画像からリッチな幾何学とカメラの動きを推定する能力は、未来の対話型ロボティクスと拡張現実の応用に不可欠である。 シーンの幾何学的表現(希少なランドマーク、密集した地図)、多視点問題の最適化に使用される一貫性の指標、学習前の使用など、様々なアプローチが提案されている。 リアルタイム性能を維持しつつ,これらの手法を確率的フレームワークに統合するSLAMシステムを提案する。 これは、学習されたコンパクトな深度マップ表現を使い、3つの異なるタイプのエラー(測光、再投影、幾何学)を再構成することで達成されます。 本研究では,実世界列の軌跡推定と深度再構成に関するシステム評価を行い,推定密度幾何の様々な例を示す。

The ability to estimate rich geometry and camera motion from monocular imagery is fundamental to future interactive robotics and augmented reality applications. Different approaches have been proposed that vary in scene geometry representation (sparse landmarks, dense maps), the consistency metric used for optimising the multi-view problem, and the use of learned priors. We present a SLAM system that unifies these methods in a probabilistic framework while still maintaining real-time performance. This is achieved through the use of a learned compact depth map representation and reformulating three different types of errors: photometric, reprojection and geometric, which we make use of within standard factor graph software. We evaluate our system on trajectory estimation and depth reconstruction on real-world sequences and present various examples of estimated dense geometry.
翻訳日:2023-01-11 13:02:17 公開日:2020-01-14
# Varying Rhythmsによるビデオイベントの認識

Recognizing Video Events with Varying Rhythms ( http://arxiv.org/abs/2001.05060v1 )

ライセンス: Link先を確認
Yikang Li, Tianshu Yu, Baoxin Li(参考訳) 複数のサブアクティビティを持つ長い複雑なビデオにおけるビデオイベントの認識は、最近、絶え間ない注目を集めている。 このタスクは、短い、比較的均質なビデオクリップによる従来のアクション認識よりも難しい。 本稿では,文献では考慮されていないが実用上の課題である,行動リズムの異なる長時間かつ複雑な事象を認識できる問題について検討する。 私たちの研究は、人間がさまざまなリズムでイベントを識別する方法に触発されています。 本稿では,第1段階が最も重要なフレームを選択し,第2段階が選択したフレームを用いてイベントを認識する2段階のemph{end-to-end}フレームワークを提案する。 我々のモデルはトレーニング段階ではemph{event-level label} のみを必要とするため、サブアクティビティラベルが欠落している場合や入手が困難である場合には、より実用的なものとなる。 実験結果から,テストビデオが過度なリズム変化に悩まされても,高い精度を維持しつつ,長いビデオからのイベント認識を大幅に改善できることが示唆された。 本研究は,テストとトレーニングがサブアクティビティのリズムで大きく異なる実世界のビデオベースアプリケーションの可能性を示すものである。

Recognizing Video events in long, complex videos with multiple sub-activities has received persistent attention recently. This task is more challenging than traditional action recognition with short, relatively homogeneous video clips. In this paper, we investigate the problem of recognizing long and complex events with varying action rhythms, which has not been considered in the literature but is a practical challenge. Our work is inspired in part by how humans identify events with varying rhythms: quickly catching frames contributing most to a specific event. We propose a two-stage \emph{end-to-end} framework, in which the first stage selects the most significant frames while the second stage recognizes the event using the selected frames. Our model needs only \emph{event-level labels} in the training stage, and thus is more practical when the sub-activity labels are missing or difficult to obtain. The results of extensive experiments show that our model can achieve significant improvement in event recognition from long videos while maintaining high accuracy even if the test videos suffer from severe rhythm changes. This demonstrates the potential of our method for real-world video-based applications, where test and training videos can differ drastically in rhythms of sub-activities.
翻訳日:2023-01-11 13:02:03 公開日:2020-01-14
# ユニバーサルドメイン適応のためのサンプル選択手法

A Sample Selection Approach for Universal Domain Adaptation ( http://arxiv.org/abs/2001.05071v1 )

ライセンス: Link先を確認
Omri Lifshitz and Lior Wolf(参考訳) 汎用シナリオにおける教師なしドメイン適応の問題について検討し、ソースドメインとターゲットドメインの間でクラスの一部が共有される。 本稿では,共有クラスのサンプル同定に有効なスコアリング手法を提案する。 スコアは、トレーニング中にターゲットドメイン内のサンプルを擬似ラベルに選択するために使用される。 別の損失項は、各バッチ内のラベルの多様性を促進する。 総じて,本手法は,文献ベンチマークにおける現在の技術水準を,かなりのマージンで上回っていることが示される。

We study the problem of unsupervised domain adaption in the universal scenario, in which only some of the classes are shared between the source and target domains. We present a scoring scheme that is effective in identifying the samples of the shared classes. The score is used to select which samples in the target domain to pseudo-label during training. Another loss term encourages diversity of labels within each batch. Taken together, our method is shown to outperform, by a sizable margin, the current state of the art on the literature benchmarks.
翻訳日:2023-01-11 13:01:42 公開日:2020-01-14
# 教室学習における視覚・音声データの匿名化

Automated Anonymisation of Visual and Audio Data in Classroom Studies ( http://arxiv.org/abs/2001.05080v1 )

ライセンス: Link先を確認
\"Omer S\"umer, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci(参考訳) 授業中に生徒と教師の言葉と非言語行動を理解することは、教育の質に関する貴重な情報を推測するのに役立つかもしれない。 教育研究では,教師や生徒の行動の音響・視覚的記録と手動・自動評価に基づいて,学習関連課題に対する学生の注意力を測定する研究が数多く行われている。 しかし、学生データは非常に敏感である。 したがって、データ保護とプライバシの高い標準を保証することが、現在のプラクティスにおいて最も重要である。 例えば、教育管理研究の文脈では、生徒、親、教師、学校行政の同意を得てデータ収集が行われる。 それにもかかわらず、データが研究目的に利用できない学生がしばしばいる。 これらの学生を教室から除外することは、教室の組織に不自然な侵入である。 可能な解決策は、すべての学生(自発的に研究に参加しない学生を含む)の視聴覚記録を記録し、データを匿名化するための許可を要求することである。 しかし、音声・視覚データの手動匿名化は非常に要求されている。 本研究では,特定の人物の視覚的・音声的データを自動匿名化する人工知能手法について検討する。

Understanding students' and teachers' verbal and non-verbal behaviours during instruction may help infer valuable information regarding the quality of teaching. In education research, there have been many studies that aim to measure students' attentional focus on learning-related tasks: Based on audio-visual recordings and manual or automated ratings of behaviours of teachers and students. Student data is, however, highly sensitive. Therefore, ensuring high standards of data protection and privacy has the utmost importance in current practices. For example, in the context of teaching management studies, data collection is carried out with the consent of pupils, parents, teachers and school administrations. Nevertheless, there may often be students whose data cannot be used for research purposes. Excluding these students from the classroom is an unnatural intrusion into the organisation of the classroom. A possible solution would be to request permission to record the audio-visual recordings of all students (including those who do not voluntarily participate in the study) and to anonymise their data. Yet, the manual anonymisation of audio-visual data is very demanding. In this study, we examine the use of artificial intelligence methods to automatically anonymise the visual and audio data of a particular person.
翻訳日:2023-01-11 13:01:32 公開日:2020-01-14
# CNN特徴マップの整列にSTNを使用する際の問題点

The problems with using STNs to align CNN feature maps ( http://arxiv.org/abs/2001.05858v1 )

ライセンス: Link先を確認
Lukas Finnveden, Ylva Jansson, Tony Lindeberg(参考訳) 空間トランスフォーマーネットワーク(stns)は、cnnが画像変換の不変性を学ぶために設計された。 STNはもともとCNNの特徴マップと入力画像の変換のために提案されていた。 これにより、変換パラメータを予測する際に、より複雑な機能の使用が可能になる。 しかし、STNは純粋に空間変換を行うため、一般的な場合、変換された画像とそのオリジナルの特徴写像を整列する能力を持たない。 本論では, 分類精度の低下と相まって, 実用上の意味を考察し, 問題点を考察する。 我々は、分類とローカライゼーションネットワークの間でパラメータを共有することによって、より深い層におけるより複雑な特徴を活用することを提唱する。

Spatial transformer networks (STNs) were designed to enable CNNs to learn invariance to image transformations. STNs were originally proposed to transform CNN feature maps as well as input images. This enables the use of more complex features when predicting transformation parameters. However, since STNs perform a purely spatial transformation, they do not, in the general case, have the ability to align the feature maps of a transformed image and its original. We present a theoretical argument for this and investigate the practical implications, showing that this inability is coupled with decreased classification accuracy. We advocate taking advantage of more complex features in deeper layers by instead sharing parameters between the classification and the localisation network.
翻訳日:2023-01-11 13:01:14 公開日:2020-01-14
# マルチパーティ型チャットグループにおけるターンテイク学習のためのハイブリッドソリューション

A Hybrid Solution to Learn Turn-Taking in Multi-Party Service-based Chat Groups ( http://arxiv.org/abs/2001.06350v1 )

ライセンス: Link先を確認
Maira Gatti de Bayser, Melina Alberio Guerra, Paulo Cavalin, Claudio Pinhanez(参考訳) マルチパーティ会話で対話する可能性が最も高い次の参加者を予測することは難しい問題である。 テキストベースのチャットグループでは、利用可能な情報は送信者、テキストの内容、対話履歴のみである。 本稿では,MLE(Maximum Likelihood expectation),CNN(Convolutional Neural Networks),Finite State Automata(FSA)に基づくターンテイク分類器を統合したコーパスとアーキテクチャを用いて,これらの情報を予測タスクでどのように使用できるかを検討する。 コーパスは、マルチドメインウィザード・オブ・オズのデータセット(MultiWOZ)を対話エラーのある複数の旅行サービスベースのボットシナリオに合成し、ユーザのインタラクションをシミュレートし、アーキテクチャを評価するために作成された。 本研究では,本手法が精度92.34%のベースラインよりも優れた性能を実現することを示す実験結果を示すが,mle,cnn,fsaと統合したソリューションは95.65%の精度でさらに性能が向上した。

To predict the next most likely participant to interact in a multi-party conversation is a difficult problem. In a text-based chat group, the only information available is the sender, the content of the text and the dialogue history. In this paper we present our study on how these information can be used on the prediction task through a corpus and architecture that integrates turn-taking classifiers based on Maximum Likelihood Expectation (MLE), Convolutional Neural Networks (CNN) and Finite State Automata (FSA). The corpus is a synthetic adaptation of the Multi-Domain Wizard-of-Oz dataset (MultiWOZ) to a multiple travel service-based bots scenario with dialogue errors and was created to simulate user's interaction and evaluate the architecture. We present experimental results which show that the CNN approach achieves better performance than the baseline with an accuracy of 92.34%, but the integrated solution with MLE, CNN and FSA achieves performance even better, with 95.65%.
翻訳日:2023-01-11 13:01:03 公開日:2020-01-14
# 多項式相互作用の行列積作用素表現

Matrix product operator representation of polynomial interactions ( http://arxiv.org/abs/2001.04617v1 )

ライセンス: Link先を確認
Michael L. Wall(参考訳) 1次元テンソルネットワークの一種である行列積演算子(mpo)として、格子点分離を伴う指数関数を乗じた多項式として成長する1次元格子上の相互作用ハミルトンの正確な構成を提供する。 結合次元は位数$k$の多項式に対して$(k+3)$であることを示し、系のサイズと粒子の数に依存しない。 我々の構成は明らかに変換不変であり、有限サイズまたは無限サイズの変分行列状態アルゴリズムで使用することができる。 本研究は,多体量子作用素の相関構造に関する新たな知見を与えるとともに,相互作用が指数関数的に大距離で遮蔽されるが,複雑な近距離構造を持つ多体系のシミュレーションにも応用できることを示す。

We provide an exact construction of interaction Hamiltonians on a one-dimensional lattice which grow as a polynomial multiplied by an exponential with the lattice site separation as a matrix product operator (MPO), a type of one-dimensional tensor network. We show that the bond dimension is $(k+3)$ for a polynomial of order $k$, independent of the system size and the number of particles. Our construction is manifestly translationally invariant, and so may be used in finite- or infinite-size variational matrix product state algorithms. Our results provide new insight into the correlation structure of many-body quantum operators, and may also be practical in simulations of many-body systems whose interactions are exponentially screened at large distances, but may have complex short-distance structure.
翻訳日:2023-01-11 13:00:14 公開日:2020-01-14
# ディープ・オーディオ・ビジュアル・ラーニング:サーベイ

Deep Audio-Visual Learning: A Survey ( http://arxiv.org/abs/2001.04758v1 )

ライセンス: Link先を確認
Hao Zhu, Mandi Luo, Rui Wang, Aihua Zheng, and Ran He(参考訳) 音声と視覚のモーダリティを活用しようとする音声-視覚学習は,ディープラーニングが普及して以降,かなりの注目を集めている。 研究者はこれらの2つのモダリティを活用して、以前は考慮されていた単一モダリティタスクのパフォーマンスを向上させるか、あるいは新たな課題に対処する傾向がある。 本稿では,近年の音声視覚学習開発に関する包括的調査を行う。 現在の視聴覚学習タスクを,視聴覚分離とローカライゼーション,視聴覚対応学習,視聴覚生成,視聴覚表現学習の4つのサブフィールドに分割した。 各サブフィールドにおける現状の手法と残りの課題をさらに議論する。 最後に、よく使われるデータセットとパフォーマンスメトリクスをまとめます。

Audio-visual learning, aimed at exploiting the relationship between audio and visual modalities, has drawn considerable attention since deep learning started to be used successfully. Researchers tend to leverage these two modalities either to improve the performance of previously considered single-modality tasks or to address new challenging problems. In this paper, we provide a comprehensive survey of recent audio-visual learning development. We divide the current audio-visual learning tasks into four different subfields: audio-visual separation and localization, audio-visual correspondence learning, audio-visual generation, and audio-visual representation learning. State-of-the-art methods as well as the remaining challenges of each subfield are further discussed. Finally, we summarize the commonly used datasets and performance metrics.
翻訳日:2023-01-11 12:53:37 公開日:2020-01-14
# 学習したマルチビューテクスチャ超解像

Learned Multi-View Texture Super-Resolution ( http://arxiv.org/abs/2001.04775v1 )

ライセンス: Link先を確認
Audrey Richard, Ian Cherabier, Martin R. Oswald, Vagia Tsiminaki, Marc Pollefeys and Konrad Schindler(参考訳) 仮想3Dオブジェクトの高解像度テクスチャマップを,そのオブジェクトの低解像度画像の集合から作成できる超高解像度手法を提案する。 私たちのアーキテクチャは概念を統一する (i)重複ビューの冗長性に基づく多視点超解像と (ii)高分解能(hr)画像構造の学習前処理に基づく単視点超解像 マルチビュー超解像の原理は、画像形成過程を反転させ、複数の低解像度投影から潜時HRテクスチャを復元することである。 我々は、その逆問題を適切に設計されたニューラルネットワーク層のブロックにマッピングし、学習されたシングルイメージ超解像のための標準エンコーダデコーダネットワークと組み合わせる。 画像形成モデルをネットワークに接続することで、テクスチャからイメージへの視点マッピングを学習する必要がなくなり、さまざまな入力ビューをエレガントに処理する。 実験により、マルチビュー観測と学習前の収量の組み合わせにより、テクスチャマップが改善された。

We present a super-resolution method capable of creating a high-resolution texture map for a virtual 3D object from a set of lower-resolution images of that object. Our architecture unifies the concepts of (i) multi-view super-resolution based on the redundancy of overlapping views and (ii) single-view super-resolution based on a learned prior of high-resolution (HR) image structure. The principle of multi-view super-resolution is to invert the image formation process and recover the latent HR texture from multiple lower-resolution projections. We map that inverse problem into a block of suitably designed neural network layers, and combine it with a standard encoder-decoder network for learned single-image super-resolution. Wiring the image formation model into the network avoids having to learn perspective mapping from textures to images, and elegantly handles a varying number of input views. Experiments demonstrate that the combination of multi-view observations and learned prior yields improved texture maps.
翻訳日:2023-01-11 12:53:25 公開日:2020-01-14
# ディープイメージ先行のためのニューラルアーキテクチャ探索

Neural Architecture Search for Deep Image Prior ( http://arxiv.org/abs/2001.04776v1 )

ライセンス: Link先を確認
Kary Ho, Andrew Gilbert, Hailin Jin, John Collomosse(参考訳) 我々は、最近提案されたDeep Image Prior (DIP)の下で、教師なし画像のノイズ除去、インペイント、超解像の性能を向上させるニューラルネットワークサーチ(NAS)技術を提案する。 本稿では,ディップネットワークのエンコーダ・デコーダ(e-d)構造とメタパラメータを自動的に最適化し,これら単一画像復元タスクの正規化に先立って,コンテンツ特有の役割を果たすことを示す。 我々のバイナリ表現は、通常10~20世代以内にコンテント固有のDIPを生成するために収束する非対称なE-Dネットワークの設計空間をエンコードする。 最適化されたアーキテクチャは、さまざまな写真や芸術的なコンテンツに対して、クラシックディップの視覚的品質を一貫して向上させる。

We present a neural architecture search (NAS) technique to enhance the performance of unsupervised image de-noising, in-painting and super-resolution under the recently proposed Deep Image Prior (DIP). We show that evolutionary search can automatically optimize the encoder-decoder (E-D) structure and meta-parameters of the DIP network, which serves as a content-specific prior to regularize these single image restoration tasks. Our binary representation encodes the design space for an asymmetric E-D network that typically converges to yield a content-specific DIP within 10-20 generations using a population size of 500. The optimized architectures consistently improve upon the visual quality of classical DIP for a diverse range of photographic and artistic content.
翻訳日:2023-01-11 12:53:10 公開日:2020-01-14
# 畳み込み平均:イルミナント推定のための単純な畳み込みニューラルネットワーク

Convolutional Mean: A Simple Convolutional Neural Network for Illuminant Estimation ( http://arxiv.org/abs/2001.04911v1 )

ライセンス: Link先を確認
Han Gong(参考訳) 本稿では,簡易かつ高速な畳み込みニューラルネットワークである畳み込み平均(cm)を提案する。 提案手法は,小さなニューラルネットワークモデル(1.1Kパラメータ)と48×32サムネイル入力画像のみを必要とする。 最適化されていないpythonの実装には1ミリ秒/イメージが必要です。 2つの公開データセットを用いて,提案手法は複数の測定値にまたがる現在の先行手法(数千/数百万のパラメータからなる)に匹敵する精度を示す。

We present Convolutional Mean (CM) - a simple and fast convolutional neural network for illuminant estimation. Our proposed method only requires a small neural network model (1.1K parameters) and a 48 x 32 thumbnail input image. Our unoptimized Python implementation takes 1 ms/image, which is arguably 3-3750x faster than the current leading solutions with similar accuracy. Using two public datasets, we show that our proposed light-weight method offers accuracy comparable to the current leading methods' (which consist of thousands/millions of parameters) across several measures.
翻訳日:2023-01-11 12:52:40 公開日:2020-01-14
# k-相互クラスタリングと大規模異種環境合成による人物再IDの非教師付きドメイン適応

Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis ( http://arxiv.org/abs/2001.04928v1 )

ライセンス: Link先を確認
Devinder Kumar, Parthipan Siva, Paul Marchwica and Alexander Wong(参考訳) コンピュータビジョンにおける現在進行中の大きな課題は、個人を再識別する作業である。 ディープニューラルネットワークを用いた教師付き学習によって、近年の成功は達成されているが、大規模でカスタマイズされたデータアノテーションの必要性から、そのような手法は広く採用されている。 このように、近年、データアノテーション問題を緩和するための教師なし学習アプローチに焦点が当てられているが、最近の文献のアプローチは教師なし学習アプローチに比べて性能が限られており、新しい環境における適用性も制限されている。 本稿では,人間再同定のための新規かつ教師なしのドメイン適応アプローチを導入することで,実世界,実践シナリオの個人再識別に直面する課題について述べる。 これは以下の導入によって達成される。 一 教師なしドメイン適応(ktCUDA)(対象ドメインの擬似ラベル生成のための)のためのk相互トラックレットクラスタリング及び 二 大規模な異種独立ソース環境(多種多様な対象環境に対する堅牢性及び適応性を向上させるため)からなる合成不均一Re-idドメイン(SHRED)。 4つの異なる画像とビデオのベンチマークデータセットによる実験結果から、提案されたktCUDAとSHREDのアプローチは、既存の最先端手法と比較して、再識別性能において平均5.7mAPの改善を実現し、異なる種類の環境への適応性を示している。

An ongoing major challenge in computer vision is the task of person re-identification, where the goal is to match individuals across different, non-overlapping camera views. While recent success has been achieved via supervised learning using deep neural networks, such methods have limited widespread adoption due to the need for large-scale, customized data annotation. As such, there has been a recent focus on unsupervised learning approaches to mitigate the data annotation issue; however, current approaches in literature have limited performance compared to supervised learning approaches as well as limited applicability for adoption in new environments. In this paper, we address the aforementioned challenges faced in person re-identification for real-world, practical scenarios by introducing a novel, unsupervised domain adaptation approach for person re-identification. This is accomplished through the introduction of: i) k-reciprocal tracklet Clustering for Unsupervised Domain Adaptation (ktCUDA) (for pseudo-label generation on target domain), and ii) Synthesized Heterogeneous RE-id Domain (SHRED) composed of large-scale heterogeneous independent source environments (for improving robustness and adaptability to a wide diversity of target environments). Experimental results across four different image and video benchmark datasets show that the proposed ktCUDA and SHRED approach achieves an average improvement of +5.7 mAP in re-identification performance when compared to existing state-of-the-art methods, as well as demonstrate better adaptability to different types of environments.
翻訳日:2023-01-11 12:52:27 公開日:2020-01-14
# 1000個で認識できた笑顔:歯科用x線写真からのアイデンティティの自動識別

A smile I could recognise in a thousand: Automatic identification of identity from dental radiography ( http://arxiv.org/abs/2001.05006v1 )

ライセンス: Link先を確認
Oscar de Felice, Gustavo de Felice(参考訳) 本稿では, 歯科的特徴から患者の同一性を見出すために, 複数のx線写真を自動的に比較する手法を提案する。 画像記述子認識のためのコンピュータビジョンアルゴリズムによって以前に抽出された画像特徴のマッチングに基づく。 このような方法の主な応用(問題を研究する動機でもある)は、大量災害における被害者識別である。

In this paper, we present a method to automatically compare multiple radiographs in order to find the identity of a patient out of the dental features. The method is based on the matching of image features, previously extracted by computer vision algorithms for image descriptor recognition. The principal application (being also our motivation to study the problem) of such a method would be in victim identification in mass disasters.
翻訳日:2023-01-11 12:51:36 公開日:2020-01-14
# Defocus Cues から深度を学習した単一画像深度推定

Single Image Depth Estimation Trained via Depth from Defocus Cues ( http://arxiv.org/abs/2001.05036v1 )

ライセンス: Link先を確認
Shir Gur, Lior Wolf(参考訳) 単一のRGB画像から深度を推定することはコンピュータビジョンの基本課題であり、教師付きディープラーニングを用いて最も直接的に解決される。 単一のrgb画像からの深さの教師なし学習の分野では、深さは明示的に与えられない。 フィールド内の既存の作業は、ステレオペア、モノクロビデオ、または複数のビューを受け取り、構造からの移動に基づく損失を使用して、深さ推定ネットワークを訓練する。 この作業では、異なる視点ではなく、フォーカスキューからの深さに依存します。 学習は、新しいポイントスプレッド関数の畳み込み層に基づいており、各画像位置におけるサークル・オフ・コンフュージョンから生じる位置特定カーネルを適用している。 深度推定と光場画像のための5つの共通データセットから抽出したデータについて評価し,KITTIおよびMake3Dデータセットの教師あり手法と同等な結果を得た。 デフォーカスによる深さの現象はデータセットに特有ではないので、それに基づく学習は各データセットの特定のコンテンツに過剰に適合すると仮定する。 実験の結果,これは事実であり,本手法を用いて学習した推定器は直接教師付き手法よりも,他のデータセットに対してより良い結果を与えることがわかった。

Estimating depth from a single RGB images is a fundamental task in computer vision, which is most directly solved using supervised deep learning. In the field of unsupervised learning of depth from a single RGB image, depth is not given explicitly. Existing work in the field receives either a stereo pair, a monocular video, or multiple views, and, using losses that are based on structure-from-motion, trains a depth estimation network. In this work, we rely, instead of different views, on depth from focus cues. Learning is based on a novel Point Spread Function convolutional layer, which applies location specific kernels that arise from the Circle-Of-Confusion in each image location. We evaluate our method on data derived from five common datasets for depth estimation and lightfield images, and present results that are on par with supervised methods on KITTI and Make3D datasets and outperform unsupervised learning approaches. Since the phenomenon of depth from defocus is not dataset specific, we hypothesize that learning based on it would overfit less to the specific content in each dataset. Our experiments show that this is indeed the case, and an estimator learned on one dataset using our method provides better results on other datasets, than the directly supervised methods.
翻訳日:2023-01-11 12:51:08 公開日:2020-01-14
# クラス増加オブジェクト検出のためのクロスデータセットトレーニング

Cross-dataset Training for Class Increasing Object Detection ( http://arxiv.org/abs/2001.04621v1 )

ライセンス: Link先を確認
Yongqiang Yao, Yan Wang, Yu Guo, Jiaojiao Lin, Hongwei Qin, Junjie Yan(参考訳) オブジェクト検出におけるクロスデータセットトレーニングのための,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。 異なるオブジェクトクラスを対象とする2つ以上のラベル付きデータセットが与えられた場合、cross-dataset trainingは、異なるクラスの結合を検出することを目的としています。 データセットのトレーニングにより、既存のデータセットを使用して、1つのモデルでマージされたオブジェクトクラスを検出できる。 さらに、産業アプリケーションでは、通常、オブジェクトクラスは需要に応じて増加する。 ですから、新しいクラスを追加する場合、既存のすべてのデータセットに新しいクラスをラベル付けると、かなり時間がかかります。 データセット間のトレーニングを使用する場合、新しいクラスを新しいデータセットにラベル付けるだけでよい。 我々は,PASCAL VOC,COCO,WIDER FACE,WIDER Pedestrianを単独およびクロスデータセット設定で実験した。 その結果、データセット間のパイプラインは、トレーニングと独立して、これらのデータセットで同様の印象的なパフォーマンスを同時に達成できることがわかった。

We present a conceptually simple, flexible and general framework for cross-dataset training in object detection. Given two or more already labeled datasets that target for different object classes, cross-dataset training aims to detect the union of the different classes, so that we do not have to label all the classes for all the datasets. By cross-dataset training, existing datasets can be utilized to detect the merged object classes with a single model. Further more, in industrial applications, the object classes usually increase on demand. So when adding new classes, it is quite time-consuming if we label the new classes on all the existing datasets. While using cross-dataset training, we only need to label the new classes on the new dataset. We experiment on PASCAL VOC, COCO, WIDER FACE and WIDER Pedestrian with both solo and cross-dataset settings. Results show that our cross-dataset pipeline can achieve similar impressive performance simultaneously on these datasets compared with training independently.
翻訳日:2023-01-11 12:43:33 公開日:2020-01-14
# face属性の反転

Face Attribute Invertion ( http://arxiv.org/abs/2001.04665v1 )

ライセンス: Link先を確認
X G Tu, Y Luo, H S Zhang, W J Ai, Z Ma, and M Xie(参考訳) 2つの領域間で人間の顔画像を操作することは重要かつ興味深い問題である。 既存のメソッドのほとんどは、2つのジェネレータまたは1つのジェネレータに余分な条件入力を加えることでこの問題に対処している。 本稿では,自動顔属性逆解析のためのGANに基づく新しい自己認識手法を提案する。 提案手法は入力として顔画像を取り、他の入力に条件を付けることなく単一の生成器のみを用いる。 マルチロス戦略と改良されたU-net構造から利益を得るため、トレーニングでは極めて安定しており、元の顔画像の細部を保存できる。

Manipulating human facial images between two domains is an important and interesting problem. Most of the existing methods address this issue by applying two generators or one generator with extra conditional inputs. In this paper, we proposed a novel self-perception method based on GANs for automatical face attribute inverse. The proposed method takes face images as inputs and employs only one single generator without being conditioned on other inputs. Profiting from the multi-loss strategy and modified U-net structure, our model is quite stable in training and capable of preserving finer details of the original face images.
翻訳日:2023-01-11 12:42:21 公開日:2020-01-14
# 二重規則型再帰ニューラルネットワークを用いた実時間レーンid推定

Real-Time Lane ID Estimation Using Recurrent Neural Networks With Dual Convention ( http://arxiv.org/abs/2001.04708v1 )

ライセンス: Link先を確認
Ibrahim Halfaoui, Fahd Bouzaraa, Onay Urfalioglu, Li Minzhen(参考訳) 道路路構造に関する情報を取得することは、自律的なナビゲーションにとって重要なステップである。 この目的のために、レーンマーキング検出やセマンティクスレーンセグメンテーションといった異なる視点から、いくつかのアプローチがこの課題に取り組む。 しかし、私たちの知る限りでは、正確な質問に答えるための純粋にビジョンに基づくエンドツーエンドのソリューションはまだ存在しない。 本研究では,この問題に対する2つの左利き規約に基づいて,リアルタイムで視覚のみ(すなわち単眼カメラ)の解法を提案する。 我々はこのタスクを,レーン候補の最大数を8に制限することで分類問題と解釈する。 当社のアプローチは、低複雑さ仕様と限られたランタイム要件を満たすように設計されている。 入力シーケンス固有の時間次元を利用して、高複雑さの最先端モデルを改善する。 極端な条件と異なる経路を持つ挑戦的なテストセットで95%以上の精度を達成する。

Acquiring information about the road lane structure is a crucial step for autonomous navigation. To this end, several approaches tackle this task from different perspectives such as lane marking detection or semantic lane segmentation. However, to the best of our knowledge, there is yet no purely vision based end-to-end solution to answer the precise question: How to estimate the relative number or "ID" of the current driven lane within a multi-lane road or a highway? In this work, we propose a real-time, vision-only (i.e. monocular camera) solution to the problem based on a dual left-right convention. We interpret this task as a classification problem by limiting the maximum number of lane candidates to eight. Our approach is designed to meet low-complexity specifications and limited runtime requirements. It harnesses the temporal dimension inherent to the input sequences to improve upon high-complexity state-of-the-art models. We achieve more than 95% accuracy on a challenging test set with extreme conditions and different routes.
翻訳日:2023-01-11 12:42:13 公開日:2020-01-14
# 視覚的特徴と局所的特徴を組み合わせたきめ細かい画像分類と検索

Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features ( http://arxiv.org/abs/2001.04732v1 )

ライセンス: Link先を確認
Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas(参考訳) 画像に含まれるテキストは、よりリッチな画像理解を達成するために活用できる高レベルの意味論を持つ。 特に、単なるテキストの存在は、画像検索、きめ細かい分類、視覚的質問応答といったコンピュータビジョンタスクの多様性に取り組むために使用されるべき強力なガイドコンテンツを提供する。 本稿では,テクスト情報と視覚手がかりを併用した粒度分類と画像検索の問題に対処し,これら2つのモダリティ間の既存の本質的関係を理解する。 提案モデルの新規性は、テキストの形態をキャプチャするフィッシャーベクトル符号化とともに、テキスト単語の袋を構成するためのphoc記述子の使用である。 このアプローチは、このタスクに対してより強力なマルチモーダル表現を提供し、実験が示すように、きめ細かい分類と画像検索の2つの異なるタスクで最先端の結果を得る。

Text contained in an image carries high-level semantics that can be exploited to achieve richer image understanding. In particular, the mere presence of text provides strong guiding content that should be employed to tackle a diversity of computer vision tasks such as image retrieval, fine-grained classification, and visual question answering. In this paper, we address the problem of fine-grained classification and image retrieval by leveraging textual information along with visual cues to comprehend the existing intrinsic relation between the two modalities. The novelty of the proposed model consists of the usage of a PHOC descriptor to construct a bag of textual words along with a Fisher Vector Encoding that captures the morphology of text. This approach provides a stronger multimodal representation for this task and as our experiments demonstrate, it achieves state-of-the-art results on two different tasks, fine-grained classification and image retrieval.
翻訳日:2023-01-11 12:42:00 公開日:2020-01-14
# 組織像の深層学習モデルにおけるアノテーション粒度の影響

Effects of annotation granularity in deep learning models for histopathological images ( http://arxiv.org/abs/2001.04663v1 )

ライセンス: Link先を確認
Jiangbo Shi, Zeyu Gao, Haichuan Zhang, Pargorn Puttapirat, Chunbao Wang, Xiangrong Zhang, Chen Li(参考訳) 病理は癌診断に不可欠である。 病理学者は通常、観察された細胞と組織構造に基づいて組織スライドに基づいて結論を導き出す。 機械学習の急速な発展、特にディープラーニングは、堅牢で正確な分類器を確立している。 病理組織学的なスライドの分析や診断の補助に用いられている。 ほとんどの機械学習システムは、分類やセグメンテーションなどのさまざまなタスクを正確かつ正確に実行するために、注釈付きデータセットに強く依存している。 本研究は, 画像, 境界箱, 楕円, 画素単位を含む病理組織データセットにおけるアノテーションの粒度の違いを調査し, 病理スライドにおけるアノテーションの影響を深層学習モデルに検証する。 アノテーションの粒度が異なるアノテーションに基づいて,ディープラーニングモデルのテスト分類とセグメンテーション性能に対応する実験をデザインする。 分類において、最先端のディープラーニングベースの分類器は、ピクセル毎のアノテーションデータセットでトレーニングした場合、よりよい性能を発揮する。 平均精度、リコール、F1スコアはそれぞれ7.87%、8.83%、そして7.85%向上している。 したがって, より粒度の細かいアノテーションは, 分類タスクにおけるディープラーニングアルゴリズムによりより有効に利用できることが示唆された。 同様に、セマンティックセグメンテーションアルゴリズムはピクセルワイドアノテーションによって訓練された場合、セグメンテーションの精度が8.33%向上する。 本研究は,細粒度アノテーションが深層学習モデルの性能を向上させるだけでなく,病理組織学的スライドからより正確な表現型情報を抽出するのに役立つことを示す。 細かいアノテーションで訓練された知能システムは、特定の領域を検査して診断を改善するのに役立つかもしれない。 この研究に類似した包括的予測アプローチは、表現型および遺伝子型関連研究に寄与する可能性がある。

Pathological is crucial to cancer diagnosis. Usually, Pathologists draw their conclusion based on observed cell and tissue structure on histology slides. Rapid development in machine learning, especially deep learning have established robust and accurate classifiers. They are being used to analyze histopathological slides and assist pathologists in diagnosis. Most machine learning systems rely heavily on annotated data sets to gain experiences and knowledge to correctly and accurately perform various tasks such as classification and segmentation. This work investigates different granularity of annotations in histopathological data set including image-wise, bounding box, ellipse-wise, and pixel-wise to verify the influence of annotation in pathological slide on deep learning models. We design corresponding experiments to test classification and segmentation performance of deep learning models based on annotations with different annotation granularity. In classification, state-of-the-art deep learning-based classifiers perform better when trained by pixel-wise annotation dataset. On average, precision, recall and F1-score improves by 7.87%, 8.83% and 7.85% respectively. Thus, it is suggested that finer granularity annotations are better utilized by deep learning algorithms in classification tasks. Similarly, semantic segmentation algorithms can achieve 8.33% better segmentation accuracy when trained by pixel-wise annotations. Our study shows not only that finer-grained annotation can improve the performance of deep learning models, but also help extracts more accurate phenotypic information from histopathological slides. Intelligence systems trained on granular annotations may help pathologists inspecting certain regions for better diagnosis. The compartmentalized prediction approach similar to this work may contribute to phenotype and genotype association studies.
翻訳日:2023-01-11 12:35:48 公開日:2020-01-14
# 網膜画像認識による糖尿病網膜症検出

Diabetic Retinopathy detection by retinal image recognizing ( http://arxiv.org/abs/2001.05835v1 )

ライセンス: Link先を確認
Gilberto Luis De Conto Junior(参考訳) 多くの人が世界中の糖尿病にかかっている。 この疾患には1型と2型がある。 糖尿病は糖尿病網膜症を含むいくつかの合併症をもたらすが、これは正しく治療されないと患者の視力に不可逆的なダメージを与える病気である。 早期に検出されるほど、患者が視力を失う可能性は高くなる。 現在、手技の自動化方法が実証されており、網膜症の診断プロセスは、医師が患者の網膜をモニターで分析するマニュアルである。 画像認識の実践は、糖尿病網膜症パターンを認識し、診断において患者の網膜と比較することにより、この検出に役立つ。 また、この方法は遠隔医療の行為を補助することができ、試験を受けない人は、アプリケーションが提供する診断の恩恵を受けることができる。 アプリケーションの開発は畳み込みニューラルネットワークを通じて行われ、各画像ピクセルをデジタル画像処理して分析する。 VGG-16を事前訓練したモデルとして応用するのは非常に有用であり、最終的なモデルの精度は82%であった。

Many people are affected by diabetes around the world. This disease may have type 1 and 2. Diabetes brings with it several complications including diabetic retinopathy, which is a disease that if not treated correctly can lead to irreversible damage in the patient's vision. The earlier it is detected, the better the chances that the patient will not lose vision. Methods of automating manual procedures are currently in evidence and the diagnostic process for retinopathy is manual with the physician analyzing the patient's retina on the monitor. The practice of image recognition can aid this detection by recognizing Diabetic Retinopathy patterns and comparing it with the patient's retina in diagnosis. This method can also assist in the act of telemedicine, in which people without access to the exam can benefit from the diagnosis provided by the application. The application development took place through convolutional neural networks, which do digital image processing analyzing each image pixel. The use of VGG-16 as a pre-trained model to the application basis was very useful and the final model accuracy was 82%.
翻訳日:2023-01-11 12:34:50 公開日:2020-01-14
# DDSP: 微分可能なデジタル信号処理

DDSP: Differentiable Digital Signal Processing ( http://arxiv.org/abs/2001.04643v1 )

ライセンス: Link先を確認
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu, Adam Roberts(参考訳) ほとんどの音声生成モデルは、時間または周波数の2つの領域の1つで直接サンプルを生成する。 どんな信号でも表現できるが、これらの表現は、音の発生や知覚に関する既存の知識を生かしていないため、非効率である。 第3のアプローチ(vocoders/synthesizers)は、信号処理と知覚に関する強力なドメイン知識をうまく組み込むが、表現力の制限と現代の自動微分に基づく機械学習手法との統合の難しさにより、あまり研究されていない。 本稿では,従来の信号処理要素と深層学習手法との直接統合を可能にする微分可能デジタル信号処理(ddsp)ライブラリを提案する。 音声合成に着目し,大規模な自己回帰モデルや敵対的損失を伴わずに高忠実度生成を実現し,DDSPがニューラルネットワークの表現力を失うことなく強い帰納バイアスを活用できることを実証した。 さらに,解釈可能なモジュールを組み合わせることで,各モデルコンポーネントの操作が可能となり,ピッチとラウドネスの独立制御,トレーニング中に見えないピッチの現実的な外挿,室内音響のブラインド残響,抽出された室内音響の新たな環境への移動,音色の変化などが可能になることを示した。 つまりDDSPは、ディープラーニングの利点を犠牲にすることなく、解釈可能でモジュラーな生成モデリングのアプローチを可能にする。 このライブラリはhttps://github.com/magenta/ddspで公開されている。

Most generative models of audio directly generate samples in one of two domains: time or frequency. While sufficient to express any signal, these representations are inefficient, as they do not utilize existing knowledge of how sound is generated and perceived. A third approach (vocoders/synthesizers) successfully incorporates strong domain knowledge of signal processing and perception, but has been less actively researched due to limited expressivity and difficulty integrating with modern auto-differentiation-based machine learning methods. In this paper, we introduce the Differentiable Digital Signal Processing (DDSP) library, which enables direct integration of classic signal processing elements with deep learning methods. Focusing on audio synthesis, we achieve high-fidelity generation without the need for large autoregressive models or adversarial losses, demonstrating that DDSP enables utilizing strong inductive biases without losing the expressive power of neural networks. Further, we show that combining interpretable modules permits manipulation of each separate model component, with applications such as independent control of pitch and loudness, realistic extrapolation to pitches not seen during training, blind dereverberation of room acoustics, transfer of extracted room acoustics to new environments, and transformation of timbre between disparate sources. In short, DDSP enables an interpretable and modular approach to generative modeling, without sacrificing the benefits of deep learning. The library is publicly available at https://github.com/magenta/ddsp and we welcome further contributions from the community and domain experts.
翻訳日:2023-01-11 12:33:59 公開日:2020-01-14
# オンラインファイナンシャルテキストに対するBERTに基づく感情分析とキーエンティティ検出手法

A BERT based Sentiment Analysis and Key Entity Detection Approach for Online Financial Texts ( http://arxiv.org/abs/2001.05326v1 )

ライセンス: Link先を確認
Lingyun Zhao, Lin Li, Xinhao Zheng(参考訳) インターネットの出現と急速な進歩により、金融分野への影響を与え続けている。 巨額のネガティブな財務文書から重要な情報を迅速かつ正確にマイニングする方法は、投資家や意思決定者にとって重要な問題の一つとなっている。 そこで本研究では,ソーシャルメディアにおけるオンライン・ファイナンシャル・テキストマイニングと世論分析に適用されるbertに基づく感情分析とキー・エンティティ検出手法を提案する。 まず,事前学習モデルを用いて感情分析を行い,その後,キーエンティティ検出を文章マッチングや機械読解タスクとして,異なる粒度で検討する。 その中でも,我々は主に否定的な感情情報に注目している。 我々は、従来の名前付きエンティティ認識(NER)とは異なるアプローチを用いて、特定のエンティティを検出する。 さらに,提案手法の性能を向上させるためにアンサンブル学習を用いた。 実験の結果,SVM,LR,NBM,BERTの2つの財務感情分析とキーエンティティ検出データセットにおいて,本手法の性能は概して高いことがわかった。

The emergence and rapid progress of the Internet have brought ever-increasing impact on financial domain. How to rapidly and accurately mine the key information from the massive negative financial texts has become one of the key issues for investors and decision makers. Aiming at the issue, we propose a sentiment analysis and key entity detection approach based on BERT, which is applied in online financial text mining and public opinion analysis in social media. By using pre-train model, we first study sentiment analysis, and then we consider key entity detection as a sentence matching or Machine Reading Comprehension (MRC) task in different granularity. Among them, we mainly focus on negative sentimental information. We detect the specific entity by using our approach, which is different from traditional Named Entity Recognition (NER). In addition, we also use ensemble learning to improve the performance of proposed approach. Experimental results show that the performance of our approach is generally higher than SVM, LR, NBM, and BERT for two financial sentiment analysis and key entity detection datasets.
翻訳日:2023-01-11 12:33:10 公開日:2020-01-14
# 学習に基づく逐次決定アルゴリズムの公平性:調査

Fairness in Learning-Based Sequential Decision Algorithms: A Survey ( http://arxiv.org/abs/2001.04861v1 )

ライセンス: Link先を確認
Xueru Zhang, Mingyan Liu(参考訳) 意思決定におけるアルゴリズム的公正性は、分類などのタスクでワンショット決定を行う静的な環境で広く研究されている。 しかし実際には、ほとんどの意思決定プロセスは逐次的な性質を持ち、過去の意思決定が将来のデータに影響を与える可能性がある。 これは、決定が個人やユーザが将来の決定に使用するデータを生成する場合に特に当てはまる。 本稿では,データ駆動逐次意思決定の公平性に関する文献を概観する。 我々は,(1)過去の決定は基礎となるユーザ人口に影響を与えず,したがって将来のデータにも影響を与えない,(2)過去の決定は基盤となるユーザ人口に影響を与え,したがって将来的な決定に影響を及ぼす,という2つの連続的な決定に焦点をあてる。 いずれの場合も、様々な公正介入が人口に与える影響について検討する。

Algorithmic fairness in decision-making has been studied extensively in static settings where one-shot decisions are made on tasks such as classification. However, in practice most decision-making processes are of a sequential nature, where decisions made in the past may have an impact on future data. This is particularly the case when decisions affect the individuals or users generating the data used for future decisions. In this survey, we review existing literature on the fairness of data-driven sequential decision-making. We will focus on two types of sequential decisions: (1) past decisions have no impact on the underlying user population and thus no impact on future data; (2) past decisions have an impact on the underlying user population and therefore the future data, which can then impact future decisions. In each case the impact of various fairness interventions on the underlying population is examined.
翻訳日:2023-01-11 12:32:53 公開日:2020-01-14
# バイアスモデルを用いたロバストガウス過程回帰

Robust Gaussian Process Regression with a Bias Model ( http://arxiv.org/abs/2001.04639v1 )

ライセンス: Link先を確認
Chiwoo Park, David J. Borth, Nicholas S. Wilson, Chad N. Hunter, and Fritz J. Friedersdorf(参考訳) 本稿では,ロバストガウス過程(gp)回帰に対する新しいアプローチを提案する。 既存のアプローチのほとんどは、ラプラス分布や学生-t分布のような重い尾分布から誘導される非ガウス確率に置き換えるものである。 しかし、非ガウス的可能性の使用は、後部推論における計算コストの高いベイズ近似計算の必要性をもたらす。 提案手法は,未知回帰関数の雑音および偏りの観測として外乱をモデル化し,従って回帰関数からの偏差の程度を説明するバイアス項を含む。 偏りを他のハイパーパラメータと正確に推定する方法を正則化された最大確率推定によって記述する。 バイアス推定を条件に、頑健なGP回帰を予測平均と分散推定の分析形式を持つ標準GP回帰問題に還元することができる。 したがって,提案手法は単純で計算上非常に魅力的である。 また、多くのテストシナリオに対して非常に堅牢で正確なGP推定を提供する。 数値評価では, 既往の頑健なGP手法と比較して, 異なる外周比と異なる雑音レベルの様々なシミュレーションシナリオにおいて, 提案手法を総合的に評価する。 このアプローチは、2つの測定システムからのデータに適用され、予測器はロバストな環境パラメータの測定に基づいており、応答変数は特定の外れ値を含むより複雑な化学センシング手法を使用している。 計算効率の高いgp回帰モデルとバイアスモデルにより,計測システムの有用性と環境データの価値が向上した。

This paper presents a new approach to a robust Gaussian process (GP) regression. Most existing approaches replace an outlier-prone Gaussian likelihood with a non-Gaussian likelihood induced from a heavy tail distribution, such as the Laplace distribution and Student-t distribution. However, the use of a non-Gaussian likelihood would incur the need for a computationally expensive Bayesian approximate computation in the posterior inferences. The proposed approach models an outlier as a noisy and biased observation of an unknown regression function, and accordingly, the likelihood contains bias terms to explain the degree of deviations from the regression function. We entail how the biases can be estimated accurately with other hyperparameters by a regularized maximum likelihood estimation. Conditioned on the bias estimates, the robust GP regression can be reduced to a standard GP regression problem with analytical forms of the predictive mean and variance estimates. Therefore, the proposed approach is simple and very computationally attractive. It also gives a very robust and accurate GP estimate for many tested scenarios. For the numerical evaluation, we perform a comprehensive simulation study to evaluate the proposed approach with the comparison to the existing robust GP approaches under various simulated scenarios of different outlier proportions and different noise levels. The approach is applied to data from two measurement systems, where the predictors are based on robust environmental parameter measurements and the response variables utilize more complex chemical sensing methods that contain a certain percentage of outliers. The utility of the measurement systems and value of the environmental data are improved through the computationally efficient GP regression and bias model.
翻訳日:2023-01-11 12:26:24 公開日:2020-01-14
# ECGセグメンテーションのためのディープラーニング

Deep Learning for ECG Segmentation ( http://arxiv.org/abs/2001.04689v1 )

ライセンス: Link先を確認
Viktor Moskalenko, Nikolai Zolotykh, Grigory Osipov(参考訳) unetライクな完全畳み込みニューラルネットワークを用いた心電図(ecg)セグメンテーションアルゴリズムを提案する。 アルゴリズムは任意のサンプリングレートECG信号を入力として受信し、出力としてP波とT波とQRS複合体のオンセットとオフセットのリストを与える。 セグメンテーションの手法は,異なるサンプリングレートに適応し,各種のECGモニタに一般化するなど,速度,パラメータ数,一般化の点で他と異なる。 提案手法は品質面で他の最先端セグメンテーション手法よりも優れている。 特に、p波およびt波およびqrs波複合体の開始とオフセットを検出するf1測定値は、それぞれ97.8%、99.5%、99.9%である。

We propose an algorithm for electrocardiogram (ECG) segmentation using a UNet-like full-convolutional neural network. The algorithm receives an arbitrary sampling rate ECG signal as an input, and gives a list of onsets and offsets of P and T waves and QRS complexes as output. Our method of segmentation differs from others in speed, a small number of parameters and a good generalization: it is adaptive to different sampling rates and it is generalized to various types of ECG monitors. The proposed approach is superior to other state-of-the-art segmentation methods in terms of quality. In particular, F1-measures for detection of onsets and offsets of P and T waves and for QRS-complexes are at least 97.8%, 99.5%, and 99.9%, respectively.
翻訳日:2023-01-11 12:25:35 公開日:2020-01-14
# 非凸世界での分散学習: バッチからストリーミングデータ、そしてそれ以上

Distributed Learning in the Non-Convex World: From Batch to Streaming Data, and Beyond ( http://arxiv.org/abs/2001.04786v1 )

ライセンス: Link先を確認
Tsung-Hui Chang, Mingyi Hong, Hoi-To Wai, Xinwei Zhang, and Songtao Lu(参考訳) 分散学習は、多くの人々が思い描いている大規模に繋がった世界の重要な実現手段になっている。 本稿では、スケーラブルな分散処理とリアルタイムインテリジェンス(問題、データ、通信、計算)の4つの重要な要素について論じる。 私たちの目標は、これらの要素が効果的で一貫性のある方法でどのように連携すべきか、新鮮でユニークな視点を提供することです。 特に,非凸モデル(問題クラス)の最適化,バッチおよびストリーミングデータ(データ型)の処理,ネットワーク上の分散処理(通信と計算パラダイム)のために開発された最近の技術について,選択的レビューを提示する。 我々は,分散アルゴリズムのコアセットの背後にある直観と接続について述べ,計算と通信コストのトレードオフを強調する。 今後の課題や今後の研究の方向性についても述べる。

Distributed learning has become a critical enabler of the massively connected world envisioned by many. This article discusses four key elements of scalable distributed processing and real-time intelligence --- problems, data, communication and computation. Our aim is to provide a fresh and unique perspective about how these elements should work together in an effective and coherent manner. In particular, we {provide a selective review} about the recent techniques developed for optimizing non-convex models (i.e., problem classes), processing batch and streaming data (i.e., data types), over the networks in a distributed manner (i.e., communication and computation paradigm). We describe the intuitions and connections behind a core set of popular distributed algorithms, emphasizing how to trade off between computation and communication costs. Practical issues and future research directions will also be discussed.
翻訳日:2023-01-11 12:24:49 公開日:2020-01-14
# 動的関数的アプローチによるベイズ推定アルゴリズムの解析

Analysis of Bayesian Inference Algorithms by the Dynamical Functional Approach ( http://arxiv.org/abs/2001.04918v1 )

ライセンス: Link先を確認
Burak \c{C}akmak and Manfred Opper(参考訳) 学生-教師シナリオにおけるガウス潜在変数モデルを用いて近似推論のためのアルゴリズムのダイナミクスを解析する。 潜伏変数間の非自明な依存関係をモデル化するために、回転不変アンサンブルから引き出されたランダムな共分散行列を仮定する。 完全データモデルマッチングの場合、レプリカ法から派生した静的順序パラメータの知識により、行列ベクトル乗算と固定行列との解法により効率的なアルゴリズム更新が得られる。 動的関数的アプローチを用いて, 単一ノードの熱力学的極限において, 完全に有効な確率過程を求める。 このことから、収束率に対する閉形式式を得る。 解析結果は、大きなモデルの単一インスタンスのシミュレーションとよく一致している。

We analyze the dynamics of an algorithm for approximate inference with large Gaussian latent variable models in a student-teacher scenario. To model nontrivial dependencies between the latent variables, we assume random covariance matrices drawn from rotation invariant ensembles. For the case of perfect data-model matching, the knowledge of static order parameters derived from the replica method allows us to obtain efficient algorithmic updates in terms of matrix-vector multiplications with a fixed matrix. Using the dynamical functional approach, we obtain an exact effective stochastic process in the thermodynamic limit for a single node. From this, we obtain closed-form expressions for the rate of the convergence. Analytical results are excellent agreement with simulations of single instances of large models.
翻訳日:2023-01-11 12:24:35 公開日:2020-01-14
# コミュニティ検出のための人工ベンチマーク(ABCD):コミュニティ構造を持つ高速ランダムグラフモデル

Artificial Benchmark for Community Detection (ABCD): Fast Random Graph Model with Community Structure ( http://arxiv.org/abs/2002.00843v1 )

ライセンス: Link先を確認
Bogumi{\l} Kami\'nski and Pawe{\l} Pra{\l}at and Fran\c{c}ois Th\'eberge(参考訳) 実践者にとって関心のある現在の複雑なネットワークのほとんどは、ネットワークの性質を理解する上で重要な役割を果たす特定のコミュニティ構造を持っている。 さらに、複雑なネットワーク用に開発された機械学習アルゴリズムやツールは、コミュニティの存在を利用して、パフォーマンスやスピードを向上させる。 その結果,大規模ネットワーク上でのコミュニティ検出には競合するアルゴリズムが多数存在する。 残念ながら、これらのアルゴリズムは非常に敏感で、特定の、しかし常に変化する現実世界のネットワークのために微調整することはできない。 したがって、これらのアルゴリズムは、複雑なネットワークで観測されるコミュニティ構造、法則次数分布、その他の典型的特性を組み込んだ合成グラフでしか実行できない様々なシナリオに対してテストすることが重要である。 人工ネットワークを生成する標準的な手法はlfrグラフ生成器である。 残念ながら、このモデルにはスケーラビリティの制限があり、理論的に分析することが難しい。 最後に、混合パラメータ$\mu$は、コミュニティの強みを導くモデルの主パラメータであり、不可避な解釈を持ち、不自然に定義されたネットワークにつながる可能性がある。 本稿では,コミュニティ構造とコミュニティサイズおよびコミュニティサイズの両方のパワー-法則分布を持つ代替ランダムグラフモデルとして,ABCD(Artificial Benchmark for Community Detection)を提案する。 以上の3つの問題を,新しいモデルで解決できることが示される。 結論は、これらのモデルが同等のグラフを生成するが、ABCDは高速で単純であり、ユーザーが2つの極端な(独立でない)コミュニティと、コミュニティ構造のないランダムグラフをスムーズに移行できるように調整することができる。

Most of the current complex networks that are of interest to practitioners possess a certain community structure that plays an important role in understanding the properties of these networks. Moreover, many machine learning algorithms and tools that are developed for complex networks try to take advantage of the existence of communities to improve their performance or speed. As a result, there are many competing algorithms for detecting communities in large networks. Unfortunately, these algorithms are often quite sensitive and so they cannot be fine-tuned for a given, but a constantly changing, real-world network at hand. It is therefore important to test these algorithms for various scenarios that can only be done using synthetic graphs that have built-in community structure, power-law degree distribution, and other typical properties observed in complex networks. The standard and extensively used method for generating artificial networks is the LFR graph generator. Unfortunately, this model has some scalability limitations and it is challenging to analyze it theoretically. Finally, the mixing parameter $\mu$, the main parameter of the model guiding the strength of the communities, has a non-obvious interpretation and so can lead to unnaturally-defined networks. In this paper, we provide an alternative random graph model with community structure and power-law distribution for both degrees and community sizes, the Artificial Benchmark for Community Detection (ABCD). We show that the new model solves the three issues identified above and more. The conclusion is that these models produce comparable graphs but ABCD is fast, simple, and can be easily tuned to allow the user to make a smooth transition between the two extremes: pure (independent) communities and random graph with no community structure.
翻訳日:2023-01-11 12:24:25 公開日:2020-01-14
# 歪み非依存深透かし

Distortion Agnostic Deep Watermarking ( http://arxiv.org/abs/2001.04580v1 )

ライセンス: Link先を確認
Xiyang Luo, Ruohan Zhan, Huiwen Chang, Feng Yang, Peyman Milanfar(参考訳) ウォーターマーキング(英: Watermarking)とは、歪みの下で生き残ることができる画像に情報を埋め込むプロセスであり、エンコードされた画像は元の画像と知覚的な違いがほとんどあるいは全くない。 近年,深層学習に基づく手法は,様々な画像歪み下での視覚的品質とメッセージペイロードの両面で顕著な成果を上げている。 しかし、これらの手法はすべて、トレーニング時の画像歪みの微分可能なモデルを必要とし、未知の歪みに一般化する可能性がある。 透かし画像に適用される歪みのタイプは通常未知であり、微分不可能であるため、これは望ましくない。 本稿では、画像歪みをトレーニング中に明示的にモデル化しない歪み非依存型透かしの新しい枠組みを提案する。 その代わり、我々のシステムの堅牢性は、敵対的なトレーニングとチャネルコーディングという2つの情報源から来ている。 一定のゆがみとノイズレベルでのトレーニングと比較すると,トレーニング中に得られる歪みと未知の歪みのパフォーマンスに匹敵する,あるいはより優れた結果が得られる。

Watermarking is the process of embedding information into an image that can survive under distortions, while requiring the encoded image to have little or no perceptual difference from the original image. Recently, deep learning-based methods achieved impressive results in both visual quality and message payload under a wide variety of image distortions. However, these methods all require differentiable models for the image distortions at training time, and may generalize poorly to unknown distortions. This is undesirable since the types of distortions applied to watermarked images are usually unknown and non-differentiable. In this paper, we propose a new framework for distortion-agnostic watermarking, where the image distortion is not explicitly modeled during training. Instead, the robustness of our system comes from two sources: adversarial training and channel coding. Compared to training on a fixed set of distortions and noise levels, our method achieves comparable or better results on distortions available during training, and better performance on unknown distortions.
翻訳日:2023-01-11 12:23:57 公開日:2020-01-14
# クロスモーダル検索のための非対称相関量子化ハッシュ

Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval ( http://arxiv.org/abs/2001.04625v1 )

ライセンス: Link先を確認
Lu Wang, Jie Yang(参考訳) 大規模多重モダリティデータの類似性計算やデータベースストレージが優れているため、クロスモーダルハッシュ法は、異種モダリティ間の類似性検索において大きな注目を集めている。 However, there are still some limitations to be further taken into account: (1) most current CMH methods transform real-valued data points into discrete compact binary codes under the binary constraints, limiting the capability of representation for original data on account of abundant loss of information and producing suboptimal hash codes; (2) the discrete binary constraint learning model is hard to solve, where the retrieval performance may greatly reduce by relaxing the binary constraints for large quantization error; (3) handling the learning problem of CMH in a symmetric framework, leading to difficult and complex optimization objective. 本稿では,この課題に対処するために,新しい非対称相関量子化ハッシュ法(acqh)を提案する。 具体的には、acqhは、潜在意味空間においてクエリを低次元実数値ベクトルに変換するための不均一モダリティデータポイントの投影行列を学習し、ポイントラベル情報回帰の助けを借りて、コードブック内の一連の学習実数値コードワードでデータベースポイントを示すための粗大から細かな方法で積層合成量子化組込みを構築する。 さらに、モダリティにまたがる統一ハッシュコードは、論文で考案された離散的反復最適化フレームワークによって直接得られる。 多様な3つのベンチマークデータセットに関する総合的な実験は、ACQHの有効性と合理性を示している。

Due to the superiority in similarity computation and database storage for large-scale multiple modalities data, cross-modal hashing methods have attracted extensive attention in similarity retrieval across the heterogeneous modalities. However, there are still some limitations to be further taken into account: (1) most current CMH methods transform real-valued data points into discrete compact binary codes under the binary constraints, limiting the capability of representation for original data on account of abundant loss of information and producing suboptimal hash codes; (2) the discrete binary constraint learning model is hard to solve, where the retrieval performance may greatly reduce by relaxing the binary constraints for large quantization error; (3) handling the learning problem of CMH in a symmetric framework, leading to difficult and complex optimization objective. To address above challenges, in this paper, a novel Asymmetric Correlation Quantization Hashing (ACQH) method is proposed. Specifically, ACQH learns the projection matrixs of heterogeneous modalities data points for transforming query into a low-dimensional real-valued vector in latent semantic space and constructs the stacked compositional quantization embedding in a coarse-to-fine manner for indicating database points by a series of learnt real-valued codeword in the codebook with the help of pointwise label information regression simultaneously. Besides, the unified hash codes across modalities can be directly obtained by the discrete iterative optimization framework devised in the paper. Comprehensive experiments on diverse three benchmark datasets have shown the effectiveness and rationality of ACQH.
翻訳日:2023-01-11 12:23:41 公開日:2020-01-14
# SimEx: オートエンコーダのフリートによるデータセット間類似性の高速予測

SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of Autoencoders ( http://arxiv.org/abs/2001.04893v1 )

ライセンス: Link先を確認
Inseok Hwang, Jinho Lee, Frank Liu, Minsik Cho(参考訳) データのセット間の類似性を知ることは、モデル転送に好適な既知のデータセットのインフォームド選択の支援や、未知のデータセットによるデータ拡張問題など、効果的なモデルのトレーニングにおいて多くのポジティブな意味を持つ。 データ間の類似性を見積もる一般的なプラクティスとしては、元のサンプル空間の比較、特定のタスクを実行するモデルからの埋め込み空間の比較、異なるデータセットで事前トレーニングされたモデルを微調整、パフォーマンス変化の評価などがある。 しかしながら、これらのプラクティスは、浅い比較、タスク固有のバイアス、あるいは比較を行うのに必要な広範な時間と計算に悩まされる。 我々は,事前訓練されたオートエンコーダのセットを用いて,データセット間の類似性を早期に予測する手法であるSimExを提案する。 具体的には,事前学習したオートエンコーダに対して未知のデータサンプルを入力とし,再構成した出力サンプルと元の入力サンプルとの差を評価する。 私たちの直感では、未知のデータサンプルと、オートエンコーダがトレーニングした既知のデータの一部との間には、より多くの類似性が存在します。 本手法は,一般的な類似度推定手法と比較して,データセット間類似度予測において10倍以上の高速化を実現する。 また,本手法により推定されるデータセット間の類似性は,一般的なプラクティスとよく相関し,サンプル空間や埋め込み空間で比較するベースラインアプローチよりも優れていることを示した。

Knowing the similarity between sets of data has a number of positive implications in training an effective model, such as assisting an informed selection out of known datasets favorable to model transfer or data augmentation problems with an unknown dataset. Common practices to estimate the similarity between data include comparing in the original sample space, comparing in the embedding space from a model performing a certain task, or fine-tuning a pretrained model with different datasets and evaluating the performance changes therefrom. However, these practices would suffer from shallow comparisons, task-specific biases, or extensive time and computations required to perform comparisons. We present SimEx, a new method for early prediction of inter-dataset similarity using a set of pretrained autoencoders each of which is dedicated to reconstructing a specific part of known data. Specifically, our method takes unknown data samples as input to those pretrained autoencoders, and evaluate the difference between the reconstructed output samples against their original input samples. Our intuition is that, the more similarity exists between the unknown data samples and the part of known data that an autoencoder was trained with, the better chances there could be that this autoencoder makes use of its trained knowledge, reconstructing output samples closer to the originals. We demonstrate that our method achieves more than 10x speed-up in predicting inter-dataset similarity compared to common similarity-estimating practices. We also demonstrate that the inter-dataset similarity estimated by our method is well-correlated with common practices and outperforms the baselines approaches of comparing at sample- or embedding-spaces, without newly training anything at the comparison time.
翻訳日:2023-01-11 12:17:17 公開日:2020-01-14
# オートエンコーダに基づく教師なし画像コンテンツ転送における新たな絡み合い

Emerging Disentanglement in Auto-Encoder Based Unsupervised Image Content Transfer ( http://arxiv.org/abs/2001.05017v1 )

ライセンス: Link先を確認
Ori Press, Tomer Galanti, Sagie Benaim, Lior Wolf(参考訳) 我々は、A のサンプル b が A のサンプル a に存在する全ての情報といくつかの追加情報を含むように、A と B の間の教師なしの方法で写像を学習する問題を研究する。 例えば、オクルージョンを無視して、Bは眼鏡をかけた人、Aは眼鏡をかけていない人、そしてBは追加情報となる。 第1のドメインから他のドメインにサンプルaをマッピングすると、b内の独立した参照サンプルbから不足した情報が複製される。 本ソリューションでは,2経路エンコーダを1つ,デコーダを1つ採用している。 2つの領域の共通部分と分離部分の共通部分は2つのベクトルとして符号化され、分離部分はドメインAに対してゼロで固定される。 我々の分析により, 軽度な仮定の下では, このアーキテクチャは, 文学的指導翻訳法よりもはるかに単純であり, 2つの領域間の絡み合いを保証するのに十分であることが示された。 眼鏡なし,参照画像に基づく顔毛の追加など,いくつかの視覚領域において説得力のある結果を提示する。

We study the problem of learning to map, in an unsupervised way, between domains A and B, such that the samples b in B contain all the information that exists in samples a in A and some additional information. For example, ignoring occlusions, B can be people with glasses, A people without, and the glasses, would be the added information. When mapping a sample a from the first domain to the other domain, the missing information is replicated from an independent reference sample b in B. Thus, in the above example, we can create, for every person without glasses a version with the glasses observed in any face image. Our solution employs a single two-pathway encoder and a single decoder for both domains. The common part of the two domains and the separate part are encoded as two vectors, and the separate part is fixed at zero for domain A. The loss terms are minimal and involve reconstruction losses for the two domains and a domain confusion term. Our analysis shows that under mild assumptions, this architecture, which is much simpler than the literature guided-translation methods, is enough to ensure disentanglement between the two domains. We present convincing results in a few visual domains, such as no-glasses to glasses, adding facial hair based on a reference image, etc.
翻訳日:2023-01-11 12:16:34 公開日:2020-01-14
# トランスフォーマベースツリーデコーダを用いたユーザインタフェースレイアウト設計の自動補完

Auto Completion of User Interface Layout Design Using Transformer-Based Tree Decoders ( http://arxiv.org/abs/2001.05308v1 )

ライセンス: Link先を確認
Yang Li, Julien Amelot, Xin Zhou, Samy Bengio, Si Si(参考訳) 設計プロセスを容易にする自動機械の開発は、この分野の関心が高まっている。 本稿では,アプリケーション開発において重要な課題であるグラフィカルユーザインタフェース(UI)レイアウト設計の支援に焦点をあてる。 設計者が入力した部分的なレイアウトが与えられた場合、モデルでは、残りのUI要素を正しい位置と寸法と階層構造で予測することでレイアウトを完成させることを学びます。 このような自動化は、uiデザイナーと開発者の労力を大幅に軽減します。 インターフェースレイアウトの予測に着目する一方で,木構造や2次元配置を含む他のレイアウト予測問題にも適用可能である。 特に、TransformerベースのツリーデコーダであるPointerとRecursive Transformerの2つのバージョンを設計し、これらのモデルをパブリックデータセット上で実験する。 また,木木予測の精度を測定し,これらの指標をユーザエクスペリエンスの領域でグラウンド化する指標を提案する。 これらは深層学習研究に新たな課題と方法をもたらす。

It has been of increasing interest in the field to develop automatic machineries to facilitate the design process. In this paper, we focus on assisting graphical user interface (UI) layout design, a crucial task in app development. Given a partial layout, which a designer has entered, our model learns to complete the layout by predicting the remaining UI elements with a correct position and dimension as well as the hierarchical structures. Such automation will significantly ease the effort of UI designers and developers. While we focus on interface layout prediction, our model can be generally applicable for other layout prediction problems that involve tree structures and 2-dimensional placements. Particularly, we design two versions of Transformer-based tree decoders: Pointer and Recursive Transformer, and experiment with these models on a public dataset. We also propose several metrics for measuring the accuracy of tree prediction and ground these metrics in the domain of user experience. These contribute a new task and methods to deep learning research.
翻訳日:2023-01-11 12:15:40 公開日:2020-01-14
# 語彙に基づくソーシャルメディアにおける論争の定量化手法

Vocabulary-based Method for Quantifying Controversy in Social Media ( http://arxiv.org/abs/2001.09899v1 )

ライセンス: Link先を確認
Juan Manuel Ortiz de Zarate and Esteban Feuerstein(参考訳) 議論の的になっているトピックの特定は、社会的な観点からも興味深いだけでなく、情報の分離を避け、議論の文脈を良くし、ベストケースで合意に達する方法の適用も可能である。 本稿では,ソーシャルメディアのコミュニティで使われるジャーゴンをもとに,議論検出のための体系的な手法を提案する。 本手法は,言語に依存しない,効率的で適用が容易なドメイン固有知識を不要とする。 我々は、多くの言語、地域、文脈にまたがって広範な実験を行い、議論の余地のない話題を取り上げている。 語彙ベースの尺度は,コミュニティグラフ構造のみに基づいた技術指標よりも優れた性能を示すことがわかりました。 さらに,テキスト解析により偏光を検出することが可能であることを示す。

Identifying controversial topics is not only interesting from a social point of view, it also enables the application of methods to avoid the information segregation, creating better discussion contexts and reaching agreements in the best cases. In this paper we develop a systematic method for controversy detection based primarily on the jargon used by the communities in social media. Our method dispenses with the use of domain-specific knowledge, is language-agnostic, efficient and easy to apply. We perform an extensive set of experiments across many languages, regions and contexts, taking controversial and non-controversial topics. We find that our vocabulary-based measure performs better than state of the art measures that are based only on the community graph structure. Moreover, we shows that it is possible to detect polarization through text analysis.
翻訳日:2023-01-11 12:15:07 公開日:2020-01-14
# 神経演算ユニット

Neural Arithmetic Units ( http://arxiv.org/abs/2001.05016v1 )

ライセンス: Link先を確認
Andreas Madsen, Alexander Rosenberg Johansen(参考訳) ニューラルネットワークは複雑な関数を近似することができるが、実数に対して正確な演算を行うのに苦労する。 算術演算における帰納バイアスの欠如は、加算、減算、乗算といったタスクに外挿するために必要な基礎となる論理を含まないニューラルネットワークを残している。 ニューラルネットワークコンポーネントとして、正確な加算と減算を学習可能なニューラル加算ユニット(NAU)と、ベクトルのサブセットを乗算可能なニューラル乗算ユニット(NMU)がある。 nmuは、私たちの知識では、隠れたサイズが大きくなると、ベクトルから要素を乗算することを学ぶことができる最初の算術ニューラルネットワークコンポーネントです。 この2つの新しい成分は、最近提案された算術成分の理論解析からインスピレーションを得ている。 NAUとNMUを最適化する際には、注意深い初期化、パラメータ空間の制限、空間の規則化が重要である。 提案するニューラルユニットnauとnmuは,従来のニューラルユニットと比較して,より一貫して収束し,パラメータを少なくし,より速く学習し,より大きな隠れたサイズで収束し,ばらばらで有意義な重みを得て,負の値と小さい値に外挿することができる。

Neural networks can approximate complex functions, but they struggle to perform exact arithmetic operations over real numbers. The lack of inductive bias for arithmetic operations leaves neural networks without the underlying logic necessary to extrapolate on tasks such as addition, subtraction, and multiplication. We present two new neural network components: the Neural Addition Unit (NAU), which can learn exact addition and subtraction; and the Neural Multiplication Unit (NMU) that can multiply subsets of a vector. The NMU is, to our knowledge, the first arithmetic neural network component that can learn to multiply elements from a vector, when the hidden size is large. The two new components draw inspiration from a theoretical analysis of recently proposed arithmetic components. We find that careful initialization, restricting parameter space, and regularizing for sparsity is important when optimizing the NAU and NMU. Our proposed units NAU and NMU, compared with previous neural units, converge more consistently, have fewer parameters, learn faster, can converge for larger hidden sizes, obtain sparse and meaningful weights, and can extrapolate to negative and small values.
翻訳日:2023-01-11 12:14:55 公開日:2020-01-14
# 群発観測による対向性遠絡

Adversarial Disentanglement with Grouped Observations ( http://arxiv.org/abs/2001.04761v1 )

ライセンス: Link先を確認
Jozsef Nemeth(参考訳) 変分オートエンコーダを用いて,データ(コンテンツ)の関連属性の表現を,他の変化要因(スタイル)から切り離すことを検討する。 近年のいくつかの研究は、各グループ内でコンテンツ属性が共通であると仮定したグループ化された観察を利用してこの問題に対処している。 しかし、多くの場合、これらの手法は、スタイル変数を使用してコンテンツ関連の機能をエンコードするのを防ぐことができない。 この研究は、これらのアルゴリズムを、スタイル表現のコンテンツ情報を排除する手法で補う。 この目的のために、訓練目的は、適切な定義の相互情報項を敵対的に最小化するために強化される。 画像データセットにおける実験結果と比較の結果から, 提案手法は, コンテンツとスタイル関連属性を効率的に分離し, 非知覚データに一般化できることがわかった。

We consider the disentanglement of the representations of the relevant attributes of the data (content) from all other factors of variations (style) using Variational Autoencoders. Some recent works addressed this problem by utilizing grouped observations, where the content attributes are assumed to be common within each group, while there is no any supervised information on the style factors. In many cases, however, these methods fail to prevent the models from using the style variables to encode content related features as well. This work supplements these algorithms with a method that eliminates the content information in the style representations. For that purpose the training objective is augmented to minimize an appropriately defined mutual information term in an adversarial way. Experimental results and comparisons on image datasets show that the resulting method can efficiently separate the content and style related attributes and generalizes to unseen data.
翻訳日:2023-01-11 12:07:44 公開日:2020-01-14
# ニューラルネットワーク圧縮と正規化のための量子化とプルーニング

Quantisation and Pruning for Neural Network Compression and Regularisation ( http://arxiv.org/abs/2001.04850v1 )

ライセンス: Link先を確認
Kimessha Paupamah, Steven James, Richard Klein(参考訳) ディープニューラルネットワークは通常、計算コストがかかりすぎて、コンシューマ級のハードウェアや低消費電力デバイスでリアルタイムに動作できない。 本稿では,ネットワークプルーニングと量子化によるニューラルネットワークの計算・メモリ要件の低減について検討する。 最近のコンパクトアーキテクチャであるShuffleNetやMobileNetと比較して,AlexNetのような大規模ネットワーク上での有効性を検討する。 その結果,pruning と quantization は,これらのネットワークを元の半分以下のサイズに圧縮し,その効率,特に mobilenet の7倍の高速化を実現している。 また,ネットワーク内のパラメータ数を減らすことに加えて,プルーニングがオーバーフィッティングの修正に役立つことを実証した。

Deep neural networks are typically too computationally expensive to run in real-time on consumer-grade hardware and low-powered devices. In this paper, we investigate reducing the computational and memory requirements of neural networks through network pruning and quantisation. We examine their efficacy on large networks like AlexNet compared to recent compact architectures: ShuffleNet and MobileNet. Our results show that pruning and quantisation compresses these networks to less than half their original size and improves their efficiency, particularly on MobileNet with a 7x speedup. We also demonstrate that pruning, in addition to reducing the number of parameters in a network, can aid in the correction of overfitting.
翻訳日:2023-01-11 12:07:30 公開日:2020-01-14
# 一般圧縮性流路網(GIN)を用いた非線形ICAによる絡み合い

Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN) ( http://arxiv.org/abs/2001.04872v1 )

ライセンス: Link先を確認
Peter Sorrenson, Carsten Rother, Ullrich K\"othe(参考訳) 表現学習の中心的な問題は、任意の複雑な生成過程の真の潜在変数を再構築できる条件を問うものである。 Khemakhem et al. (2019) による非線形ICAに関する最近の画期的な研究は、この疑問に幅広い条件生成過程のクラスで答えている。 この重要な結果を、実際のデータに適用するための方向まで拡張します。 まず、理論を未知の内在的問題次元の場合には一般化し、いくつかの特別な(しかし非常に制限的な)ケースでは、有益な潜在変数が推定モデルによって自動的にノイズから分離されることを証明する。 さらに、回収された情報的潜在変数は、自明なコンポーネント・ワイズ変換まで、生成プロセスの真の潜在変数と1対1で対応します。 第2に,この種の問題に特に適合する realnvp invertible neural network architecture (dinh et al. (2016)) の修正について紹介する。 人工データとEMNISTの実験は、理論的な予測が実際に検証されていることを示した。 特に,EMNISTから抽出した22個の情報潜伏変数の詳細な集合について述べる。

A central question of representation learning asks under which conditions it is possible to reconstruct the true latent variables of an arbitrarily complex generative process. Recent breakthrough work by Khemakhem et al. (2019) on nonlinear ICA has answered this question for a broad class of conditional generative processes. We extend this important result in a direction relevant for application to real-world data. First, we generalize the theory to the case of unknown intrinsic problem dimension and prove that in some special (but not very restrictive) cases, informative latent variables will be automatically separated from noise by an estimating model. Furthermore, the recovered informative latent variables will be in one-to-one correspondence with the true latent variables of the generating process, up to a trivial component-wise transformation. Second, we introduce a modification of the RealNVP invertible neural network architecture (Dinh et al. (2016)) which is particularly suitable for this type of problem: the General Incompressible-flow Network (GIN). Experiments on artificial data and EMNIST demonstrate that theoretical predictions are indeed verified in practice. In particular, we provide a detailed set of exactly 22 informative latent variables extracted from EMNIST.
翻訳日:2023-01-11 12:07:18 公開日:2020-01-14
# 層幅を考慮したディープニューラルネットワークの凸挙動について

On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width ( http://arxiv.org/abs/2001.04878v1 )

ライセンス: Link先を確認
Etai Littwin, Lior Wolf(参考訳) ニューラルネットワークのヘッセンは2つの行列の和に分解することができる。 i) 正半定値一般化ガウス-ニュートン行列 G, および (ii)負の固有値を含む行列H 学習開始時と終了時に正曲率の面を通した勾配降下最適化による損失を最小化し,その間の曲率をゼロに近いものにすることを観察した。 言い換えれば、訓練過程の重要な部分において、広帯域のヘシアンはG成分によって支配されているように思われる。この現象を説明するために、共通手法を用いて初期化されると、過度パラメータ化されたネットワークの勾配はHにほぼ直交し、損失面の曲率が勾配の方向に厳密に正であることを示す。

The Hessian of neural networks can be decomposed into a sum of two matrices: (i) the positive semidefinite generalized Gauss-Newton matrix G, and (ii) the matrix H containing negative eigenvalues. We observe that for wider networks, minimizing the loss with the gradient descent optimization maneuvers through surfaces of positive curvatures at the start and end of training, and close to zero curvatures in between. In other words, it seems that during crucial parts of the training process, the Hessian in wide networks is dominated by the component G. To explain this phenomenon, we show that when initialized using common methodologies, the gradients of over-parameterized networks are approximately orthogonal to H, such that the curvature of the loss surface is strictly positive in the direction of the gradient.
翻訳日:2023-01-11 12:07:01 公開日:2020-01-14
# 局所最大値集合の教師なし学習

Unsupervised Learning of the Set of Local Maxima ( http://arxiv.org/abs/2001.05026v1 )

ライセンス: Link先を確認
Lior Wolf, Sagie Benaim, Tomer Galanti(参考訳) 本稿では,ベクトル空間の未知部分集合における未知値関数 v の局所最大値と仮定されるラベルなし点の集合を入力とする,教師なし学習の新しい形式について述べる。 2つの機能が学べます (i)二項分類器である集合表示器c、及び (ii)近傍の2つのサンプルが与えられたコンパレータ関数hは、未知の関数vの値が高いサンプルを予測し、すべてのトレーニングサンプルxがhに従ってvの極大であり、c(x)=1を満たすことを保証するために損失項を用いる。 したがって、c と h は互いに訓練信号を与える: x の近傍にある点 x' は c(x)=-1 を満たすか、h によって x よりも低い値と見なされる。 本稿では,従来の分類法よりも局所極大を指標関数として用いる方が効率的であり,適切な一般化境界を導出するアルゴリズムを提案する。 提案手法は, 異常検出作業において一級分類アルゴリズムより優れており, 完全に教師なしの方法で抽出された付加信号も得られることを示す。

This paper describes a new form of unsupervised learning, whose input is a set of unlabeled points that are assumed to be local maxima of an unknown value function v in an unknown subset of the vector space. Two functions are learned: (i) a set indicator c, which is a binary classifier, and (ii) a comparator function h that given two nearby samples, predicts which sample has the higher value of the unknown function v. Loss terms are used to ensure that all training samples x are a local maxima of v, according to h and satisfy c(x)=1. Therefore, c and h provide training signals to each other: a point x' in the vicinity of x satisfies c(x)=-1 or is deemed by h to be lower in value than x. We present an algorithm, show an example where it is more efficient to use local maxima as an indicator function than to employ conventional classification, and derive a suitable generalization bound. Our experiments show that the method is able to outperform one-class classification algorithms in the task of anomaly detection and also provide an additional signal that is extracted in a completely unsupervised way.
翻訳日:2023-01-11 12:06:24 公開日:2020-01-14
# 線形回帰のための教師なしプール型アクティブラーニング

Unsupervised Pool-Based Active Learning for Linear Regression ( http://arxiv.org/abs/2001.05028v1 )

ライセンス: Link先を確認
Ziang Liu and Dongrui Wu(参考訳) 多くの現実世界の機械学習アプリケーションでは、ラベルなしのデータを簡単に取得できるが、ラベル付けするのに非常に時間がかかる。 したがって、ラベル付きデータの最小量から優れた機械学習モデルをトレーニングできるように、ラベル付きに最適なサンプルを選択することが望ましい。 アクティブラーニング(AL)はこの目的のために広く利用されている。 少数のラベル付きサンプルから初期モデルをトレーニングし、モデルに基づいて新しいサンプルをクエリし、反復的にモデルを更新する。 完全に教師なしのAL問題、すなわちゼロから始めて、ラベル情報を全く知らないまま、ラベル付けする最初の少数のサンプルを最適に選択する方法を考える人はほとんどいない。 ラベル情報は利用できないので、この問題は非常に難しい。 本稿では,線形回帰問題に対する教師なしプールベースALについて検討する。 本稿では,ALにおける3つの重要な基準である,情報性,代表性,多様性を同時に考慮した新たなALアプローチを提案する。 3つの異なる線形回帰モデル(リッジ回帰、LASSO、リニアサポートベクトル回帰)を用いて、様々なアプリケーション領域から14のデータセットを広範囲に実験し、提案手法の有効性を実証した。

In many real-world machine learning applications, unlabeled data can be easily obtained, but it is very time-consuming and/or expensive to label them. So, it is desirable to be able to select the optimal samples to label, so that a good machine learning model can be trained from a minimum amount of labeled data. Active learning (AL) has been widely used for this purpose. However, most existing AL approaches are supervised: they train an initial model from a small amount of labeled samples, query new samples based on the model, and then update the model iteratively. Few of them have considered the completely unsupervised AL problem, i.e., starting from zero, how to optimally select the very first few samples to label, without knowing any label information at all. This problem is very challenging, as no label information can be utilized. This paper studies unsupervised pool-based AL for linear regression problems. We propose a novel AL approach that considers simultaneously the informativeness, representativeness, and diversity, three essential criteria in AL. Extensive experiments on 14 datasets from various application domains, using three different linear regression models (ridge regression, LASSO, and linear support vector regression), demonstrated the effectiveness of our proposed approach.
翻訳日:2023-01-11 12:06:04 公開日:2020-01-14
# 反復型ニューラルネットワークプルーニング, 再初期化, マスクの類似性について

On Iterative Neural Network Pruning, Reinitialization, and the Similarity of Masks ( http://arxiv.org/abs/2001.05050v1 )

ライセンス: Link先を確認
Michela Paganini, Jessica Forde(参考訳) 本研究は,最近報告された深層学習モデルの基本現象が,刈り取り手順の変化によってどのように影響を受けるかを検討する。 具体的には,訓練可能な高親和性サブネットワークの特異性,選択した刈り込み方法への依存に関する問題に対処するために,反復刈り込み手法を用いた刈り込みモデルの接続構造と学習ダイナミクスの違いを分析した。 畳み込み層では, 等級に基づく非構造プルーニングによる構造物の出現と, 構造プルーニングの影響に類似した重みの巻き戻しについて述べる。 また,アポサイトプルーニング技術により,重量安定性が自動的に達成できるという実証的証拠を示す。

We examine how recently documented, fundamental phenomena in deep learning models subject to pruning are affected by changes in the pruning procedure. Specifically, we analyze differences in the connectivity structure and learning dynamics of pruned models found through a set of common iterative pruning techniques, to address questions of uniqueness of trainable, high-sparsity sub-networks, and their dependence on the chosen pruning method. In convolutional layers, we document the emergence of structure induced by magnitude-based unstructured pruning in conjunction with weight rewinding that resembles the effects of structured pruning. We also show empirical evidence that weight stability can be automatically achieved through apposite pruning techniques.
翻訳日:2023-01-11 12:05:45 公開日:2020-01-14
# 旅行セールスマン問題を解決する遺伝的アルゴリズムにおけるクロスオーバー演算子の新たな機構

New mechanism of combination crossover operators in genetic algorithm for solving the traveling salesman problem ( http://arxiv.org/abs/2001.11590v1 )

ライセンス: Link先を確認
Pham Dinh Thanh, Huynh Thi Thanh Binh, Bui Thu Lam(参考訳) トラベルセールスマン問題(TSP)は、コンピューティング分野でよく知られている問題である。 TSPを解くための遺伝的アルゴリズムを改善するための多くの研究がある。 本稿では,tspを解く遺伝的アルゴリズムにおける2つの新しいクロスオーバー演算子と組合せクロスオーバー演算子の機構を提案する。 TSP-LibのTSPインスタンスを実験し,MSCXを用いた遺伝的アルゴリズム(GA)と提案アルゴリズムの結果を比較した。 実験結果から,提案アルゴリズムは最小コスト平均値のMSCXを用いたGAよりも優れていることがわかった。

Traveling salesman problem (TSP) is a well-known in computing field. There are many researches to improve the genetic algorithm for solving TSP. In this paper, we propose two new crossover operators and new mechanism of combination crossover operators in genetic algorithm for solving TSP. We experimented on TSP instances from TSP-Lib and compared the results of proposed algorithm with genetic algorithm (GA), which used MSCX. Experimental results show that, our proposed algorithm is better than the GA using MSCX on the min, mean cost values.
翻訳日:2023-01-11 11:59:11 公開日:2020-01-14
# ニューラルマシン翻訳のためのバイデコーダ拡張ネットワーク

Bi-Decoder Augmented Network for Neural Machine Translation ( http://arxiv.org/abs/2001.04586v1 )

ライセンス: Link先を確認
Boyuan Pan, Yazheng Yang, Zhou Zhao, Yueting Zhuang, Deng Cai(参考訳) 近年,ニューラル機械翻訳(NMT)が普及し,エンコーダ・デコーダフレームワークが主流となっている。 エンコーディングからのセマンティック表現の品質が非常に重要であり、モデルの性能に大きな影響を与えることは明らかです。 しかし、既存の一方向のソース対ターゲットアーキテクチャは、与えられた言語ペアの特定の関係に重きを置き、言語に依存しないテキスト表現を生成することはほとんどない。 本稿では,この問題を解決するために,ニューラルマシン翻訳タスクのための新しいバイデコーダ拡張ネットワーク(bidan)を提案する。 対象言語シーケンスを生成する元のデコーダに加えて、トレーニング時にソース言語シーケンスを生成する補助デコーダを追加します。 各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語との共同訓練により、共有エンコーダは言語に依存しない意味空間を生成することができる。 複数のnmtベンチマークデータセットについて広範な実験を行い,提案手法の有効性を実証した。

Neural Machine Translation (NMT) has become a popular technology in recent years, and the encoder-decoder framework is the mainstream among all the methods. It's obvious that the quality of the semantic representations from encoding is very crucial and can significantly affect the performance of the model. However, existing unidirectional source-to-target architectures may hardly produce a language-independent representation of the text because they rely heavily on the specific relations of the given language pairs. To alleviate this problem, in this paper, we propose a novel Bi-Decoder Augmented Network (BiDAN) for the neural machine translation task. Besides the original decoder which generates the target language sequence, we add an auxiliary decoder to generate back the source language sequence at the training time. Since each decoder transforms the representations of the input text into its corresponding language, jointly training with two target ends can make the shared encoder has the potential to produce a language-independent semantic space. We conduct extensive experiments on several NMT benchmark datasets and the results demonstrate the effectiveness of our proposed approach.
翻訳日:2023-01-11 11:59:03 公開日:2020-01-14
# 異種データセット間の単語埋め込みの構成のバランス

Balancing the composition of word embeddings across heterogenous data sets ( http://arxiv.org/abs/2001.04693v1 )

ライセンス: Link先を確認
Stephanie Brandl, David Lassner, Maximilian Alber(参考訳) 単語埋め込みは文脈情報に基づく意味的関係を捉え、多種多様な自然言語処理アプリケーションの基礎となる。 特に、これらの関係はデータからのみ学習され、その後データ合成は埋め込みの意味に影響を与え、偏りのある単語ベクトルに繋がる可能性がある。 定性的に異なるデータサブセットが与えられた場合、その品質を維持しつつ、結果のワードベクトルに対する単一のサブセットの影響を調整することを目的としている。 本稿では,単一データサブセットへのシフトを測定するための基準を提案し,両方の目的を満たすためのアプローチを開発する。 2つの部分集合の重み付け平均はそれらの部分集合の影響をバランスさせ、単語の類似性は低下する。 さらに,単語埋め込みの影響と品質のバランスをとるための有望な最適化手法を提案する。

Word embeddings capture semantic relationships based on contextual information and are the basis for a wide variety of natural language processing applications. Notably these relationships are solely learned from the data and subsequently the data composition impacts the semantic of embeddings which arguably can lead to biased word vectors. Given qualitatively different data subsets, we aim to align the influence of single subsets on the resulting word vectors, while retaining their quality. In this regard we propose a criteria to measure the shift towards a single data subset and develop approaches to meet both objectives. We find that a weighted average of the two subset embeddings balances the influence of those subsets while word similarity performance decreases. We further propose a promising optimization approach to balance influences and quality of word embeddings.
翻訳日:2023-01-11 11:58:45 公開日:2020-01-14
# 知識トレースのためのドメイン適応

Domain Adaption for Knowledge Tracing ( http://arxiv.org/abs/2001.04841v1 )

ライセンス: Link先を確認
Song Cheng, Qi Liu, Enhong Chen(参考訳) オンライン教育システムの急速な発展に伴い、学生の知識状態の予測を目的とした知識追跡が、パーソナライズされた教育において重要かつ基本的な課題となっている。 伝統的に、既存のメソッドはドメイン指定です。 しかし、現実の世界には多くのドメイン(科目、学校など)があり、一部のドメインではデータが不足しているため、ターゲットドメインの知識追跡モデルの訓練を支援するために、他ドメインの知識や情報を活用する方法がますます重要になっている。 本稿では,この問題を,(1)各領域における優れた知識追跡性能の達成方法の2つの側面を含む,知識追跡のためのドメイン適応(DAKT)と呼ぶ。 2)ドメイン間で優れた知識追跡モデルを転送する方法。 そこで本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち適応型知識追跡(AKT)を提案する。 具体的には、まず、Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ、推測、質問文など)を取り入れ、優れた知識追跡モデルを得る。 第2の側面として,3つのドメイン適応プロセスを提案する。 まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。 第2に、ドメイン適応を実現するために、最大平均誤差(MMD)測定の下で、ドメイン固有の知識状態分布の相違を最小限に抑える。 第三に、ソース領域とターゲット領域の出力次元が異なる問題に対処するために微調整を採用し、ターゲット領域に適したモデルを作成する。 2つのプライベートデータセットと7つのパブリックデータセットの大規模な実験結果から、AKTが優れた知識追跡性能と優れた伝達能力を示すことが明らかとなった。

With the rapid development of online education system, knowledge tracing which aims at predicting students' knowledge state is becoming a critical and fundamental task in personalized education. Traditionally, existing methods are domain-specified. However, there are a larger number of domains (e.g., subjects, schools) in the real world and the lacking of data in some domains, how to utilize the knowledge and information in other domains to help train a knowledge tracing model for target domains is increasingly important. We refer to this problem as domain adaptation for knowledge tracing (DAKT) which contains two aspects: (1) how to achieve great knowledge tracing performance in each domain. (2) how to transfer good performed knowledge tracing model between domains. To this end, in this paper, we propose a novel adaptable framework, namely adaptable knowledge tracing (AKT) to address the DAKT problem. Specifically, for the first aspect, we incorporate the educational characteristics (e.g., slip, guess, question texts) based on the deep knowledge tracing (DKT) to obtain a good performed knowledge tracing model. For the second aspect, we propose and adopt three domain adaptation processes. First, we pre-train an auto-encoder to select useful source instances for target model training. Second, we minimize the domain-specific knowledge state distribution discrepancy under maximum mean discrepancy (MMD) measurement to achieve domain adaptation. Third, we adopt fine-tuning to deal with the problem that the output dimension of source and target domain are different to make the model suitable for target domains. Extensive experimental results on two private datasets and seven public datasets clearly prove the effectiveness of AKT for great knowledge tracing performance and its superior transferable ability.
翻訳日:2023-01-11 11:58:18 公開日:2020-01-14
# PoPS: 深層強化学習のための政策計画と削減

PoPS: Policy Pruning and Shrinking for Deep Reinforcement Learning ( http://arxiv.org/abs/2001.05012v1 )

ライセンス: Link先を確認
Dor Livne and Kobi Cohen(参考訳) 近年、強化学習における関数近似のためのディープニューラルネットワーク(DNN)の成功により、ロボット工学、コンピュータゲーム、自然言語処理、コンピュータビジョン、センシングシステム、無線ネットワークなど、さまざまな分野におけるディープ強化学習(DRL)アルゴリズムの開発が進められている。 残念ながら、DNNは高い計算コストとメモリ消費に悩まされており、ハードウェアリソースが限られているシステムにおけるDRLアルゴリズムの使用を制限する。 近年,分類タスクにおけるDNNの冗長性を低減するために,プルーニングアルゴリズムが大きな成功を収めている。 しかし、既存のアルゴリズムはDRLドメインの大幅な性能低下に悩まされている。 本稿では、DRL領域におけるプルーニングの性能低下問題に対する最初の効果的な解法を開発し、DNNのコンパクトな表現を達成しつつ、強力な性能でDRLモデルを訓練する、PoPS(Physal Pruning and Shrinking)と呼ばれる作業アルゴリズムを確立する。 このフレームワークは、DRLモデルをトレーニングする際の伝達学習のパワーを利用する、新しい反復的なポリシープルーニングと縮小法に基づいている。 本稿では,一般的なCartpole環境,Lunar Lander環境,Pong環境,Pacman環境を用いて,PoPSの強い性能を示す実験を行った。 最後に,関連分野の研究者や開発者の利益のために,オープンソースソフトウェアを開発する。

The recent success of deep neural networks (DNNs) for function approximation in reinforcement learning has triggered the development of Deep Reinforcement Learning (DRL) algorithms in various fields, such as robotics, computer games, natural language processing, computer vision, sensing systems, and wireless networking. Unfortunately, DNNs suffer from high computational cost and memory consumption, which limits the use of DRL algorithms in systems with limited hardware resources. In recent years, pruning algorithms have demonstrated considerable success in reducing the redundancy of DNNs in classification tasks. However, existing algorithms suffer from a significant performance reduction in the DRL domain. In this paper, we develop the first effective solution to the performance reduction problem of pruning in the DRL domain, and establish a working algorithm, named Policy Pruning and Shrinking (PoPS), to train DRL models with strong performance while achieving a compact representation of the DNN. The framework is based on a novel iterative policy pruning and shrinking method that leverages the power of transfer learning when training the DRL model. We present an extensive experimental study that demonstrates the strong performance of PoPS using the popular Cartpole, Lunar Lander, Pong, and Pacman environments. Finally, we develop an open source software for the benefit of researchers and developers in related fields.
翻訳日:2023-01-11 11:57:52 公開日:2020-01-14
# For2For: 予測から予測を学ぶ

For2For: Learning to forecast from forecasts ( http://arxiv.org/abs/2001.04601v1 )

ライセンス: Link先を確認
Shi Zhao, Ying Feng(参考訳) 本稿では,標準予測手法と機械学習モデルを組み合わせた時系列予測フレームワークを提案する。 機械学習モデルへの入力は遅延値や時系列機能ではなく、標準的な方法によって生成される予測である。 機械学習モデルは、畳み込みニューラルネットワークモデルまたはリカレントニューラルネットワークモデルのいずれかにすることができる。 このアプローチの背景にある直感は、特にモデリングの目的が予測されているときに、時系列の予測がシリーズを特徴づける良い特徴であるということである。 また、重み付けされたアンサンブル法と見なすこともできる。 m4コンペティションデータセットでテストされたこのアプローチは、四半期毎のシリーズのすべての応募を上回り、毎月のシリーズの勝利アルゴリズム以外よりも正確である。

This paper presents a time series forecasting framework which combines standard forecasting methods and a machine learning model. The inputs to the machine learning model are not lagged values or regular time series features, but instead forecasts produced by standard methods. The machine learning model can be either a convolutional neural network model or a recurrent neural network model. The intuition behind this approach is that forecasts of a time series are themselves good features characterizing the series, especially when the modelling purpose is forecasting. It can also be viewed as a weighted ensemble method. Tested on the M4 competition dataset, this approach outperforms all submissions for quarterly series, and is more accurate than all but the winning algorithm for monthly series.
翻訳日:2023-01-11 11:57:28 公開日:2020-01-14
# ブロックワイズ動的スパースネス

Block-wise Dynamic Sparseness ( http://arxiv.org/abs/2001.04686v1 )

ライセンス: Link先を確認
Amir Hadifar, Johannes Deleu, Chris Develder, and Thomas Demeester(参考訳) ニューラルネットワークは、大規模で計算量の多いモデルで、さまざまな機械学習タスクで最先端の技術性能を達成している。 近年,これらのモデルのメモリおよび計算フットプリントを削減する手段としてスパースネスの導入が注目されている。 本稿では,入力に基づいて計算の一部を動的に省略する新しい方法を提案する。 効率のために、動的スパースネスの概念とブロックワイズ行列ベクトル乗算を組み合わせる。 重み行列で選択された位置を永久にゼロにする静的スパースネスとは対照的に,本手法はトレーニングされた重みに潜在的にアクセスすることで,全ネットワーク能力を維持できる。 しかし、行列ベクトル乗法は、入力に基づいて行列から予め定義された重みブロックの分画を省略することにより加速される。 逐次および準リカレントモデルを用いた言語モデリングの課題に関する実験結果から,提案手法は等級に基づく静的スパースネスベースラインを上回り得ることを示した。 さらに,提案手法は,計算コストの半分の確率で,密度ベースラインと類似した言語モデリングの複雑さを実現する。

Neural networks have achieved state of the art performance across a wide variety of machine learning tasks, often with large and computation-heavy models. Inducing sparseness as a way to reduce the memory and computation footprint of these models has seen significant research attention in recent years. In this paper, we present a new method for \emph{dynamic sparseness}, whereby part of the computations are omitted dynamically, based on the input. For efficiency, we combined the idea of dynamic sparseness with block-wise matrix-vector multiplications. In contrast to static sparseness, which permanently zeroes out selected positions in weight matrices, our method preserves the full network capabilities by potentially accessing any trained weights. Yet, matrix vector multiplications are accelerated by omitting a pre-defined fraction of weight blocks from the matrix, based on the input. Experimental results on the task of language modeling, using recurrent and quasi-recurrent models, show that the proposed method can outperform a magnitude-based static sparseness baseline. In addition, our method achieves similar language modeling perplexities as the dense baseline, at half the computational cost at inference time.
翻訳日:2023-01-11 11:57:15 公開日:2020-01-14
# 高速なトランスフォーマーデコーディング: N-gram Masked Self-Attention

Faster Transformer Decoding: N-gram Masked Self-Attention ( http://arxiv.org/abs/2001.04589v1 )

ライセンス: Link先を確認
Ciprian Chelba, Mia Chen, Ankur Bapna, and Noam Shazeer(参考訳) ターゲットトークンの予測に関連する情報のほとんどは、ソース文 $s=s_1, \ldots, s_s$ から引き出されているという事実に動機づけられ、n$-gram の仮定をすることで、自己アテンションの計算に使用されるターゲット側のウィンドウの切断を提案する。 WMT EnDe と EnFr のデータセットの実験では、タスクに応じて 4, \ldots, 8$ の値で BLEU のスコアにおいて、$N$-gram のマスク付き自己保持モデルはほとんど失われていない。

Motivated by the fact that most of the information relevant to the prediction of target tokens is drawn from the source sentence $S=s_1, \ldots, s_S$, we propose truncating the target-side window used for computing self-attention by making an $N$-gram assumption. Experiments on WMT EnDe and EnFr data sets show that the $N$-gram masked self-attention model loses very little in BLEU score for $N$ values in the range $4, \ldots, 8$, depending on the task.
翻訳日:2023-01-11 11:49:11 公開日:2020-01-14
# humpty dumpty:コーパス中毒による単語の意味の制御

Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning ( http://arxiv.org/abs/2001.04935v1 )

ライセンス: Link先を確認
Roei Schuster, Tal Schuster, Yoav Meri, Vitaly Shmatikov(参考訳) 単語埋め込み、すなわちGloVeやSGNSのような低次元ベクトル表現は、単語のベクトル間の距離がその意味的近接性に対応するという意味で「意味」を符号化する。 これにより、自然言語処理タスクのセマンティクスの伝達学習が可能になる。 単語埋め込みは通常、wikipediaやtwitterのような大きな公開コーパスで訓練される。 組込みが訓練されたコーパスを修正できる攻撃者は、組込み空間における位置を変更することで、新しい単語や既存の単語の「意味」を制御できることを実証する。 単語間の距離のプロキシとして機能するコーパス特徴の明示的な表現を開発し,その値と埋め込み距離との因果関係を確立する。 次に、この関係を、(1)単語を他の単語の上位の隣人とし、(2)単語をある意味クラスタから別の意味クラスタへ移動させるという2つの目的のために使う方法を示す。 組み込みへの攻撃は、さまざまな下流タスクに影響を与え、転送学習シナリオにおけるデータ中毒のパワーを初めて実証する。 この攻撃は、履歴検索などの情報検索システムにおけるクエリ拡張を操作し、名前付きエンティティ認識モデルに対して、特定の名前の可視性を高め、言語に関係なく、新しい単語を特定のターゲット単語に翻訳させる。 最後に,攻撃者が言語的に考えられるコーパス修正を生成する方法を示し,言語モデルを用いてコーパスから読み得ない文をフィルタリングしようとする防御を騙す。

Word embeddings, i.e., low-dimensional vector representations such as GloVe and SGNS, encode word "meaning" in the sense that distances between words' vectors correspond to their semantic proximity. This enables transfer learning of semantics for a variety of natural language processing tasks. Word embeddings are typically trained on large public corpora such as Wikipedia or Twitter. We demonstrate that an attacker who can modify the corpus on which the embedding is trained can control the "meaning" of new and existing words by changing their locations in the embedding space. We develop an explicit expression over corpus features that serves as a proxy for distance between words and establish a causative relationship between its values and embedding distances. We then show how to use this relationship for two adversarial objectives: (1) make a word a top-ranked neighbor of another word, and (2) move a word from one semantic cluster to another. An attack on the embedding can affect diverse downstream tasks, demonstrating for the first time the power of data poisoning in transfer learning scenarios. We use this attack to manipulate query expansion in information retrieval systems such as resume search, make certain names more or less visible to named entity recognition models, and cause new words to be translated to a particular target word regardless of the language. Finally, we show how the attacker can generate linguistically likely corpus modifications, thus fooling defenses that attempt to filter implausible sentences from the corpus using a language model.
翻訳日:2023-01-11 11:48:56 公開日:2020-01-14
# eコマースにおける商品検索関連性のモデル化

Modeling Product Search Relevance in e-Commerce ( http://arxiv.org/abs/2001.04980v1 )

ライセンス: Link先を確認
Rahul Radhakrishnan Iyer, Rohan Kohli, Shrimai Prabhumoye(参考訳) eコマースの急速な成長に伴い、オンライン商品検索は、顧客が望ましい商品を見つけ、オンラインショッピングに参加するための、人気で効果的なパラダイムとして浮上した。 しかし、顧客が本当に買いたいと思っている製品と、顧客からの問い合わせに応じて提案される製品の間には、依然として大きなギャップがある。 本稿では,機械学習,自然言語処理,情報検索といった手法を用いて,検索クエリと製品に対する関連度を予測できるロバストな手法を提案する。 bm25やindriといった従来の情報検索モデルとword2vec, sentence2vec, paragraph2vecなどのディープラーニングモデルを比較した。 私たちは実験から得た洞察と知見をいくつか共有しています。

With the rapid growth of e-Commerce, online product search has emerged as a popular and effective paradigm for customers to find desired products and engage in online shopping. However, there is still a big gap between the products that customers really desire to purchase and relevance of products that are suggested in response to a query from the customer. In this paper, we propose a robust way of predicting relevance scores given a search query and a product, using techniques involving machine learning, natural language processing and information retrieval. We compare conventional information retrieval models such as BM25 and Indri with deep learning models such as word2vec, sentence2vec and paragraph2vec. We share some of our insights and findings from our experiments.
翻訳日:2023-01-11 11:48:30 公開日:2020-01-14
# 高次元世界における高次元脳--Blessing of dimensionality

High--Dimensional Brain in a High-Dimensional World: Blessing of Dimensionality ( http://arxiv.org/abs/2001.04959v1 )

ライセンス: Link先を確認
Alexander N. Gorban, Valery A. Makarov, Ivan Y. Tyukin(参考訳) 高次元データと高次元現実表現は、現代の人工知能システムと機械学習の応用に固有の特徴である。 次元の曲線」のよく知られた現象は、「多くの問題は高次元では指数関数的に困難になる。 近年、硬貨の反対側である「次元の恵み」が注目されている。 一般的な高次元データセットは比較的単純な幾何学的性質を示す。 したがって、高次元空間における複雑性と単純さの間には根本的なトレードオフがある。 本稿では、最近の概念、結果、および次元の祝福に関する仮説、および機械学習や神経科学に関連する影響の単純化に関する説明的考察を紹介する。

High-dimensional data and high-dimensional representations of reality are inherent features of modern Artificial Intelligence systems and applications of machine learning. The well-known phenomenon of the "curse of dimensionality" states: many problems become exponentially difficult in high dimensions. Recently, the other side of the coin, the "blessing of dimensionality", has attracted much attention. It turns out that generic high-dimensional datasets exhibit fairly simple geometric properties. Thus, there is a fundamental tradeoff between complexity and simplicity in high dimensional spaces. Here we present a brief explanatory review of recent ideas, results and hypotheses about the blessing of dimensionality and related simplifying effects relevant to machine learning and neuroscience.
翻訳日:2023-01-11 11:48:19 公開日:2020-01-14
# ノイズマシン: ノイズのあるニューラルネットワークを理解し、蒸留によるハードウェアエラーのアナログ化

Noisy Machines: Understanding Noisy Neural Networks and Enhancing Robustness to Analog Hardware Errors Using Distillation ( http://arxiv.org/abs/2001.04974v1 )

ライセンス: Link先を確認
Chuteng Zhou, Prad Kadambi, Matthew Mattina, Paul N. Whatmough(参考訳) ディープラーニングの成功は、ニューラルネットワーク推論の高要求を満たすために、コンピュータハードウェア設計への関心の波となった。 特にアナログコンピューティングハードウェアは、電子デバイス、光学デバイス、フォトニックデバイスのいずれかをベースにしたニューラルネットワークの高速化に特に動機付けられており、従来のデジタル電子回路よりも低い消費電力を実現している。 しかし、これらのアナログ加速器は、物理成分が生み出す固有ノイズに悩まされており、ディープニューラルネットワークの高精度化が困難である。 したがって、アナログアクセラレーターへのデプロイメントを成功させるためには、ニューラルネットワークをトレーニングしてネットワーク重みのランダムな連続ノイズに対して堅牢にすることができることが不可欠である。 本稿では,雑音を伴うニューラルネットワークの理解を深める。 本稿では,入力と出力の相互情報を失う結果,ノイズの多いニューラルネットワークが学習能力を削減した方法について概説する。 そこで本研究では,訓練中に知識蒸留とノイズ注入を組み合わせることで,よりノイズの多いネットワークを実現することを提案し,ImageNetを含むさまざまなネットワークやデータセットで実験的に実証する。 提案手法は,従来と比べ最大2倍の耐雑音性を持つモデルを実現し,アナログハードウェアを深層学習に活用するための重要なステップである。

The success of deep learning has brought forth a wave of interest in computer hardware design to better meet the high demands of neural network inference. In particular, analog computing hardware has been heavily motivated specifically for accelerating neural networks, based on either electronic, optical or photonic devices, which may well achieve lower power consumption than conventional digital electronics. However, these proposed analog accelerators suffer from the intrinsic noise generated by their physical components, which makes it challenging to achieve high accuracy on deep neural networks. Hence, for successful deployment on analog accelerators, it is essential to be able to train deep neural networks to be robust to random continuous noise in the network weights, which is a somewhat new challenge in machine learning. In this paper, we advance the understanding of noisy neural networks. We outline how a noisy neural network has reduced learning capacity as a result of loss of mutual information between its input and output. To combat this, we propose using knowledge distillation combined with noise injection during training to achieve more noise robust networks, which is demonstrated experimentally across different networks and datasets, including ImageNet. Our method achieves models with as much as two times greater noise tolerance compared with the previous best attempts, which is a significant step towards making analog hardware practical for deep learning.
翻訳日:2023-01-11 11:48:08 公開日:2020-01-14
# トランスファーラーニングを用いた微視的有孔虫の検出と分類

Towards detection and classification of microscopic foraminifera using transfer learning ( http://arxiv.org/abs/2001.04782v1 )

ライセンス: Link先を確認
Thomas Haugland Johansen and Steffen Aagaard S{\o}rensen(参考訳) フォアミニフェラ(Foraminifera)は単細胞海洋生物で、プランクティックまたはベント的な生活様式を持つ。 そのライフサイクルの間、彼らは1つ以上の室からなる貝殻を構築し、これらの貝殻は海底堆積物の化石として残っている。 これらの化石の分類と分類は、例えば海洋学や気候学において重要な道具となっている。 現在、顕微鏡を用いてマイクロフォスシルを識別・計数するプロセスが手作業で行われており、非常に時間がかかる。 このプロセスを自動化する手法の開発は、様々な研究分野において重要であると考えられている。 微視的有孔虫の検出と分類が可能な深層学習モデルを開発するための第一歩を提案する。 提案モデルはimagenetデータセットで事前トレーニングされたvgg16モデルに基づいており、転送学習を用いてforaminiferaタスクに適応している。 また,バレンツ海地域の微視的有孔虫および堆積物からなる新しい画像データセットも導入した。

Foraminifera are single-celled marine organisms, which may have a planktic or benthic lifestyle. During their life cycle they construct shells consisting of one or more chambers, and these shells remain as fossils in marine sediments. Classifying and counting these fossils have become an important tool in e.g. oceanography and climatology. Currently the process of identifying and counting microfossils is performed manually using a microscope and is very time consuming. Developing methods to automate this process is therefore considered important across a range of research fields. The first steps towards developing a deep learning model that can detect and classify microscopic foraminifera are proposed. The proposed model is based on a VGG16 model that has been pretrained on the ImageNet dataset, and adapted to the foraminifera task using transfer learning. Additionally, a novel image dataset consisting of microscopic foraminifera and sediments from the Barents Sea region is introduced.
翻訳日:2023-01-11 11:47:39 公開日:2020-01-14
# 「なぜシカゴはだまされるのか。」 人間のためのモデル駆動チュートリアルの構築に向けて

"Why is 'Chicago' deceptive?" Towards Building Model-Driven Tutorials for Humans ( http://arxiv.org/abs/2001.05871v1 )

ライセンス: Link先を確認
Vivian Lai, Han Liu, Chenhao Tan(参考訳) 機械学習モデルによる人間の意思決定を支援するために、私たちはしばしば、人間にとって不正確で未知の、あるいは直感に反するモデルに埋め込まれたパターンを解明する必要がある。 既存のアプローチでは、リアルタイムアシストによるマシン予測の説明に重点を置いているが、トレーニングフェーズにおけるこれらのパターンの理解を支援するためのモデル駆動チュートリアルを探索する。 本稿では,科学論文のガイドラインと科学コミュニケーションの実践に類似したチュートリアルと,説明付きトレーニングデータから自動的に選択された例について考察する。 テストベッドとして偽レビュー検出を用い,大規模無作為化実験を行い,チュートリアルの有効性を検証した。 チュートリアルは、リアルタイムのアシストなしで、人間のパフォーマンスを実際に改善している。 特に、ディープラーニングは単純なモデルよりも優れた予測性能を提供するが、単純なモデルからのチュートリアルや説明は人間にとってより有用である。 我々の研究は、人間中心のチュートリアルと、人間とAIのシナジーへの説明の今後の方向性を示唆している。

To support human decision making with machine learning models, we often need to elucidate patterns embedded in the models that are unsalient, unknown, or counterintuitive to humans. While existing approaches focus on explaining machine predictions with real-time assistance, we explore model-driven tutorials to help humans understand these patterns in a training phase. We consider both tutorials with guidelines from scientific papers, analogous to current practices of science communication, and automatically selected examples from training data with explanations. We use deceptive review detection as a testbed and conduct large-scale, randomized human-subject experiments to examine the effectiveness of such tutorials. We find that tutorials indeed improve human performance, with and without real-time assistance. In particular, although deep learning provides superior predictive performance than simple models, tutorials and explanations from simple models are more useful to humans. Our work suggests future directions for human-centered tutorials and explanations towards a synergy between humans and AI.
翻訳日:2023-01-11 11:47:23 公開日:2020-01-14