このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220113となっている論文です。

PDF登録状況(公開日: 20220113)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ニューロン特異的ドロップアウト:大規模トレーニングサンプルへのニューラルネットワークの過剰フィットと依存性の低減を防ぐ決定論的正則化手法 [全文訳有]

Neuron-Specific Dropout: A Deterministic Regularization Technique to Prevent Neural Networks from Overfitting & Reduce Dependence on Large Training Samples ( http://arxiv.org/abs/2201.06938v1 )

ライセンス: CC BY 4.0
Joshua Shunk(参考訳) 入力と出力の間の複雑な関係を開発するために、ディープニューラルネットワークは多数のパラメータをトレーニングし、調整する。 これらのネットワークを高精度に動作させるためには、膨大なデータが必要である。 しかし、訓練に必要なデータの量は存在しないり、入手できないこともある。 神経特異的ドロップアウト(NSDropout)は、この問題に対処するためのツールである。 NSDropoutは、モデルのレイヤのトレーニングパスとバリデーションパスの両方を調べます。 データセット内の各クラスのニューロンが生成する平均値を比較することで、ネットワークはターゲットユニットをドロップすることができる。 レイヤは、バリデーションからサンプルを見る際に存在しない、テスト中にモデルが見ている機能やノイズを予測することができる。 dropoutとは異なり、"thinned"ネットワークはテストのために"unthinned"できない。 ニューロン特異的なドロップアウトは、ドロップアウトやその他の正規化手法を含む従来の方法よりもはるかに少ないデータで、ほぼ同様の精度でテストできることが証明されている。 実験により、ニューロン特異的なドロップアウトはネットワークオーバーフィットの確率を減らし、画像認識における教師付き学習タスクに対する大規模なトレーニングサンプルの必要性を減らし、クラス内の最良の結果を生み出すことが示されている。

In order to develop complex relationships between their inputs and outputs, deep neural networks train and adjust large number of parameters. To make these networks work at high accuracy, vast amounts of data are needed. Sometimes, however, the quantity of data needed is not present or obtainable for training. Neuron-specific dropout (NSDropout) is a tool to address this problem. NSDropout looks at both the training pass, and validation pass, of a layer in a model. By comparing the average values produced by each neuron for each class in a data set, the network is able to drop targeted units. The layer is able to predict what features, or noise, the model is looking at during testing that isn't present when looking at samples from validation. Unlike dropout, the "thinned" networks cannot be "unthinned" for testing. Neuron-specific dropout has proved to achieve similar, if not better, testing accuracy with far less data than traditional methods including dropout and other regularization methods. Experimentation has shown that neuron-specific dropout reduces the chance of a network overfitting and reduces the need for large training samples on supervised learning tasks in image recognition, all while producing best-in-class results.
翻訳日:2022-01-23 19:36:27 公開日:2022-01-13
# (参考訳) パイル用データシート [全文訳有]

Datasheet for the Pile ( http://arxiv.org/abs/2201.07311v1 )

ライセンス: CC BY 4.0
Stella Biderman and Kieran Bicheno and Leo Gao(参考訳) このデータシートは、EleutherAIが大規模な言語モデリングのためにコンパイルした825 GiBデータセットであるPileを記述している。 Pileは22の異なるテキストソースで構成されており、このプロジェクトで作成されたオリジナルのスクラップから、データ所有者が利用可能なテキストデータ、オンラインで利用可能なサードパーティのスクラップまでである。

This datasheet describes the Pile, a 825 GiB dataset of human-authored text compiled by EleutherAI for use in large-scale language modeling. The Pile is comprised of 22 different text sources, ranging from original scrapes done for this project, to text data made available by the data owners, to third-party scrapes available online.
翻訳日:2022-01-23 19:22:54 公開日:2022-01-13
# ULTRA: 提案要求に応じてチーム形成を推奨するデータ駆動型アプローチ

ULTRA: A Data-driven Approach for Recommending Team Formation in Response to Proposal Calls ( http://arxiv.org/abs/2201.05646v1 )

ライセンス: Link先を確認
Biplav Srivastava, Tarmo Koppel, Ronak Shah, Owen Bond, Sai Teja Paladi, Rohit Sharma, Austin Hetherington(参考訳) 我々は、資金提供機関からの提案に回答する研究者のチーム形成を支援するAIベースのアプローチとプロトタイプシステムを導入する。 これは、需要の機会が定期的に増え、潜在的なメンバーが時間とともに変わる場合、チームを構築するという一般的な問題の一例です。 私たちのアプローチの斬新さは、私たちです。 (a)研究者や複数のデータソースから必要な技術スキルを抽出し、自然言語処理(NLP)技術を用いて標準化する。 (b)制約に基づくマッチングとチーム化に基づくプロトタイプソリューションを構築すること。 (c) 展開する大学の研究者からのシステムに関する初期のフィードバックを記述し、 (d) 他の人が使用できるデータセットを作成して公開する。

We introduce an emerging AI-based approach and prototype system for assisting team formation when researchers respond to calls for proposals from funding agencies. This is an instance of the general problem of building teams when demand opportunities come periodically and potential members may vary over time. The novelties of our approach are that we: (a) extract technical skills needed about researchers and calls from multiple data sources and normalize them using Natural Language Processing (NLP) techniques, (b) build a prototype solution based on matching and teaming based on constraints, (c) describe initial feedback about system from researchers at a University to deploy, and (d) create and publish a dataset that others can use.
翻訳日:2022-01-23 18:16:29 公開日:2022-01-13
# 無限の概念族に対する厳密な学習

Exact learning for infinite families of concepts ( http://arxiv.org/abs/2201.08225v1 )

ライセンス: Link先を確認
Mikhail Moshkov(参考訳) 本稿では、厳密な学習、テスト理論、粗い集合論の結果に基づいて、各概念の任意の無限族について、無限個の元からなる集合と、この集合の無限個の部分集合からなる集合を概念と呼ぶ。 有限個の要素によって記述される概念の族に対する問題の概念を考える: 与えられた概念に対して、検討中の要素のどれがこの概念に属するかを認識するべきである。 問題解決のアルゴリズムとして,5種類の決定木を考える。 (i)会員クエリーの使用。 (ii)同値クエリの使用。 (iii)会員資格問合せと等価性問合せの両方を用いて (iv)適切な同値クエリの使用、及び (v) メンバシップと適切な等価クエリの両方を使用する。 時間的複雑さとして、決定木の深さを研究する。 最悪の場合、問題記述の要素数の増加に伴い、第1のタイプの決定木の最小深さは対数として、あるいは線形に成長し、他の各タイプの決定木の最小深さは、上から定数で、あるいは対数として、あるいは線形にバインドされる。 得られた結果は、概念の無限族からなる7つの複雑性クラスを区別することができる。

In this paper, based on results of exact learning, test theory, and rough set theory, we study arbitrary infinite families of concepts each of which consists of an infinite set of elements and an infinite set of subsets of this set called concepts. We consider the notion of a problem over a family of concepts that is described by a finite number of elements: for a given concept, we should recognize which of the elements under consideration belong to this concept. As algorithms for problem solving, we consider decision trees of five types: (i) using membership queries, (ii) using equivalence queries, (iii) using both membership and equivalence queries, (iv) using proper equivalence queries, and (v) using both membership and proper equivalence queries. As time complexity, we study the depth of decision trees. In the worst case, with the growth of the number of elements in the problem description, the minimum depth of decision trees of the first type either grows as a logarithm or linearly, and the minimum depth of decision trees of each of the other types either is bounded from above by a constant or grows as a logarithm, or linearly. The obtained results allow us to distinguish seven complexity classes of infinite families of concepts.
翻訳日:2022-01-23 17:57:33 公開日:2022-01-13
# (参考訳) 分解型量子グラフニューラルネットワーク [全文訳有]

Decompositional Quantum Graph Neural Network ( http://arxiv.org/abs/2201.05158v1 )

ライセンス: CC BY 4.0
Xing Ai, Zhihong Zhang, Luzhe Sun, Junchi Yan, Edwin Hancock(参考訳) 量子機械学習は、量子アルゴリズムと量子コンピューティングを使用して機械学習に取り組むことを目的とした、急速に発展する分野である。 物理量子ビットの欠如とユークリッド空間からヒルベルト空間に実世界のデータをマッピングする効果的な手段のため、これらの手法のほとんどは量子類似性やプロセスシミュレーションに焦点をあてる。 本稿では,DQGNN(Decomposition al Quantum Graph Neural Network)と呼ばれるグラフ構造化データに対する新しいハイブリッド量子古典アルゴリズムを提案する。 DQGNNはテンソル積とユニタリ行列表現を用いてGNN理論フレームワークを実装し、モデルパラメータの数を大幅に削減する。 古典的コンピュータによって制御される場合、DQGNNは、適度な大きさの量子デバイスを用いて入力グラフからサブ構造を処理することにより、任意の大きさのグラフを調整できる。 このアーキテクチャは、現実世界のデータからヒルベルト空間への新しいマッピングに基づいている。 このマッピングは、データに存在する距離関係を維持し、情報損失を低減する。 実験の結果,提案手法はこれらのモデルと比較して1.68 %のパラメータしか持たない競争状態モデルよりも優れていた。

Quantum machine learning is a fast emerging field that aims to tackle machine learning using quantum algorithms and quantum computing. Due to the lack of physical qubits and an effective means to map real-world data from Euclidean space to Hilbert space, most of these methods focus on quantum analogies or process simulations rather than devising concrete architectures based on qubits. In this paper, we propose a novel hybrid quantum-classical algorithm for graph-structured data, which we refer to as the Decompositional Quantum Graph Neural Network (DQGNN). DQGNN implements the GNN theoretical framework using the tensor product and unity matrices representation, which greatly reduces the number of model parameters required. When controlled by a classical computer, DQGNN can accommodate arbitrarily sized graphs by processing substructures from the input graph using a modestly-sized quantum device. The architecture is based on a novel mapping from real-world data to Hilbert space. This mapping maintains the distance relations present in the data and reduces information loss. Experimental results show that the proposed method outperforms competitive state-of-the-art models with only 1.68\% parameters compared to those models.
翻訳日:2022-01-18 01:37:39 公開日:2022-01-13
# (参考訳) \textit{Salva Veritate} 原則の組合せ [全文訳有]

The Combinatorics of \textit{Salva Veritate} Principles ( http://arxiv.org/abs/2201.05173v1 )

ライセンス: CC BY 4.0
Norman E. Trushaev(参考訳) 文法的構成性に関する様々な概念は、自然言語と人工言語の両方の多くの理論に現れ、しばしば構文-意味論的インタフェースの考慮において重要な役割を担っている。 これらの構成性を満たす言語の表現力に関する非自明な組合せ論的な主張を多く含むべきである。 一例として、サルバ頂点置換(特に構成原理の強い例であると主張する性質)を許容する特定の言語のクラスが、本論文で特定される非常に自然な組合せ的制約を満たさなければならないことを示すフォーマルな分析を示す。

Various concepts of grammatical compositionality arise in many theories of both natural and artificial languages, and often play a key role in accounts of the syntax-semantics interface. We propose that many instances of compositionality should entail non-trivial combinatorial claims about the expressive power of languages which satisfy these compositional properties. As an example, we present a formal analysis demonstrating that a particular class of languages which admit salva vertitate substitutions - a property which we claim to be a particularly strong example of compositional principle - must also satisfy a very natural combinatorial constraint identified in this paper.
翻訳日:2022-01-18 01:24:01 公開日:2022-01-13
# (参考訳) 対話的情報検索へのニューラルアプローチ

Neural Approaches to Conversational Information Retrieval ( http://arxiv.org/abs/2201.05176v1 )

ライセンス: CC BY 4.0
Jianfeng Gao, Chenyan Xiong, Paul Bennett and Nick Craswell(参考訳) 会話情報検索システム(英: conversational information search, CIR)とは、自然言語のマルチターン会話を通じて、音声や書面形式で、ユーザがシステムと対話して情報を求めることができる対話インタフェースを備えた情報検索システムである。 ディープラーニングの最近の進歩は、自然言語処理(NLP)と会話型AIの大幅な改善をもたらし、自然な音声とタイプドインタラクションを可能にする多くの商用会話サービスをもたらし、IRにおけるより人間中心のインタラクションの必要性を高めている。 その結果,研究コミュニティと産業の両面で,近代的なCIRシステムの開発への関心が高まった。 この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。 この本は、SIGIR'2020(Gao et al., 2020b)の著者のチュートリアルに基づいており、IRとNLPコミュニティが主なターゲットである。 しかし、機械学習や人間とコンピュータのインタラクションなど、他のバックグラウンドを持つオーディエンスは、CIRへのアクセシビリティな導入も見出すだろう。 この本が学生、研究者、ソフトウェア開発者にとって貴重なリソースになることを願っている。 この原稿は作業中の原稿です。 コメントは歓迎だ。

A conversational information retrieval (CIR) system is an information retrieval (IR) system with a conversational interface which allows users to interact with the system to seek information via multi-turn conversations of natural language, in spoken or written form. Recent progress in deep learning has brought tremendous improvements in natural language processing (NLP) and conversational AI, leading to a plethora of commercial conversational services that allow naturally spoken and typed interaction, increasing the need for more human-centric interactions in IR. As a result, we have witnessed a resurgent interest in developing modern CIR systems in both research communities and industry. This book surveys recent advances in CIR, focusing on neural approaches that have been developed in the last few years. This book is based on the authors' tutorial at SIGIR'2020 (Gao et al., 2020b), with IR and NLP communities as the primary target audience. However, audiences with other background, such as machine learning and human-computer interaction, will also find it an accessible introduction to CIR. We hope that this book will prove a valuable resource for students, researchers, and software developers. This manuscript is a working draft. Comments are welcome.
翻訳日:2022-01-18 01:18:00 公開日:2022-01-13
# (参考訳) 次世代」貯留層計算:時間ステップ形式における動的方程式の経験的データ駆動式 [全文訳有]

`Next Generation' Reservoir Computing: an Empirical Data-Driven Expression of Dynamical Equations in Time-Stepping Form ( http://arxiv.org/abs/2201.05193v1 )

ライセンス: CC BY 4.0
Tse-Chun Chen, Stephen G. Penny, Timothy A. Smith, Jason A. Platt(参考訳) 非線形ベクトル自己回帰 (nvar) に基づく次世代貯留層計算を用いて, 単純力学系モデルをエミュレートし, euler や 2^\text{nd}$order runge-kutta などの数値積分法と比較した。 NVARエミュレータは,データを生成した数値積分スキームを復元するためのデータ駆動方式として解釈可能である。 また,データから直接高次数値スキームを生成する手法を拡張できることを示した。 学習セットにおける雑音の存在と時間的スパーシティの影響を更に検討し,本手法のより現実的な応用への可能性を評価する。

Next generation reservoir computing based on nonlinear vector autoregression (NVAR) is applied to emulate simple dynamical system models and compared to numerical integration schemes such as Euler and the $2^\text{nd}$ order Runge-Kutta. It is shown that the NVAR emulator can be interpreted as a data-driven method used to recover the numerical integration scheme that produced the data. It is also shown that the approach can be extended to produce high-order numerical schemes directly from data. The impacts of the presence of noise and temporal sparsity in the training set is further examined to gauge the potential use of this method for more realistic applications.
翻訳日:2022-01-18 01:16:35 公開日:2022-01-13
# (参考訳) Rosetta VAEを用いた再現性・漸進的表現学習 [全文訳有]

Reproducible, incremental representation learning with Rosetta VAE ( http://arxiv.org/abs/2201.05206v1 )

ライセンス: CC BY 4.0
Miles Martinez, John Pearson(参考訳) 変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の1つであり、データ探索や科学的発見のためのツールとして価値を高めている。 しかし、単一のモデルを1つの大きなデータセットで一度トレーニングする典型的な機械学習問題とは異なり、科学的ワークフローは再現性があり、実験室間でポータブルで、新たなデータを漸進的に追加することができる。 理想的には、異なる研究グループが使用する手法は、完全に訓練されたモデルやデータセットを共有せずにも、同等の結果を生み出すべきである。 そこで本稿では,これまでに学習した表現を蒸留し,新たなモデルを再訓練して再現・構築する手法であるrosetta vae (r-vae)を導入することで,この課題に対処した。 R-VAEは、完全に訓練されたモデルの潜在空間上のポストホッククラスタリングを使用して、少数のロゼッタポイント(インプット、潜在ペア)を特定し、将来のモデルをトレーニングするためのアンカーとして機能する。 調整可能なハイパーパラメータである$\rho$は、前もって学習した潜在空間と新しいデータの収容に対する忠実さのバランスをとる。 R-VAEは、VAEや$\beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において両手法を上回り、学習した表現の一貫性を劇的に向上させることを示した。

Variational autoencoders are among the most popular methods for distilling low-dimensional structure from high-dimensional data, making them increasingly valuable as tools for data exploration and scientific discovery. However, unlike typical machine learning problems in which a single model is trained once on a single large dataset, scientific workflows privilege learned features that are reproducible, portable across labs, and capable of incrementally adding new data. Ideally, methods used by different research groups should produce comparable results, even without sharing fully trained models or entire data sets. Here, we address this challenge by introducing the Rosetta VAE (R-VAE), a method of distilling previously learned representations and retraining new models to reproduce and build on prior results. The R-VAE uses post hoc clustering over the latent space of a fully-trained model to identify a small number of Rosetta Points (input, latent pairs) to serve as anchors for training future models. An adjustable hyperparameter, $\rho$, balances fidelity to the previously learned latent space against accommodation of new data. We demonstrate that the R-VAE reconstructs data as well as the VAE and $\beta$-VAE, outperforms both methods in recovery of a target latent space in a sequential training setting, and dramatically increases consistency of the learned representation across training runs.
翻訳日:2022-01-18 01:00:10 公開日:2022-01-13
# (参考訳) the fairness field guide: perspectives from social and formal sciences (特集 フェアネスフィールドガイド)

The Fairness Field Guide: Perspectives from Social and Formal Sciences ( http://arxiv.org/abs/2201.05216v1 )

ライセンス: CC BY 4.0
Alycia N. Carey and Xintao Wu(参考訳) 過去数年間にわたり、機械学習モデルの公平性を測定するための様々な方法が提案されてきた。 しかし、出版物や実装が増えているにもかかわらず、公正な機械学習と哲学、社会学、法学の社会科学との相互作用を説明する文学の欠如は依然として批判的である。 このフィールドガイドにおいて、社会的および形式的(特に機械学習と統計)科学の両方によって生み出される公正な機械学習の考えと議論を蓄積し、議論することで、この問題を解決したいと思っています。 具体的には,いくつかの統計的・因果的機械学習手法の数学的背景とアルゴリズム的背景に加えて,それらの基盤となる哲学的・法的思考について説明する。 さらに, 社会学的, 哲学的観点から, 公平な機械学習に対する現在のアプローチに対するいくつかの批判を考察する。 このフィールドガイドによって、公正な機械学習実践者が、アルゴリズムが重要なヒューマニズム的価値(公正性など)とどのように一致しているか、そしてフィールドとして、抑圧的で疎外された大衆に役立てるための設計方法やメトリクスをどのように理解できるようになることを願っています。

Over the past several years, a slew of different methods to measure the fairness of a machine learning model have been proposed. However, despite the growing number of publications and implementations, there is still a critical lack of literature that explains the interplay of fair machine learning with the social sciences of philosophy, sociology, and law. We hope to remedy this issue by accumulating and expounding upon the thoughts and discussions of fair machine learning produced by both social and formal (specifically machine learning and statistics) sciences in this field guide. Specifically, in addition to giving the mathematical and algorithmic backgrounds of several popular statistical and causal-based fair machine learning methods, we explain the underlying philosophical and legal thoughts that support them. Further, we explore several criticisms of the current approaches to fair machine learning from sociological and philosophical viewpoints. It is our hope that this field guide will help fair machine learning practitioners better understand how their algorithms align with important humanistic values (such as fairness) and how we can, as a field, design methods and metrics to better serve oppressed and marginalized populaces.
翻訳日:2022-01-18 00:48:41 公開日:2022-01-13
# (参考訳) 人権研究におけるNLP -- 警察・陸軍部隊とその指揮官に関する知識グラフの抽出 [全文訳有]

NLP in Human Rights Research -- Extracting Knowledge Graphs About Police and Army Units and Their Commanders ( http://arxiv.org/abs/2201.05230v1 )

ライセンス: CC BY 4.0
Daniel Bauer (1), Tom Longley (2), Yueen Ma (1), Tony Wilson (2) ((1) Department of Computer Science, Columbia University, (2) Security Force Monitor, Human Rights Institute, Columbia Law School)(参考訳) 本稿では,SFM(Security Force Monitor)の作業を支援するNLPシステムについて検討する。 sfmは、警察、軍、その他の治安部隊の組織構造、指揮人員および運用に関するデータを作成し、人権研究者、ジャーナリスト、訴訟当事者が、人権と国際刑事法を乱用したとされる特定の部隊や人員を特定し、説明するために支援する。 本報告では, 英語ニュースから, 警備部隊の名前と人員の伝記的詳細を抽出し, それらの関係を推測するNLPシステムを提案する。 この作業論文とともに公開されたのは、システムのコードとトレーニングデータセットである。 実験的なNLPシステムは,そのタスクを公平かつ良好なレベルで実行する。 そのパフォーマンスは、さらなる開発をライブワークフローに正当化するのに十分であり、パフォーマンスが時間とリソースの節約に変換され、効果的な技術的介入になるかどうかを洞察する。

In this working paper we explore the use of an NLP system to assist the work of Security Force Monitor (SFM). SFM creates data about the organizational structure, command personnel and operations of police, army and other security forces, which assists human rights researchers, journalists and litigators in their work to help identify and bring to account specific units and personnel alleged to have committed abuses of human rights and international criminal law. This working paper presents an NLP system that extracts from English language news reports the names of security force units and the biographical details of their personnel, and infers the formal relationship between them. Published alongside this working paper are the system's code and training dataset. We find that the experimental NLP system performs the task at a fair to good level. Its performance is sufficient to justify further development into a live workflow that will give insight into whether its performance translates into savings in time and resource that would make it an effective technical intervention.
翻訳日:2022-01-18 00:47:35 公開日:2022-01-13
# (参考訳) 広告キャンペーンにおけるコンテキストバンディット:拡散モデル独立アプローチ(拡張版) [全文訳有]

Contextual Bandits for Advertising Campaigns: A Diffusion-Model Independent Approach (Extended Version) ( http://arxiv.org/abs/2201.05231v1 )

ライセンス: CC BY 4.0
Alexandra Iacob, Bogdan Cautis, Silviu Maniu(参考訳) ソーシャルメディアにおける情報拡散と広告のシナリオに動機づけられ,情報拡散ネットワークや情報の伝播方法を決定するモデルについてほとんど知られていない影響最大化問題について検討した。 このような極めて不確実な環境では、ほとんど影響力のないノードの既知の基盤から、影響を受け、活性化される異なるユーザ数を最大化することを目的として、マルチラウンド拡散キャンペーンに集中することができる。 キャンペーン中、スプレッドシードは連続するラウンドで順次選択され、各ラウンドの活性化ノードの形式でフィードバックが収集される。 ラウンドの影響(逆)は、新たに活性化されたノードの数として定量化される。 総じて、ラウンドの報酬の合計として、キャンペーン全体の広がりを最大化しなければならない。 この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。 本稿では,LinUCBアルゴリズムを我々の設定(LogNorm-LinUCB)に直接適応させる手法と,一般線形モデルとGood-Turing 推定器(GLM-GT-UCB)を用いて,インフルエンサーの残余ポテンシャルに高信頼境界を持つコンテキスト多重武装バンドの2つの手法を記述・比較する。 現状のアイデアを用いたベースライン手法では, 合成データと実世界のデータを用いて, 同時に, 展開シナリオによって異なる相補的な振る舞いを示す。

Motivated by scenarios of information diffusion and advertising in social media, we study an influence maximization problem in which little is assumed to be known about the diffusion network or about the model that determines how information may propagate. In such a highly uncertain environment, one can focus on multi-round diffusion campaigns, with the objective to maximize the number of distinct users that are influenced or activated, starting from a known base of few influential nodes. During a campaign, spread seeds are selected sequentially at consecutive rounds, and feedback is collected in the form of the activated nodes at each round. A round's impact (reward) is then quantified as the number of newly activated nodes. Overall, one must maximize the campaign's total spread, as the sum of rounds' rewards. In this setting, an explore-exploit approach could be used to learn the key underlying diffusion parameters, while running the campaign. We describe and compare two methods of contextual multi-armed bandits, with upper-confidence bounds on the remaining potential of influencers, one using a generalized linear model and the Good-Turing estimator for remaining potential (GLM-GT-UCB), and another one that directly adapts the LinUCB algorithm to our setting (LogNorm-LinUCB). We show that they outperform baseline methods using state-of-the-art ideas, on synthetic and real-world data, while at the same time exhibiting different and complementary behavior, depending on the scenarios in which they are deployed.
翻訳日:2022-01-18 00:38:05 公開日:2022-01-13
# (参考訳) 統計的・機械学習モデルの予測プロファイルを可視化・最適化する場合の補間制御法 [全文訳有]

A Method for Controlling Extrapolation when Visualizing and Optimizing the Prediction Profiles of Statistical and Machine Learning Models ( http://arxiv.org/abs/2201.05236v1 )

ライセンス: CC BY 4.0
Jeremy Ash, Laura Lancaster, Chris Gotwalt(参考訳) 本稿では,JMPソフトウェアにおける予測プロファイラの補間制御手法を提案する。 予測プロファイラは、統計モデルや機械学習モデルの高次元予測面を探索するためのグラフィカルツールである。 プロファイラは、モデルの予測面のインタラクティブな断面ビュー、またはプロファイルトレースを含む。 本手法は,外挿とみなすべき予測の探索を避けるのに役立つ。 また、遺伝的アルゴリズムを用いた外挿を避ける制限された因子領域の最適化も行う。 シミュレーションや実例では、プロファイラの制約のない最適因子設定が頻繁に外挿され、外挿制御がユーザにとって役に立たない無効な因子設定でこれらのソリューションをいかに回避できるかを実証する。

We present a novel method for controlling extrapolation in the prediction profiler in the JMP software. The prediction profiler is a graphical tool for exploring high dimensional prediction surfaces for statistical and machine learning models. The profiler contains interactive cross-sectional views, or profile traces, of the prediction surface of a model. Our method helps users avoid exploring predictions that should be considered extrapolation. It also performs optimization over a constrained factor region that avoids extrapolation using a genetic algorithm. In simulations and real world examples, we demonstrate how optimal factor settings without constraint in the profiler are frequently extrapolated, and how extrapolation control helps avoid these solutions with invalid factor settings that may not be useful to the user.
翻訳日:2022-01-18 00:13:47 公開日:2022-01-13
# (参考訳) 複合最適化における一貫性近似 [全文訳有]

Consistent Approximations in Composite Optimization ( http://arxiv.org/abs/2201.05250v1 )

ライセンス: CC BY 4.0
Johannes O. Royset(参考訳) 最適化問題の近似は計算手順と感度解析に現れる。 ソリューションに対する結果として生じる影響は、ソリューション内の大きなエラーに変換する問題のコンポーネントの小さな近似によっても大きい。 我々は、最小化点、定常点、レベルセットといった意味で近似がうまく振る舞う条件を定義し、一貫した近似の枠組みにつながる。 このフレームワークは、凸でも滑らかでもない幅広い複合問題のために開発されている。 本稿では,確率的最適化,ニューラルネットワークに基づく機械学習,分散ロバストな最適化,ペナルティと拡張ラグランジアン法,インテリアポイント法,ホモトピー法,スムースな手法,拡張非線形プログラミング,差分凸プログラミング,多目的最適化などの例を用いて,フレームワークを実証する。 拡張近位法ではアルゴリズムの可能性を示す。 定量的分析は収束率の調整による発展を補う。

Approximations of optimization problems arise in computational procedures and sensitivity analysis. The resulting effect on solutions can be significant, with even small approximations of components of a problem translating into large errors in the solutions. We specify conditions under which approximations are well behaved in the sense of minimizers, stationary points, and level-sets and this leads to a framework of consistent approximations. The framework is developed for a broad class of composite problems, which are neither convex nor smooth. We demonstrate the framework using examples from stochastic optimization, neural-network based machine learning, distributionally robust optimization, penalty and augmented Lagrangian methods, interior-point methods, homotopy methods, smoothing methods, extended nonlinear programming, difference-of-convex programming, and multi-objective optimization. An enhanced proximal method illustrates the algorithmic possibilities. A quantitative analysis supplements the development by furnishing rates of convergence.
翻訳日:2022-01-18 00:05:12 公開日:2022-01-13
# AI機能への構造化アクセス - 安全なAIデプロイメントのための新たなパラダイム

Structured access to AI capabilities: an emerging paradigm for safe AI deployment ( http://arxiv.org/abs/2201.05159v1 )

ライセンス: Link先を確認
Toby Shevlane(参考訳) 構造化能力アクセス(SCA)は、人工知能(AI)の安全な配置のための新しいパラダイムである。 AIシステムをオープンに普及させる代わりに、開発者はAIシステムとの制御された腕の長さのインタラクションを促進する。 目標は、危険なAI能力が広くアクセスされることを防ぐと同時に、安全に使用できるAI機能へのアクセスを保護することだ。 開発者は、AIシステムの使用方法を制限すると同時に、AIシステムの修正やリバースエンジニアリングを通じて、これらの制限を回避する必要がある。 SCAは、ユーザーのハードウェア上でローカルに実行されるAIソフトウェアを広めるのではなく、クラウドベースのAIサービスによって実装される場合に最も効果的である。 クラウドベースのインターフェースは、AI開発者に対して、AIシステムの使用方法の管理と、システム設計の不正な変更を防止するための、より大きなスコープを提供する。 この章は、AI研究プロジェクトの情報コンテンツをどのように普及させるべきかという問題(例えば、コードとモデル)に焦点を当てた、AIコミュニティにおける「公開規範」に関する議論を拡大している。 これは重要な問題であるが、情報フローの制御によって何が達成できるかには限界がある。 SCAは、AIソフトウェアを共有できる情報としてだけでなく、ユーザーが腕の長さのやりとりができるツールとして見る。 scaの初期の例がai開発者によって実践されているが、クラウドベースのインターフェースの機能とより広範な機関的フレームワークの両方において、さらなる開発の余地がある。

Structured capability access ("SCA") is an emerging paradigm for the safe deployment of artificial intelligence (AI). Instead of openly disseminating AI systems, developers facilitate controlled, arm's length interactions with their AI systems. The aim is to prevent dangerous AI capabilities from being widely accessible, whilst preserving access to AI capabilities that can be used safely. The developer must both restrict how the AI system can be used, and prevent the user from circumventing these restrictions through modification or reverse engineering of the AI system. SCA is most effective when implemented through cloud-based AI services, rather than disseminating AI software that runs locally on users' hardware. Cloud-based interfaces provide the AI developer greater scope for controlling how the AI system is used, and for protecting against unauthorized modifications to the system's design. This chapter expands the discussion of "publication norms" in the AI community, which to date has focused on the question of how the informational content of AI research projects should be disseminated (e.g., code and models). Although this is an important question, there are limits to what can be achieved through the control of information flows. SCA views AI software not only as information that can be shared but also as a tool with which users can have arm's length interactions. There are early examples of SCA being practiced by AI developers, but there is much room for further development, both in the functionality of cloud-based interfaces and in the wider institutional framework.
翻訳日:2022-01-17 15:36:25 公開日:2022-01-13
# 無線ネットワークにおけるフェデレーション学習に対するジャミング攻撃

Jamming Attacks on Federated Learning in Wireless Networks ( http://arxiv.org/abs/2201.05172v1 )

ライセンス: Link先を確認
Yi Shi and Yalin E. Sagduyu(参考訳) federated learning (fl)は分散学習環境を提供するので、クライアントのグループは、トレーニングデータを秘密にしながら、サーバでグローバルモデルをトレーニングするために協力することができる。 本稿では,無線ネットワーク上で実行されたFLプロセスに障害を与えるため,空対空ジャミング攻撃の起動方法について検討する。 無線の例として、flは異なる場所でクライアント(スペクトラムセンサー)が収集した無線信号を分類する方法(協調センシングなど)を学ぶために適用される。 敵は、クライアントからサーバへのローカルモデルの更新(アップリンク攻撃)の送信を妨害したり、グローバルモデルの送信がサーバからクライアントへの更新(ダウンリンク攻撃)またはその両方を妨害することができる。 flラウンド毎に攻撃可能なクライアント数に予算が課される場合、攻撃なしで期待される、またはスペクトル観測によってランク付けされるローカルモデルアキュラリティに従って、(アップリンク/ダウンリンク)攻撃用のクライアントが選択される。 この新たな攻撃は、異なる処理速度を考慮し、クライアントの攻撃成功確率を考慮し、一般的な設定にまで拡張される。 ベンチマーク攻撃方式と比較して、この攻撃手法はFL性能を著しく低下させ、無線ネットワークにおける攻撃を妨害する新たな脆弱性を明らかにする。

Federated learning (FL) offers a decentralized learning environment so that a group of clients can collaborate to train a global model at the server, while keeping their training data confidential. This paper studies how to launch over-the-air jamming attacks to disrupt the FL process when it is executed over a wireless network. As a wireless example, FL is applied to learn how to classify wireless signals collected by clients (spectrum sensors) at different locations (such as in cooperative sensing). An adversary can jam the transmissions for the local model updates from clients to the server (uplink attack), or the transmissions for the global model updates the server to clients (downlink attack), or both. Given a budget imposed on the number of clients that can be attacked per FL round, clients for the (uplink/downlink) attack are selected according to their local model accuracies that would be expected without an attack or ranked via spectrum observations. This novel attack is extended to general settings by accounting different processing speeds and attack success probabilities for clients. Compared to benchmark attack schemes, this attack approach degrades the FL performance significantly, thereby revealing new vulnerabilities of FL to jamming attacks in wireless networks.
翻訳日:2022-01-17 15:35:05 公開日:2022-01-13
# 自動コード要約のためのアセンブリ基礎モデル

Assemble Foundation Models for Automatic Code Summarization ( http://arxiv.org/abs/2201.05222v1 )

ライセンス: Link先を確認
Jian Gu, Pasquale Salza, Harald C. Gall(参考訳) 自動コード要約は、手動タスクの負担を軽減するので、ソフトウェア開発とメンテナンスに有益である。 現在、人工知能はパラダイムシフトを受けている。 基礎モデルは大量のデータに基づいて事前訓練され、ダウンストリームタスクに微調整され、特別にカスタマイズされたモデルを超えた。 この傾向は、スクラッチから学ぶのではなく、基礎モデルの再利用を検討するきっかけになりました。 そこで本研究では,ニューラルネットワークに基づく自動コード要約のための柔軟でロバストな手法を提案する。 CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。 さらに, ガウス雑音を文脈情報のシミュレーションとして活用し, 潜在表現の最適化を行う。 さらに、知識伝達の観点から、連続事前学習と中間微調整という2つの適応型スキームを導入し、一般的なシーケンス対シーケンス学習のための中間段階タスクを設計する。 最後に、AdaMoをコード要約のためのベンチマークデータセットと比較し、最先端モデルと比較する。

Automatic code summarization is beneficial to software development and maintenance since it reduces the burden of manual tasks. Currently, artificial intelligence is undergoing a paradigm shift. The foundation models pretrained on massive data and finetuned to downstream tasks surpass specially customized models. This trend inspired us to consider reusing foundation models instead of learning from scratch. Based on this, we propose a flexible and robust approach for automatic code summarization based on neural networks. We assemble available foundation models, such as CodeBERT and GPT-2, into a single model named AdaMo. Moreover, we utilize Gaussian noise as the simulation of contextual information to optimize the latent representation. Furthermore, we introduce two adaptive schemes from the perspective of knowledge transfer, namely continuous pretraining and intermediate finetuning, and design intermediate stage tasks for general sequence-to-sequence learning. Finally, we evaluate AdaMo against a benchmark dataset for code summarization, by comparing it with state-of-the-art models.
翻訳日:2022-01-17 15:34:44 公開日:2022-01-13
# スパースディープニューラルネットワークの正確な実装のためのクロスバー非理想の影響の検証と緩和

Examining and Mitigating the Impact of Crossbar Non-idealities for Accurate Implementation of Sparse Deep Neural Networks ( http://arxiv.org/abs/2201.05229v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Lakshya Bhatnagar and Priyadarshini Panda(参考訳) 近年, クロスバー数が少ないディープニューラルネットワーク(DNN)のエネルギー効率向上のための構造化プルーニング技術がいくつか導入されている。 これらの手法は, クロスバー上でのスパースDNNの精度を保っていると主張しているが, 未使用のクロスバー非イデオロギーが実際のネットワークの性能に与える影響は研究されていない。 そこで本研究では,非イデアルクロスバーにマッピングされた未切断のDNNと比較して,高いシャープなDNNが,高いクロスバー圧縮率をもたらす可能性を示す総合的研究を行った。 我々は,ベンチマークデータセット(CIFAR10,CIFAR100)を用いたVGG11,VGG16 DNN上で,複数の構造化プルーニング手法(C/Fプルーニング,XCS,XRS)を用いて実験を行った。 そこで我々は,2つの緩和手法であるクロスバルカラム再構成と重量拘束訓練(WCT)を提案し,これをスパースDNNのクロスバーマッピングと組み合わせることで,刈り取ったモデルによる精度損失を最小限に抑える。 これらは、クロスバー上の低コンダクタンスシナプスの割合を増加させることで、非理想性の緩和に役立ち、計算能力を向上させる。

Recently several structured pruning techniques have been introduced for energy-efficient implementation of Deep Neural Networks (DNNs) with lesser number of crossbars. Although, these techniques have claimed to preserve the accuracy of the sparse DNNs on crossbars, none have studied the impact of the inexorable crossbar non-idealities on the actual performance of the pruned networks. To this end, we perform a comprehensive study to show how highly sparse DNNs, that result in significant crossbar-compression -rate, can lead to severe accuracy losses compared to unpruned DNNs mapped onto non-ideal crossbars. We perform experiments with multiple structured-pruning approaches (such as, C/F pruning, XCS and XRS) on VGG11 and VGG16 DNNs with benchmark datasets (CIFAR10 and CIFAR100). We propose two mitigation approaches - Crossbar column rearrangement and Weight-Constrained-T raining (WCT) - that can be integrated with the crossbar-mapping of the sparse DNNs to minimize accuracy losses incurred by the pruned models. These help in mitigating non-idealities by increasing the proportion of low conductance synapses on crossbars, thereby improving their computational accuracies.
翻訳日:2022-01-17 15:34:30 公開日:2022-01-13
# 具体化制御のためのニューラル回路アーキテクチャ優先事項

Neural Circuit Architectural Priors for Embodied Control ( http://arxiv.org/abs/2201.05242v1 )

ライセンス: Link先を確認
Nikhil X. Bhattasali, Anthony M. Zador, Tatiana A. Engel(参考訳) シミュレーションモーター制御とロボット工学のためのニューラルネットワークは、完全に接続されたMLPのような一般的なアーキテクチャを採用することが多い。 一般に、これらのタブラ・ラーサのアーキテクチャは、学習する大量の経験に依存しており、新しい体に容易に移行できず、解釈が難しい内部ダイナミクスを持っている。 自然界では、動物は進化によって形成された神経系に高度に構造化された結合を持って生まれており、この自然回路は学習機構と相乗的に作用し、ほとんどの動物が生後すぐに機能し、能力を向上させる誘導バイアスを提供する。 視覚回路にインスパイアされた畳み込みネットワークは、視覚に有用なバイアスを符号化している。 しかし、ニューラルネットワークにインスパイアされたANNアーキテクチャが、他のドメインに有用なバイアスをもたらすかどうかは不明である。 本研究では,生体にインスパイアされたネットワークアーキテクチャが,運動制御の文脈でどのような利点をもたらすのかを問う。 具体的には, C. elegans 回路をシミュレーションスイマーエージェントを制御する ANN モデルに変換する。 locomotionタスクでは,mlpsに匹敵する優れた初期性能と漸近的な性能を実現し,データ効率を劇的に向上し,パラメータを桁違いに削減した。 私たちのアーキテクチャはより解釈可能で、新しいボディデザインに移行します。 アブレーション分析は、原則的興奮/抑制が学習に不可欠であることを示し、重み初期化は優れた初期性能に寄与することを示している。 私たちの研究は、システム神経科学に触発されたanアーキテクチャのいくつかの利点を示し、より複雑な行動のモデリングへの道を提案する。

Artificial neural networks for simulated motor control and robotics often adopt generic architectures like fully connected MLPs. While general, these tabula rasa architectures rely on large amounts of experience to learn, are not easily transferable to new bodies, and have internal dynamics that are difficult to interpret. In nature, animals are born with highly structured connectivity in their nervous systems shaped by evolution; this innate circuitry acts synergistically with learning mechanisms to provide inductive biases that enable most animals to function well soon after birth and improve abilities efficiently. Convolutional networks inspired by visual circuitry have encoded useful biases for vision. However, it is unknown the extent to which ANN architectures inspired by neural circuitry can yield useful biases for other domains. In this work, we ask what advantages biologically inspired network architecture can provide in the context of motor control. Specifically, we translate C. elegans circuits for locomotion into an ANN model controlling a simulated Swimmer agent. On a locomotion task, our architecture achieves good initial performance and asymptotic performance comparable with MLPs, while dramatically improving data efficiency and requiring orders of magnitude fewer parameters. Our architecture is more interpretable and transfers to new body designs. An ablation analysis shows that principled excitation/inhibitio n is crucial for learning, while weight initialization contributes to good initial performance. Our work demonstrates several advantages of ANN architectures inspired by systems neuroscience and suggests a path towards modeling more complex behavior.
翻訳日:2022-01-17 15:29:13 公開日:2022-01-13
# 次元の呪いを心配し、愛することを止めるために学んだこと--高次元空間におけるクラスタ検証の評価

How I learned to stop worrying and love the curse of dimensionality: an appraisal of cluster validation in high-dimensional spaces ( http://arxiv.org/abs/2201.05214v1 )

ライセンス: Link先を確認
Brian A. Powell(参考訳) ユークリッドノルムの高次元空間における近点と遠点を確実に区別する失敗はよく知られている。 この距離集中現象は、中央分布とクラスターデータを含む、iidまたは相関した特徴を持つ様々なデータ分布に現れる。 ユークリッド近辺およびクラスタリングのようなより一般的な近接指向データマイニングタスクに基づく教師なし学習は、高次元アプリケーションにおける距離集中に悪影響を及ぼす可能性がある。 信頼性の高い高次元性能のクラスタリングアルゴリズムの開発には多くの研究がなされているが、クラスタ検証の問題は、データセット内のクラスタの自然数を決定することである。 本研究では, 一般的なユークリッドノルムに基づくクラスタ妥当性指標の感度が, 十分に分離された, ノイズの多いクラスタを含む, 様々な合成データスキームの次元とどのようにスケールするかを検討する。 したがって、次元性の呪いは、このかなり一般的なデータスキームのクラスには取り除かれる。

The failure of the Euclidean norm to reliably distinguish between nearby and distant points in high dimensional space is well-known. This phenomenon of distance concentration manifests in a variety of data distributions, with iid or correlated features, including centrally-distribute d and clustered data. Unsupervised learning based on Euclidean nearest-neighbors and more general proximity-oriented data mining tasks like clustering, might therefore be adversely affected by distance concentration for high-dimensional applications. While considerable work has been done developing clustering algorithms with reliable high-dimensional performance, the problem of cluster validation--of determining the natural number of clusters in a dataset--has not been carefully examined in high-dimensional problems. In this work we investigate how the sensitivities of common Euclidean norm-based cluster validity indices scale with dimension for a variety of synthetic data schemes, including well-separated and noisy clusters, and find that the overwhelming majority of indices have improved or stable sensitivity in high dimensions. The curse of dimensionality is therefore dispelled for this class of fairly generic data schemes.
翻訳日:2022-01-17 14:57:26 公開日:2022-01-13
# データプライバシ予測型パフォーマンストレードオフに向けて

Towards a Data Privacy-Predictive Performance Trade-off ( http://arxiv.org/abs/2201.05226v1 )

ライセンス: Link先を確認
T\^ania Carvalho, Nuno Moniz, Pedro Faria and Lu\'is Antunes(参考訳) マシンラーニングは、医療、病理予測、詐欺検出のための金融セクターなど、最も多様なアプリケーションやドメインでますます使われています。 機械学習における効率性と正確性のためのlinchpinの1つは、データユーティリティである。 しかし、個人情報を含む場合には、個人のプライバシーを保護するための法律や規制により、完全なアクセスを制限することができる。 したがって、データ所有者は、共有されたデータによってそのようなプライバシーが保証されなければならない。 プライベート情報の削除または変換(復号化)が最も一般的な手法である。 直感的には、詳細化や情報の歪みがモデル予測性能の損失をもたらすと予測できる。 しかし、非識別データを用いた分類タスクに関する以前の研究は、予測性能を特定のアプリケーションに保持できることを一般に示している。 本稿では,分類タスクにおけるデータプライバシと予測性能のトレードオフの存在を評価することを目的とする。 我々は、大量のプライバシー保護技術と学習アルゴリズムを活用し、再識別能力と変換された変種が予測性能に与える影響を評価する。 従来の文献とは異なり、プライバシのレベルが高くなるほど(より低い再識別リスク)、予測パフォーマンスへの影響が高まり、トレードオフの明確な証拠が指摘される。

Machine learning is increasingly used in the most diverse applications and domains, whether in healthcare, to predict pathologies, or in the financial sector to detect fraud. One of the linchpins for efficiency and accuracy in machine learning is data utility. However, when it contains personal information, full access may be restricted due to laws and regulations aiming to protect individuals' privacy. Therefore, data owners must ensure that any data shared guarantees such privacy. Removal or transformation of private information (de-identification) are among the most common techniques. Intuitively, one can anticipate that reducing detail or distorting information would result in losses for model predictive performance. However, previous work concerning classification tasks using de-identified data generally demonstrates that predictive performance can be preserved in specific applications. In this paper, we aim to evaluate the existence of a trade-off between data privacy and predictive performance in classification tasks. We leverage a large set of privacy-preserving techniques and learning algorithms to provide an assessment of re-identification ability and the impact of transformed variants on predictive performance. Unlike previous literature, we confirm that the higher the level of privacy (lower re-identification risk), the higher the impact on predictive performance, pointing towards clear evidence of a trade-off.
翻訳日:2022-01-17 14:57:06 公開日:2022-01-13
# 単一テキスト圧縮のための最適アルファベット

Optimal alphabet for single text compression ( http://arxiv.org/abs/2201.05234v1 )

ライセンス: Link先を確認
Armen E. Allahverdyan and Andranik Khachatryan(参考訳) テキストは、文字の列、文字のn-gram、音節、単語、句など、さまざまな表現を通して見ることができる。 ここではhuffman符号を用いてテキストの最適なノイズなし圧縮について検討し、符号化のアルファベットとそれらの表現の1つが一致することを示す。 一つのテキストを圧縮する際には,コードブックを考慮に入れる必要がある。 したがって、全圧縮は、アルファベット要素のエントロピーによって特徴付けられる最適な圧縮テキストと、テキスト固有のコードブックから成り、ノイズのない(de)圧縮に含めなければならない。 project gutenbergのテキストでは、最高の圧縮は音節、すなわち言語の最小の意味表現要素によって提供される。 十分な短いテキストしか残っていない場合、最適なアルファベットは、保持されている長さに応じて文字または2グラムの文字である。

A text can be viewed via different representations, i.e. as a sequence of letters, n-grams of letters, syllables, words, and phrases. Here we study the optimal noiseless compression of texts using the Huffman code, where the alphabet of encoding coincides with one of those representations. We show that it is necessary to account for the codebook when compressing a single text. Hence, the total compression comprises of the optimally compressed text -- characterized by the entropy of the alphabet elements -- and the codebook which is text-specific and therefore has to be included for noiseless (de)compression. For texts of Project Gutenberg the best compression is provided by syllables, i.e. the minimal meaning-expressing element of the language. If only sufficiently short texts are retained, the optimal alphabet is that of letters or 2-grams of letters depending on the retained length.
翻訳日:2022-01-17 14:52:59 公開日:2022-01-13
# 機械学習によるシュリーレン画像からの密度推定

Density Estimation from Schlieren Images through Machine Learning ( http://arxiv.org/abs/2201.05233v1 )

ライセンス: Link先を確認
Bryn Noel Ubald (1), Pranay Seshadri (1 and 2), Andrew Duncan (1 and 2) ((1) The Alan Turing Institute, (2) Imperial College London)(参考訳) 本研究では,シュリエレン画像から定量情報を抽出する手法を提案する。 本手法では, 水平方向と垂直方向のナイフ縁を持つ2つのシュリーレン画像から実密度推定値を得るために, 拡張ガウス過程モデルを用いた。 風洞スチングモデルと超音速航空機によるシュリーレン画像に対する我々のアプローチを解説する。

This study proposes a radically alternate approach for extracting quantitative information from schlieren images. The method uses a scaled, derivative enhanced Gaussian process model to obtain true density estimates from two corresponding schlieren images with the knife-edge at horizontal and vertical orientations. We illustrate our approach on schlieren images taken from a wind tunnel sting model, and a supersonic aircraft in flight.
翻訳日:2022-01-17 14:52:46 公開日:2022-01-13
# パラレルニューラル局所ロスレス圧縮

Parallel Neural Local Lossless Compression ( http://arxiv.org/abs/2201.05213v1 )

ライセンス: Link先を確認
Mingtian Zhang and Jamie Townsend and Ning Kang and David Barber(参考訳) 最近提案されたNeural Local Lossless Compression (NeLLoC)は、局所自己回帰モデルに基づいて、画像圧縮タスクにおいて最先端のSOTA(out-of-distribu tion)一般化性能を達成した。 OOD一般化の促進に加えて、局所モデルは復号段階における並列推論も可能にしている。 本稿では,局所自己回帰モデルに対する並列化スキームを提案する。 本稿では, 従来の非並列実装と比較して, 圧縮実行時の顕著な利得を示す実験的な証拠を提供する。

The recently proposed Neural Local Lossless Compression (NeLLoC), which is based on a local autoregressive model, has achieved state-of-the-art (SOTA) out-of-distribution (OOD) generalization performance in the image compression task. In addition to the encouragement of OOD generalization, the local model also allows parallel inference in the decoding stage. In this paper, we propose a parallelization scheme for local autoregressive models. We discuss the practicalities of implementing this scheme, and provide experimental evidence of significant gains in compression runtime compared to the previous, non-parallel implementation.
翻訳日:2022-01-17 14:36:19 公開日:2022-01-13
# 第一畳み込み層における分離指数最大化によるCNNの学習促進

Learning Enhancement of CNNs via Separation Index Maximizing at the First Convolutional Layer ( http://arxiv.org/abs/2201.05217v1 )

ライセンス: Link先を確認
Ali Karimi and Ahmad Kalhor(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)に対して,分離インデックス(si)概念に基づく簡易強化学習アルゴリズムを提案する。 まず、教師付き複雑性尺度としてのSIについて、分類問題に対するCNNのより良い学習における使用法を説明する。 次に、siを最大化し、cnnの第1層を最適化し、さらに、バックプロパゲーションアルゴリズムによりさらなる層を訓練し、さらなる層を学習する学習戦略を提案する。 第1層のSIを最大化するために、準最小二乗誤差法を用いてランキング損失の変種を最適化する。 このような学習戦略を既知のcnnやデータセットに適用することで、ほぼすべてのケースでその強化効果が実証される。

In this paper, a straightforward enhancement learning algorithm based on Separation Index (SI) concept is proposed for Convolutional Neural Networks (CNNs). At first, the SI as a supervised complexity measure is explained its usage in better learning of CNNs for classification problems illustrate. Then, a learning strategy proposes through which the first layer of a CNN is optimized by maximizing the SI, and the further layers are trained through the backpropagation algorithm to learn further layers. In order to maximize the SI at the first layer, A variant of ranking loss is optimized by using the quasi least square error technique. Applying such a learning strategy to some known CNNs and datasets, its enhancement impact in almost all cases is demonstrated.
翻訳日:2022-01-17 14:12:41 公開日:2022-01-13
# 一度に(法人的な)相違点を作る

Making a (Counterfactual) Difference One Rationale at a Time ( http://arxiv.org/abs/2201.05177v1 )

ライセンス: Link先を確認
Mitchell Plyler, Michael Green, Min Chi(参考訳) 推論を説明する抽出テキストのスニペットであるRationalesは、自然言語処理(NLP)の一般的なフレームワークとして登場した。 Rationaleモデルは典型的には2つの協調モジュールから構成される:セレクタと分類器で、「選択された」テキストと文書ラベルの間の相互情報(MMI)を最大化する。 約束にもかかわらず、MMIベースの手法は、しばしば刺激的なテキストパターンを拾い上げ、非感覚的な振る舞いを持つモデルをもたらす。 本研究では,人的支援を伴わない対実データ拡張(CDA)が,スプリアス信号と文書ラベルの相互情報を下げることで,セレクタの性能を向上させることができるかどうかを検討する。 本手法はクラス依存生成モデルを用いて教師なしで生成する。 情報理論のレンズから、我々はcdaアプローチが成功するはずのないデータセットの性質を導出する。 CDAの有効性は、2つのマルチアスペクトデータセット上で改善されたMMIベースの合理性スキーマを含むいくつかのベースラインと比較することによって実証的に評価される。 以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示された。

Rationales, snippets of extracted text that explain an inference, have emerged as a popular framework for interpretable natural language processing (NLP). Rationale models typically consist of two cooperating modules: a selector and a classifier with the goal of maximizing the mutual information (MMI) between the "selected" text and the document label. Despite their promises, MMI-based methods often pick up on spurious text patterns and result in models with nonsensical behaviors. In this work, we investigate whether counterfactual data augmentation (CDA), without human assistance, can improve the performance of the selector by lowering the mutual information between spurious signals and the document label. Our counterfactuals are produced in an unsupervised fashion using class-dependent generative models. From an information theoretic lens, we derive properties of the unaugmented dataset for which our CDA approach would succeed. The effectiveness of CDA is empirically evaluated by comparing against several baselines including an improved MMI-based rationale schema on two multi aspect datasets. Our results show that CDA produces rationales that better capture the signal of interest.
翻訳日:2022-01-17 13:57:54 公開日:2022-01-13
# (参考訳) スペクトルサーベイ:自律型UAVを用いたアクティブ無線マップ推定 [全文訳有]

Spectrum Surveying: Active Radio Map Estimation with Autonomous UAVs ( http://arxiv.org/abs/2201.04125v2 )

ライセンス: CC BY 4.0
Raju Shrestha, Daniel Romero, Sundeep Prabhakar Chepuri(参考訳) 無線地図は、リソース割り当て、干渉調整、ミッションプランニングなど、無線通信や移動ロボットのタスクに多くの応用を見出している。 空間分布測定から無線地図を構築する手法が多数提案されているが, 事前にその位置を推定する。 そこで,本稿では,無人航空機 (uav) などの移動ロボットが,短時間の測量で高品質な地図推定を行うために,活発に選択された複数の場所で計測を収集するスペクトラムサーベイを提案する。 これは2つのステップで行われる。 まず,モデルベースオンラインベイズ推定器とデータ駆動深層学習アルゴリズムの2つの新しいアルゴリズムを考案し,地図推定値の更新と,可能な各場所における測定値の有意性を示す不確実性指標を提案する。 これらのアルゴリズムは、相補的な利点と測定毎の特徴的複雑さを提供する。 第二に、不確実性測定基準は、UAVの軌道を計画し、最も情報性の高い場所で測定を収集するために用いられる。 この問題の組合せ複雑性を克服するために、線形時間における大きな不確実性のある領域を通して経路点のリストを得る動的プログラミング手法を提案する。 実データを用いた数値実験により,提案手法が正確な無線地図を高速に構築できることが確認された。

Radio maps find numerous applications in wireless communications and mobile robotics tasks, including resource allocation, interference coordination, and mission planning. Although numerous techniques have been proposed to construct radio maps from spatially distributed measurements, the locations of such measurements are assumed predetermined beforehand. In contrast, this paper proposes spectrum surveying, where a mobile robot such as an unmanned aerial vehicle (UAV) collects measurements at a set of locations that are actively selected to obtain high-quality map estimates in a short surveying time. This is performed in two steps. First, two novel algorithms, a model-based online Bayesian estimator and a data-driven deep learning algorithm, are devised for updating a map estimate and an uncertainty metric that indicates the informativeness of measurements at each possible location. These algorithms offer complementary benefits and feature constant complexity per measurement. Second, the uncertainty metric is used to plan the trajectory of the UAV to gather measurements at the most informative locations. To overcome the combinatorial complexity of this problem, a dynamic programming approach is proposed to obtain lists of waypoints through areas of large uncertainty in linear time. Numerical experiments conducted on a realistic dataset confirm that the proposed scheme constructs accurate radio maps quickly.
翻訳日:2022-01-15 04:38:35 公開日:2022-01-13
# (参考訳) 無限ニューラルネットワークの不確実性定量化法の概要 [全文訳有]

An Overview of Uncertainty Quantification Methods for Infinite Neural Networks ( http://arxiv.org/abs/2201.04746v1 )

ライセンス: CC BY-SA 4.0
Florian Juengermann, Maxime Laasri, Marius Merkle(参考訳) 大規模ニューラルネットワークの理論的挙動をよりよく理解するために、ネットワークの幅が無限大になる傾向にあるケースを分析する研究がいくつかある。 この方法では、ランダム初期化の効果とニューラルネットワークのトレーニングプロセスは、ガウス過程や神経接核のような分析ツールで正式に表現することができる。 本稿では,このような無限幅ニューラルネットワークにおける不確かさの定量化手法を概説し,ベイズ推定フレームワークにおけるガウス過程との比較を行う。 我々は、予測の不確実性に対する正確な閉形式解を得るために、いくつかの等価結果を利用する。

To better understand the theoretical behavior of large neural networks, several works have analyzed the case where a network's width tends to infinity. In this regime, the effect of random initialization and the process of training a neural network can be formally expressed with analytical tools like Gaussian processes and neural tangent kernels. In this paper, we review methods for quantifying uncertainty in such infinite-width neural networks and compare their relationship to Gaussian processes in the Bayesian inference framework. We make use of several equivalence results along the way to obtain exact closed-form solutions for predictive uncertainty.
翻訳日:2022-01-15 02:07:20 公開日:2022-01-13
# (参考訳) 単層ニューラルネットワークの共役カーネルの最大固有値 [全文訳有]

Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural Networks ( http://arxiv.org/abs/2201.04753v1 )

ライセンス: CC BY 4.0
Lucas Benigni, Sandrine P\'ech\'e(参考訳) 本稿では,ニューラルネットワークの研究から得られた非線形ランダム行列アンサンブルに対する最大固有値の漸近分布について検討する。 より正確には、$M= \frac{1}{m} YY^\top$ with $Y=f(WX)$ ここで$W$と$X$は、i.d.中心のエントリを持つランダムな矩形行列である。 これは、単一の層状ランダムフィードフォワードニューラルネットワークのデータ共分散行列または共役核をモデル化する。 関数 $f$ はエントリ単位で適用され、ニューラルネットワークの活性化関数と見なすことができる。 最大固有値は、よく知られた線形確率行列のアンサンブルと同じ極限(確率)を持つことを示す。 特に、非線形モデルにおける最大固有値の漸近限界と情報プラスノイズ確率行列の漸近限界を関連付け、関数 $f$ と$w$ と $x$ の分布に依存する位相遷移を可能にする。 これは機械学習の応用に注目されるかもしれない。

This paper is concerned with the asymptotic distribution of the largest eigenvalues for some nonlinear random matrix ensemble stemming from the study of neural networks. More precisely we consider $M= \frac{1}{m} YY^\top$ with $Y=f(WX)$ where $W$ and $X$ are random rectangular matrices with i.i.d. centered entries. This models the data covariance matrix or the Conjugate Kernel of a single layered random Feed-Forward Neural Network. The function $f$ is applied entrywise and can be seen as the activation function of the neural network. We show that the largest eigenvalue has the same limit (in probability) as that of some well-known linear random matrix ensembles. In particular, we relate the asymptotic limit of the largest eigenvalue for the nonlinear model to that of an information-plus-noi se random matrix, establishing a possible phase transition depending on the function $f$ and the distribution of $W$ and $X$. This may be of interest for applications to machine learning.
翻訳日:2022-01-15 02:00:54 公開日:2022-01-13
# (参考訳) 動的モード分解とRes-UNet+ニューラルネットワークを用いた時空間地図車両軌道検出 [全文訳有]

Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNet+ Neural Networks ( http://arxiv.org/abs/2201.04755v1 )

ライセンス: CC BY 4.0
Tianya T. Zhang and Peter J. Jin(参考訳) 本稿では,高角交通カメラから車両軌跡を抽出する,機械学習による縦走査法を提案する。 空間時間マップ(STMap)をスパースフォアグラウンドおよびローランク背景に分解して車両ストランドを抽出するために動的モード分解(DMD)法を適用した。 Res-UNet+という名前のディープニューラルネットワークは、2つの一般的なディープラーニングアーキテクチャを適用することでセマンティックセグメンテーションタスクのために設計された。 Res-UNet+ニューラルネットワークは、STMapに基づく車両検出の性能を大幅に向上させ、DMDモデルは、STMapが保存する地下空間時間構造の進化を理解するための興味深い洞察を提供する。 モデルの出力は、従来の画像処理モデルとメインストリームのセマンティックセグメンテーション深層ニューラルネットワークと比較された。 徹底的な評価の後、モデルは多くの困難因子に対して正確で堅牢であることが証明された。 最後に、この論文はngsim軌道データに見られる多くの品質問題を取り上げている。 交通流と微視的車両制御に関する将来の理論的およびモデリング研究を支援するために, クリーニングされた高品質な軌道データを公開した。 本手法はビデオベーストラジェクトリ抽出のための信頼性の高い解であり,広い適用性を有する。

This paper presents a machine-learning-enh anced longitudinal scanline method to extract vehicle trajectories from high-angle traffic cameras. The Dynamic Mode Decomposition (DMD) method is applied to extract vehicle strands by decomposing the Spatial-Temporal Map (STMap) into the sparse foreground and low-rank background. A deep neural network named Res-UNet+ was designed for the semantic segmentation task by adapting two prevalent deep learning architectures. The Res-UNet+ neural networks significantly improve the performance of the STMap-based vehicle detection, and the DMD model provides many interesting insights for understanding the evolution of underlying spatial-temporal structures preserved by STMap. The model outputs were compared with the previous image processing model and mainstream semantic segmentation deep neural networks. After a thorough evaluation, the model is proved to be accurate and robust against many challenging factors. Last but not least, this paper fundamentally addressed many quality issues found in NGSIM trajectory data. The cleaned high-quality trajectory data are published to support future theoretical and modeling research on traffic flow and microscopic vehicle control. This method is a reliable solution for video-based trajectory extraction and has wide applicability.
翻訳日:2022-01-15 01:29:26 公開日:2022-01-13
# (参考訳) 距離・強度背景サブトラクションを用いた路面ライダー車両の検出と追跡 [全文訳有]

Roadside Lidar Vehicle Detection and Tracking Using Range And Intensity Background Subtraction ( http://arxiv.org/abs/2201.04756v1 )

ライセンス: CC BY 4.0
Tianya Zhang and Peter J. Jin(参考訳) 本稿では,2つの教師なし学習アルゴリズムを組み合わせた道路側LiDAR物体検出手法を提案する。 3次元点雲データはまず球面座標に変換し、ハッシュ関数を用いて方位格子行列に充填する。 その後、生のLiDARデータを時空間データ構造に再構成し、範囲、方位、強度の情報を記憶した。 動的モード分解法を用いて, 点雲データを低ランク背景とスパースフォアグラウンドに分解し, 強度チャネルパターン認識に基づく解析を行った。 トライアングルアルゴリズムは、移動対象を静止背景から範囲情報に従って分離する分割値を自動的に見つける。 前景の移動物体は、密度に基づく検出器を用いて検出され、追跡のための状態空間モデルに符号化される。 提案モデルの出力には、多くの移動および安全応用を可能にする車両軌道が含まれる。 この手法は商用トラフィックデータ収集プラットフォームに対して検証され、LiDARオブジェクト検出のための効率的で信頼性の高いソリューションであることが実証された。 飛散点雲と離散点雲を直接処理する従来の手法とは対照的に,提案手法は,我々がしばしば望む空間-時空間構造を捉えた3次元計測データのより洗練された線形関係を確立することができる。

In this paper, we present the solution of roadside LiDAR object detection using a combination of two unsupervised learning algorithms. The 3D point clouds data are firstly converted into spherical coordinates and filled into the azimuth grid matrix using a hash function. After that, the raw LiDAR data were rearranged into spatial-temporal data structures to store the information of range, azimuth, and intensity. Dynamic Mode Decomposition method is applied for decomposing the point cloud data into low-rank backgrounds and sparse foregrounds based on intensity channel pattern recognition. The Triangle Algorithm automatically finds the dividing value to separate the moving targets from static background according to range information. After intensity and range background subtraction, the foreground moving objects will be detected using a density-based detector and encoded into the state-space model for tracking. The output of the proposed model includes vehicle trajectories that can enable many mobility and safety applications. The method was validated against a commercial traffic data collection platform and demonstrated to be an efficient and reliable solution for infrastructure LiDAR object detection. In contrast to the previous methods that process directly on the scattered and discrete point clouds, the proposed method can establish the less sophisticated linear relationship of the 3D measurement data, which captures the spatial-temporal structure that we often desire.
翻訳日:2022-01-15 01:14:42 公開日:2022-01-13
# (参考訳) Collision Detection: SENetとResNextを用いたディープラーニングアプローチの改善 [全文訳有]

Collision Detection: An Improved Deep Learning Approach Using SENet and ResNext ( http://arxiv.org/abs/2201.04766v1 )

ライセンス: CC BY 4.0
Aloukik Aditya, Liudu Zhou, Hrishika Vachhani, Dhivya Chandrasekaran and Vijay Mago(参考訳) 近年、道路の人口増加と交通量の増加により、自動車衝突は世界有数の死亡原因の一つとなっている。 自動車産業は、衝突検出と衝突防止システムを構築するために、コンピュータビジョンの分野におけるセンサーと進歩を使用する技術の開発を動機としている。 本稿では,senetブロックを用いたresnextアーキテクチャを用いたディープラーニングモデルを提案する。 このモデルの性能は、VGG16、VGG19、Resnet50、スタンドアローンのResNextといった一般的なディープラーニングモデルと比較される。 提案モデルでは,学習用GTACrash合成データの有意に少ない比率でROC-AUCが0.91となる既存のベースラインモデルよりも優れており,計算オーバーヘッドを低減している。

In recent days, with increased population and traffic on roadways, vehicle collision is one of the leading causes of death worldwide. The automotive industry is motivated on developing techniques to use sensors and advancements in the field of computer vision to build collision detection and collision prevention systems to assist drivers. In this article, a deep-learning-based model comprising of ResNext architecture with SENet blocks is proposed. The performance of the model is compared to popular deep learning models like VGG16, VGG19, Resnet50, and stand-alone ResNext. The proposed model outperforms the existing baseline models achieving a ROC-AUC of 0.91 using a significantly less proportion of the GTACrash synthetic data for training, thus reducing the computational overhead.
翻訳日:2022-01-15 00:53:37 公開日:2022-01-13
# (参考訳) 協調フィルタリングデータセットのサンプリングについて [全文訳有]

On Sampling Collaborative Filtering Datasets ( http://arxiv.org/abs/2201.04768v1 )

ライセンス: CC BY 4.0
Noveen Sachdeva, Carole-Jean Wu, Julian McAuley(参考訳) 提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。 レコメンダシステムは一般的にトレーニングされ、より大きなデータセットのサンプルで評価される。 例えば、データセットをランダムにサンプリングしたり、多くのインタラクションを持つユーザやアイテムを選択するなどである。 示すように、一般的なデータサンプリング方式は、アルゴリズムの性能に大きな影響を及ぼす可能性がある。 Following this observation, this paper makes three main contributions: (1) characterizing the effect of sampling on algorithm performance, in terms of algorithm and dataset characteristics (e.g. sparsity characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a data-specific sampling strategy, that aims to preserve the relative performance of models after sampling, and is especially suited to long-tailed interaction data; and (3) developing an oracle, Data-Genie, which can suggest the sampling scheme that is most likely to preserve model performance for a given dataset. Data-Genieの主な利点は、レコメンデータシステム実践者が様々なアプローチのプロトタイプと比較を迅速に行うことができる一方で、アルゴリズムのパフォーマンスが維持されると確信している点である。 詳細な実験によると、Data-Genieを使えば、同じレベルのパフォーマンスを持つサンプリング戦略よりも最大5倍のデータを捨てることができます。

We study the practical consequences of dataset sampling strategies on the ranking performance of recommendation algorithms. Recommender systems are generally trained and evaluated on samples of larger datasets. Samples are often taken in a naive or ad-hoc fashion: e.g. by sampling a dataset randomly or by selecting users or items with many interactions. As we demonstrate, commonly-used data sampling schemes can have significant consequences on algorithm performance. Following this observation, this paper makes three main contributions: (1) characterizing the effect of sampling on algorithm performance, in terms of algorithm and dataset characteristics (e.g. sparsity characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a data-specific sampling strategy, that aims to preserve the relative performance of models after sampling, and is especially suited to long-tailed interaction data; and (3) developing an oracle, Data-Genie, which can suggest the sampling scheme that is most likely to preserve model performance for a given dataset. The main benefit of Data-Genie is that it will allow recommender system practitioners to quickly prototype and compare various approaches, while remaining confident that algorithm performance will be preserved, once the algorithm is retrained and deployed on the complete data. Detailed experiments show that using Data-Genie, we can discard upto 5x more data than any sampling strategy with the same level of performance.
翻訳日:2022-01-15 00:40:32 公開日:2022-01-13
# (参考訳) 多変量時系列異常検出のための予測型マルチアスペクトフレームワーク [全文訳有]

Forecast-based Multi-aspect Framework for Multivariate Time-series Anomaly Detection ( http://arxiv.org/abs/2201.04792v1 )

ライセンス: CC BY 4.0
Lan Wang, Yusan Lin, Yuhang Wu, Huiyuan Chen, Fei Wang, Hao Yang(参考訳) 今日のサイバーワールドは多変量だ。 極端な種類で収集されたメトリクスは、異常を適切に検出するために多変量アルゴリズムを要求する。 しかし、予測に基づくアルゴリズムは、広く証明されたアプローチとして、しばしばデータセット間で準最適または矛盾なく実行される。 大きな問題は、それらはすべて1サイズにフィットするが、異常は自然に特有のものである。 このような区別に合わせた手法を提案する。 FMUAD - 予測に基づくマルチアスペクト、教師なし異常検出フレームワーク。 fmuadは、異常型空間変化、時間変化、相関変化のシグネチャ特性を、独立モジュールと明示的に分離してキャプチャする。 モジュールは、カテゴリの他のほとんどのモデルとは異なり、柔軟で直感的な最適な特徴表現を共同で学習する。 大規模な実験により、我々のFMUADフレームワークは、他の最先端の予測ベースの異常検知器よりも一貫して優れています。

Today's cyber-world is vastly multivariate. Metrics collected at extreme varieties demand multivariate algorithms to properly detect anomalies. However, forecast-based algorithms, as widely proven approaches, often perform sub-optimally or inconsistently across datasets. A key common issue is they strive to be one-size-fits-all but anomalies are distinctive in nature. We propose a method that tailors to such distinction. Presenting FMUAD - a Forecast-based, Multi-aspect, Unsupervised Anomaly Detection framework. FMUAD explicitly and separately captures the signature traits of anomaly types - spatial change, temporal change and correlation change - with independent modules. The modules then jointly learn an optimal feature representation, which is highly flexible and intuitive, unlike most other models in the category. Extensive experiments show our FMUAD framework consistently outperforms other state-of-the-art forecast-based anomaly detectors.
翻訳日:2022-01-15 00:19:30 公開日:2022-01-13
# (参考訳) EMT-NET: 乳がんのコンピュータ診断に有効なマルチタスクネットワーク [全文訳有]

EMT-NET: Efficient multitask network for computer-aided diagnosis of breast cancer ( http://arxiv.org/abs/2201.04795v1 )

ライセンス: CC BY 4.0
Jiaqiao Shi, Aleksandar Vakanski, Min Xian, Jianrui Ding, Chunping Ning(参考訳) 深層学習に基づくコンピュータ支援診断は、乳がん検出において前例のない性能を達成した。 しかし、ほとんどのアプローチは計算集約的であり、現実世界のアプリケーションで広く普及することを妨げている。 本研究では,乳腺腫瘍を同時に分類・分別するための,効率的かつ軽量なマルチタスク学習アーキテクチャを提案する。 腫瘍分類ネットワークにセグメンテーションタスクを組み込むことにより,バックボーンネットワークが腫瘍領域に焦点をあてた表現を学習する。 さらに,癌検出の感度と特異性とのバランスを容易に制御できる新しい数値安定損失関数を提案する。 提案手法は1,511画像の乳房超音波データセットを用いて評価する。 腫瘍分類の精度、感度、特異性はそれぞれ88.6%、94.1%、85.3%である。 仮想モバイルデバイスを用いてモデルを検証し,画像あたりの平均推定時間は0.35秒である。

Deep learning-based computer-aided diagnosis has achieved unprecedented performance in breast cancer detection. However, most approaches are computationally intensive, which impedes their broader dissemination in real-world applications. In this work, we propose an efficient and light-weighted multitask learning architecture to classify and segment breast tumors simultaneously. We incorporate a segmentation task into a tumor classification network, which makes the backbone network learn representations focused on tumor regions. Moreover, we propose a new numerically stable loss function that easily controls the balance between the sensitivity and specificity of cancer detection. The proposed approach is evaluated using a breast ultrasound dataset with 1,511 images. The accuracy, sensitivity, and specificity of tumor classification is 88.6%, 94.1%, and 85.3%, respectively. We validate the model using a virtual mobile device, and the average inference time is 0.35 seconds per image.
翻訳日:2022-01-15 00:02:52 公開日:2022-01-13
# (参考訳) 連続線形帯域における非定常表現学習 [全文訳有]

Non-Stationary Representation Learning in Sequential Linear Bandits ( http://arxiv.org/abs/2201.04805v1 )

ライセンス: CC BY 4.0
Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio Pasqualetti(参考訳) 本稿では,非定常環境におけるマルチタスク意思決定のための表現学習について検討する。 エージェントは異なる環境に関連付けられた異なる集合から引き出された一連のタスクを実行する。 各集合へのタスクの埋め込みは表現と呼ばれる低次元の特徴抽出器を共有し、表現は集合間で異なる。 本稿では,非定常表現を適応的に学習・伝達することにより,効率的な意思決定を容易にするオンラインアルゴリズムを提案する。 我々のアルゴリズムがタスクを独立に扱う既存のアルゴリズムを大幅に上回っていることを証明します。 また, 合成データと実データの両方を用いて実験を行い, 理論的知見を検証し, アルゴリズムの有効性を実証した。

In this paper, we study representation learning for multi-task decision-making in non-stationary environments. We consider the framework of sequential linear bandits, where the agent performs a series of tasks drawn from distinct sets associated with different environments. The embeddings of tasks in each set share a low-dimensional feature extractor called representation, and representations are different across sets. We propose an online algorithm that facilitates efficient decision-making by learning and transferring non-stationary representations in an adaptive fashion. We prove that our algorithm significantly outperforms the existing ones that treat tasks independently. We also conduct experiments using both synthetic and real data to validate our theoretical insights and demonstrate the efficacy of our algorithm.
翻訳日:2022-01-14 23:52:40 公開日:2022-01-13
# (参考訳) 逆数生成ネットワークのための平衡事前学習付き条件変分オートエンコーダ [全文訳有]

Conditional Variational Autoencoder with Balanced Pre-training for Generative Adversarial Networks ( http://arxiv.org/abs/2201.04809v1 )

ライセンス: CC BY 4.0
Yuchong Yao, Xiaohui Wangr, Yuanbang Ma, Han Fang, Jiaying Wei, Liyuan Chen, Ali Anaissi and Ali Braytee(参考訳) クラス不均衡は、各クラスの画像数が大きく異なる画像分類を含む多くの実世界のアプリケーションで発生する。 不均衡なデータでは、生成的敵ネットワーク(gans)が多数派クラスサンプルに傾いている。 近年の2つの手法であるBalancing GAN(BAGAN)と改良BAGAN(BAGAN-GP)が,この問題に対処し,データのバランスを回復するための拡張ツールとして提案されている。 前者は教師なしの方法でオートエンコーダ重みを事前訓練する。 しかし、異なるカテゴリの画像に類似した特徴がある場合、不安定である。 後者は、教師付きオートエンコーダのトレーニングを容易にすることで、BAGANに基づいて改善されている。 本研究では, 現実的な合成画像を生成するための拡張ツールとして, CAPGAN (Conditional Variational Autoencoder) を提案する。 特に,条件付き畳み込み変分オートエンコーダを用いて,GAN初期化と勾配ペナルティによるトレーニングを行う。 提案手法は,MNIST,Fashion-MNIST ,CIFAR-10,および2つの医用画像データセットの高度に不均衡なバージョンに対して,他の最先端手法よりも優れた性能を示す。 提案手法は,Fr'echet開始距離,構造類似度指標,知覚品質の観点から,高品質なマイノリティサンプルを合成することができる。

Class imbalance occurs in many real-world applications, including image classification, where the number of images in each class differs significantly. With imbalanced data, the generative adversarial networks (GANs) leans to majority class samples. The two recent methods, Balancing GAN (BAGAN) and improved BAGAN (BAGAN-GP), are proposed as an augmentation tool to handle this problem and restore the balance to the data. The former pre-trains the autoencoder weights in an unsupervised manner. However, it is unstable when the images from different categories have similar features. The latter is improved based on BAGAN by facilitating supervised autoencoder training, but the pre-training is biased towards the majority classes. In this work, we propose a novel Conditional Variational Autoencoder with Balanced Pre-training for Generative Adversarial Networks (CAPGAN) as an augmentation tool to generate realistic synthetic images. In particular, we utilize a conditional convolutional variational autoencoder with supervised and balanced pre-training for the GAN initialization and training with gradient penalty. Our proposed method presents a superior performance of other state-of-the-art methods on the highly imbalanced version of MNIST, Fashion-MNIST, CIFAR-10, and two medical imaging datasets. Our method can synthesize high-quality minority samples in terms of Fr\'echet inception distance, structural similarity index measure and perceptual quality.
翻訳日:2022-01-14 23:21:35 公開日:2022-01-13
# (参考訳) 強化学習タスクにおける遺伝的アルゴリズムの直接的変異とクロスオーバー [全文訳有]

Direct Mutation and Crossover in Genetic Algorithms Applied to Reinforcement Learning Tasks ( http://arxiv.org/abs/2201.04815v1 )

ライセンス: CC BY 4.0
Tarek Faycal and Claudio Zito(参考訳) 神経進化は近年、強化学習(RL)設定において非常に競争力があることが示されており、勾配に基づくアプローチの欠点を緩和することができる。 本稿では、遺伝的アルゴリズム(GA)を用いて神経進化を適用し、最適な行動エージェントを生成するニューラルネットワークの重みを見つけることに焦点を当てる。 また,初期実装と比較してデータ効率と収束速度が向上する2つの改良点を提案する。 OpenAI体育館が提供するFrozenLake環境において, 改良が評価され, ベースラインアプローチよりもかなり良いことが証明された。

Neuroevolution has recently been shown to be quite competitive in reinforcement learning (RL) settings, and is able to alleviate some of the drawbacks of gradient-based approaches. This paper will focus on applying neuroevolution using a simple genetic algorithm (GA) to find the weights of a neural network that produce optimally behaving agents. In addition, we present two novel modifications that improve the data efficiency and speed of convergence when compared to the initial implementation. The modifications are evaluated on the FrozenLake environment provided by OpenAI gym and prove to be significantly better than the baseline approach.
翻訳日:2022-01-14 23:09:47 公開日:2022-01-13
# (参考訳) $k$-meansに対する幾何学的アプローチ [全文訳有]

A Geometric Approach to $k$-means ( http://arxiv.org/abs/2201.04822v1 )

ライセンス: CC BY 4.0
Jiazhen Hong, Wei Qian, Yudong Chen, Yuqian Zhang(参考訳) k$-meansクラスタリングは、さまざまな分野において根本的な問題である。 この問題は非凸であり、標準アルゴリズムは局所最適を見つけることが保証されている。 [1]に特徴付けられる局所解の構造を活用し,好ましくない局所解をエスケープし,大域的解(あるいは基底的真理)を回復するための一般的なアルゴリズムフレームワークを提案する。 この枠組みは次の2つのステップを反復的に交互に構成する。 (i)局所溶液中の誤特定クラスタを検出して (ii)非局所操作による現在のローカルソリューションの改善。 本稿では,これらのステップの実装について論じ,幾何学的観点からの文献における$k$-meansアルゴリズムの変種をいかに統一するかを明らかにする。 さらに、提案フレームワークの2つの自然な拡張を導入し、初期クラスタ数を誤特定する。 我々は、我々のアプローチを理論的に正当化し、広範な実験と組み合わせる。

$k$-means clustering is a fundamental problem in various disciplines. This problem is nonconvex, and standard algorithms are only guaranteed to find a local optimum. Leveraging the structure of local solutions characterized in [1], we propose a general algorithmic framework for escaping undesirable local solutions and recovering the global solution (or the ground truth). This framework consists of alternating between the following two steps iteratively: (i) detect mis-specified clusters in a local solution and (ii) improve the current local solution by non-local operations. We discuss implementation of these steps, and elucidate how the proposed framework unifies variants of $k$-means algorithm in literature from a geometric perspective. In addition, we introduce two natural extensions of the proposed framework, where the initial number of clusters is misspecified. We provide theoretical justification for our approach, which is corroborated with extensive experiments.
翻訳日:2022-01-14 23:01:28 公開日:2022-01-13
# (参考訳) インフォームド・アドバイザによるトレーニングデータの再構築 [全文訳有]

Reconstructing Training Data with Informed Adversaries ( http://arxiv.org/abs/2201.04845v1 )

ライセンス: CC BY 4.0
Borja Balle, Giovanni Cherubin, Jamie Hayes(参考訳) 機械学習モデルへのアクセスが与えられると、敵はモデルのトレーニングデータを再構築できるか? この研究は、すべてのトレーニングデータポイントを知っている強力な知識のある敵のレンズからこの問題を研究する。 具体的な攻撃をインスタンス化することにより、この厳密な脅威モデルにおける残りのデータポイントを再構築できることを示す。 凸モデル(例えばロジスティック回帰)では、再構成攻撃は単純であり、閉形式で導出することができる。 より一般的なモデル(例えばニューラルネットワーク)に対しては、攻撃対象のモデルの重みを入力として受け取り、ターゲットのデータポイントを出力する再構成器ネットワークのトレーニングに基づく攻撃戦略を提案する。 我々は,MNIST と CIFAR-10 で訓練された画像分類器に対する攻撃の有効性を実証し,標準的な機械学習パイプラインのどの要素が再構築の成功に影響を与えるかを体系的に検討した。 最後に,情報提供者によるリコンストラクション攻撃を緩和するためのプライバシーの差異について理論的に検討する。 Our work provides an effective reconstruction attack that model developers can use to assess memorization of individual points in general settings beyond those considered in previous works (e.g. generative language models or access to training gradients); it shows that standard models have the capacity to store enough information to enable high-fidelity reconstruction of training data points; and it demonstrates that differential privacy can successfully mitigate such attacks in a parameter regime where utility degradation is minimal.

Given access to a machine learning model, can an adversary reconstruct the model's training data? This work studies this question from the lens of a powerful informed adversary who knows all the training data points except one. By instantiating concrete attacks, we show it is feasible to reconstruct the remaining data point in this stringent threat model. For convex models (e.g. logistic regression), reconstruction attacks are simple and can be derived in closed-form. For more general models (e.g. neural networks), we propose an attack strategy based on training a reconstructor network that receives as input the weights of the model under attack and produces as output the target data point. We demonstrate the effectiveness of our attack on image classifiers trained on MNIST and CIFAR-10, and systematically investigate which factors of standard machine learning pipelines affect reconstruction success. Finally, we theoretically investigate what amount of differential privacy suffices to mitigate reconstruction attacks by informed adversaries. Our work provides an effective reconstruction attack that model developers can use to assess memorization of individual points in general settings beyond those considered in previous works (e.g. generative language models or access to training gradients); it shows that standard models have the capacity to store enough information to enable high-fidelity reconstruction of training data points; and it demonstrates that differential privacy can successfully mitigate such attacks in a parameter regime where utility degradation is minimal.
翻訳日:2022-01-14 22:33:17 公開日:2022-01-13
# (参考訳) スマートマニュファクチャリングにおけるヒューマンAIチームのためのリファレンスソフトウェアアーキテクチャ [全文訳有]

Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing ( http://arxiv.org/abs/2201.04876v1 )

ライセンス: CC BY 4.0
Philipp Haindl, Georg Buchgeher, Maqbool Khan, Bernhard Moser(参考訳) スマートマニュファクチャリングにおけるai対応ソフトウェアシステムの普及に伴い、このようなシステムの役割は、リアクションからプロアクティブな役割へと移行し、製造オペレーターにコンテキスト固有のサポートを提供する。 EUが出資したTeaming.AIプロジェクトのフレームでは、人間とAIのコラボレーションにおけるチームリングの側面の監視、倫理的ポリシーのランタイム監視と検証、データと機械学習アルゴリズムの実験のサポートを、スマート製造における人間とAIのコラボレーションの最も関連性の高い課題として挙げました。 これらの課題に基づいて,知識グラフ,追跡およびシーン分析に基づく参照ソフトウェアアーキテクチャと,その拡張性を重視したリレーショナル機械学習のためのコンポーネントを開発した。 本手法は,生産プロセスにおける製品やプロセス固有の知識を捉え,それをリレーショナル機械学習に活用するために,知識グラフを用いる。 これにより、製品品質の最適化と物理的被害の防止のための製造プロセスにおけるアクションのコンテキスト固有の推奨が可能になる。 本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。 本稿では,このようなリファレンスソフトウェアアーキテクチャの課題について論じ,その事前状況を示すとともに,本プロジェクトにおける今後の研究ビジョンを概観する。

With the proliferation of AI-enabled software systems in smart manufacturing, the role of such systems moves away from a reactive to a proactive role that provides context-specific support to manufacturing operators. In the frame of the EU funded Teaming.AI project, we identified the monitoring of teaming aspects in human-AI collaboration, the runtime monitoring and validation of ethical policies, and the support for experimentation with data and machine learning algorithms as the most relevant challenges for human-AI teaming in smart manufacturing. Based on these challenges, we developed a reference software architecture based on knowledge graphs, tracking and scene analysis, and components for relational machine learning with a particular focus on its scalability. Our approach uses knowledge graphs to capture product- and process specific knowledge in the manufacturing process and to utilize it for relational machine learning. This allows for context-specific recommendations for actions in the manufacturing process for the optimization of product quality and the prevention of physical harm. The empirical validation of this software architecture will be conducted in cooperation with three large-scale companies in the automotive, energy systems, and precision machining domain. In this paper we discuss the identified challenges for such a reference software architecture, present its preliminary status, and sketch our further research vision in this project.
翻訳日:2022-01-14 21:48:30 公開日:2022-01-13
# (参考訳) 単語センスの曖昧さに対する擬似0-1プログラミング手法 [全文訳有]

A Quadratic 0-1 Programming Approach for Word Sense Disambiguation ( http://arxiv.org/abs/2201.04877v1 )

ライセンス: CC BY 4.0
Boliang Lin(参考訳) word sense disambiguation (wsd) は、ある文脈における曖昧な単語の意味を決定するタスクである。 これまでのWSDのアプローチは、教師付きおよび知識に基づく手法に焦点を合わせてきたが、あいまいさに対する意味の相互作用パターンや規則性は見つからない。 We argue the following cause as one of the major difficulties behind finding the right patterns: for a particular context, the intended senses of a sequence of ambiguous words are dependent on each other, i.e. the choice of one word's sense is associated with the choice of another word's sense, making WSD a combinatorial optimization problem.In this work, we approach the interactions between senses of different target words by a Quadratic 0-1 Integer Programming model (QIP) that maximizes the objective function consisting of (1) the similarity between candidate senses of a target word and the word in a context (the sense-word similarity), and (2) the semantic interactions (relatedness) between senses of all words in the context (the sense-sense relatedness).

Word Sense Disambiguation (WSD) is the task to determine the sense of an ambiguous word in a given context. Previous approaches for WSD have focused on supervised and knowledge-based methods, but inter-sense interactions patterns or regularities for disambiguation remain to be found. We argue the following cause as one of the major difficulties behind finding the right patterns: for a particular context, the intended senses of a sequence of ambiguous words are dependent on each other, i.e. the choice of one word's sense is associated with the choice of another word's sense, making WSD a combinatorial optimization problem.In this work, we approach the interactions between senses of different target words by a Quadratic 0-1 Integer Programming model (QIP) that maximizes the objective function consisting of (1) the similarity between candidate senses of a target word and the word in a context (the sense-word similarity), and (2) the semantic interactions (relatedness) between senses of all words in the context (the sense-sense relatedness).
翻訳日:2022-01-14 21:38:36 公開日:2022-01-13
# (参考訳) マルチアテンション深層強化学習による動的グラフ問題の解法 [全文訳有]

Solving Dynamic Graph Problems with Multi-Attention Deep Reinforcement Learning ( http://arxiv.org/abs/2201.04895v1 )

ライセンス: CC BY 4.0
Udesh Gunarathna, Renata Borovica-Gajic, Shanika Karunasekara, Egemen Tanin(参考訳) トラベルセールスマン問題や最小のシュタイナー木の発見といったグラフ問題は、データ工学やコンピュータ科学において広く研究され、利用されている。 通常、現実世界のアプリケーションでは、グラフの機能は時間とともに変化する傾向があるため、問題に対する解決策を見つけることは困難になる。 多くのグラフ問題の動的なバージョンは、輸送、通信、ソーシャルネットワークにおける現実の問題の多さの鍵である。 近年、np型グラフ組合せ問題に対するヒューリスティックな解を見つけるためにディープラーニング技術を用いることで、これらの学習されたヒューリスティックは最適に近い解を効率的に見つけることができるため、多くの関心を集めている。 しかし、既存のヒューリスティックス学習手法のほとんどは静的グラフ問題に重点を置いている。 動的性質はNPハードグラフ問題を学習しにくくし、既存の手法では妥当な解を見つけることができない。 本稿では,グラフに基づく動的組合せ最適化問題に対するヒューリスティックな解を求めるために,グラフ時間注意強化学習(GTA-RL)という新しいアーキテクチャを提案する。 GTA-RLアーキテクチャは、組合せ問題インスタンスの時間的特徴を埋め込むことができるエンコーダと、組み込まれた特徴に動的に集中して与えられた組合せ問題インスタンスの解を見つけることができるデコーダとから構成される。 次に、私たちはアーキテクチャを拡張して、問題の全入力特徴が事前に知られておらず、むしろリアルタイムに学習される組合せ最適化問題のリアルタイムバージョンのヒューリスティックスを学びます。 いくつかの最先端学習に基づくアルゴリズムと最適解法に対する実験結果は、動的およびリアルタイムグラフの組合せ最適化における効率性の観点から、最先端学習に基づくアプローチよりも優れていることを示す。

Graph problems such as traveling salesman problem, or finding minimal Steiner trees are widely studied and used in data engineering and computer science. Typically, in real-world applications, the features of the graph tend to change over time, thus, finding a solution to the problem becomes challenging. The dynamic version of many graph problems are the key for a plethora of real-world problems in transportation, telecommunication, and social networks. In recent years, using deep learning techniques to find heuristic solutions for NP-hard graph combinatorial problems has gained much interest as these learned heuristics can find near-optimal solutions efficiently. However, most of the existing methods for learning heuristics focus on static graph problems. The dynamic nature makes NP-hard graph problems much more challenging to learn, and the existing methods fail to find reasonable solutions. In this paper, we propose a novel architecture named Graph Temporal Attention with Reinforcement Learning (GTA-RL) to learn heuristic solutions for graph-based dynamic combinatorial optimization problems. The GTA-RL architecture consists of an encoder capable of embedding temporal features of a combinatorial problem instance and a decoder capable of dynamically focusing on the embedded features to find a solution to a given combinatorial problem instance. We then extend our architecture to learn heuristics for the real-time version of combinatorial optimization problems where all input features of a problem are not known a prior, but rather learned in real-time. Our experimental results against several state-of-the-art learning-based algorithms and optimal solvers demonstrate that our approach outperforms the state-of-the-art learning-based approaches in terms of effectiveness and optimal solvers in terms of efficiency on dynamic and real-time graph combinatorial optimization.
翻訳日:2022-01-14 21:31:20 公開日:2022-01-13
# (参考訳) ハンドオブジェクトインタラクション推論 [全文訳有]

Hand-Object Interaction Reasoning ( http://arxiv.org/abs/2201.04906v1 )

ライセンス: CC BY 4.0
Jian Ma and Dima Damen(参考訳) 本稿では,映像における手と物体の時空間関係をモデル化するインタラクション推論ネットワークを提案する。 提案するインタラクションユニットは、それぞれの動作について判断するためにトランスフォーマモジュールを使用し、その空間的・時間的関係と相互作用対象との相互作用を利用する。 双方向インタラクションのモデル化は,エゴセントリックビデオにおける行動認識に不可欠であることを示すとともに,位置符号化トラジェクタを用いることにより,観測されたインタラクションをよりよく認識できることを示す。 EPIC-KITCHENSとSome-Elseのデータセットをアブレーションで評価した。

This paper proposes an interaction reasoning network for modelling spatio-temporal relationships between hands and objects in video. The proposed interaction unit utilises a Transformer module to reason about each acting hand, and its spatio-temporal relation to the other hand as well as objects being interacted with. We show that modelling two-handed interactions are critical for action recognition in egocentric video, and demonstrate that by using positionally-encoded trajectories, the network can better recognise observed interactions. We evaluate our proposal on EPIC-KITCHENS and Something-Else datasets, with an ablation study.
翻訳日:2022-01-14 21:09:16 公開日:2022-01-13
# (参考訳) 変形性関節症音声認識における時間ストレッチの効果 [全文訳有]

The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition ( http://arxiv.org/abs/2201.04908v1 )

ライセンス: CC BY 4.0
Luke Prananta, Bence Mark Halpern, Siyuan Feng, Odette Scharenborg(参考訳) 本稿では, 変形性関節症の音声認識を改善するために, 変形性音声の高機能化のためのGAN音声変換法について検討する。 既存の方法の重要成分を厳密なアブレーション研究の一環として比較し,dysarthric speech recognitionの最も効果的な解を求める。 定常ノイズ除去やvocoderに基づく時間伸長といった単純な信号処理手法は,音素認識タスクで測定した最先端のganに基づく音声変換手法を用いた場合と同等のジアースリック音声認識結果をもたらすことが判明した。 さらに,maskCycleGAN-VCと時間伸張拡張を組み合わせた提案手法は,時間伸張ベースラインと比較して,特定の変形性スピーカの音素認識結果を改善することができる。

In this paper, we investigate several existing and a new state-of-the-art generative adversarial network-based (GAN) voice conversion method for enhancing dysarthric speech for improved dysarthric speech recognition. We compare key components of existing methods as part of a rigorous ablation study to find the most effective solution to improve dysarthric speech recognition. We find that straightforward signal processing methods such as stationary noise removal and vocoder-based time stretching lead to dysarthric speech recognition results comparable to those obtained when using state-of-the-art GAN-based voice conversion methods as measured using a phoneme recognition task. Additionally, our proposed solution of a combination of MaskCycleGAN-VC and time stretched enhancement is able to improve the phoneme recognition results for certain dysarthric speakers compared to our time stretched baseline.
翻訳日:2022-01-14 20:57:16 公開日:2022-01-13
# (参考訳) Syllables を用いた単語埋め込みの圧縮 [全文訳有]

Compressing Word Embeddings Using Syllables ( http://arxiv.org/abs/2201.04913v1 )

ライセンス: CC BY 4.0
Laurent Mertens, Joost Vennekens(参考訳) 本研究は、しばしば使われる$n$-gram組込みの代わりに、音節組込みをサブワード組込みとして使用する可能性を検討する。 これを英語とオランダ語という2つの言語で調べる。 この目的のために、標準英語の単語埋め込み評価データセットである wordsim353 と semeval-2017 をオランダ語に翻訳した。 さらに,研究コミュニティに対して,両言語間の音節分解のデータセットを提供する。 われわれのアプローチをフルワードと$n$-gramの埋め込みと比較する。 単語の埋め込みと比較すると、性能の80%を維持しつつ、20~30倍小さい英語モデルが得られる。 オランダでは、モデルが70%のパフォーマンス維持のために15倍小さい。 私たちが使った$n$-gramベースラインよりも正確ではありませんが、$n$-gramアプローチの時間とは対照的に、モデルのトレーニングは数分で行えます。 今後の作業におけるパフォーマンス向上への道筋を特定する。 すべてのコードは公開されており、収集した英語とオランダ語のシラバスの分解やオランダ語の評価セットの翻訳も利用可能です。

This work examines the possibility of using syllable embeddings, instead of the often used $n$-gram embeddings, as subword embeddings. We investigate this for two languages: English and Dutch. To this end, we also translated two standard English word embedding evaluation datasets, WordSim353 and SemEval-2017, to Dutch. Furthermore, we provide the research community with data sets of syllabic decompositions for both languages. We compare our approach to full word and $n$-gram embeddings. Compared to full word embeddings, we obtain English models that are 20 to 30 times smaller while retaining 80% of the performance. For Dutch, models are 15 times smaller for 70% performance retention. Although less accurate than the $n$-gram baseline we used, our models can be trained in a matter of minutes, as opposed to hours for the $n$-gram approach. We identify a path toward upgrading performance in future work. All code is made publicly available, as well as our collected English and Dutch syllabic decompositions and Dutch evaluation set translations.
翻訳日:2022-01-14 20:43:48 公開日:2022-01-13
# (参考訳) virtual-to-real image-domain translation を用いた鏡視下画像生成法 [全文訳有]

Realistic Endoscopic Image Generation Method Using Virtual-to-real Image-domain Translation ( http://arxiv.org/abs/2201.04918v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Kiyohito Tanaka, Hirotsugu Takabatake, Masaki Mori, Hiroshi Natori, Kensaku Mori(参考訳) 本稿では,内視鏡シミュレーションシステムにおける可視化のための現実的な画像生成手法を提案する。 多くの病院で内視鏡的診断と治療が行われている。 内視鏡挿入に関する合併症を軽減するため、内視鏡挿入の訓練やリハーサルに内視鏡シミュレーションシステムを用いる。 しかし、現在のシミュレーションシステムは非現実的な仮想内視鏡画像を生成する。 シミュレーションシステムの価値を高めるためには,生成画像の現実性の向上が必要である。 内視鏡シミュレーションシステムのための現実的な画像生成手法を提案する。 患者のCTボリュームからボリュームレンダリング法を用いて仮想内視鏡画像を生成する。 仮想領域変換技術を用いて,仮想内視鏡画像の現実性を向上させる。 画像領域変換器は完全畳み込みネットワーク(fcn)として実装されている。 サイクル整合損失関数を最小化してFCNを訓練する。 FCNは仮想および実際の内視鏡画像を用いて訓練される。 高品質な画像領域翻訳結果を得るため,実際の内視鏡画像集合に対して画像クリーニングを行う。 画像領域のトランスレータとしては, 浅いU-Net, U-Net, 深いU-Net, U-Netが残存する。 残留ユニットを持つ深いU-NetとU-Netは非常にリアルな画像を生成する。

This paper proposes a realistic image generation method for visualization in endoscopic simulation systems. Endoscopic diagnosis and treatment are performed in many hospitals. To reduce complications related to endoscope insertions, endoscopic simulation systems are used for training or rehearsal of endoscope insertions. However, current simulation systems generate non-realistic virtual endoscopic images. To improve the value of the simulation systems, improvement of reality of their generated images is necessary. We propose a realistic image generation method for endoscopic simulation systems. Virtual endoscopic images are generated by using a volume rendering method from a CT volume of a patient. We improve the reality of the virtual endoscopic images using a virtual-to-real image-domain translation technique. The image-domain translator is implemented as a fully convolutional network (FCN). We train the FCN by minimizing a cycle consistency loss function. The FCN is trained using unpaired virtual and real endoscopic images. To obtain high quality image-domain translation results, we perform an image cleansing to the real endoscopic image set. We tested to use the shallow U-Net, U-Net, deep U-Net, and U-Net having residual units as the image-domain translator. The deep U-Net and U-Net having residual units generated quite realistic images.
翻訳日:2022-01-14 20:31:42 公開日:2022-01-13
# (参考訳) 複合特性予測のためのvaeに基づく分子表現の改善

Improving VAE based molecular representations for compound property prediction ( http://arxiv.org/abs/2201.04929v1 )

ライセンス: CC BY 4.0
A. Tevosyan (1 and 2), L. Khondkaryan (1), H. Khachatrian (2 and 3), G. Tadevosyan (1), L. Apresyan (1), N. Babayan (1 and 3), H. Stopper (4), Z. Navoyan (5) ((1) Institute of Molecular Biology NAS RA Armenia, (2) YerevaNN Armenia, (3) Yerevan State University Armenia, (4) Institute of Pharmacology and Toxicology University of W\"urzburg Germany, (5) Toxometris.ai)(参考訳) 化学情報学における重要なタスクのためのラベル付きデータの収集には時間がかかり、高価な実験が必要となる。 近年、機械学習は大規模な未ラベル分子データセットを用いて分子の豊かな表現を学習し、限られたデータセットでより困難なタスクを解決するために知識を伝達するために使われてきた。 変分オートエンコーダは、化学特性予測と分子生成タスクの両方の転送を実行するために提案されたツールの1つである。 本研究では,可変オートエンコーダによって学習される表現における相関分子記述子の追加情報を組み込むことにより,機械学習モデルの化学特性予測性能を向上させるための簡便な手法を提案する。 提案手法を3つの特性予測要求で検証する。 組み込まれた記述子数の影響、記述子と対象プロパティの相関、データセットのサイズ等について検討する。 最後に、表現空間における特性予測モデルの性能と特性予測データセットとより大きなラベル付きデータセットとの間の距離との関係を示す。

Collecting labeled data for many important tasks in chemoinformatics is time consuming and requires expensive experiments. In recent years, machine learning has been used to learn rich representations of molecules using large scale unlabeled molecular datasets and transfer the knowledge to solve the more challenging tasks with limited datasets. Variational autoencoders are one of the tools that have been proposed to perform the transfer for both chemical property prediction and molecular generation tasks. In this work we propose a simple method to improve chemical property prediction performance of machine learning models by incorporating additional information on correlated molecular descriptors in the representations learned by variational autoencoders. We verify the method on three property prediction asks. We explore the impact of the number of incorporated descriptors, correlation between the descriptors and the target properties, sizes of the datasets etc. Finally, we show the relation between the performance of property prediction models and the distance between property prediction dataset and the larger unlabeled dataset in the representation space.
翻訳日:2022-01-14 20:23:46 公開日:2022-01-13
# (参考訳) 強化学習の自動化 - 概観

Automated Reinforcement Learning: An Overview ( http://arxiv.org/abs/2201.05000v1 )

ライセンス: CC BY 4.0
Reza Refaei Afshar, Yingqian Zhang, Joaquin Vanschoren, Uzay Kaymak(参考訳) 強化学習と近年のDeep Reinforcement Learningはマルコフ決定プロセスとしてモデル化されたシーケンシャルな意思決定問題を解決する一般的な方法である。 問題のRLモデリングとアルゴリズムの選択とハイパーパラメータは、異なる構成が全く異なる性能を必要とするため、慎重に考慮する必要がある。 これらの考察は主にRLの専門家の課題であるが、研究者やシステムデザイナーがRLの専門家ではない他の分野でもRLは徐々に人気が高まっている。 さらに、状態とアクション空間の定義、バッチのサイズ、バッチ更新の頻度、タイムステップの数など、多くのモデリング決定が手作業で行われます。 これらの理由から、RLフレームワークの異なるコンポーネントを自動化することが非常に重要であり、近年は注目されている。 自動RLは、MDPモデリング、アルゴリズム選択、ハイパーパラメータ最適化を含むRLのさまざまなコンポーネントが自動的にモデル化され、定義されるフレームワークを提供する。 本稿では,RLの自動化に使用可能な文献と最近の研究について考察する。 さらに,AutoRLにおける課題,オープン質問,研究の方向性についても論じる。

Reinforcement Learning and recently Deep Reinforcement Learning are popular methods for solving sequential decision making problems modeled as Markov Decision Processes. RL modeling of a problem and selecting algorithms and hyper-parameters require careful considerations as different configurations may entail completely different performances. These considerations are mainly the task of RL experts; however, RL is progressively becoming popular in other fields where the researchers and system designers are not RL experts. Besides, many modeling decisions, such as defining state and action space, size of batches and frequency of batch updating, and number of timesteps are typically made manually. For these reasons, automating different components of RL framework is of great importance and it has attracted much attention in recent years. Automated RL provides a framework in which different components of RL including MDP modeling, algorithm selection and hyper-parameter optimization are modeled and defined automatically. In this article, we explore the literature and present recent work that can be used in automated RL. Moreover, we discuss the challenges, open questions and research directions in AutoRL.
翻訳日:2022-01-14 20:22:54 公開日:2022-01-13
# (参考訳) クロスモーダル脳腫瘍セグメンテーションのための自己意味的輪郭適応 [全文訳有]

Self-semantic contour adaptation for cross modality brain tumor segmentation ( http://arxiv.org/abs/2201.05022v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Georges El Fakhri, Jonghye Woo(参考訳) 2つの異なるドメイン間の教師なしドメイン適応(UDA)により、ハイレベルなセマンティックアライメントを学ぶことは、非常に重要な課題である。 そこで本研究では, セマンティックセグメンテーションと比較して, ドメイン間ギャップが小さい前処理として適応しやすくするために, 低レベルエッジ情報を活用することを提案する。 正確な輪郭は、意味適応を導くための空間情報を提供する。 より具体的には、磁気共鳴画像(MRI)スライスと初期エッジマップを入力として用いた意味的セグメンテーション適応ネットワークとともに、コンツーリング適応ネットワークを学習するマルチタスクフレームワークを提案する。 これらの2つのネットワークは、ソースドメインラベルと共同でトレーニングされ、クロスドメインアライメントのために特徴とエッジマップレベルの逆学習が行われる。 さらに、セグメンテーション性能をさらに向上するために、自己エントロピーの最小化が組み込まれている。 われわれはBraTS2018データベースを用いた脳腫瘍のクロスモーダルセグメンテーションの枠組みを検証し,本手法の有効性と優位性を示した。

Unsupervised domain adaptation (UDA) between two significantly disparate domains to learn high-level semantic alignment is a crucial yet challenging task.~To this end, in this work, we propose exploiting low-level edge information to facilitate the adaptation as a precursor task, which has a small cross-domain gap, compared with semantic segmentation.~The precise contour then provides spatial information to guide the semantic adaptation. More specifically, we propose a multi-task framework to learn a contouring adaptation network along with a semantic segmentation adaptation network, which takes both magnetic resonance imaging (MRI) slice and its initial edge map as input.~These two networks are jointly trained with source domain labels, and the feature and edge map level adversarial learning is carried out for cross-domain alignment. In addition, self-entropy minimization is incorporated to further enhance segmentation performance. We evaluated our framework on the BraTS2018 database for cross-modality segmentation of brain tumors, showing the validity and superiority of our approach, compared with competing methods.
翻訳日:2022-01-14 20:21:55 公開日:2022-01-13
# (参考訳) 多層画像によるステレオ拡大 [全文訳有]

Stereo Magnification with Multi-Layer Images ( http://arxiv.org/abs/2201.05023v1 )

ライセンス: CC BY 4.0
Taras Khakhulin, Denis Korzhenkov, Pavel Solovev, Gleb Sterkin, Timotei Ardelean, Victor Lempitsky(参考訳) 複数の半透明な色の層を持つシーンを表現することは、リアルタイムの新規なビュー合成に人気があり、成功している。 既存のアプローチは、平面または球面形状の定期的な間隔の層上の色と透明性値を推定する。 本研究では,シーン適応幾何を持つ複数の半透明層に基づく新しいビュー合成手法を提案する。 提案手法は2段階のステレオ対からそのような表現を推論する。 第1段階では、与えられた一対のビューから少数のデータ適応層の幾何学を推測する。 第2段階は、これらの層の色と透明性値を推定し、新しいビュー合成のための最終的な表現を生成する。 重要なことに、両方のステージは微分可能なレンダラを介して接続され、エンドツーエンドでトレーニングされる。 実験では,シーン幾何学に適応しない定期的空間層の利用に対して,提案手法の利点を実証した。 レンダリングでは桁違いに高速であるにもかかわらず,最近提案された暗黙的幾何表現に基づく IBRNet システムよりも優れている。 結果はhttps://samsunglabs. github.io/StereoLaye rsで確認できます。

Representing scenes with multiple semi-transparent colored layers has been a popular and successful choice for real-time novel view synthesis. Existing approaches infer colors and transparency values over regularly-spaced layers of planar or spherical shape. In this work, we introduce a new view synthesis approach based on multiple semi-transparent layers with scene-adapted geometry. Our approach infers such representations from stereo pairs in two stages. The first stage infers the geometry of a small number of data-adaptive layers from a given pair of views. The second stage infers the color and the transparency values for these layers producing the final representation for novel view synthesis. Importantly, both stages are connected through a differentiable renderer and are trained in an end-to-end manner. In the experiments, we demonstrate the advantage of the proposed approach over the use of regularly-spaced layers with no adaptation to scene geometry. Despite being orders of magnitude faster during rendering, our approach also outperforms a recently proposed IBRNet system based on implicit geometry representation. See results at https://samsunglabs. github.io/StereoLaye rs .
翻訳日:2022-01-14 20:13:15 公開日:2022-01-13
# (参考訳) 素晴らしいデータとそれらを照会する方法 [全文訳有]

Fantastic Data and How to Query Them ( http://arxiv.org/abs/2201.05026v1 )

ライセンス: CC BY 4.0
Trung-Kien Tran, Anh Le-Tuan, Manh Nguyen-Duc, Jicheng Yuan, Danh Le-Phuoc(参考訳) 膨大なデータ(トレーニング)が利用可能であることは、人工知能(AI)の最近の進歩において最も重要な要素の1つであることが一般に認識されている。 しかしデータセットは、狭いaiサブエリアで特定のタスク用に設計されることが多く、それらを管理およびアクセスするための統一的な方法がない。 これにより、機械学習モデルのトレーニングやデプロイ時に不要なオーバーヘッドが発生するだけでなく、データ中心のAIにとって非常に重要なデータ理解も制限される。 本稿では,様々なデータセットのための統一フレームワークについて,例えば標準クエリ言語を用いて,統合やクエリが容易になるようなビジョンを示す。 我々は、コンピュータビジョンにおけるデータセットのフレームワークを作成するために進行中の作業でこれを実証し、異なるシナリオでその利点を示します。 私たちのデモはhttps://vision.semkg .orgで公開されています。

It is commonly acknowledged that the availability of the huge amount of (training) data is one of the most important factors for many recent advances in Artificial Intelligence (AI). However, datasets are often designed for specific tasks in narrow AI sub areas and there is no unified way to manage and access them. This not only creates unnecessary overheads when training or deploying Machine Learning models but also limits the understanding of the data, which is very important for data-centric AI. In this paper, we present our vision about a unified framework for different datasets so that they can be integrated and queried easily, e.g., using standard query languages. We demonstrate this in our ongoing work to create a framework for datasets in Computer Vision and show its advantages in different scenarios. Our demonstration is available at https://vision.semkg .org.
翻訳日:2022-01-14 19:51:32 公開日:2022-01-13
# (参考訳) 強化学習のための臨界に基づく可変ステップヌーバーアルゴリズム [全文訳有]

Criticality-Based Varying Step-Number Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2201.05034v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) 強化学習の文脈では、ある状態の臨界性の概念を導入し、その状態における行動の選択が期待されるリターンにどの程度影響するかを示す。 すなわち、行動の選択が最終結果に影響を及ぼす可能性が高い状態は、最終結果に影響を及ぼす可能性が低い状態よりも重要であるとみなされる。 我々は、人間が提供する臨界関数を利用するフレキシブルなステップ数アルゴリズムである臨界に基づく可変ステップ数アルゴリズム(CVS)を定式化し、環境から直接学習する。 Atari Pong環境、Road-Tree環境、Shooter環境の3つの異なる領域でテストする。 我々は、CVSがDeep Q-LearningやMonte Carloといった一般的な学習アルゴリズムより優れていることを示した。

In the context of reinforcement learning we introduce the concept of criticality of a state, which indicates the extent to which the choice of action in that particular state influences the expected return. That is, a state in which the choice of action is more likely to influence the final outcome is considered as more critical than a state in which it is less likely to influence the final outcome. We formulate a criticality-based varying step number algorithm (CVS) - a flexible step number algorithm that utilizes the criticality function provided by a human, or learned directly from the environment. We test it in three different domains including the Atari Pong environment, Road-Tree environment, and Shooter environment. We demonstrate that CVS is able to outperform popular learning algorithms such as Deep Q-Learning and Monte Carlo.
翻訳日:2022-01-14 19:41:47 公開日:2022-01-13
# (参考訳) アルツハイマー病における多タスク縦断予測の欠如 [全文訳有]

Multi-task longitudinal forecasting with missing values on Alzheimer's Disease ( http://arxiv.org/abs/2201.05040v1 )

ライセンス: CC BY 4.0
Carlos Sevilla-Salcedo, Vandad Imani, Pablo M. Olmos, Vanessa G\'omez-Verdejo, Jussi Tohka(参考訳) 機械学習の技術は通常、認知症予測能力の欠如に応用され、複数のタスクを共同学習し、時間依存の不均一なデータと不足した値を扱う。 本稿では,最近発表されたSSHIBAモデルを用いて,長手データ上で異なるタスクを学習するフレームワークを提案する。 この方法はベイズ変分推論を用いて、欠落した値をインプットし、複数のビューの情報を組み合わせる。 これにより、共通の潜在空間における異なる時点からの異なるデータビューを結合し、複数の出力変数をモデリングし予測しながら、各時点間の関係を学習することができる。 このモデルを用いて,認知症における診断,心室容積,臨床得点の予測を行う。 その結果, SSHIBAは, 3つのタスクを同時に予測しながら, 欠落した値の適切な計算を学習し, ベースラインよりも優れた性能を発揮することを示した。

Machine learning techniques typically applied to dementia forecasting lack in their capabilities to jointly learn several tasks, handle time dependent heterogeneous data and missing values. In this paper, we propose a framework using the recently presented SSHIBA model for jointly learning different tasks on longitudinal data with missing values. The method uses Bayesian variational inference to impute missing values and combine information of several views. This way, we can combine different data-views from different time-points in a common latent space and learn the relations between each time-point while simultaneously modelling and predicting several output variables. We apply this model to predict together diagnosis, ventricle volume, and clinical scores in dementia. The results demonstrate that SSHIBA is capable of learning a good imputation of the missing values and outperforming the baselines while simultaneously predicting three different tasks.
翻訳日:2022-01-14 19:26:32 公開日:2022-01-13
# (参考訳) ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v1 )

ライセンス: CC BY 4.0
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott process (NSP) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
翻訳日:2022-01-14 19:00:13 公開日:2022-01-13
# (参考訳) 自動車の軌道予測の逆ロバスト性について [全文訳有]

On Adversarial Robustness of Trajectory Prediction for Autonomous Vehicles ( http://arxiv.org/abs/2201.05057v1 )

ライセンス: CC BY 4.0
Qingzhao Zhang, Shengtuo Hu, Jiachen Sun, Qi Alfred Chen, Z. Morley Mao(参考訳) 軌道予測は、安全な計画とナビゲーションを行う自動運転車(AV)にとって重要な要素である。 しかし、軌道予測の逆ロバスト性を分析したり、最悪の場合の予測が安全な計画に繋がるかどうかを調査した研究はほとんどない。 このギャップを埋めるために、通常の車両軌道を乱す新たな対向攻撃を提案し、予測誤差を最大化することで、軌道予測モデルの対向ロバスト性を検討する。 3つのモデルと3つのデータセットに対する実験により、逆予測により予測誤差が150%以上増加することが示された。 ケーススタディでは、敵が敵の軌道に沿って目標のAVに近い車両を運転した場合、AVは不正確な予測を行い、さらには安全でない運転決定を下すことが示されている。 また,データ拡張と軌道平滑化による緩和技術についても検討する。

Trajectory prediction is a critical component for autonomous vehicles (AVs) to perform safe planning and navigation. However, few studies have analyzed the adversarial robustness of trajectory prediction or investigated whether the worst-case prediction can still lead to safe planning. To bridge this gap, we study the adversarial robustness of trajectory prediction models by proposing a new adversarial attack that perturbs normal vehicle trajectories to maximize the prediction error. Our experiments on three models and three datasets show that the adversarial prediction increases the prediction error by more than 150%. Our case studies show that if an adversary drives a vehicle close to the target AV following the adversarial trajectory, the AV may make an inaccurate prediction and even make unsafe driving decisions. We also explore possible mitigation techniques via data augmentation and trajectory smoothing.
翻訳日:2022-01-14 18:58:48 公開日:2022-01-13
# (参考訳) 薬物発見のためのマルチオミクスデータセットにおけるロバストカーネルマシンのバイオマーカー選択への回帰 [全文訳有]

A robust kernel machine regression towards biomarker selection in multi-omics datasets of osteoporosis for drug discovery ( http://arxiv.org/abs/2201.05060v1 )

ライセンス: CC BY 4.0
Md Ashad Alam and Hui Shen and Hong-Wen Deng(参考訳) 多くの統計機械アプローチは、マルチオミクスデータを解析することで、最終的に複雑な疾患の病因の新たな特徴を浮き彫りにする可能性がある。 しかし、観測されたサンプルが敵の破損した外れ値(例えば、架空のデータ分布)で汚染される可能性がある場合、分布の偏りに敏感である。 同様に、複雑なマルチオミクスデータ統合の包括的データ駆動分析をサポートする統計的進歩も遅れている。 本稿では,マルチオミクスデータセットの高次合成効果を検討するために,統計的マシン回帰の頑健さとフィクションデータの多様性を改善するために,非線形M-推定器に基づく新しい手法"RobKMR"を提案する。 モデルパラメータを正確に推定するために,堅牢なカーネル中心のグラム行列を扱う。 また,マルチオミクスデータから特徴の辺縁および関節アダマール積を評価するためのロバストスコアテストを提案する。 提案手法をコーカサス産の骨粗しょう症(OP)のマルチオミクスデータセットに適用した。 提案手法はOPの相互関連リスク因子を効果的に同定することを示した。 ソリッドエビデンス(p-value = 0.00001)、生物学的検証、ネットワークベースの分析、因果推論、薬物再精製により、選択された3つの三つ子(DKK1, SMTN, DRGX), (MTND5, FASTKD2, CSMD3), (MTND5, COG3, CSMD3)は重要なバイオマーカーであり、BMDに直接関係している。 総合的に、上位3つの遺伝子(DKK1, MTND5, FASTKD2)と1つの遺伝子(SIDT1 at p-value= 0.001)がタクロリムス、イバンドロネート、アレンドロネート、バゼドキシフェンの4つの薬物と結合し、OPにおける薬物再精製の候補30のうちの1つとなった。 さらに,提案手法は,マルチオミクスデータセットが利用可能な任意の疾患モデルに適用可能である。

Many statistical machine approaches could ultimately highlight novel features of the etiology of complex diseases by analyzing multi-omics data. However, they are sensitive to some deviations in distribution when the observed samples are potentially contaminated with adversarial corrupted outliers (e.g., a fictional data distribution). Likewise, statistical advances lag in supporting comprehensive data-driven analyses of complex multi-omics data integration. We propose a novel non-linear M-estimator-based approach, "robust kernel machine regression (RobKMR)," to improve the robustness of statistical machine regression and the diversity of fictional data to examine the higher-order composite effect of multi-omics datasets. We address a robust kernel-centered Gram matrix to estimate the model parameters accurately. We also propose a robust score test to assess the marginal and joint Hadamard product of features from multi-omics data. We apply our proposed approach to a multi-omics dataset of osteoporosis (OP) from Caucasian females. Experiments demonstrate that the proposed approach effectively identifies the inter-related risk factors of OP. With solid evidence (p-value = 0.00001), biological validations, network-based analysis, causal inference, and drug repurposing, the selected three triplets ((DKK1, SMTN, DRGX), (MTND5, FASTKD2, CSMD3), (MTND5, COG3, CSMD3)) are significant biomarkers and directly relate to BMD. Overall, the top three selected genes (DKK1, MTND5, FASTKD2) and one gene (SIDT1 at p-value= 0.001) significantly bond with four drugs- Tacrolimus, Ibandronate, Alendronate, and Bazedoxifene out of 30 candidates for drug repurposing in OP. Further, the proposed approach can be applied to any disease model where multi-omics datasets are available.
翻訳日:2022-01-14 18:42:48 公開日:2022-01-13
# (参考訳) 特徴豊富な多重語彙ネットワークが早期言語学習のメンタル戦略を明らかに

Feature-rich multiplex lexical networks reveal mental strategies of early language learning ( http://arxiv.org/abs/2201.05061v1 )

ライセンス: CC BY 4.0
Salvatore Citraro and Michael S. Vitevitch and Massimo Stella and Giulio Rossetti(参考訳) 人間の心の知識は双対的ベクトル/ネットワークの性質を示す。 単語をベクトルとしてモデル化することは自然言語処理の鍵であり、単語関連性のネットワークは意味記憶の性質をマッピングすることができる。 我々は、FEature-Rich MUltiplex LEXical(FERMULEX)ネットワークを導入し、言語学、心理学、計算機科学にまたがるこれらのパラダイムを精査する。 この新しい枠組みは、ネットワークにおける構造的類似性と単語の構造的特徴をマージする。 知識の意味的・統語的・音韻学的側面を横断する異種言語関係の類似性モデル 単語は、周波数、獲得年齢、長さ、ポリセミーを含む多次元特徴埋め込みで豊かである。 これらの側面は認知知識の先例のない探求を可能にする。 幼児データを通して, フェルムレックスネットワークを用いて18~30ヶ月間, 幼児1000名による規範言語獲得をモデル化する。 類似性や埋め込みは、距離と特徴による選別混合を測定する整合性を通じて単語をホモフィリーにキャプチャする。 コンフォニティは、頻繁に/多義/短い名詞と動詞の言語核を基礎文生成の鍵とし、30ヶ月で出現する子供の構文構成の最近の証拠を支持する。 このカーネルは、ネットワークコア検出と機能のみのクラスタリングには見えない。 初期単語学習における2つの重要な戦略を定量的に分析した。 ferMULEXトポロジーのランダムウォークとして単語の獲得をモデル化し,CDI(Communicative Developmental inventories)の不均一充填に注目した。 コンフォーマル性に基づく歩行は、CDIにおける早期単語学習の正確さ(75%)、正確さ(55%)、そして部分的に精確(34%)な予測をもたらす。

Knowledge in the human mind exhibits a dualistic vector/network nature. Modelling words as vectors is key to natural language processing, whereas networks of word associations can map the nature of semantic memory. We reconcile these paradigms - fragmented across linguistics, psychology and computer science - by introducing FEature-Rich MUltiplex LEXical (FERMULEX) networks. This novel framework merges structural similarities in networks and vector features of words, which can be combined or explored independently. Similarities model heterogenous word associations across semantic/syntactic/p honological aspects of knowledge. Words are enriched with multi-dimensional feature embeddings including frequency, age of acquisition, length and polysemy. These aspects enable unprecedented explorations of cognitive knowledge. Through CHILDES data, we use FERMULEX networks to model normative language acquisition by 1000 toddlers between 18 and 30 months. Similarities and embeddings capture word homophily via conformity, which measures assortative mixing via distance and features. Conformity unearths a language kernel of frequent/polysemous/ short nouns and verbs key for basic sentence production, supporting recent evidence of children's syntactic constructs emerging at 30 months. This kernel is invisible to network core-detection and feature-only clustering: It emerges from the dual vector/network nature of words. Our quantitative analysis reveals two key strategies in early word learning. Modelling word acquisition as random walks on FERMULEX topology, we highlight non-uniform filling of communicative developmental inventories (CDIs). Conformity-based walkers lead to accurate (75%), precise (55%) and partially well-recalled (34%) predictions of early word learning in CDIs, providing quantitative support to previous empirical findings and developmental theories.
翻訳日:2022-01-14 18:19:37 公開日:2022-01-13
# (参考訳) アンサー説明のためのインフォーマル・イット・コンサイス・エビデンス蒸留法 [全文訳有]

Grow-and-Clip: Informative-yet-Conc ise Evidence Distillation for Answer Explanation ( http://arxiv.org/abs/2201.05088v1 )

ライセンス: CC BY 4.0
Yuyan Chen, Yanghua Xiao, Bang Liu(参考訳) 既存の質問回答モデル(QA)の予測を解釈することは、医療、教育、財務のためのQAシステムなど、多くの現実世界のインテリジェントなアプリケーションにとって重要である。 しかし、既存のQAモデルは解釈可能性に欠けており、特定の予測が疑問に対する答えである理由を理解するためにエンドユーザにフィードバックや説明を提供していない。 文脈におけるいくつかの文をエビデンスとして抽出する従来の研究とは異なり、我々は証拠の概念を情報的で簡潔で読みやすい文脈における支援事実として明示的に定義する。 また,証拠の定量的・簡潔・可読性を定量的に評価するための効果的な戦略を提供する。 さらに, 情報提供性, 簡潔性, 可読性等により, 文脈からエビデンスを抽出するためのグロース・アンド・クリップ・エビデンス蒸留(gced)アルゴリズムを提案する。 我々は,複数のベースラインモデルを用いたSQuADとTriviaQAデータセットの広範な実験を行い,GCEDが質問に対する回答の解釈に与える影響を評価する。 蒸留された証拠の品質を確認するために人的評価も行われる。 実験の結果, 自動蒸留実験の結果は, 質問に対する回答の解釈性を高めるため, 人的情報性, 簡潔性, 可読性を有することがわかった。

Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question.In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
翻訳日:2022-01-14 18:18:20 公開日:2022-01-13
# (参考訳) 機能異常検出:ベンチマークによる検討 [全文訳有]

Functional Anomaly Detection: a Benchmark Study ( http://arxiv.org/abs/2201.05115v1 )

ライセンス: CC BY 4.0
Guillaume Staerman, Eric Adjakossa, Pavlo Mozharovskyi, Vera Hofer, Jayant Sen Gupta and Stephan Cl\'emen\c{c}on(参考訳) 業界の多くの分野における自動化の増大は、異常事象検出のための効率的な機械学習ソリューションの設計を明言している。 複雑なインフラストラクチャの状態をほぼ連続的に監視するセンサーがユビキタスに配備されることにより、異常検出は非常に高い頻度でサンプリングされた測定値に依存するようになり、監視下での現象の非常に豊かな表現が可能になる。 このように収集した情報を完全に活用するために、観測をもはや多変量データとして扱うことはできず、機能分析のアプローチが必要となる。 本研究の目的は, 実データ集合上の機能的セットアップにおける異常検出手法の最近の性能について検討することである。 最先端技術の概要と視覚記述的研究を経て,様々な異常検出手法を比較した。 機能的設定における異常(形状、位置など)の分類は文献に記録されているが、特定された異常に特定の型を割り当てることは難しい作業である。 このように,シミュレーション研究において,既存の手法の強みと弱みをこれらの強調型の観点からベンチマークする。 次に、飛行中のヘリコプターの監視と、建設材料の分光分析に関する2つのデータセットを用いて異常検出手法を評価する。 ベンチマーク分析は、実践者への推奨ガイダンスによって結論づけられる。

The increasing automation in many areas of the Industry expressly demands to design efficient machine-learning solutions for the detection of abnormal events. With the ubiquitous deployment of sensors monitoring nearly continuously the health of complex infrastructures, anomaly detection can now rely on measurements sampled at a very high frequency, providing a very rich representation of the phenomenon under surveillance. In order to exploit fully the information thus collected, the observations cannot be treated as multivariate data anymore and a functional analysis approach is required. It is the purpose of this paper to investigate the performance of recent techniques for anomaly detection in the functional setup on real datasets. After an overview of the state-of-the-art and a visual-descriptive study, a variety of anomaly detection methods are compared. While taxonomies of abnormalities (e.g. shape, location) in the functional setup are documented in the literature, assigning a specific type to the identified anomalies appears to be a challenging task. Thus, strengths and weaknesses of the existing approaches are benchmarked in view of these highlighted types in a simulation study. Anomaly detection methods are next evaluated on two datasets, related to the monitoring of helicopters in flight and to the spectrometry of construction materials namely. The benchmark analysis is concluded by recommendation guidance for practitioners.
翻訳日:2022-01-14 17:54:37 公開日:2022-01-13
# (参考訳) nordiachange: ノルウェーのセマンティクス変化データセット [全文訳有]

NorDiaChange: Diachronic Semantic Change Dataset for Norwegian ( http://arxiv.org/abs/2201.05123v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov, Samia Touileb, Petter M{\ae}hlum, Tita Ranveig Enstad, Alexandra Wittemann(参考訳) NorDiaChangeはノルウェーにおける最初のダイアクロニック意味変化データセットである。 NorDiaChangeは2つの新しいサブセットから構成されており、ノルウェーの約80の名詞が時間とともに段階的な意味変化を伴って手動で注釈付けされている。 両方のデータセットは同じアノテーション手順に従っており、相互にトレーナーとテストスプリットとして使用できる。 NorDiaChangeは戦前の出来事や戦後の出来事、ノルウェーにおける石油とガスの発見、技術開発に関連する期間をカバーしている。 このアノテーションはDURELフレームワークと2つの大きなノルウェーの歴史的コーパスを用いて行われた。 NorDiaChangeは、生のアノテーションデータと推論ダイアロン語使用グラフ(DWUG)を備えたパーミッシブライセンスで全文公開されている。

We describe NorDiaChange: the first diachronic semantic change dataset for Norwegian. NorDiaChange comprises two novel subsets, covering about 80 Norwegian nouns manually annotated with graded semantic change over time. Both datasets follow the same annotation procedure and can be used interchangeably as train and test splits for each other. NorDiaChange covers the time periods related to pre- and post-war events, oil and gas discovery in Norway, and technological developments. The annotation was done using the DURel framework and two large historical Norwegian corpora. NorDiaChange is published in full under a permissive license, complete with raw annotation data and inferred diachronic word usage graphs (DWUGs).
翻訳日:2022-01-14 17:33:34 公開日:2022-01-13
# (参考訳) GradMax: 勾配情報を用いたニューラルネットワークの成長 [全文訳有]

GradMax: Growing Neural Networks using Gradient Information ( http://arxiv.org/abs/2201.05125v1 )

ライセンス: CC BY 4.0
Utku Evci, Max Vladymyrov, Thomas Unterthiner, Bart van Merri\"enboer, Fabian Pedregosa(参考訳) ニューラルネットワークのアーキテクチャとパラメータは独立して最適化されることが多く、アーキテクチャが修正されるたびにパラメータの調整に要する。 この作業では、コストのかかる再トレーニングを必要とせずに、アーキテクチャの成長に重点を置いています。 本稿では,学習中に学習内容に影響を与えることなく新たなニューロンを付加し,トレーニングのダイナミクスを改良する手法を提案する。 本研究では,新しい重みの勾配を最大化し,特異値分解(svd)により最適初期化を求める。 我々はこの手法を成長を最大化する勾配(gradmax)と呼び、様々なビジョンタスクやアーキテクチャにおいてその効果を示す。

The architecture and the parameters of neural networks are often optimized independently, which requires costly retraining of the parameters whenever the architecture is modified. In this work we instead focus on growing the architecture without requiring costly retraining. We present a method that adds new neurons during training without impacting what is already learned, while improving the training dynamics. We achieve the latter by maximizing the gradients of the new weights and find the optimal initialization efficiently by means of the singular value decomposition (SVD). We call this technique Gradient Maximizing Growth (GradMax) and demonstrate its effectiveness in variety of vision tasks and architectures.
翻訳日:2022-01-14 17:19:12 公開日:2022-01-13
# (参考訳) SimReg: 自己教師型知識蒸留のためのシンプルな効果的なツールとしての回帰 [全文訳有]

SimReg: Regression as a Simple Yet Effective Tool for Self-supervised Knowledge Distillation ( http://arxiv.org/abs/2201.05131v1 )

ライセンス: CC BY 4.0
K L Navaneet, Soroush Abbasi Koohpayegani, Ajinkya Tejankar, Hamed Pirsiavash(参考訳) 特徴回帰は、大きなニューラルネットワークモデルをより小さなものに蒸留する簡単な方法である。 ネットワークアーキテクチャの単純な変更により、回帰は自己教師付きモデルからの知識蒸留において、より複雑な最先端の手法よりも優れていることを示す。 驚くべきことに、cnnバックボーンに多層パーセプトロンヘッドを追加することは、蒸留中にのみ使用し、下流タスクで廃棄しても有益である。 これにより、推論アーキテクチャや時間を変更することなく、教師を正確に模倣することができる。 さらに,独立したプロジェクションヘッドを用いて複数の教師ネットワークを同時に蒸留する。 また, 教師ネットワークと学生ネットワークの双方の入力として, 同じ弱い強調画像を使用することで, 蒸留が促進されることがわかった。 ImageNetデータセットの実験は、様々な自己監督蒸留設定における提案された変更の有効性を示す。

Feature regression is a simple way to distill large neural network models to smaller ones. We show that with simple changes to the network architecture, regression can outperform more complex state-of-the-art approaches for knowledge distillation from self-supervised models. Surprisingly, the addition of a multi-layer perceptron head to the CNN backbone is beneficial even if used only during distillation and discarded in the downstream task. Deeper non-linear projections can thus be used to accurately mimic the teacher without changing inference architecture and time. Moreover, we utilize independent projection heads to simultaneously distill multiple teacher networks. We also find that using the same weakly augmented image as input for both teacher and student networks aids distillation. Experiments on ImageNet dataset demonstrate the efficacy of the proposed changes in various self-supervised distillation settings.
翻訳日:2022-01-14 17:00:07 公開日:2022-01-13
# (参考訳) 遅延オートエンコーダを用いた部分計測による制御方程式の発見 [全文訳有]

Discovering Governing Equations from Partial Measurements with Deep Delay Autoencoders ( http://arxiv.org/abs/2201.05136v1 )

ライセンス: CC BY 4.0
Joseph Bakarji, Kathleen Champion, J. Nathan Kutz and Steven L. Brunton(参考訳) データ駆動モデル発見の中心的な課題は、直接測定されていないが動的に重要な隠れた変数や潜在変数の存在である。 テイケンズの定理は、これらの部分的測定を時間遅延情報で拡張できるときの条件を与え、結果として元の完全状態系と微分同相の引き金となる。 しかし、元のアトラクタへの座標変換は典型的には未知であり、埋め込み空間における力学の学習は数十年にわたって未解決の課題であった。 そこで我々は、遅延埋め込み空間から新しい空間への座標変換を学習するための独自のディープオートエンコーダネットワークを設計する。 このアプローチをlorenz、r\"ossler、およびlotka-volterraシステムで実証し、単一の測定変数からダイナミクスを学習する。 挑戦的な例として,カオス水車実験のビデオから抽出した1つのスカラー変数からlorenzアナログを学習する。 得られたモデリングフレームワークは、深い学習と効果的な座標の解明、解釈可能なモデリングのための非線形力学(SINDy)のスパース同定を組み合わせる。 そこで本研究では, 閉形式モデルと関連する座標系を同時に学習し, 部分的に観察されるダイナミクスについて述べる。

A central challenge in data-driven model discovery is the presence of hidden, or latent, variables that are not directly measured but are dynamically important. Takens' theorem provides conditions for when it is possible to augment these partial measurements with time delayed information, resulting in an attractor that is diffeomorphic to that of the original full-state system. However, the coordinate transformation back to the original attractor is typically unknown, and learning the dynamics in the embedding space has remained an open challenge for decades. Here, we design a custom deep autoencoder network to learn a coordinate transformation from the delay embedded space into a new space where it is possible to represent the dynamics in a sparse, closed form. We demonstrate this approach on the Lorenz, R\"ossler, and Lotka-Volterra systems, learning dynamics from a single measurement variable. As a challenging example, we learn a Lorenz analogue from a single scalar variable extracted from a video of a chaotic waterwheel experiment. The resulting modeling framework combines deep learning to uncover effective coordinates and the sparse identification of nonlinear dynamics (SINDy) for interpretable modeling. Thus, we show that it is possible to simultaneously learn a closed-form model and the associated coordinate system for partially observed dynamics.
翻訳日:2022-01-14 16:43:21 公開日:2022-01-13
# (参考訳) 長期因果推論のための一般的なカーネルリッジ回帰:治療効果, 線量応答, および対物分布 [全文訳有]

Generalized Kernel Ridge Regression for Long Term Causal Inference: Treatment Effects, Dose Responses, and Counterfactual Distributions ( http://arxiv.org/abs/2201.05139v1 )

ライセンス: CC BY 4.0
Rahul Singh(参考訳) そこで, ランダム化処理と短期サロゲートを含む短期実験データセットと, 短期サロゲートと長期結果を含む長期観察データセットとを融合させた, 長期因果推論のためのカーネルリッジ回帰推定器を提案する。 本稿では, カーネル行列演算による処理効果, 線量応答, および閉形式解を用いた反ファクト分布の推定器を提案する。 共変量、処理、サロゲートを離散的、連続的、低、高、無限次元とすることを許す。 長期的な治療効果については、$\sqrt{n}$一貫性、ガウス近似、半パラメトリック効率を証明します。 長期線量反応では,有限サンプルレートと均一な一貫性が証明される。 長期的な反実分布については、分布の収束を証明します。

I propose kernel ridge regression estimators for long term causal inference, where a short term experimental data set containing randomized treatment and short term surrogates is fused with a long term observational data set containing short term surrogates and long term outcomes. I propose estimators of treatment effects, dose responses, and counterfactual distributions with closed form solutions in terms of kernel matrix operations. I allow covariates, treatment, and surrogates to be discrete or continuous, and low, high, or infinite dimensional. For long term treatment effects, I prove $\sqrt{n}$ consistency, Gaussian approximation, and semiparametric efficiency. For long term dose responses, I prove uniform consistency with finite sample rates. For long term counterfactual distributions, I prove convergence in distribution.
翻訳日:2022-01-14 16:19:05 公開日:2022-01-13
# (参考訳) データ解析のための完全適応ベイズアルゴリズム, FABADA [全文訳有]

Fully Adaptive Bayesian Algorithm for Data Analysis, FABADA ( http://arxiv.org/abs/2201.05145v1 )

ライセンス: CC BY 4.0
Pablo M Sanchez-Alarcon and Yago Ascasibar Sequeiros(参考訳) 本研究の目的は,1次元と2次元のデータ,例えば天文学的な画像やスペクトルの信号対雑音比を自動的に改善する,ベイズ推定の観点から,新しい非パラメトリックノイズ低減手法を記述することである。 このアルゴリズムはデータの平滑化可能なバージョンである平滑化モデルを反復的に評価し、ノイズ測定と統計的に互換性のある信号の推定を得る。 繰り返しは、最後の滑らかなモデルのエビデンスと$\chi^2$統計量に基づいて停止し、スムーズなモデルの集合全体の重み付き平均として信号の期待値を計算する。 本稿では,アルゴリズムの数学的形式化と数値的実装について述べるとともに,実天体観測のバッテリを用いて,ピーク信号と雑音比,構造的類似度指数,時間ペイロードを用いてその性能を評価する。 データ解析のための完全適応ベイズアルゴリズム(fabada)は、パラメータチューニングなしでは、実際のアプリケーションでは不可能である真の信号に基づいてパラメータを最適化した標準的な画像処理アルゴリズムに匹敵する結果をもたらす。 bm3dのような最先端の非パラメトリックな手法は高い信号対雑音比で少し性能が向上するが、超ノイズデータではアルゴリズムの方がかなり正確である(相対誤差が20~40ドル以上であり、天文学の分野に特に関心がある状況である)。 この範囲では, 復元によって得られた残留物の標準偏差は, 元の測定値よりも1桁以上小さくなる可能性がある。 このレポートで提示された結果をすべて再現するために必要なソースコードは、メソッドの実装を含めて、https://github.com/P abloMSanAla/fabadaで公開されている。

The aim of this paper is to describe a novel non-parametric noise reduction technique from the point of view of Bayesian inference that may automatically improve the signal-to-noise ratio of one- and two-dimensional data, such as e.g. astronomical images and spectra. The algorithm iteratively evaluates possible smoothed versions of the data, the smooth models, obtaining an estimation of the underlying signal that is statistically compatible with the noisy measurements. Iterations stop based on the evidence and the $\chi^2$ statistic of the last smooth model, and we compute the expected value of the signal as a weighted average of the whole set of smooth models. In this paper, we explain the mathematical formalism and numerical implementation of the algorithm, and we evaluate its performance in terms of the peak signal to noise ratio, the structural similarity index, and the time payload, using a battery of real astronomical observations. Our Fully Adaptive Bayesian Algorithm for Data Analysis (FABADA) yields results that, without any parameter tuning, are comparable to standard image processing algorithms whose parameters have been optimized based on the true signal to be recovered, something that is impossible in a real application. State-of-the-art non-parametric methods, such as BM3D, offer slightly better performance at high signal-to-noise ratio, while our algorithm is significantly more accurate for extremely noisy data (higher than $20-40\%$ relative errors, a situation of particular interest in the field of astronomy). In this range, the standard deviation of the residuals obtained by our reconstruction may become more than an order of magnitude lower than that of the original measurements. The source code needed to reproduce all the results presented in this report, including the implementation of the method, is publicly available at https://github.com/P abloMSanAla/fabada
翻訳日:2022-01-14 15:40:32 公開日:2022-01-13
# MAg: マイクロサテライト不安定性検出のための単純学習型患者レベルアグリゲーション法

MAg: a simple learning-based patient-level aggregation method for detecting microsatellite instability from whole-slide images ( http://arxiv.org/abs/2201.04769v1 )

ライセンス: Link先を確認
Kaifeng Pang, Zuhayr Asad, Shilin Zhao, Yuankai Huo(参考訳) 消化器癌におけるマイクロサテライト不安定性(MSI)とマイクロサテライト安定性(MSS)の予測は治療効果と予後の予測に不可欠である。 臨床実践では、ユニバーサルMSIテストが推奨されるが、そのようなテストのアクセシビリティは制限されている。 したがって、従来テストされていない患者をカバーするために、コスト効率が高く、広くアクセス可能なツールが望まれる。 近年,ヘマトキシリンとエオシン(H&E)を用いた全スライディング画像(WSI)から直接MSIを予測するディープラーニングベースのアルゴリズムが提案されている。 このようなアルゴリズムは,(1)パッチレベルのMSI/MSS予測,(2)患者レベルのアグリゲーションと要約できる。 第1段階で採用されている高度なディープラーニングアプローチと比較して,第2段階では,na\"ive first-order statistics(平均化とカウント)のみを採用した。 本稿では,パッチレベルの情報を効果的に統合するための,シンプルながら広く一般化可能な患者レベルMSIアグリゲーション(MAg)手法を提案する。 簡単に言えば、第一段階の確率分布全体はヒストグラムに基づく特徴としてモデル化され、機械学習の最終結果(SVMなど)として融合される。 提案手法は,ResNet,MobileNetV2, EfficientNet,Dpn,Res Nextの5つの広く使用されているディープニューラルネットワークで評価されている。 提案手法は,2つの公開データセットに対する患者レベルのアグリゲーションの精度を一貫して改善する。 提案手法が低コストなH&EベースのMSI検出手法を活用できることを願っている。 私たちの作業のコードはhttps://github.com/C alvin-Pang/MAg.comで公開されています。

The prediction of microsatellite instability (MSI) and microsatellite stability (MSS) is essential in predicting both the treatment response and prognosis of gastrointestinal cancer. In clinical practice, a universal MSI testing is recommended, but the accessibility of such a test is limited. Thus, a more cost-efficient and broadly accessible tool is desired to cover the traditionally untested patients. In the past few years, deep-learning-based algorithms have been proposed to predict MSI directly from haematoxylin and eosin (H&E)-stained whole-slide images (WSIs). Such algorithms can be summarized as (1) patch-level MSI/MSS prediction, and (2) patient-level aggregation. Compared with the advanced deep learning approaches that have been employed for the first stage, only the na\"ive first-order statistics (e.g., averaging and counting) were employed in the second stage. In this paper, we propose a simple yet broadly generalizable patient-level MSI aggregation (MAg) method to effectively integrate the precious patch-level information. Briefly, the entire probabilistic distribution in the first stage is modeled as histogram-based features to be fused as the final outcome with machine learning (e.g., SVM). The proposed MAg method can be easily used in a plug-and-play manner, which has been evaluated upon five broadly used deep neural networks: ResNet, MobileNetV2, EfficientNet, Dpn and ResNext. From the results, the proposed MAg method consistently improves the accuracy of patient-level aggregation for two publicly available datasets. It is our hope that the proposed method could potentially leverage the low-cost H&E based MSI detection method. The code of our work has been made publicly available at https://github.com/C alvin-Pang/MAg.
翻訳日:2022-01-14 15:17:26 公開日:2022-01-13
# 転校学習と弱監督をともなう小作農家システムにおける大規模耕作地区分の解脱

Unlocking large-scale crop field delineation in smallholder farming systems with transfer learning and weak supervision ( http://arxiv.org/abs/2201.04771v1 )

ライセンス: Link先を確認
Sherrie Wang, Francois Waldner, David B. Lobell(参考訳) 畑の境界は作物の種類をマッピングし、収穫量を予測し、農家にフィールドスケールの分析を提供する。 近年, 産業用農業システムにおけるフィールド境界決定へのディープラーニングの適用が成功しているが, 1) 衛星画像のデライン化を必要とする小フィールド, (2) モデルトレーニングと検証のためのグラウンドラベルの欠如などにより, フィールド境界データセットが小型システムに欠落している。 本研究では,これらの課題を克服するためにトランスファーラーニングと弱い監督を併用し,インドにおける手法の成功を実証し,そこでは1万の新しいフィールドラベルを効率よく生成する。 我々の最良のモデルでは、1.5m解像度のAirbus SPOTイメージを入力として使用し、フランスのフィールド境界に最先端のニューラルネットワークを事前トレーニングし、インドで0.86の中央値のIoU(Intersection over Union)を達成するために、インドのラベルを微調整します。 4.8m解像度のPlanetScope画像を使用すると、最良のモデルは0.72の中央値のIoUが得られる。 また、フランスでの事前トレーニングにより、特定のパフォーマンスレベルを達成するのに必要なインドフィールドラベルの数を、データセットが小さい場合には最大20\times$に削減することを示した。 これらの結果は,現在フィールドバウンダリデータセットを欠いている地域において,作物畑を区切るためのスケーラブルな手法であることを示唆している。 我々は,フィールド境界マップの作成とコミュニティによる新しい方法を容易にするために,10,000のラベルとデライン化モデルを公開する。

Crop field boundaries aid in mapping crop types, predicting yields, and delivering field-scale analytics to farmers. Recent years have seen the successful application of deep learning to delineating field boundaries in industrial agricultural systems, but field boundary datasets remain missing in smallholder systems due to (1) small fields that require high resolution satellite imagery to delineate and (2) a lack of ground labels for model training and validation. In this work, we combine transfer learning and weak supervision to overcome these challenges, and we demonstrate the methods' success in India where we efficiently generated 10,000 new field labels. Our best model uses 1.5m resolution Airbus SPOT imagery as input, pre-trains a state-of-the-art neural network on France field boundaries, and fine-tunes on India labels to achieve a median Intersection over Union (IoU) of 0.86 in India. If using 4.8m resolution PlanetScope imagery instead, the best model achieves a median IoU of 0.72. Experiments also show that pre-training in France reduces the number of India field labels needed to achieve a given performance level by as much as $20\times$ when datasets are small. These findings suggest our method is a scalable approach for delineating crop fields in regions of the world that currently lack field boundary datasets. We publicly release the 10,000 labels and delineation model to facilitate the creation of field boundary maps and new methods by the community.
翻訳日:2022-01-14 15:16:53 公開日:2022-01-13
# disentangling representation style transferとcollaborative consistency learningによるクロスモダリティ網膜血管セグメンテーションのための教師なし領域適応

Unsupervised Domain Adaptation for Cross-Modality Retinal Vessel Segmentation via Disentangling Representation Style Transfer and Collaborative Consistency Learning ( http://arxiv.org/abs/2201.04812v1 )

ライセンス: Link先を確認
Linkai Peng, Li Lin, Pujin Cheng, Ziqi Huang, Xiaoying Tang(参考訳) 医学画像から解剖学的構造を抽出するために様々なディープラーニングモデルが開発されているが、通常、異なるデータ分布を持つ別の対象領域でテストすると、性能が低下する。 近年、このいわゆるドメインシフト問題を軽減するため、教師なしドメイン適応法が提案されているが、その多くは、比較的小さなドメインシフトのシナリオのために設計されており、大きなドメインギャップに遭遇すると失敗する可能性が高い。 本稿では,OCTA と OCT 画像から網膜血管を分割するなど,大きな領域シフトを伴うタスクを対象とした,新しい非教師付きドメイン適応フレームワーク DCDA を提案する。 DCDAは主に、拡張表現スタイル転送(DRST)モジュールと、協調一貫性学習(CCL)モジュールで構成される。 DRSTは、画像をコンテンツコンポーネントとスタイルコードに分解し、スタイル転送とイメージ再構成を行う。 cclはソースドメインとターゲットドメインの2つのセグメンテーションモデルを含んでいる。 2つのモデルはラベル付きデータ(対応する転送画像とともに)を使用して教師付き学習を行い、ラベル付きデータ上で協調的一貫性学習を行う。 各モデルは対応する単一ドメインに焦点を当て、専門化されたドメイン固有のセグメンテーションモデルを得ることを目指している。 網膜血管のセグメンテーションに関する広範な実験により,OCTA,OCCT,OCTAの両領域において,Diceスコアを目標としたオラクルに近い精度で達成した。

Various deep learning models have been developed to segment anatomical structures from medical images, but they typically have poor performance when tested on another target domain with different data distribution. Recently, unsupervised domain adaptation methods have been proposed to alleviate this so-called domain shift issue, but most of them are designed for scenarios with relatively small domain shifts and are likely to fail when encountering a large domain gap. In this paper, we propose DCDA, a novel cross-modality unsupervised domain adaptation framework for tasks with large domain shifts, e.g., segmenting retinal vessels from OCTA and OCT images. DCDA mainly consists of a disentangling representation style transfer (DRST) module and a collaborative consistency learning (CCL) module. DRST decomposes images into content components and style codes and performs style transfer and image reconstruction. CCL contains two segmentation models, one for source domain and the other for target domain. The two models use labeled data (together with the corresponding transferred images) for supervised learning and perform collaborative consistency learning on unlabeled data. Each model focuses on the corresponding single domain and aims to yield an expertized domain-specific segmentation model. Through extensive experiments on retinal vessel segmentation, our framework achieves Dice scores close to target-trained oracle both from OCTA to OCT and from OCT to OCTA, significantly outperforming other state-of-the-art methods.
翻訳日:2022-01-14 15:16:23 公開日:2022-01-13
# 条件付き目的物を用いたフレキシブルスタイル画像超解像

Flexible Style Image Super-Resolution using Conditional Objective ( http://arxiv.org/abs/2201.04898v1 )

ライセンス: Link先を確認
Seung Ho Park, Young Su Moon and Nam Ik Cho(参考訳) 近年の研究では、畳み込みニューラルネットワーク(CNN)を用いた単一画像超解像(SR)の性能が著しく向上している。 入力に対して多くの高分解能(hr)ソリューションが存在するが、既存のcnnベースのメソッドは推論中に代替ソリューションを探索しない。 代替SR結果を得るための典型的なアプローチは、損失重み付けの異なる複数のSRモデルを訓練し、これらのモデルの組み合わせを活用することである。 複数のモデルを使う代わりに、マルチタスク学習を生かして、様々な組み合わせの損失に対して単一の調整可能なSRモデルを訓練するより効率的な方法を提案する。 具体的には、訓練中に条件付き目的を持つSRモデルを最適化し、目的は異なる特徴レベルにおける複数の知覚的損失の重み付け和である。 重みは与えられた条件によって異なり、重みの集合はスタイルコントローラとして定義される。 また,空間的特徴変換層を備えたResidual-in-Residual Dense Blockである,このトレーニング手法に適したアーキテクチャを提案する。 推論フェーズでは、トレーニングされたモデルは、スタイル制御マップに基づいて、ローカルに異なる出力を生成することができます。 拡張実験により,提案したSRモデルは人工物なしで様々な望ましい再構築を行い,最先端のSR手法に匹敵する定量的性能が得られることが示された。

Recent studies have significantly enhanced the performance of single-image super-resolution (SR) using convolutional neural networks (CNNs). While there can be many high-resolution (HR) solutions for a given input, most existing CNN-based methods do not explore alternative solutions during the inference. A typical approach to obtaining alternative SR results is to train multiple SR models with different loss weightings and exploit the combination of these models. Instead of using multiple models, we present a more efficient method to train a single adjustable SR model on various combinations of losses by taking advantage of multi-task learning. Specifically, we optimize an SR model with a conditional objective during training, where the objective is a weighted sum of multiple perceptual losses at different feature levels. The weights vary according to given conditions, and the set of weights is defined as a style controller. Also, we present an architecture appropriate for this training scheme, which is the Residual-in-Residual Dense Block equipped with spatial feature transformation layers. At the inference phase, our trained model can generate locally different outputs conditioned on the style control map. Extensive experiments show that the proposed SR model produces various desirable reconstructions without artifacts and yields comparable quantitative performance to state-of-the-art SR methods.
翻訳日:2022-01-14 15:15:55 公開日:2022-01-13
# ナノ戦争は疫病の再発を引き起こし、協力の促進に失敗する

Nanowars can cause epidemic resurgence and fail to promote cooperation ( http://arxiv.org/abs/2201.04747v1 )

ライセンス: Link先を確認
Dirk Helbing, Matja\v{z} Perc(参考訳) 持続不可能で「人口過多」な世界では、ナノテクノロジーをベースとした自律兵器が人類の未来に何をもたらすのか? いくつかの洞察を得るために、ゲーム理論の思考実験を単純化する。 我々は,エージェントが公共財をプレイし,並行して流行が展開する集団を考える。 感染した病原体は特定の確率で殺害され、感受性のある共同作業員に置き換えられる。 このような「ナノワーズ」は、たとえ良好な行動や惑星の健康を促進しようとするとしても、協力を促進できないだけでなく、反復的な流行波の確率を著しく高めることを示す。 実際、新生児の協力者は、近所の亡命者にとって簡単に標的にできることがわかった。 したがって、反対に、議論された介入は、望んだように反対の効果を持ち、欠陥を促進するかもしれない。 また、感染した欠陥者の死亡率に重要なしきい値が見出され、回復する流行波が確実となる。 結論として,我々はナノテクノロジーと自律兵器の国際規制を緊急に求める。

In a non-sustainable, "over-populated" world, what might the use of nanotechnology-based targeted, autonomous weapons mean for the future of humanity? In order to gain some insights, we make a simplified game-theoretical thought experiment. We consider a population where agents play the public goods game, and where in parallel an epidemic unfolds. Agents that are infected defectors are killed with a certain probability and replaced by susceptible cooperators. We show that such "nanowars", even if aiming to promote good behavior and planetary health, fail not only to promote cooperation, but they also significantly increase the probability of repetitive epidemic waves. In fact, newborn cooperators turn out to be easy targets for defectors in their neighborhood. Therefore, counterintuitively, the discussed intervention may even have the opposite effect as desired, promoting defection. We also find a critical threshold for the death rate of infected defectors, beyond which resurgent epidemic waves become a certainty. In conclusion, we urgently call for international regulation of nanotechnology and autonomous weapons.
翻訳日:2022-01-14 15:15:36 公開日:2022-01-13
# 最近近傍分類器の認証ロバスト性

Certifiable Robustness for Nearest Neighbor Classifiers ( http://arxiv.org/abs/2201.04770v1 )

ライセンス: Link先を確認
Austen Z. Fan and Paraschos Koutris(参考訳) mlモデルは通常、高品質の大規模データセットを使用してトレーニングされる。 しかし、トレーニングデータセットには一貫性のないデータや不完全なデータが含まれることが多い。 この問題に対処する一つの解決策は、モデルの予測が確実に堅牢かどうかを確認するアルゴリズムを開発することである。 分類器を生成し、テスト時に例を与える学習アルゴリズムが与えられると、不確定な(一貫性のない)データセットのすべての可能な世界(repairs)で訓練されたすべてのモデルによって予測された場合、分類結果が証明可能ロバストとなる。 この頑健性の概念は、ある答えの枠組みに自然に当てはまる。 本稿では,単純かつ広くデプロイされた分類アルゴリズムである$k$-Nearest Neighbors(k$-NN)のロバスト性証明の複雑さについて検討する。 当社の主な焦点は、整合性制約が関数依存(fds)である場合の一貫性のないデータセットにあります。 この設定のために、FDの集合として堅牢性を証明する複雑さを二分する:問題は多項式時間アルゴリズムを認めるか、coNPハードである。 さらに、あるラベルを予測できる可能性のある世界の数を数えることを目的として、問題の計数バージョンの同様の二分法を示す。 また,本研究の副産物として,独立した関心を持つ可能性のある最適部分修復の発見に関わる問題の複雑性を確立する。

ML models are typically trained using large datasets of high quality. However, training datasets often contain inconsistent or incomplete data. To tackle this issue, one solution is to develop algorithms that can check whether a prediction of a model is certifiably robust. Given a learning algorithm that produces a classifier and given an example at test time, a classification outcome is certifiably robust if it is predicted by every model trained across all possible worlds (repairs) of the uncertain (inconsistent) dataset. This notion of robustness falls naturally under the framework of certain answers. In this paper, we study the complexity of certifying robustness for a simple but widely deployed classification algorithm, $k$-Nearest Neighbors ($k$-NN). Our main focus is on inconsistent datasets when the integrity constraints are functional dependencies (FDs). For this setting, we establish a dichotomy in the complexity of certifying robustness w.r.t. the set of FDs: the problem either admits a polynomial time algorithm, or it is coNP-hard. Additionally, we exhibit a similar dichotomy for the counting version of the problem, where the goal is to count the number of possible worlds that predict a certain label. As a byproduct of our study, we also establish the complexity of a problem related to finding an optimal subset repair that may be of independent interest.
翻訳日:2022-01-14 15:13:34 公開日:2022-01-13
# クラウドソーシング信号マップの難読化におけるプライバシ・ユーティリティ取引

Privacy-Utility Trades in Crowdsourced Signal Map Obfuscation ( http://arxiv.org/abs/2201.04782v1 )

ライセンス: Link先を確認
Jiang Zhang, Lillian Clark, Matthew Clark, Konstantinos Psounis, Peter Kairouz(参考訳) セルラープロバイダとデータ集約企業は、ユーザデバイスからセルラー信号強度測定をクラウドソースして、信号マップを生成する。 このデータ収集がプライバシーの懸念に対する認識の高まりと相反する可能性があることを認識して、データをモバイル端末に残す前にそのようなデータを難読化することを検討する。 目標は、難読化されたデータ(例えば、ユーザidとユーザの居場所)から機密機能を回復しにくくすると同時に、ネットワークプロバイダがそのデータをネットワークサービスの改善(すなわち正確なシグナルマップの作成)に使用できるように、プライバシを向上することである。 このプライバシ利用のトレードオフを調べるために、私たちは、信号強度測定に適したプライバシとユーティリティメトリクスと脅威モデルを特定します。 次に,様々な難読化アプローチのベンチマークと,実用性を損なうことなくプライバシを保護するための信号マップ構築を任務とする実世界エンジニアへのガイダンスを提供するため,ディファレンシャルプライバシ,ジェネラティブ敵プライバシ,情報理論プライバシ技術など,いくつかの先行技術を用いて測定値の難読化を行う。 評価結果は,多種多様な実世界の信号マップデータセットに基づいて,設計においてデータセットの構造と意図した利用,最悪の場合ではなく平均ケースを対象とする難読化戦略を用いて,適切なプライバシーと実用性を同時に達成する可能性を示す。

Cellular providers and data aggregating companies crowdsource celluar signal strength measurements from user devices to generate signal maps, which can be used to improve network performance. Recognizing that this data collection may be at odds with growing awareness of privacy concerns, we consider obfuscating such data before the data leaves the mobile device. The goal is to increase privacy such that it is difficult to recover sensitive features from the obfuscated data (e.g. user ids and user whereabouts), while still allowing network providers to use the data for improving network services (i.e. create accurate signal maps). To examine this privacy-utility tradeoff, we identify privacy and utility metrics and threat models suited to signal strength measurements. We then obfuscate the measurements using several preeminent techniques, spanning differential privacy, generative adversarial privacy, and information-theoreti c privacy techniques, in order to benchmark a variety of promising obfuscation approaches and provide guidance to real-world engineers who are tasked to build signal maps that protect privacy without hurting utility. Our evaluation results, based on multiple, diverse, real-world signal map datasets, demonstrate the feasibility of concurrently achieving adequate privacy and utility, with obfuscation strategies which use the structure and intended use of datasets in their design, and target average-case, rather than worst-case, guarantees.
翻訳日:2022-01-14 15:13:10 公開日:2022-01-13
# 病院における機械学習のための信頼性が高くセキュアで信頼性の高いエンクレーブに向けて--emcp(essen medical computing platform)

Towards a trustworthy, secure and reliable enclave for machine learning in a hospital setting: The Essen Medical Computing Platform (EMCP) ( http://arxiv.org/abs/2201.04816v1 )

ライセンス: Link先を確認
Hendrik F. R. Schmidt (1), J\"org Schl\"otterer (1, 2, 3), Marcel Bargull (1), Enrico Nasca (1, 3), Ryan Aydelott (1), Christin Seifert (1, 2, 3), Folker Meyer (1, 2) ((1) Institute for Artificial Intelligence in Medicine, University Hospital Essen, Essen, Germany (2) University of Duisburg-Essen, Essen, Germany (3) Cancer Research Center Cologne Essen (CCCE), Essen, Germany)(参考訳) 大規模なAI/コンピューティングは、特にヘルスケア環境では難しい問題です。 我々は,ドイツの主要病院に付属するセキュアな研究コンピューティングエンクレーブであるessen medical computing platform (emcp) の実装に繋がる,要件,計画,実装の選択,指針について概説する。 コンプライアンス、データのプライバシ、ユーザビリティが、システムの不変要件だった。 我々は,コンピュータ・エンクレーブの機能について議論し,同様の設定を希望するグループのレシピを提供する。

AI/Computing at scale is a difficult problem, especially in a health care setting. We outline the requirements, planning and implementation choices as well as the guiding principles that led to the implementation of our secure research computing enclave, the Essen Medical Computing Platform (EMCP), affiliated with a major German hospital. Compliance, data privacy and usability were the immutable requirements of the system. We will discuss the features of our computing enclave and we will provide our recipe for groups wishing to adopt a similar setup.
翻訳日:2022-01-14 15:12:41 公開日:2022-01-13
# 4つのブラックボックス対応攻撃の評価とクエリ効率改善分析

Evaluation of Four Black-box Adversarial Attacks and Some Query-efficient Improvement Analysis ( http://arxiv.org/abs/2201.05001v1 )

ライセンス: Link先を確認
Rui Wang(参考訳) 機械学習技術の急速な発展に伴い、ディープラーニングモデルは日常生活のほぼあらゆる側面に展開されている。 しかし、これらのモデルのプライバシーとセキュリティは敵の攻撃によって脅かされている。 ブラックボックス攻撃は現実に近いもので、モデルから限られた知識を得ることができる。 本稿では,敵の攻撃に関する基本的な背景知識を提供し,バンディット,nes,スクエアアタック,zosignsgdの4つのブラックボックスアタックアルゴリズムを包括的に解析した。 また,新たに提案する正方形攻撃法を正方形サイズに対して検討し,クエリ効率の向上を期待した。

With the fast development of machine learning technologies, deep learning models have been deployed in almost every aspect of everyday life. However, the privacy and security of these models are threatened by adversarial attacks. Among which black-box attack is closer to reality, where limited knowledge can be acquired from the model. In this paper, we provided basic background knowledge about adversarial attack and analyzed four black-box attack algorithms: Bandits, NES, Square Attack and ZOsignSGD comprehensively. We also explored the newly proposed Square Attack method with respect to square size, hoping to improve its query efficiency.
翻訳日:2022-01-14 15:11:30 公開日:2022-01-13
# 特徴抽出とクラスタリングに基づくDNNのブラックボックス安全性解析とリトレーニング

Black-box Safety Analysis and Retraining of DNNs based on Feature Extraction and Clustering ( http://arxiv.org/abs/2201.05077v1 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore, and Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルシステムの多くの機能をサポートするために、古典的な機械学習よりも優れたパフォーマンスを示している。 現在、DNNはこのようなシステム(例えば自動運転車)で広く使われているが、DNNベースのシステムにおける機能安全分析の自動サポートについては、進展が限られている。 例えば、リスク分析とDNN再トレーニングの両方を可能にするエラーの根本原因の特定は、依然として未解決の問題である。 本稿では,DNNエラーの根本原因を自動的に識別するブラックボックス手法であるSAFEを提案する。 SAFEは、ImageNetで事前訓練された転送学習モデルを使用して、エラー誘発画像から特徴を抽出する。 次に密度ベースのクラスタリングアルゴリズムを適用し、誤りの原因をモデル化する画像の任意の形状のクラスタを検出する。 最後に、クラスタを使用してDNNを効果的に再トレーニングし、改善する。 SAFEのブラックボックスの性質は、変更を必要とせず、DNN内部にアクセスして採用を促進することを目的としています。 実験の結果,自動車領域におけるケーススタディに基づくDNN誤差の根本原因の同定におけるSAFEの有用性が示された。 また、再トレーニング後のDNN精度も大幅に改善され、代替よりも実行時間とメモリが大幅に短縮された。

Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption. Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives.
翻訳日:2022-01-14 15:11:20 公開日:2022-01-13
# 時間とメモリ最適化によるマルチ目的データストリームクラスタリングの改善

Improved Multi-objective Data Stream Clustering with Time and Memory Optimization ( http://arxiv.org/abs/2201.05079v1 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hanene Azzag, Mustapha Lebbah, and Nabil Keskes(参考訳) データストリームの分析は、過去数十年間、センサーやソーシャルメディアなどによってかなりの注目を集めてきた。 無秩序で無限で進化する観察の流れの中のパターンを認識することを目的としている。 このタイプのデータをクラスタリングするには、時間とメモリの制限が必要だ。 本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。 この方法は、他のクラスタリングアルゴリズムとは異なり、2つの異なる目的関数を使用してデータの異なる側面をキャプチャする。 IMOC-Streamの目標は次のとおりです。 1) アイドル時間を用いて遺伝的操作を施し, 解法を強化することにより計算時間を短縮する。 2)新しいツリーシンプシスを導入することでメモリ割り当てを削減する。 3) 多目的フレームワークを用いて任意の形状のクラスタを見つける。 本研究では,高次元ストリームデータセットを用いた実験を行い,よく知られたストリームクラスタリング手法と比較した。 実験では、時間とメモリを最適化しながら、任意の形状、コンパクト、分離されたクラスタでデータストリームを分割する能力を示す。 また,提案手法は,NMIとARANDの手法により,ストリームアルゴリズムのほとんどの性能を向上した。

The analysis of data streams has received considerable attention over the past few decades due to sensors, social media, etc. It aims to recognize patterns in an unordered, infinite, and evolving stream of observations. Clustering this type of data requires some restrictions in time and memory. This paper introduces a new data stream clustering method (IMOC-Stream). This method, unlike the other clustering algorithms, uses two different objective functions to capture different aspects of the data. The goal of IMOC-Stream is to: 1) reduce computation time by using idle times to apply genetic operations and enhance the solution. 2) reduce memory allocation by introducing a new tree synopsis. 3) find arbitrarily shaped clusters by using a multi-objective framework. We conducted an experimental study with high dimensional stream datasets and compared them to well-known stream clustering techniques. The experiments show the ability of our method to partition the data stream in arbitrarily shaped, compact, and well-separated clusters while optimizing the time and memory. Our method also outperformed most of the stream algorithms in terms of NMI and ARAND measures.
翻訳日:2022-01-14 15:10:59 公開日:2022-01-13
# 魚音:データ駆動型音源分離による海洋音響生物多様性の評価に向けて

Fish sounds: towards the evaluation of marine acoustic biodiversity through data-driven audio source separation ( http://arxiv.org/abs/2201.05013v1 )

ライセンス: Link先を確認
Michele Mancusi, Nicola Zonca, Emanuele Rodol\`a, Silvia Zuffi(参考訳) 海洋生態系は、生物多様性の喪失や熱帯種の温帯盆地への移動など、危機的な速度で変化している。 水中環境とその住民のモニタリングは、これらのシステムの進化を理解し、安全政策を実施するために重要である。 しかし、生物多様性の評価と追跡は、特に海洋のような大規模で制御不能な環境において、複雑な作業であることが多い。 海洋生物多様性をモニタリングする最もポピュラーで効果的な方法の1つは、水中の音を捉えるためにハイドロフォンを使用する受動的音響モニタリング(PAM)である。 多くの水生動物は独自の音を発生させ、これらの信号は効率的に水中を移動し、遠くでも検出できる。 さらに、現代の技術はますます便利で正確になり、非常に正確で慎重にデータを取得することができる。 現在、PAMデバイスで捉えた音声は、海洋生物学者によってしばしば手作業で処理され、動物の発声を検出するための従来の信号処理技術で解釈されている。 PAM録音は長い時間をかけて行われることが多いので、これは難しい作業です。 さらに, 生物多様性の喪失の原因の一つは音汚染であり, 人為的騒音が大きい地域から得られたデータでは, 手動で人工音と魚音を分離することは困難である。 今日では、機械学習、特にディープラーニングは、音声信号を処理する技術の現状を表している。 特に、音声分離ネットワークは、人間の声と楽器を識別し、分離することができる。 本研究は, PAM録音における魚の発声を自動的に抽出し, 生物多様性モニタリングを大規模に行うことができることを示すものである。

The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
翻訳日:2022-01-14 15:08:33 公開日:2022-01-13
# データ駆動モデリングとスペクトルサブマニフォールドによる非線形ダイナミクスの予測

Data-Driven Modeling and Prediction of Non-Linearizable Dynamics via Spectral Submanifolds ( http://arxiv.org/abs/2201.04976v1 )

ライセンス: Link先を確認
Mattia Cenedese, Joar Ax{\aa}s, Bastian B\"auerlein, Kerstin Avila and George Haller(参考訳) 有限個の周波数の外部強制を受ける双曲線型部分を持つ非線形(あるいは非線形)力学系を表現するデータセットから低次元予測モデルを構築する手法を開発した。 我々のデータ駆動,スパース,非線形モデルは,低次元のスペクトル部分多様体(SSM)を惹きつける,低次元の縮小力学の拡張正規形式として得られる。 本研究では,高次元数値データセットにおけるデータ駆動ssm低減のパワーと,水槽内のビーム振動,渦放出,スロッシングに関する実験的測定について述べる。 非強制データに訓練されたssm低減は、追加の外部強制下での非線形応答を正確に予測する。

We develop a methodology to construct low-dimensional predictive models from data sets representing essentially nonlinear (or non-linearizable) dynamical systems with a hyperbolic linear part that are subject to external forcing with finitely many frequencies. Our data-driven, sparse, nonlinear models are obtained as extended normal forms of the reduced dynamics on low-dimensional, attracting spectral submanifolds (SSMs) of the dynamical system. We illustrate the power of data-driven SSM reduction on high-dimensional numerical data sets and experimental measurements involving beam oscillations, vortex shedding and sloshing in a water tank. We find that SSM reduction trained on unforced data also predicts nonlinear response accurately under additional external forcing.
翻訳日:2022-01-14 15:08:05 公開日:2022-01-13
# ニューラル・クープマン・リアプノフ制御

Neural Koopman Lyapunov Control ( http://arxiv.org/abs/2201.05098v1 )

ライセンス: Link先を確認
Vrushabh Zinage, Efstathios Bakolas(参考訳) 未知の非線形システムに対する学習および安定化コントローラの合成は、実世界の産業アプリケーションにとって難しい問題である。 クープマン作用素理論は、非線形系のレンズと非線形制御系のレンズを通して非線形系の解析を可能にする。 これらの方法の鍵となる考え方は、非線形系の座標をクープマン可観測子に変換することであり、これは元の系(制御系)を高次元線型(双線型制御)系として表現できる座標である。 しかし、非線形制御系では、クープマン演算子に基づく学習法を適用した双線形制御モデルは必ずしも安定化できないため、多くの実世界のアプリケーションにとって重要な安定化フィードバック制御の存在は保証されない。 これらの安定化可能なクープマンベースの双線型制御系と関連するクープマン可観測系の同時同定は依然として未解決の問題である。 本稿では,これらの安定化可能な双線形モデルとその関連可観測体を,基礎となる未知の非線形制御系に対する双線形クープマン埋め込みを同時に学習することにより,データから同定し,構築する枠組みと,学習者およびファルシファイアを用いた二線形モデルに対する制御リャプノフ関数(CLF)を提案する。 提案手法は,未知ダイナミクスを持つ非線形制御系に対する大域的漸近安定性の証明可能な保証を提供する。 提案する非線形系に対する安定化型フィードバックコントローラの有効性を検証するために数値シミュレーションを行った。

Learning and synthesizing stabilizing controllers for unknown nonlinear systems is a challenging problem for real-world and industrial applications. Koopman operator theory allow one to analyze nonlinear systems through the lens of linear systems and nonlinear control systems through the lens of bilinear control systems. The key idea of these methods, lies in the transformation of the coordinates of the nonlinear system into the Koopman observables, which are coordinates that allow the representation of the original system (control system) as a higher dimensional linear (bilinear control) system. However, for nonlinear control systems, the bilinear control model obtained by applying Koopman operator based learning methods is not necessarily stabilizable and therefore, the existence of a stabilizing feedback control is not guaranteed which is crucial for many real world applications. Simultaneous identification of these stabilizable Koopman based bilinear control systems as well as the associated Koopman observables is still an open problem. In this paper, we propose a framework to identify and construct these stabilizable bilinear models and its associated observables from data by simultaneously learning a bilinear Koopman embedding for the underlying unknown nonlinear control system as well as a Control Lyapunov Function (CLF) for the Koopman based bilinear model using a learner and falsifier. Our proposed approach thereby provides provable guarantees of global asymptotic stability for the nonlinear control systems with unknown dynamics. Numerical simulations are provided to validate the efficacy of our proposed class of stabilizing feedback controllers for unknown nonlinear systems.
翻訳日:2022-01-14 15:07:52 公開日:2022-01-13
# (参考訳) シンプルなメタラーニングを超えて:マルチドメイン、アクティブ、連続的なFew-Shot学習のための多目的モデル [全文訳有]

Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain, Active and Continual Few-Shot Learning ( http://arxiv.org/abs/2201.05151v1 )

ライセンス: CC BY 4.0
Peyman Bateni, Jarred Barber, Raghav Goyal, Vaden Masrani, Jan-Willem van de Meent, Leonid Sigal, Frank Wood(参考訳) 現代のディープラーニングは、トレーニングのために大規模にラベル付きデータセットを必要とする。 少数のラベル付き例から効果的に学習することで、この問題を軽減することを目的としている。 以前提案された数ショットの視覚的分類器では、分類器決定を行う特徴多様体は、非相関な特徴次元と一様特徴分散を持つと仮定される。 本研究は,低ラベル方式で動作するモデルの分散感応クラスを提案することによって,この仮定から生じる制約に対処することに焦点を当てる。 最初の手法であるSimple CNAPSは、階層的に正規化されたマハラノビス距離に基づく分類器と、アートニューラル適応的特徴抽出器の状態を組み合わせて、メタデータセット、ミニイメージネット、タイレッドイメージネットのベンチマークで強力な性能を達成する。 さらに,このアプローチをトランスダクティブ学習に拡張し,トランスダクティブcnapを提案する。 ソフトk平均パラメータ補正手順と2段階タスクエンコーダを組み合わせることで、ラベルなしデータを用いたテスト時間分類精度の向上を図る。 Transductive CNAPSはMeta-Dataset上でのアートパフォーマンスの状態を達成します。 最後に,「アウト・オブ・ザ・ボックス」連続学習とアクティブ学習のための手法(単純かつトランスダクティブ)について検討する。 大規模ベンチマークでの大規模な実験は、比較的単純なモデルの堅牢性と汎用性を示している。 トレーニング済みのモデルチェックポイントと対応するソースコードはすべて公開されている。

Modern deep learning requires large-scale extensively labelled datasets for training. Few-shot learning aims to alleviate this issue by learning effectively from few labelled examples. In previously proposed few-shot visual classifiers, it is assumed that the feature manifold, where classifier decisions are made, has uncorrelated feature dimensions and uniform feature variance. In this work, we focus on addressing the limitations arising from this assumption by proposing a variance-sensitive class of models that operates in a low-label regime. The first method, Simple CNAPS, employs a hierarchically regularized Mahalanobis-distance based classifier combined with a state of the art neural adaptive feature extractor to achieve strong performance on Meta-Dataset, mini-ImageNet and tiered-ImageNet benchmarks. We further extend this approach to a transductive learning setting, proposing Transductive CNAPS. This transductive method combines a soft k-means parameter refinement procedure with a two-step task encoder to achieve improved test-time classification accuracy using unlabelled data. Transductive CNAPS achieves state of the art performance on Meta-Dataset. Finally, we explore the use of our methods (Simple and Transductive) for "out of the box" continual and active learning. Extensive experiments on large scale benchmarks illustrate robustness and versatility of this, relatively speaking, simple class of models. All trained model checkpoints and corresponding source codes have been made publicly available.
翻訳日:2022-01-14 15:06:32 公開日:2022-01-13
# エコー状態ネットワークを用いた再帰最小二乗制御

Recursive Least Squares Policy Control with Echo State Network ( http://arxiv.org/abs/2201.04781v1 )

ライセンス: Link先を確認
Chunyuan Zhang, Chao Liu, Qi Song and Jie Zhao(参考訳) エコー状態ネットワーク(ESN)は時系列データセットを処理するための特別なタイプのリカレントニューラルネットワークである。 しかし、エージェントのシーケンシャルなサンプル間の強い相関によって制限されるため、ESNのパラメータを更新するために再帰最小二乗法(RLS)アルゴリズムを使用するのは困難である。 そこで本研究では,ESNRLS-QとESNRLS-Sarsaの2つのポリシー制御アルゴリズムを提案する。 まず、トレーニングサンプルの相関を小さくするために、漏れやすい積分器ESNとミニバッチ学習モードを用いる。 第二に,小型バッチモードでのEMS訓練に適したRSSを実現するために,RSS相関行列を更新するための平均近似法を提案する。 第3に,esnの過剰フィッティングを防止するため,l1正規化手法を用いる。 最後に,目標状態-作用値の過大評価を防止するために,Mellowmax法を用いる。 シミュレーションの結果,アルゴリズムの収束性能は良好であった。

The echo state network (ESN) is a special type of recurrent neural networks for processing the time-series dataset. However, limited by the strong correlation among sequential samples of the agent, ESN-based policy control algorithms are difficult to use the recursive least squares (RLS) algorithm to update the ESN's parameters. To solve this problem, we propose two novel policy control algorithms, ESNRLS-Q and ESNRLS-Sarsa. Firstly, to reduce the correlation of training samples, we use the leaky integrator ESN and the mini-batch learning mode. Secondly, to make RLS suitable for training ESN in mini-batch mode, we present a new mean-approximation method for updating the RLS correlation matrix. Thirdly, to prevent ESN from over-fitting, we use the L1 regularization technique. Lastly, to prevent the target state-action value from overestimation, we employ the Mellowmax method. Simulation results show that our algorithms have good convergence performance.
翻訳日:2022-01-14 14:15:44 公開日:2022-01-13
# 多変量時系列予測のためのマルチスケール適応グラフニューラルネットワーク

Multi-Scale Adaptive Graph Neural Network for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2201.04828v1 )

ライセンス: Link先を確認
Ling Chen, Donghui Chen, Zongjiang Shang, Youdong Zhang, Bo Wen, and Chenghu Yang(参考訳) 多変量時系列予測(MTS)はインテリジェントアプリケーションの自動化と最適化において重要な役割を果たす。 複雑な変数内依存関係と変数間依存関係の両方を考慮する必要があるため、これは難しいタスクです。 既存の作業は、単一の変数間の依存関係の助けを借りて、時間パターンのみを学ぶ。 しかし、多くの現実世界のMSSにはマルチスケールの時間パターンが存在する。 単一の変数間依存性により、モデルは一種類の顕著な時相パターンを学習することを好む。 本稿では,上記の問題に対処するために,マルチスケール適応グラフニューラルネットワーク(magnn)を提案する。 magnnはマルチスケールのピラミッドネットワークを利用して、下位の時間依存を異なる時間スケールで保存する。 変数間依存性は、異なる時間スケールで異なる可能性があるため、適応グラフ学習モジュールは、事前定義された事前設定なしで、スケール固有の変数間依存性を推測するように設計されている。 マルチスケールの特徴表現とスケール固有の変数間依存関係を考えると、マルチスケールの時間グラフニューラルネットワークは、変数内依存性と変数間依存性を共同でモデル化するために導入される。 その後、異なる時間スケールでの協調を効果的に促進し、貢献する時間的パターンの重要性を自動的に把握する、スケールワイズ融合モジュールを開発した。 4つの実世界のデータセットの実験では、MAGNNは様々な設定で最先端のメソッドよりも優れています。

Multivariate time series (MTS) forecasting plays an important role in the automation and optimization of intelligent applications. It is a challenging task, as we need to consider both complex intra-variable dependencies and inter-variable dependencies. Existing works only learn temporal patterns with the help of single inter-variable dependencies. However, there are multi-scale temporal patterns in many real-world MTS. Single inter-variable dependencies make the model prefer to learn one type of prominent and shared temporal patterns. In this paper, we propose a multi-scale adaptive graph neural network (MAGNN) to address the above issue. MAGNN exploits a multi-scale pyramid network to preserve the underlying temporal dependencies at different time scales. Since the inter-variable dependencies may be different under distinct time scales, an adaptive graph learning module is designed to infer the scale-specific inter-variable dependencies without pre-defined priors. Given the multi-scale feature representations and scale-specific inter-variable dependencies, a multi-scale temporal graph neural network is introduced to jointly model intra-variable dependencies and inter-variable dependencies. After that, we develop a scale-wise fusion module to effectively promote the collaboration across different time scales, and automatically capture the importance of contributed temporal patterns. Experiments on four real-world datasets demonstrate that MAGNN outperforms the state-of-the-art methods across various settings.
翻訳日:2022-01-14 14:15:30 公開日:2022-01-13
# REST: 公開戦略の再構築によるソーシャルレコメンデーションの曖昧化

REST: Debiased Social Recommendation via Reconstructing Exposure Strategies ( http://arxiv.org/abs/2201.04952v1 )

ライセンス: Link先を確認
Ruichu Cai, Fengzhu Wu, Zijian Li, Jie Qiao, Wei Chen, Yuexing Hao, Hao Gu(参考訳) このレコメンデーションシステムは,ユーザとアイテム間の複雑な関係をモデル化するための歴史的観測データに頼って,現実世界のアプリケーションにおいて大きな成功を収めている。 選択バイアスは、既存の観測データに基づくアプローチにおいて最も重要な問題の1つであり、実際には複数のタイプの観察されていない露出戦略(プロモーションやホリデー効果など)によって引き起こされる。 この問題に対処するために様々な手法が提案されているが、それらは主に暗黙の偏見手法に依存しているが、観測されていない露光戦略を明示的にモデル化するものではない。 露光基準(REST)を明示的に再構築することにより、リコメンデーション問題をデファクト推論として形式化し、デバイアスの社会レコメンデーション手法を提案する。 RESTでは、アイテムの露出は、潜伏した露出戦略、ユーザ、およびアイテムによって制御されていると仮定します。 上記の生成過程に基づき,本手法の理論的保証を識別分析により提示する。 第2に,ソーシャルネットワークとアイテムの助けを借りて,潜在露出戦略を再構築するために,変動型オートエンコーダを用いる。 第3に,回収した露光戦略を活用し,偽推論に基づくレコメンデーションアルゴリズムを考案する。 3つの公開データセットと1つのプライベートWeChat Official Accountデータセットを含む4つの実世界のデータセットの実験は、いくつかの最先端メソッドに対する大幅な改善を示している。

The recommendation system, relying on historical observational data to model the complex relationships among the users and items, has achieved great success in real-world applications. Selection bias is one of the most important issues of the existing observational data based approaches, which is actually caused by multiple types of unobserved exposure strategies (e.g. promotions and holiday effects). Though various methods have been proposed to address this problem, they are mainly relying on the implicit debiasing techniques but not explicitly modeling the unobserved exposure strategies. By explicitly Reconstructing Exposure STrategies (REST in short), we formalize the recommendation problem as the counterfactual reasoning and propose the debiased social recommendation method. In REST, we assume that the exposure of an item is controlled by the latent exposure strategies, the user, and the item. Based on the above generation process, we first provide the theoretical guarantee of our method via identification analysis. Second, we employ a variational auto-encoder to reconstruct the latent exposure strategies, with the help of the social networks and the items. Third, we devise a counterfactual reasoning based recommendation algorithm by leveraging the recovered exposure strategies. Experiments on four real-world datasets, including three published datasets and one private WeChat Official Account dataset, demonstrate significant improvements over several state-of-the-art methods.
翻訳日:2022-01-14 14:13:01 公開日:2022-01-13
# 説明可能な人工知能を用いた洪水予測と特徴の関連性の解析

Flood Prediction and Analysis on the Relevance of Features using Explainable Artificial Intelligence ( http://arxiv.org/abs/2201.05046v1 )

ライセンス: Link先を確認
Sai Prasanth Kadiyala, Wai Lok Woo(参考訳) 本稿では,毎月の降雨データを分析し,ロジスティック回帰,k-ネアレスト近傍,決定木,ランダム林,サポートベクターマシンなどの機械学習アルゴリズムを適用し,インドのケララ州の洪水予測モデルを提案する。 これらのモデルは,特定の年における洪水発生の高精度な予測を行ったが,その予測決定を定量的に定性的に説明することはできない。 本稿では、予測決定に寄与する背景的特徴を学習し、説明可能な人工知能モジュールの開発に伴う内部動作を説明するためにさらに拡張した方法について述べる。 その結果,ケララの月次降水量データに基づいて,説明モジュールが発見した結果の有効性を確認した。

This paper presents flood prediction models for the state of Kerala in India by analyzing the monthly rainfall data and applying machine learning algorithms including Logistic Regression, K-Nearest Neighbors, Decision Trees, Random Forests, and Support Vector Machine. Although these models have shown high accuracy prediction of the occurrence of flood in a particular year, they do not quantitatively and qualitatively explain the prediction decision. This paper shows how the background features are learned that contributed to the prediction decision and further extended to explain the inner workings with the development of explainable artificial intelligence modules. The obtained results have confirmed the validity of the findings uncovered by the explainer modules basing on the historical flood monthly rainfall data in Kerala.
翻訳日:2022-01-14 14:12:37 公開日:2022-01-13
# フィットネスアクティビティ認識のための適応型認知マイクロコントローラノード

An adaptable cognitive microcontroller node for fitness activity recognition ( http://arxiv.org/abs/2201.05110v1 )

ライセンス: Link先を確認
Matteo Antonio Scrugli, Bojan Bla\v{z}ica, Paolo Meloni(参考訳) 新しい世代のワイヤレス技術、フィットネストラッカー、センサーを内蔵したデバイスは、医療システムや生活の質に大きな影響を与える可能性がある。 これらのデバイスで考慮すべき最も重要な側面は、生成されたデータの精度と消費電力である。 監視可能なイベントの多くは、明らかに単純だが、組み込みセンサーを備えたデバイス、特にコンピューティング能力の低いデバイスでは容易に検出および認識できない可能性がある。 ディープラーニングは、異なるターゲットクラスの認識に寄与する特徴の研究を減らすことがよく知られている。 本研究では,ウルブルボードに適用可能な携帯型,電池駆動型マイクロコントローラデバイスを提案する。 ウォブルボード(wobble board)は、足首の損傷を避けるために、または怪我後のリハビリの一環として、感覚運動訓練に使用できる安価な装置である。 深層学習に基づく認知技術を用いて,運動認識プロセスを実装した。 電力消費を減らすために,ハードウェアとソフトウェアの構成を動的に管理し,実行時に必要な動作モードに適応する適応層を追加する。 実験の結果,実行時のワークロードに対するノード構成の調整は,消費電力の最大60%を節約できることがわかった。 カスタムデータセットでは、最適化された量子化されたニューラルネットワークは、ウォブルボード上の特定の物理的エクササイズを検出するために、97%以上の精度値を達成する。

The new generation of wireless technologies, fitness trackers, and devices with embedded sensors can have a big impact on healthcare systems and quality of life. Among the most crucial aspects to consider in these devices are the accuracy of the data produced and power consumption. Many of the events that can be monitored, while apparently simple, may not be easily detectable and recognizable by devices equipped with embedded sensors, especially on devices with low computing capabilities. It is well known that deep learning reduces the study of features that contribute to the recognition of the different target classes. In this work, we present a portable and battery-powered microcontroller-base d device applicable to a wobble board. Wobble boards are low-cost equipment that can be used for sensorimotor training to avoid ankle injuries or as part of the rehabilitation process after an injury. The exercise recognition process was implemented through the use of cognitive techniques based on deep learning. To reduce power consumption, we add an adaptivity layer that dynamically manages the device's hardware and software configuration to adapt it to the required operating mode at runtime. Our experimental results show that adjusting the node configuration to the workload at runtime can save up to 60% of the power consumed. On a custom dataset, our optimized and quantized neural network achieves an accuracy value greater than 97% for detecting some specific physical exercises on a wobble board.
翻訳日:2022-01-14 14:12:24 公開日:2022-01-13
# 自然言語クエリ推薦による対話型データ解析

Interactive Data Analysis with Next-step Natural Language Query Recommendation ( http://arxiv.org/abs/2201.04868v1 )

ライセンス: Link先を確認
Xingbo Wang, Furui Cheng, Yong Wang, Ke Xu, Jiang Long, Hong Lu and Huamin Qu(参考訳) 自然言語インタフェース(NLI)は、自然言語クエリを通じてデータをインタラクティブに分析する便利な方法を提供する。 それでも、インタラクティブなデータ分析は、特に初心者データアナリストにとって、要求の多いプロセスである。 異なるドメインから大規模で複雑なデータセットを探索する場合、データアナリストは必ずしもデータとアプリケーションドメインについて十分な知識を持っていない。 これにより、一連のクエリを効率的に引き出すことができず、望ましいデータ洞察を広く導き出すことができます。 本稿では,ユーザが適切な次ステップ探索行動を選択するのを支援するステップワイズクエリレコメンデーションモジュールを備えたnliを開発した。 このシステムはデータ駆動型アプローチを採用し、クエリログに基づいてユーザの関心を持つアプリケーションドメインに対して、ステップワイズなセマンティック関連およびコンテキスト対応クエリ提案を生成する。 また、このシステムは、クエリ履歴と結果をダッシュボードに整理して、検出されたデータ洞察を伝達するのに役立つ。 比較ユーザスタディにより,提案システムは推奨モジュールを使わずに,ベースラインよりも効率的かつ体系的なデータ解析プロセスを促進できることを示す。

Natural language interfaces (NLIs) provide users with a convenient way to interactively analyze data through natural language queries. Nevertheless, interactive data analysis is a demanding process, especially for novice data analysts. When exploring large and complex datasets from different domains, data analysts do not necessarily have sufficient knowledge about data and application domains. It makes them unable to efficiently elicit a series of queries and extensively derive desirable data insights. In this paper, we develop an NLI with a step-wise query recommendation module to assist users in choosing appropriate next-step exploration actions. The system adopts a data-driven approach to generate step-wise semantically relevant and context-aware query suggestions for application domains of users' interest based on their query logs. Also, the system helps users organize query histories and results into a dashboard to communicate the discovered data insights. With a comparative user study, we show that our system can facilitate a more effective and systematic data analysis process than a baseline without the recommendation module.
翻訳日:2022-01-14 14:12:04 公開日:2022-01-13
# (参考訳) 対人訓練における過度パラメトリゼーションの呪い:ランダム特徴回帰のためのロバストな一般化の精密解析

The curse of overparametrization in adversarial training: Precise analysis of robust generalization for random features regression ( http://arxiv.org/abs/2201.05149v1 )

ライセンス: CC BY 4.0
Hamed Hassani and Adel Javanmard(参考訳) 成功したディープラーニングモデルは、トレーニングサンプルの数よりも多くのパラメータを含むニューラルネットワークアーキテクチャをトレーニングすることが多い。 このような過パラメータモデルは近年、広範囲に研究され、二重日射現象と最適化景観の構造的特性による計算的視点の両方を通して、過パラメータ化の利点が確立されている。 過剰パラメータ化システムにおけるディープラーニングアーキテクチャの顕著な成功にもかかわらず、これらのモデルが入力における小さな敵対的摂動に対して非常に脆弱であることはよく知られている。 反対に訓練された場合でも、摂動入力(ロバスト一般化)におけるパフォーマンスは、良性入力(標準一般化)において達成可能な最高のパフォーマンスよりもかなり悪い。 したがって、過度なパラメータ化が堅牢性にどのように影響するかを理解することが不可欠である。 本稿では,ランダムな特徴回帰モデル(ランダムな第1層重み付き2層ニューラルネットワーク)に着目し,強靭性に対する過度パラメータ化の役割を正確に評価する。 サンプルサイズ,入力次元,パラメータ数が互いに比例して増加する状態を考えるとともに,モデルが逆向きに訓練された場合の頑健な一般化誤差に対する漸近的に正確な公式を導出する。 提案理論は,過度パラメータ化が強靭性に与える影響を明らかにし,高過度パラメータ化が強靭性一般化を損なうことを示す。

Successful deep learning models often involve training neural network architectures that contain more parameters than the number of training samples. Such overparametrized models have been extensively studied in recent years, and the virtues of overparametrization have been established from both the statistical perspective, via the double-descent phenomenon, and the computational perspective via the structural properties of the optimization landscape. Despite the remarkable success of deep learning architectures in the overparametrized regime, it is also well known that these models are highly vulnerable to small adversarial perturbations in their inputs. Even when adversarially trained, their performance on perturbed inputs (robust generalization) is considerably worse than their best attainable performance on benign inputs (standard generalization). It is thus imperative to understand how overparametrization fundamentally affects robustness. In this paper, we will provide a precise characterization of the role of overparametrization on robustness by focusing on random features regression models (two-layer neural networks with random first layer weights). We consider a regime where the sample size, the input dimension and the number of parameters grow in proportion to each other, and derive an asymptotically exact formula for the robust generalization error when the model is adversarially trained. Our developed theory reveals the nontrivial effect of overparametrization on robustness and indicates that for adversarially trained random features models, high overparametrization can hurt robust generalization.
翻訳日:2022-01-14 14:10:08 公開日:2022-01-13
# アクティブラーニングに基づく多段階連続決定モデルと共通管石評価への応用

Active Learning-Based Multistage Sequential Decision-Making Model with Application on Common Bile Duct Stone Evaluation ( http://arxiv.org/abs/2201.04807v1 )

ライセンス: Link先を確認
Hongzhen Tian, Reuven Zev Cohen, Chuck Zhang, Yajun Mei(参考訳) 多段階の意思決定シナリオは、医療診断プロセスで一般的に見られる。 本稿では,必要な患者データのみを逐次的に収集する能動的学習法を開発した。 提案手法には2つの新点がある。 まず、1つのステージのみをモデル化する既存の順序ロジスティック回帰モデルとは異なり、各ステージのパラメータをまとめて推定する。 第二に、異なる段階における共通特徴の係数は一貫していると仮定する。 本手法の有効性をシミュレーション研究と実例研究の両方で検証した。 データを個別に独立にモデル化するベースライン法と比較して,提案手法は推定効率を62\%-1838\%向上させる。 シミュレーションとテストのコホートの両方において,提案手法はパラメータ推定においてより効率的で安定であり,解釈可能であり,計算効率が高い。 提案手法は,必要な情報だけで意思決定を順次行うことができる様々なシナリオに容易に拡張できる。

Multistage sequential decision-making scenarios are commonly seen in the healthcare diagnosis process. In this paper, an active learning-based method is developed to actively collect only the necessary patient data in a sequential manner. There are two novelties in the proposed method. First, unlike the existing ordinal logistic regression model which only models a single stage, we estimate the parameters for all stages together. Second, it is assumed that the coefficients for common features in different stages are kept consistent. The effectiveness of the proposed method is validated in both a simulation study and a real case study. Compared with the baseline method where the data is modeled individually and independently, the proposed method improves the estimation efficiency by 62\%-1838\%. For both simulation and testing cohorts, the proposed method is more effective, stable, interpretable, and computationally efficient on parameter estimation. The proposed method can be easily extended to a variety of scenarios where decision-making can be done sequentially with only necessary information.
翻訳日:2022-01-14 14:07:34 公開日:2022-01-13
# 機械学習アルゴリズムにおけるハイパーパラメータの重要性

Hyperparameter Importance for Machine Learning Algorithms ( http://arxiv.org/abs/2201.05132v1 )

ライセンス: Link先を確認
Honghe Jin(参考訳) ハイパーパラメータは、教師付き機械学習アルゴリズムの適合に不可欠な役割を果たす。 しかし、特に大きなデータセットに対して、チューナブルなハイパーパラメータを同時にチューニングするのは計算コストが高い。 本稿では,サブサンプリング手順によって推定できるハイパーパラメータの重要性について述べる。 重要度に応じて、ハイパーパラメータはデータセット全体においてより効率的にチューニングできる。 提案するデータサブセットの重要性は,弱い条件下での人口データと一致していることが理論的に示されている。 数値実験により,提案する重要性は一貫しており,多くの計算資源を節約できることが示された。

Hyperparameter plays an essential role in the fitting of supervised machine learning algorithms. However, it is computationally expensive to tune all the tunable hyperparameters simultaneously especially for large data sets. In this paper, we give a definition of hyperparameter importance that can be estimated by subsampling procedures. According to the importance, hyperparameters can then be tuned on the entire data set more efficiently. We show theoretically that the proposed importance on subsets of data is consistent with the one on the population data under weak conditions. Numerical experiments show that the proposed importance is consistent and can save a lot of computational resources.
翻訳日:2022-01-14 14:07:18 公開日:2022-01-13
# 新型コロナウイルス対策のための仮面顔検出法とデータセットの検討

A Survey on Masked Facial Detection Methods and Datasets for Fighting Against COVID-19 ( http://arxiv.org/abs/2201.04777v1 )

ライセンス: Link先を確認
Bingshu Wang, Jiangbin Zheng, and C.L. Philip Chen(参考訳) 新型コロナウイルス感染症2019(COVID-19)は、感染拡大以来、世界にとって大きな課題となっている。 この病気に対抗するために、一連の人工知能(AI)技術が開発され、安全監視、疾患診断、感染リスク評価、COVID-19 CTスキャンの病変セグメント化、etcなどの現実世界のシナリオに適用されている。 新型コロナウイルスの感染拡大により、マスクを着用した大勢の人々がマスクを着用しているのを監視することが困難になっている。 本稿では主に、マスク付き顔検出と関連するデータセットのAI技術に焦点を当てる。 マスク付き顔検出データセットの記述から始まった最近の進歩について調査する。 13のデータセットが詳しく説明され、議論されている。 次に、従来の方法とニューラルネットワークに基づく方法の2つのクラスに大別する。 従来の手法は通常、少ない割合で手作りの機能を持つアルゴリズムを増強することで訓練される。 ニューラルネットワークに基づく手法は、処理段階の数に応じてさらに3つの部分に分類される。 代表的アルゴリズムは、簡潔に記述される典型的な技法と相まって詳細に記述される。 最後に、最近のベンチマーク結果を要約し、データセットとメソッドの制限に関する議論を行い、今後の研究方向性を広げる。 私たちの知る限り、マスクされた顔検出方法とデータセットに関する最初の調査である。 私たちの調査が、疫病対策に役立つことを願っています。

Coronavirus disease 2019 (COVID-19) continues to pose a great challenge to the world since its outbreak. To fight against the disease, a series of artificial intelligence (AI) techniques are developed and applied to real-world scenarios such as safety monitoring, disease diagnosis, infection risk assessment, lesion segmentation of COVID-19 CT scans,etc. The coronavirus epidemics have forced people wear masks to counteract the transmission of virus, which also brings difficulties to monitor large groups of people wearing masks. In this paper, we primarily focus on the AI techniques of masked facial detection and related datasets. We survey the recent advances, beginning with the descriptions of masked facial detection datasets. Thirteen available datasets are described and discussed in details. Then, the methods are roughly categorized into two classes: conventional methods and neural network-based methods. Conventional methods are usually trained by boosting algorithms with hand-crafted features, which accounts for a small proportion. Neural network-based methods are further classified as three parts according to the number of processing stages. Representative algorithms are described in detail, coupled with some typical techniques that are described briefly. Finally, we summarize the recent benchmarking results, give the discussions on the limitations of datasets and methods, and expand future research directions. To our knowledge, this is the first survey about masked facial detection methods and datasets. Hopefully our survey could provide some help to fight against epidemics.
翻訳日:2022-01-14 14:06:43 公開日:2022-01-13
# 畳み込みニューラルネットワークの学習・実行のための再帰的最小方形

Recursive Least Squares for Training and Pruning Convolutional Neural Networks ( http://arxiv.org/abs/2201.04813v1 )

ライセンス: Link先を確認
Tianzong Yu, Chunyuan Zhang, Yuan Wang, Meng Ma and Qi Song(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの実用化に成功している。 しかし、その高い計算とストレージの要求により、リソースに制約のあるデバイスへのデプロイが困難になることが多い。 この問題に対処するために、多くのプルーニングアルゴリズムがCNN向けに提案されているが、そのほとんどは、CNNを合理的なレベルに引き出すことはできない。 本稿では,再帰最小二乗 (RLS) 最適化に基づくCNNの訓練と刈り取りのための新しいアルゴリズムを提案する。 いくつかのエポックに対してCNNを訓練した後、我々のアルゴリズムは逆入力自己相関行列と重み行列を組み合わせて、重要でない入力チャネルやノード層を層単位で評価し、創出する。 そして,本アルゴリズムは刈り取られたネットワークのトレーニングを継続し,刈り取られたネットワークが古いネットワークの完全な性能を回復するまで次の刈り取りを行わない。 cnnに加えて、提案アルゴリズムはfeedforward neural networks (fnns)に使用することができる。 MNIST, CIFAR-10, SVHNデータセットの3つの実験により、我々のアルゴリズムはより合理的なプルーニングを達成でき、他の4つのプルーニングアルゴリズムよりも学習効率が高いことを示す。

Convolutional neural networks (CNNs) have succeeded in many practical applications. However, their high computation and storage requirements often make them difficult to deploy on resource-constrained devices. In order to tackle this issue, many pruning algorithms have been proposed for CNNs, but most of them can't prune CNNs to a reasonable level. In this paper, we propose a novel algorithm for training and pruning CNNs based on the recursive least squares (RLS) optimization. After training a CNN for some epochs, our algorithm combines inverse input autocorrelation matrices and weight matrices to evaluate and prune unimportant input channels or nodes layer by layer. Then, our algorithm will continue to train the pruned network, and won't do the next pruning until the pruned network recovers the full performance of the old network. Besides for CNNs, the proposed algorithm can be used for feedforward neural networks (FNNs). Three experiments on MNIST, CIFAR-10 and SVHN datasets show that our algorithm can achieve the more reasonable pruning and have higher learning efficiency than other four popular pruning algorithms.
翻訳日:2022-01-14 14:06:25 公開日:2022-01-13
# 時間領域におけるサブサンプリングによるプライバシー増幅

Privacy Amplification by Subsampling in Time Domain ( http://arxiv.org/abs/2201.04762v1 )

ライセンス: Link先を確認
Tatsuki Koga, Casey Meehan, Kamalika Chaudhuri(参考訳) トラフィックフローやサイト占有率などの時系列データは、時間を通して人口統計を繰り返しサンプリングする。 このようなデータは、特定の人口内のトレンドを理解する上で非常に有用であると同時に、プライバシーに関する重大なリスクも引き起こす可能性がある。 個人が各タイムステップに貢献できる場合、プライバシを満たすのに必要な追加ノイズの量は、サンプリングされたタイムステップの数とともに直線的に増加する。 したがって、もし信号が長い持続時間にまたがる、または過度にサンプリングされた場合、過大なノイズを追加し、基礎となるトレンドを溺れ去らなければならない。 しかし、多くのアプリケーションでは、個々人があらゆる時間ステップでリアルに参加できない。 このような場合、プライバシ要件を満たしながら、時間内にサブサンプリングやフィルタリングを行うことで、単一の参加者(感受性)の影響を低減できると観察する。 新たな分析により,感度の大幅な低下を示し,それに対応するプライバシメカニズムを提案する。 実世界および合成時系列データを用いて,これらの手法の有用性を実証する。

Aggregate time-series data like traffic flow and site occupancy repeatedly sample statistics from a population across time. Such data can be profoundly useful for understanding trends within a given population, but also pose a significant privacy risk, potentially revealing e.g., who spends time where. Producing a private version of a time-series satisfying the standard definition of Differential Privacy (DP) is challenging due to the large influence a single participant can have on the sequence: if an individual can contribute to each time step, the amount of additive noise needed to satisfy privacy increases linearly with the number of time steps sampled. As such, if a signal spans a long duration or is oversampled, an excessive amount of noise must be added, drowning out underlying trends. However, in many applications an individual realistically cannot participate at every time step. When this is the case, we observe that the influence of a single participant (sensitivity) can be reduced by subsampling and/or filtering in time, while still meeting privacy requirements. Using a novel analysis, we show this significant reduction in sensitivity and propose a corresponding class of privacy mechanisms. We demonstrate the utility benefits of these techniques empirically with real-world and synthetic time-series data.
翻訳日:2022-01-14 14:04:34 公開日:2022-01-13
# seamlessgan: タイル可能なテクスチャマップの自己教師あり合成

SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps ( http://arxiv.org/abs/2201.05120v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Pardo and Elena Garces(参考訳) 単一入力例からタイル状テクスチャマップを自動生成できるSeamlessGANを提案する。 合成問題のみに焦点をあてた既存の手法と対照的に,本研究は問題,合成,タイル性の両方を同時に取り組んでいる。 我々のキーとなる考え方は、敵対的展開技術を用いて訓練された生成ネットワーク内で潜伏空間をタイリングすることで、海面交差点で連続して出力を生成し、中央領域を収穫することでタイル状画像にすることができることである。 遅延空間のすべての値が高品質な出力を生成するのに有効ではないので、サンプリングプロセス中に人工物のないテクスチャを識別できる知覚誤差計量として判別器を利用する。 さらに,先行研究である深層テクスチャ合成とは対照的に,多層テクスチャ表現を扱うように設計・最適化され,アルベドやノーマルなどの複数のマップからなるテクスチャが実現されている。 我々はネットワークアーキテクチャ、損失関数、サンプリングパラメータの設計選択を広範囲にテストした。 提案手法が従来の手法より優れており,異なるタイプのテクスチャに対して有効であることを示す。

We present SeamlessGAN, a method capable of automatically generating tileable texture maps from a single input exemplar. In contrast to most existing methods, focused solely on solving the synthesis problem, our work tackles both problems, synthesis and tileability, simultaneously. Our key idea is to realize that tiling a latent space within a generative network trained using adversarial expansion techniques produces outputs with continuity at the seam intersection that can be then be turned into tileable images by cropping the central area. Since not every value of the latent space is valid to produce high-quality outputs, we leverage the discriminator as a perceptual error metric capable of identifying artifact-free textures during a sampling process. Further, in contrast to previous work on deep texture synthesis, our model is designed and optimized to work with multi-layered texture representations, enabling textures composed of multiple maps such as albedo, normals, etc. We extensively test our design choices for the network architecture, loss function and sampling parameters. We show qualitatively and quantitatively that our approach outperforms previous methods and works for textures of different types.
翻訳日:2022-01-14 14:01:09 公開日:2022-01-13
# リアルタイムGPU高速化機械学習による5G以上のマルチユーザ検出

Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond ( http://arxiv.org/abs/2201.05024v1 )

ライセンス: Link先を確認
Matthias Mehlhose, Daniel Sch\"aufele, Daniyal Amir Awan, Guillermo Marcus, Nikolaus Binder, Martin Kasparick, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak and Alexander Keller(参考訳) 適応型部分線形ビームフォーミングは、高い柔軟性と適応性のために5gおよび将来の6g応用の必要性を満たす。 競合する目標間の適切なトレードオフを選択することで、最近提案されたmultiuser(MU)検出方法が開かれる。 空間分解能が高いため、非線形ビームフォーミングフィルタは、大規模接続を伴う定常シナリオにおいて、線形アプローチを著しく上回ることができる。 しかし、無線チャネルの変化に非常に影響を受けやすいため、高機動性シナリオではパフォーマンスが劇的に低下することが期待できる。 これらの変化を考慮すると、線形フィルタの堅牢性が必要である。 適切な対応方法のひとつは、オンライン機械学習アルゴリズムを使用することだ。 adaptive projected subgradient method (apsm)に基づくアルゴリズムの理論は豊富であり、動的無線環境における正確な追跡能力を約束している。 しかし、主な課題の1つは、時間変化した閉凸集合の射影を含むこれらのアルゴリズムのリアルタイム実装である。 プロジェクション操作は比較的単純であるが、その膨大な数は、すべての無線フレームでレイテンシ制約を満たさなければならない超低レイテンシ(ULL)アプリケーションにおいて課題となる。 本稿では,非直交多重アクセス(NOMA)システムを例として,大規模並列化によるAPSMアルゴリズムの高速化について検討する。 その結果、GPUによる直交周波数分割多重化(OFDM)ベースのトランシーバの実装が加速され、1ミリ秒未満のレイテンシの検出が可能となり、5G以上の要件に準拠する。 厳密な物理層レイテンシ要件を満たすためには、特にハードウェアアクセラレータを備えた仮想化無線システムにおいて、ハードウェアとソフトウェアの注意深い共同設計が不可欠である。

Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPU-accelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)-based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
翻訳日:2022-01-14 14:00:47 公開日:2022-01-13
# サンプルモーメントを用いた密度推定のための非古典的パラメータ化

A Non-Classical Parameterization for Density Estimation Using Sample Moments ( http://arxiv.org/abs/2201.04786v1 )

ライセンス: Link先を確認
Guangyu Wu, Anders Lindquist(参考訳) モーメント法は、密度推定の重要な手段であるが、それらは一般に、性能に大きく影響する、実現可能な関数の選択に強く依存している。 このような関数の選択を必要としないサンプルモーメントを用いた密度推定のための非古典的パラメータ化を提案する。 パラメータ化はKullback-Leibler距離によって誘導され、その解は、存在することが証明され、データに依存しない単純な先行対象であり、凸最適化によって得られる。 シミュレーションの結果,異なる種類の関数の混合である多モード密度の推定における推定器の性能を示す。

Moment methods are an important means of density estimation, but they are generally strongly dependent on the choice of feasible functions, which severely affects the performance. We propose a non-classical parameterization for density estimation using the sample moments, which does not require the choice of such functions. The parameterization is induced by the Kullback-Leibler distance, and the solution of it, which is proved to exist and be unique subject to simple prior that does not depend on data, can be obtained by convex optimization. Simulation results show the performance of the proposed estimator in estimating multi-modal densities which are mixtures of different types of functions.
翻訳日:2022-01-14 14:00:04 公開日:2022-01-13
# 文脈案内参照統合とペア間推論による文書レベル関係抽出

Document-level Relation Extraction with Context Guided Mention Integration and Inter-pair Reasoning ( http://arxiv.org/abs/2201.04826v1 )

ライセンス: Link先を確認
Chao Zhao, Daojian Zeng, Lu Xu, Jianhua Dai(参考訳) 文書レベルの関係抽出(DRE)は、2つの実体間の関係を認識することを目的としている。 実体は文境界を超える複数の言及に対応することができる。 前回の研究で言及の統合が検討された例はほとんどないが、coreferential mentionsは特定の関係に等しく寄与しないため問題となる。 さらに、事前の取り組みは、エンティティペア間のグローバルな相互作用をキャプチャするよりも、エンティティレベルの推論に重点を置いている。 本稿では、DREを改善するために、コンテキストガイドメンション統合とペア間推論(CGM2IR)という2つの新しい手法を提案する。 平均プーリングを適用する代わりに、コンテキストは重み付けされた和の方法でcoreferential mentionsの統合を導くために利用される。 さらに、ペア間推論は、関係の相互依存性をモデル化するために、エンティティペアグラフ上で反復アルゴリズムを実行する。 我々は,CGM2IRモデルをDocRED,CDR,GDAという3つの広く使用されているベンチマークデータセット上で評価した。 実験の結果,本モデルが先行する最先端モデルを上回ることがわかった。

Document-level Relation Extraction (DRE) aims to recognize the relations between two entities. The entity may correspond to multiple mentions that span beyond sentence boundary. Few previous studies have investigated the mention integration, which may be problematic because coreferential mentions do not equally contribute to a specific relation. Moreover, prior efforts mainly focus on reasoning at entity-level rather than capturing the global interactions between entity pairs. In this paper, we propose two novel techniques, Context Guided Mention Integration and Inter-pair Reasoning (CGM2IR), to improve the DRE. Instead of simply applying average pooling, the contexts are utilized to guide the integration of coreferential mentions in a weighted sum manner. Additionally, inter-pair reasoning executes an iterative algorithm on the entity pair graph, so as to model the interdependency of relations. We evaluate our CGM2IR model on three widely used benchmark datasets, namely DocRED, CDR, and GDA. Experimental results show that our model outperforms previous state-of-the-art models.
翻訳日:2022-01-14 13:59:52 公開日:2022-01-13
# LARD: 大規模人工拡散発生

LARD: Large-scale Artificial Disfluency Generation ( http://arxiv.org/abs/2201.05041v1 )

ライセンス: Link先を確認
T. Passali, T. Mavropoulos, G. Tsoumakas, G. Meditskos, S. Vrochidis(参考訳) 拡散検出はリアルタイム対話システムにおいて重要な課題である。 しかし、その重要性にもかかわらず、適切なデータセットが欠如しているため、比較的未調査の分野である。 同時に、既存のデータセットはクラス不均衡問題を含む様々な問題に苦しんでおり、本論文で示しているように、レアクラスのモデルのパフォーマンスに大きな影響を与える可能性がある。 この目的のために, 複雑で現実的な人工的分散を少ない労力で生成する手法である LARD を提案する。 提案手法は, 繰り返し, 交換, 再起動という, 最も一般的な3種類の不純物を扱うことができる。 さらに, 分散検出, 分類, 抽出, 修正の4つのタスクで使用できる, 分散を伴う新しい大規模データセットもリリースした。 LARDデータセットの実験結果から,提案手法で生成したデータは,既存のデータセットの制限に対処しつつ,分散の検出と除去に有効に利用できることが示された。

Disfluency detection is a critical task in real-time dialogue systems. However, despite its importance, it remains a relatively unexplored field, mainly due to the lack of appropriate datasets. At the same time, existing datasets suffer from various issues, including class imbalance issues, which can significantly affect the performance of the model on rare classes, as it is demonstrated in this paper. To this end, we propose LARD, a method for generating complex and realistic artificial disfluencies with little effort. The proposed method can handle three of the most common types of disfluencies: repetitions, replacements and restarts. In addition, we release a new large-scale dataset with disfluencies that can be used on four different tasks: disfluency detection, classification, extraction and correction. Experimental results on the LARD dataset demonstrate that the data produced by the proposed method can be effectively used for detecting and removing disfluencies, while also addressing limitations of existing datasets.
翻訳日:2022-01-14 13:59:35 公開日:2022-01-13
# タマシェク語における音声資源

Speech Resources in the Tamasheq Language ( http://arxiv.org/abs/2201.05051v1 )

ライセンス: Link先を確認
Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Lo\"ic Barrault, Mickael Rouvier, Yannick Est\`eve(参考訳) 本稿では,mali と niger で主に使われている開発言語 tamasheq の2つのデータセットについて述べる。 これらの2つのデータセットは、IWSLT 2022低リソース音声翻訳トラックで利用可能であり、Studio Kalangou (Niger) とStudio Tamani (Mali) のラジオ録音のコレクションで構成されている。 私たちは (i)ニジェール語、フルフルード語、ハウザ語、タマシェク語、ザルマ語及び5つの言語における膨大な無ラベルオーディオデータ(671時間) (II) タマシェクでは, 音声録音の並列コーパスが17時間小さく, フランス語で発声レベルが翻訳された。 これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。 これらのリソースが、tamasheq言語を使ったモデルの開発とベンチマークモデルの開発を、音声コミュニティに促すことを願っている。

In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
翻訳日:2022-01-14 13:59:20 公開日:2022-01-13
# OWL表現におけるUNLグラフの変換

Transforming UNL graphs in OWL representations ( http://arxiv.org/abs/2201.04841v1 )

ライセンス: Link先を確認
David Rouquet, Val\'erie Bellynck (UGA), Christian Boitet (UGA), Vincent Berment(参考訳) 自然言語から形式的な知識(オントロジー)を抽出することは、意味レベルでテキストの形式的な言語表現から恩恵を受けることができる課題である。 本稿では,RDF上にUniversal Networking Language (UNL)仕様を実装し,そのような表現を実現することを提案する。 したがって、任意の言語における文の意味は、自然言語と形式的知識の中間となるRDF-UNLグラフとして健全に表現される。 特に,rdf-unlグラフは汎用的なshaclルールを用いてコンテンツ抽出をサポートし,抽出された事実に対する推論によって原文の一貫性の欠如を検出できることを示す。 このアプローチはUNseLプロジェクトで実験され、システム要件/仕様から存在論的表現を抽出して、一貫性、完全性、曖昧性をチェックする。 我々のRDF-UNL実装と作業例のコードは、https://gitlab.tetra s-libre.fr/unl/rdf-u nlでCeCILL-Bライセンスの下で公開されています。

Extracting formal knowledge (ontologies) from natural language is a challenge that can benefit from a (semi-) formal linguistic representation of texts, at the semantic level. We propose to achieve such a representation by implementing the Universal Networking Language (UNL) specifications on top of RDF. Thus, the meaning of a statement in any language will be soundly expressed as a RDF-UNL graph that constitutes a middle ground between natural language and formal knowledge. In particular, we show that RDF-UNL graphs can support content extraction using generic SHACL rules and that reasoning on the extracted facts allows detecting incoherence in the original texts. This approach is experimented in the UNseL project that aims at extracting ontological representations from system requirements/specifi cations in order to check that they are consistent, complete and unambiguous. Our RDF-UNL implementation and all code for the working examples of this paper are publicly available under the CeCILL-B license at https://gitlab.tetra s-libre.fr/unl/rdf-u nl
翻訳日:2022-01-14 13:58:11 公開日:2022-01-13
# ai singapore trusted media challengeデータセット

AI Singapore Trusted Media Challenge Dataset ( http://arxiv.org/abs/2201.04788v1 )

ライセンス: Link先を確認
Weiling Chen, Benjamin Chua, Stefan Winkler(参考訳) 強力なディープラーニング技術の開発は、社会と個人の両方にマイナスの影響をもたらした。 そのような問題の1つは偽メディアの出現である。 この問題に対処するため、私たちはTrusted Media Challenge (TMC)を組織し、人工知能(AI)技術をどのように活用して偽メディアと戦うかを探った。 このチャレンジと共に、私たちは4,380のフェイクと2,563のリアルビデオからなるチャレンジデータセットをリリースしました。 これらのビデオにはオーディオが付属しており、異なる種類のフェイクメディアを生成するために異なるビデオおよび/またはオーディオ操作方法が採用されている。 データセット内のビデオは、様々な期間、背景、照明、360pの最小解像度を持ち、送信エラーと悪い圧縮を模倣する摂動を含む可能性がある。 作成したデータセットの品質を示すために,ユーザスタディも実施している。 その結果、データセットには有望な品質があり、多くの場合、人間の参加者を騙すことができます。

The development of powerful deep learning technologies has brought about some negative effects to both society and individuals. One such issue is the emergence of fake media. To tackle the issue, we have organized the Trusted Media Challenge (TMC) to explore how Artificial Intelligence (AI) technologies could be leveraged to combat fake media. Together with the challenge, we have released a challenge dataset which consists of 4,380 fake and 2,563 real videos. All these videos are accompanied with audios and different video and/or audio manipulation methods are adopted to produce different types of fake media. The videos in the dataset have various durations, background, illumination, a minimum resolution of 360p and may contain perturbations that mimic transmission errors and bad compression. We have also carried out a user study to demonstrate the quality of our composed dataset. The results show that our dataset has a promising quality and can fool human participants in many cases.
翻訳日:2022-01-14 13:57:02 公開日:2022-01-13
# CFNet:ワンステージパノプティクスセグメンテーションのための相関関数の学習

CFNet: Learning Correlation Functions for One-Stage Panoptic Segmentation ( http://arxiv.org/abs/2201.04796v1 )

ライセンス: Link先を確認
Yifeng Chen, Wenqing Chu, Fangfang Wang, Ying Tai, Ran Yi, Zhenye Gan, Liang Yao, Chengjie Wang, Xi Li(参考訳) 近年, 完全畳み込みパイプライン内において, インスタンスを分割することを目的とした一段分割方式に注目が集まっている。 しかし、既存の作品の多くは、セマンティクスとインスタンスセグメンテーションの要求を無視して、バックボーン機能を様々なセグメンテーションヘッドに直接供給している。 これを緩和するため,我々はまず,バックボーン機能の強化に使用される異なる場所間の意味レベルおよびインスタンスレベルの相関を予測し,改良された識別特徴を対応するセグメンテーションヘッドにそれぞれ与える。 具体的には,与えられた位置とすべての位置との相関を連続列として整理し,全体として予測する。 このようなシーケンスは非常に複雑であるので、振幅やフレーズによってパラメータ化された任意のシーケンスを近似できる離散フーリエ変換(DFT)を採用する。 異なるタスクに対して、対応するタスクによって暗黙的に最適化された完全な畳み込み方式で、バックボーン機能からこれらのパラメータを生成する。 結果として、これらの正確で一貫した相関関係は、複雑な汎視的セグメンテーションタスクの要求を満たす可塑性判別的特徴を生み出すことに寄与する。 提案手法の有効性を検証するため,MS COCOでは45.1$\%のPQ,ADE20kでは32.6$\%のPQを用いて,いくつかの挑戦的な汎視的セグメンテーションデータセットの実験を行った。

Recently, there is growing attention on one-stage panoptic segmentation methods which aim to segment instances and stuff jointly within a fully convolutional pipeline efficiently. However, most of the existing works directly feed the backbone features to various segmentation heads ignoring the demands for semantic and instance segmentation are different: The former needs semantic-level discriminative features, while the latter requires features to be distinguishable across instances. To alleviate this, we propose to first predict semantic-level and instance-level correlations among different locations that are utilized to enhance the backbone features, and then feed the improved discriminative features into the corresponding segmentation heads, respectively. Specifically, we organize the correlations between a given location and all locations as a continuous sequence and predict it as a whole. Considering that such a sequence can be extremely complicated, we adopt Discrete Fourier Transform (DFT), a tool that can approximate an arbitrary sequence parameterized by amplitudes and phrases. For different tasks, we generate these parameters from the backbone features in a fully convolutional way which is optimized implicitly by corresponding tasks. As a result, these accurate and consistent correlations contribute to producing plausible discriminative features which meet the requirements of the complicated panoptic segmentation task. To verify the effectiveness of our methods, we conduct experiments on several challenging panoptic segmentation datasets and achieve state-of-the-art performance on MS COCO with $45.1$\% PQ and ADE20k with $32.6$\% PQ.
翻訳日:2022-01-14 13:56:48 公開日:2022-01-13
# ロバストなマルチオブジェクトマッチングのためのスケーラブルクラスタ一貫性統計

Scalable Cluster-Consistency Statistics for Robust Multi-Object Matching ( http://arxiv.org/abs/2201.04797v1 )

ライセンス: Link先を確認
Yunpeng Shi, Shaohan Li, Tyler Maunu and Gilad Lerman(参考訳) 動作パイプラインから構造中の劣化キーポイントマッチングを頑健にフィルタリングする新しい統計法を開発した。 統計は、キーポイントマッチングのグラフのクラスタ構造内で生じる一貫性の制約に基づいている。 統計は、破損したマッチや不正なマッチよりも小さな値を与えるように設計されている。 これらの新しい統計は、キーポイントをフィルタリングする反復的な再重み付けスキームと組み合わせられ、モーションパイプラインから任意の標準構造に供給される。 このフィルタリング手法は、スパース行列の乗算のみを必要とするため、効率的に実装し、大量のデータセットに拡張することができる。 本手法がモーションデータセットから合成および実構造に与える影響を実証し,これらの課題において最先端の精度と速度を実現することを示す。

We develop new statistics for robustly filtering corrupted keypoint matches in the structure from motion pipeline. The statistics are based on consistency constraints that arise within the clustered structure of the graph of keypoint matches. The statistics are designed to give smaller values to corrupted matches and than uncorrupted matches. These new statistics are combined with an iterative reweighting scheme to filter keypoints, which can then be fed into any standard structure from motion pipeline. This filtering method can be efficiently implemented and scaled to massive datasets as it only requires sparse matrix multiplication. We demonstrate the efficacy of this method on synthetic and real structure from motion datasets and show that it achieves state-of-the-art accuracy and speed in these tasks.
翻訳日:2022-01-14 13:56:19 公開日:2022-01-13
# RealGait: 人物再識別のための歩行認識

RealGait: Gait Recognition for Person Re-Identification ( http://arxiv.org/abs/2201.04806v1 )

ライセンス: Link先を確認
Shaoxiong Zhang, Yunhong Wang, Tianrui Chai, Annan Li, Anil K. Jain(参考訳) 人間の歩行は、遠くで隠蔽的に取得できるユニークな生体認証であると考えられている。 しかし、制御されたシナリオでキャプチャされる既存のパブリックドメイン歩行データセットに基づいてトレーニングされたモデルは、現実の制約のない歩行データに適用した場合、劇的にパフォーマンスが低下する。 一方、ビデオパーソン再識別技術は、大規模公開データセットにおいて有望な性能を達成した。 衣料品の特徴の多様性を考えると、衣料キューは一般の認識には信頼できない。 したがって、なぜ最先端の人物再特定手法が機能するのかは、実際には明らかではない。 本稿では,既存の映像人物の再識別課題からシルエットを抽出し,非拘束で歩く1,404人からなる新たな歩行データセットを構築する。 このデータセットに基づいて、歩行認識と人物再同定の一貫性と比較研究を行うことができる。 制御シナリオで収集したデータに基づく現在の歩行認識手法が実際の監視シナリオに不適切であることを示す実験結果から,RealGaitと呼ばれる新しい歩行認識手法を提案する。 以上の結果から、実際の監視シナリオにおける歩行による認識は実現可能であり、その基盤となる歩行パターンが、実際にビデオの人物認識が機能する真の理由である可能性が示唆された。

Human gait is considered a unique biometric identifier which can be acquired in a covert manner at a distance. However, models trained on existing public domain gait datasets which are captured in controlled scenarios lead to drastic performance decline when applied to real-world unconstrained gait data. On the other hand, video person re-identification techniques have achieved promising performance on large-scale publicly available datasets. Given the diversity of clothing characteristics, clothing cue is not reliable for person recognition in general. So, it is actually not clear why the state-of-the-art person re-identification methods work as well as they do. In this paper, we construct a new gait dataset by extracting silhouettes from an existing video person re-identification challenge which consists of 1,404 persons walking in an unconstrained manner. Based on this dataset, a consistent and comparative study between gait recognition and person re-identification can be carried out. Given that our experimental results show that current gait recognition approaches designed under data collected in controlled scenarios are inappropriate for real surveillance scenarios, we propose a novel gait recognition method, called RealGait. Our results suggest that recognizing people by their gait in real surveillance scenarios is feasible and the underlying gait pattern is probably the true reason why video person re-idenfification works in practice.
翻訳日:2022-01-14 13:56:05 公開日:2022-01-13
# snapshotnet: 最小ラベルデータを用いたポイントクラウドデータセグメンテーションのための自己教師付き特徴学習

SnapshotNet: Self-supervised Feature Learning for Point Cloud Data Segmentation Using Minimal Labeled Data ( http://arxiv.org/abs/2201.04833v1 )

ライセンス: Link先を確認
Xingye Li, Ling Zhang, Zhigang Zhu(参考訳) 手動でアノテートする複雑なシーンポイントクラウドデータセットは、コストもエラーも高い。 ラベル付きデータへの依存を軽減するため、SnapshotNetと呼ばれる新しいモデルが、複雑な3Dシーンの未ラベルのクラウドデータを直接扱うセルフ教師付き機能学習アプローチとして提案されている。 SnapshotNetパイプラインには3つのステージがある。 スナップショットキャプチャの段階では、ポイントのローカルコレクションとして定義されるスナップショットが、ポイントクラウドシーンからサンプリングされる。 スナップショットは、実シーンから直接キャプチャされたローカル3Dスキャンのビュー、あるいは大規模な3Dポイントクラウドデータセットからの仮想ビューである。 スナップショットは異なるサンプリングレートまたはビューフィールド(fov)でサンプリングすることもでき、シーンからスケール情報をキャプチャできる。 特徴学習の段階では、2つのスナップショットが同一のオブジェクトから、同一のFOV内で、または異なるFOV間で、認識するために、マルチFOVコントラストと呼ばれる新しいプレテキストタスクが提案される。 スナップショットは、パートとスケールのコントラストを持つコントラスト学習ステップと、より高いレベルのセマンティック特徴を抽出するスナップショットクラスタリングステップの2つの自己教師型学習ステップを経る。 次に、まず、ラベル付きスナップショットのごく一部で学習した特徴に対して標準SVM分類器をトレーニングすることにより、弱教師付きセグメンテーションステージを実装する。 トレーニングされたSVMは入力スナップショットのラベルを予測するために使用され、予測されたラベルは投票手順を使用してシーン全体のセマンティックセグメンテーションのためのポイントワイズラベルに変換される。 実験はSemantic3Dデータセットを用いて行われ、提案手法はラベルなしで複雑なシーンデータのスナップショットから効果的な特徴を学習できることを示した。 さらに,提案手法は,弱教師付きポイントクラウドセマンティクスセグメンテーションにおけるsoa手法と比較した場合の利点を示した。

Manually annotating complex scene point cloud datasets is both costly and error-prone. To reduce the reliance on labeled data, a new model called SnapshotNet is proposed as a self-supervised feature learning approach, which directly works on the unlabeled point cloud data of a complex 3D scene. The SnapshotNet pipeline includes three stages. In the snapshot capturing stage, snapshots, which are defined as local collections of points, are sampled from the point cloud scene. A snapshot could be a view of a local 3D scan directly captured from the real scene, or a virtual view of such from a large 3D point cloud dataset. Snapshots could also be sampled at different sampling rates or fields of view (FOVs), thus multi-FOV snapshots, to capture scale information from the scene. In the feature learning stage, a new pre-text task called multi-FOV contrasting is proposed to recognize whether two snapshots are from the same object or not, within the same FOV or across different FOVs. Snapshots go through two self-supervised learning steps: the contrastive learning step with both part and scale contrasting, followed by a snapshot clustering step to extract higher level semantic features. Then a weakly-supervised segmentation stage is implemented by first training a standard SVM classifier on the learned features with a small fraction of labeled snapshots. The trained SVM is used to predict labels for input snapshots and predicted labels are converted into point-wise label assignments for semantic segmentation of the entire scene using a voting procedure. The experiments are conducted on the Semantic3D dataset and the results have shown that the proposed method is capable of learning effective features from snapshots of complex scene data without any labels. Moreover, the proposed method has shown advantages when comparing to the SOA method on weakly-supervised point cloud semantic segmentation.
翻訳日:2022-01-14 13:54:40 公開日:2022-01-13
# BridgeFormer: 複数質問によるビデオテキスト検索

BridgeFormer: Bridging Video-text Retrieval with Multiple Choice Questions ( http://arxiv.org/abs/2201.04850v1 )

ライセンス: Link先を確認
Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan, Xiaohu Qie and Ping Luo(参考訳) 近年,転送可能な映像テキスト表現を学習するための事前学習が注目されている。 従来の支配的な著作は主に効率的な検索のために2つの別個のエンコーダを採用するが、ビデオとテキスト間の局所的な関連は無視する。 別の研究の行では、共同エンコーダを使ってテキストとビデオの対話を行うが、各テキストとビデオのペアをモデルに入力する必要があるため、効率が低下する。 本研究では,マルチセレクション質問(mcq)と呼ばれる新しいプリテキストタスクによる検索に高い効率を維持しつつ,詳細なビデオテキスト間インタラクションを可能にし,パラメトリックモジュールであるbridgeformerを,ビデオ機能を利用してテキスト機能によって構築された"質問"に答えるように訓練する。 具体的には、テキスト(名詞と動詞)の豊富な意味論を利用して、ビデオエンコーダがより地域的内容と時間的ダイナミクスを捉えるように訓練できる質問を構築する。 質問と回答の形式では、ローカルなビデオテキスト機能間のセマンティックな関連を適切に確立することができる。 BridgeFormerは、下流の検索のために削除でき、2つのエンコーダだけで効率的で柔軟なモデルをレンダリングできる。 提案手法は,ハウト100M(100万ビデオ)を含む実験的なセットアップ(ゼロショット,ファインチューン)の異なる5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法より優れている。 我々はさらに,ビデオからテキストへの検索としてキャスティングできるゼロショット動作認識を行い,そのアプローチは,そのアプローチを大きく上回っている。 追加の利点として,単一モダリティ下流タスク,例えば線形評価による動作認識において,より短い事前学習ビデオによる競合結果が得られる。

Pre-training a model to learn transferable video-text representation for retrieval has attracted a lot of attention in recent years. Previous dominant works mainly adopt two separate encoders for efficient retrieval, but ignore local associations between videos and texts. Another line of research uses a joint encoder to interact video with texts, but results in low efficiency since each text-video pair needs to be fed into the model. In this work, we enable fine-grained video-text interactions while maintaining high efficiency for retrieval via a novel pretext task, dubbed as Multiple Choice Questions (MCQ), where a parametric module BridgeFormer is trained to answer the "questions" constructed by the text features via resorting to the video features. Specifically, we exploit the rich semantics of text (i.e., nouns and verbs) to build questions, with which the video encoder can be trained to capture more regional content and temporal dynamics. In the form of questions and answers, the semantic associations between local video-text features can be properly established. BridgeFormer is able to be removed for downstream retrieval, rendering an efficient and flexible model with only two encoders. Our method outperforms state-of-the-art methods on the popular text-to-video retrieval task in five datasets with different experimental setups (i.e., zero-shot and fine-tune), including HowTo100M (one million videos). We further conduct zero-shot action recognition, which can be cast as video-to-text retrieval, and our approach also significantly surpasses its counterparts. As an additional benefit, our method achieves competitive results with much shorter pre-training videos on single-modality downstream tasks, e.g., action recognition with linear evaluation.
翻訳日:2022-01-14 13:54:04 公開日:2022-01-13
# MetaDance: 時間認識メタ学習によるビデオ再ターゲティング

MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware Meta-learning ( http://arxiv.org/abs/2201.04851v1 )

ライセンス: Link先を確認
Yuying Ge, Yibing Song, Ruimao Zhang and Ping Luo(参考訳) Dancing video retargetingは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。 従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。 しかし、訓練されたモデルは同一人物のビデオしか生成できない。 この制限に対処するため、近年の作業では、数フレームのフレームを利用して、見えない人のビデオを合成することを学ぶ、数ショットのダンスビデオリターゲティングに取り組んでいる。 実際には、人の数フレームを考慮に入れれば、これらの作品は単に時間的相関のない個々の画像の集合と見なすだけで、視覚的品質の低い時間的非コヒーレントなダンスビデオを生成する。 本研究では,人物の出現パターンと時間的ダイナミクスを抽出し,各動きが連続する2つのフレームを含む一連のダンス動作として,人物のいくつかのフレームをモデル化する。 本稿では、時間認識型メタラーニングを利用して、ダンスの動きを合成することで、モデルの初期化を最適化し、メタ訓練されたモデルは、視覚的品質の向上と、数フレームの未確認者に対する時間的安定性の強化に向けて効率的に調整できるメタダンスを提案する。 広範囲な評価により,本手法の優位性を示した。

Dancing video retargeting aims to synthesize a video that transfers the dance movements from a source video to a target person. Previous work need collect a several-minute-long video of a target person with thousands of frames to train a personalized model. However, the trained model can only generate videos of the same person. To address the limitations, recent work tackled few-shot dancing video retargeting, which learns to synthesize videos of unseen persons by leveraging a few frames of them. In practice, given a few frames of a person, these work simply regarded them as a batch of individual images without temporal correlations, thus generating temporally incoherent dancing videos of low visual quality. In this work, we model a few frames of a person as a series of dancing moves, where each move contains two consecutive frames, to extract the appearance patterns and the temporal dynamics of this person. We propose MetaDance, which utilizes temporal-aware meta-learning to optimize the initialization of a model through the synthesis of dancing moves, such that the meta-trained model can be efficiently tuned towards enhanced visual quality and strengthened temporal stability for unseen persons with a few frames. Extensive evaluations show large superiority of our method.
翻訳日:2022-01-14 13:53:29 公開日:2022-01-13
# VoLux-GAN:HDRIリライトを用いた3次元顔合成生成モデル

VoLux-GAN: A Generative Model for 3D Face Synthesis with HDRI Relighting ( http://arxiv.org/abs/2201.04873v1 )

ライセンス: Link先を確認
Feitong Tan, Sean Fanello, Abhimitra Meka, Sergio Orts-Escolano, Danhang Tang, Rohit Pandey, Jonathan Taylor, Ping Tan and Yinda Zhang(参考訳) 提案するVoLux-GANは,3D認識顔を説得力のあるリライトで合成する生成フレームワークである。 本研究の主な貢献は, 所望のHDR環境マップに対して, 3次元線に沿ってアルベド, 拡散, 分光光の寄与を効率よく蓄積できるボリュームHDRI照明法である。 さらに,複数の識別器を用いた画像分解過程の監視の重要性を示す。 特に,単一画像のポートレートライトの最近の進歩を活かし,一貫した幾何,アルベド,拡散,スペキュラ成分を強制するデータ拡張手法を提案する。 複数の実験と他の生成フレームワークとの比較は、我々のモデルがフォトリアリスティックな3d生成モデルへの一歩であることを示す。

We propose VoLux-GAN, a generative framework to synthesize 3D-aware faces with convincing relighting. Our main contribution is a volumetric HDRI relighting method that can efficiently accumulate albedo, diffuse and specular lighting contributions along each 3D ray for any desired HDR environmental map. Additionally, we show the importance of supervising the image decomposition process using multiple discriminators. In particular, we propose a data augmentation technique that leverages recent advances in single image portrait relighting to enforce consistent geometry, albedo, diffuse and specular components. Multiple experiments and comparisons with other generative frameworks show how our model is a step forward towards photorealistic relightable 3D generative models.
翻訳日:2022-01-14 13:53:07 公開日:2022-01-13
# ICCV 2021 Challenge SSLAD-Track3B: トランスフォーマーは継続的な学習者より優れている

Technical Report for ICCV 2021 Challenge SSLAD-Track3B: Transformers Are Better Continual Learners ( http://arxiv.org/abs/2201.04924v1 )

ライセンス: Link先を確認
Duo Li, Guimei Cao, Yunlu Xu, Zhanzhan Cheng and Yi Niu(参考訳) 連続学習におけるSSLAD-Track 3Bチャレンジでは,Continual Learning with Transformer (COLT) の手法を提案する。 畳み込みニューラルネットワークに比べて、トランスフォーマーは壊滅的な忘れに苦しむことがわかりました。 提案手法の主な原理は,変圧器を用いた特徴抽出器に古い知識蒸留と,破滅的忘れを競うための頭部拡大戦略を装備することである。 本稿では,まず,オブジェクト検出のための連続学習のフレームワークについて紹介する。 そして, 解の破滅的忘れ方に対する重要な要素の影響を解析した。 本手法はSSLAD-Track 3Bチャレンジテストセット上で70.78mAPを達成する。

In the SSLAD-Track 3B challenge on continual learning, we propose the method of COntinual Learning with Transformer (COLT). We find that transformers suffer less from catastrophic forgetting compared to convolutional neural network. The major principle of our method is to equip the transformer based feature extractor with old knowledge distillation and head expanding strategies to compete catastrophic forgetting. In this report, we first introduce the overall framework of continual learning for object detection. Then, we analyse the key elements' effect on withstanding catastrophic forgetting in our solution. Our method achieves 70.78 mAP on the SSLAD-Track 3B challenge test set.
翻訳日:2022-01-14 13:52:55 公開日:2022-01-13
# 関心の3次元領域による形状のセマンティック抽象化の学習

Learning Semantic Abstraction of Shape via 3D Region of Interest ( http://arxiv.org/abs/2201.04945v1 )

ライセンス: Link先を確認
Haiyue Fang, Xiaogang Wang, Zheyuan Cai, Yahao Shi, Xun Sun, Shilin Wu, Bin Zhou(参考訳) 本稿では,3次元形状抽象化と意味分析の2つの課題に焦点を当てる。 これは3次元形状の抽象化や意味解析にのみ焦点をあてる現在の手法とは対照的である。 さらに、従来の手法ではインスタンスレベルのセマンティックな結果が得られず、アプリケーションに制限があった。 本稿では,3次元形状の抽象化と意味解析を共同で行う手法を提案する。 提案手法は,まず3次元形状の3次元意味候補領域を複数生成し,これらの候補を用いて意味カテゴリーを直接予測し,深層畳み込みニューラルネットワークを用いて候補領域のパラメータを洗練する。 最後に、予測結果を融合して最終的な意味的抽象化を得るアルゴリズムを設計し、標準の非最大化よりも改善されていることを示す。 実験の結果,最新の結果が得られた。 さらに,この結果がインスタンスレベルの意味部分セグメンテーションや形状マッチングにも容易に適用できることがわかった。

In this paper, we focus on the two tasks of 3D shape abstraction and semantic analysis. This is in contrast to current methods, which focus solely on either 3D shape abstraction or semantic analysis. In addition, previous methods have had difficulty producing instance-level semantic results, which has limited their application. We present a novel method for the joint estimation of a 3D shape abstraction and semantic analysis. Our approach first generates a number of 3D semantic candidate regions for a 3D shape; we then employ these candidates to directly predict the semantic categories and refine the parameters of the candidate regions simultaneously using a deep convolutional neural network. Finally, we design an algorithm to fuse the predicted results and obtain the final semantic abstraction, which is shown to be an improvement over a standard non maximum suppression. Experimental results demonstrate that our approach can produce state-of-the-art results. Moreover, we also find that our results can be easily applied to instance-level semantic part segmentation and shape matching.
翻訳日:2022-01-14 13:52:44 公開日:2022-01-13
# マルチグラニュラリティアソシエーション学習フレームワークによる細粒度画像検索

Multi-granularity Association Learning Framework for on-the-fly Fine-Grained Sketch-based Image Retrieval ( http://arxiv.org/abs/2201.05007v1 )

ライセンス: Link先を確認
Dawei Dai, Xiaoyu Tang, Shuyin Xia, Yingge Liu, Guoyin Wang, Zizhong Chen(参考訳) きめ細かいスケッチベース画像検索(FG-SBIR)は、与えられたクエリスケッチで特定の写真を取得する問題に対処する。 しかし、ほとんどの人には完全なスケッチを描くのが難しいため、適用範囲は限られており、描画には時間がかかることが多い。 本研究では,FG-SBIR (Bhunia et al. 2020) と命名された,最小ストローク数(不完全スケッチ)で対象写真を検索し,描画開始と同時に各ストロークで検索を開始することを目的とする。 各写真のスケッチ描画エピソードにおいて,これらの不完全なスケッチには有意な相関があると考えられる。 写真と不完全スケッチ間で共有されるより効率的な共同埋め込み空間を学習するために,不完全スケッチの埋め込み空間をさらに最適化する多粒度関連学習フレームワークを提案する。 具体的には、スケッチの完全性に基づいて、完全なスケッチエピソードをいくつかのステージに分割し、それぞれが単純な線形マッピング層に対応する。 さらに,現在のスケッチのベクトル空間表現をガイドし,後のスケッチを近似し,スケッチの検索性能を少ないストロークで実現し,より多くのストロークでスケッチに接近する。 実験では,より現実的な課題を提案し,公開きめ細粒度スケッチ検索データセットにおいて,最先端手法や代替ベースラインよりも優れた早期検索効率を実現した。

Fine-grained sketch-based image retrieval (FG-SBIR) addresses the problem of retrieving a particular photo in a given query sketch. However, its widespread applicability is limited by the fact that it is difficult to draw a complete sketch for most people, and the drawing process often takes time. In this study, we aim to retrieve the target photo with the least number of strokes possible (incomplete sketch), named on-the-fly FG-SBIR (Bhunia et al. 2020), which starts retrieving at each stroke as soon as the drawing begins. We consider that there is a significant correlation among these incomplete sketches in the sketch drawing episode of each photo. To learn more efficient joint embedding space shared between the photo and its incomplete sketches, we propose a multi-granularity association learning framework that further optimizes the embedding space of all incomplete sketches. Specifically, based on the integrity of the sketch, we can divide a complete sketch episode into several stages, each of which corresponds to a simple linear mapping layer. Moreover, our framework guides the vector space representation of the current sketch to approximate that of its later sketches to realize the retrieval performance of the sketch with fewer strokes to approach that of the sketch with more strokes. In the experiments, we proposed more realistic challenges, and our method achieved superior early retrieval efficiency over the state-of-the-art methods and alternative baselines on two publicly available fine-grained sketch retrieval datasets.
翻訳日:2022-01-14 13:52:27 公開日:2022-01-13
# TransVOD:時空間変換器を用いたエンドツーエンドビデオオブジェクト検出

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2201.05047v1 )

ライセンス: Link先を確認
Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao(参考訳) 検出変換器 (DETR) と変形可能なDETR (Deformable DETR) は、従来の複雑な手作り検出器として優れた性能を示しながら、物体検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,空間時間変換器アーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。 本稿の第一の目的はVODのパイプラインの合理化であり、光学フローモデルやリレーショナルネットワークなどの機能集約のための手作り部品を効果的に除去することである。 また,DeTRにおけるオブジェクトクエリ設計の利点から,Seq-NMSのような複雑な後処理手法は不要である。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約する時間的トランスフォーマティブを提案する。 時間変換器は、オブジェクトクエリをフューズするためのTQE(Temporal Query Encoder)と、現在のフレーム検出結果を得るためにTDTD(Temporal Deformable Transformer Decoder)の2つのコンポーネントで構成される。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 次に、TransVOD++とTransVOD Liteの2つの改良版を示す。 前者はオブジェクトレベルの情報を動的畳み込みによってオブジェクトクエリに融合し、後者はビデオクリップ全体を出力としてモデル化して推論時間を短縮する。 実験部では,3つのモデルの詳細な分析を行った。 特に,提案した TransVOD++ では,90.0% mAP の ImageNet VID の精度において,新たな最先端記録が設定されている。 提案したTransVOD Liteは、単一のV100 GPUデバイス上で約30FPSで動作する間、83.7%のmAPで最高速度と精度のトレードオフを実現する。 コードとモデルはさらなる研究のために利用できる。

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0% mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7% mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
翻訳日:2022-01-14 13:52:01 公開日:2022-01-13
# STEdge:多層指導と正規化による自己学習エッジ検出

STEdge: Self-training Edge Detection with Multi-layer Teaching and Regularization ( http://arxiv.org/abs/2201.05121v1 )

ライセンス: Link先を確認
Yunfan Ye, Renjiao Yi, Zhiping Cai, Kai Xu(参考訳) 学習に基づくエッジ検出は,手作業で取得するのが面倒なピクセル単位のアノテーションで強く管理されている。 本研究では,大規模非ラベル画像データセットの未処理富を活用して,自己学習エッジ検出の問題点について検討する。 我々は多層正規化と自己学習による自己教師型フレームワークを設計する。 特に、入力画像とその摂動対応に対して一貫性を持たせるために、複数のレイヤの出力を強制する一貫性規則化を課す。 l0-smoothingを"摂動(perturbation)"として採用し,自己教師付き学習におけるクラスタ仮定に従えば,高度境界に接するエッジ予測を奨励する。 一方、ネットワークは、Cannyエッジで初期化され、トレーニングが進むにつれてネットワークによって反復的に洗練される擬似ラベルによって、多層監視によってトレーニングされる。 正規化と自己学習は精度とリコールのバランスが良く、教師付きメソッドよりも大幅にパフォーマンスが向上し、ターゲットデータセットに軽量な改善が加えられた。 さらに,本手法は強力なデータセット間一般化性を示す。 例えば、最先端の手法と比較して、未確認のBIPEDデータセットでテストすると、ODSが4.8%改善され、OISが5.8%改善された。

Learning-based edge detection has hereunto been strongly supervised with pixel-wise annotations which are tedious to obtain manually. We study the problem of self-training edge detection, leveraging the untapped wealth of large-scale unlabeled image datasets. We design a self-supervised framework with multi-layer regularization and self-teaching. In particular, we impose a consistency regularization which enforces the outputs from each of the multiple layers to be consistent for the input image and its perturbed counterpart. We adopt L0-smoothing as the 'perturbation' to encourage edge prediction lying on salient boundaries following the cluster assumption in self-supervised learning. Meanwhile, the network is trained with multi-layer supervision by pseudo labels which are initialized with Canny edges and then iteratively refined by the network as the training proceeds. The regularization and self-teaching together attain a good balance of precision and recall, leading to a significant performance boost over supervised methods, with lightweight refinement on the target dataset. Furthermore, our method demonstrates strong cross-dataset generality. For example, it attains 4.8% improvement for ODS and 5.8% for OIS when tested on the unseen BIPED dataset, compared to the state-of-the-art methods.
翻訳日:2022-01-14 13:51:29 公開日:2022-01-13
# (参考訳) 自己教師型ResNetの限界を押し上げる:ImageNetのラベルなしで教師型学習より優れているか? [全文訳有]

Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet? ( http://arxiv.org/abs/2201.05119v1 )

ライセンス: CC BY 4.0
Nenad Tomasev, Ioana Bica, Brian McWilliams, Lars Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic(参考訳) 残差ネットワークを用いた表現学習における自己教師あり手法による最近の進歩にもかかわらず、imagenet分類ベンチマークでは教師あり学習を過小評価しており、パフォーマンスクリティカルな設定での適用性は制限されている。 mitrovic et al., 2021 による事前の理論的な知見に基づいて, 適切に構築されたデータビューの多様な集合に対する明示的な不変損失と対比目的を組み合わせた relicv2 を提案する。 relicv2は、resnet50アーキテクチャによる線形評価とより大きなresnetモデルによる80.6%を用いて、imagenetの77.1%のtop-1分類精度を達成している。 最も注目すべきは、Relicv2は、標準のResNetアーキテクチャを使って、教師付きベースラインをそのまま比較する最初の表現学習手法である。 最後に、ResNetエンコーダを使っているにもかかわらず、Relicv2は最先端の自己監督型視覚変換器と同等であることを示す。

Despite recent progress made by self-supervised methods in representation learning with residual networks, they still underperform supervised learning on the ImageNet classification benchmark, limiting their applicability in performance-critical settings. Building on prior theoretical insights from Mitrovic et al., 2021, we propose ReLICv2 which combines an explicit invariance loss with a contrastive objective over a varied set of appropriately constructed data views. ReLICv2 achieves 77.1% top-1 classification accuracy on ImageNet using linear evaluation with a ResNet50 architecture and 80.6% with larger ResNet models, outperforming previous state-of-the-art self-supervised approaches by a wide margin. Most notably, ReLICv2 is the first representation learning method to consistently outperform the supervised baseline in a like-for-like comparison using a range of standard ResNet architectures. Finally we show that despite using ResNet encoders, ReLICv2 is comparable to state-of-the-art self-supervised vision transformers.
翻訳日:2022-01-14 13:50:26 公開日:2022-01-13
# 自動エラー分析に向けて:エラーを識別する学習

Towards Automated Error Analysis: Learning to Characterize Errors ( http://arxiv.org/abs/2201.05017v1 )

ライセンス: Link先を確認
Tong Gao, Shivang Singh, Raymond J. Mooney(参考訳) システムのエラーパターンを特徴づけることによって、研究者たちは、その正確性と堅牢性を高めることに集中することができる。 本研究では,2つのNLPシステムの理解と改善を支援するために,システムのエラーの種類を特徴付ける解釈可能なルールを自動的に学習する「メタラーニング」手法を提案する。 検証データのエラーケースを収集し、これらのサンプルを記述するメタ特徴を抽出し、最後にこれらの特徴を使ってエラーを特徴付けるルールを学習する。 我々はVilBERT,Visual Question Answering,RoBERTa,Co mmon Sense Question Answeringにアプローチを適用した。 システムは解釈可能なルールを学習し、システムが与えられたタスクで行うシステム的エラーに対する洞察を提供する。 これらの洞察を使って、ループを閉じて、システムの性能を適度に改善することもできます。

Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
翻訳日:2022-01-14 13:09:24 公開日:2022-01-13
# 深層強化学習を用いた弱教師付きシーンテキスト検出

Weakly Supervised Scene Text Detection using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.04866v1 )

ライセンス: Link先を確認
Emanuel Metzenthin, Christian Bartz, Christoph Meinel(参考訳) シーンテキスト検出の困難な分野は、複雑なデータアノテーションを必要とする。 弱い監督のような技術は、必要なデータ量を減らすことができる。 本稿では,強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。 rlエージェントが受け取る報酬は、接地ラベルから推測されるのではなく、ニューラルネットワークによって推定される。 まず,テキスト検出に対する既存の教師付きrlアプローチをいくつかのトレーニング最適化により強化し,回帰型アルゴリズムの性能ギャップを解消した。 次に,提案システムを用いて実世界のデータに対する弱教師付き学習を行う。 その結果,教師の少ない環境でのトレーニングは可能であった。 しかし, ラベル付き合成データと無記名実世界データを組み合わせた場合, 半教師付き設定でモデルを用いることで, 最良の結果が得られることがわかった。

The challenging field of scene text detection requires complex data annotation, which is time-consuming and expensive. Techniques, such as weak supervision, can reduce the amount of data needed. In this paper we propose a weak supervision method for scene text detection, which makes use of reinforcement learning (RL). The reward received by the RL agent is estimated by a neural network, instead of being inferred from ground-truth labels. First, we enhance an existing supervised RL approach to text detection with several training optimizations, allowing us to close the performance gap to regression-based algorithms. We then use our proposed system in a weakly- and semi-supervised training on real-world data. Our results show that training in a weakly supervised setting is feasible. However, we find that using our model in a semi-supervised setting , e.g. when combining labeled synthetic data with unannotated real-world data, produces the best results.
翻訳日:2022-01-14 13:09:08 公開日:2022-01-13
# ニューラルネットワークのためのスパース接続学習

Automatic Sparse Connectivity Learning for Neural Networks ( http://arxiv.org/abs/2201.05020v1 )

ライセンス: Link先を確認
Zhimin Tang, Linkai Luo, Bike Xie, Yiyu Zhu, Rujie Zhao, Lvqing Bi, Chao Lu(参考訳) スパースニューラルネットワークは通常、多くのゼロウェイトを含むため、ネットワーク性能を低下させることなく、これらの不要なネットワーク接続を除去することができる。 したがって、よく設計されたスパースニューラルネットワークは、FLOPや計算資源を大幅に削減する可能性がある。 本研究では,新しい自動刈り取り手法であるスパース接続学習(scl)を提案する。 具体的には、重みを訓練可能な重み変数とバイナリマスクの要素別乗算として再パラメータ化する。 したがって、ネットワーク接続は、単位ステップ関数によって変調されるバイナリマスクによって完全に記述される。 ネットワークプルーニングにストレートスルー推定器(STE)を用いるという基本原理を理論的に証明する。 この原理は、steのプロキシ勾配は正であり、マスク変数が最小値で収束することを保証すべきである。 Leaky ReLU、Softplus、Identity STEは、この原則を満たすことができるが、離散マスク緩和のためにSCLにIdentity STEを採用することを提案する。 異なる特徴のマスク勾配は非常に不均衡であるため、各特徴のマスク勾配を正規化してマスク変動訓練を最適化することを提案する。 スパースマスクを自動的にトレーニングするために、目的関数に正規化項としてネットワーク接続の総数を含める。 SCLは、ネットワーク層の設計者が定義したプルーニング基準やハイパーパラメータを必要としないため、ネットワークはより広い仮説空間で探索され、最高の性能でスパース接続を実現する。 SCLは、既存の自動プルーニング手法の限界を克服する。 実験の結果,SCLは様々なベースラインネットワーク構造に対する重要なネットワーク接続を自動的に学習し,選択することができることがわかった。 SCLによって訓練された深層学習モデルは、SOTAの人間設計および自動プルーニング手法を、疎度、精度、FLOPs削減で上回る。

Since sparse neural networks usually contain many zero weights, these unnecessary network connections can potentially be eliminated without degrading network performance. Therefore, well-designed sparse neural networks have the potential to significantly reduce FLOPs and computational resources. In this work, we propose a new automatic pruning method - Sparse Connectivity Learning (SCL). Specifically, a weight is re-parameterized as an element-wise multiplication of a trainable weight variable and a binary mask. Thus, network connectivity is fully described by the binary mask, which is modulated by a unit step function. We theoretically prove the fundamental principle of using a straight-through estimator (STE) for network pruning. This principle is that the proxy gradients of STE should be positive, ensuring that mask variables converge at their minima. After finding Leaky ReLU, Softplus, and Identity STEs can satisfy this principle, we propose to adopt Identity STE in SCL for discrete mask relaxation. We find that mask gradients of different features are very unbalanced, hence, we propose to normalize mask gradients of each feature to optimize mask variable training. In order to automatically train sparse masks, we include the total number of network connections as a regularization term in our objective function. As SCL does not require pruning criteria or hyper-parameters defined by designers for network layers, the network is explored in a larger hypothesis space to achieve optimized sparse connectivity for the best performance. SCL overcomes the limitations of existing automatic pruning methods. Experimental results demonstrate that SCL can automatically learn and select important network connections for various baseline network structures. Deep learning models trained by SCL outperform the SOTA human-designed and automatic pruning methods in sparsity, accuracy, and FLOPs reduction.
翻訳日:2022-01-14 13:08:29 公開日:2022-01-13
# Tree-RNNとTypedによる文対の意味関係の認識

Recognizing semantic relation in sentence pairs using Tree-RNNs and Typed dependencies ( http://arxiv.org/abs/2201.04810v1 )

ライセンス: Link先を確認
Jeena Kleenankandy, K A Abdul Nazeer(参考訳) 係り受け木に基づく再帰的ニューラルネットワーク(tree-rnn)は文の意味のモデル化においてユビキタスである。 しかし、同じ単語と構文で意味的に異なる文を認識することは、Tree-RNNにとって依然として課題である。 本研究では,依存性解析で同定された文法的関係型を用いた依存性ツリーRNN(DT-RNN)の改良を提案する。 SICK(Sentence Involving Compositional Knowledge)データセットを用いた文対における意味的関連性評価(SRS)とテキスト・エンターメント(RTE)の認識実験を行った。 このモデルはdt-rnnモデルよりもrteタスクの分類精度が2%向上した。 その結果,pearson と spearman の相関尺度は標準の dt-rnn よりも高いことがわかった。

Recursive neural networks (Tree-RNNs) based on dependency trees are ubiquitous in modeling sentence meanings as they effectively capture semantic relationships between non-neighborhood words. However, recognizing semantically dissimilar sentences with the same words and syntax is still a challenge to Tree-RNNs. This work proposes an improvement to Dependency Tree-RNN (DT-RNN) using the grammatical relationship type identified in the dependency parse. Our experiments on semantic relatedness scoring (SRS) and recognizing textual entailment (RTE) in sentence pairs using SICK (Sentence Involving Compositional Knowledge) dataset show encouraging results. The model achieved a 2% improvement in classification accuracy for the RTE task over the DT-RNN model. The results show that Pearson's and Spearman's correlation measures between the model's predicted similarity scores and human ratings are higher than those of standard DT-RNNs.
翻訳日:2022-01-14 13:07:45 公開日:2022-01-13
# Aspect-based Sentiment Analysisのための多視点表現学習に向けた知識グラフ強化ネットワーク

Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2201.04831v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Hua Jin, Dacheng Tao(参考訳) アスペクトベースの感情分析(ABSA)は、感情分析のきめ細かいタスクである。 長い複雑な文をよりよく理解し、正確なアスペクト固有情報を得るためには、一般的に言語的および常識的な知識が必要である。 しかし、ほとんどの手法は、例えばグラフノードを直接検索するなど、外部知識を組み込むための複雑で非効率なアプローチを採用している。 また,外部知識と言語情報の相補性は十分に研究されていない。 そこで本研究では,外部知識を構文情報や文脈情報に効果的に統合することを目的とした知識グラフ拡張ネットワーク(KGAN)を提案する。 特に、KGANは、複数の異なる視点、すなわち文脈、構文、知識に基づく感情の特徴表現をキャプチャする。 まず、KGANはコンテキスト表現と構文表現を並列に学習し、意味的特徴を完全に抽出する。 そして、KGANは、アテンション機構を介してアスペクト固有の知識表現がさらに得られるように、知識グラフを埋め込み空間に統合する。 最後に,これらの多視点表現を局所からグローバルに補完する階層的融合モジュールを提案する。 3つのABSAベンチマークの大規模な実験は、我々のKGANの有効性と堅牢性を示している。 特に、RoBERTaの事前訓練モデルの助けを借りて、KGANは最先端のパフォーマンスの新たな記録を達成している。

Aspect-based sentiment analysis (ABSA) is a fine-grained task of sentiment analysis. To better comprehend long complicated sentences and obtain accurate aspect-specific information, linguistic and commonsense knowledge are generally required in this task. However, most methods employ complicated and inefficient approaches to incorporate external knowledge, e.g., directly searching the graph nodes. Additionally, the complementarity between external knowledge and linguistic information has not been thoroughly studied. To this end, we propose a knowledge graph augmented network (KGAN), which aims to effectively incorporate external knowledge with explicitly syntactic and contextual information. In particular, KGAN captures the sentiment feature representations from multiple different perspectives, i.e., context-, syntax- and knowledge-based. First, KGAN learns the contextual and syntactic representations in parallel to fully extract the semantic features. Then, KGAN integrates the knowledge graphs into the embedding space, based on which the aspect-specific knowledge representations are further obtained via an attention mechanism. Last, we propose a hierarchical fusion module to complement these multiview representations in a local-to-global manner. Extensive experiments on three popular ABSA benchmarks demonstrate the effectiveness and robustness of our KGAN. Notably, with the help of the pretrained model of RoBERTa, KGAN achieves a new record of state-of-the-art performance.
翻訳日:2022-01-14 13:07:27 公開日:2022-01-13
# LP-BERT:リンク予測のためのマルチタスク事前学習知識グラフBERT

LP-BERT: Multi-task Pre-training Knowledge Graph BERT for Link Prediction ( http://arxiv.org/abs/2201.04843v1 )

ライセンス: Link先を確認
Da Li, Ming Yi, Yukai He(参考訳) リンク予測は、多くの人工知能タスクにとって重要なリソースである知識グラフにおいて重要な役割を果たすが、不完全性によって制限されることが多い。 本稿では,リンク予測のための知識グラフBERTを提案する。LP-BERTは,マルチタスク事前学習と知識グラフ微調整の2つの訓練段階を含む。 事前学習戦略は、文脈コーパスの知識を学ぶためにマスク言語モデル(mlm)を使用するだけでなく、意味に基づくエンティティと関係要素を予測してトリプルから関係情報を学習できるマスクエンティティモデル(mem)とマスク関係モデル(mrm)を導入する。 構造化三重関係情報を非構造化意味情報に変換することができ、文脈コーパス情報とともに事前学習モデルに統合することができる。 比較学習に触発された微調整フェーズでは,サンプルバッチにおける三重型負サンプリングを行い,トレーニング時間をほぼ変わらずに負サンプリングの割合を大きく増加させた。 さらに,試料の多様性をさらに高めるために,三重項の逆関係に基づくデータ拡張法を提案する。 我々はWN18RRデータセットとUMLSデータセットの最先端結果、特にHits@10インジケータを以前のWN18RRデータセットの最先端結果から5倍改善した。

Link prediction plays an significant role in knowledge graph, which is an important resource for many artificial intelligence tasks, but it is often limited by incompleteness. In this paper, we propose knowledge graph BERT for link prediction, named LP-BERT, which contains two training stages: multi-task pre-training and knowledge graph fine-tuning. The pre-training strategy not only uses Mask Language Model (MLM) to learn the knowledge of context corpus, but also introduces Mask Entity Model (MEM) and Mask Relation Model (MRM), which can learn the relationship information from triples by predicting semantic based entity and relation elements. Structured triple relation information can be transformed into unstructured semantic information, which can be integrated into the pre-training model together with context corpus information. In the fine-tuning phase, inspired by contrastive learning, we carry out a triple-style negative sampling in sample batch, which greatly increased the proportion of negative sampling while keeping the training time almost unchanged. Furthermore, we propose a data augmentation method based on the inverse relationship of triples to further increase the sample diversity. We achieve state-of-the-art results on WN18RR and UMLS datasets, especially the Hits@10 indicator improved by 5\% from the previous state-of-the-art result on WN18RR dataset.
翻訳日:2022-01-14 13:07:07 公開日:2022-01-13
# S$^2$FPR: 自己監督された粗粒から細いピラミッドランク付けによる群衆カウント

S$^2$FPR: Crowd Counting via Self-Supervised Coarse to Fine Feature Pyramid Ranking ( http://arxiv.org/abs/2201.04819v1 )

ライセンス: Link先を確認
Jiaqi Gao, Zhizhong Huang, Yiming Lei, James Z. Wang, Fei-Yue Wang, Junping Zhang(参考訳) 従来のクラウドカウント手法では,フル教師付き学習フレームワークを用いて,シーンイメージと群衆密度マップのマッピングを学習する。 このような完全教師付きトレーニング設定の状況下では、高額かつ時間を要する画素レベルのアノテーションが、監督として密度マップを生成するために必要である。 コストラベリングを減らす方法の1つは、ラベルなし画像の自己構造情報と内部関係を利用することである。 これらの関係や構造情報を元の画像レベルから利用する従来の手法とは異なり、より豊富な関係や構造情報を抽出できるため、潜在特徴空間からの自己関係を探索する。 具体的には,構造情報を抽出し,潜在空間における粗視から細かなピラミッド特徴の部分順序を学習し,無ラベル画像を用いた群衆数を向上できるs$^2$fprを提案する。 さらに、トレーニング用に4000枚の画像を含む新しい未ラベルのクラウドカウントデータセット(FUDAN-UCC)を収集する。 1つの副産物は、提案するs$^2$fpr法が未ラベル画像間の潜在空間における多数の部分順序を活用し、モデル表現能力を強化し、群衆カウントタスクの推定誤差を低減できることである。 UCF-QNRF,ShanghaiTec h PartA,PartB,UCF-CC-5 0の4つのベンチマークデータセットに対する大規模な実験により,従来の半教師付き手法と比較して,本手法の有効性が示された。 ソースコードとデータセットはhttps://github.com/b ridgeqiqi/s2fprで入手できる。

Most conventional crowd counting methods utilize a fully-supervised learning framework to learn a mapping between scene images and crowd density maps. Under the circumstances of such fully-supervised training settings, a large quantity of expensive and time-consuming pixel-level annotations are required to generate density maps as the supervision. One way to reduce costly labeling is to exploit self-structural information and inner-relations among unlabeled images. Unlike the previous methods utilizing these relations and structural information from the original image level, we explore such self-relations from the latent feature spaces because it can extract more abundant relations and structural information. Specifically, we propose S$^2$FPR which can extract structural information and learn partial orders of coarse-to-fine pyramid features in the latent space for better crowd counting with massive unlabeled images. In addition, we collect a new unlabeled crowd counting dataset (FUDAN-UCC) with 4,000 images in total for training. One by-product is that our proposed S$^2$FPR method can leverage numerous partial orders in the latent space among unlabeled images to strengthen the model representation capability and reduce the estimation errors for the crowd counting task. Extensive experiments on four benchmark datasets, i.e. the UCF-QNRF, the ShanghaiTech PartA and PartB, and the UCF-CC-50, show the effectiveness of our method compared with previous semi-supervised methods. The source code and dataset are available at https://github.com/b ridgeqiqi/S2FPR.
翻訳日:2022-01-14 13:06:03 公開日:2022-01-13
# CLIP-Event: テキストとイメージをイベント構造に接続する

CLIP-Event: Connecting Text and Images with Event Structures ( http://arxiv.org/abs/2201.05078v1 )

ライセンス: Link先を確認
Manling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin, Chenguang Zhu, Michael Zeng, Heng Ji, Shih-Fu Chang(参考訳) ビジョン言語(V+L)事前学習モデルは、画像とテキストのアライメントを理解することによってマルチメディアアプリケーションをサポートすることに成功している。 既存の視覚言語事前学習モデルは、主に画像やテキスト中のエンティティのオブジェクトの理解に焦点を当てているが、しばしばイベントのレベルとその引数構造でのアライメントを無視している。 本研究は,イベントと関連する議論(参加者)の役割を理解するために視覚言語事前学習モデルを強制する,対照的な学習フレームワークを提案する。 これを実現するために,テキスト情報抽出技術を利用してイベント構造知識を取得し,複数のプロンプト関数を用いてイベント構造を操作することで難解なネガティブな記述を対比する。 また、イベント引数構造をキャプチャする最適なトランスポートに基づくイベントグラフアライメント損失も設計する。 さらに,事前学習のための大規模イベントリッチデータセット(106,875画像)を収集し,複雑な文の理解度を評価するための,より困難な画像検索ベンチマークを提供する。 実験により,ゼロショットクリップイベントは,マルチメディアイベント抽出の引数抽出において,最先端の教師付きモデルよりも優れており,イベント抽出における絶対f-score利得が52%以上向上していること,ゼロショット設定下でのダウンストリームタスクの大幅な改善が示された。

Vision-language (V+L) pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models primarily focus on understanding objects in images or entities in text, they often ignore the alignment at the level of events and their argument structures. % In this work, we propose a contrastive learning framework to enforce vision-language pretraining models to comprehend events and associated argument (participant) roles. To achieve this, we take advantage of text information extraction technologies to obtain event structural knowledge, and utilize multiple prompt functions to contrast difficult negative descriptions by manipulating event structures. We also design an event graph alignment loss based on optimal transport to capture event argument structures. In addition, we collect a large event-rich dataset (106,875 images) for pretraining, which provides a more challenging image retrieval benchmark to assess the understanding of complicated lengthy sentences. Experiments show that our zero-shot CLIP-Event outperforms the state-of-the-art supervised model in argument extraction on Multimedia Event Extraction, achieving more than 5\% absolute F-score gain in event extraction, as well as significant improvements on a variety of downstream tasks under zero-shot settings.
翻訳日:2022-01-14 13:05:38 公開日:2022-01-13
# (参考訳) 逆向きにロバストなディープイメージデノイングを目指して [全文訳有]

Towards Adversarially Robust Deep Image Denoising ( http://arxiv.org/abs/2201.04397v2 )

ライセンス: CC BY 4.0
Hanshu Yan, Jingfeng Zhang, Jiashi Feng, Masashi Sugiyama, Vincent Y. F. Tan(参考訳) 本研究は,DID(Deep Image Denoiser, ディープ・イメージ・デノイザ)の逆方向の強靭性,すなわち, 逆方向の摂動によって劣化した雑音の観測から, DIDが基底の真実をどの程度回復できるかを系統的に検討する。 まず,DIDの頑健性を評価するために,観測に基づくゼロ平均攻撃({\sc ObsAtk})という新たな敵攻撃を提案する。 既存のDIDは, {\sc ObsAtk} が生成する対向雑音に弱い。 次に, DIDの強化を図るために, 対向学習戦略, ハイブリッド対向訓練({\sc HAT})を提案する。 結果、didは様々な種類の合成音と逆音を効果的に除去することができる。 また,DIDのロバスト性は,実世界の雑音に対する一般化能力に有益であることも明らかにした。 実際、HATをトレーニングしたDIDは、実際のノイズデータをトレーニングすることなく、現実世界のノイズから高品質なクリーンなイメージを復元することができる。 Set68、PolyU、SIDDなどのベンチマークデータセットに関する大規模な実験は、 {\sc ObsAtk} と {\sc HAT} の有効性を裏付けるものである。

This work systematically investigates the adversarial robustness of deep image denoisers (DIDs), i.e, how well DIDs can recover the ground truth from noisy observations degraded by adversarial perturbations. Firstly, to evaluate DIDs' robustness, we propose a novel adversarial attack, namely Observation-based Zero-mean Attack ({\sc ObsAtk}), to craft adversarial zero-mean perturbations on given noisy images. We find that existing DIDs are vulnerable to the adversarial noise generated by {\sc ObsAtk}. Secondly, to robustify DIDs, we propose an adversarial training strategy, hybrid adversarial training ({\sc HAT}), that jointly trains DIDs with adversarial and non-adversarial noisy data to ensure that the reconstruction quality is high and the denoisers around non-adversarial data are locally smooth. The resultant DIDs can effectively remove various types of synthetic and adversarial noise. We also uncover that the robustness of DIDs benefits their generalization capability on unseen real-world noise. Indeed, {\sc HAT}-trained DIDs can recover high-quality clean images from real-world noise even without training on real noisy data. Extensive experiments on benchmark datasets, including Set68, PolyU, and SIDD, corroborate the effectiveness of {\sc ObsAtk} and {\sc HAT}.
翻訳日:2022-01-14 13:02:04 公開日:2022-01-13
# 航空監視の現状:調査

The State of Aerial Surveillance: A Survey ( http://arxiv.org/abs/2201.03080v2 )

ライセンス: Link先を確認
Kien Nguyen, Clinton Fookes, Sridha Sridharan, Yingli Tian, Feng Liu, Xiaoming Liu and Arun Ross(参考訳) 空中プラットフォームや撮像センサーの急速な出現は、規模、機動性、展開性、カバート観測能力において前例のないアドバンテージにより、新しい形態の空中監視を可能にしている。 本稿では,コンピュータビジョンとパターン認識の観点から,人間中心の空中監視タスクを包括的に概観する。 ドローン、UAV、その他の空飛ぶプラットフォームを使った航空監視タスクの現状に関する、詳細な体系的なレビューと技術的分析を提供することを目的としている。 主な対象は、単一または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。 より具体的には、これらの4つのタスクのそれぞれに対して、地上設定と比較して、これらのタスクを空中設定で実行する際のユニークな課題について論じる。 次に、各タスクで利用可能な航空データセットをレビューし、分析し、空中文学のアプローチを深く掘り下げ、現在の空中課題にどのように対処しているかを調査する。 論文の結論として,欠落したギャップと今後の研究道を示すオープンリサーチ質問について論じた。

The rapid emergence of airborne platforms and imaging sensors are enabling new forms of aerial surveillance due to their unprecedented advantages in scale, mobility, deployment and covert observation capabilities. This paper provides a comprehensive overview of human-centric aerial surveillance tasks from a computer vision and pattern recognition perspective. It aims to provide readers with an in-depth systematic review and technical analysis of the current state of aerial surveillance tasks using drones, UAVs and other airborne platforms. The main object of interest is humans, where single or multiple subjects are to be detected, identified, tracked, re-identified and have their behavior analyzed. More specifically, for each of these four tasks, we first discuss unique challenges in performing these tasks in an aerial setting compared to a ground-based setting. We then review and analyze the aerial datasets publicly available for each task, and delve deep into the approaches in the aerial literature and investigate how they presently address the aerial challenges. We conclude the paper with discussion on the missing gaps and open research questions to inform future research avenues.
翻訳日:2022-01-14 12:42:21 公開日:2022-01-13
# 多言語機械翻訳における次の1000言語に向けて:教師付き学習と自己監督学習の相乗効果を探る

Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning ( http://arxiv.org/abs/2201.03110v2 )

ライセンス: Link先を確認
Aditya Siddhant, Ankur Bapna, Orhan Firat, Yuan Cao, Mia Xu Chen, Isaac Caswell, Xavier Garcia(参考訳) すべての人間の言語間の普遍的な翻訳は、機械翻訳(MT)研究の聖杯である。 近年の多言語MTの進歩はこの目標に近づきつつあるが、低リソースと非英語の言語ペアに対するラベル付きデータの入手が禁じられているため、より並列なデータのトレーニングによって単に多言語MTシステムを拡張することは不可能であることが明らかになっている。 そこで本研究では,多言語mtモデルの構築に向けて,異なる言語対のデータ可用性に応じて,教師付き目標と自己教師付き目標の混合を用いて,多言語mtモデルを構築する実践的アプローチを提案する。 これらの2つの学習パラダイムの相乗効果により、ゼロリソース設定で高品質な翻訳を生成でき、低リソース言語と中リソース言語の教師あり翻訳品質を上回ることさえ可能となる。 自己教師型多言語モデルの品質に対する多言語監視の程度、ドメインミスマッチ、および並列および単言語データの量の影響を理解するために、幅広い実験を行った。 このアプローチのスケーラビリティを示すために、200以上の言語でモデルをトレーニングし、未熟な言語でゼロリソース翻訳で高いパフォーマンスを示す。 私たちの発見が、今後数千の言語への翻訳を可能にするための足掛かりになることを期待しています。

Achieving universal translation between all human language pairs is the holy-grail of machine translation (MT) research. While recent progress in massively multilingual MT is one step closer to reaching this goal, it is becoming evident that extending a multilingual MT system simply by training on more parallel data is unscalable, since the availability of labeled data for low-resource and non-English-centric language pairs is forbiddingly limited. To this end, we present a pragmatic approach towards building a multilingual MT model that covers hundreds of languages, using a mixture of supervised and self-supervised objectives, depending on the data availability for different language pairs. We demonstrate that the synergy between these two training paradigms enables the model to produce high-quality translations in the zero-resource setting, even surpassing supervised translation quality for low- and mid-resource languages. We conduct a wide array of experiments to understand the effect of the degree of multilingual supervision, domain mismatches and amounts of parallel and monolingual data on the quality of our self-supervised multilingual models. To demonstrate the scalability of the approach, we train models with over 200 languages and demonstrate high performance on zero-resource translation on several previously under-studied languages. We hope our findings will serve as a stepping stone towards enabling translation for the next thousand languages.
翻訳日:2022-01-14 12:42:05 公開日:2022-01-13
# 統計学と機械学習でマネーロンダリングと戦う - 序文とレビュー

Fighting Money Laundering with Statistics and Machine Learning: An Introduction and Review ( http://arxiv.org/abs/2201.04207v2 )

ライセンス: Link先を確認
Rasmus Jensen and Alexandros Iosifidis(参考訳) マネーロンダリングは深刻な世界的な問題だ。 それでも、このトピックに関する統計的および機械学習の研究はほとんどない。 本稿では,銀行におけるマネーロンダリング対策に着目する。 この分野の既存の研究を整理するために,統一的な用語を提案し,文献のレビューを行う。 これは2つの中心的なタスクを中心に構成されている。 (i)クライアントのリスク・プロファイリング (ii)不審な行動 顧客リスクプロファイリングは、診断、すなわちリスク要因の発見と説明の努力によって特徴づけられる。 一方、突発的な行動フラグングは、開示されていない特徴と手作りのリスク指標によって特徴付けられる。 最後に,今後の研究の方向性について述べる。 大きな課題のひとつは、公開データセットの欠如だ。 これは、合成データ生成によって対処される可能性がある。 その他の研究の方向性としては、半教師付き深層学習、解釈可能性、結果の公平性などがある。

Money laundering is a profound, global problem. Nonetheless, there is little statistical and machine learning research on the topic. In this paper, we focus on anti-money laundering in banks. To help organize existing research in the field, we propose a unifying terminology and provide a review of the literature. This is structured around two central tasks: (i) client risk profiling and (ii) suspicious behavior flagging. We find that client risk profiling is characterized by diagnostics, i.e., efforts to find and explain risk factors. Suspicious behavior flagging, on the other hand, is characterized by non-disclosed features and hand-crafted risk indices. Finally, we discuss directions for future research. One major challenge is the lack of public data sets. This may, potentially, be addressed by synthetic data generation. Other possible research directions include semi-supervised and deep learning, interpretability and fairness of the results.
翻訳日:2022-01-14 12:41:37 公開日:2022-01-13
# Captcha攻撃:Captchaは人間性に反する

Captcha Attack: Turning Captchas Against Humanity ( http://arxiv.org/abs/2201.04014v2 )

ライセンス: Link先を確認
Mauro Conti, Luca Pajola, Pier Paolo Tricomi(参考訳) 現在、人々はオンラインプラットフォーム(例えば、ソーシャルネットワーク、ブログ)で大量のコンテンツを作成、共有している。 2021年、毎日190億人のFacebookユーザーが毎分約150万枚の写真を投稿した。 コンテンツモデレーターは常にこれらのオンラインプラットフォームを監視し、不適切なコンテンツ(ヘイトスピーチ、ヌード画像など)の拡散を防ぐ。 ディープラーニング(DL)の進歩に基づいて、自動コンテンツモデレータ(ACM)は、人間のモデレーターが高いデータボリュームを処理するのに役立つ。 アドバンテージにもかかわらず、攻撃者はDLコンポーネント(例えば前処理、モデル)の弱点を利用してパフォーマンスに影響を与えることができる。 したがって、攻撃者はacmを回避して不適切なコンテンツを拡散することができる。 そこで本研究では,ACM制御を回避して不適切なテキストをオンラインで拡散できるCAPtcha Attack (CAPA)を提案する。 CAPAはカスタムテキストCAPTCHAを生成することで、ACMの不注意な設計実装と内部プロシージャの脆弱性を利用する。 実世界のACMに対する攻撃を検証し、その結果、単純で効果的な攻撃の威力を確認し、ほとんどのケースで100%の回避に成功した。 同時に、CAPTCHAs研究領域におけるCAPA緩和の難しさを実証し、新たな課題を提起する。

Nowadays, people generate and share massive content on online platforms (e.g., social networks, blogs). In 2021, the 1.9 billion daily active Facebook users posted around 150 thousand photos every minute. Content moderators constantly monitor these online platforms to prevent the spreading of inappropriate content (e.g., hate speech, nudity images). Based on deep learning (DL) advances, Automatic Content Moderators (ACM) help human moderators handle high data volume. Despite their advantages, attackers can exploit weaknesses of DL components (e.g., preprocessing, model) to affect their performance. Therefore, an attacker can leverage such techniques to spread inappropriate content by evading ACM. In this work, we propose CAPtcha Attack (CAPA), an adversarial technique that allows users to spread inappropriate text online by evading ACM controls. CAPA, by generating custom textual CAPTCHAs, exploits ACM's careless design implementations and internal procedures vulnerabilities. We test our attack on real-world ACM, and the results confirm the ferocity of our simple yet effective attack, reaching up to a 100% evasion success in most cases. At the same time, we demonstrate the difficulties in designing CAPA mitigations, opening new challenges in CAPTCHAs research area.
翻訳日:2022-01-14 12:41:25 公開日:2022-01-13
# 大規模なデータセット改善のためのモバイルUIレイアウトの難読化

Learning to Denoise Raw Mobile UI Layouts for Improving Datasets at Scale ( http://arxiv.org/abs/2201.04100v2 )

ライセンス: Link先を確認
Gang Li, Gilles Baechler, Manuel Tragut, Yang Li(参考訳) モバイル画面のレイアウトは、UI設計の研究と画面の意味的理解にとって重要なデータソースである。 しかし、既存のデータセットのuiレイアウトは、しばしば騒がしいか、視覚的表現とミスマッチしているか、あるいは分析やモデル化が難しいジェネリックまたはアプリ固有のタイプで構成されている。 本稿では,既存のモバイルuiレイアウトデータセットを大規模に自動改善可能にするために,uiレイアウトをデノベーションするためのディープラーニングアプローチを用いた粘土パイプラインを提案する。 パイプラインはスクリーンショットと生のUIレイアウトの両方を取り、不正なノードを削除し、各ノードに意味のある型を割り当てることで、生のレイアウトに注釈を付ける。 データクリーニングパイプラインを試すために、公開のモバイルuiコーパスであるricoのスクリーンショットと生のレイアウトに基づいて、59,555の画面レイアウトのclayデータセットを作成しました。 我々の深層モデルは、有効な視覚的表現を持たないレイアウトオブジェクトを検出するf1スコア82.7%、オブジェクトタイプを認識する85.9%で高い精度を達成し、ヒューリスティックなベースラインを大きく上回っている。 我々の研究は、データ駆動型モバイルUI研究のための大規模な高品質なUIレイアウトデータセットを作成する基盤を築き、非常に高価な手動ラベリング作業の必要性を軽減します。

The layout of a mobile screen is a critical data source for UI design research and semantic understanding of the screen. However, UI layouts in existing datasets are often noisy, have mismatches with their visual representation, or consists of generic or app-specific types that are difficult to analyze and model. In this paper, we propose the CLAY pipeline that uses a deep learning approach for denoising UI layouts, allowing us to automatically improve existing mobile UI layout datasets at scale. Our pipeline takes both the screenshot and the raw UI layout, and annotates the raw layout by removing incorrect nodes and assigning a semantically meaningful type to each node. To experiment with our data-cleaning pipeline, we create the CLAY dataset of 59,555 human-annotated screen layouts, based on screenshots and raw layouts from Rico, a public mobile UI corpus. Our deep models achieve high accuracy with F1 scores of 82.7% for detecting layout objects that do not have a valid visual representation and 85.9% for recognizing object types, which significantly outperforms a heuristic baseline. Our work lays a foundation for creating large-scale high quality UI layout datasets for data-driven mobile UI research and reduces the need of manual labeling efforts that are prohibitively expensive.
翻訳日:2022-01-14 12:41:05 公開日:2022-01-13
# 未知変数を持つ2アーマガウス帯域における加算逆確率推定器を用いた最適固定予算ベストアーム同定

Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances ( http://arxiv.org/abs/2201.04469v2 )

ライセンス: Link先を確認
Masahiro Kato and Kaito Ariu and Masaaki Imaizumi and Masatoshi Uehara and Masahiro Nomura and Chao Qin(参考訳) 未知の分散を持つ2本腕ガウスバンドの固定予算最良アーム識別問題を考える。 複雑性の最も厳密な下界と下界に適合する性能保証アルゴリズムは、分散が不明で、アルゴリズムがアームドローの最適割合に無関係である場合、長い間開いている問題であった。 本稿では,アームドローの推定目標割当確率に追従したランダムサンプリング(rs)によるサンプリング規則と,因果推論文献でよく用いられる拡張逆確率重み付け(aipw)推定器を用いた推奨規則を含む戦略を提案する。 当社の戦略をRS-AIPW戦略と呼ぶ。 理論解析において,我々はまず,第2モーメントが平均収束するときに使用可能なマルティンガレスに対する大きな偏差原理を導出し,提案する戦略に適用する。 そこで,提案手法は標本サイズが無限大になり,両腕間の隙間がゼロとなる場合に,Kaufmann et al. (2016) による下界を達成するという意味で,漸近的に最適であることを示す。

We consider the fixed-budget best arm identification problem in two-armed Gaussian bandits with unknown variances. The tightest lower bound on the complexity and an algorithm whose performance guarantee matches the lower bound have long been open problems when the variances are unknown and when the algorithm is agnostic to the optimal proportion of the arm draws. In this paper, we propose a strategy comprising a sampling rule with randomized sampling (RS) following the estimated target allocation probabilities of arm draws and a recommendation rule using the augmented inverse probability weighting (AIPW) estimator, which is often used in the causal inference literature. We refer to our strategy as the RS-AIPW strategy. In the theoretical analysis, we first derive a large deviation principle for martingales, which can be used when the second moment converges in mean, and apply it to our proposed strategy. Then, we show that the proposed strategy is asymptotically optimal in the sense that the probability of misidentification achieves the lower bound by Kaufmann et al. (2016) when the sample size becomes infinitely large and the gap between the two arms goes to zero.
翻訳日:2022-01-14 12:40:43 公開日:2022-01-13
# マルチビューサブスペースクラスタリングのためのきめ細かいグラフ学習

Fine-grained Graph Learning for Multi-view Subspace Clustering ( http://arxiv.org/abs/2201.04604v2 )

ライセンス: Link先を確認
Yidi Wang, Xiaobing Pei, Haoxi Zhan(参考訳) マルチビューサブスペースクラスタリングは従来,高次元情報を取得するために異種特徴記述の統合に重点を置いてきた。 一般的な戦略の1つは、異なるビューから共通のサブスペースを生成し、クラスタリングにグラフベースのアプローチを適用することである。 しかし,これらの手法の性能には,マルチビュー融合パターンと,融合プロセスとクラスタリングタスクの関連という2つの制約がある。 これらの問題に対処するために,我々は,異なるビュー間の局所構造の一貫性を把握し,すべてのビューを従来の重み付け正規化よりも繊細に統合する,きめ細かなグラフ学習による,新しいマルチビューサブスペースクラスタリングフレームワークを提案する。 文献における他のモデルとは異なり、グラフ融合を行い、共有クラスタ構造を共に学習するために、点レベルグラフ正規化とスペクトルクラスタリングの再構成を導入する。 5つの実世界のデータセットに対する大規模な実験により、提案フレームワークはSOTAアルゴリズムに匹敵する性能を示した。

Multi-view subspace clustering has conventionally focused on integrating heterogeneous feature descriptions to capture higher-dimensional information. One popular strategy is to generate a common subspace from different views and then apply graph-based approaches to deal with clustering. However, the performance of these methods is still subject to two limitations, namely the multiple views fusion pattern and the connection between the fusion process and clustering tasks. To address these problems, we propose a novel multi-view subspace clustering framework via fine-grained graph learning, which can tell the consistency of local structures between different views and integrate all views more delicately than previous weight regularizations. Different from other models in the literature, the point-level graph regularization and the reformulation of spectral clustering are introduced to perform graphs fusion and learn the shared cluster structure together. Extensive experiments on five real-world datasets show that the proposed framework has comparable performance to the SOTA algorithms.
翻訳日:2022-01-14 12:40:20 公開日:2022-01-13