このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 分解型量子グラフニューラルネットワーク [全文訳有]

Decompositional Quantum Graph Neural Network ( http://arxiv.org/abs/2201.05158v1 )

ライセンス: CC BY 4.0
Xing Ai, Zhihong Zhang, Luzhe Sun, Junchi Yan, Edwin Hancock(参考訳) 量子機械学習は、量子アルゴリズムと量子コンピューティングを使用して機械学習に取り組むことを目的とした、急速に発展する分野である。 物理量子ビットの欠如とユークリッド空間からヒルベルト空間に実世界のデータをマッピングする効果的な手段のため、これらの手法のほとんどは量子類似性やプロセスシミュレーションに焦点をあてる。 本稿では,DQGNN(Decomposition al Quantum Graph Neural Network)と呼ばれるグラフ構造化データに対する新しいハイブリッド量子古典アルゴリズムを提案する。 DQGNNはテンソル積とユニタリ行列表現を用いてGNN理論フレームワークを実装し、モデルパラメータの数を大幅に削減する。 古典的コンピュータによって制御される場合、DQGNNは、適度な大きさの量子デバイスを用いて入力グラフからサブ構造を処理することにより、任意の大きさのグラフを調整できる。 このアーキテクチャは、現実世界のデータからヒルベルト空間への新しいマッピングに基づいている。 このマッピングは、データに存在する距離関係を維持し、情報損失を低減する。 実験の結果,提案手法はこれらのモデルと比較して1.68 %のパラメータしか持たない競争状態モデルよりも優れていた。

Quantum machine learning is a fast emerging field that aims to tackle machine learning using quantum algorithms and quantum computing. Due to the lack of physical qubits and an effective means to map real-world data from Euclidean space to Hilbert space, most of these methods focus on quantum analogies or process simulations rather than devising concrete architectures based on qubits. In this paper, we propose a novel hybrid quantum-classical algorithm for graph-structured data, which we refer to as the Decompositional Quantum Graph Neural Network (DQGNN). DQGNN implements the GNN theoretical framework using the tensor product and unity matrices representation, which greatly reduces the number of model parameters required. When controlled by a classical computer, DQGNN can accommodate arbitrarily sized graphs by processing substructures from the input graph using a modestly-sized quantum device. The architecture is based on a novel mapping from real-world data to Hilbert space. This mapping maintains the distance relations present in the data and reduces information loss. Experimental results show that the proposed method outperforms competitive state-of-the-art models with only 1.68\% parameters compared to those models.
公開日:2022-01-13
翻訳日:2022-01-18 01:37:39
# (参考訳) \textit{Salva Veritate} 原則の組合せ [全文訳有]

The Combinatorics of \textit{Salva Veritate} Principles ( http://arxiv.org/abs/2201.05173v1 )

ライセンス: CC BY 4.0
Norman E. Trushaev(参考訳) 文法的構成性に関する様々な概念は、自然言語と人工言語の両方の多くの理論に現れ、しばしば構文-意味論的インタフェースの考慮において重要な役割を担っている。 これらの構成性を満たす言語の表現力に関する非自明な組合せ論的な主張を多く含むべきである。 一例として、サルバ頂点置換(特に構成原理の強い例であると主張する性質)を許容する特定の言語のクラスが、本論文で特定される非常に自然な組合せ的制約を満たさなければならないことを示すフォーマルな分析を示す。

Various concepts of grammatical compositionality arise in many theories of both natural and artificial languages, and often play a key role in accounts of the syntax-semantics interface. We propose that many instances of compositionality should entail non-trivial combinatorial claims about the expressive power of languages which satisfy these compositional properties. As an example, we present a formal analysis demonstrating that a particular class of languages which admit salva vertitate substitutions - a property which we claim to be a particularly strong example of compositional principle - must also satisfy a very natural combinatorial constraint identified in this paper.
公開日:2022-01-13
翻訳日:2022-01-18 01:24:01
# (参考訳) 対話的情報検索へのニューラルアプローチ

Neural Approaches to Conversational Information Retrieval ( http://arxiv.org/abs/2201.05176v1 )

ライセンス: CC BY 4.0
Jianfeng Gao, Chenyan Xiong, Paul Bennett and Nick Craswell(参考訳) 会話情報検索システム(英: conversational information search, CIR)とは、自然言語のマルチターン会話を通じて、音声や書面形式で、ユーザがシステムと対話して情報を求めることができる対話インタフェースを備えた情報検索システムである。 ディープラーニングの最近の進歩は、自然言語処理(NLP)と会話型AIの大幅な改善をもたらし、自然な音声とタイプドインタラクションを可能にする多くの商用会話サービスをもたらし、IRにおけるより人間中心のインタラクションの必要性を高めている。 その結果,研究コミュニティと産業の両面で,近代的なCIRシステムの開発への関心が高まった。 この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。 この本は、SIGIR'2020(Gao et al., 2020b)の著者のチュートリアルに基づいており、IRとNLPコミュニティが主なターゲットである。 しかし、機械学習や人間とコンピュータのインタラクションなど、他のバックグラウンドを持つオーディエンスは、CIRへのアクセシビリティな導入も見出すだろう。 この本が学生、研究者、ソフトウェア開発者にとって貴重なリソースになることを願っている。 この原稿は作業中の原稿です。 コメントは歓迎だ。

A conversational information retrieval (CIR) system is an information retrieval (IR) system with a conversational interface which allows users to interact with the system to seek information via multi-turn conversations of natural language, in spoken or written form. Recent progress in deep learning has brought tremendous improvements in natural language processing (NLP) and conversational AI, leading to a plethora of commercial conversational services that allow naturally spoken and typed interaction, increasing the need for more human-centric interactions in IR. As a result, we have witnessed a resurgent interest in developing modern CIR systems in both research communities and industry. This book surveys recent advances in CIR, focusing on neural approaches that have been developed in the last few years. This book is based on the authors' tutorial at SIGIR'2020 (Gao et al., 2020b), with IR and NLP communities as the primary target audience. However, audiences with other background, such as machine learning and human-computer interaction, will also find it an accessible introduction to CIR. We hope that this book will prove a valuable resource for students, researchers, and software developers. This manuscript is a working draft. Comments are welcome.
公開日:2022-01-13
翻訳日:2022-01-18 01:18:00
# (参考訳) 次世代」貯留層計算:時間ステップ形式における動的方程式の経験的データ駆動式 [全文訳有]

`Next Generation' Reservoir Computing: an Empirical Data-Driven Expression of Dynamical Equations in Time-Stepping Form ( http://arxiv.org/abs/2201.05193v1 )

ライセンス: CC BY 4.0
Tse-Chun Chen, Stephen G. Penny, Timothy A. Smith, Jason A. Platt(参考訳) 非線形ベクトル自己回帰 (nvar) に基づく次世代貯留層計算を用いて, 単純力学系モデルをエミュレートし, euler や 2^\text{nd}$order runge-kutta などの数値積分法と比較した。 NVARエミュレータは,データを生成した数値積分スキームを復元するためのデータ駆動方式として解釈可能である。 また,データから直接高次数値スキームを生成する手法を拡張できることを示した。 学習セットにおける雑音の存在と時間的スパーシティの影響を更に検討し,本手法のより現実的な応用への可能性を評価する。

Next generation reservoir computing based on nonlinear vector autoregression (NVAR) is applied to emulate simple dynamical system models and compared to numerical integration schemes such as Euler and the $2^\text{nd}$ order Runge-Kutta. It is shown that the NVAR emulator can be interpreted as a data-driven method used to recover the numerical integration scheme that produced the data. It is also shown that the approach can be extended to produce high-order numerical schemes directly from data. The impacts of the presence of noise and temporal sparsity in the training set is further examined to gauge the potential use of this method for more realistic applications.
公開日:2022-01-13
翻訳日:2022-01-18 01:16:35
# (参考訳) Rosetta VAEを用いた再現性・漸進的表現学習 [全文訳有]

Reproducible, incremental representation learning with Rosetta VAE ( http://arxiv.org/abs/2201.05206v1 )

ライセンス: CC BY 4.0
Miles Martinez, John Pearson(参考訳) 変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の1つであり、データ探索や科学的発見のためのツールとして価値を高めている。 しかし、単一のモデルを1つの大きなデータセットで一度トレーニングする典型的な機械学習問題とは異なり、科学的ワークフローは再現性があり、実験室間でポータブルで、新たなデータを漸進的に追加することができる。 理想的には、異なる研究グループが使用する手法は、完全に訓練されたモデルやデータセットを共有せずにも、同等の結果を生み出すべきである。 そこで本稿では,これまでに学習した表現を蒸留し,新たなモデルを再訓練して再現・構築する手法であるrosetta vae (r-vae)を導入することで,この課題に対処した。 R-VAEは、完全に訓練されたモデルの潜在空間上のポストホッククラスタリングを使用して、少数のロゼッタポイント(インプット、潜在ペア)を特定し、将来のモデルをトレーニングするためのアンカーとして機能する。 調整可能なハイパーパラメータである$\rho$は、前もって学習した潜在空間と新しいデータの収容に対する忠実さのバランスをとる。 R-VAEは、VAEや$\beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において両手法を上回り、学習した表現の一貫性を劇的に向上させることを示した。

Variational autoencoders are among the most popular methods for distilling low-dimensional structure from high-dimensional data, making them increasingly valuable as tools for data exploration and scientific discovery. However, unlike typical machine learning problems in which a single model is trained once on a single large dataset, scientific workflows privilege learned features that are reproducible, portable across labs, and capable of incrementally adding new data. Ideally, methods used by different research groups should produce comparable results, even without sharing fully trained models or entire data sets. Here, we address this challenge by introducing the Rosetta VAE (R-VAE), a method of distilling previously learned representations and retraining new models to reproduce and build on prior results. The R-VAE uses post hoc clustering over the latent space of a fully-trained model to identify a small number of Rosetta Points (input, latent pairs) to serve as anchors for training future models. An adjustable hyperparameter, $\rho$, balances fidelity to the previously learned latent space against accommodation of new data. We demonstrate that the R-VAE reconstructs data as well as the VAE and $\beta$-VAE, outperforms both methods in recovery of a target latent space in a sequential training setting, and dramatically increases consistency of the learned representation across training runs.
公開日:2022-01-13
翻訳日:2022-01-18 01:00:10
# (参考訳) the fairness field guide: perspectives from social and formal sciences (特集 フェアネスフィールドガイド)

The Fairness Field Guide: Perspectives from Social and Formal Sciences ( http://arxiv.org/abs/2201.05216v1 )

ライセンス: CC BY 4.0
Alycia N. Carey and Xintao Wu(参考訳) 過去数年間にわたり、機械学習モデルの公平性を測定するための様々な方法が提案されてきた。 しかし、出版物や実装が増えているにもかかわらず、公正な機械学習と哲学、社会学、法学の社会科学との相互作用を説明する文学の欠如は依然として批判的である。 このフィールドガイドにおいて、社会的および形式的(特に機械学習と統計)科学の両方によって生み出される公正な機械学習の考えと議論を蓄積し、議論することで、この問題を解決したいと思っています。 具体的には,いくつかの統計的・因果的機械学習手法の数学的背景とアルゴリズム的背景に加えて,それらの基盤となる哲学的・法的思考について説明する。 さらに, 社会学的, 哲学的観点から, 公平な機械学習に対する現在のアプローチに対するいくつかの批判を考察する。 このフィールドガイドによって、公正な機械学習実践者が、アルゴリズムが重要なヒューマニズム的価値(公正性など)とどのように一致しているか、そしてフィールドとして、抑圧的で疎外された大衆に役立てるための設計方法やメトリクスをどのように理解できるようになることを願っています。

Over the past several years, a slew of different methods to measure the fairness of a machine learning model have been proposed. However, despite the growing number of publications and implementations, there is still a critical lack of literature that explains the interplay of fair machine learning with the social sciences of philosophy, sociology, and law. We hope to remedy this issue by accumulating and expounding upon the thoughts and discussions of fair machine learning produced by both social and formal (specifically machine learning and statistics) sciences in this field guide. Specifically, in addition to giving the mathematical and algorithmic backgrounds of several popular statistical and causal-based fair machine learning methods, we explain the underlying philosophical and legal thoughts that support them. Further, we explore several criticisms of the current approaches to fair machine learning from sociological and philosophical viewpoints. It is our hope that this field guide will help fair machine learning practitioners better understand how their algorithms align with important humanistic values (such as fairness) and how we can, as a field, design methods and metrics to better serve oppressed and marginalized populaces.
公開日:2022-01-13
翻訳日:2022-01-18 00:48:41
# (参考訳) 人権研究におけるNLP -- 警察・陸軍部隊とその指揮官に関する知識グラフの抽出 [全文訳有]

NLP in Human Rights Research -- Extracting Knowledge Graphs About Police and Army Units and Their Commanders ( http://arxiv.org/abs/2201.05230v1 )

ライセンス: CC BY 4.0
Daniel Bauer (1), Tom Longley (2), Yueen Ma (1), Tony Wilson (2) ((1) Department of Computer Science, Columbia University, (2) Security Force Monitor, Human Rights Institute, Columbia Law School)(参考訳) 本稿では,SFM(Security Force Monitor)の作業を支援するNLPシステムについて検討する。 sfmは、警察、軍、その他の治安部隊の組織構造、指揮人員および運用に関するデータを作成し、人権研究者、ジャーナリスト、訴訟当事者が、人権と国際刑事法を乱用したとされる特定の部隊や人員を特定し、説明するために支援する。 本報告では, 英語ニュースから, 警備部隊の名前と人員の伝記的詳細を抽出し, それらの関係を推測するNLPシステムを提案する。 この作業論文とともに公開されたのは、システムのコードとトレーニングデータセットである。 実験的なNLPシステムは,そのタスクを公平かつ良好なレベルで実行する。 そのパフォーマンスは、さらなる開発をライブワークフローに正当化するのに十分であり、パフォーマンスが時間とリソースの節約に変換され、効果的な技術的介入になるかどうかを洞察する。

In this working paper we explore the use of an NLP system to assist the work of Security Force Monitor (SFM). SFM creates data about the organizational structure, command personnel and operations of police, army and other security forces, which assists human rights researchers, journalists and litigators in their work to help identify and bring to account specific units and personnel alleged to have committed abuses of human rights and international criminal law. This working paper presents an NLP system that extracts from English language news reports the names of security force units and the biographical details of their personnel, and infers the formal relationship between them. Published alongside this working paper are the system's code and training dataset. We find that the experimental NLP system performs the task at a fair to good level. Its performance is sufficient to justify further development into a live workflow that will give insight into whether its performance translates into savings in time and resource that would make it an effective technical intervention.
公開日:2022-01-13
翻訳日:2022-01-18 00:47:35
# (参考訳) 広告キャンペーンにおけるコンテキストバンディット:拡散モデル独立アプローチ(拡張版) [全文訳有]

Contextual Bandits for Advertising Campaigns: A Diffusion-Model Independent Approach (Extended Version) ( http://arxiv.org/abs/2201.05231v1 )

ライセンス: CC BY 4.0
Alexandra Iacob, Bogdan Cautis, Silviu Maniu(参考訳) ソーシャルメディアにおける情報拡散と広告のシナリオに動機づけられ,情報拡散ネットワークや情報の伝播方法を決定するモデルについてほとんど知られていない影響最大化問題について検討した。 このような極めて不確実な環境では、ほとんど影響力のないノードの既知の基盤から、影響を受け、活性化される異なるユーザ数を最大化することを目的として、マルチラウンド拡散キャンペーンに集中することができる。 キャンペーン中、スプレッドシードは連続するラウンドで順次選択され、各ラウンドの活性化ノードの形式でフィードバックが収集される。 ラウンドの影響(逆)は、新たに活性化されたノードの数として定量化される。 総じて、ラウンドの報酬の合計として、キャンペーン全体の広がりを最大化しなければならない。 この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。 本稿では,LinUCBアルゴリズムを我々の設定(LogNorm-LinUCB)に直接適応させる手法と,一般線形モデルとGood-Turing 推定器(GLM-GT-UCB)を用いて,インフルエンサーの残余ポテンシャルに高信頼境界を持つコンテキスト多重武装バンドの2つの手法を記述・比較する。 現状のアイデアを用いたベースライン手法では, 合成データと実世界のデータを用いて, 同時に, 展開シナリオによって異なる相補的な振る舞いを示す。

Motivated by scenarios of information diffusion and advertising in social media, we study an influence maximization problem in which little is assumed to be known about the diffusion network or about the model that determines how information may propagate. In such a highly uncertain environment, one can focus on multi-round diffusion campaigns, with the objective to maximize the number of distinct users that are influenced or activated, starting from a known base of few influential nodes. During a campaign, spread seeds are selected sequentially at consecutive rounds, and feedback is collected in the form of the activated nodes at each round. A round's impact (reward) is then quantified as the number of newly activated nodes. Overall, one must maximize the campaign's total spread, as the sum of rounds' rewards. In this setting, an explore-exploit approach could be used to learn the key underlying diffusion parameters, while running the campaign. We describe and compare two methods of contextual multi-armed bandits, with upper-confidence bounds on the remaining potential of influencers, one using a generalized linear model and the Good-Turing estimator for remaining potential (GLM-GT-UCB), and another one that directly adapts the LinUCB algorithm to our setting (LogNorm-LinUCB). We show that they outperform baseline methods using state-of-the-art ideas, on synthetic and real-world data, while at the same time exhibiting different and complementary behavior, depending on the scenarios in which they are deployed.
公開日:2022-01-13
翻訳日:2022-01-18 00:38:05
# (参考訳) 統計的・機械学習モデルの予測プロファイルを可視化・最適化する場合の補間制御法 [全文訳有]

A Method for Controlling Extrapolation when Visualizing and Optimizing the Prediction Profiles of Statistical and Machine Learning Models ( http://arxiv.org/abs/2201.05236v1 )

ライセンス: CC BY 4.0
Jeremy Ash, Laura Lancaster, Chris Gotwalt(参考訳) 本稿では,JMPソフトウェアにおける予測プロファイラの補間制御手法を提案する。 予測プロファイラは、統計モデルや機械学習モデルの高次元予測面を探索するためのグラフィカルツールである。 プロファイラは、モデルの予測面のインタラクティブな断面ビュー、またはプロファイルトレースを含む。 本手法は,外挿とみなすべき予測の探索を避けるのに役立つ。 また、遺伝的アルゴリズムを用いた外挿を避ける制限された因子領域の最適化も行う。 シミュレーションや実例では、プロファイラの制約のない最適因子設定が頻繁に外挿され、外挿制御がユーザにとって役に立たない無効な因子設定でこれらのソリューションをいかに回避できるかを実証する。

We present a novel method for controlling extrapolation in the prediction profiler in the JMP software. The prediction profiler is a graphical tool for exploring high dimensional prediction surfaces for statistical and machine learning models. The profiler contains interactive cross-sectional views, or profile traces, of the prediction surface of a model. Our method helps users avoid exploring predictions that should be considered extrapolation. It also performs optimization over a constrained factor region that avoids extrapolation using a genetic algorithm. In simulations and real world examples, we demonstrate how optimal factor settings without constraint in the profiler are frequently extrapolated, and how extrapolation control helps avoid these solutions with invalid factor settings that may not be useful to the user.
公開日:2022-01-13
翻訳日:2022-01-18 00:13:47
# (参考訳) 複合最適化における一貫性近似 [全文訳有]

Consistent Approximations in Composite Optimization ( http://arxiv.org/abs/2201.05250v1 )

ライセンス: CC BY 4.0
Johannes O. Royset(参考訳) 最適化問題の近似は計算手順と感度解析に現れる。 ソリューションに対する結果として生じる影響は、ソリューション内の大きなエラーに変換する問題のコンポーネントの小さな近似によっても大きい。 我々は、最小化点、定常点、レベルセットといった意味で近似がうまく振る舞う条件を定義し、一貫した近似の枠組みにつながる。 このフレームワークは、凸でも滑らかでもない幅広い複合問題のために開発されている。 本稿では,確率的最適化,ニューラルネットワークに基づく機械学習,分散ロバストな最適化,ペナルティと拡張ラグランジアン法,インテリアポイント法,ホモトピー法,スムースな手法,拡張非線形プログラミング,差分凸プログラミング,多目的最適化などの例を用いて,フレームワークを実証する。 拡張近位法ではアルゴリズムの可能性を示す。 定量的分析は収束率の調整による発展を補う。

Approximations of optimization problems arise in computational procedures and sensitivity analysis. The resulting effect on solutions can be significant, with even small approximations of components of a problem translating into large errors in the solutions. We specify conditions under which approximations are well behaved in the sense of minimizers, stationary points, and level-sets and this leads to a framework of consistent approximations. The framework is developed for a broad class of composite problems, which are neither convex nor smooth. We demonstrate the framework using examples from stochastic optimization, neural-network based machine learning, distributionally robust optimization, penalty and augmented Lagrangian methods, interior-point methods, homotopy methods, smoothing methods, extended nonlinear programming, difference-of-convex programming, and multi-objective optimization. An enhanced proximal method illustrates the algorithmic possibilities. A quantitative analysis supplements the development by furnishing rates of convergence.
公開日:2022-01-13
翻訳日:2022-01-18 00:05:12
# (参考訳) Manifoldron: Manifold Discoveryによる直接の宇宙分割 [全文訳有]

Manifoldron: Direct Space Partition via Manifold Discovery ( http://arxiv.org/abs/2201.05279v1 )

ライセンス: CC BY 4.0
Dayang Wang, Feng-Lei Fan, Bo-Jian Hou, Hao Zhang, Rongjie Lai, Hengyong Yu, Fei Wang(参考訳) 広く使われているReLU活性化を持つニューラルネットワークは、サンプル空間を予測のために多くの凸ポリトープに分割することが示されている。 しかしながら、ニューラルネットワークやその他の機械学習モデルが空間を分割するために使用するパラメータ化手法には、複雑なモデルに対する妥協された解釈可能性、モデルの汎用的な特徴による決定境界構築の柔軟性、ショートカットソリューションに閉じ込められるリスクなど、不完全性がある。 対照的に、非パラメータモデルではこれらの問題を好ましく避けたり、軽視したりすることはできるが、それらは通常、単純化されたり、データの多様体構造に適応できないために、不十分に強力である。 本稿ではまず,データから決定境界を直接導出し,多様体構造探索により空間を分割する,Manifoldronと呼ばれる新しい機械学習モデルを提案する。 次に, 可視性, 多様体キャラクタリゼーション能力, ニューラルネットワークとのリンクなど, 多様体論の重要な特性を体系的に解析する。 9個の大規模データセットと11個の大規模データセットにおける実験結果から,提案手法が主流の機械学習モデルと競合することが示された。 コードをhttps://github.com/w dayang/manifoldronで無料でダウンロードして評価しています。

A neural network with the widely-used ReLU activation has been shown to partition the sample space into many convex polytopes for prediction. However, the parameterized way a neural network and other machine learning models use to partition the space has imperfections, e.g., the compromised interpretability for complex models, the inflexibility in decision boundary construction due to the generic character of the model, and the risk of being trapped into shortcut solutions. In contrast, although the non-parameterized models can adorably avoid or downplay these issues, they are usually insufficiently powerful either due to over-simplification or the failure to accommodate the manifold structures of data. In this context, we first propose a new type of machine learning models referred to as Manifoldron that directly derives decision boundaries from data and partitions the space via manifold structure discovery. Then, we systematically analyze the key characteristics of the Manifoldron including interpretability, manifold characterization capability, and its link to neural networks. The experimental results on 9 small and 11 large datasets demonstrate that the proposed Manifoldron performs competitively compared to the mainstream machine learning models. We have shared our code https://github.com/w dayang/Manifoldron for free download and evaluation.
公開日:2022-01-14
翻訳日:2022-01-17 23:18:41
# (参考訳) 線形変換による領域シフト適応 [全文訳有]

Domain-shift adaptation via linear transformations ( http://arxiv.org/abs/2201.05282v1 )

ライセンス: CC BY 4.0
Roberto Vega, Russell Greiner(参考訳) ソースドメイン(A)のデータから学習した予測子$f_A : X \to Y$は、分布が異なる場合、ターゲットドメイン(B)上で正確でない可能性がある。 ドメイン適応は、この分布ミスマッチの悪影響を減らすことを目的としている。 ここで、$p_a(y\ |\ x) \neq p_b(y\ |\ x)$, $p_a(x) \neq p_b(x)$ but $p_a(y) = p_b(y)$; ここで、すべての分布を等価にする$x$のアフィン変換が存在する。 本研究では,(1)各領域の経験的共分散行列の固有ベクトルに領域を投影し,(2)二つの領域の射影間の最大平均差を最小化する直交行列を求めることにより,ソース領域と対象領域を低次元の共通空間に投影する手法を提案する。 任意のアフィン変換に対しては、半教師付きの場合で緩和できる非教師付き領域適応を実行する際に固有の不特定性問題が存在する。 シミュレーションデータおよび二進数分類タスクにおける本手法の有効性を示し,データの領域シフトを補正する場合の精度を最大48%向上させた。

A predictor, $f_A : X \to Y$, learned with data from a source domain (A) might not be accurate on a target domain (B) when their distributions are different. Domain adaptation aims to reduce the negative effects of this distribution mismatch. Here, we analyze the case where $P_A(Y\ |\ X) \neq P_B(Y\ |\ X)$, $P_A(X) \neq P_B(X)$ but $P_A(Y) = P_B(Y)$; where there are affine transformations of $X$ that makes all distributions equivalent. We propose an approach to project the source and target domains into a lower-dimensional, common space, by (1) projecting the domains into the eigenvectors of the empirical covariance matrices of each domain, then (2) finding an orthogonal matrix that minimizes the maximum mean discrepancy between the projections of both domains. For arbitrary affine transformations, there is an inherent unidentifiability problem when performing unsupervised domain adaptation that can be alleviated in the semi-supervised case. We show the effectiveness of our approach in simulated data and in binary digit classification tasks, obtaining improvements up to 48% accuracy when correcting for the domain shift in the data.
公開日:2022-01-14
翻訳日:2022-01-17 22:50:35
# (参考訳) demystifying swarm learning: ブロックチェーンベースの分散フェデレーション学習の新しいパラダイム [全文訳有]

Demystifying Swarm Learning: A New Paradigm of Blockchain-based Decentralized Federated Learning ( http://arxiv.org/abs/2201.05286v1 )

ライセンス: CC BY 4.0
Jialiang Han, Yun Ma, Yudong Han, Ying Zhang, Gang Huang(参考訳) フェデレーテッド・ラーニング(FL)は、将来有望なプライバシー保護機械学習パラダイムであり、研究者や開発者から注目を集めている。 flはユーザの個人データをデバイスに保持し、ローカルモデルの勾配を交換して、中央のカストディアンの共有ディープラーニング(dl)モデルを協調的にトレーニングする。 しかし、その中央カストディアン機構や星型アーキテクチャは悪意のある攻撃やソフトウェア障害に対して脆弱である可能性があるため、flのセキュリティとフォールトトレランスはますます議論されている。 これらの問題に対処するため、Swarm Learning(SL)では、メンバを安全に参加させ、リーダを動的に選択する権限付きブロックチェーンを導入している。 slに非常に注目されているのに対して、slやブロックチェーンベースの分散flには、ベストプラクティスに関する包括的知識と現実のシナリオにslをデプロイするための予防策を提供する、実証的な研究がほとんどありません。 したがって、私たちは、SLデプロイメントと開発者の間の知識ギャップを埋めるために、今までにない、SLの包括的な研究を行いました。 本稿では,5つの研究課題の3つの公開データセットについて様々な実験を行い,その背景にある理由を定量的に分析し,実践的な提案を行う。 この結果から,データセットのバランス,汚染,あるいは無関係な機能に対する偏りに関わらず,SLがほとんどのアプリケーションシナリオに適していることが証明された。

Federated learning (FL) is an emerging promising privacy-preserving machine learning paradigm and has raised more and more attention from researchers and developers. FL keeps users' private data on devices and exchanges the gradients of local models to cooperatively train a shared Deep Learning (DL) model on central custodians. However, the security and fault tolerance of FL have been increasingly discussed, because its central custodian mechanism or star-shaped architecture can be vulnerable to malicious attacks or software failures. To address these problems, Swarm Learning (SL) introduces a permissioned blockchain to securely onboard members and dynamically elect the leader, which allows performing DL in an extremely decentralized manner. Compared with tremendous attention to SL, there are few empirical studies on SL or blockchain-based decentralized FL, which provide comprehensive knowledge of best practices and precautions of deploying SL in real-world scenarios. Therefore, we conduct the first comprehensive study of SL to date, to fill the knowledge gap between SL deployment and developers, as far as we are concerned. In this paper, we conduct various experiments on 3 public datasets of 5 research questions, present interesting findings, quantitatively analyze the reasons behind these findings, and provide developers and researchers with practical suggestions. The findings have evidenced that SL is supposed to be suitable for most application scenarios, no matter whether the dataset is balanced, polluted, or biased over irrelevant features.
公開日:2022-01-14
翻訳日:2022-01-17 22:36:42
# (参考訳) Argus++: 重複立方体提案による制約のないビデオストリームのロバストリアルタイムアクティビティ検出 [全文訳有]

Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals ( http://arxiv.org/abs/2201.05290v1 )

ライセンス: CC BY 4.0
Lijun Yu, Yijun Qian, Wenhe Liu, and Alexander G. Hauptmann(参考訳) アクティビティ検出は、広くインストールされたカメラでキャプチャされたビデオストリームを利用する魅力的なコンピュータビジョンタスクの1つである。 性能は優れているが、従来のアクティビティ検出アルゴリズムは通常、トリミングやオブジェクト中心のビデオクリップを入力として使用するなど、一定の制約の下で設計されている。 そのため、実世界の制約のないビデオストリームにおけるマルチスケールのマルチインスタンスのケースには対処できなかった。 ストリーミング解析のリアルタイム要求も、そのブルート力拡張を不可能にしている。 これらの問題を解決するために,制約のない動画ストリームを解析する堅牢なリアルタイムアクティビティ検出システムArgus++を提案する。 argus++の設計では、オーバーサンプリングによるアクティビティ検出のカバレッジと完全性を保証するアクティビティ提案の中間概念として、時空間キューブの重複が導入されている。 システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。 CVPR ActivityNet ActEV 2021、NIST ActEV SDL UF/KF、TRECVID ActEV 2020/2021、ICCV ROAD 2021などの一連のアクティビティ検出ベンチマークにおいて、さまざまな監視および運転シナリオに関する大規模な実験は、その優れた性能を示した。

Activity detection is one of the attractive computer vision tasks to exploit the video streams captured by widely installed cameras. Although achieving impressive performance, conventional activity detection algorithms are usually designed under certain constraints, such as using trimmed and/or object-centered video clips as inputs. Therefore, they failed to deal with the multi-scale multi-instance cases in real-world unconstrained video streams, which are untrimmed and have large field-of-views. Real-time requirements for streaming analysis also mark brute force expansion of them unfeasible. To overcome these issues, we propose Argus++, a robust real-time activity detection system for analyzing unconstrained video streams. The design of Argus++ introduces overlapping spatio-temporal cubes as an intermediate concept of activity proposals to ensure coverage and completeness of activity detection through over-sampling. The overall system is optimized for real-time processing on standalone consumer-level hardware. Extensive experiments on different surveillance and driving scenarios demonstrated its superior performance in a series of activity detection benchmarks, including CVPR ActivityNet ActEV 2021, NIST ActEV SDL UF/KF, TRECVID ActEV 2020/2021, and ICCV ROAD 2021.
公開日:2022-01-14
翻訳日:2022-01-17 22:14:48
# (参考訳) 多変数セマンティックオーバーラップタスクの評価とベンチマーク [全文訳有]

Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark ( http://arxiv.org/abs/2201.05294v1 )

ライセンス: CC BY 4.0
Naman Bansal, Mousumi Akter and Shubhra Kanti Karmaker Santu(参考訳) 本稿では,MNSO(Multi-Narrativ e Semantic Overlap)と呼ばれる,複数物語のセマンティックオーバーラップを生成する重要なNLPタスクを紹介する。 このタスクでベンチマークデータセットが利用できないため、Webから2,925の物語ペアをクロールして作成し、人間のアノテータを係合させることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。 このタスクを評価する方法として,まずテキスト要約文献から一般的なルージュ計量を借用して体系的な研究を行い,ルージュが課題に適さないことを発見した。 その後、200の文書レベルと1,518の文レベルの基底ラベルを作成し、sem-f1(semantic f1)と呼ばれる新しい精度リコールスタイル評価指標の作成に役立った。 実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。

In this paper, we introduce an important yet relatively unexplored NLP task called Multi-Narrative Semantic Overlap (MNSO), which entails generating a Semantic Overlap of multiple alternate narratives. As no benchmark dataset is readily available for this task, we created one by crawling 2,925 narrative pairs from the web and then, went through the tedious process of manually creating 411 different ground-truth semantic overlaps by engaging human annotators. As a way to evaluate this novel task, we first conducted a systematic study by borrowing the popular ROUGE metric from text-summarization literature and discovered that ROUGE is not suitable for our task. Subsequently, we conducted further human annotations/validati ons to create 200 document-level and 1,518 sentence-level ground-truth labels which helped us formulate a new precision-recall style evaluation metric, called SEM-F1 (semantic F1). Experimental results show that the proposed SEM-F1 metric yields higher correlation with human judgement as well as higher inter-rater-agreemen t compared to ROUGE metric.
公開日:2022-01-14
翻訳日:2022-01-17 22:00:10
# (参考訳) 何千もの単語が写真より価値がある: 自然言語中心の視覚的質問応答 [全文訳有]

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering ( http://arxiv.org/abs/2201.05299v1 )

ライセンス: CC BY 4.0
Feng Gao, Qing Ping, Govind Thattai, Aishwarya Reganti, Ying Nian Wu, Prem Natarajan(参考訳) out-knowledge visual question answering (ok-vqa) では、エージェントが画像を理解し、web全体から関連する知識を活用し、すべての情報を消化して質問に答える必要がある。 以前の作品の多くは、多くの外部知識とのさらなる融合には柔軟性がないマルチモーダル空間におけるイメージと疑問を最初に解き明かすことでこの問題に対処した。 そこで本稿では,OK-VQAタスクのパラダイムシフトを提案し,画像をプレーンテキストに変換することにより,自然言語空間における知識通路の検索と生成的質問応答を可能にする。 このパラダイムは巨大な知識基盤の膨大な量と事前学習された言語モデルの豊かさを活用する。 Transform-Retrieve-G enerate Framework (TRiG) フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。

Outside-knowledge visual question answering (OK-VQA) requires the agent to comprehend the image, make use of relevant knowledge from the entire web, and digest all the information to answer the question. Most previous works address the problem by first fusing the image and question in the multi-modal space, which is inflexible for further fusion with a vast amount of external knowledge. In this paper, we call for a paradigm shift for the OK-VQA task, which transforms the image into plain text, so that we can enable knowledge passage retrieval, and generative question-answering in the natural language space. This paradigm takes advantage of the sheer volume of gigantic knowledge bases and the richness of pre-trained language models. A Transform-Retrieve-G enerate framework (TRiG) framework is proposed, which can be plug-and-played with alternative image-to-text models and textual knowledge bases. Experimental results show that our TRiG framework outperforms all state-of-the-art supervised methods by at least 11.1% absolute margin.
公開日:2022-01-14
翻訳日:2022-01-17 21:39:18
# (参考訳) ガウス変異を用いた粒子群最適化を用いた骨格に基づく新しい人間活動探索手法 [全文訳有]

A Novel Skeleton-Based Human Activity Discovery Technique Using Particle Swarm Optimization with Gaussian Mutation ( http://arxiv.org/abs/2201.05314v1 )

ライセンス: CC BY 4.0
Parham Hadikhani, Daphne Teck Ching Lai and Wee-Hong Ong(参考訳) 人間の活動発見は、各活動の定義に関する事前情報なしで、人間が行う活動を区別することを目的としている。 人間の行動認識で提示されるほとんどの方法は、システムのトレーニングを行うためのラベル付き入力が存在する。 実際には、その膨大な量と、人間による様々な活動のために、データのラベル付けが困難である。 本稿では,3次元スケルトン配列で人間の活動の発見を行うための新しい非教師なしアプローチを提案する。 まず、重要なフレームを運動エネルギーに基づいて選択する。 次に、その活動情報を表すために、関節の変位、統計、角度、方位の特徴を抽出する。 全ての特徴が有用な情報を持っているわけではないので、PCAを用いて特徴の次元を縮小する。 提案された人間の活動の発見は、完全には監督されていない。 彼らはアクティビティを分類する前に、事前セグメンテーションされたビデオを使用する。 これに対処するために,断片化スライディングタイムウインドウ法を用いて,重複するアクティビティの時系列を分割した。 次に,ガウス突然変異アルゴリズムを用いた新しいハイブリッド粒子群最適化法により,局所的な最適値に留まらないようにする。 最後に、pSOの遅い速度を克服するために、結果セントロイドにk平均が適用される。 3つのデータセットに関する実験を行い, 提案手法は, 評価パラメータのすべてにおいて, 従来の手法と比較して優れたアクティビティ検出性能を示し, 平均4 %以上の精度向上を示した。 https://github.com/p arhamhadikhani/Human -Activity-Discovery- HPGMK

Human activity discovery aims to distinguish the activities performed by humans, without any prior information of what defines each activity. Most methods presented in human activity recognition are supervised, where there are labeled inputs to train the system. In reality, it is difficult to label data because of its huge volume and the variety of activities performed by humans. In this paper, a novel unsupervised approach is proposed to perform human activity discovery in 3D skeleton sequences. First, important frames are selected based on kinetic energy. Next, the displacement of joints, set of statistical, angles, and orientation features are extracted to represent the activities information. Since not all extracted features have useful information, the dimension of features is reduced using PCA. Most human activity discovery proposed are not fully unsupervised. They use pre-segmented videos before categorizing activities. To deal with this, we used the fragmented sliding time window method to segment the time series of activities with some overlapping. Then, activities are discovered by a novel hybrid particle swarm optimization with a Gaussian mutation algorithm to avoid getting stuck in the local optimum. Finally, k-means is applied to the outcome centroids to overcome the slow rate of PSO. Experiments on three datasets have been presented and the results show the proposed method has superior performance in discovering activities in all evaluation parameters compared to the other state-of-the-art methods and has increased accuracy of at least 4 % on average. The code is available here: https://github.com/p arhamhadikhani/Human -Activity-Discovery- HPGMK
公開日:2022-01-14
翻訳日:2022-01-17 21:11:54
# (参考訳) ctボリュームからの胃の半自動仮想展開ビュー生成法 [全文訳有]

Semi-automated Virtual Unfolded View Generation Method of Stomach from CT Volumes ( http://arxiv.org/abs/2201.05331v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Tomoaki Suito, Yuichiro Hayashi, Takayuki Kitasaka, Kazuhiro Furukawa, Ryoji Miyahara, Yoshiki Hirooka, Hidemi Goto, Gen Iinuma, Kazunari Misawa, Shigeru Nawano, Kensaku Mori(参考訳) 新しい診断法としてct画像を用いた胃の診断法を開発した。 仮想展開(VU)ビューは、その壁を表示するのに適している。 本稿では,胃のVUビューを生成するための半自動手法を提案する。 我々の方法は最低限の手動操作を必要とする。 展開力の決定と展開過程の終了は自動化される。 胃の折りたたみ形状は、その半径に基づいて推定される。 展開力は、胃壁が期待形状に変形するように決定される。 変形形状と期待形状との形状差が小さい場合には、反復変形工程を終了させる。 67個のCTボリュームを用いた実験により,76.1%の症例で良好なVUビューが得られた。

CT image-based diagnosis of the stomach is developed as a new way of diagnostic method. A virtual unfolded (VU) view is suitable for displaying its wall. In this paper, we propose a semi-automated method for generating VU views of the stomach. Our method requires minimum manual operations. The determination of the unfolding forces and the termination of the unfolding process are automated. The unfolded shape of the stomach is estimated based on its radius. The unfolding forces are determined so that the stomach wall is deformed to the expected shape. The iterative deformation process is terminated if the difference of the shapes between the deformed shape and expected shape is small. Our experiments using 67 CT volumes showed that our proposed method can generate good VU views for 76.1% cases.
公開日:2022-01-14
翻訳日:2022-01-17 20:53:45
# (参考訳) トランスベース事前学習言語モデルを用いた制御可能なテキスト生成に関する調査

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models ( http://arxiv.org/abs/2201.05337v1 )

ライセンス: CC0 1.0
Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, Dawei Song(参考訳) 制御可能なテキスト生成(CTG)は、自然言語生成(NLG)分野における新興分野である。 これは、より自然で実用的な応用における特定の制約を満たす高度なテキスト生成技術の発達に欠かせないものと考えられている。 近年、大規模な事前学習言語モデル(PLM)を用いた手法、特に広く使われているトランスフォーマーベースのPLMは、NLGの新しいパラダイムとなり、より多種多様な流動的なテキストを生成することができる。 しかしながら、ディープニューラルネットワークの解釈可能性が低いため、これらの方法の制御性が保証される必要がある。 この目的のために、トランスフォーマーベースのPLMを用いた制御可能なテキスト生成は、急速に成長するが、新しい研究ホットスポットとなっている。 過去3~4年間に様々なアプローチが出現し、異なる種類の制御制約を必要とする様々なCTGタスクをターゲットにしている。 本稿では,この分野における共通課題,主なアプローチ,評価手法について,系統的な批判的考察を行う。 最後に、この分野が直面している課題について議論し、様々な将来的な方向性を提示する。 私たちの知る限りでは、plmの観点からctg技術を要約した最初の調査論文となる。 関連分野の研究者が学術的なフロンティアを素早く追跡し、その領域の風景と今後の研究のロードマップを提供するのに役立つことを期待している。

Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that are more natural and better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the lower level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks which may require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize CTG techniques from the perspective of PLMs. We hope it can help researchers in related fields to quickly track the academic frontier, providing them with a landscape of the area and a roadmap for future research.
公開日:2022-01-14
翻訳日:2022-01-17 20:48:04
# (参考訳) AWSnet:マルチシーケンス磁気共鳴画像における心筋スカーと浮腫セグメンテーションのための自動重み付きスーパービジョンアテンションネットワーク [全文訳有]

AWSnet: An Auto-weighted Supervision Attention Network for Myocardial Scar and Edema Segmentation in Multi-sequence Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2201.05344v1 )

ライセンス: CC BY 4.0
Kai-Ni Wang, Xin Yang, Juzheng Miao, Lei Li, Jing Yao, Ping Zhou, Wufeng Xue, Guang-Quan Zhou, Xiahai Zhuang, Dong Ni(参考訳) multi-sequence heart magnetic resonance (cmr) は心筋梗塞の診断に必須の病理情報(scar, edema)を提供する。 しかし,多列cmrデータからの基礎情報を効果的に探索することが困難であるため,病理自動分割は困難である。 本稿では,多列CMRからの傷痕と浮腫のセグメンテーションを,教師層間の相互作用を強化学習を用いて検討する,新しい自己重み付け監視フレームワークを用いて解決することを目的とする。 さらに, より小さな心筋病変領域の分画を, より詳細な知識で促進する枠組みを考案した。 粗い分節モデルは左心室の心筋構造を予め形状として識別し,細部分節モデルはピクセル毎の注意戦略と自己重み付き監督モデルを統合し,多列cmrデータから有意な病理構造を学習し抽出する。 マルチシーケンスcmr(myops 2020)を併用した心筋病理学セグメンテーションの公開データセットの広範な実験結果から,本手法は他の最先端法と比較して有望な性能が得られることを示した。 マルチシーケンスcmrデータを用いた心筋病理評価の進歩を期待する。 コミュニティを動機づけるため、私たちはhttps://github.com/s oleilssss/AWSnet/tre e/masterを通じてコードを公開しました。

Multi-sequence cardiac magnetic resonance (CMR) provides essential pathology information (scar and edema) to diagnose myocardial infarction. However, automatic pathology segmentation can be challenging due to the difficulty of effectively exploring the underlying information from the multi-sequence CMR data. This paper aims to tackle the scar and edema segmentation from multi-sequence CMR with a novel auto-weighted supervision framework, where the interactions among different supervised layers are explored under a task-specific objective using reinforcement learning. Furthermore, we design a coarse-to-fine framework to boost the small myocardial pathology region segmentation with shape prior knowledge. The coarse segmentation model identifies the left ventricle myocardial structure as a shape prior, while the fine segmentation model integrates a pixel-wise attention strategy with an auto-weighted supervision model to learn and extract salient pathological structures from the multi-sequence CMR data. Extensive experimental results on a publicly available dataset from Myocardial pathology segmentation combining multi-sequence CMR (MyoPS 2020) demonstrate our method can achieve promising performance compared with other state-of-the-art methods. Our method is promising in advancing the myocardial pathology assessment on multi-sequence CMR data. To motivate the community, we have made our code publicly available via https://github.com/s oleilssss/AWSnet/tre e/master.
公開日:2022-01-14
翻訳日:2022-01-17 20:46:58
# (参考訳) StAnD:線形静的解析問題のデータセット [全文訳有]

StAnD: A Dataset of Linear Static Analysis Problems ( http://arxiv.org/abs/2201.05356v1 )

ライセンス: CC BY 4.0
Luca Grementieri, Francesco Finelli(参考訳) 構造物の静的解析は構造物の安定性を決定するための基本的なステップである。 線形および非線形静的解析は、有限要素法により得られるスパース線形系の分解から成り立っている。 構造工学に現れる疎線形系に対する高速で最適化された解法の開発には、既存のアプローチを比較したり、アルゴリズムをチューニングしたり、新しいアイデアを評価するためのデータが必要である。 本研究では,シミュレーションフレーム構造に実負荷を適用した303.000の静的解析問題を含む静的解析データセット(stand)を提案する。 データセットとともに、CPUとGPUの両方で既存のソルバの実行時間を詳細なベンチマークで比較する。 Githubでデータセットを生成し、既存のソルバをベンチマークするために使用されるコードをリリースします。 私たちの知る限りでは、これは静的解析問題の最大のデータセットであり、スパース線形系(行列と現実的な定数項の両方を含む)の最初の公開データセットである。

Static analysis of structures is a fundamental step for determining the stability of structures. Both linear and non-linear static analyses consist of the resolution of sparse linear systems obtained by the finite element method. The development of fast and optimized solvers for sparse linear systems appearing in structural engineering requires data to compare existing approaches, tune algorithms or to evaluate new ideas. We introduce the Static Analysis Dataset (StAnD) containing 303.000 static analysis problems obtained applying realistic loads to simulated frame structures. Along with the dataset, we publish a detailed benchmark comparison of the running time of existing solvers both on CPU and GPU. We release the code used to generate the dataset and benchmark existing solvers on Github. To the best of our knowledge, this is the largest dataset for static analysis problems and it is the first public dataset of sparse linear systems (containing both the matrix and a realistic constant term).
公開日:2022-01-14
翻訳日:2022-01-17 20:16:48
# (参考訳) マルチタスク学習とBERT埋め込みによる極性と主観性検出 [全文訳有]

Polarity and Subjectivity Detection with Multitask Learning and BERT Embedding ( http://arxiv.org/abs/2201.05363v1 )

ライセンス: CC BY 4.0
Ranjan Satapathy, Shweta Pardeshi, Erik Cambria(参考訳) マルチタスク学習は、互いに依存することが多く、ジョイントフレームワークで解決した場合にパフォーマンスが向上するので、関連するタスクのパフォーマンスを改善するのに役立つ。 本稿では,極性と主観的検出を共同で行う深層マルチタスク学習フレームワークを提案する。 極性と主観性を予測するための注意に基づくマルチタスクモデルを提案する。 入力文は、事前訓練されたBERTとGlove埋め込みを用いてベクトルに変換し、BERT埋め込みベースのモデルはGloveベースモデルよりもうまく動作することを示す。 本手法を主観的および極性分類シングルタスクおよびマルチタスクフレームワークの最先端モデルと比較した。 提案手法は,極性検出と主観性検出の両方において基礎的性能を示す。

Multitask learning often helps improve the performance of related tasks as these often have inter-dependence on each other and perform better when solved in a joint framework. In this paper, we present a deep multitask learning framework that jointly performs polarity and subjective detection. We propose an attention-based multitask model for predicting polarity and subjectivity. The input sentences are transformed into vectors using pre-trained BERT and Glove embeddings, and the results depict that BERT embedding based model works better than the Glove based model. We compare our approach with state-of-the-art models in both subjective and polarity classification single-task and multitask frameworks. The proposed approach reports baseline performances for both polarity detection and subjectivity detection.
公開日:2022-01-14
翻訳日:2022-01-17 20:06:23
# (参考訳) ソフトウェアテストにおける人工知能 : 影響、問題、課題、展望 [全文訳有]

Artificial Intelligence in Software Testing : Impact, Problems, Challenges and Prospect ( http://arxiv.org/abs/2201.05371v1 )

ライセンス: CC BY 4.0
Zubair Khaliq, Sheikh Umar Farooq, Dawood Ashraf Khan(参考訳) AIは、スマートファクトリーの管理、自動運転車の運転、正確な天気予報の作成、がんやパーソナルアシスタントの検出など、さまざまな役割を果たすことができる。 ソフトウェアテストは、ソフトウェアの異常な振る舞いをテストするためにソフトウェアを配置するプロセスである。 ソフトウェアテストは退屈で、手間がかかり、最も時間がかかるプロセスです。 テストプロセスのアクティビティを自動化して品質とタイムリーなデリバリを促進するための自動化ツールが開発されている。 継続的インテグレーションと継続的デリバリ(ci/cd)パイプラインの導入によって、自動化ツールの効果は低下している。 テストコミュニティは、AIが人間の介入なしに、そして人間よりもはるかに高速に、バグやエラーのコードをチェックできるため、ギャップを埋めるためにAIに目を向けている。 本研究では,STLCにおける各種ソフトウェアテスト活動やファセットに対するAI技術の影響を認識することを目的とする。 さらにこの研究は、テストにAIを適用しながら、ソフトウェアテスタが直面する最大の課題を認識し、説明することを目的としている。 また、ソフトウェアテストの分野におけるAIの今後の重要な貢献についても提案する。

Artificial Intelligence (AI) is making a significant impact in multiple areas like medical, military, industrial, domestic, law, arts as AI is capable to perform several roles such as managing smart factories, driving autonomous vehicles, creating accurate weather forecasts, detecting cancer and personal assistants, etc. Software testing is the process of putting the software to test for some abnormal behaviour of the software. Software testing is a tedious, laborious and most time-consuming process. Automation tools have been developed that help to automate some activities of the testing process to enhance quality and timely delivery. Over time with the inclusion of continuous integration and continuous delivery (CI/CD) pipeline, automation tools are becoming less effective. The testing community is turning to AI to fill the gap as AI is able to check the code for bugs and errors without any human intervention and in a much faster way than humans. In this study, we aim to recognize the impact of AI technologies on various software testing activities or facets in the STLC. Further, the study aims to recognize and explain some of the biggest challenges software testers face while applying AI to testing. The paper also proposes some key contributions of AI in the future to the domain of software testing.
公開日:2022-01-14
翻訳日:2022-01-17 19:58:47
# (参考訳) mriを用いた新しい深層ハイブリッドブースト・アンサンブル学習型脳腫瘍解析 [全文訳有]

A New Deep Hybrid Boosted and Ensemble Learning-based Brain Tumor Analysis using MRI ( http://arxiv.org/abs/2201.05373v1 )

ライセンス: CC BY 4.0
Mirza Mumtaz Zahoor, Shahzad Ahmad Qureshi, Saddam Hussain Khan, Asifullah Khan(参考訳) 脳腫瘍解析は、患者を治療するためのタイムリーな診断と効果的な治療において重要である。 腫瘍解析は、サイズ、位置、テクスチャ、および医用画像の異形性などの腫瘍形態が原因で困難である。 本研究では,脳腫瘍をMRI(MRI)で検出・分類するために,新しい2相深層学習フレームワークを提案する。 第1フェーズでは、健康な人から腫瘍MRI画像を検出するために、新しい深層化特徴とアンサンブル分類器(DBF-EC)方式が提案されている。 深く強化された特徴空間は、カスタマイズされ、よく機能する深層畳み込みニューラルネットワーク(CNN)を通じて達成され、結果として機械学習(ML)分類器のアンサンブルに投入される。 第2フェーズでは, 融合型脳腫瘍分類法とML分類法を併用し, 腫瘍の種類を分類する手法が提案されている。 提案したBRAIN-RENet CNNから動的特徴を抽出し,各腫瘍の異型性および不整合性を慎重に学習し,静的特徴をHOGを用いて抽出する。 提案する2相脳腫瘍解析フレームワークの有効性は, グリオーマ, 髄膜腫, 下垂体, 正常画像を含むカグルとフィグシェアの2つの標準ベンチマークデータセットで検証された。 実験の結果、提案されたDBF-EC検出方式は性能が優れ、精度99.56%、精度0.9991、リコール0.9899、F1スコア0.9945、MCC0.9892、AUC-PR0.9990が達成された。 分類体系では,提案する脳-網とhog特徴の融合により,リコール(0.9913),精度(0.9906),f1-score(0. 9909),正確度(99.20%)が大幅に向上する。

Brain tumors analysis is important in timely diagnosis and effective treatment to cure patients. Tumor analysis is challenging because of tumor morphology like size, location, texture, and heteromorphic appearance in the medical images. In this regard, a novel two-phase deep learning-based framework is proposed to detect and categorize brain tumors in magnetic resonance images (MRIs). In the first phase, a novel deep boosted features and ensemble classifiers (DBF-EC) scheme is proposed to detect tumor MRI images from healthy individuals effectively. The deep boosted feature space is achieved through the customized and well-performing deep convolutional neural networks (CNNs), and consequently, fed into the ensemble of machine learning (ML) classifiers. While in the second phase, a new hybrid features fusion-based brain tumor classification approach is proposed, comprised of dynamic-static feature and ML classifier to categorize different tumor types. The dynamic features are extracted from the proposed BRAIN-RENet CNN, which carefully learns heteromorphic and inconsistent behavior of various tumors, while the static features are extracted using HOG. The effectiveness of the proposed two-phase brain tumor analysis framework is validated on two standard benchmark datasets; collected from Kaggle and Figshare containing different types of tumor, including glioma, meningioma, pituitary, and normal images. Experimental results proved that the proposed DBF-EC detection scheme outperforms and achieved accuracy (99.56%), precision (0.9991), recall (0.9899), F1-Score (0.9945), MCC (0.9892), and AUC-PR (0.9990). While the classification scheme, the joint employment of the deep features fusion of proposed BRAIN-RENet and HOG features improves performance significantly in terms of recall (0.9913), precision (0.9906), F1-Score (0.9909), and accuracy (99.20%) on diverse datasets.
公開日:2022-01-14
翻訳日:2022-01-17 19:40:09
# (参考訳) SRVIO: 動的環境のための超ロバスト視覚慣性オドメトリーとループ閉鎖条件 [全文訳有]

SRVIO: Super Robust Visual Inertial Odometry for dynamic environments and challenging Loop-closure conditions ( http://arxiv.org/abs/2201.05386v1 )

ライセンス: CC BY 4.0
Ali Samadzadeh, Ahmad Nickabadi(参考訳) 視覚局在やオドメトリー問題は、自律ロボットや自動車の分野でよく知られた課題である。 伝統的に、この問題はライダーのような高価なセンサーの助けを借りて対処することができる。 近年,カメラやimusなどの経済センサを用いたロバストな位置決めに関する研究が盛んである。 これらのセンサーに基づく幾何学的手法は、不安定な照明と動的物体の無い通常の条件ではかなり良い。 これらの手法は、このような困難な環境において大きな損失と分散を被る。 研究者たちはこの問題を緩和するためにディープニューラルネットワーク(DNN)を救世主として利用するようになった。 DNNを使うことの背景にある主な考え方は、データ内の問題をよりよく理解し、複雑な条件(例えば、カメラの前の動的オブジェクト、極端な照明条件、トラックを高速に保つなど)を克服することであった。 しかし、これらすべてのシナリオに対する汎用的で堅牢なフレームワークは提供されていない。 本稿では、幾何学的SLAMフレームワークの長所と、DNNの支援による残りの課題を克服するために、幾何学的手法とDNNに基づく手法を組み合わせる。 そのために、Vins-Monoフレームワーク(これまででもっとも堅牢で正確なフレームワーク)を修正し、幾何学的およびエンドツーエンドのDNNベースのSLAMと比較して、TUM-Dynamic、TUM-VI、ADVIO、EuRoCデータセットの最先端結果を実現しました。 提案フレームワークは,先述した課題に類似した極端なシミュレートケースに対して,許容できる結果を得ることができた。

The visual localization or odometry problem is a well-known challenge in the field of autonomous robots and cars. Traditionally, this problem can ba tackled with the help of expensive sensors such as lidars. Nowadays, the leading research is on robust localization using economic sensors, such as cameras and IMUs. The geometric methods based on these sensors are pretty good in normal conditions withstable lighting and no dynamic objects. These methods suffer from significant loss and divergence in such challenging environments. The scientists came to use deep neural networks (DNNs) as the savior to mitigate this problem. The main idea behind using DNNs was to better understand the problem inside the data and overcome complex conditions (such as a dynamic object in front of the camera, extreme lighting conditions, keeping the track at high speeds, etc.) The prior endto-end DNN methods are able to overcome some of the mentioned challenges. However, no general and robust framework for all of these scenarios is available. In this paper, we have combined geometric and DNN based methods to have the pros of geometric SLAM frameworks and overcome the remaining challenges with the DNNs help. To do this, we have modified the Vins-Mono framework (the most robust and accurate framework till now) and we were able to achieve state-of-the-art results on TUM-Dynamic, TUM-VI, ADVIO and EuRoC datasets compared to geometric and end-to-end DNN based SLAMs. Our proposed framework was also able to achieve acceptable results on extreme simulated cases resembling the challenges mentioned earlier easy.
公開日:2022-01-14
翻訳日:2022-01-17 19:28:44
# (参考訳) 電子健康記録の合成:嚢胞性線維症患者グループ [全文訳有]

Synthesising Electronic Health Records: Cystic Fibrosis Patient Group ( http://arxiv.org/abs/2201.05400v1 )

ライセンス: CC BY 4.0
Emily Muller, Xu Zheng, Jer Hayes(参考訳) クラス不均衡はしばしば教師付き学習アルゴリズムの予測性能を低下させる。 バランスの取れたクラスは、正確なコピーをオーバーサンプリングしたり、ノイズを付けたり、近隣の(従来のSMOTEメソッドのように)補間することで得る。 コンピュータビジョンタスクで典型的である拡張を用いた表形式のデータのオーバーサンプリングは、深い生成モデルによって達成できる。 深層生成モデル(deep generative models)は、複雑な分布をキャプチャする能力があるため、効果的なデータ合成器である。 医療における合成データは、患者のプライバシーを確保することで、医療提供者間の相互運用性を高めることができる。 医療における機械学習は、小さな患者グループをうまく表現できる大規模な合成データセットを備えており、バイアスと一般化可能性の現在の課題に対処することができる。 本稿では患者電子健康記録を合成する合成データ生成機能について検討する。 患者結果分類のための合成データの有用性を検証し、不均衡なデータセットを合成データで増強する際の予測性能の向上を観察する。

Class imbalance can often degrade predictive performance of supervised learning algorithms. Balanced classes can be obtained by oversampling exact copies, with noise, or interpolation between nearest neighbours (as in traditional SMOTE methods). Oversampling tabular data using augmentation, as is typical in computer vision tasks, can be achieved with deep generative models. Deep generative models are effective data synthesisers due to their ability to capture complex underlying distributions. Synthetic data in healthcare can enhance interoperability between healthcare providers by ensuring patient privacy. Equipped with large synthetic datasets which do well to represent small patient groups, machine learning in healthcare can address the current challenges of bias and generalisability. This paper evaluates synthetic data generators ability to synthesise patient electronic health records. We test the utility of synthetic data for patient outcome classification, observing increased predictive performance when augmenting imbalanced datasets with synthetic data.
公開日:2022-01-14
翻訳日:2022-01-17 19:04:42
# (参考訳) 早期停止を伴うモーメントム勾配の急激な規則化 [全文訳有]

The Implicit Regularization of Momentum Gradient Descent with Early Stopping ( http://arxiv.org/abs/2201.05405v1 )

ライセンス: CC BY 4.0
Li Wang (1), Yingcong Zhou (2), Zhiguo Fu (1) ((1) Northeast Normal University, (2) Beihua University)(参考訳) 勾配に基づく最適化によって引き起こされる暗黙の正則化の研究は長年の追求である。 本稿では,運動量勾配降下 (mgd) の暗黙的な正則化を,明示的な $\ell_2$-regularizat ion (ridge) との比較により早期停止と特徴付ける。 詳しくは,mgdを連続時間視点,いわゆる運動量勾配流(mgf)で検討し,その傾向が勾配勾配流 (gd) [ali et al., 2019] よりも少なくとも二乗回帰の方が尾根に近いことを示した。 さらに、キャリブレーション$t=\sqrt{2/\lambda}$では、$t$はMGFの時間パラメータであり、$\lambda$はリッジ回帰のチューニングパラメータであり、MGFのリスクはリッジの1.54倍以下であることを示す。 特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。 数値実験は我々の理論結果を強く支持する。

The study on the implicit regularization induced by gradient-based optimization is a longstanding pursuit. In the present paper, we characterize the implicit regularization of momentum gradient descent (MGD) with early stopping by comparing with the explicit $\ell_2$-regularizat ion (ridge). In details, we study MGD in the continuous-time view, so-called momentum gradient flow (MGF), and show that its tendency is closer to ridge than the gradient descent (GD) [Ali et al., 2019] for least squares regression. Moreover, we prove that, under the calibration $t=\sqrt{2/\lambda}$, where $t$ is the time parameter in MGF and $\lambda$ is the tuning parameter in ridge regression, the risk of MGF is no more than 1.54 times that of ridge. In particular, the relative Bayes risk of MGF to ridge is between 1 and 1.035 under the optimal tuning. The numerical experiments support our theoretical results strongly.
公開日:2022-01-14
翻訳日:2022-01-17 18:54:12
# (参考訳) 拡張的埋め込みに基づく検索のためのプログレッシブ最適化バイグラニュラー文書表現 [全文訳有]

Progressively Optimized Bi-Granular Document Representation for Scalable Embedding Based Retrieval ( http://arxiv.org/abs/2201.05409v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Chaozhuo Li, Yingxia Shao, Defu Lian, Xing Xie, Hao Sun, Denvy Deng, Liangjie Zhang, Qi Zhang(参考訳) アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。 近年,組込み型検索(EBR)が有望なソリューションとなり,ディープラーニングベースの文書表現とANN検索技術が連携してこの課題に対処している。 しかし、大きな課題は、回答コーパスの大きさを考えると、anインデックスがメモリに収まるには大きすぎる可能性があることである。 そこで本研究では, 粗い候補探索のために, 軽量なスパース埋め込みをインデックス化し, メモリ上に待機し, 重厚な密埋め込みをディスクにホストし, 詳細なポスト検証を行うBi-Granular Document Representationを用いてこの問題に対処する。 検索精度の良さから、プログレッシブ最適化フレームワークが設計されている。 まばらな埋め込みは、候補者の質の高い検索のために事前に学習される。 スパース埋め込みによって誘導される候補分布を条件に, 埋込み密度を連続的に学習し, 短絡した候補からの接地真実の識別を最適化する。 また, 正規化法と局所性中心サンプリング法という2つの手法が, ばらばらで密接な埋め込みの学習に導入され, その性能に大きく寄与している。 以上の特徴により,本手法は,大規模コーパスにおいて最大4.3%のリコールゲイン,10億のコーパスで最大17.5%のリコールゲインを有する大規模ebrを効果的に処理する。 さらに,本手法は,収益(+1.95%),リコール(+1.01%),CTR(+0.49%)に大きく貢献する主要な検索プラットフォームに適用される。

Ad-hoc search calls for the selection of appropriate answers from a massive-scale corpus. Nowadays, the embedding-based retrieval (EBR) becomes a promising solution, where deep learning based document representation and ANN search techniques are allied to handle this task. However, a major challenge is that the ANN index can be too large to fit into memory, given the considerable size of answer corpus. In this work, we tackle this problem with Bi-Granular Document Representation, where the lightweight sparse embeddings are indexed and standby in memory for coarse-grained candidate search, and the heavyweight dense embeddings are hosted in disk for fine-grained post verification. For the best of retrieval accuracy, a Progressive Optimization framework is designed. The sparse embeddings are learned ahead for high-quality search of candidates. Conditioned on the candidate distribution induced by the sparse embeddings, the dense embeddings are continuously learned to optimize the discrimination of ground-truth from the shortlisted candidates. Besides, two techniques: the contrastive quantization and the locality-centric sampling are introduced for the learning of sparse and dense embeddings, which substantially contribute to their performances. Thanks to the above features, our method effectively handles massive-scale EBR with strong advantages in accuracy: with up to +4.3% recall gain on million-scale corpus, and up to +17.5% recall gain on billion-scale corpus. Besides, Our method is applied to a major sponsored search platform with substantial gains on revenue (+1.95%), Recall (+1.01%) and CTR (+0.49%).
公開日:2022-01-14
翻訳日:2022-01-17 18:39:27
# (参考訳) 機械学習における安全性保証の因果モデル [全文訳有]

A causal model of safety assurance for machine learning ( http://arxiv.org/abs/2201.05451v1 )

ライセンス: CC BY 4.0
Simon Burton(参考訳) 本稿では,MLベースのアプリケーションに有効な安全保証ケースを構築するための,安全性の因果モデルに基づくフレームワークを提案する。 そこで我々は,安全工学の確立した原則と,MLの保証議論を構造化する以前の取り組みを構築した。 本論文は,安全事例証拠の4つのカテゴリと,これらの証拠を効果的に組み合わせた構造化解析手法を定義する。 これらの貢献の適切で抽象的な形式化は、彼らが評価する因果関係、安全論への貢献、証拠の望ましい性質を説明するために使われる。 提案した枠組みに基づいて,本分野の進展を再評価し,本分野の具体的な進展を示すための今後の研究方向性について検討する。

This paper proposes a framework based on a causal model of safety upon which effective safety assurance cases for ML-based applications can be built. In doing so, we build upon established principles of safety engineering as well as previous work on structuring assurance arguments for ML. The paper defines four categories of safety case evidence and a structured analysis approach within which these evidences can be effectively combined. Where appropriate, abstract formalisations of these contributions are used to illustrate the causalities they evaluate, their contributions to the safety argument and desirable properties of the evidences. Based on the proposed framework, progress in this area is re-evaluated and a set of future research directions proposed in order for tangible progress in this field to be made.
公開日:2022-01-14
翻訳日:2022-01-17 18:14:30
# (参考訳) sympocnet: 最適制御問題の解法と高次元マルチエージェント経路計画問題への応用 [全文訳有]

SympOCnet: Solving optimal control problems with applications to high-dimensional multi-agent path planning problems ( http://arxiv.org/abs/2201.05475v1 )

ライセンス: CC BY 4.0
Tingwei Meng and Zhen Zhang and J\'er\^ome Darbon and George Em Karniadakis(参考訳) 近年のドローンの普及に伴い,多エージェント経路計画問題への応用が注目されているため,高次元最適制御問題をリアルタイムに解くことは重要ではあるが難しい問題である。 本稿では,Symphlectic Network を用いて状態制約を用いた高次元最適制御問題を解くSympOCnet という新しいニューラルネットワーク手法を提案する。 二次元空間と三次元空間における経路計画問題の数値計算結果について述べる。 具体的には,SympOCnetが1つのGPU上で1.5時間で500次元以上の問題を解くことを示し,SympOCnetの有効性と効率を示す。 提案手法はスケーラブルで,真の高次元経路計画問題をリアルタイムに解くことができる。

Solving high-dimensional optimal control problems in real-time is an important but challenging problem, with applications to multi-agent path planning problems, which have drawn increased attention given the growing popularity of drones in recent years. In this paper, we propose a novel neural network method called SympOCnet that applies the Symplectic network to solve high-dimensional optimal control problems with state constraints. We present several numerical results on path planning problems in two-dimensional and three-dimensional spaces. Specifically, we demonstrate that our SympOCnet can solve a problem with more than 500 dimensions in 1.5 hours on a single GPU, which shows the effectiveness and efficiency of SympOCnet. The proposed method is scalable and has the potential to solve truly high-dimensional path planning problems in real-time.
公開日:2022-01-14
翻訳日:2022-01-17 18:02:02
# (参考訳) パーソナライゼーションとプライバシのための分散ロボット学習 [全文訳有]

Decentralized Robot Learning for Personalization and Privacy ( http://arxiv.org/abs/2201.05527v1 )

ライセンス: CC BY 4.0
Luke Guerdan, Hatice Gunes(参考訳) 学習支援から協力まで、社会ロボットは日常生活の多くの側面を強化することを約束する。 しかし、社会ロボットは、(1)新しいユーザーに対して自分の行動に適応せず、(2)十分なプライバシー保護を提供していないという理由から、広く普及していない。 集中学習は、ロボットがサーバー上でデータを収集することでスキルを発達させることで、新しい体験のオンライン学習を防ぎ、プライバシに敏感なデータの保存を必要とすることによって、これらの制限に寄与する。 本研究では,ソーシャルロボットのプライバシとパーソナライゼーションを改善する分散型学習手法を提案する。 協調学習と連続学習という2つの機械学習のアプローチを組み合わせることで、ロボットに物理的に分散したインタラクションダイナミクスを捉える。 分散ロボット学習シナリオにおいてバランスをとるべき基準を定義した。 また,ロボット間の関連パラメータと複数の人間とのインタラクションを保存するために,重要度に基づく正規化を利用した新しいアルゴリズムであるelastic transferを開発した。 本稿では,分散学習が,概念実証型社会認識ナビゲーションドメインにおける集中学習の代替となることを示すとともに,Elastic Transferが提案したいくつかの基準をどのように改善するかを実証する。

From learning assistance to companionship, social robots promise to enhance many aspects of daily life. However, social robots have not seen widespread adoption, in part because (1) they do not adapt their behavior to new users, and (2) they do not provide sufficient privacy protections. Centralized learning, whereby robots develop skills by gathering data on a server, contributes to these limitations by preventing online learning of new experiences and requiring storage of privacy-sensitive data. In this work, we propose a decentralized learning alternative that improves the privacy and personalization of social robots. We combine two machine learning approaches, Federated Learning and Continual Learning, to capture interaction dynamics distributed physically across robots and temporally across repeated robot encounters. We define a set of criteria that should be balanced in decentralized robot learning scenarios. We also develop a new algorithm -- Elastic Transfer -- that leverages importance-based regularization to preserve relevant parameters across robots and interactions with multiple humans. We show that decentralized learning is a viable alternative to centralized learning in a proof-of-concept Socially-Aware Navigation domain, and demonstrate how Elastic Transfer improves several of the proposed criteria.
公開日:2022-01-14
翻訳日:2022-01-17 17:20:22
# (参考訳) 強化学習に基づく航空戦闘演習生成 [全文訳有]

Reinforcement Learning based Air Combat Maneuver Generation ( http://arxiv.org/abs/2201.05528v1 )

ライセンス: CC BY 4.0
Muhammed Murat Ozbek and Emre Koyuncu(参考訳) 人工知能技術の出現により、多くの研究が航空戦闘部門内で行われるようになった。 学者や他の多くの研究者は、UAVの自律的な操作決定と呼ばれる顕著な研究方向の研究を行った。 詳細な研究によっていくつかの成果が得られたが、強化学習(rl)を含む決定はより効率的であることが判明した。 最適な方法でエージェントを目標に到達させるための研究や実験が数多く行われており、最も顕著なのは遺伝的アルゴリズム(ga)、星、rrt、その他の様々な最適化技術である。 しかし、強化学習はその成功でよく知られている。 DARPHA Alpha Dogfight Trialsでは、ボーイングの訓練を受けた実戦のF16パイロットに対して強化学習が行われた。 この後継モデルはheron systemsによって開発された。 この成果の後、強化学習は自分自身に大きな注目を集めた。 本研究では,双発車両の動的特性を持つUAVをTD3(Twin Delayed Deep Deterministic Policy Gradients)を用いて最適経路で2次元空間で目標に移動させ,HER(Hindsight Experience Replay)を経験的に再現することを目的とした。 2つの異なる環境でテストを行い、シミュレーションを使いました。

The advent of artificial intelligence technology paved the way of many researches to be made within air combat sector. Academicians and many other researchers did a research on a prominent research direction called autonomous maneuver decision of UAV. Elaborative researches produced some outcomes, but decisions that include Reinforcement Learning(RL) came out to be more efficient. There have been many researches and experiments done to make an agent reach its target in an optimal way, most prominent are Genetic Algorithm(GA) , A star, RRT and other various optimization techniques have been used. But Reinforcement Learning is the well known one for its success. In DARPHA Alpha Dogfight Trials, reinforcement learning prevailed against a real veteran F16 human pilot who was trained by Boeing. This successor model was developed by Heron Systems. After this accomplishment, reinforcement learning bring tremendous attention on itself. In this research we aimed our UAV which has a dubin vehicle dynamic property to move to the target in two dimensional space in an optimal path using Twin Delayed Deep Deterministic Policy Gradients (TD3) and used in experience replay Hindsight Experience Replay(HER).We did tests on two different environments and used simulations.
公開日:2022-01-14
翻訳日:2022-01-17 17:06:21
# (参考訳) BandMaxSAT: マルチアームバンド付きローカル検索MaxSATソルバー [全文訳有]

BandMaxSAT: A Local Search MaxSAT Solver with Multi-armed Bandit ( http://arxiv.org/abs/2201.05544v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-min Li and Felip Manya(参考訳) そこで我々は,MaxSAT問題の2つの実用的な一般化であるPartial MaxSAT (PMS) と Weighted PMS (WPMS) に対処し,これらの問題に対する探索方向の導出にマルチアームバンディットを適用したBandMaxSATと呼ばれる局所探索アルゴリズムを提案する。 提案手法のバンディットは入力(W)PMSインスタンスのすべてのソフト節と関連付けられている。 各アームはソフトな節に対応する。 バンドイットモデルは、現在のステップ、すなわち引き出すアームを選択する際に満足するソフト節を選択することにより、バンドイットが局所視眼から脱出するための良い方向を選択するのを助けることができる。 さらに,初期解を生成する際に,単位節とバイナリ節の両方を優先する(w)pmsの初期化手法を提案する。 広汎な実験により、BandMaxSATは最先端(W)PMS局所探索アルゴリズムSATLike3.0を大きく上回っている。 具体的には、BandMaxSATがより良い結果を得るインスタンス数はSATLike3.0の約2倍である。 さらに、BandMaxSATと完全な解決器TT-Open-WBO-Incを組み合わせる。 その結果、BandMaxSAT-cはSATLike-c、Loandra、TT-Open-WBO-Incなど、最先端の完全(W)PMSソルバよりも優れている。

We address Partial MaxSAT (PMS) and Weighted PMS (WPMS), two practical generalizations of the MaxSAT problem, and propose a local search algorithm called BandMaxSAT, that applies a multi-armed bandit to guide the search direction, for these problems. The bandit in our method is associated with all the soft clauses in the input (W)PMS instance. Each arm corresponds to a soft clause. The bandit model can help BandMaxSAT to select a good direction to escape from local optima by selecting a soft clause to be satisfied in the current step, that is, selecting an arm to be pulled. We further propose an initialization method for (W)PMS that prioritizes both unit and binary clauses when producing the initial solutions. Extensive experiments demonstrate that BandMaxSAT significantly outperforms the state-of-the-art (W)PMS local search algorithm SATLike3.0. Specifically, the number of instances in which BandMaxSAT obtains better results is about twice that obtained by SATLike3.0. We further combine BandMaxSAT with the complete solver TT-Open-WBO-Inc. The resulting solver BandMaxSAT-c also outperforms some of the best state-of-the-art complete (W)PMS solvers, including SATLike-c, Loandra and TT-Open-WBO-Inc.
公開日:2022-01-14
翻訳日:2022-01-17 16:54:12
# (参考訳) ニューラルスコア推定による確率的質量マッピング [全文訳有]

Probabilistic Mass Mapping with Neural Score Estimation ( http://arxiv.org/abs/2201.05561v1 )

ライセンス: CC BY 4.0
Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jean-Luc Starck, Ken Osato, Tim Schrabback(参考訳) 弱レンズの質量マッピングは、天上のダークマターの完全な分布にアクセスするのに有用なツールであるが、固有の銀河楕円体と有限フィールド/欠測データのため、ダークマターマップの復元は難解な逆問題となっている。 本稿では,弱いレンズ質量マップ問題の高次元ベイズ後方を効率的にサンプリングし,非ガウシアン前駆体を定義するためのシミュレーションを応用した新しい手法を提案する。 本手法の精度をシミュレーションで実証し,HST/ACS COSMOSフィールドの大量再構成に適用する。 提案手法はベイズ統計学,解析理論,ニューラルスコアマッチングに基づく近年の深部生成モデルの各要素を組み合わせたものである。 このアプローチによって、次のようなことができます。 1) 解析宇宙論を十分に活用して解の2pt統計量を制限する。 2) 宇宙シミュレーションからこの解析的先行シミュレーションと完全シミュレーションの相違について学ぶ。 3) ロバスト不確実性定量化問題の後段からサンプルを得る。 この手法を$\kappa$tngシミュレーションで示し, 後方平均は, 根-平均二乗誤差とピアソン相関の両方において, 従来の方法(カイザー・スクワイズ, ワイナーフィルタ, スパーシティ優先法)を有意に上回っていることを見出した。 さらに, 後方収束値とSNRとの密接な相関関係を確立することにより, 復元後部の解釈可能性について述べる。 最後に,本手法をHST/ACS COSMOSフィールドの再構成に適用し,このフィールドの最高品質収束マップを生成する。

Weak lensing mass-mapping is a useful tool to access the full distribution of dark matter on the sky, but because of intrinsic galaxy ellipticies and finite fields/missing data, the recovery of dark matter maps constitutes a challenging ill-posed inverse problem. We introduce a novel methodology allowing for efficient sampling of the high-dimensional Bayesian posterior of the weak lensing mass-mapping problem, and relying on simulations for defining a fully non-Gaussian prior. We aim to demonstrate the accuracy of the method on simulations, and then proceed to applying it to the mass reconstruction of the HST/ACS COSMOS field. The proposed methodology combines elements of Bayesian statistics, analytic theory, and a recent class of Deep Generative Models based on Neural Score Matching. This approach allows us to do the following: 1) Make full use of analytic cosmological theory to constrain the 2pt statistics of the solution. 2) Learn from cosmological simulations any differences between this analytic prior and full simulations. 3) Obtain samples from the full Bayesian posterior of the problem for robust Uncertainty Quantification. We demonstrate the method on the $\kappa$TNG simulations and find that the posterior mean significantly outperfoms previous methods (Kaiser-Squires, Wiener filter, Sparsity priors) both on root-mean-square error and in terms of the Pearson correlation. We further illustrate the interpretability of the recovered posterior by establishing a close correlation between posterior convergence values and SNR of clusters artificially introduced into a field. Finally, we apply the method to the reconstruction of the HST/ACS COSMOS field and yield the highest quality convergence map of this field to date.
公開日:2022-01-14
翻訳日:2022-01-17 16:40:07
# (参考訳) DeepSpeed-MoE: ベンチマークとトレーニングによる次世代AIスケールの活用

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale ( http://arxiv.org/abs/2201.05596v1 )

ライセンス: CC BY 4.0
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He(参考訳) 巨大な高密度モデルのトレーニングがハードウェアリソースの可用性と能力の境界に達するにつれ、Mixture-of-Experts(M oE)モデルは、品質に等価な高密度モデルに比べてトレーニングコストの大幅な削減により、最も有望なモデルアーキテクチャの1つである。 トレーニングコストの削減は、エンコーダ-デコーダモデル(優先作業)から、自動攻撃型言語モデル(並列探索と共に動作する)の5倍の節約まで実現されている。 しかし、モデルのサイズとユニークなアーキテクチャのため、高速なMoEモデル推論を提供する方法はまだ困難で未解決であり、実用的利用は制限されている。 この問題を解決するために、DeepSpeed-MoEはDeepSpeedライブラリの一部として、新しいMoEアーキテクチャ設計とモデル圧縮技術を含むエンドツーエンドのMoEトレーニングおよび推論ソリューションであり、MoEモデルのサイズを最大3.7倍に削減し、既存のMoE推論ソリューションと比較して7.3倍のレイテンシとコストを提供する高度に最適化された推論システムを提供する。 deepspeed-moeは前例のない規模と効率性を提供し、4.5倍高速で9倍安価で巨大なmoeモデルを提供する。 当社のイノベーションとシステムは、大規模なモデルランドスケープにおいて、より密集したMoEモデルからスパースなMoEモデルへのシフトとして、より少ないリソースで高品質なモデルのトレーニングとデプロイがより広範に可能になる、有望な道を開くのに役立つことを期待しています。

As the training of giant dense models hits the boundary on the availability and capability of the hardware resources today, Mixture-of-Experts (MoE) models become one of the most promising model architectures due to their significant training cost reduction compared to a quality-equivalent dense model. Its training cost saving is demonstrated from encoder-decoder models (prior works) to a 5x saving for auto-aggressive language models (this work along with parallel explorations). However, due to the much larger model size and unique architecture, how to provide fast MoE model inference remains challenging and unsolved, limiting its practical usage. To tackle this, we present DeepSpeed-MoE, an end-to-end MoE training and inference solution as part of the DeepSpeed library, including novel MoE architecture designs and model compression techniques that reduce MoE model size by up to 3.7x, and a highly optimized inference system that provides 7.3x better latency and cost compared to existing MoE inference solutions. DeepSpeed-MoE offers an unprecedented scale and efficiency to serve massive MoE models with up to 4.5x faster and 9x cheaper inference compared to quality-equivalent dense models. We hope our innovations and systems help open a promising path to new directions in the large model landscape, a shift from dense to sparse MoE models, where training and deploying higher-quality models with fewer resources becomes more widely possible.
公開日:2022-01-14
翻訳日:2022-01-17 16:00:55
# (参考訳) 深部強化学習でスイムを学習するスマート磁気マイクロロボット [全文訳有]

Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning ( http://arxiv.org/abs/2201.05599v1 )

ライセンス: CC BY 4.0
Michael R. Behrens and Warren C. Ruder(参考訳) スイミングマイクロロボットは複雑な材料とダイナミックな形状で開発され、システムダイナミクスのモデル化が難しく、マイクロロボットの位置制御が容易ではない複雑な環境での運用が期待されている。 深層強化学習(deep reinforcement learning)は、スマートなマイクロロボットを作成するためのロバストなコントローラを自律的に開発する有望な方法である。 本稿では,ソフトアクタ批評家強化学習アルゴリズムを用いて,マイクロロボットが3軸の電磁石から発生する時間変化磁界の制御下で,非キャラクタリゼーションバイオミメティック流体環境を泳ぐことができる制御方針を自律的に導出するスマートヘリカル磁気ハイドロゲルマイクロロボットの開発について報告する。 強化学習エージェントは10万以下のトレーニングステップで制御ポリシを成功させ、高速学習のためのサンプル効率を実証した。 また,強化学習エージェントが学習した制御方針を,回帰による学習方針の行動分布に数学関数を適合させることで微調整できることを実証する。 マイクロロボット制御に適用される深層強化学習は、次世代のマイクロロボットの能力を大きく拡張する可能性が高い。

Swimming microrobots are increasingly developed with complex materials and dynamic shapes and are expected to operate in complex environments in which the system dynamics are difficult to model and positional control of the microrobot is not straightforward to achieve. Deep reinforcement learning is a promising method of autonomously developing robust controllers for creating smart microrobots, which can adapt their behavior to operate in uncharacterized environments without the need to model the system dynamics. Here, we report the development of a smart helical magnetic hydrogel microrobot that used the soft actor critic reinforcement learning algorithm to autonomously derive a control policy which allowed the microrobot to swim through an uncharacterized biomimetic fluidic environment under control of a time varying magnetic field generated from a three-axis array of electromagnets. The reinforcement learning agent learned successful control policies with fewer than 100,000 training steps, demonstrating sample efficiency for fast learning. We also demonstrate that we can fine tune the control policies learned by the reinforcement learning agent by fitting mathematical functions to the learned policy's action distribution via regression. Deep reinforcement learning applied to microrobot control is likely to significantly expand the capabilities of the next generation of microrobots.
公開日:2022-01-14
翻訳日:2022-01-17 15:59:44
# AI機能への構造化アクセス - 安全なAIデプロイメントのための新たなパラダイム

Structured access to AI capabilities: an emerging paradigm for safe AI deployment ( http://arxiv.org/abs/2201.05159v1 )

ライセンス: Link先を確認
Toby Shevlane(参考訳) 構造化能力アクセス(SCA)は、人工知能(AI)の安全な配置のための新しいパラダイムである。 AIシステムをオープンに普及させる代わりに、開発者はAIシステムとの制御された腕の長さのインタラクションを促進する。 目標は、危険なAI能力が広くアクセスされることを防ぐと同時に、安全に使用できるAI機能へのアクセスを保護することだ。 開発者は、AIシステムの使用方法を制限すると同時に、AIシステムの修正やリバースエンジニアリングを通じて、これらの制限を回避する必要がある。 SCAは、ユーザーのハードウェア上でローカルに実行されるAIソフトウェアを広めるのではなく、クラウドベースのAIサービスによって実装される場合に最も効果的である。 クラウドベースのインターフェースは、AI開発者に対して、AIシステムの使用方法の管理と、システム設計の不正な変更を防止するための、より大きなスコープを提供する。 この章は、AI研究プロジェクトの情報コンテンツをどのように普及させるべきかという問題(例えば、コードとモデル)に焦点を当てた、AIコミュニティにおける「公開規範」に関する議論を拡大している。 これは重要な問題であるが、情報フローの制御によって何が達成できるかには限界がある。 SCAは、AIソフトウェアを共有できる情報としてだけでなく、ユーザーが腕の長さのやりとりができるツールとして見る。 scaの初期の例がai開発者によって実践されているが、クラウドベースのインターフェースの機能とより広範な機関的フレームワークの両方において、さらなる開発の余地がある。

Structured capability access ("SCA") is an emerging paradigm for the safe deployment of artificial intelligence (AI). Instead of openly disseminating AI systems, developers facilitate controlled, arm's length interactions with their AI systems. The aim is to prevent dangerous AI capabilities from being widely accessible, whilst preserving access to AI capabilities that can be used safely. The developer must both restrict how the AI system can be used, and prevent the user from circumventing these restrictions through modification or reverse engineering of the AI system. SCA is most effective when implemented through cloud-based AI services, rather than disseminating AI software that runs locally on users' hardware. Cloud-based interfaces provide the AI developer greater scope for controlling how the AI system is used, and for protecting against unauthorized modifications to the system's design. This chapter expands the discussion of "publication norms" in the AI community, which to date has focused on the question of how the informational content of AI research projects should be disseminated (e.g., code and models). Although this is an important question, there are limits to what can be achieved through the control of information flows. SCA views AI software not only as information that can be shared but also as a tool with which users can have arm's length interactions. There are early examples of SCA being practiced by AI developers, but there is much room for further development, both in the functionality of cloud-based interfaces and in the wider institutional framework.
公開日:2022-01-13
翻訳日:2022-01-17 15:36:25
# 障害音声の評価・認識のための分光時間深部特徴

Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition ( http://arxiv.org/abs/2201.05554v1 )

ライセンス: Link先を確認
Mengzhe Geng, Shansong Liu, Jianwei Yu, Xurong Xie, Shoukang Hu, Zi Ye, Zengrui Jin, Xunying Liu, Helen Meng(参考訳) 不規則な音声の自動認識は、現在まで非常に困難な課題である。 アクセント、年齢、性別など通常の音声で見られる可変性の源泉は、発声障害の根本原因や重度レベルの違いによってさらに複雑化され、話者間で大きな多様性が生じる。 この目的のために、現在の音声認識システムでは話者適応技術が重要な役割を果たす。 Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. UASpeechコーパスで実施された実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大2.63%(相対8.6%)削減することで、ベースラインi-Vector適応を一貫して上回った。 隠れ単位寄与度(LHUC)に基づく話者適応の学習をさらに適用した。 提案したスペクトルベース埋め込み機能を用いた最終話者適応システムにより,16話者のUASpeechテストセットにおけるWER全体の25.6%が得られた。

Automatic recognition of disordered speech remains a highly challenging task to date. Sources of variability commonly found in normal speech including accent, age or gender, when further compounded with the underlying causes of speech impairment and varying severity levels, create large diversity among speakers. To this end, speaker adaptation techniques play a vital role in current speech recognition systems. Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. Experiments conducted on the UASpeech corpus suggest the proposed spectro-temporal deep feature adapted systems consistently outperformed baseline i-Vector adaptation by up to 2.63% absolute (8.6% relative) reduction in word error rate (WER) with or without data augmentation. Learning hidden unit contribution (LHUC) based speaker adaptation was further applied. The final speaker adapted system using the proposed spectral basis embedding features gave an overall WER of 25.6% on the UASpeech test set of 16 dysarthric speakers
公開日:2022-01-14
翻訳日:2022-01-17 15:36:02
# 障害音声認識のためのデータ拡張手法の検討

Investigation of Data Augmentation Techniques for Disordered Speech Recognition ( http://arxiv.org/abs/2201.05562v1 )

ライセンス: Link先を確認
Mengzhe Geng, Xurong Xie, Shansong Liu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) 障害型音声認識は極めて困難な課題である。 言語障害を持つ人の神経運動条件は、しばしば共起性身体障害と混ざり合い、システム開発に必要な大量の音声を集めるのが困難になる。 本稿では,声道長摂動(VTLP),テンポ摂動(テンポ摂動),速度摂動(スピード摂動)など,不規則音声認識のための一連のデータ拡張手法について検討する。 正規語と無秩序語の両方が増強過程に利用された。 学習隠れユニットコントリビューション(LHUC)に基づく話者適応学習を用いて,オリジナルデータと拡張データの両方における障害話者間の変動をモデル化した。 UASpeechコーパスを用いて構築された最終話者適応システムと、速度摂動に基づく最良の拡張アプローチは、データ拡張なしでベースラインシステム上での絶対(9.3%)ワードエラー率(WER)を最大2.92%削減し、16の変形性スピーカーを含むテストセットで26.37%のWERを与えた。

Disordered speech recognition is a highly challenging task. The underlying neuro-motor conditions of people with speech disorders, often compounded with co-occurring physical disabilities, lead to the difficulty in collecting large quantities of speech required for system development. This paper investigates a set of data augmentation techniques for disordered speech recognition, including vocal tract length perturbation (VTLP), tempo perturbation and speed perturbation. Both normal and disordered speech were exploited in the augmentation process. Variability among impaired speakers in both the original and augmented data was modeled using learning hidden unit contributions (LHUC) based speaker adaptive training. The final speaker adapted system constructed using the UASpeech corpus and the best augmentation approach based on speed perturbation produced up to 2.92% absolute (9.3% relative) word error rate (WER) reduction over the baseline system without data augmentation, and gave an overall WER of 26.37% on the test set containing 16 dysarthric speakers.
公開日:2022-01-14
翻訳日:2022-01-17 15:35:44
# 近位勾配降下による$\ell_1$-norm制約付きマルチブロックスパース正準相関解析

$\ell_1$-norm constrained multi-block sparse canonical correlation analysis via proximal gradient descent ( http://arxiv.org/abs/2201.05289v1 )

ライセンス: Link先を確認
Leying Guan(参考訳) マルチブロックCCAは、複数のブロックにわたるコヒーレントな変動を説明する線形関係を構成する。 我々は,マルチブロックCCA問題を一般化固有ベクトルの先導として捉え,高次元データに対する$\ell_1$制約で近似勾配降下アルゴリズムを用いて解くことを提案する。 特に、近位反復に対する制約の減衰列を使い、その結果の見積もりが適切な仮定の下ではレート最適であることを示す。 いくつかの先行研究は反復的アプローチを用いた$\ell_0$制約付き問題に対してそのような最適性を示したが、$\ell_1$制約付き定式化に対する同じレベルの理論的理解はいまだに不足している。 また,複数の固有ベクトルを逐次推定するデフレ手順についても述べる。 我々は,提案手法をR CRAN上で実装可能な既存手法と比較し,提案手法はシミュレーションと実データ例の両方において競合性能を示す。

Multi-block CCA constructs linear relationships explaining coherent variations across multiple blocks of data. We view the multi-block CCA problem as finding leading generalized eigenvectors and propose to solve it via a proximal gradient descent algorithm with $\ell_1$ constraint for high dimensional data. In particular, we use a decaying sequence of constraints over proximal iterations, and show that the resulting estimate is rate-optimal under suitable assumptions. Although several previous works have demonstrated such optimality for the $\ell_0$ constrained problem using iterative approaches, the same level of theoretical understanding for the $\ell_1$ constrained formulation is still lacking. We also describe an easy-to-implement deflation procedure to estimate multiple eigenvectors sequentially. We compare our proposals to several existing methods whose implementations are available on R CRAN, and the proposed methods show competitive performances in both simulations and a real data example.
公開日:2022-01-14
翻訳日:2022-01-17 15:35:21
# 無線ネットワークにおけるフェデレーション学習に対するジャミング攻撃

Jamming Attacks on Federated Learning in Wireless Networks ( http://arxiv.org/abs/2201.05172v1 )

ライセンス: Link先を確認
Yi Shi and Yalin E. Sagduyu(参考訳) federated learning (fl)は分散学習環境を提供するので、クライアントのグループは、トレーニングデータを秘密にしながら、サーバでグローバルモデルをトレーニングするために協力することができる。 本稿では,無線ネットワーク上で実行されたFLプロセスに障害を与えるため,空対空ジャミング攻撃の起動方法について検討する。 無線の例として、flは異なる場所でクライアント(スペクトラムセンサー)が収集した無線信号を分類する方法(協調センシングなど)を学ぶために適用される。 敵は、クライアントからサーバへのローカルモデルの更新(アップリンク攻撃)の送信を妨害したり、グローバルモデルの送信がサーバからクライアントへの更新(ダウンリンク攻撃)またはその両方を妨害することができる。 flラウンド毎に攻撃可能なクライアント数に予算が課される場合、攻撃なしで期待される、またはスペクトル観測によってランク付けされるローカルモデルアキュラリティに従って、(アップリンク/ダウンリンク)攻撃用のクライアントが選択される。 この新たな攻撃は、異なる処理速度を考慮し、クライアントの攻撃成功確率を考慮し、一般的な設定にまで拡張される。 ベンチマーク攻撃方式と比較して、この攻撃手法はFL性能を著しく低下させ、無線ネットワークにおける攻撃を妨害する新たな脆弱性を明らかにする。

Federated learning (FL) offers a decentralized learning environment so that a group of clients can collaborate to train a global model at the server, while keeping their training data confidential. This paper studies how to launch over-the-air jamming attacks to disrupt the FL process when it is executed over a wireless network. As a wireless example, FL is applied to learn how to classify wireless signals collected by clients (spectrum sensors) at different locations (such as in cooperative sensing). An adversary can jam the transmissions for the local model updates from clients to the server (uplink attack), or the transmissions for the global model updates the server to clients (downlink attack), or both. Given a budget imposed on the number of clients that can be attacked per FL round, clients for the (uplink/downlink) attack are selected according to their local model accuracies that would be expected without an attack or ranked via spectrum observations. This novel attack is extended to general settings by accounting different processing speeds and attack success probabilities for clients. Compared to benchmark attack schemes, this attack approach degrades the FL performance significantly, thereby revealing new vulnerabilities of FL to jamming attacks in wireless networks.
公開日:2022-01-13
翻訳日:2022-01-17 15:35:05
# 自動コード要約のためのアセンブリ基礎モデル

Assemble Foundation Models for Automatic Code Summarization ( http://arxiv.org/abs/2201.05222v1 )

ライセンス: Link先を確認
Jian Gu, Pasquale Salza, Harald C. Gall(参考訳) 自動コード要約は、手動タスクの負担を軽減するので、ソフトウェア開発とメンテナンスに有益である。 現在、人工知能はパラダイムシフトを受けている。 基礎モデルは大量のデータに基づいて事前訓練され、ダウンストリームタスクに微調整され、特別にカスタマイズされたモデルを超えた。 この傾向は、スクラッチから学ぶのではなく、基礎モデルの再利用を検討するきっかけになりました。 そこで本研究では,ニューラルネットワークに基づく自動コード要約のための柔軟でロバストな手法を提案する。 CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。 さらに, ガウス雑音を文脈情報のシミュレーションとして活用し, 潜在表現の最適化を行う。 さらに、知識伝達の観点から、連続事前学習と中間微調整という2つの適応型スキームを導入し、一般的なシーケンス対シーケンス学習のための中間段階タスクを設計する。 最後に、AdaMoをコード要約のためのベンチマークデータセットと比較し、最先端モデルと比較する。

Automatic code summarization is beneficial to software development and maintenance since it reduces the burden of manual tasks. Currently, artificial intelligence is undergoing a paradigm shift. The foundation models pretrained on massive data and finetuned to downstream tasks surpass specially customized models. This trend inspired us to consider reusing foundation models instead of learning from scratch. Based on this, we propose a flexible and robust approach for automatic code summarization based on neural networks. We assemble available foundation models, such as CodeBERT and GPT-2, into a single model named AdaMo. Moreover, we utilize Gaussian noise as the simulation of contextual information to optimize the latent representation. Furthermore, we introduce two adaptive schemes from the perspective of knowledge transfer, namely continuous pretraining and intermediate finetuning, and design intermediate stage tasks for general sequence-to-sequence learning. Finally, we evaluate AdaMo against a benchmark dataset for code summarization, by comparing it with state-of-the-art models.
公開日:2022-01-13
翻訳日:2022-01-17 15:34:44
# スパースディープニューラルネットワークの正確な実装のためのクロスバー非理想の影響の検証と緩和

Examining and Mitigating the Impact of Crossbar Non-idealities for Accurate Implementation of Sparse Deep Neural Networks ( http://arxiv.org/abs/2201.05229v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Lakshya Bhatnagar and Priyadarshini Panda(参考訳) 近年, クロスバー数が少ないディープニューラルネットワーク(DNN)のエネルギー効率向上のための構造化プルーニング技術がいくつか導入されている。 これらの手法は, クロスバー上でのスパースDNNの精度を保っていると主張しているが, 未使用のクロスバー非イデオロギーが実際のネットワークの性能に与える影響は研究されていない。 そこで本研究では,非イデアルクロスバーにマッピングされた未切断のDNNと比較して,高いシャープなDNNが,高いクロスバー圧縮率をもたらす可能性を示す総合的研究を行った。 我々は,ベンチマークデータセット(CIFAR10,CIFAR100)を用いたVGG11,VGG16 DNN上で,複数の構造化プルーニング手法(C/Fプルーニング,XCS,XRS)を用いて実験を行った。 そこで我々は,2つの緩和手法であるクロスバルカラム再構成と重量拘束訓練(WCT)を提案し,これをスパースDNNのクロスバーマッピングと組み合わせることで,刈り取ったモデルによる精度損失を最小限に抑える。 これらは、クロスバー上の低コンダクタンスシナプスの割合を増加させることで、非理想性の緩和に役立ち、計算能力を向上させる。

Recently several structured pruning techniques have been introduced for energy-efficient implementation of Deep Neural Networks (DNNs) with lesser number of crossbars. Although, these techniques have claimed to preserve the accuracy of the sparse DNNs on crossbars, none have studied the impact of the inexorable crossbar non-idealities on the actual performance of the pruned networks. To this end, we perform a comprehensive study to show how highly sparse DNNs, that result in significant crossbar-compression -rate, can lead to severe accuracy losses compared to unpruned DNNs mapped onto non-ideal crossbars. We perform experiments with multiple structured-pruning approaches (such as, C/F pruning, XCS and XRS) on VGG11 and VGG16 DNNs with benchmark datasets (CIFAR10 and CIFAR100). We propose two mitigation approaches - Crossbar column rearrangement and Weight-Constrained-T raining (WCT) - that can be integrated with the crossbar-mapping of the sparse DNNs to minimize accuracy losses incurred by the pruned models. These help in mitigating non-idealities by increasing the proportion of low conductance synapses on crossbars, thereby improving their computational accuracies.
公開日:2022-01-13
翻訳日:2022-01-17 15:34:30
# dapstep:スタックトレースエラー表現のディープアサイン予測

DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation ( http://arxiv.org/abs/2201.05256v1 )

ライセンス: Link先を確認
Denis Sushentsev, Aleksandr Khvorov, Roman Vasiliev, Yaroslav Golubev, Timofey Bryksin(参考訳) バグを修正するのに最適な開発者を見つけるタスクは、バグトリアージと呼ばれる。 既存のアプローチのほとんどは、バグトリアージタスクを分類問題とみなしているが、クラスセットが時間とともに変化する場合(開発者がプロジェクトでよく行うように)、分類は適切ではない。 さらに、私たちの知る限りでは、既存のモデルはすべて、テキストによる情報ソース(バグ記述など)を使用しているが、これは必ずしも利用できない。 本研究では,スタックトレースをバグレポートの主要データ源として使用する場合のバグトリアージ問題に対する既存ソリューションの適用可能性を検討する。 さらに,この課題をランキング問題として再編成し,新しい深層学習モデルを提案する。 モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいており、ランキング損失関数を用いて最適化されたモデルの重み付けがある。 ランキングの質を向上させるために,バージョン管理システムアノテーションから追加情報を利用することを提案する。 手動と追加のニューラルネットワークを使用するアノテーションから特徴を抽出するための2つのアプローチが提案されている。 モデルを評価するために,実世界のスタックトレースのデータセットを2つ収集した。 実験の結果,提案手法はスタックトレースに適応した既存モデルよりも優れていた。 この領域のさらなる研究を容易にするために、我々はモデルのソースコードと収集されたデータセットの1つを公開する。

The task of finding the best developer to fix a bug is called bug triage. Most of the existing approaches consider the bug triage task as a classification problem, however, classification is not appropriate when the sets of classes change over time (as developers often do in a project). Furthermore, to the best of our knowledge, all the existing models use textual sources of information, i.e., bug descriptions, which are not always available. In this work, we explore the applicability of existing solutions for the bug triage problem when stack traces are used as the main data source of bug reports. Additionally, we reformulate this task as a ranking problem and propose new deep learning models to solve it. The models are based on a bidirectional recurrent neural network with attention and on a convolutional neural network, with the weights of the models optimized using a ranking loss function. To improve the quality of ranking, we propose using additional information from version control system annotations. Two approaches are proposed for extracting features from annotations: manual and using an additional neural network. To evaluate our models, we collected two datasets of real-world stack traces. Our experiments show that the proposed models outperform existing models adapted to handle stack traces. To facilitate further research in this area, we publish the source code of our models and one of the collected datasets.
公開日:2022-01-14
翻訳日:2022-01-17 15:33:05
# 行動ハニーポットの展開のためのセキュリティオーケストレーション、自動化、および応答エンジン

Security Orchestration, Automation, and Response Engine for Deployment of Behavioural Honeypots ( http://arxiv.org/abs/2201.05326v1 )

ライセンス: Link先を確認
Upendra Bartwal, Subhasis Mukhopadhyay, Rohit Negi, Sandeep Shukla(参考訳) サイバーセキュリティはIT/OTネットワークを持つ組織にとって重要なトピックである。 サイバー環境は進化し続けるシナリオであるため、インフラのセキュリティを強化するためにセキュリティシステムをアップグレードし続けなければならない。 セキュリティ情報とイベント管理(SIEM)、エンドポイント検出と応答(EDR)、脅威情報プラットフォーム(TIP)、情報技術サービス管理(ITSM)などのツールに加えて、侵入検知システム(IDS)、侵入防御システム(IPS)などの防衛技術が、インフラのサイバーセキュリティ姿勢を高めている。 しかし,提案する保護機構には限界があり,セキュリティを確保するには不十分であり,攻撃者がネットワークに侵入する。 偽造技術は、Honeypotsとともに、攻撃者にターゲットシステムの脆弱性の誤った感覚を提供する。 攻撃者は、彼らのオペランディに関する脅威を暴露した。 我々はセキュリティオーケストレーション、自動化、応答(soar)エンジンを開発し、攻撃者の行動に基づいて内部ネットワークインフラストラクチャ内にカスタムハニーポットを動的にデプロイする。 アーキテクチャは、システムに接続され、オーケストレーションに使用される複数のVLANをサポートするのに十分堅牢である。 ネットワーク内のハニーポットに対するボットネットトラフィックとDDOS攻撃の存在を、マルウェア収集システムとともに検出する。 4日間ライブトラフィックにさらされた後、エンジンはハニーポットを40回動的に調整し、7823攻撃、965ddos攻撃パケット、および3つの悪意のあるサンプルを検出した。 静的なハニーポットを使った実験では、インスタンス毎の平均攻撃エンゲージメント時間は102秒でしたが、SOARエンジンベースの動的ハニーポットは平均3148秒で攻撃者をエンゲージします。

Cyber Security is a critical topic for organizations with IT/OT networks as they are always susceptible to attack, whether insider or outsider. Since the cyber landscape is an ever-evolving scenario, one must keep upgrading its security systems to enhance the security of the infrastructure. Tools like Security Information and Event Management (SIEM), Endpoint Detection and Response (EDR), Threat Intelligence Platform (TIP), Information Technology Service Management (ITSM), along with other defensive techniques like Intrusion Detection System (IDS), Intrusion Protection System (IPS), and many others enhance the cyber security posture of the infrastructure. However, the proposed protection mechanisms have their limitations, they are insufficient to ensure security, and the attacker penetrates the network. Deception technology, along with Honeypots, provides a false sense of vulnerability in the target systems to the attackers. The attacker deceived reveals threat intel about their modus operandi. We have developed a Security Orchestration, Automation, and Response (SOAR) Engine that dynamically deploys custom honeypots inside the internal network infrastructure based on the attacker's behavior. The architecture is robust enough to support multiple VLANs connected to the system and used for orchestration. The presence of botnet traffic and DDOS attacks on the honeypots in the network is detected, along with a malware collection system. After being exposed to live traffic for four days, our engine dynamically orchestrated the honeypots 40 times, detected 7823 attacks, 965 DDOS attack packets, and three malicious samples. While our experiments with static honeypots show an average attacker engagement time of 102 seconds per instance, our SOAR Engine-based dynamic honeypots engage attackers on average 3148 seconds.
公開日:2022-01-14
翻訳日:2022-01-17 15:32:44
# ファイナンシャル時系列予測のためのマルチヘッドテンポラルアテンション強化バイリニアネットワーク

Multi-head Temporal Attention-Augmented Bilinear Network for Financial time series prediction ( http://arxiv.org/abs/2201.05459v1 )

ライセンス: Link先を確認
Mostafa Shabani, Dat Thanh Tran, Martin Magris, Juho Kanniainen, Alexandros Iosifidis(参考訳) 金融時系列予測は時系列分析の分野で最も難しい分野の一つである。 これは主に金融時系列データの非定常かつノイズが多いためである。 事前のドメイン知識を組み込んだ特殊なニューラルネットワークの設計にコミュニティの進歩的な取り組みによって、多くの財務分析や予測問題がうまく取り組まれている。 時間的注意機構は、重要な時間的出来事にフォーカスする能力によって最近人気を博した神経層設計である。 本稿では,時間的注意と多頭的注意の考え方に基づくニューラルネットワーク層を提案し,複数の時間的インスタンスに同時に集中する基盤となるニューラルネットワークの能力を拡張する。 提案手法の有効性を,大規模書籍市場データを用いて検証し,中間価格変動の方向を予測する。 実験により,マルチヘッド時空間注意モジュールを用いた場合,ベースラインモデルと比較して予測性能が向上することを示した。

Financial time-series forecasting is one of the most challenging domains in the field of time-series analysis. This is mostly due to the highly non-stationary and noisy nature of financial time-series data. With progressive efforts of the community to design specialized neural networks incorporating prior domain knowledge, many financial analysis and forecasting problems have been successfully tackled. The temporal attention mechanism is a neural layer design that recently gained popularity due to its ability to focus on important temporal events. In this paper, we propose a neural layer based on the ideas of temporal attention and multi-head attention to extend the capability of the underlying neural network in focusing simultaneously on multiple temporal instances. The effectiveness of our approach is validated using large-scale limit-order book market data to forecast the direction of mid-price movements. Our experiments show that the use of multi-head temporal attention modules leads to enhanced prediction performances compared to baseline models.
公開日:2022-01-14
翻訳日:2022-01-17 15:32:12
# 周波数領域指数関数型リンクネットワークフィルタの研究

Study of Frequency domain exponential functional link network filters ( http://arxiv.org/abs/2201.05501v1 )

ライセンス: Link先を確認
T. Yu, S. Tana, R. C. de Lamareb, and Y. Yu(参考訳) 指数関数リンクネットワーク(EFLN)フィルタは、非線形モデリング能力の強化により、大きな関心を集めている。 しかし、計算複雑性は、EFLNベースのフィルタの次元成長とともに劇的に増大する。 本稿では,新しい周波数領域指数関数型リンクネットワーク(FDEFLN)フィルタを提案する。 このアイデアは、サンプルを拡張入力データのブロックに整理し、時間領域から周波数領域に変換し、オーバーラップセーブ法で周波数領域におけるフィルタリングおよび適応手順を実行する。 FDEFLNに基づく非線形アクティブノイズ制御(NANC)システムも開発され、周波数領域指数フィルタ最小平均二乗(FDEFsLMS)アルゴリズムが開発された。 さらに, アルゴリズムの安定性, 定常性能, 計算複雑性を解析した。 最後に, 非線形システム同定, 音響エコーキャンセラ, nanc実装において, 提案するfdeflnアルゴリズムを補う数値実験がいくつか行われ, 計算効率が大幅に向上した。

The exponential functional link network (EFLN) filter has attracted tremendous interest due to its enhanced nonlinear modeling capability. However, the computational complexity will dramatically increase with the dimension growth of the EFLN-based filter. To improve the computational efficiency, we propose a novel frequency domain exponential functional link network (FDEFLN) filter in this paper. The idea is to organize the samples in blocks of expanded input data, transform them from time domain to frequency domain, and thus execute the filtering and adaptation procedures in frequency domain with the overlap-save method. A FDEFLN-based nonlinear active noise control (NANC) system has also been developed to form the frequency domain exponential filtered-s least mean-square (FDEFsLMS) algorithm. Moreover, the stability, steady-state performance and computational complexity of algorithms are analyzed. Finally, several numerical experiments corroborate the proposed FDEFLN-based algorithms in nonlinear system identification, acoustic echo cancellation and NANC implementations, which demonstrate much better computational efficiency.
公開日:2022-01-12
翻訳日:2022-01-17 15:31:55
# ハイブリッドモデルデータ駆動方式を用いた長距離多チャンネル光ファイバ伝送の高速・高精度波形モデリング

Fast and accurate waveform modeling of long-haul multi-channel optical fiber transmission using a hybrid model-data driven scheme ( http://arxiv.org/abs/2201.05502v1 )

ライセンス: Link先を確認
Hang Yang, Zekun Niu, Haochen Zhao, Shilin Xiao, Weisheng Hu and Lilin Yi(参考訳) 光ファイバにおける光伝搬のモデル化は、非線形schr\"odinger方程式(nlse)の高速かつ高精度な解法であり、現代の通信システムの基盤である光ファイバ通信の研究の進展とシステム設計を可能にする。 スプリットステップフーリエ法(SSFM)を用いた従来のファイバーチャネルのモデリングは、非常に時間を要するため、長波長分割多重化(WDM)光ファイバー通信システムにおいて困難であると考えられてきた。 本稿では, チャネル線形効果をnlseモデル駆動法でモデル化し, 非線形効果をデータ駆動型深層学習法でモデル化する長波長wdmファイバチャネルをモデル化するために, 分散(fdd)波形モデリング方式を提案する。 一方,提案手法では,1スパンのファイバ距離にのみ焦点を合わせ,再帰的にモデルを送信することで必要な伝送距離を達成する。 提案手法は,様々な光打ち上げ能力,変調形式,チャネル数,伝送距離に対して高い精度,高速な計算速度,堅牢な一般化能力を有することを示す。 41チャネル1040kmのファイバ伝送のためのFDD波形モデリングスキームの総実行時間は、入力条件毎にSSFMを使用して2時間以上たった3分であり、計算時間の98%削減を実現している。 システムパラメータの調整によるマルチラウンド最適化を考えると,複雑性の低減が重要である。 その結果, 非線形ファイバモデリングは著しく改善し, nlse様偏微分方程式や光ファイバー物理問題の解の新たな展望が開けた。

The modeling of optical wave propagation in optical fiber is a task of fast and accurate solving the nonlinear Schr\"odinger equation (NLSE), and can enable the research progress and system design of optical fiber communications, which are the infrastructure of modern communication systems. Traditional modeling of fiber channels using the split-step Fourier method (SSFM) has long been regarded as challenging in long-haul wavelength division multiplexing (WDM) optical fiber communication systems because it is extremely time-consuming. Here we propose a linear-nonlinear feature decoupling distributed (FDD) waveform modeling scheme to model long-haul WDM fiber channel, where the channel linear effects are modelled by the NLSE-derived model-driven methods and the nonlinear effects are modelled by the data-driven deep learning methods. Meanwhile, the proposed scheme only focuses on one-span fiber distance fitting, and then recursively transmits the model to achieve the required transmission distance. The proposed modeling scheme is demonstrated to have high accuracy, high computing speeds, and robust generalization abilities for different optical launch powers, modulation formats, channel numbers and transmission distances. The total running time of FDD waveform modeling scheme for 41-channel 1040-km fiber transmission is only 3 minutes versus more than 2 hours using SSFM for each input condition, which achieves a 98% reduction in computing time. Considering the multi-round optimization by adjusting system parameters, the complexity reduction is significant. The results represent a remarkable improvement in nonlinear fiber modeling and open up novel perspectives for solution of NLSE-like partial differential equations and optical fiber physics problems.
公開日:2022-01-12
翻訳日:2022-01-17 15:31:37
# 非線形パワーアンプによる帯域外放出低減のための波形学習

Waveform Learning for Reduced Out-of-Band Emissions Under a Nonlinear Power Amplifier ( http://arxiv.org/abs/2201.05524v1 )

ライセンス: Link先を確認
Dani Korpi, Mikko Honkala, Janne M.J. Huttunen, Fay\c{c}al Ait Aoudia, Jakob Hoydis(参考訳) 機械学習(ML)は、無線通信システムにおける物理層処理の様々な側面を最適化する上で、非常に有望である。 本稿では,MLを用いて送信波形と周波数領域受信機を共同で学習する。 特に、送信機電源増幅器が非線形に動作しているシナリオを考察し、MLを用いて波形を最適化し、帯域外放射を最小限に抑える。 このシステムは同時に学習した受信機によるパイロットレス検出を容易にするコンステレーション形状も学習する。 シミュレーションの結果,このようなエンドツーエンド最適化システムにより,従来のシステムに比べてデータ通信の精度が向上し,帯域外エミッションも小さくなった。 我々の知る限りでは、エンド・ツー・エンドの学習システムにおいて電力増幅器によるエミッションを考慮に入れた先行研究はない。 これらの知見は6Gのビルディングブロックの1つであるMLネイティブのエアインターフェースへの道を開いた。

Machine learning (ML) has shown great promise in optimizing various aspects of the physical layer processing in wireless communication systems. In this paper, we use ML to learn jointly the transmit waveform and the frequency-domain receiver. In particular, we consider a scenario where the transmitter power amplifier is operating in a nonlinear manner, and ML is used to optimize the waveform to minimize the out-of-band emissions. The system also learns a constellation shape that facilitates pilotless detection by the simultaneously learned receiver. The simulation results show that such an end-to-end optimized system can communicate data more accurately and with less out-of-band emissions than conventional systems, thereby demonstrating the potential of ML in optimizing the air interface. To the best of our knowledge, there are no prior works considering the power amplifier induced emissions in an end-to-end learned system. These findings pave the way towards an ML-native air interface, which could be one of the building blocks of 6G.
公開日:2022-01-14
翻訳日:2022-01-17 15:31:11
# グリオーマのisocitrate dehydrogenaseステータス予測のための画像と幾何学の協調学習

Collaborative learning of images and geometrics for predicting isocitrate dehydrogenase status of glioma ( http://arxiv.org/abs/2201.05530v1 )

ライセンス: Link先を確認
Yiran Wei, Chao Li, Xi Chen, Carola-Bibiane Sch\"onlieb, Stephen J. Price(参考訳) Isocitrate dehydrogenase (IDH)遺伝子変異はグリオーマ患者にとって重要なバイオマーカーである。 IDH変異検出のゴールド標準は、侵襲的なアプローチによって得られた腫瘍組織を必要とし、通常は高価である。 近年の放射線ゲノミクスの進歩は、MRIに基づくIDH変異を予測する非侵襲的アプローチを提供する。 一方、腫瘍幾何学は腫瘍の表現型を示す重要な情報を包含する。 本稿では, 畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)を用いて, 腫瘍画像と腫瘍幾何学の両方を学習する協調学習フレームワークを提案する。 その結果,提案モデルは3D-DenseNet121のベースラインモデルよりも優れていた。 さらに、協調学習モデルは、CNNまたはGNN単独よりも優れた性能を達成する。 モデル解釈は、CNNとGNNがIDH変異予測のための共通の領域とユニークな領域を特定できることを示している。 結論として,コラボレーティング画像と幾何学習者は,遺伝子型を予測しグリオーマを特徴付けるための新しいアプローチを提供する。

The isocitrate dehydrogenase (IDH) gene mutation status is an important biomarker for glioma patients. The gold standard of IDH mutation detection requires tumour tissue obtained via invasive approaches and is usually expensive. Recent advancement in radiogenomics provides a non-invasive approach for predicting IDH mutation based on MRI. Meanwhile, tumor geometrics encompass crucial information for tumour phenotyping. Here we propose a collaborative learning framework that learns both tumor images and tumor geometrics using convolutional neural networks (CNN) and graph neural networks (GNN), respectively. Our results show that the proposed model outperforms the baseline model of 3D-DenseNet121. Further, the collaborative learning model achieves better performance than either the CNN or the GNN alone. The model interpretation shows that the CNN and GNN could identify common and unique regions of interest for IDH mutation prediction. In conclusion, collaborating image and geometric learners provides a novel approach for predicting genotype and characterising glioma.
公開日:2022-01-14
翻訳日:2022-01-17 15:29:28
# 具体化制御のためのニューラル回路アーキテクチャ優先事項

Neural Circuit Architectural Priors for Embodied Control ( http://arxiv.org/abs/2201.05242v1 )

ライセンス: Link先を確認
Nikhil X. Bhattasali, Anthony M. Zador, Tatiana A. Engel(参考訳) シミュレーションモーター制御とロボット工学のためのニューラルネットワークは、完全に接続されたMLPのような一般的なアーキテクチャを採用することが多い。 一般に、これらのタブラ・ラーサのアーキテクチャは、学習する大量の経験に依存しており、新しい体に容易に移行できず、解釈が難しい内部ダイナミクスを持っている。 自然界では、動物は進化によって形成された神経系に高度に構造化された結合を持って生まれており、この自然回路は学習機構と相乗的に作用し、ほとんどの動物が生後すぐに機能し、能力を向上させる誘導バイアスを提供する。 視覚回路にインスパイアされた畳み込みネットワークは、視覚に有用なバイアスを符号化している。 しかし、ニューラルネットワークにインスパイアされたANNアーキテクチャが、他のドメインに有用なバイアスをもたらすかどうかは不明である。 本研究では,生体にインスパイアされたネットワークアーキテクチャが,運動制御の文脈でどのような利点をもたらすのかを問う。 具体的には, C. elegans 回路をシミュレーションスイマーエージェントを制御する ANN モデルに変換する。 locomotionタスクでは,mlpsに匹敵する優れた初期性能と漸近的な性能を実現し,データ効率を劇的に向上し,パラメータを桁違いに削減した。 私たちのアーキテクチャはより解釈可能で、新しいボディデザインに移行します。 アブレーション分析は、原則的興奮/抑制が学習に不可欠であることを示し、重み初期化は優れた初期性能に寄与することを示している。 私たちの研究は、システム神経科学に触発されたanアーキテクチャのいくつかの利点を示し、より複雑な行動のモデリングへの道を提案する。

Artificial neural networks for simulated motor control and robotics often adopt generic architectures like fully connected MLPs. While general, these tabula rasa architectures rely on large amounts of experience to learn, are not easily transferable to new bodies, and have internal dynamics that are difficult to interpret. In nature, animals are born with highly structured connectivity in their nervous systems shaped by evolution; this innate circuitry acts synergistically with learning mechanisms to provide inductive biases that enable most animals to function well soon after birth and improve abilities efficiently. Convolutional networks inspired by visual circuitry have encoded useful biases for vision. However, it is unknown the extent to which ANN architectures inspired by neural circuitry can yield useful biases for other domains. In this work, we ask what advantages biologically inspired network architecture can provide in the context of motor control. Specifically, we translate C. elegans circuits for locomotion into an ANN model controlling a simulated Swimmer agent. On a locomotion task, our architecture achieves good initial performance and asymptotic performance comparable with MLPs, while dramatically improving data efficiency and requiring orders of magnitude fewer parameters. Our architecture is more interpretable and transfers to new body designs. An ablation analysis shows that principled excitation/inhibitio n is crucial for learning, while weight initialization contributes to good initial performance. Our work demonstrates several advantages of ANN architectures inspired by systems neuroscience and suggests a path towards modeling more complex behavior.
公開日:2022-01-13
翻訳日:2022-01-17 15:29:13
# de rham互換のディープニューラルネットワーク

De Rham compatible Deep Neural Networks ( http://arxiv.org/abs/2201.05395v1 )

ライセンス: Link先を確認
Marcello Longo, Joost A. A. Opschoor, Nico Disch, Christoph Schwab, Jakob Zech(参考訳) ReLU と BiSU (Binary Step Unit) をアクティベートしたいくつかのニューラルネットワークのクラスを構築し、これは正則な多角形および多面体領域の単純分割上の有限要素(FE)空間を正確にエミュレートする。 連続的、ピースワイズ線型(CPwL)函数に対して、我々の構成は以前の結果を一般化して、$\Omega$ の任意の正則な単純分割が、任意の次元 $d\geq 2$ で認められる。 ベクトル値要素のエミュレートには、古典的なラヴィアート=トーマスと、三角形とテトラヘドラ上の N'{e}d\'{e}lec エッジ要素の最初のファミリーが含まれる。 これらのfe空間をエミュレートするニューラルネットワークは、非凸ポリヘドラ $\omega \subset \mathbb{r}^3$ における電磁気学の境界値問題の正しい近似において必要であり、例えば ‘physics-informed nns'' や ‘deep ritz method’ の方法論を深層学習技術による電磁場シミュレーションに適用する上で必須の要素となる。 それらはそれぞれ正確な (De Rham) 列の性質を満足し、また、曲面の発散に対する正確な列の性質を満たす$\partial\Omega$ と、計算電磁界に対する '' 境界要素' を可能にする$\mathrm{div}_\Gamma$ と$\mathrm{curl}_\Gamma$ のそれぞれを満たす離散境界錯体を生成する。 我々は、高階互換空間や、特にクローゼックス・ラヴィアート元とハイブリダイド・ハイア・オーダー(HHO)法における非互換な離散化のクラスへの我々の構成の一般化を示す。

We construct several classes of neural networks with ReLU and BiSU (Binary Step Unit) activations, which exactly emulate the lowest order Finite Element (FE) spaces on regular, simplicial partitions of polygonal and polyhedral domains $\Omega \subset \mathbb{R}^d$, $d=2,3$. For continuous, piecewise linear (CPwL) functions, our constructions generalize previous results in that arbitrary, regular simplicial partitions of $\Omega$ are admitted, also in arbitrary dimension $d\geq 2$. Vector-valued elements emulated include the classical Raviart-Thomas and the first family of N\'{e}d\'{e}lec edge elements on triangles and tetrahedra. Neural Networks emulating these FE spaces are required in the correct approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$, thereby constituting an essential ingredient in the application of e.g. the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. They satisfy exact (De Rham) sequence properties, and also spawn discrete boundary complexes on $\partial\Omega$ which satisfy exact sequence properties for the surface divergence and curl operators $\mathrm{div}_\Gamma$ and $\mathrm{curl}_\Gamma$, respectively, thereby enabling ``neural boundary elements'' for computational electromagnetism. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations in particular the Crouzeix-Raviart elements and Hybridized, Higher Order (HHO) methods.
公開日:2022-01-14
翻訳日:2022-01-17 15:28:47
# インド株式市場選択部門におけるロバストポートフォリオデザインの精密株価予測

Precise Stock Price Prediction for Robust Portfolio Design from Selected Sectors of the Indian Stock Market ( http://arxiv.org/abs/2201.05570v1 )

ライセンス: Link先を確認
Jaydip Sen, Ashwin Kumar R S, Geetha Joseph, Kaushik Muthukrishnan, Koushik Tulasi, and Praveen Varukolu(参考訳) 株価予測は困難な課題であり、この分野の文献には多くの提案が存在している。 ポートフォリオ構築(Portfolio construction)は、リスクを最小限に抑えつつ、利益を最大化するために株群を選択し、投資するプロセスである。 マークウィッツが近代ポートフォリオ理論を提案した頃から、効率的なポートフォリオ構築の分野ではいくつかの進歩があった。 投資家は、投資家が効率的なポートフォリオに投資し、高い精度でポートフォリオの将来の資産価値を見積もることで、事前に購入または販売の決定を下すことができる場合、株式市場から最高の利益を得ることができる。 本プロジェクトでは,効率的なポートフォリオを構築し,ポートフォリオ内の株の個々の株価予測を用いて将来的な資産価値を予測する。 効率的なポートフォリオ構築の一環として、Modern Portfolio理論から始まる複数のポートフォリオ最適化手法を研究しました。 我々は、過去5年間の過去の株価をトレーニングデータとして利用し、選択した5つのセクターすべてに対して、最小分散ポートフォリオと最適なリスクポートフォリオを構築し、ポートフォリオのパフォーマンスを確認するためのテストも実施しました。 最小分散ポートフォリオと等重ポートフォリオの最適リスクポートフォリオの比較研究は、バックテストによって行われる。

Stock price prediction is a challenging task and a lot of propositions exist in the literature in this area. Portfolio construction is a process of choosing a group of stocks and investing in them optimally to maximize the return while minimizing the risk. Since the time when Markowitz proposed the Modern Portfolio Theory, several advancements have happened in the area of building efficient portfolios. An investor can get the best benefit out of the stock market if the investor invests in an efficient portfolio and could take the buy or sell decision in advance, by estimating the future asset value of the portfolio with a high level of precision. In this project, we have built an efficient portfolio and to predict the future asset value by means of individual stock price prediction of the stocks in the portfolio. As part of building an efficient portfolio we have studied multiple portfolio optimization methods beginning with the Modern Portfolio theory. We have built the minimum variance portfolio and optimal risk portfolio for all the five chosen sectors by using past daily stock prices over the past five years as the training data, and have also conducted back testing to check the performance of the portfolio. A comparative study of minimum variance portfolio and optimal risk portfolio with equal weight portfolio is done by backtesting.
公開日:2022-01-14
翻訳日:2022-01-17 15:28:08
# 効率的なDNNコンパイルのための自動スケジュールの再利用

Reusing Auto-Schedules for Efficient DNN Compilation ( http://arxiv.org/abs/2201.05587v1 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) オートスケジューリング(Auto-scheduling)とは、検索アルゴリズムが所定のハードウェアプラットフォーム上のテンソルプログラムの候補スケジュール(プログラム変換)を自動的に探索し、その性能を改善するプロセスである。 しかし、テンソルプログラムの複雑さとターゲット装置の容量に依存するため、これは非常に時間を要するプロセスであり、しばしば数千のプログラム変種が探索されている。 そこで本論文では,テンソルプログラム間の自動スケジューリングを識別・再利用する新しい手法である 'emph{tuning-reuse} を提案し,実証する。 本稿では,この概念をDeep Neural Networks (DNN) を用いて実証し,事前調整したDNNから自動スケジューリングのセットを取り,新しいDNNの推論時間を短縮する手法を提案する。 事前調整されたスケジュールが与えられた場合、チューニング・リユースは最先端のAnsor自動スケジューリング装置を使用する自動スケジューリングよりも少ない時間で最大限のスピードアップを提供する。 広く使用されているDNNモデルのセットでは、チューニング-再利用を適用し、最大速度を1.16\times$から4.76\times$の間で達成する。

Auto-scheduling is a process where a search algorithm automatically explores candidate schedules (program transformations) for a given tensor program on a given hardware platform to improve its performance. However this can be a very time consuming process, depending on the complexity of the tensor program, and capacity of the target device, with often many thousands of program variants being explored. To address this, in this paper we introduce and demonstrate the idea of \emph{tuning-reuse}, a novel approach to identify and re-use auto-schedules between tensor programs. We demonstrate this concept using Deep Neural Networks (DNNs), taking sets of auto-schedules from pre-tuned DNNs, and using them to reduce the inference time of a new DNN. Given a set of pre-tuned schedules, tuning-reuse provides its maximum speedup in less time than auto-scheduling using the state-of-the-art Ansor auto-scheduler. On a set of widely used DNN models, we apply tuning-reuse and achieve maximum speedups between $1.16\times$ and $4.76\times$, while outperforming Ansor when given limited tuning time.
公開日:2022-01-14
翻訳日:2022-01-17 15:26:09
# (参考訳) ウォームスタートとクリーンなクロールコーパス - 優れた言語モデルのためのレシピ [全文訳有]

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language Models ( http://arxiv.org/abs/2201.05601v1 )

ライセンス: CC BY 4.0
V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri Ragnarsson, Svanhv\'it Ing\'olfsd\'ottir, Haukur P\'all J\'onsson, Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson(参考訳) 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。 モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。 他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。 アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。 これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。 さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。

We train several language models for Icelandic, including IceBERT, that achieve state-of-the-art performance in a variety of downstream tasks, including part-of-speech tagging, named entity recognition, grammatical error detection and constituency parsing. To train the models we introduce a new corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection of high quality texts found online by targeting the Icelandic top-level-domain (TLD). Several other public data sources are also collected for a total of 16GB of Icelandic text. To enhance the evaluation of model performance and to raise the bar in baselines for Icelandic, we translate and adapt the WinoGrande dataset for co-reference resolution. Through these efforts we demonstrate that a properly cleaned crawled corpus is sufficient to achieve state-of-the-art results in NLP applications for low to medium resource languages, by comparison with models trained on a curated corpus. We further show that initializing models using existing multilingual models can lead to state-of-the-art results for some downstream tasks.
公開日:2022-01-14
翻訳日:2022-01-17 15:25:18
# 深い傾きに基づく超高速階段検出

Deep Leaning-Based Ultra-Fast Stair Detection ( http://arxiv.org/abs/2201.05275v1 )

ライセンス: Link先を確認
Chen Wang, Zhongcai Pei, Shuang Qiu, Zhiyong Tang(参考訳) 階段は都市環境において最も一般的な建物である。 階段検出は、外骨格ロボットの環境知覚、ヒューマノイドロボット、救助ロボット、視覚障害者のナビゲーションなど、様々な用途において重要なタスクである。 既存の階段検出アルゴリズムの多くは、階段構造材料の多様性、極端な光、深刻な閉塞を扱うのが困難である。 人間の知覚に触発され,深層学習に基づくエンドツーエンドの手法を提案する。 具体的には,階段線検出の過程を,粗いセマンティックセグメンテーションとオブジェクト検出を含むマルチタスクとして扱う。 入力画像はセルに分割され、各セルが階段線を含むか否かを単純なニューラルネットワークで判断する。 階段線を含む細胞については、各細胞に対する階段線の位置を後退させる。 データセット上での広範な実験により,本手法は速度と精度の両面で高い性能を実現することができた。 軽量版は、同じ解像度で毎秒300フレーム以上を達成できる。 私たちのコードはGitHubで入手可能です。

Staircases are some of the most common building structures in urban environments. Stair detection is an important task for various applications, including the environmental perception of exoskeleton robots, humanoid robots, and rescue robots and the navigation of visually impaired people. Most existing stair detection algorithms have difficulty dealing with the diversity of stair structure materials, extreme light and serious occlusion. Inspired by human perception, we propose an end-to-end method based on deep learning. Specifically, we treat the process of stair line detection as a multitask involving coarse-grained semantic segmentation and object detection. The input images are divided into cells, and a simple neural network is used to judge whether each cell contains stair lines. For cells containing stair lines, the locations of the stair lines relative to each cell are regressed. Extensive experiments on our dataset show that our method can achieve high performance in terms of both speed and accuracy. A lightweight version can even achieve 300+ frames per second with the same resolution. Our code is available at GitHub.
公開日:2022-01-14
翻訳日:2022-01-17 15:02:11
# 映像シーンセグメンテーションのための境界認識自己教師付き学習

Boundary-aware Self-supervised Learning for Video Scene Segmentation ( http://arxiv.org/abs/2201.05277v1 )

ライセンス: Link先を確認
Jonghwan Mun, Minchul Shin, Gunsoo Han, Sangho Lee, Seongsu Ha, Joonseok Lee, Eun-Sol Kim(参考訳) 自己教師付き学習は、基礎的アノテーションを使わずにドメイン内表現を学習することの有効性に注目が集まっている。特に、適切に設計された前文タスク(例えば、対照予測タスク)は、下流タスク(例えば分類タスク)に大幅なパフォーマンス向上をもたらすことが示されている。 そこで,本研究では,映像内のシーン境界を時間的に局所化するタスクである映像シーンセグメンテーションに,効果的なプリテキストタスクの設計を主眼とした自己教師あり学習フレームワークを導入する。 提案手法では,ショット列から擬似境界を2つの連続的非重複部分列に分割し,擬似境界を利用して事前学習を容易にする。 これに基づいて、3つの新しい境界対応プレテキストタスクを導入する。 1)ショットシーンマッチング(SSM) 2)文脈的グループマッチング(cgm)および 3) Pseudo-boundary Prediction (PP), SSM と CGM は,SSM と CGM のモデルを用いて,シーン内類似性とシーン間識別を最大化し,PP は遷移モーメントの同定を奨励する。 包括的分析により,映像シーンのセグメンテーション性能を向上させるために,事前学習と文脈表現の伝達が重要であることを示す。 最後に、movienet-ssegベンチマークで最新技術を達成する。 コードはhttps://github.com/k akaobrain/basslで入手できる。

Self-supervised learning has drawn attention through its effectiveness in learning in-domain representations with no ground-truth annotations; in particular, it is shown that properly designed pretext tasks (e.g., contrastive prediction task) bring significant performance gains for downstream tasks (e.g., classification task). Inspired from this, we tackle video scene segmentation, which is a task of temporally localizing scene boundaries in a video, with a self-supervised learning framework where we mainly focus on designing effective pretext tasks. In our framework, we discover a pseudo-boundary from a sequence of shots by splitting it into two continuous, non-overlapping sub-sequences and leverage the pseudo-boundary to facilitate the pre-training. Based on this, we introduce three novel boundary-aware pretext tasks: 1) Shot-Scene Matching (SSM), 2) Contextual Group Matching (CGM) and 3) Pseudo-boundary Prediction (PP); SSM and CGM guide the model to maximize intra-scene similarity and inter-scene discrimination while PP encourages the model to identify transitional moments. Through comprehensive analysis, we empirically show that pre-training and transferring contextual representation are both critical to improving the video scene segmentation performance. Lastly, we achieve the new state-of-the-art on the MovieNet-SSeg benchmark. The code is available at https://github.com/k akaobrain/bassl.
公開日:2022-01-14
翻訳日:2022-01-17 15:01:58
# MMNet:マイクロ圧縮認識のための筋運動誘導ネットワーク

MMNet: Muscle motion-guided network for micro-expression recognition ( http://arxiv.org/abs/2201.05297v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao(参考訳) 顔のマイクロ・エクスプレッション(ME)は、人々の本当の感情を明らかにする不随意の顔の動きであり、精神疾患の早期介入、国家安全保障、および多くの人間とコンピュータの相互作用システムにおいて重要な役割を果たす。 しかし、既存のマイクロ圧縮データセットは限定的であり、通常は優れた分類器の訓練にいくつかの課題をもたらす。 顔面筋の微妙な運動をモデル化するために,ロバストなマイクロ表現認識(mer)フレームワーク,すなわち筋運動誘導ネットワーク(mmnet)を提案する。 特に、連続注意ブロックは、身元情報が少ない局所的な微妙な筋肉運動パターンのモデル化に焦点をあてるが、これは、多くの身元情報を持つ完全なビデオフレームから特徴を直接抽出する従来の方法と異なる。 また,視覚トランスフォーマに基づいて位置校正(pc)モジュールを設計する。 2つの枝の端にPCモジュールによって生成された顔の位置埋め込みを追加することで、PCモジュールはMERの顔面筋運動パターンの特徴に位置情報を追加するのに役立つ。 3つの公開マイクロ表現データセットに関する広範な実験は、我々のアプローチが最先端のメソッドよりも大きなマージンで優れていることを示している。

Facial micro-expressions (MEs) are involuntary facial motions revealing peoples real feelings and play an important role in the early intervention of mental illness, the national security, and many human-computer interaction systems. However, existing micro-expression datasets are limited and usually pose some challenges for training good classifiers. To model the subtle facial muscle motions, we propose a robust micro-expression recognition (MER) framework, namely muscle motion-guided network (MMNet). Specifically, a continuous attention (CA) block is introduced to focus on modeling local subtle muscle motion patterns with little identity information, which is different from most previous methods that directly extract features from complete video frames with much identity information. Besides, we design a position calibration (PC) module based on the vision transformer. By adding the position embeddings of the face generated by PC module at the end of the two branches, the PC module can help to add position information to facial muscle motion pattern features for the MER. Extensive experiments on three public micro-expression datasets demonstrate that our approach outperforms state-of-the-art methods by a large margin.
公開日:2022-01-14
翻訳日:2022-01-17 15:01:34
# SIFTとDCNNを用いた残差制約任意画像スタイル転送

Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN ( http://arxiv.org/abs/2201.05346v1 )

ライセンス: Link先を確認
HuiHuang Zhao, Yaonan Wang and Yuhua Li(参考訳) 本稿では,Deep Convolutional Neural Networks (DCNN)モデルを用いて,サンプル画像(スタイル画像)を他の画像(コンテンツ画像)に転送する新たな画像合成手法を提案する。 一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送されるか、あるいはいくつかの可視誤差が発生する。 本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。 まず,本手法で最も適した方法を選択するために,既存の塩分濃度検出法について評価する。 選択されたサリエンシー検出方法は、同じサリエンシーを有するコンテンツ画像のオブジェクトに対応するスタイル画像内のオブジェクトを検出するために使用される。 また、スタイル画像とコンテンツにおいてサイズや解像度が異なるという問題を解決するため、スケール不変の特徴変換を用いて一連のスタイル画像とコンテンツ画像を生成し、マッチングマッチングのためのより多くの特徴マップを生成することができる。 そこで, 新たな損失関数を提案し, 相違損失, スタイル損失, コンテンツ損失を組み合わせ, 繰り返しの相違による相違度制約の勾配を加味する。 最後に、スタイル転送のための改良された深層CNNフレームワークへのマルチチャネル入力として、ソース画像とサリエンシ検出結果を利用する。 実験は、ソースイメージの塩分マップが正しいマッチングを見つけ、アーティファクトを避けるのに役立つことを示している。 異なる種類の画像に対する実験結果から,本手法は最近の出版物から9つの代表的な手法より優れ,ロバスト性も良好であることが示された。

This paper develops a new image synthesis approach to transfer an example image (style image) to other images (content images) by using Deep Convolutional Neural Networks (DCNN) model. When common neural style transfer methods are used, the textures and colors in the style image are usually transferred imperfectly to the content image, or some visible errors are generated. This paper proposes a novel saliency constrained method to reduce or avoid such effects. It first evaluates some existing saliency detection methods to select the most suitable one for use in our method. The selected saliency detection method is used to detect the object in the style image, corresponding to the object of the content image with the same saliency. In addition, aim to solve the problem that the size or resolution is different in the style image and content, the scale-invariant feature transform is used to generate a series of style images and content images which can be used to generate more feature maps for patches matching. It then proposes a new loss function combining the saliency loss, style loss and content loss, adding gradient of saliency constraint into style transfer in iterations. Finally the source images and saliency detection results are utilized as multichannel input to an improved deep CNN framework for style transfer. The experiments show that the saliency maps of source images can help find the correct matching and avoid artifacts. Experimental results on different kind of images demonstrate that our method outperforms nine representative methods from recent publications and has good robustness.
公開日:2022-01-14
翻訳日:2022-01-17 15:01:16
# HardBoost: ハードクラスでゼロショット学習を促進する

HardBoost: Boosting Zero-Shot Learning with Hard Classes ( http://arxiv.org/abs/2201.05479v1 )

ライセンス: Link先を確認
Bo Liu, Lihua Hu, Zhanyi Hu, and Qiulei Dong(参考訳) この研究は、ゼロショット学習(ZSL)におけるいわゆるハードクラス問題(英語版)の体系的分析であり、一部の未確認クラスは、他のクラスよりもZSLのパフォーマンスに不均等に影響を及ぼし、ハードクラスを検知し、悪用することで問題を修復する方法である。 まず, ハードクラス問題(ハードクラス問題)がユビキタスな現象であり, 使用済みのZSL法によらず, 持続することを示す実験的な知見を報告する。 そして,未知クラス間の高い意味的親和性は,ハードネスの根底にある可能性の高い原因であり,ハードクラスを検出するために2つのメトリクスを設計する。 最後に、2つのフレームワークがハードクラスを検出して活用し、1つはインダクティブな設定で、もう1つはトランスダクティブな設定で解決する。 提案されたフレームワークは、ほとんど既存のzslメソッドに対応し、少ない労力でパフォーマンスをさらに向上させることができる。 3つの人気のあるベンチマークに関する大規模な実験は、ZSLのハードクラスを特定し、活用することで利点を実証している。

This work is a systematical analysis on the so-called hard class problem in zero-shot learning (ZSL), that is, some unseen classes disproportionally affect the ZSL performances than others, as well as how to remedy the problem by detecting and exploiting hard classes. At first, we report our empirical finding that the hard class problem is a ubiquitous phenomenon and persists regardless of used specific methods in ZSL. Then, we find that high semantic affinity among unseen classes is a plausible underlying cause of hardness and design two metrics to detect hard classes. Finally, two frameworks are proposed to remedy the problem by detecting and exploiting hard classes, one under inductive setting, the other under transductive setting. The proposed frameworks could accommodate most existing ZSL methods to further significantly boost their performances with little efforts. Extensive experiments on three popular benchmarks demonstrate the benefits by identifying and exploiting the hard classes in ZSL.
公開日:2022-01-14
翻訳日:2022-01-17 15:00:49
# lidar移動地図データによる建築物の洪水リスクマップの決定

Determination of building flood risk maps from LiDAR mobile mapping data ( http://arxiv.org/abs/2201.05514v1 )

ライセンス: Link先を確認
Yu Feng, Qing Xiao, Claus Brenner, Aaron Peche, Juntao Yang, Udo Feuerhake, Monika Sester(参考訳) 都市化が進むにつれて、多くの都市で洪水が大きな課題となっている。 予測降水量、地形、パイプネットワークに基づいて、洪水シミュレーションは洪水のリスクのある地域や建物に早期の警告を与えることができる。 基礎窓、ドア、地下のガレージの入り口は、浸水が建物に流れ込む一般的な場所である。 建物の中には洪水の脅威を考慮して準備や設計がなされているものもあるが、そうではないものもある。 したがって、これらのファサードの開口部の高さを知ることは、入水しやすい場所を特定するのに役立つ。 しかし、ほとんどの都市ではそのようなデータは利用できない。 望まれる対象の伝統的な調査が用いられることもあるが、これは非常に時間と労力を要するプロセスである。 本研究では,lidarモバイルマッピングデータから窓とドアを抽出するための新しいプロセスを提案する。 ディープラーニングオブジェクト検出モデルは、これらのオブジェクトを特定するために訓練される。 通常、これは大量の手動アノテーションを提供する必要がある。 本稿では,ルールベースの手法を用いてこの問題を緩和する。 最初のステップでは、ルールベースのメソッドを使用して擬似ラベルを生成する。 半教師付き学習戦略は、3つの異なるレベルの監督によって適用される。 その結果、自動生成された擬似ラベルのみを用いることで、F1スコアの点において、学習ベースモデルはルールベースのアプローチを14.6%上回る結果となった。 人間の監督から5時間経つと、さらなる6.2%の改善が可能となる。 ファサード開口部の高さを洪水シミュレーションモデルから予測した水位と比較することにより、建物毎の洪水リスクレベルを割り当てる地図を作成することができる。 この情報は洪水予報と組み合わせることで、市のインフラや住宅ビルのより標的となる防災ガイドを提供することができる。

With increasing urbanization, flooding is a major challenge for many cities today. Based on forecast precipitation, topography, and pipe networks, flood simulations can provide early warnings for areas and buildings at risk of flooding. Basement windows, doors, and underground garage entrances are common places where floodwater can flow into a building. Some buildings have been prepared or designed considering the threat of flooding, but others have not. Therefore, knowing the heights of these facade openings helps to identify places that are more susceptible to water ingress. However, such data is not yet readily available in most cities. Traditional surveying of the desired targets may be used, but this is a very time-consuming and laborious process. This research presents a new process for the extraction of windows and doors from LiDAR mobile mapping data. Deep learning object detection models are trained to identify these objects. Usually, this requires to provide large amounts of manual annotations. In this paper, we mitigate this problem by leveraging a rule-based method. In a first step, the rule-based method is used to generate pseudo-labels. A semi-supervised learning strategy is then applied with three different levels of supervision. The results show that using only automatically generated pseudo-labels, the learning-based model outperforms the rule-based approach by 14.6% in terms of F1-score. After five hours of human supervision, it is possible to improve the model by another 6.2%. By comparing the detected facade openings' heights with the predicted water levels from a flood simulation model, a map can be produced which assigns per-building flood risk levels. This information can be combined with flood forecasting to provide a more targeted disaster prevention guide for the city's infrastructure and residential buildings.
公開日:2022-01-14
翻訳日:2022-01-17 15:00:28
# ViT2Hash: 教師なしの情報保存ハッシュ

ViT2Hash: Unsupervised Information-Preservi ng Hashing ( http://arxiv.org/abs/2201.05541v1 )

ライセンス: Link先を確認
Qinkang Gong, Liangdao Wang, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) 教師なしの2進符号に画像をマッピングする教師なし画像ハッシュは、高い圧縮率の圧縮機である。 したがって、元のデータの有意義な情報を保存する方法が重要な問題である。 本稿では,視覚表現の学習において大きな進歩を見せている視覚前訓練モデルViTに触発されて,対象の教師なしハッシュタスクに対して,ViTモデルを微調整する簡易情報保存圧縮機を提案する。 具体的には、画素から連続的な特徴まで、まず、劣化した画像を入力として、トレーニング済みのViTモデルと完全な画像から元の特徴を再構成し、特徴抽出器が原データの有意義な情報を保存することに集中できるように、特徴保存モジュールを提案する。 第二に、連続的な特徴からハッシュコードまで、提案したKullback-Leibler分散損失を用いて、トレーニング済みのViTモデルから意味情報を保持するためのハッシュ保存モジュールを提案する。 また、量子化誤差を最小限に抑えるために量子化損失と類似性損失を加える。 提案手法は非常に単純で,3つのベンチマーク画像データセット上でのMAPの精度は極めて高い。

Unsupervised image hashing, which maps images into binary codes without supervision, is a compressor with a high compression rate. Hence, how to preserving meaningful information of the original data is a critical problem. Inspired by the large-scale vision pre-training model, known as ViT, which has shown significant progress for learning visual representations, in this paper, we propose a simple information-preservi ng compressor to finetune the ViT model for the target unsupervised hashing task. Specifically, from pixels to continuous features, we first propose a feature-preserving module, using the corrupted image as input to reconstruct the original feature from the pre-trained ViT model and the complete image, so that the feature extractor can focus on preserving the meaningful information of original data. Secondly, from continuous features to hash codes, we propose a hashing-preserving module, which aims to keep the semantic information from the pre-trained ViT model by using the proposed Kullback-Leibler divergence loss. Besides, the quantization loss and the similarity loss are added to minimize the quantization error. Our method is very simple and achieves a significantly higher degree of MAP on three benchmark image datasets.
公開日:2022-01-14
翻訳日:2022-01-17 15:00:05
# 畳み込みニューラルネットワークモデルを用いたFISHおよびナノSIMS画像のマルチモーダル登録

Multimodal registration of FISH and nanoSIMS images using convolutional neural network models ( http://arxiv.org/abs/2201.05545v1 )

ライセンス: Link先を確認
Xiaojia He, Christof Meile, Suchendra M. Bhandarkar(参考訳) ナノスケール二次イオン質量分析法 (nanoSIMS) および蛍光 in situ hybridization (FISH) 顕微鏡は、微生物研究における標的微生物群集のアイデンティティと細胞活性の高解像度・多モード画像表現を提供する。 微生物学者にとって重要であるにもかかわらず、FISHおよびnanoSIMS画像のマルチモーダルな登録は、どちらの画像にも形態的歪みと背景雑音があるため困難である。 本研究では,多スケール特徴抽出のための畳み込みニューラルネットワーク(cnns),最小変換コスト特徴マッチングの計算のための形状コンテキスト,魚およびナノsims画像のマルチモーダル登録のための薄板スプライン(tps)モデルを用いた。 6つの試験されたCNNモデル、VGG16、VGG19、GoogLeNet、ShuffleNet、ResNet18、ResNet101はいずれもよく機能し、背景ノイズと形態歪みが著しいマルチモーダル画像の登録におけるCNNの有用性を示した。 また,バイナライゼーションにより保存された骨材形状を多モード微生物画像の登録に有用であることを示す。

Nanoscale secondary ion mass spectrometry (nanoSIMS) and fluorescence in situ hybridization (FISH) microscopy provide high-resolution, multimodal image representations of the identity and cell activity respectively of targeted microbial communities in microbiological research. Despite its importance to microbiologists, multimodal registration of FISH and nanoSIMS images is challenging given the morphological distortion and background noise in both images. In this study, we use convolutional neural networks (CNNs) for multiscale feature extraction, shape context for computation of the minimum transformation cost feature matching and the thin-plate spline (TPS) model for multimodal registration of the FISH and nanoSIMS images. All the six tested CNN models, VGG16, VGG19, GoogLeNet and ShuffleNet, ResNet18 and ResNet101 performed well, demonstrating the utility of CNNs in the registration of multimodal images with significant background noise and morphology distortion. We also show aggregate shape preserved by binarization to be a robust feature for registering multimodal microbiology-related images.
公開日:2022-01-14
翻訳日:2022-01-17 14:58:32
# 大規模分散キャンペーンにおけるオンラインコミュニティの定着予測

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign ( http://arxiv.org/abs/2201.05334v1 )

ライセンス: Link先を確認
Abraham Israeli, Alexander Kremiansky, Oren Tsur(参考訳) 集団的意思決定を大規模に理解し,コミュニティ組織とコミュニティダイナミクスが集団的行動をどのように形成するかを,社会科学研究の核心に示す。 本研究では,数百万人のアクティブなメンバによる数千のコミュニティの行動について検討する。 我々は,予想外の大規模分散キャンペーンを行うコミュニティの予測という,新たな課題を定義した。 この目的のために,テキストキュー,コミュニティメタデータ,構造特性を組み合わせたハイブリッドモデルを開発した。 本稿では,この多面モデルが分散環境における大規模集団意思決定を正確に予測できることを示す。 私たちはRedditのr/placeを通じて、何千ものコミュニティで自己組織化された数百万のユーザが衝突し、アジェンダを実現するために協力する大規模なオンライン実験を通じて、私たちのモデルの適用性を実証しました。 ハイブリッドモデルではF1予測スコアが0.826である。 粗いメタ機能は、きめ細かいテキストの手がかりと同じくらい予測精度に重要であるが、明示的な構造的特徴はより小さい役割を担っている。 モデルを解釈し,r/place実験に参加したコミュニティの特徴について,様々な社会的洞察を提供し,支援する。 我々の結果と分析は、集団行動を促進する複雑な社会的ダイナミクスと、ユーザの協調を促進する要因に光を当てた。 r/place実験の規模とユニークな条件は、オンラインアクティビズム、ヘイトスピーチの普及、政治的偏りの低減など、より広い文脈でこの研究結果が適用可能であることを示唆している。 このモデルのより広い適用性は、ウォールストリートベッツのコミュニティ、彼らのr/placeにおける役割、および2021年のgamestop short squeezeキャンペーンの広範な分析を通して示される。

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.
公開日:2022-01-14
翻訳日:2022-01-17 14:58:12
# チャットボットのメンタルヘルスアセスメント

Mental Health Assessment for the Chatbots ( http://arxiv.org/abs/2201.05382v1 )

ライセンス: Link先を確認
Yong Shan, Jinchao Zhang, Zekang Li, Yang Feng, Jie Zhou(参考訳) 対話システム評価に関するこれまでの研究は、通常、局所的および技術的指標であるチャットボットが生成する応答の品質評価(例えば、流束、関連性など)に焦点を当てている。 未成年者を含む何百万ものオンラインユーザーに反応するチャットボットは、心理的な影響を避けるために健全な精神傾向を持つべきだと主張する。 本稿では,チャットボットのメンタルヘルスアセスメント次元(抑うつ,不安,アルコール依存症,共感)をいくつか確立し,質問紙ベースのメンタルヘルスアセスメント手法を提案する。 我々は、よく知られたオープンドメインチャットボットの評価を行い、これらのチャットボットに深刻なメンタルヘルス問題があることを発見した。 本研究は,データセット構築時のメンタルヘルスリスクとモデルトレーニング手順の無視によるものであると考えている。 我々は、チャットボットの深刻なメンタルヘルス問題に研究者の注意を惹きつけ、ポジティブな感情的相互作用におけるチャットボットの能力を向上させることを期待する。

Previous researches on dialogue system assessment usually focus on the quality evaluation (e.g. fluency, relevance, etc) of responses generated by the chatbots, which are local and technical metrics. For a chatbot which responds to millions of online users including minors, we argue that it should have a healthy mental tendency in order to avoid the negative psychological impact on them. In this paper, we establish several mental health assessment dimensions for chatbots (depression, anxiety, alcohol addiction, empathy) and introduce the questionnaire-based mental health assessment methods. We conduct assessments on some well-known open-domain chatbots and find that there are severe mental health issues for all these chatbots. We consider that it is due to the neglect of the mental health risks during the dataset building and the model training procedures. We expect to attract researchers' attention to the serious mental health problems of chatbots and improve the chatbots' ability in positive emotional interaction.
公開日:2022-01-14
翻訳日:2022-01-17 14:57:43
# 次元の呪いを心配し、愛することを止めるために学んだこと--高次元空間におけるクラスタ検証の評価

How I learned to stop worrying and love the curse of dimensionality: an appraisal of cluster validation in high-dimensional spaces ( http://arxiv.org/abs/2201.05214v1 )

ライセンス: Link先を確認
Brian A. Powell(参考訳) ユークリッドノルムの高次元空間における近点と遠点を確実に区別する失敗はよく知られている。 この距離集中現象は、中央分布とクラスターデータを含む、iidまたは相関した特徴を持つ様々なデータ分布に現れる。 ユークリッド近辺およびクラスタリングのようなより一般的な近接指向データマイニングタスクに基づく教師なし学習は、高次元アプリケーションにおける距離集中に悪影響を及ぼす可能性がある。 信頼性の高い高次元性能のクラスタリングアルゴリズムの開発には多くの研究がなされているが、クラスタ検証の問題は、データセット内のクラスタの自然数を決定することである。 本研究では, 一般的なユークリッドノルムに基づくクラスタ妥当性指標の感度が, 十分に分離された, ノイズの多いクラスタを含む, 様々な合成データスキームの次元とどのようにスケールするかを検討する。 したがって、次元性の呪いは、このかなり一般的なデータスキームのクラスには取り除かれる。

The failure of the Euclidean norm to reliably distinguish between nearby and distant points in high dimensional space is well-known. This phenomenon of distance concentration manifests in a variety of data distributions, with iid or correlated features, including centrally-distribute d and clustered data. Unsupervised learning based on Euclidean nearest-neighbors and more general proximity-oriented data mining tasks like clustering, might therefore be adversely affected by distance concentration for high-dimensional applications. While considerable work has been done developing clustering algorithms with reliable high-dimensional performance, the problem of cluster validation--of determining the natural number of clusters in a dataset--has not been carefully examined in high-dimensional problems. In this work we investigate how the sensitivities of common Euclidean norm-based cluster validity indices scale with dimension for a variety of synthetic data schemes, including well-separated and noisy clusters, and find that the overwhelming majority of indices have improved or stable sensitivity in high dimensions. The curse of dimensionality is therefore dispelled for this class of fairly generic data schemes.
公開日:2022-01-13
翻訳日:2022-01-17 14:57:26
# データプライバシ予測型パフォーマンストレードオフに向けて

Towards a Data Privacy-Predictive Performance Trade-off ( http://arxiv.org/abs/2201.05226v1 )

ライセンス: Link先を確認
T\^ania Carvalho, Nuno Moniz, Pedro Faria and Lu\'is Antunes(参考訳) マシンラーニングは、医療、病理予測、詐欺検出のための金融セクターなど、最も多様なアプリケーションやドメインでますます使われています。 機械学習における効率性と正確性のためのlinchpinの1つは、データユーティリティである。 しかし、個人情報を含む場合には、個人のプライバシーを保護するための法律や規制により、完全なアクセスを制限することができる。 したがって、データ所有者は、共有されたデータによってそのようなプライバシーが保証されなければならない。 プライベート情報の削除または変換(復号化)が最も一般的な手法である。 直感的には、詳細化や情報の歪みがモデル予測性能の損失をもたらすと予測できる。 しかし、非識別データを用いた分類タスクに関する以前の研究は、予測性能を特定のアプリケーションに保持できることを一般に示している。 本稿では,分類タスクにおけるデータプライバシと予測性能のトレードオフの存在を評価することを目的とする。 我々は、大量のプライバシー保護技術と学習アルゴリズムを活用し、再識別能力と変換された変種が予測性能に与える影響を評価する。 従来の文献とは異なり、プライバシのレベルが高くなるほど(より低い再識別リスク)、予測パフォーマンスへの影響が高まり、トレードオフの明確な証拠が指摘される。

Machine learning is increasingly used in the most diverse applications and domains, whether in healthcare, to predict pathologies, or in the financial sector to detect fraud. One of the linchpins for efficiency and accuracy in machine learning is data utility. However, when it contains personal information, full access may be restricted due to laws and regulations aiming to protect individuals' privacy. Therefore, data owners must ensure that any data shared guarantees such privacy. Removal or transformation of private information (de-identification) are among the most common techniques. Intuitively, one can anticipate that reducing detail or distorting information would result in losses for model predictive performance. However, previous work concerning classification tasks using de-identified data generally demonstrates that predictive performance can be preserved in specific applications. In this paper, we aim to evaluate the existence of a trade-off between data privacy and predictive performance in classification tasks. We leverage a large set of privacy-preserving techniques and learning algorithms to provide an assessment of re-identification ability and the impact of transformed variants on predictive performance. Unlike previous literature, we confirm that the higher the level of privacy (lower re-identification risk), the higher the impact on predictive performance, pointing towards clear evidence of a trade-off.
公開日:2022-01-13
翻訳日:2022-01-17 14:57:06
# 植物表現の適応的伝達学習

Adaptive Transfer Learning for Plant Phenotyping ( http://arxiv.org/abs/2201.05261v1 )

ライセンス: Link先を確認
Jun Wu, Elizabeth A. Ainsworth, Sheng Wang, Kaiyu Guan, Jingrui He(参考訳) 植物フェノタイピング(Guo et al. 2021; Pieruschka et al. 2019)は、植物の成長に関連する植物の多様性を研究することに焦点を当てている。 より具体的には、植物の解剖学的、個体発生学的、生理的、生化学的特性を正確に測定することにより、異なる環境における植物の成長の重要な要因を特定することができる。 1つの一般的なアプローチは、ハイパースペクトル反射率(Yendrek et al. 2017; Wang et al. 2021)を用いて植物の特性を予測することである。 しかし, 植物表現における高スペクトル反射率データの分布は, 異なる環境において異なる可能性がある。 つまり、異なる環境で1つのプラントで個別に機械学習モデルを学習することは、計算的に拡張可能である。 そこで本研究では,植物表現型化における現代機械学習モデルの知識伝達可能性の研究に焦点をあてる。 具体的には、以下の質問に答えることを目的としている。 1)従来の機械学習モデル、例えば部分最小二乗回帰(plsr)、ガウス過程回帰(gpr)、多層パーセプトロン(mlp)の性能は、植物表現型に対する注釈付きサンプルの数にどのように影響するか。 2) ニューラルネットワークを用いたトランスファー学習モデルが植物表現型の性能を向上できるか? 3) 植物表現型化のための無限幅隠れ層を用いたニューラルネットワークによるトランスファー学習の改善は可能か?

Plant phenotyping (Guo et al. 2021; Pieruschka et al. 2019) focuses on studying the diverse traits of plants related to the plants' growth. To be more specific, by accurately measuring the plant's anatomical, ontogenetical, physiological and biochemical properties, it allows identifying the crucial factors of plants' growth in different environments. One commonly used approach is to predict the plant's traits using hyperspectral reflectance (Yendrek et al. 2017; Wang et al. 2021). However, the data distributions of the hyperspectral reflectance data in plant phenotyping might vary in different environments for different plants. That is, it would be computationally expansive to learn the machine learning models separately for one plant in different environments. To solve this problem, we focus on studying the knowledge transferability of modern machine learning models in plant phenotyping. More specifically, this work aims to answer the following questions. (1) How is the performance of conventional machine learning models, e.g., partial least squares regression (PLSR), Gaussian process regression (GPR) and multi-layer perceptron (MLP), affected by the number of annotated samples for plant phenotyping? (2) Whether could the neural network based transfer learning models improve the performance of plant phenotyping? (3) Could the neural network based transfer learning be improved by using infinite-width hidden layers for plant phenotyping?
公開日:2022-01-14
翻訳日:2022-01-17 14:56:47
# リンク予測のための構造強化グラフニューラルネットワーク

Structure Enhanced Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2201.05293v1 )

ライセンス: Link先を確認
Baole Ai, Zhou Qin, Wenting Shen, Yong Li(参考訳) グラフニューラルネットワーク(GNN)は様々なタスクにおいて有望な結果を示しており、リンク予測が重要である。 GNNモデルは、通常、近隣情報を中央ノードに再帰的に集約するノード中心のメッセージパッシング手順に従う。 このパラダイムに従い、ノードの特徴は、ノードの位置とそれが果たす役割を気にせずにエッジを通過する。 しかし、無視されたトポロジ情報はリンク予測タスクに有用であることが示されている。 本稿では,リンク予測のための構造拡張グラフニューラルネットワーク(SEG)を提案する。 SEGは,対象ノードのトポロジ情報を取り込むパスラベリング手法を導入し,その構造を通常のGNNモデルに組み込む。 構造エンコーダと深部GNNモデルを共同でトレーニングすることにより、SEGはトポロジ構造とノード特徴を融合させ、グラフ情報を完全に活用する。 OGBリンク予測データセットの実験は、SEGが3つの公開データセットすべてで最先端の結果を達成することを示した。

Graph Neural Networks (GNNs) have shown promising results in various tasks, among which link prediction is an important one. GNN models usually follow a node-centric message passing procedure that aggregates the neighborhood information to the central node recursively. Following this paradigm, features of nodes are passed through edges without caring about where the nodes are located and which role they played. However, the neglected topological information is shown to be valuable for link prediction tasks. In this paper, we propose Structure Enhanced Graph neural network (SEG) for link prediction. SEG introduces the path labeling method to capture surrounding topological information of target nodes and then incorporates the structure into an ordinary GNN model. By jointly training the structure encoder and deep GNN model, SEG fuses topological structures and node features to take full advantage of graph information. Experiments on the OGB link prediction datasets demonstrate that SEG achieves state-of-the-art results among all three public datasets.
公開日:2022-01-14
翻訳日:2022-01-17 14:55:08
# 時系列予測のための解釈可能な動的アンサンブルアーキテクチャ

IDEA: Interpretable Dynamic Ensemble Architecture for Time Series Prediction ( http://arxiv.org/abs/2201.05336v1 )

ライセンス: Link先を確認
Mengyue Zha, Kani Chen, Tong Zhang(参考訳) 説明可能なアンサンブルによる不定な時系列予測の精度と一般化をオンザフライで向上させる。 本稿では,解釈可能なベース学習者が群としての疎コミュニケーションと独立して予測を行うための,解釈可能な動的アンサンブルアーキテクチャ(IDEA)を提案する。 このモデルは、グループバックキャスト残差と再帰入力競合によって接続された複数の連続的に積み重ねられたグループで構成されている。 エンドツーエンドのトレーニングによるアンサンブルは、水平および垂直の両方で、最先端(SOTA)のパフォーマンスをもたらす。 予測精度はTOURISMデータセットで最高の統計ベンチマークで2.6%向上し、M4データセットで最高のディープラーニングベンチマークで2%向上した。 アーキテクチャにはいくつかの利点があり、様々なドメインの時系列に適用でき、特殊なモジュール構造を持ち、タスク分散の変化にロバストなユーザに対して説明できる。

We enhance the accuracy and generalization of univariate time series point prediction by an explainable ensemble on the fly. We propose an Interpretable Dynamic Ensemble Architecture (IDEA), in which interpretable base learners give predictions independently with sparse communication as a group. The model is composed of several sequentially stacked groups connected by group backcast residuals and recurrent input competition. Ensemble driven by end-to-end training both horizontally and vertically brings state-of-the-art (SOTA) performances. Forecast accuracy improves by 2.6% over the best statistical benchmark on the TOURISM dataset and 2% over the best deep learning benchmark on the M4 dataset. The architecture enjoys several advantages, being applicable to time series from various domains, explainable to users with specialized modular structure and robust to changes in task distribution.
公開日:2022-01-14
翻訳日:2022-01-17 14:54:52
# グラフマッチングのための自由グラフニューラルネットワークのトレーニング

Training Free Graph Neural Networks for Graph Matching ( http://arxiv.org/abs/2201.05349v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Yixin Cao, Fuli Feng, Xiang Wang, Xindi Shang, Jie Tang, Kenji Kawaguchi, Tat-Seng Chua(参考訳) 学習なしでグラフニューラルネットワーク(gnns)ベースのグラフマッチングの性能を向上させるためのフレームワークであるtfgm(training free graph matching)を提案する。 TFGMはGNNのトレーニングにおいて2つの重要な問題を後押しする。 1)高価な注釈による限定的な監督 2)トレーニングの計算コスト。 基本的なフレームワークであるBasicTFGMは、まずグラフマッチング手法の推論段階を採用することで提案される。 解析の結果,BasicTFGMはグラフマッチングの二次代入定式化に対する線形緩和であることがわかった。 これにより、構造互換性の維持と効率的な多項式複雑性が保証される。 経験的に、gnnのアーキテクチャに2種類のマッチングプリエントを手作りすることで、基本tfgmをさらに改善する:異なるローカルのノード近傍の比較と、利用可能であればアノテーションデータを活用する。 評価のために,画像間のキーポイントマッチング,知識グラフ間の半教師付きエンティティアライメント,タンパク質相互作用ネットワーク間の教師なしアライメントなど,幅広い設定について広範な実験を行った。 TFGMをさまざまなGNNに適用することは、ベースラインよりも有望な改善を示している。 さらなるアブレーション研究により、tfgmの効率的かつ効率的なトレーニングフリー特性が示される。 私たちのコードはhttps://github.com/a charkq/training-free -graph-matchingで利用可能です。

We present TFGM (Training Free Graph Matching), a framework to boost the performance of Graph Neural Networks (GNNs) based graph matching without training. TFGM sidesteps two crucial problems when training GNNs: 1) the limited supervision due to expensive annotation, and 2) training's computational cost. A basic framework, BasicTFGM, is first proposed by adopting the inference stage of graph matching methods. Our analysis shows that the BasicTFGM is a linear relaxation to the quadratic assignment formulation of graph matching. This guarantees the preservation of structure compatibility and an efficient polynomial complexity. Empirically, we further improve the BasicTFGM by handcrafting two types of matching priors into the architecture of GNNs: comparing node neighborhoods of different localities and utilizing annotation data if available. For evaluation, we conduct extensive experiments on a broad set of settings, including supervised keypoint matching between images, semi-supervised entity alignment between knowledge graphs, and unsupervised alignment between protein interaction networks. Applying TFGM on various GNNs shows promising improvements over baselines. Further ablation studies demonstrate the effective and efficient training-free property of TFGM. Our code is available at https://github.com/a charkq/Training-Free -Graph-Matching.
公開日:2022-01-14
翻訳日:2022-01-17 14:54:40
# オフライン強化学習のためのモデルフリーとモデルベースアルゴリズムの比較

Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning ( http://arxiv.org/abs/2201.05433v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler(参考訳) オフライン強化学習(rl)アルゴリズムは、ムジョコのような環境を念頭に置いて設計されることが多い。 我々は、複雑なノイズや部分的に観測可能な状態を含む実世界の問題に近い設定でアルゴリズムをテストするために、モデルフリー、モデルベース、および様々な産業ベンチマーク(IB)データセットに対するハイブリッドオフラインRLアプローチを比較した。 IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムや、より単純な正規化アルゴリズムによるモデルフリーアルゴリズムといった、より単純なアルゴリズムがデータセット上で最高のパフォーマンスを発揮する。

Offline reinforcement learning (RL) Algorithms are often designed with environments such as MuJoCo in mind, in which the planning horizon is extremely long and no noise exists. We compare model-free, model-based, as well as hybrid offline RL approaches on various industrial benchmark (IB) datasets to test the algorithms in settings closer to real world problems, including complex noise and partially observable states. We find that on the IB, hybrid approaches face severe difficulties and that simpler algorithms, such as rollout based algorithms or model-free algorithms with simpler regularizers perform best on the datasets.
公開日:2022-01-14
翻訳日:2022-01-17 14:54:22
# ラマン分光法マイクロプラスチックデータのスペクトルシグネチャによる高分子タイプの機械学習

Machine Learning of polymer types from the spectral signature of Raman spectroscopy microplastics data ( http://arxiv.org/abs/2201.05445v1 )

ライセンス: Link先を確認
Sheela Ramanna and Danila Morozovskii and Sam Swanson and Jennifer Bruneau(参考訳) 現在、マイクロプラスチック中のポリマータイプを識別する化合物構造を分析するためのツールや技術は、環境に優しいマイクロプラスチックには適していない。 環境風化因子によって劣化したマイクロプラスチックは、風化過程に晒されていないマイクロプラスチックのサンプルよりも分析的確実性が低い。 機械学習ツールと技術は、マイクロプラスチック分析における確実性のための研究ツールのキャリブレーションを向上します。 本稿では,サンプルが環境劣化の影響を受けていない場合に,比較的少量のラベル付き入力データを用いて,機械学習(ML)アルゴリズムがポリマーのタイプを識別できるように,署名(ラマンシフト値)が十分に異なるかどうかを検討する。 いくつかのMLモデルは、ラマンシフトと様々なプラスチック粒子の強度を含む、よく知られたSLOPP(Spectral Libraries of Plastic Particles)で訓練され、その後、22種類のポリマーからなる環境劣化プラスチック粒子(SloPP-E)で試験された。 大規模な前処理と増補の後、訓練されたランダム森林モデルがSloPP-Eデータセットでテストされ、93.81%の分類精度が89%から改善された。

The tools and technology that are currently used to analyze chemical compound structures that identify polymer types in microplastics are not well-calibrated for environmentally weathered microplastics. Microplastics that have been degraded by environmental weathering factors can offer less analytic certainty than samples of microplastics that have not been exposed to weathering processes. Machine learning tools and techniques allow us to better calibrate the research tools for certainty in microplastics analysis. In this paper, we investigate whether the signatures (Raman shift values) are distinct enough such that well studied machine learning (ML) algorithms can learn to identify polymer types using a relatively small amount of labeled input data when the samples have not been impacted by environmental degradation. Several ML models were trained on a well-known repository, Spectral Libraries of Plastic Particles (SLOPP), that contain Raman shift and intensity results for a range of plastic particles, then tested on environmentally aged plastic particles (SloPP-E) consisting of 22 polymer types. After extensive preprocessing and augmentation, the trained random forest model was then tested on the SloPP-E dataset resulting in an improvement in classification accuracy of 93.81% from 89%.
公開日:2022-01-14
翻訳日:2022-01-17 14:54:10
# 対照的なラプラシア固有写像

Contrastive Laplacian Eigenmaps ( http://arxiv.org/abs/2201.05493v1 )

ライセンス: Link先を確認
Hao Zhu, Ke Sun, Piotr Koniusz(参考訳) グラフの対照的な学習は類似性の概念の下で類似/類似ノード対のノード表現を惹きつける。 グラフの内在的性質と構造特性を保存するために、低次元のノードの埋め込みと組み合わせることができる。 本稿では,有名なラプラシアン固有写像を対照的な学習で拡張し,これらをContrastive Laplacian EigenmapS (COLES)と呼ぶ。 ganにインスパイアされたコントラストの定式化から始め、多くのコントラストグラフ埋め込みモデルの基礎となるjensen-shannonの発散は、対照的な設定でサンプリング中に自然に現れる不一致の正と負の分布の下では失敗することを示した。 対照的に、コレスが本質的にワッサーシュタイン距離のサーロゲートを最小化していることは分析的に証明している。 さらに,COLESの損失は,従来比較法でよく用いられてきたペアワイズ損失よりも優れていた,いわゆるブロックコントラスト損失のファミリーに属することを示す。 我々は、DeepWalk、GCN、Graph2Gauss、DGI、GRACEベースラインと比較して、COLESが好ましい精度/スケール性を提供します。

Graph contrastive learning attracts/disperses node representations for similar/dissimilar node pairs under some notion of similarity. It may be combined with a low-dimensional embedding of nodes to preserve intrinsic and structural properties of a graph. In this paper, we extend the celebrated Laplacian Eigenmaps with contrastive learning, and call them COntrastive Laplacian EigenmapS (COLES). Starting from a GAN-inspired contrastive formulation, we show that the Jensen-Shannon divergence underlying many contrastive graph embedding models fails under disjoint positive and negative distributions, which may naturally emerge during sampling in the contrastive setting. In contrast, we demonstrate analytically that COLES essentially minimizes a surrogate of Wasserstein distance, which is known to cope well under disjoint distributions. Moreover, we show that the loss of COLES belongs to the family of so-called block-contrastive losses, previously shown to be superior compared to pair-wise losses typically used by contrastive methods. We show on popular benchmarks/backbones that COLES offers favourable accuracy/scalability compared to DeepWalk, GCN, Graph2Gauss, DGI and GRACE baselines.
公開日:2022-01-14
翻訳日:2022-01-17 14:53:48
# 相互情報圧縮によるコンパクトグラフ構造学習

Compact Graph Structure Learning via Mutual Information Compression ( http://arxiv.org/abs/2201.05540v1 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Lingfei Wu, Yu Chen, Xiaojie Guo, Chuan Shi(参考訳) グラフ構造学習(GSL)は最近、グラフ構造を最適化する能力とグラフニューラルネットワーク(GNN)の適切なパラメータを同時に学習する能力に大きな注目を集めている。 現在のGSL法は主に単一または複数の情報ソース(基本ビュー)から最適グラフ構造(最終ビュー)を学習するが、最適グラフ構造とは何かに関する理論的ガイダンスはまだ探索されていない。 本質的には、最適なグラフ構造は、冗長なノイズを可能な限り圧縮しながらタスクに関する情報だけを含むべきである。 そのような構造を原則的にどうやって得るか? 本稿では,基本ビューと最終ビューを相互情報に基づいて最適化し,それらの性能をラベルに同時に保持すれば,最終ビューは最小限の構造となることを理論的に証明する。 そこで我々は,MI圧縮によるコンパクトGSLアーキテクチャ,CoGSLを提案する。 具体的には、モデルの2つの入力として元のグラフから2つの基本的なビューを抽出する。 次に,推定ビューを最終ビューに融合する適応手法を提案する。 さらに、推定ビューと最終ビューのパフォーマンスを維持し、2つのビュー毎の相互情報を低減する。 CoGSLの性能を総合的に評価するために、クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性と堅牢性を示す。

Graph Structure Learning (GSL) recently has attracted considerable attentions in its capacity of optimizing graph structure as well as learning suitable parameters of Graph Neural Networks (GNNs) simultaneously. Current GSL methods mainly learn an optimal graph structure (final view) from single or multiple information sources (basic views), however the theoretical guidance on what is the optimal graph structure is still unexplored. In essence, an optimal graph structure should only contain the information about tasks while compress redundant noise as much as possible, which is defined as "minimal sufficient structure", so as to maintain the accurancy and robustness. How to obtain such structure in a principled way? In this paper, we theoretically prove that if we optimize basic views and final view based on mutual information, and keep their performance on labels simultaneously, the final view will be a minimal sufficient structure. With this guidance, we propose a Compact GSL architecture by MI compression, named CoGSL. Specifically, two basic views are extracted from original graph as two inputs of the model, which are refinedly reestimated by a view estimator. Then, we propose an adaptive technique to fuse estimated views into the final view. Furthermore, we maintain the performance of estimated views and the final view and reduce the mutual information of every two views. To comprehensively evaluate the performance of CoGSL, we conduct extensive experiments on several datasets under clean and attacked conditions, which demonstrate the effectiveness and robustness of CoGSL.
公開日:2022-01-14
翻訳日:2022-01-17 14:53:22
# 単一テキスト圧縮のための最適アルファベット

Optimal alphabet for single text compression ( http://arxiv.org/abs/2201.05234v1 )

ライセンス: Link先を確認
Armen E. Allahverdyan and Andranik Khachatryan(参考訳) テキストは、文字の列、文字のn-gram、音節、単語、句など、さまざまな表現を通して見ることができる。 ここではhuffman符号を用いてテキストの最適なノイズなし圧縮について検討し、符号化のアルファベットとそれらの表現の1つが一致することを示す。 一つのテキストを圧縮する際には,コードブックを考慮に入れる必要がある。 したがって、全圧縮は、アルファベット要素のエントロピーによって特徴付けられる最適な圧縮テキストと、テキスト固有のコードブックから成り、ノイズのない(de)圧縮に含めなければならない。 project gutenbergのテキストでは、最高の圧縮は音節、すなわち言語の最小の意味表現要素によって提供される。 十分な短いテキストしか残っていない場合、最適なアルファベットは、保持されている長さに応じて文字または2グラムの文字である。

A text can be viewed via different representations, i.e. as a sequence of letters, n-grams of letters, syllables, words, and phrases. Here we study the optimal noiseless compression of texts using the Huffman code, where the alphabet of encoding coincides with one of those representations. We show that it is necessary to account for the codebook when compressing a single text. Hence, the total compression comprises of the optimally compressed text -- characterized by the entropy of the alphabet elements -- and the codebook which is text-specific and therefore has to be included for noiseless (de)compression. For texts of Project Gutenberg the best compression is provided by syllables, i.e. the minimal meaning-expressing element of the language. If only sufficiently short texts are retained, the optimal alphabet is that of letters or 2-grams of letters depending on the retained length.
公開日:2022-01-13
翻訳日:2022-01-17 14:52:59
# 機械学習によるシュリーレン画像からの密度推定

Density Estimation from Schlieren Images through Machine Learning ( http://arxiv.org/abs/2201.05233v1 )

ライセンス: Link先を確認
Bryn Noel Ubald (1), Pranay Seshadri (1 and 2), Andrew Duncan (1 and 2) ((1) The Alan Turing Institute, (2) Imperial College London)(参考訳) 本研究では,シュリエレン画像から定量情報を抽出する手法を提案する。 本手法では, 水平方向と垂直方向のナイフ縁を持つ2つのシュリーレン画像から実密度推定値を得るために, 拡張ガウス過程モデルを用いた。 風洞スチングモデルと超音速航空機によるシュリーレン画像に対する我々のアプローチを解説する。

This study proposes a radically alternate approach for extracting quantitative information from schlieren images. The method uses a scaled, derivative enhanced Gaussian process model to obtain true density estimates from two corresponding schlieren images with the knife-edge at horizontal and vertical orientations. We illustrate our approach on schlieren images taken from a wind tunnel sting model, and a supersonic aircraft in flight.
公開日:2022-01-13
翻訳日:2022-01-17 14:52:46
# (参考訳) Multilingual Open Text 1.0:44言語でのパブリックドメインニュース [全文訳有]

Multilingual Open Text 1.0: Public Domain News in 44 Languages ( http://arxiv.org/abs/2201.05609v1 )

ライセンス: CC BY 4.0
Chester Palen-Michel, June Kim, Constantine Lignos(参考訳) 本稿では,44言語にテキストを含む新しい多言語コーパスを提案する。 コーパスの最初のリリースは、2001年から2021年にかけて、Voice of Americaのニュースサイトから集められた270万以上のニュース記事と100万の短い記事を含んでいる。 我々は,データの収集,フィルタリング,処理を行うプロセスについて述べる。 ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。 コーパスは、追加のドキュメントが公開されると定期的に更新される。

We present a new multilingual corpus containing text in 44 languages, many of which have relatively few existing resources for natural language processing. The first release of the corpus contains over 2.7 million news articles and 1 million shorter passages published between 2001--2021, collected from Voice of America news websites. We describe our process for collecting, filtering, and processing the data. The source material is in the public domain, our collection is licensed using a creative commons license (CC BY 4.0), and all software used to create the corpus is released under the MIT License. The corpus will be regularly updated as additional documents are published.
公開日:2022-01-14
翻訳日:2022-01-17 14:51:46
# 第4回オンラインレコメンダシステムとユーザモデリングワークショップの開催報告 -- ORSUM 2021

Proceedings of the 4th Workshop on Online Recommender Systems and User Modeling -- ORSUM 2021 ( http://arxiv.org/abs/2201.05156v1 )

ライセンス: Link先を確認
Jo\~ao Vinagre, Al\'ipio M\'ario Jorge, Marie Al-Ghossein, Albert Bifet(参考訳) 現代のオンラインサービスは、非常に高速な速度でデータを継続的に生成します。 この連続的なデータのフローは、コンテンツ(投稿、ニュース、製品、コメントなど)だけでなく、評価、ビュー、読み込み、クリックといったユーザーからのフィードバックや、コンテキストデータ(ユーザデバイス、空間データ、時間データ、ユーザタスク、アクティビティ、天気など)を含む。 コンテンツ、コンテキスト、ユーザの好み、意図の継続的かつ潜在的に高速な変更を考えると、バッチでトレーニングするように設計されたシステムやアルゴリズムでは、これは圧倒的に多い。 したがって、オンラインサービスの本質的ダイナミクスに透過的に適応できるオンライン手法を検討することが重要である。 データストリームから学習するインクリメンタルモデルは、動的で複雑な環境で生成されたデータの継続的なフローを扱う自然の能力を考えると、レコメンデータシステムコミュニティで注目を集めている。 ユーザーモデリングとパーソナライゼーションは、モデルをインクリメンタルかつオンラインに維持できるアルゴリズムの恩恵を受ける。 本ワークショップの目的は,ユーザのモデリング,レコメンデーション,パーソナライゼーション,評価,再現性,プライバシ,説明可能性といった多面的な側面に対する,オンライン的かつ適応的なアプローチに関心を持つ研究者や実践者のコミュニティを集結させることである。

Modern online services continuously generate data at very fast rates. This continuous flow of data encompasses content -- e.g., posts, news, products, comments --, but also user feedback -- e.g., ratings, views, reads, clicks --, together with context data -- user device, spatial or temporal data, user task or activity, weather. This can be overwhelming for systems and algorithms designed to train in batches, given the continuous and potentially fast change of content, context and user preferences or intents. Therefore, it is important to investigate online methods able to transparently adapt to the inherent dynamics of online services. Incremental models that learn from data streams are gaining attention in the recommender systems community, given their natural ability to deal with the continuous flows of data generated in dynamic, complex environments. User modeling and personalization can particularly benefit from algorithms capable of maintaining models incrementally and online. The objective of this workshop is to foster contributions and bring together a growing community of researchers and practitioners interested in online, adaptive approaches to user modeling, recommendation and personalization, and their implications regarding multiple dimensions, such as evaluation, reproducibility, privacy and explainability.
公開日:2022-01-12
翻訳日:2022-01-17 14:37:05
# 時変システムにおける強化学習--実証的研究

Reinforcement Learning in Time-Varying Systems: an Empirical Study ( http://arxiv.org/abs/2201.05560v1 )

ライセンス: Link先を確認
Pouya Hamadanian, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh(参考訳) 最近の研究は、手作業によるヒューリスティックスに代わる、難しい意思決定問題を解決するために強化学習(RL)に転換している。 rlは、環境のダイナミクスをモデリングすることなく、良いポリシーを学習できます。 この約束にもかかわらず、RLは多くの現実世界のシステム問題に対する非現実的な解決策である。 特に困難なケースは、環境が時間とともに変化する場合、すなわち非定常性を示す場合である。 本研究では,非定常性による課題を特徴づけ,実システムにおけるRLエージェントの訓練に対処するためのフレームワークを開発する。 このようなエージェントは、システムのパフォーマンスを損なうことなく、新しい環境を探索し、学習し、時間とともにそれを思い出さなければなりません。 この目的のために,(1)実システムで遭遇する異なる環境を特定し,(2)各環境に対して異なる専門家ポリシーを探索し,訓練し,(3)システムの性能を保護するために安全対策を講じる。 我々は,ストラグラー緩和と適応型ビデオストリーミングの2つのシステム問題に適用し,実世界のデータと合成データを用いた様々な代替手法と比較した。 我々はフレームワークの各コンポーネントが非定常性に対処する必要があることを示す。

Recent research has turned to Reinforcement Learning (RL) to solve challenging decision problems, as an alternative to hand-tuned heuristics. RL can learn good policies without the need for modeling the environment's dynamics. Despite this promise, RL remains an impractical solution for many real-world systems problems. A particularly challenging case occurs when the environment changes over time, i.e. it exhibits non-stationarity. In this work, we characterize the challenges introduced by non-stationarity and develop a framework for addressing them to train RL agents in live systems. Such agents must explore and learn new environments, without hurting the system's performance, and remember them over time. To this end, our framework (1) identifies different environments encountered by the live system, (2) explores and trains a separate expert policy for each environment, and (3) employs safeguards to protect the system's performance. We apply our framework to two systems problems: straggler mitigation and adaptive video streaming, and evaluate it against a variety of alternative approaches using real-world and synthetic data. We show that each component of our framework is necessary to cope with non-stationarity.
公開日:2022-01-14
翻訳日:2022-01-17 14:36:38
# パラレルニューラル局所ロスレス圧縮

Parallel Neural Local Lossless Compression ( http://arxiv.org/abs/2201.05213v1 )

ライセンス: Link先を確認
Mingtian Zhang and Jamie Townsend and Ning Kang and David Barber(参考訳) 最近提案されたNeural Local Lossless Compression (NeLLoC)は、局所自己回帰モデルに基づいて、画像圧縮タスクにおいて最先端のSOTA(out-of-distribu tion)一般化性能を達成した。 OOD一般化の促進に加えて、局所モデルは復号段階における並列推論も可能にしている。 本稿では,局所自己回帰モデルに対する並列化スキームを提案する。 本稿では, 従来の非並列実装と比較して, 圧縮実行時の顕著な利得を示す実験的な証拠を提供する。

The recently proposed Neural Local Lossless Compression (NeLLoC), which is based on a local autoregressive model, has achieved state-of-the-art (SOTA) out-of-distribution (OOD) generalization performance in the image compression task. In addition to the encouragement of OOD generalization, the local model also allows parallel inference in the decoding stage. In this paper, we propose a parallelization scheme for local autoregressive models. We discuss the practicalities of implementing this scheme, and provide experimental evidence of significant gains in compression runtime compared to the previous, non-parallel implementation.
公開日:2022-01-13
翻訳日:2022-01-17 14:36:19
# アジャイル活動のための深層学習の見積もりは、まだ解決していないか?

Deep Learning for Agile Effort Estimation Have We Solved the Problem Yet? ( http://arxiv.org/abs/2201.05401v1 )

ライセンス: Link先を確認
Vali Tawosi, Rebecca Moussa, Federica Sarro(参考訳) 過去10年間に、アジャイルソフトウェア開発の労力を見積もるために自動化技術を使うことを提案する研究がいくつかある。 本稿では,Deep-SE(Deep-Learni ng)をアジャイルの取り組み推定に活用することを提案するセミナルな作業の密な複製と拡張を行う。 具体的には、プロジェクト内およびプロジェクト横断の取り組み推定におけるDeep-SEの有効性を検討することを目的とした元の3つの研究課題を再現する。 私たちはDeep-SEを3つのベースラインテクニック(Random、Mean、Medianの取り組み予測)と、以前提案されたアジャイルソフトウェア開発(TF/IDF-SEと呼ばれる)の取り組みを見積もる手法と比較しました。 この目的のために、オリジナル調査のデータと、29のオープンソースプロジェクトから抽出した31,960件の新たなデータセットの両方を使用しました。 より多くのデータを使用することで、結果に対する信頼性を強化し、研究の外的妥当性に対する脅威をさらに軽減できます。 また,本研究を2つの追加研究課題から拡張した。 トレーニングセットが見積時にリポジトリで利用可能な他のすべてのプロジェクトから問題によって強化された場合のDeep-SEの精度を評価するとともに、オリジナルのDeep-SEが使用する高価な事前トレーニングステップが、その精度と収束速度に有益な影響を及ぼすかどうかを調べる。 以上の結果より,Deep-SEは統計学的に有意な症例(8/42例,9/32例)において,Medianベースライン推定とTF/IDF-SEの成績に優れており,Deep-SEの有効性について既往の知見を裏付けるものである。 追加の2つのRQは、トレーニングセットの強化も、事前トレーニングのDeep-SEも、その精度と収束速度を改善する役割を果たさないことを示した。 ...

In the last decade, several studies have proposed the use of automated techniques to estimate the effort of agile software development. In this paper we perform a close replication and extension of a seminal work proposing the use of Deep Learning for agile effort estimation (namely Deep-SE), which has set the state-of-the-art since. Specifically, we replicate three of the original research questions aiming at investigating the effectiveness of Deep-SE for both within-project and cross-project effort estimation. We benchmark Deep-SE against three baseline techniques (i.e., Random, Mean and Median effort prediction) and a previously proposed method to estimate agile software project development effort (dubbed TF/IDF-SE), as done in the original study. To this end, we use both the data from the original study and a new larger dataset of 31,960 issues, which we mined from 29 open-source projects. Using more data allows us to strengthen our confidence in the results and further mitigate the threat to the external validity of the study. We also extend the original study by investigating two additional research questions. One evaluates the accuracy of Deep-SE when the training set is augmented with issues from all other projects available in the repository at the time of estimation, and the other examines whether an expensive pre-training step used by the original Deep-SE, has any beneficial effect on its accuracy and convergence speed. The results of our replication show that Deep-SE outperforms the Median baseline estimator and TF/IDF-SE in only very few cases with statistical significance (8/42 and 9/32 cases, respectively), thus confounding previous findings on the efficacy of Deep-SE. The two additional RQs revealed that neither augmenting the training set nor pre-training Deep-SE play a role in improving its accuracy and convergence speed. ...
公開日:2022-01-14
翻訳日:2022-01-17 14:36:10
# 欠損データを用いたガウスコピュラスの推定

Estimating Gaussian Copulas with Missing Data ( http://arxiv.org/abs/2201.05565v1 )

ライセンス: Link先を確認
Maximilian Kertel and Markus Pauly(参考訳) 本研究では,データ不足を伴うガウスコーパスモデルにおける限界分布と依存構造を決定するために,期待最大化アルゴリズムの厳密な応用を提案する。 さらに,半パラメトリックモデリングによる辺縁上の事前仮定を回避する方法を示す。 このアルゴリズムによって得られた共同分布は、既存の方法よりも基礎的な分布にかなり近い。

In this work we present a rigorous application of the Expectation Maximization algorithm to determine the marginal distributions and the dependence structure in a Gaussian copula model with missing data. We further show how to circumvent a priori assumptions on the marginals with semiparametric modelling. The joint distribution learned through this algorithm is considerably closer to the underlying distribution than existing methods.
公開日:2022-01-14
翻訳日:2022-01-17 14:35:32
# 固有深さ:統計的深さに対する最適制御アプローチ

Eikonal depth: an optimal control approach to statistical depths ( http://arxiv.org/abs/2201.05274v1 )

ライセンス: Link先を確認
Martin Molina-Fructuoso and Ryan Murray(参考訳) 統計深度は、高次元のデータに対する量子と中央値の基本的な一般化を提供する。 本稿では,制御理論とアイコナー方程式に基づいて,分布の支持点外への経路を通らなければならない最小の確率密度を測る,グローバルに定義された新しい統計深度について提案する。 この深さは解釈や計算が容易で、多モードな振る舞いを表現的に捉え、非ユークリッドデータに自然に拡張する。 我々は,この深さの様々な性質を証明し,計算的考察について考察する。 特に,この奥行きの概念が,タキー深さでは享受できない性質である非近距離等尺拘束逆モデルの下で頑健であることを実証する。 最後に、2次元混合モデルとmnistの文脈におけるいくつかの例を示す。

Statistical depths provide a fundamental generalization of quantiles and medians to data in higher dimensions. This paper proposes a new type of globally defined statistical depth, based upon control theory and eikonal equations, which measures the smallest amount of probability density that has to be passed through in a path to points outside the support of the distribution: for example spatial infinity. This depth is easy to interpret and compute, expressively captures multi-modal behavior, and extends naturally to data that is non-Euclidean. We prove various properties of this depth, and provide discussion of computational considerations. In particular, we demonstrate that this notion of depth is robust under an aproximate isometrically constrained adversarial model, a property which is not enjoyed by the Tukey depth. Finally we give some illustrative examples in the context of two-dimensional mixture models and MNIST.
公開日:2022-01-14
翻訳日:2022-01-17 14:33:48
# 事前学習言語モデルに基づくテキスト生成に関する調査

A Survey of Pretrained Language Models Based Text Generation ( http://arxiv.org/abs/2201.05273v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) テキスト生成は、入力データから人間の言語で読みやすいテキストを生成することを目的としている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 PLMのテキスト生成は、学術と産業の両方において有望な方向と見なされている。 本稿では,テキスト生成におけるPLMの話題における最近の進歩について述べる。 詳しくは、PLMをテキスト生成に適用する3つの重要なポイントを紹介します。 1) PLMに融合可能な入力セマンティクスを保存する表現として入力データをエンコードする方法 2) PLMの汎用かつ高性能なアーキテクチャを設計する方法は,世代モデルとして機能する。 3) 参照テキストを与えられたPLMを最適化し、特別なテキストプロパティを満たす生成されたテキストを確実にする方法。 そして、各キーポイントにいくつかの課題と今後の方向性を見出す。 次に、PLMを扱うための様々な有用なリソースと典型的なテキスト生成アプリケーションの概要を示す。 最後に,本調査の成果をまとめ,まとめる。

Text Generation aims to produce plausible and readable text in human language from input data. The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). Grounding text generation on PLMs is seen as a promising direction in both academia and industry. In this survey, we present the recent advances achieved in the topic of PLMs for text generation. In detail, we begin with introducing three key points of applying PLMs to text generation: 1) how to encode the input data as representations preserving input semantics which can be fused into PLMs; 2) how to design a universal and performant architecture of PLMs served as generation models; and 3) how to optimize PLMs given the reference text and ensure the generated text satisfying special text properties. Then, we figure out several challenges and future directions within each key point. Next, we present a summary of various useful resources and typical text generation applications to work with PLMs. Finally, we conclude and summarize the contribution of this survey.
公開日:2022-01-14
翻訳日:2022-01-17 14:33:34
# extraphrase: 抽象要約のための効率的なデータ拡張

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization ( http://arxiv.org/abs/2201.05313v1 )

ライセンス: Link先を確認
Mengsay Loem, Sho Takase, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大量の並列データでトレーニングされたニューラルモデルは、抽象的要約タスクで印象的なパフォーマンスを達成している。 しかし、大規模並列コーパスは高価であり、建設が困難である。 本稿では,抽象的要約タスクのためのトレーニングデータを強化するために,低コストかつ効果的な戦略であるexophraseを導入する。 ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 抽出要約ステップにおいて,入力テキストの主要部分を抽出し,パラフレージングステップで多種多様な表現を得る。 実験により,データ拡張を伴わない場合と比較して,抽出要約タスクの性能をルージュスコアの0.50ポイント以上向上させることを示した。 ExtraPhraseはまた、バックトランスレーションや自己学習といった既存の手法よりも優れている。 また、ExtraPhraseは、実際のトレーニングデータの量が著しく少ない場合、すなわち低リソース環境では極めて有効であることを示す。 さらに、ExtraPhraseは既存のアプローチよりもコスト効率が高い。

Neural models trained with large amount of parallel data have achieved impressive performance in abstractive summarization tasks. However, large-scale parallel corpora are expensive and challenging to construct. In this work, we introduce a low-cost and effective strategy, ExtraPhrase, to augment training data for abstractive summarization tasks. ExtraPhrase constructs pseudo training data in two steps: extractive summarization and paraphrasing. We extract major parts of an input text in the extractive summarization step, and obtain its diverse expressions with the paraphrasing step. Through experiments, we show that ExtraPhrase improves the performance of abstractive summarization tasks by more than 0.50 points in ROUGE scores compared to the setting without data augmentation. ExtraPhrase also outperforms existing methods such as back-translation and self-training. We also show that ExtraPhrase is significantly effective when the amount of genuine training data is remarkably small, i.e., a low-resource setting. Moreover, ExtraPhrase is more cost-efficient than the existing approaches.
公開日:2022-01-14
翻訳日:2022-01-17 14:33:21
# プロトタイプ・プロンプト・バーバリザのための事前学習言語モデルからの知識の抽出

Eliciting Knowledge from Pretrained Language Models for Prototypical Prompt Verbalizer ( http://arxiv.org/abs/2201.05411v1 )

ライセンス: Link先を確認
Yinyi Wei, Tong Mo, Yongtao Jiang, Weiping Li, Wen Zhao(参考訳) マスク付き言語モデリング問題としてのアクシデントチューニングキャスター数ショット分類タスクの最近の進歩 入力をテンプレートにラップし、ラベル空間とラベルワード空間のマッピングを構成する動詞化器を使用することで、プロンプトチューニングはゼロショットおよび少数ショットシナリオにおいて優れた結果が得られる。 しかし、典型的なプロンプトチューニングには、ドメインの専門知識と人間の努力を必要とする手動で設計された動詞化器が必要である。 ラベルスペースの不足は、結果にかなりのバイアスをもたらすかもしれない。 本稿では,事前学習された言語モデルからの知識の抽出に焦点をあて,プロンプトチューニングのためのprototypeply verbalizerを提案する。 ラベルは、離散的な単語ではなく、特徴空間における原型的埋め込みによって表現される。 入力のマスク位置における埋め込みと原型埋め込みの間の距離を分類基準として用いる。 ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。 数少ない設定では、モデルは有意義で解釈可能な原型的埋め込みを学ぶように調整される。 本手法は,コントラスト学習によりモデルを最適化する。 低リソース設定の多クラステキスト分類データセットの広範囲な実験結果から,提案手法の有効性を他の言語処理手法と比較した。 私たちの実装はhttps://github.com/y dongd/prototypical-p rompt-verbalizerで利用可能です。

Recent advances on prompt-tuning cast few-shot classification tasks as a masked language modeling problem. By wrapping input into a template and using a verbalizer which constructs a mapping between label space and label word space, prompt-tuning can achieve excellent results in zero-shot and few-shot scenarios. However, typical prompt-tuning needs a manually designed verbalizer which requires domain expertise and human efforts. And the insufficient label space may introduce considerable bias into the results. In this paper, we focus on eliciting knowledge from pretrained language models and propose a prototypical prompt verbalizer for prompt-tuning. Labels are represented by prototypical embeddings in the feature space rather than by discrete words. The distances between the embedding at the masked position of input and prototypical embeddings are used as classification criterion. For zero-shot settings, knowledge is elicited from pretrained language models by a manually designed template to form initial prototypical embeddings. For few-shot settings, models are tuned to learn meaningful and interpretable prototypical embeddings. Our method optimizes models by contrastive learning. Extensive experimental results on several many-class text classification datasets with low-resource settings demonstrate the effectiveness of our approach compared with other verbalizer construction methods. Our implementation is available at https://github.com/Y dongd/prototypical-p rompt-verbalizer.
公開日:2022-01-14
翻訳日:2022-01-17 14:33:09
# 大規模で多様なコーパスを用いたチェコ語の文法誤り訂正

Czech Grammar Error Correction with a Large and Diverse Corpus ( http://arxiv.org/abs/2201.05590v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Milan Straka, Jana Strakov\'a, Alexandr Rosen(参考訳) 文法的誤り訂正のための注釈付きチェコ語コーパス(GEC)を導入し,英語以外の言語に対して,この領域ではまだ不足しているデータ資源に寄与することを目的とした。 Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイから、エラーがより一般的でないと思われるウェブサイトテキストまで、さまざまな4つのドメインを提供している。 チェコのgecシステムとトランスフォーマーベースのシステムを比較し,今後の研究に強いベースラインを設定した。 最後に、データ上の人的判断に対して、共通GCCメトリクスをメタ評価する。 新しいチェコのGECコーパスをCC BY-SA 4.0ライセンスでhttp://hdl.handle.ne t/11234/1-4639で公開しています。

We introduce a large and diverse Czech corpus annotated for grammatical error correction (GEC) with the aim to contribute to the still scarce data resources in this domain for languages other than English. The Grammar Error Correction Corpus for Czech (GECCC) offers a variety of four domains, covering error distributions ranging from high error density essays written by non-native speakers, to website texts, where errors are expected to be much less common. We compare several Czech GEC systems, including several Transformer-based ones, setting a strong baseline to future research. Finally, we meta-evaluate common GEC metrics against human judgements on our data. We make the new Czech GEC corpus publicly available under the CC BY-SA 4.0 license at http://hdl.handle.ne t/11234/1-4639 .
公開日:2022-01-14
翻訳日:2022-01-17 14:32:50
# (参考訳) 機械学習の創発:ニューラルネットワークによる記号知化を目指して [全文訳有]

Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks ( http://arxiv.org/abs/2201.05489v1 )

ライセンス: CC BY 4.0
Yuqi Wang, Xu-Yao Zhang, Cheng-Lin Liu, Zhaoxiang Zhang(参考訳) 表現は人工知能の中核的な問題である。 人間は個別の言語を使って互いにコミュニケーションし学習し、機械は認知パターンを表現するために連続的な特徴(ベクトル、行列、あるいは深層ニューラルネットワークのテンソルなど)を使用する。 離散記号は低次元で疎結合であり、強い推論能力を持ち、連続的な特徴は高次元で結合され、素晴らしい抽象能力を持つ。 近年、ディープラーニングは、数百万のパラメータを使って高い精度を達成するために、連続的な表現を極端に発展させています。 これは統計的観点からは妥当であるが、解釈可能性の欠如、一般化の低さ、攻撃が容易なその他の大きな問題がある。 両方のパラダイムには強みと弱みがあるので、より良い選択は和解を求めることである。 本稿では,この方向に向けて最初の試みを行う。 具体的には、ニューラルネットワークを用いて離散表現を導出することで、象徴主義と接続主義の原則を組み合わせることを提案する。 このプロセスは、脳が連続的なシグナルを処理し、離散言語を介して知性を表現する、離散的なシンボルと神経システムの自然な組み合わせである人間言語と非常によく似ている。 この機能を模倣するために、我々のアプローチをマシン言語として表現します。 対話型環境とタスクを設計することで,機械が協調によって自発的,柔軟,セマンティックな言語を生成できることを実証した。 さらに, 実験により, 離散的言語表現は, 解釈可能性, 一般化, 頑健性の観点から, 連続的特徴表現と比較していくつかの利点があることを示した。

Representation is a core issue in artificial intelligence. Humans use discrete language to communicate and learn from each other, while machines use continuous features (like vector, matrix, or tensor in deep neural networks) to represent cognitive patterns. Discrete symbols are low-dimensional, decoupled, and have strong reasoning ability, while continuous features are high-dimensional, coupled, and have incredible abstracting capabilities. In recent years, deep learning has developed the idea of continuous representation to the extreme, using millions of parameters to achieve high accuracies. Although this is reasonable from the statistical perspective, it has other major problems like lacking interpretability, poor generalization, and is easy to be attacked. Since both paradigms have strengths and weaknesses, a better choice is to seek reconciliation. In this paper, we make an initial attempt towards this direction. Specifically, we propose to combine symbolism and connectionism principles by using neural networks to derive a discrete representation. This process is highly similar to human language, which is a natural combination of discrete symbols and neural systems, where the brain processes continuous signals and represents intelligence via discrete language. To mimic this functionality, we denote our approach as machine language. By designing an interactive environment and task, we demonstrated that machines could generate a spontaneous, flexible, and semantic language through cooperation. Moreover, through experiments we show that discrete language representation has several advantages compared with continuous feature representation, from the aspects of interpretability, generalization, and robustness.
公開日:2022-01-14
翻訳日:2022-01-17 14:30:02
# カーネル拡張確率ニューラルネットワーク

A Kernel-Expanded Stochastic Neural Network ( http://arxiv.org/abs/2201.05319v1 )

ライセンス: Link先を確認
Yan Sun, Faming Liang(参考訳) ディープニューラルネットワークは、機械学習において多くの根本的な問題に苦しむ。 例えば、トレーニング中にローカルな最小値に閉じ込められることが多く、その予測の不確実性を評価するのは難しい。 これらの問題に対処するために、サポートベクター回帰(SVR)を第1の隠蔽層として組み込んだカーネル拡張確率ニューラルネットワーク(K-StoNet)モデルを提案し、ニューラルネットワークを潜在変数モデルとして再構成する。 前者は入力ベクトルを放射基底関数(RBF)カーネルを介して無限次元の特徴空間にマッピングし、そのトレーニング損失面に局所最小値がないことを保証する。 後者は、高次元非凸ニューラルネットワークトレーニング問題を一連の低次元凸最適化問題に分解し、その予測の不確かさを容易に評価する。 K-StoNetは命令正規化最適化(IRO)アルゴリズムを使って容易に訓練できる。 従来のディープニューラルネットワークと比較して、K-StoNetは漸近的にグローバル最適に収束する理論的な保証を持ち、予測の不確実性を容易に評価できる。 トレーニング,予測,不確実性定量化における新しいモデルの性能は,シミュレーションおよび実データ例によって示される。

The deep neural network suffers from many fundamental issues in machine learning. For example, it often gets trapped into a local minimum in training, and its prediction uncertainty is hard to be assessed. To address these issues, we propose the so-called kernel-expanded stochastic neural network (K-StoNet) model, which incorporates support vector regression (SVR) as the first hidden layer and reformulates the neural network as a latent variable model. The former maps the input vector into an infinite dimensional feature space via a radial basis function (RBF) kernel, ensuring absence of local minima on its training loss surface. The latter breaks the high-dimensional nonconvex neural network training problem into a series of low-dimensional convex optimization problems, and enables its prediction uncertainty easily assessed. The K-StoNet can be easily trained using the imputation-regulariz ed optimization (IRO) algorithm. Compared to traditional deep neural networks, K-StoNet possesses a theoretical guarantee to asymptotically converge to the global optimum and enables the prediction uncertainty easily assessed. The performances of the new model in training, prediction and uncertainty quantification are illustrated by simulated and real data examples.
公開日:2022-01-14
翻訳日:2022-01-17 14:13:27
# マルチアウトプット回帰のための機械学習: 完全多変量アプローチはいつ、別々の不定値アプローチよりも好まれるべきなのか?

Machine Learning for Multi-Output Regression: When should a holistic multivariate approach be preferred over separate univariate ones? ( http://arxiv.org/abs/2201.05340v1 )

ライセンス: Link先を確認
Lena Schmid, Alexander Gerharz, Andreas Groll and Markus Pauly(参考訳) ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で現代の古典である。 特に、単変量応答の予測に使用される。 複数の出力の場合、問題は単変量モデルに別々に適合するか、あるいは直接多変量アプローチに従うかである。 後者については、例えば、修正された分割や複数出力回帰のための規則の停止に基づく、いくつかの可能性が存在する。 本研究では,これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。

Tree-based ensembles such as the Random Forest are modern classics among statistical learning methods. In particular, they are used for predicting univariate responses. In case of multiple outputs the question arises whether we separately fit univariate models or directly follow a multivariate approach. For the latter, several possibilities exist that are, e.g. based on modified splitting or stopping rules for multi-output regression. In this work we compare these methods in extensive simulations to help in answering the primary question when to use multivariate ensemble techniques.
公開日:2022-01-14
翻訳日:2022-01-17 14:13:08
# 生体および人工脳におけるベイズ時間の感覚

Bayesian sense of time in biological and artificial brains ( http://arxiv.org/abs/2201.05464v1 )

ライセンス: Link先を確認
Zafeirios Fountas, Alexey Zakharov(参考訳) 生物学的脳のメカニズムと創発的性質に関する質問には、理論的な仮定と実験的発見の長い歴史がある。 今日、科学界は、脳の認知基盤の単一の解釈(ベイズ推論マシン)に収束する傾向にある。この現代の見解は、計算と認知神経科学に関する最近の発展において、自然に強力な推進力となっている。特に興味深いのは、脳が時間の経過を処理する能力である。それは、我々の経験の基本的な次元の1つである。 ベイズ脳仮説を用いた人間の時間知覚に関する経験的データの説明法 ベイズモデルを用いて人間の推定バイアスを再現できるか? エージェントベースの機械学習モデルは、このテーマの研究にどのような洞察を提供できるだろうか? 本稿では,時間知覚の分野における最近の進歩を概観し,時間モデル構築におけるベイズ処理の役割について考察する。

Enquiries concerning the underlying mechanisms and the emergent properties of a biological brain have a long history of theoretical postulates and experimental findings. Today, the scientific community tends to converge to a single interpretation of the brain's cognitive underpinnings -- that it is a Bayesian inference machine. This contemporary view has naturally been a strong driving force in recent developments around computational and cognitive neurosciences. Of particular interest is the brain's ability to process the passage of time -- one of the fundamental dimensions of our experience. How can we explain empirical data on human time perception using the Bayesian brain hypothesis? Can we replicate human estimation biases using Bayesian models? What insights can the agent-based machine learning models provide for the study of this subject? In this chapter, we review some of the recent advancements in the field of time perception and discuss the role of Bayesian processing in the construction of temporal models.
公開日:2022-01-14
翻訳日:2022-01-17 14:12:57
# 第一畳み込み層における分離指数最大化によるCNNの学習促進

Learning Enhancement of CNNs via Separation Index Maximizing at the First Convolutional Layer ( http://arxiv.org/abs/2201.05217v1 )

ライセンス: Link先を確認
Ali Karimi and Ahmad Kalhor(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)に対して,分離インデックス(si)概念に基づく簡易強化学習アルゴリズムを提案する。 まず、教師付き複雑性尺度としてのSIについて、分類問題に対するCNNのより良い学習における使用法を説明する。 次に、siを最大化し、cnnの第1層を最適化し、さらに、バックプロパゲーションアルゴリズムによりさらなる層を訓練し、さらなる層を学習する学習戦略を提案する。 第1層のSIを最大化するために、準最小二乗誤差法を用いてランキング損失の変種を最適化する。 このような学習戦略を既知のcnnやデータセットに適用することで、ほぼすべてのケースでその強化効果が実証される。

In this paper, a straightforward enhancement learning algorithm based on Separation Index (SI) concept is proposed for Convolutional Neural Networks (CNNs). At first, the SI as a supervised complexity measure is explained its usage in better learning of CNNs for classification problems illustrate. Then, a learning strategy proposes through which the first layer of a CNN is optimized by maximizing the SI, and the further layers are trained through the backpropagation algorithm to learn further layers. In order to maximize the SI at the first layer, A variant of ranking loss is optimized by using the quasi least square error technique. Applying such a learning strategy to some known CNNs and datasets, its enhancement impact in almost all cases is demonstrated.
公開日:2022-01-13
翻訳日:2022-01-17 14:12:41
# ディープセマンティクスクラスタリングを用いた教師なし時間ビデオグラウンド

Unsupervised Temporal Video Grounding with Deep Semantic Clustering ( http://arxiv.org/abs/2201.05307v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng, Zichuan Xu, Pan Zhou(参考訳) 時間的ビデオグラウンドティング(TVG)は、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。 このタスクでは優れた成果を上げているが、実際のシナリオで収集するには高価で時間を要する、豊富なビデオクエリペアデータに大きく依存している。 本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学習できるかどうかを検討する。 我々の知る限りでは、この論文は教師なし環境でテレビGに対処しようとする最初の試みである。 ペア化された監視が存在しないことを考慮し,クエリ集合全体の意味情報をすべて活用し,グラウンド化のための各ビデオのアクティビティを構成するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。 具体的には,クエリ集合全体から暗黙的な意味的特徴を抽出する言語セマンティクスマイニングモジュールを開発した。 次に、これらの言語意味機能は、ビデオベースのセマンティックアグリゲーションモジュールを介して、ビデオ内のアクティビティを構成するためのガイダンスとして機能する。 最後に,前景アテンションブランチを用いて,冗長なバックグラウンドアクティビティをフィルタリングし,グラウンド化結果を精査する。 DSCNetの有効性を検証するため,ActivityNet CaptionsとCharades-STAデータセットの両方で実験を行った。 その結果、dscnetは競争力のある性能を達成し、最も弱い教師付きアプローチよりも優れています。

Temporal video grounding (TVG) aims to localize a target segment in a video according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on abundant video-query paired data, which is expensive and time-consuming to collect in real-world scenarios. In this paper, we explore whether a video grounding model can be learned without any paired annotations. To the best of our knowledge, this paper is the first work trying to address TVG in an unsupervised setting. Considering there is no paired supervision, we propose a novel Deep Semantic Clustering Network (DSCNet) to leverage all semantic information from the whole query set to compose the possible activity in each video for grounding. Specifically, we first develop a language semantic mining module, which extracts implicit semantic features from the whole query set. Then, these language semantic features serve as the guidance to compose the activity in video via a video-based semantic aggregation module. Finally, we utilize a foreground attention branch to filter out the redundant background activities and refine the grounding results. To validate the effectiveness of our DSCNet, we conduct experiments on both ActivityNet Captions and Charades-STA datasets. The results demonstrate that DSCNet achieves competitive performance, and even outperforms most weakly-supervised approaches.
公開日:2022-01-14
翻訳日:2022-01-17 14:12:30
# hylda:lidarセマンティクスセグメンテーションのためのエンドツーエンドハイブリッド学習ドメイン適応

HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2201.05585v1 )

ライセンス: Link先を確認
Eduardo R. Corral-Soto, Mrigank Rochan, Yannis Y. He, Shubhra Aich, Yang Liu, Liu Bingbing(参考訳) 本稿では,完全ラベル付きソースデータセットと,ラベル数の少ないターゲットデータセットを用いて,lidar意味セグメンテーションネットワークをトレーニングする問題に対処する。 そこで我々は,新しい画像から画像への変換エンジンを開発し,それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで,HILDAと呼ぶドメイン適応アーキテクチャを実現する。 システムをエンドツーエンドにトレーニングするために、私たちはさまざまな学習パラダイムを採用しています。 1)簡易補修作業の自己監督 2)いくつかのラベル付き対象ドメインフレームを用いた半教師付きトレーニング 3)画像から画像への変換段階によって生成された偽の翻訳画像と、ソースドメインからのラベル付きフレームの教師なしトレーニングを行う。 後者の場合、セマンティックセグメンテーションネットワークは、画像から画像への変換エンジンの更新に関与する。 実験により, HYLDAは, 対象領域からの検証データの一般化を改善するという課題に, 少数の目標ラベル付きフレームしか使用できない場合に効果的に対処できることを実証した。 2つの公開可能なLiDARセマンティックセマンティックセグメンテーションデータセットを用いて,HYLDAと強力なベースライン手法の比較を行った。

In this paper we address the problem of training a LiDAR semantic segmentation network using a fully-labeled source dataset and a target dataset that only has a small number of labels. To this end, we develop a novel image-to-image translation engine, and couple it with a LiDAR semantic segmentation network, resulting in an integrated domain adaptation architecture we call HYLDA. To train the system end-to-end, we adopt a diverse set of learning paradigms, including 1) self-supervision on a simple auxiliary reconstruction task, 2) semi-supervised training using a few available labeled target domain frames, and 3) unsupervised training on the fake translated images generated by the image-to-image translation stage, together with the labeled frames from the source domain. In the latter case, the semantic segmentation network participates in the updating of the image-to-image translation engine. We demonstrate experimentally that HYLDA effectively addresses the challenging problem of improving generalization on validation data from the target domain when only a few target labeled frames are available for training. We perform an extensive evaluation where we compare HYLDA against strong baseline methods using two publicly available LiDAR semantic segmentation datasets.
公開日:2022-01-14
翻訳日:2022-01-17 14:12:05
# less is more: 入力の単純化はニューラルネットワークの理解を助ける

When less is more: Simplifying inputs aids neural network understanding ( http://arxiv.org/abs/2201.05610v1 )

ライセンス: Link先を確認
Robin Tibor Schirrmeister, Rosanne Liu, Sara Hooker, Tonio Ball(参考訳) ニューラルネットワークのイメージ分類器は、よりシンプルでシンプルな入力にどのように反応するか? そして、このような反応は学習プロセスに何をもたらすのか? これらの質問に答えるためには、入力の単純さ(あるいは逆の複雑さ)の明確な尺度、単純化と相関する最適化目標、そのような目標をトレーニングや推論に組み込むフレームワークが必要です。 最後に、このような単純化が学習に与える影響を実験し評価するために、さまざまなテストベッドが必要です。 本研究では,事前学習した生成モデルによって与えられた符号化ビットサイズで単純度を測定し,ビットサイズを最小化し,トレーニングや推論の入力を単純化する。 従来の学習,データセットの凝縮,ポストホックな説明など,いくつかのシナリオで単純化の効果について検討する。 すべての設定において、入力は元の分類タスクとともに単純化され、入力単純性とタスク性能のトレードオフについて検討する。 インジェクターを挿入した画像の場合、そのような単純化は自然に過剰な情報を除去する。 データセットの凝縮では、精度の劣化がほとんどなく、入力を単純化できる。 ポストホックな説明で使用する場合、学習ベースの単純化アプローチは、ネットワーク決定の基礎を探求する価値のある新しいツールを提供します。

How do neural network image classifiers respond to simpler and simpler inputs? And what do such responses reveal about the learning process? To answer these questions, we need a clear measure of input simplicity (or inversely, complexity), an optimization objective that correlates with simplification, and a framework to incorporate such objective into training and inference. Lastly we need a variety of testbeds to experiment and evaluate the impact of such simplification on learning. In this work, we measure simplicity with the encoding bit size given by a pretrained generative model, and minimize the bit size to simplify inputs in training and inference. We investigate the effect of such simplification in several scenarios: conventional training, dataset condensation and post-hoc explanations. In all settings, inputs are simplified along with the original classification task, and we investigate the trade-off between input simplicity and task performance. For images with injected distractors, such simplification naturally removes superfluous information. For dataset condensation, we find that inputs can be simplified with almost no accuracy degradation. When used in post-hoc explanation, our learning-based simplification approach offers a valuable new tool to explore the basis of network decisions.
公開日:2022-01-14
翻訳日:2022-01-17 14:11:43
# (参考訳) 単純かつ効果的なキーフレーズ生成のためのジェネリックシーケンスからシーケンスへのモデルの適用 [全文訳有]

Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation ( http://arxiv.org/abs/2201.05302v1 )

ライセンス: CC BY 4.0
Md Faisal Mahbub Chowdhury, Gaetano Rossiello, Michael Glass, Nandana Mihindukulasooriya, Alfio Gliozzo(参考訳) 近年、複雑なモデルアーキテクチャ、専用のトレーニングパラダイム、デコード戦略からなるkpg(keyphrase generation)アプローチが数多く提案されている。 そこで本研究では,簡単な学習手法を用いて,テキストからキーフレーズを生成するために,一般的なセq2seq言語モデルであるBARTをいかに簡単に適用できるかを示す。 5つのベンチマークによる実証的な結果から、我々のアプローチは既存の最先端のKPGシステムと同等だが、よりシンプルで簡単にデプロイできるフレームワークを使っている。

In recent years, a number of keyphrase generation (KPG) approaches were proposed consisting of complex model architectures, dedicated training paradigms and decoding strategies. In this work, we opt for simplicity and show how a commonly used seq2seq language model, BART, can be easily adapted to generate keyphrases from the text in a single batch computation using a simple training procedure. Empirical results on five benchmarks show that our approach is as good as the existing state-of-the-art KPG systems, but using a much simpler and easy to deploy framework.
公開日:2022-01-14
翻訳日:2022-01-17 14:09:56
# CommonsenseQA 2.0: ゲーミフィケーションによるAIの限界の公開

CommonsenseQA 2.0: Exposing the Limits of AI through Gamification ( http://arxiv.org/abs/2201.05320v1 )

ライセンス: Link先を確認
Alon Talmor, Ori Yoran, Ronan Le Bras, Chandra Bhagavatula, Yoav Goldberg, Yejin Choi, Jonathan Berant(参考訳) 近代自然言語理解モデルの能力をテストするベンチマークの構築は困難である。事前訓練された言語モデルは、人間の同等性を達成するためにベンチマークのアーティファクトを利用するが、相反する例では失敗し、常識の欠如を示すエラーを犯す。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。 ゲームのプレイヤーのゴールは、特定のフレーズを余分な点に使いながら、ライバルのAIを誤解させる質問を組み立てることである。 ゲーム環境はユーザのエンゲージメントを高め、同時にゲームデザイナに収集したデータをコントロールさせ、高品質なデータを大規模に収集できるようにします。 この手法を用いて14,343のイエス/ノー質問を含むCommonsenseQA 2.0を作成し、ゲーム自体で使用されるAIよりも桁違いに大きいモデルの難しさを実証する。 我々の最高基準である11bパラメータのt5ベースのユニコーンは70.2%の精度を実現しており、数発の推測ではgpt-3(52.9%)よりもかなり高い。 いずれも94.1%の人的成績をはるかに下回っている。

Constructing benchmarks that test the abilities of modern natural language understanding models is difficult - pre-trained language models exploit artifacts in benchmarks to achieve human parity, but still fail on adversarial examples and make errors that demonstrate a lack of common sense. In this work, we propose gamification as a framework for data construction. The goal of players in the game is to compose questions that mislead a rival AI while using specific phrases for extra points. The game environment leads to enhanced user engagement and simultaneously gives the game designer control over the collected data, allowing us to collect high-quality data at scale. Using our method we create CommonsenseQA 2.0, which includes 14,343 yes/no questions, and demonstrate its difficulty for models that are orders-of-magnitude larger than the AI used in the game itself. Our best baseline, the T5-based Unicorn with 11B parameters achieves an accuracy of 70.2%, substantially higher than GPT-3 (52.9%) in a few-shot inference setup. Both score well below human performance which is at 94.1%.
公開日:2022-01-14
翻訳日:2022-01-17 13:58:30
# 記憶を通した推論: 最寄りの知識グラフ埋め込み

Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings ( http://arxiv.org/abs/2201.05575v1 )

ライセンス: Link先を確認
Ningyu Zhang, Xin Xie, Xiang Chen, Shumin Deng, Chuanqi Tan, Fei Huang, Xu Cheng, Huajun Chen(参考訳) 従来の知識グラフの埋め込みアプローチは通常、エンティティを表現にマッピングし、スコア関数を使用して対象エンティティを予測するが、希少または未確認のエンティティを推論するのに苦労する。 本稿では,k-nearest 近傍のエンティティ分布を線形に補間することにより,新しい知識グラフ埋め込み手法 kNN-KGE を提案する。 我々は、知識ストアからのエンティティ埋め込み空間内の距離に基づいて、最も近い隣人を計算する。 我々のアプローチは、モデルパラメーターにおいて暗黙的にではなく、希少または新興のエンティティを明示的に記憶することができる。 実験の結果,提案手法はインダクティブリンクとトランスダクティブリンクの予測結果を改善でき,少ない三重項数で低リソース設定でパフォーマンスが向上し,明示的なメモリによる推論が容易になることが示された。

Previous knowledge graph embedding approaches usually map entities to representations and utilize score functions to predict the target entities, yet they struggle to reason rare or emerging unseen entities. In this paper, we propose kNN-KGE, a new knowledge graph embedding approach, by linearly interpolating its entity distribution with k-nearest neighbors. We compute the nearest neighbors based on the distance in the entity embedding space from the knowledge store. Our approach can allow rare or emerging entities to be memorized explicitly rather than implicitly in model parameters. Experimental results demonstrate that our approach can improve inductive and transductive link prediction results and yield better performance for low-resource settings with only a few triples, which might be easier to reason via explicit memory.
公開日:2022-01-14
翻訳日:2022-01-17 13:58:09
# 一度に(法人的な)相違点を作る

Making a (Counterfactual) Difference One Rationale at a Time ( http://arxiv.org/abs/2201.05177v1 )

ライセンス: Link先を確認
Mitchell Plyler, Michael Green, Min Chi(参考訳) 推論を説明する抽出テキストのスニペットであるRationalesは、自然言語処理(NLP)の一般的なフレームワークとして登場した。 Rationaleモデルは典型的には2つの協調モジュールから構成される:セレクタと分類器で、「選択された」テキストと文書ラベルの間の相互情報(MMI)を最大化する。 約束にもかかわらず、MMIベースの手法は、しばしば刺激的なテキストパターンを拾い上げ、非感覚的な振る舞いを持つモデルをもたらす。 本研究では,人的支援を伴わない対実データ拡張(CDA)が,スプリアス信号と文書ラベルの相互情報を下げることで,セレクタの性能を向上させることができるかどうかを検討する。 本手法はクラス依存生成モデルを用いて教師なしで生成する。 情報理論のレンズから、我々はcdaアプローチが成功するはずのないデータセットの性質を導出する。 CDAの有効性は、2つのマルチアスペクトデータセット上で改善されたMMIベースの合理性スキーマを含むいくつかのベースラインと比較することによって実証的に評価される。 以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示された。

Rationales, snippets of extracted text that explain an inference, have emerged as a popular framework for interpretable natural language processing (NLP). Rationale models typically consist of two cooperating modules: a selector and a classifier with the goal of maximizing the mutual information (MMI) between the "selected" text and the document label. Despite their promises, MMI-based methods often pick up on spurious text patterns and result in models with nonsensical behaviors. In this work, we investigate whether counterfactual data augmentation (CDA), without human assistance, can improve the performance of the selector by lowering the mutual information between spurious signals and the document label. Our counterfactuals are produced in an unsupervised fashion using class-dependent generative models. From an information theoretic lens, we derive properties of the unaugmented dataset for which our CDA approach would succeed. The effectiveness of CDA is empirically evaluated by comparing against several baselines including an improved MMI-based rationale schema on two multi aspect datasets. Our results show that CDA produces rationales that better capture the signal of interest.
公開日:2022-01-13
翻訳日:2022-01-17 13:57:54
# NPハード問題を解決する強化学習--CVRPへの応用

Reinforcement Learning to Solve NP-hard Problems: an Application to the CVRP ( http://arxiv.org/abs/2201.05393v1 )

ライセンス: Link先を確認
Leo Ardon(参考訳) 本稿では,従来の組合せ最適化問題であるcvrp(capacitated vehicle routing problem)を解くための強化学習(rl)の利用について評価する。 我々は、この問題をRLフレームワークで形式化し、最も有望な2つのRLアプローチと、ベンチマークインスタンスのセットにおける従来の解法技術を比較した。 返却されたソリューションの品質と返却に必要な時間で、さまざまなアプローチを測定します。 最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。 まず、フレームワークの汎用性により、より複雑な組合せ問題の解決が可能になる。 さらに、rlアルゴリズムは、問題の特定のインスタンスを解決しようとするのではなく、問題解決に必要なスキルを学習する。 訓練されたポリシーは、スクラッチから解決する必要なしに、すぐに目に見えない問題の解決策を提供することができる。 最後に、トレーニングされたモデルを使用することで、RLソルバははるかに高速になり、ユーザエクスペリエンスが最重要となる商用用途にこのアプローチが適している。 知識伝達のような技術は、アルゴリズムのトレーニング効率を改善し、より大きく複雑な問題を解決するのに役立つ。

In this paper, we evaluate the use of Reinforcement Learning (RL) to solve a classic combinatorial optimization problem: the Capacitated Vehicle Routing Problem (CVRP). We formalize this problem in the RL framework and compare two of the most promising RL approaches with traditional solving techniques on a set of benchmark instances. We measure the different approaches with the quality of the solution returned and the time required to return it. We found that despite not returning the best solution, the RL approach has many advantages over traditional solvers. First, the versatility of the framework allows the resolution of more complex combinatorial problems. Moreover, instead of trying to solve a specific instance of the problem, the RL algorithm learns the skills required to solve the problem. The trained policy can then quasi instantly provide a solution to an unseen problem without having to solve it from scratch. Finally, the use of trained models makes the RL solver by far the fastest, and therefore make this approach more suited for commercial use where the user experience is paramount. Techniques like Knowledge Transfer can also be used to improve the training efficiency of the algorithm and help solve bigger and more complex problems.
公開日:2022-01-14
翻訳日:2022-01-17 13:57:37
# (参考訳) スマートマニュファクチャリングにおけるヒューマンAIチームのためのリファレンスソフトウェアアーキテクチャ [全文訳有]

Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing ( http://arxiv.org/abs/2201.04876v2 )

ライセンス: CC BY 4.0
Philipp Haindl, Georg Buchgeher, Maqbool Khan, Bernhard Moser(参考訳) スマートマニュファクチャリングにおけるai対応ソフトウェアシステムの普及に伴い、このようなシステムの役割は、リアクションからプロアクティブな役割へと移行し、製造オペレーターにコンテキスト固有のサポートを提供する。 EUが出資したTeaming.AIプロジェクトのフレームでは、人間とAIのコラボレーションにおけるチームリングの側面の監視、倫理的ポリシーのランタイム監視と検証、データと機械学習アルゴリズムの実験のサポートを、スマート製造における人間とAIのコラボレーションの最も関連性の高い課題として挙げました。 これらの課題に基づいて,知識グラフ,追跡およびシーン分析に基づく参照ソフトウェアアーキテクチャと,その拡張性を重視したリレーショナル機械学習のためのコンポーネントを開発した。 本手法は,生産プロセスにおける製品やプロセス固有の知識を捉え,それをリレーショナル機械学習に活用するために,知識グラフを用いる。 これにより、製品品質の最適化と物理的被害の防止のための製造プロセスにおけるアクションのコンテキスト固有の推奨が可能になる。 本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。 本稿では,このようなリファレンスソフトウェアアーキテクチャの課題について論じ,その事前状況を示すとともに,本プロジェクトにおける今後の研究ビジョンを概観する。

With the proliferation of AI-enabled software systems in smart manufacturing, the role of such systems moves away from a reactive to a proactive role that provides context-specific support to manufacturing operators. In the frame of the EU funded Teaming.AI project, we identified the monitoring of teaming aspects in human-AI collaboration, the runtime monitoring and validation of ethical policies, and the support for experimentation with data and machine learning algorithms as the most relevant challenges for human-AI teaming in smart manufacturing. Based on these challenges, we developed a reference software architecture based on knowledge graphs, tracking and scene analysis, and components for relational machine learning with a particular focus on its scalability. Our approach uses knowledge graphs to capture product- and process specific knowledge in the manufacturing process and to utilize it for relational machine learning. This allows for context-specific recommendations for actions in the manufacturing process for the optimization of product quality and the prevention of physical harm. The empirical validation of this software architecture will be conducted in cooperation with three large-scale companies in the automotive, energy systems, and precision machining domain. In this paper we discuss the identified challenges for such a reference software architecture, present its preliminary status, and sketch our further research vision in this project.
公開日:2022-01-14
翻訳日:2022-01-17 12:57:27
# (参考訳) ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v2 )

ライセンス: CC BY 4.0
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
公開日:2022-01-14
翻訳日:2022-01-17 12:47:28
# (参考訳) アンサー説明のためのインフォーマル・イット・コンサイス・エビデンス蒸留法 [全文訳有]

Grow-and-Clip: Informative-yet-Conc ise Evidence Distillation for Answer Explanation ( http://arxiv.org/abs/2201.05088v2 )

ライセンス: CC BY 4.0
Yuyan Chen, Yanghua Xiao, Bang Liu(参考訳) 既存の質問回答モデル(QA)の予測を解釈することは、医療、教育、財務のためのQAシステムなど、多くの現実世界のインテリジェントなアプリケーションにとって重要である。 しかし、既存のQAモデルは解釈可能性に欠けており、特定の予測が質問に対する答えである理由を理解するためにエンドユーザにフィードバックや説明を提供していない。 本研究では,QAモデルの解釈可能性を高めるために,解答の証拠が重要であることを論じる。 文脈におけるいくつかの文をエビデンスとして抽出する従来の研究とは異なり、我々は証拠の概念を情報的で簡潔で読みやすい文脈における支援事実として明示的に定義する。 また,証拠の定量的・簡潔・可読性を定量的に評価するための効果的な戦略を提供する。 さらに, 情報提供性, 簡潔性, 可読性等により, 文脈からエビデンスを抽出するためのグロース・アンド・クリップ・エビデンス蒸留(gced)アルゴリズムを提案する。 我々は,複数のベースラインモデルを用いたSQuADとTriviaQAデータセットの広範な実験を行い,GCEDが質問に対する回答の解釈に与える影響を評価する。 蒸留された証拠の品質を確認するために人的評価も行われる。 実験の結果, 自動蒸留実験の結果は, 質問に対する回答の解釈性を高めるため, 人的情報性, 簡潔性, 可読性を有することがわかった。

Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
公開日:2022-01-14
翻訳日:2022-01-17 12:45:36
# 自動エラー分析に向けて:エラーを識別する学習

Towards Automated Error Analysis: Learning to Characterize Errors ( http://arxiv.org/abs/2201.05017v2 )

ライセンス: Link先を確認
Tong Gao, Shivang Singh, Raymond J. Mooney(参考訳) システムのエラーパターンを特徴づけることによって、研究者たちは、その正確性と堅牢性を高めることに集中することができる。 本研究では,2つのNLPシステムの理解と改善を支援するために,システムのエラーの種類を特徴付ける解釈可能なルールを自動的に学習する「メタラーニング」手法を提案する。 検証データのエラーケースを収集し、これらのサンプルを記述するメタ特徴を抽出し、最後にこれらの特徴を使ってエラーを特徴付けるルールを学習する。 我々はVilBERT,Visual Question Answering,RoBERTa,Co mmon Sense Question Answeringにアプローチを適用した。 システムは解釈可能なルールを学習し、システムが与えられたタスクで行うシステム的エラーに対する洞察を提供する。 これらの洞察を使って、ループを閉じて、システムの性能を適度に改善することもできます。

Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
公開日:2022-01-14
翻訳日:2022-01-17 12:20:36
# リアルタイムGPU高速化機械学習による5G以上のマルチユーザ検出

Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond ( http://arxiv.org/abs/2201.05024v2 )

ライセンス: Link先を確認
Matthias Mehlhose, Guillermo Marcus, Daniel Sch\"aufele, Daniyal Amir Awan, Nikolaus Binder, Martin Kasparick, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak and Alexander Keller(参考訳) 適応型部分線形ビームフォーミングは、高い柔軟性と適応性のために5gおよび将来の6g応用の必要性を満たす。 競合する目標間の適切なトレードオフを選択することで、最近提案されたmultiuser(MU)検出方法が開かれる。 空間分解能が高いため、非線形ビームフォーミングフィルタは、大規模接続を伴う定常シナリオにおいて、線形アプローチを著しく上回ることができる。 しかし、無線チャネルの変化に非常に影響を受けやすいため、高機動性シナリオではパフォーマンスが劇的に低下することが期待できる。 これらの変化を考慮すると、線形フィルタの堅牢性が必要である。 適切な対応方法のひとつは、オンライン機械学習アルゴリズムを使用することだ。 adaptive projected subgradient method (apsm)に基づくアルゴリズムの理論は豊富であり、動的無線環境における正確な追跡能力を約束している。 しかし、主な課題の1つは、時間変化した閉凸集合の射影を含むこれらのアルゴリズムのリアルタイム実装である。 プロジェクション操作は比較的単純であるが、その膨大な数は、すべての無線フレームでレイテンシ制約を満たさなければならない超低レイテンシ(ULL)アプリケーションにおいて課題となる。 本稿では,非直交多重アクセス(NOMA)システムを例として,大規模並列化によるAPSMアルゴリズムの高速化について検討する。 その結果、GPUによる直交周波数分割多重化(OFDM)ベースのトランシーバの実装が加速され、1ミリ秒未満のレイテンシの検出が可能となり、5G以上の要件に準拠する。 厳密な物理層レイテンシ要件を満たすためには、特にハードウェアアクセラレータを備えた仮想化無線システムにおいて、ハードウェアとソフトウェアの注意深い共同設計が不可欠である。

Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPU-accelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)-based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
公開日:2022-01-14
翻訳日:2022-01-17 12:20:20
# タマシェク語における音声資源

Speech Resources in the Tamasheq Language ( http://arxiv.org/abs/2201.05051v2 )

ライセンス: Link先を確認
Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Lo\"ic Barrault, Mickael Rouvier, Yannick Est\`eve(参考訳) 本稿では,mali と niger で主に使われている開発言語 tamasheq の2つのデータセットについて述べる。 これらの2つのデータセットは、IWSLT 2022低リソース音声翻訳トラックで利用可能であり、Studio Kalangou (Niger) とStudio Tamani (Mali) のラジオ録音のコレクションで構成されている。 私たちは (i)ニジェール語、フルフルード語、ハウザ語、タマシェク語、ザルマ語及び5つの言語における膨大な無ラベルオーディオデータ(671時間) (II) タマシェクでは, 音声録音の並列コーパスが17時間小さく, フランス語で発声レベルが翻訳された。 これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。 これらのリソースが、tamasheq言語を使ったモデルの開発とベンチマークモデルの開発を、音声コミュニティに促すことを願っている。

In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
公開日:2022-01-14
翻訳日:2022-01-17 12:19:53
# TransVOD:時空間変換器を用いたエンドツーエンドビデオオブジェクト検出

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2201.05047v2 )

ライセンス: Link先を確認
Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao(参考訳) 検出変換器 (DETR) と変形可能なDETR (Deformable DETR) は、従来の複雑な手作り検出器として優れた性能を示しながら、物体検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,空間時間変換器アーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。 本稿の第一の目的はVODのパイプラインの合理化であり、光学フローモデルやリレーショナルネットワークなどの機能集約のための手作り部品を効果的に除去することである。 また,DeTRにおけるオブジェクトクエリ設計の利点から,Seq-NMSのような複雑な後処理手法は不要である。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約する時間的トランスフォーマティブを提案する。 時間変換器は、オブジェクトクエリをフューズするためのTQE(Temporal Query Encoder)と、現在のフレーム検出結果を得るためにTDTD(Temporal Deformable Transformer Decoder)の2つのコンポーネントで構成される。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 次に、TransVOD++とTransVOD Liteの2つの改良版を示す。 前者はオブジェクトレベルの情報を動的畳み込みによってオブジェクトクエリに融合し、後者はビデオクリップ全体を出力としてモデル化して推論時間を短縮する。 実験部では,3つのモデルの詳細な分析を行った。 特に,提案した TransVOD++ では,90.0% mAP の ImageNet VID の精度において,新たな最先端記録が設定されている。 提案したTransVOD Liteは、単一のV100 GPUデバイス上で約30FPSで動作する間、83.7%のmAPで最高速度と精度のトレードオフを実現する。 コードとモデルはさらなる研究のために利用できる。

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0% mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7% mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
公開日:2022-01-14
翻訳日:2022-01-17 12:19:37
# ローカルニュースデータを用いた米国におけるテロ攻撃予測

Predicting Terrorist Attacks in the United States using Localized News Data ( http://arxiv.org/abs/2201.04292v2 )

ライセンス: Link先を確認
Steven J. Krieg, Christian W. Smith, Rusha Chatterjee, Nitesh V. Chawla(参考訳) テロは世界中で大きな問題であり、毎年数千人の死者と数十億ドルの損害をもたらしている。 これらの攻撃をよりよく理解し、緩和する目的に向けて、テロ攻撃が特定の日付と特定の状態において起こるかどうかを予測するために、ローカライズされたニュースデータから学習する一連の機械学習モデルを提案する。 最も優れたモデルであるランダムフォレスト(Random Forest)は、2015年から2018年にかけてテロリズムによって最も影響を受けていた5州のうち4州で、受信機動作特性の下の特徴空間の新たな変動長移動平均表現から .667$ を学習する。我々の重要な発見は、テロリズムを連続的なプロセスではなく、独立したイベントの集合としてモデル化することである。特に、イベントがまばらで異質な場合には、実りあるアプローチである。 さらに,位置の違いを考慮した局所モデルの必要性も強調した。 機械学習の観点から,ランダムフォレストモデルは,マルチモーダル,ノイズ,不均衡のデータセットにおいて,いくつかの深層モデルよりも優れており,このような文脈における特徴表現手法の有効性が実証された。 また,その予測は,攻撃の時間的ギャップと,攻撃の観測特性に対して比較的堅牢であることを示す。 最後に、ノイズの多い機能空間と少量のデータを含むモデル性能を制限する要因を分析した。 これらの貢献は、アメリカ以降のテロに対する取り組みにおいて、機械学習を使用するための重要な基盤を提供する。

Terrorism is a major problem worldwide, causing thousands of fatalities and billions of dollars in damage every year. Toward the end of better understanding and mitigating these attacks, we present a set of machine learning models that learn from localized news data in order to predict whether a terrorist attack will occur on a given calendar date and in a given state. The best model--a Random Forest that learns from a novel variable-length moving average representation of the feature space--achieves area under the receiver operating characteristic scores $> .667$ on four of the five states that were impacted most by terrorism between 2015 and 2018. Our key findings include that modeling terrorism as a set of independent events, rather than as a continuous process, is a fruitful approach--especially when the events are sparse and dissimilar. Additionally, our results highlight the need for localized models that account for differences between locations. From a machine learning perspective, we found that the Random Forest model outperformed several deep models on our multimodal, noisy, and imbalanced data set, thus demonstrating the efficacy of our novel feature representation method in such a context. We also show that its predictions are relatively robust to time gaps between attacks and observed characteristics of the attacks. Finally, we analyze factors that limit model performance, which include a noisy feature space and small amount of available data. These contributions provide an important foundation for the use of machine learning in efforts against terrorism in the United States and beyond.
公開日:2022-01-14
翻訳日:2022-01-17 12:19:06
# 特徴抽出とクラスタリングに基づくDNNのブラックボックス安全性解析とリトレーニング

Black-box Safety Analysis and Retraining of DNNs based on Feature Extraction and Clustering ( http://arxiv.org/abs/2201.05077v2 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore, and Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルシステムの多くの機能をサポートするために、古典的な機械学習よりも優れたパフォーマンスを示している。 現在、DNNはこのようなシステム(例えば自動運転車)で広く使われているが、DNNベースのシステムにおける機能安全分析の自動サポートについては、進展が限られている。 例えば、リスク分析とDNN再トレーニングの両方を可能にするエラーの根本原因の特定は、依然として未解決の問題である。 本稿では,DNNエラーの根本原因を自動的に識別するブラックボックス手法であるSAFEを提案する。 SAFEは、ImageNetで事前訓練された転送学習モデルを使用して、エラー誘発画像から特徴を抽出する。 次に密度ベースのクラスタリングアルゴリズムを適用し、誤りの原因をモデル化する画像の任意の形状のクラスタを検出する。 最後に、クラスタを使用してDNNを効果的に再トレーニングし、改善する。 SAFEのブラックボックスの性質は、変更を必要とせず、DNN内部にアクセスして採用を促進することを目的としています。 実験の結果,自動車領域におけるケーススタディに基づくDNN誤差の根本原因の同定におけるSAFEの有用性が示された。 また、再トレーニング後のDNN精度も大幅に改善され、代替よりも実行時間とメモリが大幅に短縮された。

Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption. Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives.
公開日:2022-01-14
翻訳日:2022-01-17 12:18:34
# 魚音:データ駆動型音源分離による海洋音響生物多様性の評価に向けて

Fish sounds: towards the evaluation of marine acoustic biodiversity through data-driven audio source separation ( http://arxiv.org/abs/2201.05013v2 )

ライセンス: Link先を確認
Michele Mancusi, Nicola Zonca, Emanuele Rodol\`a, Silvia Zuffi(参考訳) 海洋生態系は、生物多様性の喪失や熱帯種の温帯盆地への移動など、危機的な速度で変化している。 水中環境とその住民のモニタリングは、これらのシステムの進化を理解し、安全政策を実施するために重要である。 しかし、生物多様性の評価と追跡は、特に海洋のような大規模で制御不能な環境において、複雑な作業であることが多い。 海洋生物多様性をモニタリングする最もポピュラーで効果的な方法の1つは、水中の音を捉えるためにハイドロフォンを使用する受動的音響モニタリング(PAM)である。 多くの水生動物は独自の音を発生させ、これらの信号は効率的に水中を移動し、遠くでも検出できる。 さらに、現代の技術はますます便利で正確になり、非常に正確で慎重にデータを取得することができる。 現在、PAMデバイスで捉えた音声は、海洋生物学者によってしばしば手作業で処理され、動物の発声を検出するための従来の信号処理技術で解釈されている。 PAM録音は長い時間をかけて行われることが多いので、これは難しい作業です。 さらに, 生物多様性の喪失の原因の一つは音汚染であり, 人為的騒音が大きい地域から得られたデータでは, 手動で人工音と魚音を分離することは困難である。 今日では、機械学習、特にディープラーニングは、音声信号を処理する技術の現状を表している。 特に、音声分離ネットワークは、人間の声と楽器を識別し、分離することができる。 本研究は, PAM録音における魚の発声を自動的に抽出し, 生物多様性モニタリングを大規模に行うことができることを示すものである。

The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
公開日:2022-01-14
翻訳日:2022-01-17 12:18:14
# (参考訳) NILC-Metrix:ブラジルポルトガル語における文字・音声言語の複雑さの評価 [全文訳有]

NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese ( http://arxiv.org/abs/2201.03445v1 )

ライセンス: CC BY-SA 4.0
Sidney Evaldo Leal and Magali Sanches Duran and Carolina Evaristo Scarton and Nathan Siegle Hartmann and Sandra Maria Alu\'isio(参考訳) 本稿では,ブラジルポルトガル語 (BP) における文章の複雑さを評価するために,言論, 心理言語学, 認知言語学, 計算言語学の研究において提案される200の指標からなる計算システムNILC-Metrixを提示し, 公開する。 これらのメトリクスは、記述的分析と計算モデルの作成に関係しており、様々な言語レベルから言語レベルから情報を取り出すのに使用できる。 NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。 Coh-Metrix-Portは、英語のテキストの凝集とコヒーレンスに関連するメトリクスを計算するCoh-MetrixツールからBPにいくつかのメトリクスを適用した。 2010年のporsimplesの終了後、coh-metrix-portの最初の48のメトリクスに新しいメトリクスが追加された。 coh-metrix v3.0のメトリクスに似た組織に従って、ポルトガル語と英語のメトリクスとの比較を容易にする。 本稿では,NILC-Metrixの3つの応用例を示す。 (i)小学校1年及び2年(第2四半期)に書かれた児童映画の字幕とテキストの相違に関する記述的分析 (ii)porsimplesプロジェクトの原文及び簡易テキストコーパスにおけるテキスト複雑さの新しい予測因子 (iii)十代の子どもの物語の書き起こしを用いて、学年における複雑性予測モデル。 それぞれのアプリケーションについて、どのメトリクス群がより識別的であるかを評価し、それぞれのタスクへの貢献を示す。

This paper presents and makes publicly available the NILC-Metrix, a computational system comprising 200 metrics proposed in studies on discourse, psycholinguistics, cognitive and computational linguistics, to assess textual complexity in Brazilian Portuguese (BP). These metrics are relevant for descriptive analysis and the creation of computational models and can be used to extract information from various linguistic levels of written and spoken language. The metrics in NILC-Metrix were developed during the last 13 years, starting in 2008 with Coh-Metrix-Port, a tool developed within the scope of the PorSimples project. Coh-Metrix-Port adapted some metrics to BP from the Coh-Metrix tool that computes metrics related to cohesion and coherence of texts in English. After the end of PorSimples in 2010, new metrics were added to the initial 48 metrics of Coh-Metrix-Port. Given the large number of metrics, we present them following an organisation similar to the metrics of Coh-Metrix v3.0 to facilitate comparisons made with metrics in Portuguese and English. In this paper, we illustrate the potential of NILC-Metrix by presenting three applications: (i) a descriptive analysis of the differences between children's film subtitles and texts written for Elementary School I and II (Final Years); (ii) a new predictor of textual complexity for the corpus of original and simplified texts of the PorSimples project; (iii) a complexity prediction model for school grades, using transcripts of children's story narratives told by teenagers. For each application, we evaluate which groups of metrics are more discriminative, showing their contribution for each task.
公開日:2021-12-17
翻訳日:2022-01-16 18:32:02
# (参考訳) インド道路条件に対する教師なし学習手法を用いたtwitterデータに基づく交通イベント記述 [全文訳有]

Traffic event description based on Twitter data using Unsupervised Learning Methods for Indian road conditions ( http://arxiv.org/abs/2201.02738v1 )

ライセンス: CC BY 4.0
Yasaswi Sri Chandra Gandhi Kilaru, Indrajit Ghosh(参考訳) 非リカレントかつ予測不能な交通事象は道路交通条件に直接影響を及ぼす。 道路ネットワーク管理を改善するためには,これらの予測不能事象の動的監視と予測が必要である。 既存の伝統的な方法(フローまたはスピードスタディ)の問題点は、多くのインドの道路のカバーが非常に少なく再現可能な方法で、イベントを識別し記述することはできないことである。 この問題を解決するためには、他の形式のデータを追加することが不可欠です。 これは、Google MapsやWazeなどのリアルタイムのスピードモニタリングデータや、TwitterやFacebookなどのソーシャルデータかもしれない。 本稿では,インド交通データ向上のための効果的なツイート分類を行うために,教師なし学習モデルを用いる。 このモデルは単語埋め込みを用いて意味的類似性を計算し、94.7%のテストスコアを得る。

Non-recurrent and unpredictable traffic events directly influence road traffic conditions. There is a need for dynamic monitoring and prediction of these unpredictable events to improve road network management. The problem with the existing traditional methods (flow or speed studies) is that the coverage of many Indian roads is very sparse and reproducible methods to identify and describe the events are not available. Addition of some other form of data is essential to help with this problem. This could be real-time speed monitoring data like Google Maps, Waze, etc. or social data like Twitter, Facebook, etc. In this paper, an unsupervised learning model is used to perform effective tweet classification for enhancing Indian traffic data. The model uses word-embeddings to calculate semantic similarity and achieves a test score of 94.7%.
公開日:2021-12-23
翻訳日:2022-01-16 17:57:32
# (参考訳) ITサービスを最適化するための認知コンピューティング [全文訳有]

Cognitive Computing to Optimize IT Services ( http://arxiv.org/abs/2201.02737v1 )

ライセンス: CC BY 4.0
Abbas Raza Ali(参考訳) 本稿では,ITサービスデスクチケット,顧客満足度調査,ソーシャルメディアデータなどを積極的に分析することで,健全なIT運用環境を維持する上での課題に対処する。 認知的ソリューションは、構造化テキストと非構造化テキストの両方の深い分析によって、従来の構造化データ分析を超える。 提案するプラットフォームには,言語識別,翻訳,最も頻繁に発生する話題の階層的抽出,エンティティとその関係,テキスト要約,感情,および自然言語処理技術を用いた非構造化テキストからの知識抽出などが含まれる。 さらに、構造化データと組み合わされた非構造化テキストからの洞察は、インシデント、問題、変更データセットに関する様々な分類、セグメンテーション、時系列予測のユースケースの開発を可能にする。 さらに、テキストおよび予測的洞察と生データを用いて、リッチでインタラクティブなダッシュボード上での実行可能な洞察の可視化と探索を行う。 しかし、従来の構造化データ分析を使ってこれらの洞察を見つけることは困難であり、特に大量の非構造化データを扱う場合、それらを見つけるのに非常に時間がかかるかもしれない。 これらの洞察にアクションを行うことで、チケット数を大幅に削減し、運用コストを削減し、顧客満足度を高めることができる。 様々な実験において, 年間乗車券の18~25%は, 提案手法により削減されている。

In this paper, the challenges of maintaining a healthy IT operational environment have been addressed by proactively analyzing IT Service Desk tickets, customer satisfaction surveys, and social media data. A Cognitive solution goes beyond the traditional structured data analysis by deep analyses of both structured and unstructured text. The salient features of the proposed platform include language identification, translation, hierarchical extraction of the most frequently occurring topics, entities and their relationships, text summarization, sentiments, and knowledge extraction from the unstructured text using Natural Language Processing techniques. Moreover, the insights from unstructured text combined with structured data allow the development of various classification, segmentation, and time-series forecasting use-cases on the incident, problem, and change datasets. Further, the text and predictive insights together with raw data are used for visualization and exploration of actionable insights on a rich and interactive dashboard. However, it is hard not only to find these insights using traditional structured data analysis but it might also take a very long time to discover them, especially while dealing with a massive amount of unstructured data. By taking action on these insights, organizations can benefit from a significant reduction of ticket volume, reduced operational costs, and increased customer satisfaction. In various experiments, on average, upto 18-25% of yearly ticket volume has been reduced using the proposed approach.
公開日:2021-12-28
翻訳日:2022-01-16 17:54:10
# (参考訳) 短時間多言語多型回答の信頼性向上に向けて [全文訳有]

Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type Answers ( http://arxiv.org/abs/2201.03425v1 )

ライセンス: CC BY 4.0
Johannes Schneider and Robin Richner and Micha Riser(参考訳) NLPの台頭やオンライン教育への移行に伴う質問応答ペアの増加により、短い文章による回答の自動化が実現可能になった。 オートグレーディングのパフォーマンスは、人間のグレーティングよりも劣っている。 最先端の機械学習モデルの統計的およびブラックボックスの性質は、それらを信頼できないものにし、倫理的懸念を高め、実用性を制限する。 さらに、オートグレーディングの評価は、通常、特定の質問タイプに対する小さな単言語データセットに限られる。 本研究は,数学や言語など多種多様な分野をカバーする複数の言語から約1000万の質問応答対からなる大規模データセットと,質問応答構文の強いバリエーションを用いた。 このような複雑なデータセットの自動分解における微調整変換器モデルの有効性を示す。 私たちの最高のハイパーパラメータチューニングモデルは、特定のタイプの質問、主題、言語に合わせてより一般的で調整された最先端モデルに匹敵する、約86.5\%の精度を与えます。 さらに重要なことは、信頼と倫理的な懸念に対処します。 自動採点プロセスに人間を関与させることで,自動採点結果の精度を向上させる方法を示し,指導助手と同等の精度を得る。 また,教師がシステムによるエラーの種類を効果的に制御し,個々の試験におけるオートグラファーのパフォーマンスが期待した性能に近いことを効果的に検証する方法を示す。

Autograding short textual answers has become much more feasible due to the rise of NLP and the increased availability of question-answer pairs brought about by a shift to online education. Autograding performance is still inferior to human grading. The statistical and black-box nature of state-of-the-art machine learning models makes them untrustworthy, raising ethical concerns and limiting their practical utility. Furthermore, the evaluation of autograding is typically confined to small, monolingual datasets for a specific question type. This study uses a large dataset consisting of about 10 million question-answer pairs from multiple languages covering diverse fields such as math and language, and strong variation in question and answer syntax. We demonstrate the effectiveness of fine-tuning transformer models for autograding for such complex datasets. Our best hyperparameter-tuned model yields an accuracy of about 86.5\%, comparable to the state-of-the-art models that are less general and more tuned to a specific type of question, subject, and language. More importantly, we address trust and ethical concerns. By involving humans in the autograding process, we show how to improve the accuracy of automatically graded answers, achieving accuracy equivalent to that of teaching assistants. We also show how teachers can effectively control the type of errors made by the system and how they can validate efficiently that the autograder's performance on individual exams is close to the expected performance.
公開日:2022-01-02
翻訳日:2022-01-16 17:43:23
# (参考訳) BiLSTMを用いた構造的ストーリー分類器のロバスト性検証 [全文訳有]

Testing the Robustness of a BiLSTM-based Structural Story Classifier ( http://arxiv.org/abs/2201.02733v1 )

ライセンス: CC BY 4.0
Aftab Hussain and Sai Durga Prasad Nanduri and Sneha Seenuvasavarathan(参考訳) インターネット上の偽ニュースの増加は、機械学習コミュニティにおけるフェイクニュースの迅速かつスケーラブルな検出に対する大きな関心を喚起している。 この目的のためにいくつかの機械学習技術が登場したが、ノイズがニュース記事が偽物(あるいは本物)と誤ってラベル付けされている場合、ノイズがこれらの技術のパフォーマンスに与える影響を評価する必要がある。 本研究では, 偽ニュース検出のためのBiLSTM(Bidirectional Long-Short Term Model), カリミと唐によるフェイクニュース検出のための階層的談話レベル構造に基づく, 最先端構造モデルに対するノイズの影響について検討する(参照番号9)。

The growing prevalence of counterfeit stories on the internet has fostered significant interest towards fast and scalable detection of fake news in the machine learning community. While several machine learning techniques for this purpose have emerged, we observe that there is a need to evaluate the impact of noise on these techniques' performance, where noise constitutes news articles being mistakenly labeled as fake (or real). This work takes a step in that direction, where we examine the impact of noise on a state-of-the-art, structural model based on BiLSTM (Bidirectional Long-Short Term Model) for fake news detection, Hierarchical Discourse-level Structure for Fake News Detection by Karimi and Tang (Reference no. 9).
公開日:2022-01-03
翻訳日:2022-01-16 17:20:17
# (参考訳) 体積データからのiso-surface抽出のための2つの方法とその比較 [全文訳有]

Two Methods for Iso-Surface Extraction from Volumetric Data and Their Comparison ( http://arxiv.org/abs/2201.03446v1 )

ライセンス: CC BY 4.0
Vaclav Skala, Alex Brusi(参考訳) 体積データからiso表面を抽出する方法は様々である。 マーチング立方体、テトラヘドラまたはレイトレーシング法が主に用いられる。 計算速度の向上やメモリ要件の削減には,具体的なテクニックが数多くある。 等表面抽出の精度は非常に重要であるが、通常は言及されない。 選択された方法の比較は,iso-surface抽出過程時間,生成する三角形の数,半径の推定,面積,体積誤差など,球面の近似に基づいて異なる側面で行った。 驚くべきことに, 抽出されたiso-surfaceの精度と人間の知覚には直接関係がないことが実証された。

There are various methods for extracting iso-surfaces from volumetric data. Marching cubes or tetrahedra or raytracing methods are mostly used. There are many specific techniques to increase speed of computation and decrease memory requirements. Although a precision of iso-surface extraction is very important, too, it is not mentioned usually. A comparison of the selected methods was made in different aspects: iso-surface extraction process time, number of triangles generated and estimation of radius, area and volume errors based on approximation of a sphere. Surprisingly, experiments proved that there is no direct relation between precision of extracted and human perception of the extracted iso-surface
公開日:2022-01-03
翻訳日:2022-01-16 17:12:27
# (参考訳) 機械学習による乱流パラメータの推定 [全文訳有]

Inferring Turbulent Parameters via Machine Learning ( http://arxiv.org/abs/2201.00732v1 )

ライセンス: CC BY 4.0
Michele Buzzicotti, Fabio Bonaccorso and Luca Biferale(参考訳) 我々は,工学から地球観測,天体物理学に至るまで,多くの理論および応用分野において,乱流の観測から物理パラメータを推定する一般的な問題を解決するための機械学習手法を設計する。 本研究では,3次元領域から抽出した2次元平面上での流れの速度振幅の観測から,フローの基準フレームの回転周波数を回帰させるように機械学習システムを訓練する。 機械学習アプローチは、コンピュータビジョンで開発されたのと同じ種類のディープ畳み込みニューラルネットワーク(DCNN)で構成されている。 トレーニングと検証データセットは、完全に解決された直接数値シミュレーションによって生成される。 本研究は2つの異なる視点から興味深い結果を示す。 機械学習の観点から見れば、それはDCNNの可能性を示し、人間のビジョンの限界を超えた、特に複雑な問題に関して良い結果を得る。 第二に、物理学の観点からは、データ分析において機械学習をどのように活用して、アクセス不能な情報を推測するかの例を提供する。 実際、DCNNと他のベイズ的アプローチを比較することで、すべての検査例において、DCNNの方がはるかに高い推論精度が得られることが分かる。

We design a machine learning technique to solve the general problem of inferring physical parameters from the observation of turbulent flows, a relevant exercise in many theoretical and applied fields, from engineering to earth observation and astrophysics. Our approach is to train the machine learning system to regress the rotation frequency of the flow's reference frame, from the observation of the flow's velocity amplitude on a 2d plane extracted from the 3d domain. The machine learning approach consists of a Deep Convolutional Neural Network (DCNN) of the same kind developed in computer vision. The training and validation datasets are produced by means of fully resolved direct numerical simulations. This study shows interesting results from two different points of view. From the machine learning point of view it shows the potential of DCNN, reaching good results on such a particularly complex problem that goes well outside the limits of human vision. Second, from the physics point of view, it provides an example on how machine learning can be exploited in data analysis to infer information that would be inaccessible otherwise. Indeed, by comparing DCNN with the other possible Bayesian approaches, we find that DCNN yields to a much higher inference accuracy in all the examined cases.
公開日:2022-01-03
翻訳日:2022-01-16 17:05:04
# (参考訳) 口腔液滴の分析とマスクの有効性の定量化のためのホームビルトメトロロジー [全文訳有]

A Novel Home-Built Metrology to Analyze Oral Fluid Droplets and Quantify the Efficacy of Masks ( http://arxiv.org/abs/2201.03993v1 )

ライセンス: CC BY 4.0
Ava Tan Bhowmik(参考訳) マスクを着用することは、特に新型コロナウイルスのパンデミックの中で、病原性のある液滴の拡散を防ぐために不可欠である。 しかし、全てのフェイスカバーが等しく効果的である訳ではなく、マスクの有効性を評価するほとんどの実験は非常に高価で操作が複雑である。 本研究では, 口内生成液滴を可視化する新しい, 自家製, 低コスト, 高精度な計測法を開発した。 プロジェクトにはセットアップの最適化、データ収集、データ分析、アプリケーションが含まれる。 最終的な素材はキニーネ含有トニック水、397-402nm波長の紫外線管ライト、iphoneと三脚、ストリング、スプレーボトルであった。 実験は暗い背景のある暗いクローゼットで行われた。 データ収集中、被験者はまず、摂取可能な蛍光液体(音波水)で口を湿らせて、紫外線の暗い光の下で話す、くしゃみをする。 発生したトニック水滴からの蛍光は、iphone 8+のカメラでslo-mo (240 fps) で記録され、分析することができる。 VLCはフレーム分離に使われ、Fiji/ImageJは画像処理と解析に使われている。 口腔液滴の発生と伝播の異なるフェノニクスに対する依存性, 音声のラウドネス, 呼気イベントの種類について詳細に検討し, メトロロジーを用いて確立した。 異なるタイプのマスクの有効性を評価し,布のミクロ組織と相関した。 すべてのマスクは、液滴をある程度ブロックした。 より小さな孔とより厚い物質を持つマスクは、最も小さな滴をブロックする。 この安価な技術は、総コストが50ドル未満の材料を使って、家庭で簡単に構築できる。 最小のコストにもかかわらず、この手法は非常に正確であり、データは定量化できる。

Wearing masks is crucial to preventing the spread of potentially pathogen-containing droplets, especially amidst the COVID-19 pandemic. However, not all face coverings are equally effective and most experiments evaluating mask efficacy are very expensive and complex to operate. In this work, a novel, home-built, low-cost, and accurate metrology to visualize orally-generated fluid droplets has been developed. The project includes setup optimization, data collection, data analysis, and applications. The final materials chosen were quinine-containing tonic water, 397-402 nm wavelength UV tube lights, an iPhone and tripod, string, and a spray bottle. The experiment took place in a dark closet with a dark background. During data collection, the test subject first wets their mouth with an ingestible fluorescent liquid (tonic water) and speaks, sneezes, or coughs under UV darklight. The fluorescence from the tonic water droplets generated can be visualized, recorded by an iPhone 8+ camera in slo-mo (240 fps), and analyzed. The software VLC is used for frame separation and Fiji/ImageJ is used for image processing and analysis. The dependencies of oral fluid droplet generation and propagation on different phonics, the loudness of speech, and the type of expiratory event were studied in detail and established using the metrology developed. The efficacy of different types of masks was evaluated and correlated with fabric microstructures. All masks blocked droplets to varying extent. Masks with smaller-sized pores and thicker material were found to block the most droplets. This low-cost technique can be easily constructed at home using materials that total to a cost of less than $50. Despite the minimal cost, the method is very accurate and the data is quantifiable.
公開日:2022-01-03
翻訳日:2022-01-16 16:48:35
# (参考訳) スマートチェアを用いた健康着座姿勢予測 [全文訳有]

Posture Prediction for Healthy Sitting using a Smart Chair ( http://arxiv.org/abs/2201.02615v1 )

ライセンス: CC BY 4.0
Tariku Adane Gelaw, Misgina Tsighe Hagos(参考訳) 筋骨格障害や腰痛、特に高齢者、障害者、オフィスワーカーの腰痛のリスクファクターとして、低座りの習慣が特定されている。 現在のコンピュータ化された世界では、余暇や仕事活動に関わったとしても、人々はほとんどの時間をコンピューターの机に座って過ごす傾向にある。 これは脊髄の痛みと関連する問題を引き起こす。 したがって、座る習慣を人々に思い出させ、身体的な運動などのバランスを崩すためのレコメンデーションを提供する手段が重要である。 座位姿勢に対する姿勢認識には十分な注意が払われていない。 文献では、ウェアラブルセンサー、圧力または力センサー、ビデオと画像が姿勢認識に使用された。 本研究の目的は,シートレストに32×32の圧力センサを配置した椅子から収集したデータを解析することにより,人の座位姿勢を分類するための機械学習モデルを構築することである。 モデルはRandom Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine, Deep Neural Network (DNN)の5つのアルゴリズムを使用して構築された。 全てのモデルはKFoldクロスバリデーション技術を用いて評価される。 本稿では, 2つのデータセットを分離して, 制御可能かつ現実的な実験を行い, 6つの座位姿勢を分類し, 結果について考察する。 平均分類精度は, 制御されたデータセットと現実的なデータセットで98%, 97%であった。

Poor sitting habits have been identified as a risk factor to musculoskeletal disorders and lower back pain especially on the elderly, disabled people, and office workers. In the current computerized world, even while involved in leisure or work activity, people tend to spend most of their days sitting at computer desks. This can result in spinal pain and related problems. Therefore, a means to remind people about their sitting habits and provide recommendations to counterbalance, such as physical exercise, is important. Posture recognition for seated postures have not received enough attention as most works focus on standing postures. Wearable sensors, pressure or force sensors, videos and images were used for posture recognition in the literature. The aim of this study is to build Machine Learning models for classifying sitting posture of a person by analyzing data collected from a chair platted with two 32 by 32 pressure sensors at its seat and backrest. Models were built using five algorithms: Random Forest (RF), Gaussian Na\"ive Bayes, Logistic Regression, Support Vector Machine and Deep Neural Network (DNN). All the models are evaluated using KFold cross-validation technique. This paper presents experiments conducted using the two separate datasets, controlled and realistic, and discusses results achieved at classifying six sitting postures. Average classification accuracies of 98% and 97% were achieved on the controlled and realistic datasets, respectively.
公開日:2022-01-05
翻訳日:2022-01-16 16:40:48
# デバイス上での抽象要約を支援する適応ビーム探索

Adaptive Beam Search to Enhance On-device Abstractive Summarization ( http://arxiv.org/abs/2201.02739v1 )

ライセンス: Link先を確認
Harichandana B S S and Sumit Kumar(参考訳) われわれのスマートフォンには、sms、文書、音声メッセージなどの形で重要なアップデートがいくつかあり、コンテンツの雑多な部分に埋もれている。 私たちはしばしば、完全なコンテンツを通さない限り、重要な情報に気付きません。 SMSの通知は、メッセージが何であるかを判断するのに役立つことがあるが、それらは単に開始したコンテンツのプレビューを提供するだけだ。 これを解決する方法の1つは、様々なソースからデータを適応して要約できる単一の効率的なモデルを持つことである。 本稿では,この課題に対処し,SMSや音声メッセージに適用し,文書に拡張可能なデバイス上での抽象的な要約の質を向上させるための,新しい適応ビーム探索を提案する。 私たちの知る限りでは,サーバにデータを送信する既存の要約システムの大部分と比較して,ユーザのプライバシ上の懸念に対処する複数のデータソースに適応可能な,デバイス上の抽象化された要約パイプラインが提案されているのはこれが初めてです。 知識蒸留を用いてモデルサイズを30.9%削減し、97.6%少ないメモリフットプリントを持つこのモデルがbertと同等以上のキー情報を抽出することを示した。

We receive several essential updates on our smartphones in the form of SMS, documents, voice messages, etc. that get buried beneath the clutter of content. We often do not realize the key information without going through the full content. SMS notifications sometimes help by giving an idea of what the message is about, however, they merely offer a preview of the beginning content. One way to solve this is to have a single efficient model that can adapt and summarize data from varied sources. In this paper, we tackle this issue and for the first time, propose a novel Adaptive Beam Search to improve the quality of on-device abstractive summarization that can be applied to SMS, voice messages and can be extended to documents. To the best of our knowledge, this is the first on-device abstractive summarization pipeline to be proposed that can adapt to multiple data sources addressing privacy concerns of users as compared to the majority of existing summarization systems that send data to a server. We reduce the model size by 30.9% using knowledge distillation and show that this model with a 97.6% lesser memory footprint extracts the same or more key information as compared to BERT.
公開日:2021-12-22
翻訳日:2022-01-16 16:32:49
# 両世界のベスト:宣言的事実を伴うマルチホップ説明のためのハイブリッドアプローチ

Best of Both Worlds: A Hybrid Approach for Multi-Hop Explanation with Declarative Facts ( http://arxiv.org/abs/2201.02740v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Aishwarya Reganti, Govind Thattai(参考訳) 言語対応AIシステムは複雑なマルチホップ質問に高い精度で答えることができるが、エビデンスによる回答をサポートすることは、ユーザの透明性と信頼性にとって重要な課題である。 最先端のディープニューラルネットワークシステムは複雑すぎて、大規模アプリケーションでは役に立たないが、最速のシステムは信頼性に欠ける。 本研究では,宣言的事実に基づくマルチホップ説明生成のための高速構文法と強力な意味的手法を統合する。 証拠や細粒度言語モデルに対するマルチホップ推論をシミュレートする軽量な操作を学習し、生成した説明連鎖を再度ランク付けし、前回の作業から最大7%のゴールド説明検索率で純粋な構文ベースラインを上回ります。

Language-enabled AI systems can answer complex, multi-hop questions to high accuracy, but supporting answers with evidence is a more challenging task which is important for the transparency and trustworthiness to users. Prior work in this area typically makes a trade-off between efficiency and accuracy; state-of-the-art deep neural network systems are too cumbersome to be useful in large-scale applications, while the fastest systems lack reliability. In this work, we integrate fast syntactic methods with powerful semantic methods for multi-hop explanation generation based on declarative facts. Our best system, which learns a lightweight operation to simulate multi-hop reasoning over pieces of evidence and fine-tunes language models to re-rank generated explanation chains, outperforms a purely syntactic baseline from prior work by up to 7% in gold explanation retrieval rate.
公開日:2021-12-17
翻訳日:2022-01-16 16:32:30
# グラフ群を微分的に記述する

Differentially Describing Groups of Graphs ( http://arxiv.org/abs/2201.04064v1 )

ライセンス: Link先を確認
Corinna Coupette, Sebastian Dalleiger, and Jilles Vreeken(参考訳) 自閉症児の神経接続は、健常児や自閉症青年の神経接続とどのように異なるか? グローバルな貿易ネットワークのパターンは、商品のクラス間で共有され、これらのパターンは時間とともにどのように変化するのか? グラフの集合とこれらのグラフの分割をグループに与え、あるグループ内のグラフが共通しているもの、他のグループ内のグラフと体系的にどう異なるか、グラフの複数のグループがどのように関連しているかを発見する。 この課題をグラフ群解析と呼び、統計学的に有意な部分グラフを用いて、グラフ群間の類似点と相違点を記述する。 グラフ群分析を行うために,最大エントロピーモデリングを用いて,統計的に有意な関係を持つサブグラフの非冗長集合を同定するgragraを提案する。 幅広い合成および実世界のグラフ群に関する広範な実験を通して、Gragraが実際にうまく機能していることを確認する。

How does neural connectivity in autistic children differ from neural connectivity in healthy children or autistic youths? What patterns in global trade networks are shared across classes of goods, and how do these patterns change over time? Answering questions like these requires us to differentially describe groups of graphs: Given a set of graphs and a partition of these graphs into groups, discover what graphs in one group have in common, how they systematically differ from graphs in other groups, and how multiple groups of graphs are related. We refer to this task as graph group analysis, which seeks to describe similarities and differences between graph groups by means of statistically significant subgraphs. To perform graph group analysis, we introduce Gragra, which uses maximum entropy modeling to identify a non-redundant set of subgraphs with statistically significant associations to one or more graph groups. Through an extensive set of experiments on a wide range of synthetic and real-world graph groups, we confirm that Gragra works well in practice.
公開日:2021-12-16
翻訳日:2022-01-16 16:32:13
# (参考訳) CausalKG:介入と反事実推論を用いた因果知識グラフの説明可能性 [全文訳有]

CausalKG: Causal Knowledge Graph Explainability using interventional and counterfactual reasoning ( http://arxiv.org/abs/2201.03647v1 )

ライセンス: CC BY 4.0
Utkarshani Jaimini, Amit Sheth(参考訳) 人間は日常的な意思決定、計画、人生の出来事の理解において因果関係と仮説的振り返りを用いる。 人間の心は、与えられた状況を振り返りながら、「与えられた状況の原因は何か?」「私の行動の効果は何か?」「この効果はどのような行動に導かれたのか?」といった疑問を思い浮かべる。 それは世界の因果モデルを開発し、少ないデータポイントで学習し、推論を行い、反現実的なシナリオを考えます。 未知の、未知のシナリオは偽物として知られている。 AIアルゴリズムは、時間、空間、事実の概念を表現するために知識グラフ(KG)に基づく表現を使用する。 KGは、イベントやオブジェクト、概念といったエンティティ間のセマンティックな関係をキャプチャするグラフィカルデータモデルである。 既存のKGは、ConceptNetやWordNetのように、語句の言語パターンに基づいてテキストから抽出された因果関係を表す。 kgsにおける現在の因果関係表現は、偽りの推論をサポートするのに困難である。 KGベースのアプローチによるAIシステムの因果関係のより豊かな表現は、説明可能性の向上と介入と反事実推論のサポートのために必要であり、それによって人間によるAIシステムの理解が向上する。 因果関係表現は、文脈、因果情報、因果効果を定義するためのより高い表現枠組みを必要とする。 因果知識グラフ(Causal Knowledge Graph, CausalKG)フレームワークは、因果性やKGの最近の進歩を説明可能性に活用する。 CausalKGは、ドメイン適応型因果モデルの欠如に対処し、KGのハイパーリレーショナルグラフ表現を用いて複雑な因果関係を表現する。 我々は、CausalKGの介入的および反ファクト的推論が、AIシステムによってドメイン説明可能性に利用できることを示した。

Humans use causality and hypothetical retrospection in their daily decision-making, planning, and understanding of life events. The human mind, while retrospecting a given situation, think about questions such as "What was the cause of the given situation?", "What would be the effect of my action?", or "Which action led to this effect?". It develops a causal model of the world, which learns with fewer data points, makes inferences, and contemplates counterfactual scenarios. The unseen, unknown, scenarios are known as counterfactuals. AI algorithms use a representation based on knowledge graphs (KG) to represent the concepts of time, space, and facts. A KG is a graphical data model which captures the semantic relationships between entities such as events, objects, or concepts. The existing KGs represent causal relationships extracted from texts based on linguistic patterns of noun phrases for causes and effects as in ConceptNet and WordNet. The current causality representation in KGs makes it challenging to support counterfactual reasoning. A richer representation of causality in AI systems using a KG-based approach is needed for better explainability, and support for intervention and counterfactuals reasoning, leading to improved understanding of AI systems by humans. The causality representation requires a higher representation framework to define the context, the causal information, and the causal effects. The proposed Causal Knowledge Graph (CausalKG) framework, leverages recent progress of causality and KG towards explainability. CausalKG intends to address the lack of a domain adaptable causal model and represent the complex causal relations using the hyper-relational graph representation in the KG. We show that the CausalKG's interventional and counterfactual reasoning can be used by the AI system for the domain explainability.
公開日:2022-01-06
翻訳日:2022-01-16 16:30:47
# 脳信号分析に基づく深層学習法:非侵襲的脳信号研究の最近の進歩

Brain Signals Analysis Based Deep Learning Methods: Recent advances in the study of non-invasive brain signals ( http://arxiv.org/abs/2201.04229v1 )

ライセンス: Link先を確認
Almabrok Essa and Hari Kotte(参考訳) 脳信号は、何百万もの脳ニューロン(神経細胞と脳細胞)によって処理される情報を構成する。 これらの脳信号は脳波(EEG)、脳磁図(MEG)、磁気共鳴画像(MRI)、CT(CT)などの脳イメージング技術などの非侵襲的手法を用いて記録・解析することができる。 本稿では、これらの脳信号の解析に異なるディープラーニング(dl)アルゴリズムを用いることや、これらのアルゴリズムが信号復号戦略を適用して人の神経学的状態を決定するのにどのように役立つかについて述べる。

Brain signals constitute the information that are processed by millions of brain neurons (nerve cells and brain cells). These brain signals can be recorded and analyzed using various of non-invasive techniques such as the Electroencephalograp h (EEG), Magneto-encephalogra ph (MEG) as well as brain-imaging techniques such as Magnetic Resonance Imaging (MRI), Computed Tomography (CT) and others, which will be discussed briefly in this paper. This paper discusses about the currently emerging techniques such as the usage of different Deep Learning (DL) algorithms for the analysis of these brain signals and how these algorithms will be helpful in determining the neurological status of a person by applying the signal decoding strategy.
公開日:2021-12-30
翻訳日:2022-01-16 16:20:47
# 人間ライクなコミュニケーション知性の構築--基盤的視点

Building Human-like Communicative Intelligence: A Grounded Perspective ( http://arxiv.org/abs/2201.02734v1 )

ライセンス: Link先を確認
Marina Dubova(参考訳) 現代の人工知能(AI)システムは、画像分類から戦略ゲームまで様々なタスクで優れており、これらの領域の多くで人間よりも優れています。 しかし、近年の言語学習の驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。 人間の学習者とは異なり、コミュニケーションaiシステムは、体系的に新しいデータへの一般化に失敗し、サンプル非効率に苦しめられ、常識的な意味知識を捉えられず、現実世界のコミュニケーション状況に翻訳されないことが多い。 Cognitive Scienceは、この点からAIがどのように前進するかについて、いくつかの洞察を提供する。 本稿の目的は,(1)ナチビストや象徴的パラダイムに基づく認知にインスパイアされたAI指導が,現代AIの進歩を導くために必要なサブストラテジや具体性を欠いていること,(2)エンボディード,エンベッドド,拡張,活動的認知(4E)研究にインスパイアされた,AIの進歩に対する「接地」的な視点を明示することである。 認知科学における4E研究の成果を概観し,人間の言語発達における因果的役割を担う自然主義的学習条件の主な側面を識別する。 言語知を構築するための具体的で実装可能なコンポーネントのリストを提案するために、この分析を使っています。 これらのコンポーネントには、知覚行動サイクルで機械を具現化し、エージェントに独自のカリキュラムを構築するための積極的な探索機構を装備し、エージェントが徐々に運動能力を発達させ、断片的な言語開発を促進し、物理的および社会的環境からの適応的なフィードバックでエージェントを内挿することが含まれる。 これらのアイデアが、世界との体験を通じて、人間に似た言語能力を開発するマシン構築に向けて、ai研究を指示できることを願っています。

Modern Artificial Intelligence (AI) systems excel at diverse tasks, from image classification to strategy games, even outperforming humans in many of these domains. After making astounding progress in language learning in the recent decade, AI systems, however, seem to approach the ceiling that does not reflect important aspects of human communicative capacities. Unlike human learners, communicative AI systems often fail to systematically generalize to new data, suffer from sample inefficiency, fail to capture common-sense semantic knowledge, and do not translate to real-world communicative situations. Cognitive Science offers several insights on how AI could move forward from this point. This paper aims to: (1) suggest that the dominant cognitively-inspired AI directions, based on nativist and symbolic paradigms, lack necessary substantiation and concreteness to guide progress in modern AI, and (2) articulate an alternative, "grounded", perspective on AI advancement, inspired by Embodied, Embedded, Extended, and Enactive Cognition (4E) research. I review results on 4E research lines in Cognitive Science to distinguish the main aspects of naturalistic learning conditions that play causal roles for human language development. I then use this analysis to propose a list of concrete, implementable components for building "grounded" linguistic intelligence. These components include embodying machines in a perception-action cycle, equipping agents with active exploration mechanisms so they can build their own curriculum, allowing agents to gradually develop motor abilities to promote piecemeal language development, and endowing the agents with adaptive feedback from their physical and social environment. I hope that these ideas can direct AI research towards building machines that develop human-like language abilities through their experiences with the world.
公開日:2022-01-02
翻訳日:2022-01-16 16:20:33
# チャットボットにおけるヒューマン・レベル理解の深層学習手法

A Deep Learning Approach to Integrate Human-Level Understanding in a Chatbot ( http://arxiv.org/abs/2201.02735v1 )

ライセンス: Link先を確認
Afia Fairoose Abedin, Amirul Islam Al Mamun, Rownak Jahan Nowrin, Amitabha Chakrabarty, Moin Mostakim and Sudip Kumar Naskar(参考訳) 最近では、多くの人々が独自の事業の設立に携わっている。 人間とは異なり、チャットボットは一度に複数の顧客にサービスを提供し、24/7で提供され、1秒以内で返信できる。 チャットボットはタスク指向のアクティビティではうまく機能しますが、ほとんどの場合、パーソナライズされた意見やステートメント、さらにはクエリさえも理解できません。 ボットの理解能力の欠如は、人間と会話を続けることに関心がない。 通常、チャットボットはユーザーのテキストを正確に解釈できないとばかげた応答をする。 チャットボットを用いて、会話から顧客レビューを抽出することで、組織は、ユーザとチャットボットの間の理解のギャップを小さくし、製品やサービスの質を向上させることができます。 深層学習を用いて感情分析,感情検出,意図分類,名義認識を行い,人文的理解と知性を備えたチャットボットを開発した。 より詳細な分析により,本手法の効率性を示すことができる。

In recent times, a large number of people have been involved in establishing their own businesses. Unlike humans, chatbots can serve multiple customers at a time, are available 24/7 and reply in less than a fraction of a second. Though chatbots perform well in task-oriented activities, in most cases they fail to understand personalized opinions, statements or even queries which later impact the organization for poor service management. Lack of understanding capabilities in bots disinterest humans to continue conversations with them. Usually, chatbots give absurd responses when they are unable to interpret a user's text accurately. Extracting the client reviews from conversations by using chatbots, organizations can reduce the major gap of understanding between the users and the chatbot and improve their quality of products and services.Thus, in our research we incorporated all the key elements that are necessary for a chatbot to analyse and understand an input text precisely and accurately. We performed sentiment analysis, emotion detection, intent classification and named-entity recognition using deep learning to develop chatbots with humanistic understanding and intelligence. The efficiency of our approach can be demonstrated accordingly by the detailed analysis.
公開日:2021-12-31
翻訳日:2022-01-16 16:19:57
# 摂動による敵文の修復

Repairing Adversarial Texts through Perturbation ( http://arxiv.org/abs/2201.02504v1 )

ライセンス: Link先を確認
Guoliang Dong, Jingyi Wang, Jun Sun, Sudipta Chattopadhyay, Xinyu Wang, Ting Dai, Jie Shi and Jin Song Dong(参考訳) ニューラルネットワークは、逆の摂動、すなわち間違った予測を誘発するために摂動によって悪意を持って作り出された入力によって攻撃を受けることが知られている。 さらに、このような攻撃は、敵の訓練のような緩和方法を適用した後も、敵の摂動を排除できない。 画像領域において、このような逆入力を検出して拒否する複数のアプローチが開発されている。 しかし、不審な入力を拒絶することは、常に実現可能あるいは理想であるとは限らない。 まず、検出アルゴリズムによって生成された誤報により、通常の入力は拒否される。 第二に、サービス拒否攻撃は、そのようなシステムに敵対的な入力を与えて行うことができる。 このギャップに対処するため,本研究では,実行時に相手テキストを自動的に修復する手法を提案する。 逆行性が疑われるテキストが与えられた場合,複数の逆行性摂動法を正の方法で適用することで,ニューラルネットワークが正しく分類する,わずかに変化するが意味的に等価なテキストの修正を識別する。 提案手法は自然言語処理タスクのために訓練された複数のモデルを用いて実験され,本手法が有効であることを示す。 さらに, 応用摂動法によっては, 平均1秒程度で逆行文を補修することが可能であった。

It is known that neural networks are subject to attacks through adversarial perturbations, i.e., inputs which are maliciously crafted through perturbations to induce wrong predictions. Furthermore, such attacks are impossible to eliminate, i.e., the adversarial perturbation is still possible after applying mitigation methods such as adversarial training. Multiple approaches have been developed to detect and reject such adversarial inputs, mostly in the image domain. Rejecting suspicious inputs however may not be always feasible or ideal. First, normal inputs may be rejected due to false alarms generated by the detection algorithm. Second, denial-of-service attacks may be conducted by feeding such systems with adversarial inputs. To address the gap, in this work, we propose an approach to automatically repair adversarial texts at runtime. Given a text which is suspected to be adversarial, we novelly apply multiple adversarial perturbation methods in a positive way to identify a repair, i.e., a slightly mutated but semantically equivalent text that the neural network correctly classifies. Our approach has been experimented with multiple models trained for natural language processing tasks and the results show that our approach is effective, i.e., it successfully repairs about 80\% of the adversarial texts. Furthermore, depending on the applied perturbation method, an adversarial text could be repaired in as short as one second on average.
公開日:2021-12-29
翻訳日:2022-01-16 16:19:37
# 機械学習による効率的な分光エリプソメトリーモデリング

Machine Learning-enhanced Efficient Spectroscopic Ellipsometry Modeling ( http://arxiv.org/abs/2201.04933v1 )

ライセンス: Link先を確認
Ayush Arunachalam, S. Novia Berriel, Parag Banerjee, Kanad Basu(参考訳) 近年、コンピュータビジョンからデータマイニング、薬物発見に至るまで、機械学習(ML)が現実世界の多くのアプリケーションに広く採用されている。 本稿では,MLを用いて効率的な膜形成,特に原子層堆積(ALD)を促進する。 薄膜の生成に利用されるALDプロセスの発展と,それに続く産業への採用を促進するためには,その基盤となる原子プロセスを理解することが不可欠である。 この目的のために,分光エリプソメトリー (SE) などのフィルム成長モニタリング技術が提案されている。 しかし、In situ SEは複雑なハードウェアと関連しており、そのためリソース集約である。 これらの課題に対処するため,MLを用いた膜厚推定手法を提案する。 提案手法は, 高速なデータ取得, ハードウェアの複雑さの低減, および膜厚沈着のその場観察のための分光エリプソメトリーの簡易な統合に大きく影響する。 実験結果から,提案手法は,+/-1.5 nmで88.76%,+/-0.5 nm間隔で85.14%の厚さ予測精度を期待できることがわかった。 さらに, 膜厚を最大98%向上させることにより, 従来のse系分析よりも大幅に向上し, 極薄膜厚推定に有効な選択肢となる。

Over the recent years, there has been an extensive adoption of Machine Learning (ML) in a plethora of real-world applications, ranging from computer vision to data mining and drug discovery. In this paper, we utilize ML to facilitate efficient film fabrication, specifically Atomic Layer Deposition (ALD). In order to make advances in ALD process development, which is utilized to generate thin films, and its subsequent accelerated adoption in industry, it is imperative to understand the underlying atomistic processes. Towards this end, in situ techniques for monitoring film growth, such as Spectroscopic Ellipsometry (SE), have been proposed. However, in situ SE is associated with complex hardware and, hence, is resource intensive. To address these challenges, we propose an ML-based approach to expedite film thickness estimation. The proposed approach has tremendous implications of faster data acquisition, reduced hardware complexity and easier integration of spectroscopic ellipsometry for in situ monitoring of film thickness deposition. Our experimental results involving SE of TiO2 demonstrate that the proposed ML-based approach furnishes promising thickness prediction accuracy results of 88.76% within +/-1.5 nm and 85.14% within +/-0.5 nm intervals. Furthermore, we furnish accuracy results up to 98% at lower thicknesses, which is a significant improvement over existing SE-based analysis, thereby making our solution a viable option for thickness estimation of ultrathin films.
公開日:2022-01-01
翻訳日:2022-01-16 16:19:15
# 雑音下の障害から論理プログラムを学ぶ

Learning Logic Programs From Noisy Failures ( http://arxiv.org/abs/2201.03702v1 )

ライセンス: Link先を確認
John Wahlig(参考訳) 帰納的論理プログラミング(英: Inductive Logic Programming、ILP)は、機械学習(ML)の一種であり、他の最先端のML手法とは対照的である。 しかし、多くのILPシステムは、ノイズや部分的に分類されたトレーニングデータから自然に学習する能力に欠ける。 本稿では,従来導入されていたlff(learning from failures)アプローチのノイズ処理修正であるilpについて,障害からのゆるやかな学習について紹介する。 また、この緩和されたアプローチを実装し、既存のPopperシステムを変更する新しいノイズポッパーLPシステムについても紹介する。 Popper と同様に、Noisy Popper は生成-テスト-制約ループを使って仮説空間を探索する。 これらの制約は仮説空間を立証するために使われ、仮説探索をより効率的にする。 しかし、緩和された設定では、ノイズの多いトレーニングデータが最適な仮説を立証する仮説の制約に繋がることを避けるために、よりゆるい方法で制約が生成される。 緩和された設定に特有の制約は仮説比較によって生成される。 最小記述長の適用による過度な適合を避けるために、それらのサイズに対する仮説の精度を測ることで、追加の制約が生成される。 理論的な証明と実験結果により,popperのノイズ処理性能は改善するが,全体のランタイム効率は向上することが示唆された。

Inductive Logic Programming (ILP) is a form of machine learning (ML) which in contrast to many other state of the art ML methods typically produces highly interpretable and reusable models. However, many ILP systems lack the ability to naturally learn from any noisy or partially misclassified training data. We introduce the relaxed learning from failures approach to ILP, a noise handling modification of the previously introduced learning from failures (LFF) approach which is incapable of handling noise. We additionally introduce the novel Noisy Popper ILP system which implements this relaxed approach and is a modification of the existing Popper system. Like Popper, Noisy Popper takes a generate-test-constr ain loop to search its hypothesis space wherein failed hypotheses are used to construct hypothesis constraints. These constraints are used to prune the hypothesis space, making the hypothesis search more efficient. However, in the relaxed setting, constraints are generated in a more lax fashion as to avoid allowing noisy training data to lead to hypothesis constraints which prune optimal hypotheses. Constraints unique to the relaxed setting are generated via hypothesis comparison. Additional constraints are generated by weighing the accuracy of hypotheses against their sizes to avoid overfitting through an application of the minimum description length. We support this new setting through theoretical proofs as well as experimental results which suggest that Noisy Popper improves the noise handling capabilities of Popper but at the cost of overall runtime efficiency.
公開日:2021-12-28
翻訳日:2022-01-16 16:18:52
# 知識グラフ強化マルチビューグラフ畳み込みによる医用テキストからの患者再送リスクの予測

Predicting Patient Readmission Risk from Medical Text via Knowledge Graph Enhanced Multiview Graph Convolution ( http://arxiv.org/abs/2201.02510v1 )

ライセンス: Link先を確認
Qiuhao Lu, Thien Huu Nguyen, Dejing Dou(参考訳) 非計画集中治療単位(ICU)寛容率は、病院医療の質を評価する上で重要な指標である。 ICU寛解リスクの効率的かつ正確な予測は、患者の不適切な退院や潜在的な危険を防ぐだけでなく、関連する医療費を削減できる。 本稿では,電子健康記録(EHR)の医療用テキストを予測に利用する新しい手法を提案する。 具体的には,患者の放電サマリーをEHRから抽出し,外部知識グラフによって強化されたマルチビューグラフで表現する。 グラフ畳み込みネットワークは、表現学習に使用される。 実験の結果,本手法の有効性が証明され,最新性能が得られた。

Unplanned intensive care unit (ICU) readmission rate is an important metric for evaluating the quality of hospital care. Efficient and accurate prediction of ICU readmission risk can not only help prevent patients from inappropriate discharge and potential dangers, but also reduce associated costs of healthcare. In this paper, we propose a new method that uses medical text of Electronic Health Records (EHRs) for prediction, which provides an alternative perspective to previous studies that heavily depend on numerical and time-series features of patients. More specifically, we extract discharge summaries of patients from their EHRs, and represent them with multiview graphs enhanced by an external knowledge graph. Graph convolutional networks are then used for representation learning. Experimental results prove the effectiveness of our method, yielding state-of-the-art performance for this task.
公開日:2021-12-19
翻訳日:2022-01-16 16:18:28
# (参考訳) クロスエントロピー損失による多視点非負行列分解判別学習 [全文訳有]

Multi-View Non-negative Matrix Factorization Discriminant Learning via Cross Entropy Loss ( http://arxiv.org/abs/2201.04726v1 )

ライセンス: CC BY 4.0
Jian-wei Liu, Yuan-fang Wang, Run-kun Lu, Xionglin Luo(参考訳) マルチビュー学習は、同一オブジェクトの異なるビュー間の関係を利用して分類のタスク目標を達成する。 ほとんどの既存メソッドは、通常、複数のビュー間の一貫性と相補性に焦点を当てている。 しかし、これらの情報は分類タスクに有用ではない。 その代わり、重要な役割を果たす特定の識別情報である。 zhong zhangらは、共同の非負の行列因子分解を通じて、異なる視点における共通およびビュー特有の部分における差別的および非差別的情報の存在を探求する。 本稿では, クロスエントロピー損失関数を用いて, 目的関数の制約を改善することにより, この基底関数のアルゴリズムを改良する。 最終的に、同じデータセット上でオリジナルよりも優れた分類効果を実装し、多くの最先端アルゴリズムよりもその優位性を示す。

Multi-view learning accomplishes the task objectives of classification by leverag-ing the relationships between different views of the same object. Most existing methods usually focus on consistency and complementarity between multiple views. But not all of this information is useful for classification tasks. Instead, it is the specific discriminating information that plays an important role. Zhong Zhang et al. explore the discriminative and non-discriminative information exist-ing in common and view-specific parts among different views via joint non-negative matrix factorization. In this paper, we improve this algorithm on this ba-sis by using the cross entropy loss function to constrain the objective function better. At last, we implement better classification effect than original on the same data sets and show its superiority over many state-of-the-art algorithms.
公開日:2022-01-08
翻訳日:2022-01-16 16:16:43
# C2-CRS:会話レコメンダシステムのための粗大なコントラスト学習

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System ( http://arxiv.org/abs/2201.02732v1 )

ライセンス: Link先を確認
Yuanhang Zhou, Kun Zhou, Wayne Xin Zhao, Cheng Wang, Peng Jiang, He Hu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。 効果的なCRSを開発するためには、非常に限られた会話コンテキストからユーザの好みを正確に推測する方法が重要な技術的問題である。 問題に対処するには、コンテキスト情報を豊かにするために外部データを組み込むことが有望である。 しかし、以前の研究は主に特定の種類の外部データ用に調整された核融合モデルの設計に重点を置いている。 マルチタイプの外部データを効果的に活用するために,CRSのデータセマンティックフュージョンを改善するための,より粗いコントラスト学習フレームワークを提案する。 提案手法では,まず異なるデータ信号から多粒度意味単位を抽出し,次に,関連した多形意味単位を粗い方法で整列させる。 このフレームワークを実装するために、ユーザ嗜好をモデル化するための粗粒度と細粒度の両方の手順を設計し、前者はより汎用的で粗粒度の高いセマンティックフュージョンに、後者はより具体的で細粒度なセマンティックフュージョンに焦点をあてる。 このようなアプローチは、より多くの種類の外部データを組み込むように拡張できる。 2つの公開CRSデータセットに対する大規模な実験により,提案手法の有効性が示唆された。

Conversational recommender systems (CRS) aim to recommend suitable items to users through natural language conversations. For developing effective CRSs, a major technical issue is how to accurately infer user preference from very limited conversation context. To address issue, a promising solution is to incorporate external data for enriching the context information. However, prior studies mainly focus on designing fusion models tailored for some specific type of external data, which is not general to model and utilize multi-type external data. To effectively leverage multi-type external data, we propose a novel coarse-to-fine contrastive learning framework to improve data semantic fusion for CRS. In our approach, we first extract and represent multi-grained semantic units from different data signals, and then align the associated multi-type semantic units in a coarse-to-fine way. To implement this framework, we design both coarse-grained and fine-grained procedures for modeling user preference, where the former focuses on more general, coarse-grained semantic fusion and the latter focuses on more specific, fine-grained semantic fusion. Such an approach can be extended to incorporate more kinds of external data. Extensive experiments on two public CRS datasets have demonstrated the effectiveness of our approach in both recommendation and conversation tasks.
公開日:2022-01-04
翻訳日:2022-01-16 16:05:00
# 混合を伴うエピデミックモデルの統合

Unifying Epidemic Models with Mixtures ( http://arxiv.org/abs/2201.04960v1 )

ライセンス: Link先を確認
Arnab Sarker, Ali Jadbabaie, Devavrat Shah(参考訳) 新型コロナウイルスのパンデミックは、感染モデルに対する強固な理解の必要性を強調している。 現在の流行モデルは、メカニックか非メカニックかのどちらかに分類される: メカニックモデルは病気のダイナミクスを明示的に仮定するが、非メカニックモデルは観察された時系列の形で仮定する。 本稿では,両者の利点を保ちつつ,両者のアプローチを橋渡しする単純な混合モデルを提案する。 このモデルはガウス曲線の混合として一連のケースと死亡率を表し、従来の力学モデルと比較してデータから学ぶ柔軟な関数クラスを提供する。 モデルは非機械的だが、ネットワーク化されたSIRフレームワークに基づく確率過程の自然な結果として現れることを示す。 これにより、学習パラメータは、類似の非機械的モデルと比較してより意味のある解釈が可能となり、新型コロナウイルスパンデミックで収集された補助モビリティデータを用いて解釈を検証する。 モデルパラメータを同定し、モデルがデータから効率的に学習できることを示すための簡単な学習アルゴリズムを提供する。 経験的に、予測誤差が低いモデルが見つかる。 モデルはcovidpredictions.mit .eduで公開されている。 これにより、covid-19に対する介入が与える影響を体系的に理解することが可能になります。

The COVID-19 pandemic has emphasized the need for a robust understanding of epidemic models. Current models of epidemics are classified as either mechanistic or non-mechanistic: mechanistic models make explicit assumptions on the dynamics of disease, whereas non-mechanistic models make assumptions on the form of observed time series. Here, we introduce a simple mixture-based model which bridges the two approaches while retaining benefits of both. The model represents time series of cases and fatalities as a mixture of Gaussian curves, providing a flexible function class to learn from data compared to traditional mechanistic models. Although the model is non-mechanistic, we show that it arises as the natural outcome of a stochastic process based on a networked SIR framework. This allows learned parameters to take on a more meaningful interpretation compared to similar non-mechanistic models, and we validate the interpretations using auxiliary mobility data collected during the COVID-19 pandemic. We provide a simple learning algorithm to identify model parameters and establish theoretical results which show the model can be efficiently learned from data. Empirically, we find the model to have low prediction error. The model is available live at covidpredictions.mit .edu. Ultimately, this allows us to systematically understand the impacts of interventions on COVID-19, which is critical in developing data-driven solutions to controlling epidemics.
公開日:2022-01-07
翻訳日:2022-01-16 16:04:36
# BITES:生存データに対するバランス付き個別治療効果

BITES: Balanced Individual Treatment Effect for Survival data ( http://arxiv.org/abs/2201.03448v1 )

ライセンス: Link先を確認
Stefan Schrod, Andreas Sch\"afer, Stefan Solbrig, Robert Lohmayer, Wolfram Gronwald, Peter J. Oefner, Tim Bei{\ss}barth, Rainer Spang, Helena U. Zacharias, Michael Altenbuchinger(参考訳) 患者予後に対する介入の効果を推定することは、パーソナライズされた医療の重要な側面の一つである。 それらの推測は、訓練データが治療結果のみを含み、代替治療(いわゆる偽善的結果)には含まれないという事実によってしばしば疑問視される。 このシナリオでは、連続変数とバイナリ変数の両方に対して、介入がランダムに適用されないデータなど、観測データに基づいていくつかの方法が提案されている。 しかし、観測期間内にイベントが発生しない場合の右室イベント時間を含む、時間と時間のデータで患者結果が記録されることが多い。 その重要性は大きいが、処理最適化に時間からイベントまでのデータが使われることは滅多にない。 我々は,治療に特有の半パラメトリックなcox損失と,治療バランスの深いディープニューラルネットワークを組み合わせたbites (balanced individual treatment effect for survival data) というアプローチを提案する。 シミュレーション研究では、このアプローチが芸術の状態を上回っていることを示します。 さらに, 乳癌患者のコホートに対して, 6つの日常的パラメータに基づいてホルモン治療を最適化できることを示す。 我々はこの発見を独立したコホートで検証した。 BITESは使いやすいpython実装として提供されている。

Estimating the effects of interventions on patient outcome is one of the key aspects of personalized medicine. Their inference is often challenged by the fact that the training data comprises only the outcome for the administered treatment, and not for alternative treatments (the so-called counterfactual outcomes). Several methods were suggested for this scenario based on observational data, i.e.~data where the intervention was not applied randomly, for both continuous and binary outcome variables. However, patient outcome is often recorded in terms of time-to-event data, comprising right-censored event times if an event does not occur within the observation period. Albeit their enormous importance, time-to-event data is rarely used for treatment optimization. We suggest an approach named BITES (Balanced Individual Treatment Effect for Survival data), which combines a treatment-specific semi-parametric Cox loss with a treatment-balanced deep neural network; i.e.~we regularize differences between treated and non-treated patients using Integral Probability Metrics (IPM). We show in simulation studies that this approach outperforms the state of the art. Further, we demonstrate in an application to a cohort of breast cancer patients that hormone treatment can be optimized based on six routine parameters. We successfully validated this finding in an independent cohort. BITES is provided as an easy-to-use python implementation.
公開日:2022-01-05
翻訳日:2022-01-16 16:04:15
# ワクチンHesitancyを分析するための機械学習とAI説明の適用

Applying Machine Learning and AI Explanations to Analyze Vaccine Hesitancy ( http://arxiv.org/abs/2201.05070v1 )

ライセンス: Link先を確認
Carsten Lange, Jian Lange(参考訳) この論文は、米国大陸の郡におけるcovid-19ワクチン接種率に対する人種、貧困、政治、年齢の影響を定量化するものだ。 OLSレグレッション解析とランダムフォレスト機械学習アルゴリズムの両方を用いて、郡レベルのワクチン流行の要因を定量化する。 機械学習モデルは、これらの要因がワクチン接種率に特有の組み合わせを捉えるために、変数(人種/民族、党派、年齢など)の結合効果を同時に考慮している。 最先端のAIX(Artificial Intelligence Explanations)アルゴリズムを実装することで、機械学習モデルでブラックボックスの問題を解き、各郡で測定された影響要因について「どの程度」疑問に答えることができる。 ほとんどの郡では、共和党の投票率が高く、アフリカ系アメリカ人人口の比率が高く、貧困率はワクチン接種率が低い。 アジアの人口密度が高いほどワクチン接種率は上昇する。 ヒスパニック系人口の割合によるワクチン接種率への影響はolsモデルでは正であるが、ランダム森林モデルではヒスパニック系人口が高い郡(>65%)でのみ正である。 高齢者の割合と郡の若者の比率は、それぞれ正と負のOLSモデルに大きな影響を及ぼす。 対照的に、ランダムフォレストモデルでは影響は曖昧である。 結果は地形によって異なり、aixアルゴリズムは各郡で個別にワクチンの影響を定量化することができるので、この研究は地域社会に合わせることができる。 アメリカ各郡の影響要因を特定するインタラクティブなオンラインマッピングダッシュボードは、https://www.cpp.edu/ ~clange/vacmap.htmlで入手できる。 影響要因の影響は、異なる地形間で普遍的に同じではないことが明らかである。

The paper quantifies the impact of race, poverty, politics, and age on COVID-19 vaccination rates in counties in the continental US. Both, OLS regression analysis and Random Forest machine learning algorithms are applied to quantify factors for county-level vaccination hesitancy. The machine learning model considers joint effects of variables (race/ethnicity, partisanship, age, etc.) simultaneously to capture the unique combination of these factors on the vaccination rate. By implementing a state-of-the-art Artificial Intelligence Explanations (AIX) algorithm, it is possible to solve the black box problem with machine learning models and provide answers to the "how much" question for each measured impact factor in every county. For most counties, a higher percentage vote for Republicans, a greater African American population share, and a higher poverty rate lower the vaccination rate. While a higher Asian population share increases the predicted vaccination rate. The impact on the vaccination rate from the Hispanic population proportion is positive in the OLS model, but only positive for counties with a high Hispanic population (>65%) in the Random Forest model. Both the proportion of seniors and the one for young people in a county have a significant impact in the OLS model - positive and negative, respectively. In contrast, the impacts are ambiguous in the Random Forest model. Because results vary between geographies and since the AIX algorithm is able to quantify vaccine impacts individually for each county, this research can be tailored to local communities. An interactive online mapping dashboard that identifies impact factors for individual U.S. counties is available at https://www.cpp.edu/ ~clange/vacmap.html. It is apparent that the influence of impact factors is not universally the same across different geographies.
公開日:2022-01-07
翻訳日:2022-01-16 16:03:54
# (参考訳) Quasi-Framelet: GraphNeural Networksのもうひとつの改善 [全文訳有]

Quasi-Framelets: Another Improvement to GraphNeural Networks ( http://arxiv.org/abs/2201.04728v1 )

ライセンス: CC BY 4.0
Mengxi Yang, Xuebin Zheng, Jie Yin and Junbin Gao(参考訳) 本稿では,スペクトルグラフニューラルネットワークのためのマルチスケールフレームレット畳み込みの新しい設計を提案する。 スペクトルパラダイムでは、スペクトル領域に様々なスペクトルフィルタを提案し、グローバルグラフ構造情報とローカルグラフ構造情報の両方をキャプチャすることで、グラフ学習タスクの性能を向上させる。 既存のスペクトルアプローチは、いくつかのグラフでは優れた性能を示すが、柔軟性の欠如と、グラフ情報が不完全あるいは摂動的である場合に脆弱である。 新しいフレームレット畳み込みは、スペクトル領域で直接設計されたフィルタリングファンクメントを組み込んで、これらの制限を克服します。 提案した畳み込みはスペクトル情報の遮断に優れた柔軟性を示し,ノイズグラフ信号の負の効果を効果的に緩和する。 また、実世界のグラフデータの不均一性を利用するため、新しいフレームレット畳み込みを用いたヘテロジニアスグラフニューラルネットワークは、マルチレベルグラフ解析によりメタパスの固有トポロジ情報を埋め込むソリューションを提供する。

This paper aims to provide a novel design of a multiscale framelets convolution for spectral graph neural networks. In the spectral paradigm, spectral GNNs improve graph learning task performance via proposing various spectral filters in spectral domain to capture both global and local graph structure information. Although the existing spectral approaches show superior performance in some graphs, they suffer from lack of flexibility and being fragile when graph information are incomplete or perturbated. Our new framelets convolution incorporates the filtering func-tions directly designed in the spectral domain to overcome these limitations. The proposed convolution shows a great flexibility in cutting-off spectral information and effectively mitigate the negative effect of noisy graph signals. Besides, to exploit the heterogeneity in real-world graph data, the heterogeneous graph neural network with our new framelet convolution provides a solution for embedding the intrinsic topological information of meta-path with a multi-level graph analysis.Extensive experiments have been conducted on real-world heterogeneous graphs and homogeneous graphs under settings with noisy node features and superior performance results are achieved.
公開日:2022-01-11
翻訳日:2022-01-15 05:30:00
# (参考訳) デュアルアテンションネットワークを用いた二型・ハイブリッド型市場知識グラフに基づく株価変動予測 [全文訳有]

Stock Movement Prediction Based on Bi-typed and Hybrid-relational Market Knowledge Graph via Dual Attention Networks ( http://arxiv.org/abs/2201.04965v1 )

ライセンス: CC BY 4.0
Yu Zhao, Huaming Du, Ying Liu, Shaopeng Wei, Xingyan Chen, Huali Feng, Qinghong Shuai, Qing Li, Fuzhen Zhuang, Gang Kou(参考訳) 株式移動予測(SMP)は、上場企業の株価動向を予測することを目的としており、これは金融市場の不安定な性質のために難しい課題である。 近年の金融研究では、モーメントの流出効果が株価変動に重要な役割を果たすことが示されている。 しかし、従来の研究は通常、関連企業間の単純な接続情報のみを学習するが、実際の金融市場における上場企業の複雑な関係をモデル化することは必然的に失敗する。 この問題に対処するため,我々はまず,上場企業とその関連役員を含む2種類のエンティティと,明示的関係と暗黙的関係を含むハイブリッド関係を含む,より包括的な市場ナレッジグラフ(mkg)を構築する。 その後、構築したMKGに基づいて運動量流出信号を学習し、株価予測を行う新しいデュアルアテンションネットワークであるDanSmpを提案する。 sotaベースライン9に対して構築したデータセットを実験した結果,提案手法が構築したmkgを用いて在庫予測を改善できることが確認された。

Stock Movement Prediction (SMP) aims at predicting listed companies' stock future price trend, which is a challenging task due to the volatile nature of financial markets. Recent financial studies show that the momentum spillover effect plays a significant role in stock fluctuation. However, previous studies typically only learn the simple connection information among related companies, which inevitably fail to model complex relations of listed companies in the real financial market. To address this issue, we first construct a more comprehensive Market Knowledge Graph (MKG) which contains bi-typed entities including listed companies and their associated executives, and hybrid-relations including the explicit relations and implicit relations. Afterward, we propose DanSmp, a novel Dual Attention Networks to learn the momentum spillover signals based upon the constructed MKG for stock prediction. The empirical experiments on our constructed datasets against nine SOTA baselines demonstrate that the proposed DanSmp is capable of improving stock prediction with the constructed MKG.
公開日:2022-01-11
翻訳日:2022-01-15 05:10:15
# (参考訳) インターネット提供型認知行動療法におけるアドヒアランス予測 : 最小データ感度アプローチ [全文訳有]

Adherence Forecasting for Guided Internet-Delivered Cognitive Behavioral Therapy: A Minimally Data-Sensitive Approach ( http://arxiv.org/abs/2201.04967v1 )

ライセンス: CC BY 4.0
Ulysse C\^ot\'e-Allard, Minh H. Pham, Alexandra K. Schultz, Tine Nordgreen, Jim Torresen(参考訳) インターネット提供型心理的治療(IDPT)は、メンタルヘルスのアクセシビリティを向上させるための効果的でスケーラブルな経路であると考えられている。 この文脈において、治療の順守は、伝統的な介入に比べて医療専門家と患者との相互作用が減っているため、特に問題となる。 並行して、特にデジタル分野において、人々の個人データを使用する際の規制が増加している。 このような規制では、データ最小化はしばしばGDPR(General Data Protection Regulation)のような中核的なテナントとなる。 そこで本研究では,最小限の敏感なログイン/ログアウトデータにのみ依存しながら,自動アドバンス予測を行うディープラーニング手法を提案する。 本研究は,インターネット提供型認知行動療法(G-ICBT)を施行した342例を対象に行った。 提案するセルフアテンションネットワークは平均平均バランス精度を70%以上達成し,治療期間の1/3しか経過しなかった。 そこで本研究では,G-ICBTの自動付着予測が,最小限の感度データのみを用いて実現可能であることを示す。

Internet-delivered psychological treatments (IDPT) are seen as an effective and scalable pathway to improving the accessibility of mental healthcare. Within this context, treatment adherence is an especially relevant challenge to address due to the reduced interaction between healthcare professionals and patients, compared to more traditional interventions. In parallel, there are increasing regulations when using peoples' personal data, especially in the digital sphere. In such regulations, data minimization is often a core tenant such as within the General Data Protection Regulation (GDPR). Consequently, this work proposes a deep-learning approach to perform automatic adherence forecasting, while only relying on minimally sensitive login/logout data. This approach was tested on a dataset containing 342 patients undergoing guided internet-delivered cognitive behavioral therapy (G-ICBT) treatment. The proposed Self-Attention Network achieved over 70% average balanced accuracy, when only 1/3 of the treatment duration had elapsed. As such, this study demonstrates that automatic adherence forecasting for G-ICBT, is achievable using only minimally sensitive data, thus facilitating the implementation of such tools within real-world IDPT platforms.
公開日:2022-01-11
翻訳日:2022-01-15 04:55:11
# (参考訳) スペクトルサーベイ:自律型UAVを用いたアクティブ無線マップ推定 [全文訳有]

Spectrum Surveying: Active Radio Map Estimation with Autonomous UAVs ( http://arxiv.org/abs/2201.04125v2 )

ライセンス: CC BY 4.0
Raju Shrestha, Daniel Romero, Sundeep Prabhakar Chepuri(参考訳) 無線地図は、リソース割り当て、干渉調整、ミッションプランニングなど、無線通信や移動ロボットのタスクに多くの応用を見出している。 空間分布測定から無線地図を構築する手法が多数提案されているが, 事前にその位置を推定する。 そこで,本稿では,無人航空機 (uav) などの移動ロボットが,短時間の測量で高品質な地図推定を行うために,活発に選択された複数の場所で計測を収集するスペクトラムサーベイを提案する。 これは2つのステップで行われる。 まず,モデルベースオンラインベイズ推定器とデータ駆動深層学習アルゴリズムの2つの新しいアルゴリズムを考案し,地図推定値の更新と,可能な各場所における測定値の有意性を示す不確実性指標を提案する。 これらのアルゴリズムは、相補的な利点と測定毎の特徴的複雑さを提供する。 第二に、不確実性測定基準は、UAVの軌道を計画し、最も情報性の高い場所で測定を収集するために用いられる。 この問題の組合せ複雑性を克服するために、線形時間における大きな不確実性のある領域を通して経路点のリストを得る動的プログラミング手法を提案する。 実データを用いた数値実験により,提案手法が正確な無線地図を高速に構築できることが確認された。

Radio maps find numerous applications in wireless communications and mobile robotics tasks, including resource allocation, interference coordination, and mission planning. Although numerous techniques have been proposed to construct radio maps from spatially distributed measurements, the locations of such measurements are assumed predetermined beforehand. In contrast, this paper proposes spectrum surveying, where a mobile robot such as an unmanned aerial vehicle (UAV) collects measurements at a set of locations that are actively selected to obtain high-quality map estimates in a short surveying time. This is performed in two steps. First, two novel algorithms, a model-based online Bayesian estimator and a data-driven deep learning algorithm, are devised for updating a map estimate and an uncertainty metric that indicates the informativeness of measurements at each possible location. These algorithms offer complementary benefits and feature constant complexity per measurement. Second, the uncertainty metric is used to plan the trajectory of the UAV to gather measurements at the most informative locations. To overcome the combinatorial complexity of this problem, a dynamic programming approach is proposed to obtain lists of waypoints through areas of large uncertainty in linear time. Numerical experiments conducted on a realistic dataset confirm that the proposed scheme constructs accurate radio maps quickly.
公開日:2022-01-13
翻訳日:2022-01-15 04:38:35
# (参考訳) 変分オートエンコーダにおけるニューラルodeを用いた生成時系列モデル [全文訳有]

Generative time series models using Neural ODE in Variational Autoencoders ( http://arxiv.org/abs/2201.04630v1 )

ライセンス: CC BY 4.0
M. L. Garsdal, V. S{\o}gaard, S. M. S{\o}rensen(参考訳) 本稿では,生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。 https://github.com/s imonmoesorensen/neur al-ode-project 結果が最初に再現され、ベースラインのLong-Short Term Memory AutoEncoderと比較して再構築された。 このモデルはLSTMエンコーダで拡張され、バネ振動の形で時系列からなるより複雑なデータに挑戦された。 このモデルはpromiseを示し、ベースラインモデルよりも小さいrmseで全ての複雑なデータに対する真の軌道を再構築することができた。 しかし、デコーダ内の既知のデータに対する時系列の動的な挙動をキャプチャすることはできたが、springデータのあらゆる複雑さに対して、真の軌道に従う外挿を生成できなかった。 最終的な実験では、68日間のソーラー発電データも提示され、ごくわずかなデータでもベースラインと同様に再構築することができた。 最後に,モデルのトレーニング時間をベースラインと比較した。 その結果、少量のデータでは、ノードメソッドはベースラインよりもトレーニングが著しく遅く、より多くのデータでは、ノードメソッドはトレーニング時に等しく、あるいは高速であることが判明した。 本論文は,本論文における作業に対する多くの自然な拡張を記述した将来的な作業セクションで終了し,ベースラインモデルの補間や,より具体的なモデル設定のテストなど,入力データの重要性についてさらに検討する例を示した。

In this paper, we implement Neural Ordinary Differential Equations in a Variational Autoencoder setting for generative time series modeling. An object-oriented approach to the code was taken to allow for easier development and research and all code used in the paper can be found here: https://github.com/s imonmoesorensen/neur al-ode-project The results were initially recreated and the reconstructions compared to a baseline Long-Short Term Memory AutoEncoder. The model was then extended with a LSTM encoder and challenged by more complex data consisting of time series in the form of spring oscillations. The model showed promise, and was able to reconstruct true trajectories for all complexities of data with a smaller RMSE than the baseline model. However, it was able to capture the dynamic behavior of the time series for known data in the decoder but was not able to produce extrapolations following the true trajectory very well for any of the complexities of spring data. A final experiment was carried out where the model was also presented with 68 days of solar power production data, and was able to reconstruct just as well as the baseline, even when very little data is available. Finally, the models training time was compared to the baseline. It was found that for small amounts of data the NODE method was significantly slower at training than the baseline, while for larger amounts of data the NODE method would be equal or faster at training. The paper is ended with a future work section which describes the many natural extensions to the work presented in this paper, with examples being investigating further the importance of input data, including extrapolation in the baseline model or testing more specific model setups.
公開日:2022-01-12
翻訳日:2022-01-15 04:08:43
# (参考訳) 磁気共鳴画像脳スキャンによるパーキンソン病の早期診断とその特徴 [全文訳有]

Early Diagnosis of Parkinsons Disease by Analyzing Magnetic Resonance Imaging Brain Scans and Patient Characteristics ( http://arxiv.org/abs/2201.04631v1 )

ライセンス: CC BY 4.0
Sabrina Zhu(参考訳) パーキンソン病(英: Parkinsons disease, PD)は、運動能力に影響を及ぼし、震えや剛性などの症状を含む慢性疾患である。 現在の診断法では、患者の評価を用いて症状を評価し、時にはMRIやMRIで診断する。 しかし、症状の変化は不正確な評価を引き起こし、MRIスキャンの分析には経験豊富な専門家が必要である。 本研究では,パーキンソン病進行マーカーイニシアチブデータベースの症状データとmriデータを組み合わせて,深層学習によるpd重症度を正確に診断することを提案する。 臨床データの両形態を完全に活用するために新しいハイブリッドモデルアーキテクチャが実装され、症状のみに基づくモデルとMRIスキャンのみに基づくモデルも開発された。 症状に基づくモデルは、完全に接続されたディープラーニングニューラルネットワークを統合し、MRIスキャンとハイブリッドモデルは、転送学習に基づく畳み込みニューラルネットワークを統合する。 2値分類のみを行う代わりに、全てのモデルが患者を5つの重篤なカテゴリーに分類し、ステージ0は健康な患者、ステージ4とステージ5はPDの患者を代表している。 症状のみ、MRIスキャンのみ、ハイブリッドモデルはそれぞれ0.77、0.68、0.94の精度を達成した。 ハイブリッドモデルは精度が高く、リコールスコアは 0.94 と 0.95 であった。 実際の臨床例では、患者は他のモデルと誤って分類されたが、ハイブリッドによって正しく分類された。 また、5つの重症度ステージをまたいで一貫性があり、正確な早期検出を示す。 これは、症状データとMRIスキャンと、このような大規模な機械学習アプローチを組み合わせた最初のレポートである。

Parkinsons disease, PD, is a chronic condition that affects motor skills and includes symptoms like tremors and rigidity. The current diagnostic procedure uses patient assessments to evaluate symptoms and sometimes a magnetic resonance imaging or MRI scan. However, symptom variations cause inaccurate assessments, and the analysis of MRI scans requires experienced specialists. This research proposes to accurately diagnose PD severity with deep learning by combining symptoms data and MRI data from the Parkinsons Progression Markers Initiative database. A new hybrid model architecture was implemented to fully utilize both forms of clinical data, and models based on only symptoms and only MRI scans were also developed. The symptoms based model integrates a fully connected deep learning neural network, and the MRI scans and hybrid models integrate transfer learning based convolutional neural networks. Instead of performing only binary classification, all models diagnose patients into five severity categories, with stage zero representing healthy patients and stages four and five representing patients with PD. The symptoms only, MRI scans only, and hybrid models achieved accuracies of 0.77, 0.68, and 0.94, respectively. The hybrid model also had high precision and recall scores of 0.94 and 0.95. Real clinical cases confirm the strong performance of the hybrid, where patients were classified incorrectly with both other models but correctly by the hybrid. It is also consistent across the five severity stages, indicating accurate early detection. This is the first report to combine symptoms data and MRI scans with a machine learning approach on such a large scale.
公開日:2022-01-12
翻訳日:2022-01-15 04:00:58
# (参考訳) AI安全における臨界の概念 [全文訳有]

The Concept of Criticality in AI Safety ( http://arxiv.org/abs/2201.04632v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。 価値アライメント問題を解決する一つの方法は、エージェントのすべてのアクションを監視する人間のオペレータを含むことである。 このソリューションが最大限の安全性を保証しているにもかかわらず、人間オペレーターがエージェントにすべての注意を捧げる必要があるため、非常に非効率である。 本稿では,オペレータが監視タスクを無視することなく,他の活動に携わることができる,より効率的なソリューションを提案する。 我々のアプローチでは、AIエージェントは、クリティカルアクション、すなわち潜在的に有害なアクションに対してのみ、オペレータから許可を要求する。 本稿では,AIの安全性に関する批判行動の概念を紹介し,行動臨界度を測定するモデルの構築方法について論じる。 また,操作者のフィードバックを使ってエージェントをより賢くする方法についても論じる。

When AI agents don't align their actions with human values they may cause serious harm. One way to solve the value alignment problem is by including a human operator who monitors all of the agent's actions. Despite the fact, that this solution guarantees maximal safety, it is very inefficient, since it requires the human operator to dedicate all of his attention to the agent. In this paper, we propose a much more efficient solution that allows an operator to be engaged in other activities without neglecting his monitoring task. In our approach the AI agent requests permission from the operator only for critical actions, that is, potentially harmful actions. We introduce the concept of critical actions with respect to AI safety and discuss how to build a model that measures action criticality. We also discuss how the operator's feedback could be used to make the agent smarter.
公開日:2022-01-12
翻訳日:2022-01-15 03:50:01
# (参考訳) AI支援教育における課題難解の啓発 [全文訳有]

Revelation of Task Difficulty in AI-aided Education ( http://arxiv.org/abs/2201.04633v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) 学生が与えられたタスクを実行するように依頼されると、そのタスクの難しさを主観的に見積もることが、彼女のパフォーマンスに強い影響を与える。 タスクの難しさがパフォーマンスとモチベーションに与える影響について、豊富な文献がある。 しかし、前回の研究では特に注目されなかった課題難易度の影響、すなわち学生に対する課題の真の難易度を明らかにすることの影響について、密接に関係している別の話題がある。 本報告では,作業課題の難しさが学生のパフォーマンス,モチベーション,自己効力感,主観的課題価値に与える影響を,作業者に対して検討した。 さらに,ai支援教育における実験結果の意義について考察する。 具体的には,課題の難易度を予測するaiシステムと,課題の難易度をいつ明かすべきかを判断するaiシステムである。

When a student is asked to perform a given task, her subjective estimate of the difficulty of that task has a strong influence on her performance. There exists a rich literature on the impact of perceived task difficulty on performance and motivation. Yet, there is another topic that is closely related to the subject of the influence of perceived task difficulty that did not receive any attention in previous research - the influence of revealing the true difficulty of a task to the student. This paper investigates the impact of revealing the task difficulty on the student's performance, motivation, self-efficacy and subjective task value via an experiment in which workers are asked to solve matchstick riddles. Furthermore, we discuss how the experiment results might be relevant for AI-aided education. Specifically, we elaborate on the question of how a student's learning experience might be improved by supporting her with two types of AI systems: an AI system that predicts task difficulty and an AI system that determines when task difficulty should be revealed and when not.
公開日:2022-01-12
翻訳日:2022-01-15 03:43:01
# (参考訳) 深層強化学習による季節的需要とリードタイムの不確実性を有するマルチケロンサプライチェーン

Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead Times Using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.04651v1 )

ライセンス: CC BY 4.0
Julio C\'esar Alves and Geraldo Robson Mateus(参考訳) 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。 問題を確率的かつ非線形にする不確実な要求とリードタイムについて検討する。 マルコフ決定過程の定式化と非線形計画モデルを提案する。 逐次的な意思決定問題として、深層強化学習(rl)は可能なソリューションアプローチである。 この種の技術は近年、人工知能と最適化コミュニティから多くの注目を集めている。 異なる分野におけるDeep RLアプローチによる良好な結果を考えると,運用研究分野の課題に応用することへの関心が高まっている。 我々は、不確実性、規則的、季節的要求、定常的、確率的リード時間を考慮するために、Deep RL技術、すなわちPPO2を用いている。 異なるシナリオで実験を行い、アルゴリズムの適合性をよりよく評価する。 線形化モデルに基づくエージェントをベースラインとして使用する。 実験の結果, PPO2はこの種の問題に対して, 競合的かつ適切なツールであることがわかった。 PPO2は、要求が季節的かどうかに関わらず、確率的リードタイム(7.3-11.2%)の全てのシナリオにおいてベースラインよりも優れている。 一定のリード時間を持つシナリオでは、不確実な要求がノンシーズン(2.2-4.7%)である場合、PPO2エージェントの方が優れている。 その結果、シナリオの不確実性が大きいほど、この種のアプローチの生存可能性が高くなることがわかった。

We address the problem of production planning and distribution in multi-echelon supply chains. We consider uncertain demands and lead times which makes the problem stochastic and non-linear. A Markov Decision Process formulation and a Non-linear Programming model are presented. As a sequential decision-making problem, Deep Reinforcement Learning (RL) is a possible solution approach. This type of technique has gained a lot of attention from Artificial Intelligence and Optimization communities in recent years. Considering the good results obtained with Deep RL approaches in different areas there is a growing interest in applying them in problems from the Operations Research field. We have used a Deep RL technique, namely Proximal Policy Optimization (PPO2), to solve the problem considering uncertain, regular and seasonal demands and constant or stochastic lead times. Experiments are carried out in different scenarios to better assess the suitability of the algorithm. An agent based on a linearized model is used as a baseline. Experimental results indicate that PPO2 is a competitive and adequate tool for this type of problem. PPO2 agent is better than baseline in all scenarios with stochastic lead times (7.3-11.2%), regardless of whether demands are seasonal or not. In scenarios with constant lead times, the PPO2 agent is better when uncertain demands are non-seasonal (2.2-4.7%). The results show that the greater the uncertainty of the scenario, the greater the viability of this type of approach.
公開日:2022-01-12
翻訳日:2022-01-15 03:30:59
# (参考訳) BigDatasetGAN: Pixel 対応アノテーションによる ImageNet の合成 [全文訳有]

BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations ( http://arxiv.org/abs/2201.04684v1 )

ライセンス: CC BY 4.0
Daiqing Li, Huan Ling, Seung Wook Kim, Karsten Kreis, Adela Barriuso, Sanja Fidler, Antonio Torralba(参考訳) 画像にピクセル単位のラベルを付けることは、時間とコストのかかるプロセスである。 最近、DatasetGANは、GAN(Generative Adversarial Network)を通じて、手動でラベル付けされたGAN生成イメージの小さなセットを活用することで、大きなラベル付きデータセットを合成する、有望な代替手段を披露した。 ここでは、DatasetGANをクラス多様性のImageNetスケールにスケールする。 我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。 BigGANの上に効果的な機能セグメンテーションアーキテクチャをトレーニングすることで、BigGANをラベル付きデータセットジェネレータにする。 さらに、VQGANは、すでにアノテーション付きデータを活用して、データセットジェネレータとして機能することを示す。 我々は8k実画像の追加セットをラベル付けし、セグメンテーション性能を様々な設定で評価することで、新しいimagenetベンチマークを作成する。 広範なアブレーション研究を通じて、ピクセル毎のタスクで異なる教師付きおよび自己教師付きバックボーンモデルをトレーニングするために、大規模なデータセットを活用することで大きな成果が得られた。 さらに, 合成データセットを事前トレーニングに使用すると, PASCAL-VOC, MS-COCO, Cityscapes, 胸部X線などの下流データセットの標準的なImageNet事前トレーニングやタスク(検出, セグメンテーション)の改善が期待できる。 私たちのベンチマークは公開され、この挑戦的なタスクのリーダーボードを維持します。 プロジェクトページ: https://nv-tlabs.git hub.io/big-datasetga n/

Annotating images with pixel-wise labels is a time-consuming and costly process. Recently, DatasetGAN showcased a promising alternative - to synthesize a large labeled dataset via a generative adversarial network (GAN) by exploiting a small set of manually labeled, GAN-generated images. Here, we scale DatasetGAN to ImageNet scale of class diversity. We take image samples from the class-conditional generative model BigGAN trained on ImageNet, and manually annotate 5 images per class, for all 1k classes. By training an effective feature segmentation architecture on top of BigGAN, we turn BigGAN into a labeled dataset generator. We further show that VQGAN can similarly serve as a dataset generator, leveraging the already annotated data. We create a new ImageNet benchmark by labeling an additional set of 8k real images and evaluate segmentation performance in a variety of settings. Through an extensive ablation study we show big gains in leveraging a large generated dataset to train different supervised and self-supervised backbone models on pixel-wise tasks. Furthermore, we demonstrate that using our synthesized datasets for pre-training leads to improvements over standard ImageNet pre-training on several downstream datasets, such as PASCAL-VOC, MS-COCO, Cityscapes and chest X-ray, as well as tasks (detection, segmentation). Our benchmark will be made public and maintain a leaderboard for this challenging task. Project Page: https://nv-tlabs.git hub.io/big-datasetga n/
公開日:2022-01-12
翻訳日:2022-01-15 03:29:49
# (参考訳) リカレント強化学習暗号エージェント [全文訳有]

The Recurrent Reinforcement Learning Crypto Agent ( http://arxiv.org/abs/2201.04699v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro, Nick Firoozye, Paolo Barucca(参考訳) デジタル資産取引エージェントとしてのオンライントランスファー学習の応用を実証する。 このエージェントは、エコー状態ネットワークの形式で強力な特徴空間表現を使用しており、その出力は、直接的かつ反復的な強化学習エージェントに利用可能である。 エージェントは、BitMEX上でXBTUSD(Bitcoin対US$)の永久スワップデリバティブ契約を交換することを学ぶ。 5分間のサンプルデータで日中取引することを学び、過剰なオーバートレーディングを避け、資金調達利益を捉え、市場の方向性を予測することもできる。 われわれの暗号エージェントは、総リターンが350%、取引コストが1株当たり約5年で、うち71%が利益の源泉だ、と認識している。 年間情報の比率は1.46である。

We demonstrate an application of online transfer learning as a digital assets trading agent. This agent makes use of a powerful feature space representation in the form of an echo state network, the output of which is made available to a direct, recurrent reinforcement learning agent. The agent learns to trade the XBTUSD (Bitcoin versus US dollars) perpetual swap derivatives contract on BitMEX. It learns to trade intraday on five minutely sampled data, avoids excessive over-trading, captures a funding profit and is also able to predict the direction of the market. Overall, our crypto agent realises a total return of 350%, net of transaction costs, over roughly five years, 71% of which is down to funding profit. The annualised information ratio that it achieves is 1.46.
公開日:2022-01-12
翻訳日:2022-01-15 02:50:05
# (参考訳) 天文音源検出・偏向のための部分属性インスタンス分割 [全文訳有]

Partial-Attribution Instance Segmentation for Astronomical Source Detection and Deblending ( http://arxiv.org/abs/2201.04714v1 )

ライセンス: CC BY 4.0
Ryan Hausen, Brant Robertson(参考訳) 天文学的源分解(英: astronomical source deblending)とは、個々の恒星や銀河(源)が複数の、おそらく重複する源からなる画像への寄与を分離する過程である。 天文学の情報源は幅広い大きさと明るさを示し、画像にかなりの重複が見られる可能性がある。 天体画像データは、高ダイナミックレンジ、低信号対雑音比、非伝統的な画像フォーマットのため、既成のコンピュータビジョンアルゴリズムにさらに挑戦することができる。 これらの課題により、ソースデブレイディングは天文学研究のオープン領域となり、本研究では、ソース検出とデブレイディングを可能にする部分帰属インスタンスセグメンテーションと呼ばれる新しいアプローチを導入する。 本手法の実証として,新しいニューラルネットワークの実装を提案する。

Astronomical source deblending is the process of separating the contribution of individual stars or galaxies (sources) to an image comprised of multiple, possibly overlapping sources. Astronomical sources display a wide range of sizes and brightnesses and may show substantial overlap in images. Astronomical imaging data can further challenge off-the-shelf computer vision algorithms owing to its high dynamic range, low signal-to-noise ratio, and unconventional image format. These challenges make source deblending an open area of astronomical research, and in this work, we introduce a new approach called Partial-Attribution Instance Segmentation that enables source detection and deblending in a manner tractable for deep learning models. We provide a novel neural network implementation as a demonstration of the method.
公開日:2022-01-12
翻訳日:2022-01-15 02:36:38
# (参考訳) Local2Global: グラフ上で表現学習をスケールするための分散アプローチ [全文訳有]

Local2Global: A distributed approach for scaling representation learning on graphs ( http://arxiv.org/abs/2201.04729v1 )

ライセンス: CC BY 4.0
Lucas G. S. Jeub, Giovanni Colavizza, Xiaowen Dong, Marya Bazzi, Mihai Cucuringu(参考訳) 本稿では,グラフ表現学習における分散型「ローカル2言語」アプローチを提案する。 local2globalアプローチでは、まず入力グラフを重複するサブグラフ(あるいは"パッチ")に分割し、各パッチのローカル表現を独立してトレーニングします。 第2のステップでは、局所表現を大域的に一貫した表現に組み合わせ、グループ同期を通じてパッチからの情報を用いて局所表現を最良に整列する剛体運動の集合を推定する。 既存の作業に対するローカル2グロバルの重要な特徴は、パッチが分散トレーニング中にしばしばコストのかかるパラメータ同期を必要とせずに独立してトレーニングされることである。 これによりローカル2グロバルは、入力グラフがメモリに収まらず、分散的に保存されるような大規模産業アプリケーションにスケールすることができる。 異なる大きさのデータセットにlocal2globalを適用し,エッジリコンストラクションと半教師付き分類において,スケールと精度のトレードオフが良好であることを示す。 また、異常検出の下流タスクについても検討し、ローカル2globalを使ってサイバーセキュリティネットワークの異常を強調できることを示す。

We propose a decentralised "local2global"' approach to graph representation learning, that one can a-priori use to scale any embedding technique. Our local2global approach proceeds by first dividing the input graph into overlapping subgraphs (or "patches") and training local representations for each patch independently. In a second step, we combine the local representations into a globally consistent representation by estimating the set of rigid motions that best align the local representations using information from the patch overlaps, via group synchronization. A key distinguishing feature of local2global relative to existing work is that patches are trained independently without the need for the often costly parameter synchronization during distributed training. This allows local2global to scale to large-scale industrial applications, where the input graph may not even fit into memory and may be stored in a distributed manner. We apply local2global on data sets of different sizes and show that our approach achieves a good trade-off between scale and accuracy on edge reconstruction and semi-supervised classification. We also consider the downstream task of anomaly detection and show how one can use local2global to highlight anomalies in cybersecurity networks.
公開日:2022-01-12
翻訳日:2022-01-15 02:29:44
# (参考訳) 無限ニューラルネットワークの不確実性定量化法の概要 [全文訳有]

An Overview of Uncertainty Quantification Methods for Infinite Neural Networks ( http://arxiv.org/abs/2201.04746v1 )

ライセンス: CC BY-SA 4.0
Florian Juengermann, Maxime Laasri, Marius Merkle(参考訳) 大規模ニューラルネットワークの理論的挙動をよりよく理解するために、ネットワークの幅が無限大になる傾向にあるケースを分析する研究がいくつかある。 この方法では、ランダム初期化の効果とニューラルネットワークのトレーニングプロセスは、ガウス過程や神経接核のような分析ツールで正式に表現することができる。 本稿では,このような無限幅ニューラルネットワークにおける不確かさの定量化手法を概説し,ベイズ推定フレームワークにおけるガウス過程との比較を行う。 我々は、予測の不確実性に対する正確な閉形式解を得るために、いくつかの等価結果を利用する。

To better understand the theoretical behavior of large neural networks, several works have analyzed the case where a network's width tends to infinity. In this regime, the effect of random initialization and the process of training a neural network can be formally expressed with analytical tools like Gaussian processes and neural tangent kernels. In this paper, we review methods for quantifying uncertainty in such infinite-width neural networks and compare their relationship to Gaussian processes in the Bayesian inference framework. We make use of several equivalence results along the way to obtain exact closed-form solutions for predictive uncertainty.
公開日:2022-01-13
翻訳日:2022-01-15 02:07:20
# (参考訳) 単層ニューラルネットワークの共役カーネルの最大固有値 [全文訳有]

Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural Networks ( http://arxiv.org/abs/2201.04753v1 )

ライセンス: CC BY 4.0
Lucas Benigni, Sandrine P\'ech\'e(参考訳) 本稿では,ニューラルネットワークの研究から得られた非線形ランダム行列アンサンブルに対する最大固有値の漸近分布について検討する。 より正確には、$M= \frac{1}{m} YY^\top$ with $Y=f(WX)$ ここで$W$と$X$は、i.d.中心のエントリを持つランダムな矩形行列である。 これは、単一の層状ランダムフィードフォワードニューラルネットワークのデータ共分散行列または共役核をモデル化する。 関数 $f$ はエントリ単位で適用され、ニューラルネットワークの活性化関数と見なすことができる。 最大固有値は、よく知られた線形確率行列のアンサンブルと同じ極限(確率)を持つことを示す。 特に、非線形モデルにおける最大固有値の漸近限界と情報プラスノイズ確率行列の漸近限界を関連付け、関数 $f$ と$w$ と $x$ の分布に依存する位相遷移を可能にする。 これは機械学習の応用に注目されるかもしれない。

This paper is concerned with the asymptotic distribution of the largest eigenvalues for some nonlinear random matrix ensemble stemming from the study of neural networks. More precisely we consider $M= \frac{1}{m} YY^\top$ with $Y=f(WX)$ where $W$ and $X$ are random rectangular matrices with i.i.d. centered entries. This models the data covariance matrix or the Conjugate Kernel of a single layered random Feed-Forward Neural Network. The function $f$ is applied entrywise and can be seen as the activation function of the neural network. We show that the largest eigenvalue has the same limit (in probability) as that of some well-known linear random matrix ensembles. In particular, we relate the asymptotic limit of the largest eigenvalue for the nonlinear model to that of an information-plus-noi se random matrix, establishing a possible phase transition depending on the function $f$ and the distribution of $W$ and $X$. This may be of interest for applications to machine learning.
公開日:2022-01-13
翻訳日:2022-01-15 02:00:54
# (参考訳) 動的モード分解とRes-UNet+ニューラルネットワークを用いた時空間地図車両軌道検出 [全文訳有]

Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNet+ Neural Networks ( http://arxiv.org/abs/2201.04755v1 )

ライセンス: CC BY 4.0
Tianya T. Zhang and Peter J. Jin(参考訳) 本稿では,高角交通カメラから車両軌跡を抽出する,機械学習による縦走査法を提案する。 空間時間マップ(STMap)をスパースフォアグラウンドおよびローランク背景に分解して車両ストランドを抽出するために動的モード分解(DMD)法を適用した。 Res-UNet+という名前のディープニューラルネットワークは、2つの一般的なディープラーニングアーキテクチャを適用することでセマンティックセグメンテーションタスクのために設計された。 Res-UNet+ニューラルネットワークは、STMapに基づく車両検出の性能を大幅に向上させ、DMDモデルは、STMapが保存する地下空間時間構造の進化を理解するための興味深い洞察を提供する。 モデルの出力は、従来の画像処理モデルとメインストリームのセマンティックセグメンテーション深層ニューラルネットワークと比較された。 徹底的な評価の後、モデルは多くの困難因子に対して正確で堅牢であることが証明された。 最後に、この論文はngsim軌道データに見られる多くの品質問題を取り上げている。 交通流と微視的車両制御に関する将来の理論的およびモデリング研究を支援するために, クリーニングされた高品質な軌道データを公開した。 本手法はビデオベーストラジェクトリ抽出のための信頼性の高い解であり,広い適用性を有する。

This paper presents a machine-learning-enh anced longitudinal scanline method to extract vehicle trajectories from high-angle traffic cameras. The Dynamic Mode Decomposition (DMD) method is applied to extract vehicle strands by decomposing the Spatial-Temporal Map (STMap) into the sparse foreground and low-rank background. A deep neural network named Res-UNet+ was designed for the semantic segmentation task by adapting two prevalent deep learning architectures. The Res-UNet+ neural networks significantly improve the performance of the STMap-based vehicle detection, and the DMD model provides many interesting insights for understanding the evolution of underlying spatial-temporal structures preserved by STMap. The model outputs were compared with the previous image processing model and mainstream semantic segmentation deep neural networks. After a thorough evaluation, the model is proved to be accurate and robust against many challenging factors. Last but not least, this paper fundamentally addressed many quality issues found in NGSIM trajectory data. The cleaned high-quality trajectory data are published to support future theoretical and modeling research on traffic flow and microscopic vehicle control. This method is a reliable solution for video-based trajectory extraction and has wide applicability.
公開日:2022-01-13
翻訳日:2022-01-15 01:29:26
# (参考訳) 距離・強度背景サブトラクションを用いた路面ライダー車両の検出と追跡 [全文訳有]

Roadside Lidar Vehicle Detection and Tracking Using Range And Intensity Background Subtraction ( http://arxiv.org/abs/2201.04756v1 )

ライセンス: CC BY 4.0
Tianya Zhang and Peter J. Jin(参考訳) 本稿では,2つの教師なし学習アルゴリズムを組み合わせた道路側LiDAR物体検出手法を提案する。 3次元点雲データはまず球面座標に変換し、ハッシュ関数を用いて方位格子行列に充填する。 その後、生のLiDARデータを時空間データ構造に再構成し、範囲、方位、強度の情報を記憶した。 動的モード分解法を用いて, 点雲データを低ランク背景とスパースフォアグラウンドに分解し, 強度チャネルパターン認識に基づく解析を行った。 トライアングルアルゴリズムは、移動対象を静止背景から範囲情報に従って分離する分割値を自動的に見つける。 前景の移動物体は、密度に基づく検出器を用いて検出され、追跡のための状態空間モデルに符号化される。 提案モデルの出力には、多くの移動および安全応用を可能にする車両軌道が含まれる。 この手法は商用トラフィックデータ収集プラットフォームに対して検証され、LiDARオブジェクト検出のための効率的で信頼性の高いソリューションであることが実証された。 飛散点雲と離散点雲を直接処理する従来の手法とは対照的に,提案手法は,我々がしばしば望む空間-時空間構造を捉えた3次元計測データのより洗練された線形関係を確立することができる。

In this paper, we present the solution of roadside LiDAR object detection using a combination of two unsupervised learning algorithms. The 3D point clouds data are firstly converted into spherical coordinates and filled into the azimuth grid matrix using a hash function. After that, the raw LiDAR data were rearranged into spatial-temporal data structures to store the information of range, azimuth, and intensity. Dynamic Mode Decomposition method is applied for decomposing the point cloud data into low-rank backgrounds and sparse foregrounds based on intensity channel pattern recognition. The Triangle Algorithm automatically finds the dividing value to separate the moving targets from static background according to range information. After intensity and range background subtraction, the foreground moving objects will be detected using a density-based detector and encoded into the state-space model for tracking. The output of the proposed model includes vehicle trajectories that can enable many mobility and safety applications. The method was validated against a commercial traffic data collection platform and demonstrated to be an efficient and reliable solution for infrastructure LiDAR object detection. In contrast to the previous methods that process directly on the scattered and discrete point clouds, the proposed method can establish the less sophisticated linear relationship of the 3D measurement data, which captures the spatial-temporal structure that we often desire.
公開日:2022-01-13
翻訳日:2022-01-15 01:14:42
# (参考訳) Collision Detection: SENetとResNextを用いたディープラーニングアプローチの改善 [全文訳有]

Collision Detection: An Improved Deep Learning Approach Using SENet and ResNext ( http://arxiv.org/abs/2201.04766v1 )

ライセンス: CC BY 4.0
Aloukik Aditya, Liudu Zhou, Hrishika Vachhani, Dhivya Chandrasekaran and Vijay Mago(参考訳) 近年、道路の人口増加と交通量の増加により、自動車衝突は世界有数の死亡原因の一つとなっている。 自動車産業は、衝突検出と衝突防止システムを構築するために、コンピュータビジョンの分野におけるセンサーと進歩を使用する技術の開発を動機としている。 本稿では,senetブロックを用いたresnextアーキテクチャを用いたディープラーニングモデルを提案する。 このモデルの性能は、VGG16、VGG19、Resnet50、スタンドアローンのResNextといった一般的なディープラーニングモデルと比較される。 提案モデルでは,学習用GTACrash合成データの有意に少ない比率でROC-AUCが0.91となる既存のベースラインモデルよりも優れており,計算オーバーヘッドを低減している。

In recent days, with increased population and traffic on roadways, vehicle collision is one of the leading causes of death worldwide. The automotive industry is motivated on developing techniques to use sensors and advancements in the field of computer vision to build collision detection and collision prevention systems to assist drivers. In this article, a deep-learning-based model comprising of ResNext architecture with SENet blocks is proposed. The performance of the model is compared to popular deep learning models like VGG16, VGG19, Resnet50, and stand-alone ResNext. The proposed model outperforms the existing baseline models achieving a ROC-AUC of 0.91 using a significantly less proportion of the GTACrash synthetic data for training, thus reducing the computational overhead.
公開日:2022-01-13
翻訳日:2022-01-15 00:53:37
# (参考訳) 協調フィルタリングデータセットのサンプリングについて [全文訳有]

On Sampling Collaborative Filtering Datasets ( http://arxiv.org/abs/2201.04768v1 )

ライセンス: CC BY 4.0
Noveen Sachdeva, Carole-Jean Wu, Julian McAuley(参考訳) 提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。 レコメンダシステムは一般的にトレーニングされ、より大きなデータセットのサンプルで評価される。 例えば、データセットをランダムにサンプリングしたり、多くのインタラクションを持つユーザやアイテムを選択するなどである。 示すように、一般的なデータサンプリング方式は、アルゴリズムの性能に大きな影響を及ぼす可能性がある。 Following this observation, this paper makes three main contributions: (1) characterizing the effect of sampling on algorithm performance, in terms of algorithm and dataset characteristics (e.g. sparsity characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a data-specific sampling strategy, that aims to preserve the relative performance of models after sampling, and is especially suited to long-tailed interaction data; and (3) developing an oracle, Data-Genie, which can suggest the sampling scheme that is most likely to preserve model performance for a given dataset. Data-Genieの主な利点は、レコメンデータシステム実践者が様々なアプローチのプロトタイプと比較を迅速に行うことができる一方で、アルゴリズムのパフォーマンスが維持されると確信している点である。 詳細な実験によると、Data-Genieを使えば、同じレベルのパフォーマンスを持つサンプリング戦略よりも最大5倍のデータを捨てることができます。

We study the practical consequences of dataset sampling strategies on the ranking performance of recommendation algorithms. Recommender systems are generally trained and evaluated on samples of larger datasets. Samples are often taken in a naive or ad-hoc fashion: e.g. by sampling a dataset randomly or by selecting users or items with many interactions. As we demonstrate, commonly-used data sampling schemes can have significant consequences on algorithm performance. Following this observation, this paper makes three main contributions: (1) characterizing the effect of sampling on algorithm performance, in terms of algorithm and dataset characteristics (e.g. sparsity characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a data-specific sampling strategy, that aims to preserve the relative performance of models after sampling, and is especially suited to long-tailed interaction data; and (3) developing an oracle, Data-Genie, which can suggest the sampling scheme that is most likely to preserve model performance for a given dataset. The main benefit of Data-Genie is that it will allow recommender system practitioners to quickly prototype and compare various approaches, while remaining confident that algorithm performance will be preserved, once the algorithm is retrained and deployed on the complete data. Detailed experiments show that using Data-Genie, we can discard upto 5x more data than any sampling strategy with the same level of performance.
公開日:2022-01-13
翻訳日:2022-01-15 00:40:32
# (参考訳) 多変量時系列異常検出のための予測型マルチアスペクトフレームワーク [全文訳有]

Forecast-based Multi-aspect Framework for Multivariate Time-series Anomaly Detection ( http://arxiv.org/abs/2201.04792v1 )

ライセンス: CC BY 4.0
Lan Wang, Yusan Lin, Yuhang Wu, Huiyuan Chen, Fei Wang, Hao Yang(参考訳) 今日のサイバーワールドは多変量だ。 極端な種類で収集されたメトリクスは、異常を適切に検出するために多変量アルゴリズムを要求する。 しかし、予測に基づくアルゴリズムは、広く証明されたアプローチとして、しばしばデータセット間で準最適または矛盾なく実行される。 大きな問題は、それらはすべて1サイズにフィットするが、異常は自然に特有のものである。 このような区別に合わせた手法を提案する。 FMUAD - 予測に基づくマルチアスペクト、教師なし異常検出フレームワーク。 fmuadは、異常型空間変化、時間変化、相関変化のシグネチャ特性を、独立モジュールと明示的に分離してキャプチャする。 モジュールは、カテゴリの他のほとんどのモデルとは異なり、柔軟で直感的な最適な特徴表現を共同で学習する。 大規模な実験により、我々のFMUADフレームワークは、他の最先端の予測ベースの異常検知器よりも一貫して優れています。

Today's cyber-world is vastly multivariate. Metrics collected at extreme varieties demand multivariate algorithms to properly detect anomalies. However, forecast-based algorithms, as widely proven approaches, often perform sub-optimally or inconsistently across datasets. A key common issue is they strive to be one-size-fits-all but anomalies are distinctive in nature. We propose a method that tailors to such distinction. Presenting FMUAD - a Forecast-based, Multi-aspect, Unsupervised Anomaly Detection framework. FMUAD explicitly and separately captures the signature traits of anomaly types - spatial change, temporal change and correlation change - with independent modules. The modules then jointly learn an optimal feature representation, which is highly flexible and intuitive, unlike most other models in the category. Extensive experiments show our FMUAD framework consistently outperforms other state-of-the-art forecast-based anomaly detectors.
公開日:2022-01-13
翻訳日:2022-01-15 00:19:30
# (参考訳) EMT-NET: 乳がんのコンピュータ診断に有効なマルチタスクネットワーク [全文訳有]

EMT-NET: Efficient multitask network for computer-aided diagnosis of breast cancer ( http://arxiv.org/abs/2201.04795v1 )

ライセンス: CC BY 4.0
Jiaqiao Shi, Aleksandar Vakanski, Min Xian, Jianrui Ding, Chunping Ning(参考訳) 深層学習に基づくコンピュータ支援診断は、乳がん検出において前例のない性能を達成した。 しかし、ほとんどのアプローチは計算集約的であり、現実世界のアプリケーションで広く普及することを妨げている。 本研究では,乳腺腫瘍を同時に分類・分別するための,効率的かつ軽量なマルチタスク学習アーキテクチャを提案する。 腫瘍分類ネットワークにセグメンテーションタスクを組み込むことにより,バックボーンネットワークが腫瘍領域に焦点をあてた表現を学習する。 さらに,癌検出の感度と特異性とのバランスを容易に制御できる新しい数値安定損失関数を提案する。 提案手法は1,511画像の乳房超音波データセットを用いて評価する。 腫瘍分類の精度、感度、特異性はそれぞれ88.6%、94.1%、85.3%である。 仮想モバイルデバイスを用いてモデルを検証し,画像あたりの平均推定時間は0.35秒である。

Deep learning-based computer-aided diagnosis has achieved unprecedented performance in breast cancer detection. However, most approaches are computationally intensive, which impedes their broader dissemination in real-world applications. In this work, we propose an efficient and light-weighted multitask learning architecture to classify and segment breast tumors simultaneously. We incorporate a segmentation task into a tumor classification network, which makes the backbone network learn representations focused on tumor regions. Moreover, we propose a new numerically stable loss function that easily controls the balance between the sensitivity and specificity of cancer detection. The proposed approach is evaluated using a breast ultrasound dataset with 1,511 images. The accuracy, sensitivity, and specificity of tumor classification is 88.6%, 94.1%, and 85.3%, respectively. We validate the model using a virtual mobile device, and the average inference time is 0.35 seconds per image.
公開日:2022-01-13
翻訳日:2022-01-15 00:02:52
# (参考訳) 連続線形帯域における非定常表現学習 [全文訳有]

Non-Stationary Representation Learning in Sequential Linear Bandits ( http://arxiv.org/abs/2201.04805v1 )

ライセンス: CC BY 4.0
Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio Pasqualetti(参考訳) 本稿では,非定常環境におけるマルチタスク意思決定のための表現学習について検討する。 エージェントは異なる環境に関連付けられた異なる集合から引き出された一連のタスクを実行する。 各集合へのタスクの埋め込みは表現と呼ばれる低次元の特徴抽出器を共有し、表現は集合間で異なる。 本稿では,非定常表現を適応的に学習・伝達することにより,効率的な意思決定を容易にするオンラインアルゴリズムを提案する。 我々のアルゴリズムがタスクを独立に扱う既存のアルゴリズムを大幅に上回っていることを証明します。 また, 合成データと実データの両方を用いて実験を行い, 理論的知見を検証し, アルゴリズムの有効性を実証した。

In this paper, we study representation learning for multi-task decision-making in non-stationary environments. We consider the framework of sequential linear bandits, where the agent performs a series of tasks drawn from distinct sets associated with different environments. The embeddings of tasks in each set share a low-dimensional feature extractor called representation, and representations are different across sets. We propose an online algorithm that facilitates efficient decision-making by learning and transferring non-stationary representations in an adaptive fashion. We prove that our algorithm significantly outperforms the existing ones that treat tasks independently. We also conduct experiments using both synthetic and real data to validate our theoretical insights and demonstrate the efficacy of our algorithm.
公開日:2022-01-13
翻訳日:2022-01-14 23:52:40
# (参考訳) 逆数生成ネットワークのための平衡事前学習付き条件変分オートエンコーダ [全文訳有]

Conditional Variational Autoencoder with Balanced Pre-training for Generative Adversarial Networks ( http://arxiv.org/abs/2201.04809v1 )

ライセンス: CC BY 4.0
Yuchong Yao, Xiaohui Wangr, Yuanbang Ma, Han Fang, Jiaying Wei, Liyuan Chen, Ali Anaissi and Ali Braytee(参考訳) クラス不均衡は、各クラスの画像数が大きく異なる画像分類を含む多くの実世界のアプリケーションで発生する。 不均衡なデータでは、生成的敵ネットワーク(gans)が多数派クラスサンプルに傾いている。 近年の2つの手法であるBalancing GAN(BAGAN)と改良BAGAN(BAGAN-GP)が,この問題に対処し,データのバランスを回復するための拡張ツールとして提案されている。 前者は教師なしの方法でオートエンコーダ重みを事前訓練する。 しかし、異なるカテゴリの画像に類似した特徴がある場合、不安定である。 後者は、教師付きオートエンコーダのトレーニングを容易にすることで、BAGANに基づいて改善されている。 本研究では, 現実的な合成画像を生成するための拡張ツールとして, CAPGAN (Conditional Variational Autoencoder) を提案する。 特に,条件付き畳み込み変分オートエンコーダを用いて,GAN初期化と勾配ペナルティによるトレーニングを行う。 提案手法は,MNIST,Fashion-MNIST ,CIFAR-10,および2つの医用画像データセットの高度に不均衡なバージョンに対して,他の最先端手法よりも優れた性能を示す。 提案手法は,Fr'echet開始距離,構造類似度指標,知覚品質の観点から,高品質なマイノリティサンプルを合成することができる。

Class imbalance occurs in many real-world applications, including image classification, where the number of images in each class differs significantly. With imbalanced data, the generative adversarial networks (GANs) leans to majority class samples. The two recent methods, Balancing GAN (BAGAN) and improved BAGAN (BAGAN-GP), are proposed as an augmentation tool to handle this problem and restore the balance to the data. The former pre-trains the autoencoder weights in an unsupervised manner. However, it is unstable when the images from different categories have similar features. The latter is improved based on BAGAN by facilitating supervised autoencoder training, but the pre-training is biased towards the majority classes. In this work, we propose a novel Conditional Variational Autoencoder with Balanced Pre-training for Generative Adversarial Networks (CAPGAN) as an augmentation tool to generate realistic synthetic images. In particular, we utilize a conditional convolutional variational autoencoder with supervised and balanced pre-training for the GAN initialization and training with gradient penalty. Our proposed method presents a superior performance of other state-of-the-art methods on the highly imbalanced version of MNIST, Fashion-MNIST, CIFAR-10, and two medical imaging datasets. Our method can synthesize high-quality minority samples in terms of Fr\'echet inception distance, structural similarity index measure and perceptual quality.
公開日:2022-01-13
翻訳日:2022-01-14 23:21:35
# (参考訳) 強化学習タスクにおける遺伝的アルゴリズムの直接的変異とクロスオーバー [全文訳有]

Direct Mutation and Crossover in Genetic Algorithms Applied to Reinforcement Learning Tasks ( http://arxiv.org/abs/2201.04815v1 )

ライセンス: CC BY 4.0
Tarek Faycal and Claudio Zito(参考訳) 神経進化は近年、強化学習(RL)設定において非常に競争力があることが示されており、勾配に基づくアプローチの欠点を緩和することができる。 本稿では、遺伝的アルゴリズム(GA)を用いて神経進化を適用し、最適な行動エージェントを生成するニューラルネットワークの重みを見つけることに焦点を当てる。 また,初期実装と比較してデータ効率と収束速度が向上する2つの改良点を提案する。 OpenAI体育館が提供するFrozenLake環境において, 改良が評価され, ベースラインアプローチよりもかなり良いことが証明された。

Neuroevolution has recently been shown to be quite competitive in reinforcement learning (RL) settings, and is able to alleviate some of the drawbacks of gradient-based approaches. This paper will focus on applying neuroevolution using a simple genetic algorithm (GA) to find the weights of a neural network that produce optimally behaving agents. In addition, we present two novel modifications that improve the data efficiency and speed of convergence when compared to the initial implementation. The modifications are evaluated on the FrozenLake environment provided by OpenAI gym and prove to be significantly better than the baseline approach.
公開日:2022-01-13
翻訳日:2022-01-14 23:09:47
# (参考訳) $k$-meansに対する幾何学的アプローチ [全文訳有]

A Geometric Approach to $k$-means ( http://arxiv.org/abs/2201.04822v1 )

ライセンス: CC BY 4.0
Jiazhen Hong, Wei Qian, Yudong Chen, Yuqian Zhang(参考訳) k$-meansクラスタリングは、さまざまな分野において根本的な問題である。 この問題は非凸であり、標準アルゴリズムは局所最適を見つけることが保証されている。 [1]に特徴付けられる局所解の構造を活用し,好ましくない局所解をエスケープし,大域的解(あるいは基底的真理)を回復するための一般的なアルゴリズムフレームワークを提案する。 この枠組みは次の2つのステップを反復的に交互に構成する。 (i)局所溶液中の誤特定クラスタを検出して (ii)非局所操作による現在のローカルソリューションの改善。 本稿では,これらのステップの実装について論じ,幾何学的観点からの文献における$k$-meansアルゴリズムの変種をいかに統一するかを明らかにする。 さらに、提案フレームワークの2つの自然な拡張を導入し、初期クラスタ数を誤特定する。 我々は、我々のアプローチを理論的に正当化し、広範な実験と組み合わせる。

$k$-means clustering is a fundamental problem in various disciplines. This problem is nonconvex, and standard algorithms are only guaranteed to find a local optimum. Leveraging the structure of local solutions characterized in [1], we propose a general algorithmic framework for escaping undesirable local solutions and recovering the global solution (or the ground truth). This framework consists of alternating between the following two steps iteratively: (i) detect mis-specified clusters in a local solution and (ii) improve the current local solution by non-local operations. We discuss implementation of these steps, and elucidate how the proposed framework unifies variants of $k$-means algorithm in literature from a geometric perspective. In addition, we introduce two natural extensions of the proposed framework, where the initial number of clusters is misspecified. We provide theoretical justification for our approach, which is corroborated with extensive experiments.
公開日:2022-01-13
翻訳日:2022-01-14 23:01:28
# (参考訳) インフォームド・アドバイザによるトレーニングデータの再構築 [全文訳有]

Reconstructing Training Data with Informed Adversaries ( http://arxiv.org/abs/2201.04845v1 )

ライセンス: CC BY 4.0
Borja Balle, Giovanni Cherubin, Jamie Hayes(参考訳) 機械学習モデルへのアクセスが与えられると、敵はモデルのトレーニングデータを再構築できるか? この研究は、すべてのトレーニングデータポイントを知っている強力な知識のある敵のレンズからこの問題を研究する。 具体的な攻撃をインスタンス化することにより、この厳密な脅威モデルにおける残りのデータポイントを再構築できることを示す。 凸モデル(例えばロジスティック回帰)では、再構成攻撃は単純であり、閉形式で導出することができる。 より一般的なモデル(例えばニューラルネットワーク)に対しては、攻撃対象のモデルの重みを入力として受け取り、ターゲットのデータポイントを出力する再構成器ネットワークのトレーニングに基づく攻撃戦略を提案する。 我々は,MNIST と CIFAR-10 で訓練された画像分類器に対する攻撃の有効性を実証し,標準的な機械学習パイプラインのどの要素が再構築の成功に影響を与えるかを体系的に検討した。 最後に,情報提供者によるリコンストラクション攻撃を緩和するためのプライバシーの差異について理論的に検討する。 Our work provides an effective reconstruction attack that model developers can use to assess memorization of individual points in general settings beyond those considered in previous works (e.g. generative language models or access to training gradients); it shows that standard models have the capacity to store enough information to enable high-fidelity reconstruction of training data points; and it demonstrates that differential privacy can successfully mitigate such attacks in a parameter regime where utility degradation is minimal.

Given access to a machine learning model, can an adversary reconstruct the model's training data? This work studies this question from the lens of a powerful informed adversary who knows all the training data points except one. By instantiating concrete attacks, we show it is feasible to reconstruct the remaining data point in this stringent threat model. For convex models (e.g. logistic regression), reconstruction attacks are simple and can be derived in closed-form. For more general models (e.g. neural networks), we propose an attack strategy based on training a reconstructor network that receives as input the weights of the model under attack and produces as output the target data point. We demonstrate the effectiveness of our attack on image classifiers trained on MNIST and CIFAR-10, and systematically investigate which factors of standard machine learning pipelines affect reconstruction success. Finally, we theoretically investigate what amount of differential privacy suffices to mitigate reconstruction attacks by informed adversaries. Our work provides an effective reconstruction attack that model developers can use to assess memorization of individual points in general settings beyond those considered in previous works (e.g. generative language models or access to training gradients); it shows that standard models have the capacity to store enough information to enable high-fidelity reconstruction of training data points; and it demonstrates that differential privacy can successfully mitigate such attacks in a parameter regime where utility degradation is minimal.
公開日:2022-01-13
翻訳日:2022-01-14 22:33:17
# (参考訳) スマートマニュファクチャリングにおけるヒューマンAIチームのためのリファレンスソフトウェアアーキテクチャ [全文訳有]

Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing ( http://arxiv.org/abs/2201.04876v1 )

ライセンス: CC BY 4.0
Philipp Haindl, Georg Buchgeher, Maqbool Khan, Bernhard Moser(参考訳) スマートマニュファクチャリングにおけるai対応ソフトウェアシステムの普及に伴い、このようなシステムの役割は、リアクションからプロアクティブな役割へと移行し、製造オペレーターにコンテキスト固有のサポートを提供する。 EUが出資したTeaming.AIプロジェクトのフレームでは、人間とAIのコラボレーションにおけるチームリングの側面の監視、倫理的ポリシーのランタイム監視と検証、データと機械学習アルゴリズムの実験のサポートを、スマート製造における人間とAIのコラボレーションの最も関連性の高い課題として挙げました。 これらの課題に基づいて,知識グラフ,追跡およびシーン分析に基づく参照ソフトウェアアーキテクチャと,その拡張性を重視したリレーショナル機械学習のためのコンポーネントを開発した。 本手法は,生産プロセスにおける製品やプロセス固有の知識を捉え,それをリレーショナル機械学習に活用するために,知識グラフを用いる。 これにより、製品品質の最適化と物理的被害の防止のための製造プロセスにおけるアクションのコンテキスト固有の推奨が可能になる。 本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。 本稿では,このようなリファレンスソフトウェアアーキテクチャの課題について論じ,その事前状況を示すとともに,本プロジェクトにおける今後の研究ビジョンを概観する。

With the proliferation of AI-enabled software systems in smart manufacturing, the role of such systems moves away from a reactive to a proactive role that provides context-specific support to manufacturing operators. In the frame of the EU funded Teaming.AI project, we identified the monitoring of teaming aspects in human-AI collaboration, the runtime monitoring and validation of ethical policies, and the support for experimentation with data and machine learning algorithms as the most relevant challenges for human-AI teaming in smart manufacturing. Based on these challenges, we developed a reference software architecture based on knowledge graphs, tracking and scene analysis, and components for relational machine learning with a particular focus on its scalability. Our approach uses knowledge graphs to capture product- and process specific knowledge in the manufacturing process and to utilize it for relational machine learning. This allows for context-specific recommendations for actions in the manufacturing process for the optimization of product quality and the prevention of physical harm. The empirical validation of this software architecture will be conducted in cooperation with three large-scale companies in the automotive, energy systems, and precision machining domain. In this paper we discuss the identified challenges for such a reference software architecture, present its preliminary status, and sketch our further research vision in this project.
公開日:2022-01-13
翻訳日:2022-01-14 21:48:30
# (参考訳) 単語センスの曖昧さに対する擬似0-1プログラミング手法 [全文訳有]

A Quadratic 0-1 Programming Approach for Word Sense Disambiguation ( http://arxiv.org/abs/2201.04877v1 )

ライセンス: CC BY 4.0
Boliang Lin(参考訳) word sense disambiguation (wsd) は、ある文脈における曖昧な単語の意味を決定するタスクである。 これまでのWSDのアプローチは、教師付きおよび知識に基づく手法に焦点を合わせてきたが、あいまいさに対する意味の相互作用パターンや規則性は見つからない。 We argue the following cause as one of the major difficulties behind finding the right patterns: for a particular context, the intended senses of a sequence of ambiguous words are dependent on each other, i.e. the choice of one word's sense is associated with the choice of another word's sense, making WSD a combinatorial optimization problem.In this work, we approach the interactions between senses of different target words by a Quadratic 0-1 Integer Programming model (QIP) that maximizes the objective function consisting of (1) the similarity between candidate senses of a target word and the word in a context (the sense-word similarity), and (2) the semantic interactions (relatedness) between senses of all words in the context (the sense-sense relatedness).

Word Sense Disambiguation (WSD) is the task to determine the sense of an ambiguous word in a given context. Previous approaches for WSD have focused on supervised and knowledge-based methods, but inter-sense interactions patterns or regularities for disambiguation remain to be found. We argue the following cause as one of the major difficulties behind finding the right patterns: for a particular context, the intended senses of a sequence of ambiguous words are dependent on each other, i.e. the choice of one word's sense is associated with the choice of another word's sense, making WSD a combinatorial optimization problem.In this work, we approach the interactions between senses of different target words by a Quadratic 0-1 Integer Programming model (QIP) that maximizes the objective function consisting of (1) the similarity between candidate senses of a target word and the word in a context (the sense-word similarity), and (2) the semantic interactions (relatedness) between senses of all words in the context (the sense-sense relatedness).
公開日:2022-01-13
翻訳日:2022-01-14 21:38:36
# (参考訳) マルチアテンション深層強化学習による動的グラフ問題の解法 [全文訳有]

Solving Dynamic Graph Problems with Multi-Attention Deep Reinforcement Learning ( http://arxiv.org/abs/2201.04895v1 )

ライセンス: CC BY 4.0
Udesh Gunarathna, Renata Borovica-Gajic, Shanika Karunasekara, Egemen Tanin(参考訳) トラベルセールスマン問題や最小のシュタイナー木の発見といったグラフ問題は、データ工学やコンピュータ科学において広く研究され、利用されている。 通常、現実世界のアプリケーションでは、グラフの機能は時間とともに変化する傾向があるため、問題に対する解決策を見つけることは困難になる。 多くのグラフ問題の動的なバージョンは、輸送、通信、ソーシャルネットワークにおける現実の問題の多さの鍵である。 近年、np型グラフ組合せ問題に対するヒューリスティックな解を見つけるためにディープラーニング技術を用いることで、これらの学習されたヒューリスティックは最適に近い解を効率的に見つけることができるため、多くの関心を集めている。 しかし、既存のヒューリスティックス学習手法のほとんどは静的グラフ問題に重点を置いている。 動的性質はNPハードグラフ問題を学習しにくくし、既存の手法では妥当な解を見つけることができない。 本稿では,グラフに基づく動的組合せ最適化問題に対するヒューリスティックな解を求めるために,グラフ時間注意強化学習(GTA-RL)という新しいアーキテクチャを提案する。 GTA-RLアーキテクチャは、組合せ問題インスタンスの時間的特徴を埋め込むことができるエンコーダと、組み込まれた特徴に動的に集中して与えられた組合せ問題インスタンスの解を見つけることができるデコーダとから構成される。 次に、私たちはアーキテクチャを拡張して、問題の全入力特徴が事前に知られておらず、むしろリアルタイムに学習される組合せ最適化問題のリアルタイムバージョンのヒューリスティックスを学びます。 いくつかの最先端学習に基づくアルゴリズムと最適解法に対する実験結果は、動的およびリアルタイムグラフの組合せ最適化における効率性の観点から、最先端学習に基づくアプローチよりも優れていることを示す。

Graph problems such as traveling salesman problem, or finding minimal Steiner trees are widely studied and used in data engineering and computer science. Typically, in real-world applications, the features of the graph tend to change over time, thus, finding a solution to the problem becomes challenging. The dynamic version of many graph problems are the key for a plethora of real-world problems in transportation, telecommunication, and social networks. In recent years, using deep learning techniques to find heuristic solutions for NP-hard graph combinatorial problems has gained much interest as these learned heuristics can find near-optimal solutions efficiently. However, most of the existing methods for learning heuristics focus on static graph problems. The dynamic nature makes NP-hard graph problems much more challenging to learn, and the existing methods fail to find reasonable solutions. In this paper, we propose a novel architecture named Graph Temporal Attention with Reinforcement Learning (GTA-RL) to learn heuristic solutions for graph-based dynamic combinatorial optimization problems. The GTA-RL architecture consists of an encoder capable of embedding temporal features of a combinatorial problem instance and a decoder capable of dynamically focusing on the embedded features to find a solution to a given combinatorial problem instance. We then extend our architecture to learn heuristics for the real-time version of combinatorial optimization problems where all input features of a problem are not known a prior, but rather learned in real-time. Our experimental results against several state-of-the-art learning-based algorithms and optimal solvers demonstrate that our approach outperforms the state-of-the-art learning-based approaches in terms of effectiveness and optimal solvers in terms of efficiency on dynamic and real-time graph combinatorial optimization.
公開日:2022-01-13
翻訳日:2022-01-14 21:31:20
# (参考訳) ハンドオブジェクトインタラクション推論 [全文訳有]

Hand-Object Interaction Reasoning ( http://arxiv.org/abs/2201.04906v1 )

ライセンス: CC BY 4.0
Jian Ma and Dima Damen(参考訳) 本稿では,映像における手と物体の時空間関係をモデル化するインタラクション推論ネットワークを提案する。 提案するインタラクションユニットは、それぞれの動作について判断するためにトランスフォーマモジュールを使用し、その空間的・時間的関係と相互作用対象との相互作用を利用する。 双方向インタラクションのモデル化は,エゴセントリックビデオにおける行動認識に不可欠であることを示すとともに,位置符号化トラジェクタを用いることにより,観測されたインタラクションをよりよく認識できることを示す。 EPIC-KITCHENSとSome-Elseのデータセットをアブレーションで評価した。

This paper proposes an interaction reasoning network for modelling spatio-temporal relationships between hands and objects in video. The proposed interaction unit utilises a Transformer module to reason about each acting hand, and its spatio-temporal relation to the other hand as well as objects being interacted with. We show that modelling two-handed interactions are critical for action recognition in egocentric video, and demonstrate that by using positionally-encoded trajectories, the network can better recognise observed interactions. We evaluate our proposal on EPIC-KITCHENS and Something-Else datasets, with an ablation study.
公開日:2022-01-13
翻訳日:2022-01-14 21:09:16
# (参考訳) 変形性関節症音声認識における時間ストレッチの効果 [全文訳有]

The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition ( http://arxiv.org/abs/2201.04908v1 )

ライセンス: CC BY 4.0
Luke Prananta, Bence Mark Halpern, Siyuan Feng, Odette Scharenborg(参考訳) 本稿では, 変形性関節症の音声認識を改善するために, 変形性音声の高機能化のためのGAN音声変換法について検討する。 既存の方法の重要成分を厳密なアブレーション研究の一環として比較し,dysarthric speech recognitionの最も効果的な解を求める。 定常ノイズ除去やvocoderに基づく時間伸長といった単純な信号処理手法は,音素認識タスクで測定した最先端のganに基づく音声変換手法を用いた場合と同等のジアースリック音声認識結果をもたらすことが判明した。 さらに,maskCycleGAN-VCと時間伸張拡張を組み合わせた提案手法は,時間伸張ベースラインと比較して,特定の変形性スピーカの音素認識結果を改善することができる。

In this paper, we investigate several existing and a new state-of-the-art generative adversarial network-based (GAN) voice conversion method for enhancing dysarthric speech for improved dysarthric speech recognition. We compare key components of existing methods as part of a rigorous ablation study to find the most effective solution to improve dysarthric speech recognition. We find that straightforward signal processing methods such as stationary noise removal and vocoder-based time stretching lead to dysarthric speech recognition results comparable to those obtained when using state-of-the-art GAN-based voice conversion methods as measured using a phoneme recognition task. Additionally, our proposed solution of a combination of MaskCycleGAN-VC and time stretched enhancement is able to improve the phoneme recognition results for certain dysarthric speakers compared to our time stretched baseline.
公開日:2022-01-13
翻訳日:2022-01-14 20:57:16
# (参考訳) Syllables を用いた単語埋め込みの圧縮 [全文訳有]

Compressing Word Embeddings Using Syllables ( http://arxiv.org/abs/2201.04913v1 )

ライセンス: CC BY 4.0
Laurent Mertens, Joost Vennekens(参考訳) 本研究は、しばしば使われる$n$-gram組込みの代わりに、音節組込みをサブワード組込みとして使用する可能性を検討する。 これを英語とオランダ語という2つの言語で調べる。 この目的のために、標準英語の単語埋め込み評価データセットである wordsim353 と semeval-2017 をオランダ語に翻訳した。 さらに,研究コミュニティに対して,両言語間の音節分解のデータセットを提供する。 われわれのアプローチをフルワードと$n$-gramの埋め込みと比較する。 単語の埋め込みと比較すると、性能の80%を維持しつつ、20~30倍小さい英語モデルが得られる。 オランダでは、モデルが70%のパフォーマンス維持のために15倍小さい。 私たちが使った$n$-gramベースラインよりも正確ではありませんが、$n$-gramアプローチの時間とは対照的に、モデルのトレーニングは数分で行えます。 今後の作業におけるパフォーマンス向上への道筋を特定する。 すべてのコードは公開されており、収集した英語とオランダ語のシラバスの分解やオランダ語の評価セットの翻訳も利用可能です。

This work examines the possibility of using syllable embeddings, instead of the often used $n$-gram embeddings, as subword embeddings. We investigate this for two languages: English and Dutch. To this end, we also translated two standard English word embedding evaluation datasets, WordSim353 and SemEval-2017, to Dutch. Furthermore, we provide the research community with data sets of syllabic decompositions for both languages. We compare our approach to full word and $n$-gram embeddings. Compared to full word embeddings, we obtain English models that are 20 to 30 times smaller while retaining 80% of the performance. For Dutch, models are 15 times smaller for 70% performance retention. Although less accurate than the $n$-gram baseline we used, our models can be trained in a matter of minutes, as opposed to hours for the $n$-gram approach. We identify a path toward upgrading performance in future work. All code is made publicly available, as well as our collected English and Dutch syllabic decompositions and Dutch evaluation set translations.
公開日:2022-01-13
翻訳日:2022-01-14 20:43:48
# (参考訳) virtual-to-real image-domain translation を用いた鏡視下画像生成法 [全文訳有]

Realistic Endoscopic Image Generation Method Using Virtual-to-real Image-domain Translation ( http://arxiv.org/abs/2201.04918v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Kiyohito Tanaka, Hirotsugu Takabatake, Masaki Mori, Hiroshi Natori, Kensaku Mori(参考訳) 本稿では,内視鏡シミュレーションシステムにおける可視化のための現実的な画像生成手法を提案する。 多くの病院で内視鏡的診断と治療が行われている。 内視鏡挿入に関する合併症を軽減するため、内視鏡挿入の訓練やリハーサルに内視鏡シミュレーションシステムを用いる。 しかし、現在のシミュレーションシステムは非現実的な仮想内視鏡画像を生成する。 シミュレーションシステムの価値を高めるためには,生成画像の現実性の向上が必要である。 内視鏡シミュレーションシステムのための現実的な画像生成手法を提案する。 患者のCTボリュームからボリュームレンダリング法を用いて仮想内視鏡画像を生成する。 仮想領域変換技術を用いて,仮想内視鏡画像の現実性を向上させる。 画像領域変換器は完全畳み込みネットワーク(fcn)として実装されている。 サイクル整合損失関数を最小化してFCNを訓練する。 FCNは仮想および実際の内視鏡画像を用いて訓練される。 高品質な画像領域翻訳結果を得るため,実際の内視鏡画像集合に対して画像クリーニングを行う。 画像領域のトランスレータとしては, 浅いU-Net, U-Net, 深いU-Net, U-Netが残存する。 残留ユニットを持つ深いU-NetとU-Netは非常にリアルな画像を生成する。

This paper proposes a realistic image generation method for visualization in endoscopic simulation systems. Endoscopic diagnosis and treatment are performed in many hospitals. To reduce complications related to endoscope insertions, endoscopic simulation systems are used for training or rehearsal of endoscope insertions. However, current simulation systems generate non-realistic virtual endoscopic images. To improve the value of the simulation systems, improvement of reality of their generated images is necessary. We propose a realistic image generation method for endoscopic simulation systems. Virtual endoscopic images are generated by using a volume rendering method from a CT volume of a patient. We improve the reality of the virtual endoscopic images using a virtual-to-real image-domain translation technique. The image-domain translator is implemented as a fully convolutional network (FCN). We train the FCN by minimizing a cycle consistency loss function. The FCN is trained using unpaired virtual and real endoscopic images. To obtain high quality image-domain translation results, we perform an image cleansing to the real endoscopic image set. We tested to use the shallow U-Net, U-Net, deep U-Net, and U-Net having residual units as the image-domain translator. The deep U-Net and U-Net having residual units generated quite realistic images.
公開日:2022-01-13
翻訳日:2022-01-14 20:31:42
# (参考訳) 複合特性予測のためのvaeに基づく分子表現の改善

Improving VAE based molecular representations for compound property prediction ( http://arxiv.org/abs/2201.04929v1 )

ライセンス: CC BY 4.0
A. Tevosyan (1 and 2), L. Khondkaryan (1), H. Khachatrian (2 and 3), G. Tadevosyan (1), L. Apresyan (1), N. Babayan (1 and 3), H. Stopper (4), Z. Navoyan (5) ((1) Institute of Molecular Biology NAS RA Armenia, (2) YerevaNN Armenia, (3) Yerevan State University Armenia, (4) Institute of Pharmacology and Toxicology University of W\"urzburg Germany, (5) Toxometris.ai)(参考訳) 化学情報学における重要なタスクのためのラベル付きデータの収集には時間がかかり、高価な実験が必要となる。 近年、機械学習は大規模な未ラベル分子データセットを用いて分子の豊かな表現を学習し、限られたデータセットでより困難なタスクを解決するために知識を伝達するために使われてきた。 変分オートエンコーダは、化学特性予測と分子生成タスクの両方の転送を実行するために提案されたツールの1つである。 本研究では,可変オートエンコーダによって学習される表現における相関分子記述子の追加情報を組み込むことにより,機械学習モデルの化学特性予測性能を向上させるための簡便な手法を提案する。 提案手法を3つの特性予測要求で検証する。 組み込まれた記述子数の影響、記述子と対象プロパティの相関、データセットのサイズ等について検討する。 最後に、表現空間における特性予測モデルの性能と特性予測データセットとより大きなラベル付きデータセットとの間の距離との関係を示す。

Collecting labeled data for many important tasks in chemoinformatics is time consuming and requires expensive experiments. In recent years, machine learning has been used to learn rich representations of molecules using large scale unlabeled molecular datasets and transfer the knowledge to solve the more challenging tasks with limited datasets. Variational autoencoders are one of the tools that have been proposed to perform the transfer for both chemical property prediction and molecular generation tasks. In this work we propose a simple method to improve chemical property prediction performance of machine learning models by incorporating additional information on correlated molecular descriptors in the representations learned by variational autoencoders. We verify the method on three property prediction asks. We explore the impact of the number of incorporated descriptors, correlation between the descriptors and the target properties, sizes of the datasets etc. Finally, we show the relation between the performance of property prediction models and the distance between property prediction dataset and the larger unlabeled dataset in the representation space.
公開日:2022-01-13
翻訳日:2022-01-14 20:23:46
# (参考訳) 強化学習の自動化 - 概観

Automated Reinforcement Learning: An Overview ( http://arxiv.org/abs/2201.05000v1 )

ライセンス: CC BY 4.0
Reza Refaei Afshar, Yingqian Zhang, Joaquin Vanschoren, Uzay Kaymak(参考訳) 強化学習と近年のDeep Reinforcement Learningはマルコフ決定プロセスとしてモデル化されたシーケンシャルな意思決定問題を解決する一般的な方法である。 問題のRLモデリングとアルゴリズムの選択とハイパーパラメータは、異なる構成が全く異なる性能を必要とするため、慎重に考慮する必要がある。 これらの考察は主にRLの専門家の課題であるが、研究者やシステムデザイナーがRLの専門家ではない他の分野でもRLは徐々に人気が高まっている。 さらに、状態とアクション空間の定義、バッチのサイズ、バッチ更新の頻度、タイムステップの数など、多くのモデリング決定が手作業で行われます。 これらの理由から、RLフレームワークの異なるコンポーネントを自動化することが非常に重要であり、近年は注目されている。 自動RLは、MDPモデリング、アルゴリズム選択、ハイパーパラメータ最適化を含むRLのさまざまなコンポーネントが自動的にモデル化され、定義されるフレームワークを提供する。 本稿では,RLの自動化に使用可能な文献と最近の研究について考察する。 さらに,AutoRLにおける課題,オープン質問,研究の方向性についても論じる。

Reinforcement Learning and recently Deep Reinforcement Learning are popular methods for solving sequential decision making problems modeled as Markov Decision Processes. RL modeling of a problem and selecting algorithms and hyper-parameters require careful considerations as different configurations may entail completely different performances. These considerations are mainly the task of RL experts; however, RL is progressively becoming popular in other fields where the researchers and system designers are not RL experts. Besides, many modeling decisions, such as defining state and action space, size of batches and frequency of batch updating, and number of timesteps are typically made manually. For these reasons, automating different components of RL framework is of great importance and it has attracted much attention in recent years. Automated RL provides a framework in which different components of RL including MDP modeling, algorithm selection and hyper-parameter optimization are modeled and defined automatically. In this article, we explore the literature and present recent work that can be used in automated RL. Moreover, we discuss the challenges, open questions and research directions in AutoRL.
公開日:2022-01-13
翻訳日:2022-01-14 20:22:54
# (参考訳) クロスモーダル脳腫瘍セグメンテーションのための自己意味的輪郭適応 [全文訳有]

Self-semantic contour adaptation for cross modality brain tumor segmentation ( http://arxiv.org/abs/2201.05022v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Georges El Fakhri, Jonghye Woo(参考訳) 2つの異なるドメイン間の教師なしドメイン適応(UDA)により、ハイレベルなセマンティックアライメントを学ぶことは、非常に重要な課題である。 そこで本研究では, セマンティックセグメンテーションと比較して, ドメイン間ギャップが小さい前処理として適応しやすくするために, 低レベルエッジ情報を活用することを提案する。 正確な輪郭は、意味適応を導くための空間情報を提供する。 より具体的には、磁気共鳴画像(MRI)スライスと初期エッジマップを入力として用いた意味的セグメンテーション適応ネットワークとともに、コンツーリング適応ネットワークを学習するマルチタスクフレームワークを提案する。 これらの2つのネットワークは、ソースドメインラベルと共同でトレーニングされ、クロスドメインアライメントのために特徴とエッジマップレベルの逆学習が行われる。 さらに、セグメンテーション性能をさらに向上するために、自己エントロピーの最小化が組み込まれている。 われわれはBraTS2018データベースを用いた脳腫瘍のクロスモーダルセグメンテーションの枠組みを検証し,本手法の有効性と優位性を示した。

Unsupervised domain adaptation (UDA) between two significantly disparate domains to learn high-level semantic alignment is a crucial yet challenging task.~To this end, in this work, we propose exploiting low-level edge information to facilitate the adaptation as a precursor task, which has a small cross-domain gap, compared with semantic segmentation.~The precise contour then provides spatial information to guide the semantic adaptation. More specifically, we propose a multi-task framework to learn a contouring adaptation network along with a semantic segmentation adaptation network, which takes both magnetic resonance imaging (MRI) slice and its initial edge map as input.~These two networks are jointly trained with source domain labels, and the feature and edge map level adversarial learning is carried out for cross-domain alignment. In addition, self-entropy minimization is incorporated to further enhance segmentation performance. We evaluated our framework on the BraTS2018 database for cross-modality segmentation of brain tumors, showing the validity and superiority of our approach, compared with competing methods.
公開日:2022-01-13
翻訳日:2022-01-14 20:21:55
# (参考訳) 多層画像によるステレオ拡大 [全文訳有]

Stereo Magnification with Multi-Layer Images ( http://arxiv.org/abs/2201.05023v1 )

ライセンス: CC BY 4.0
Taras Khakhulin, Denis Korzhenkov, Pavel Solovev, Gleb Sterkin, Timotei Ardelean, Victor Lempitsky(参考訳) 複数の半透明な色の層を持つシーンを表現することは、リアルタイムの新規なビュー合成に人気があり、成功している。 既存のアプローチは、平面または球面形状の定期的な間隔の層上の色と透明性値を推定する。 本研究では,シーン適応幾何を持つ複数の半透明層に基づく新しいビュー合成手法を提案する。 提案手法は2段階のステレオ対からそのような表現を推論する。 第1段階では、与えられた一対のビューから少数のデータ適応層の幾何学を推測する。 第2段階は、これらの層の色と透明性値を推定し、新しいビュー合成のための最終的な表現を生成する。 重要なことに、両方のステージは微分可能なレンダラを介して接続され、エンドツーエンドでトレーニングされる。 実験では,シーン幾何学に適応しない定期的空間層の利用に対して,提案手法の利点を実証した。 レンダリングでは桁違いに高速であるにもかかわらず,最近提案された暗黙的幾何表現に基づく IBRNet システムよりも優れている。 結果はhttps://samsunglabs. github.io/StereoLaye rsで確認できます。

Representing scenes with multiple semi-transparent colored layers has been a popular and successful choice for real-time novel view synthesis. Existing approaches infer colors and transparency values over regularly-spaced layers of planar or spherical shape. In this work, we introduce a new view synthesis approach based on multiple semi-transparent layers with scene-adapted geometry. Our approach infers such representations from stereo pairs in two stages. The first stage infers the geometry of a small number of data-adaptive layers from a given pair of views. The second stage infers the color and the transparency values for these layers producing the final representation for novel view synthesis. Importantly, both stages are connected through a differentiable renderer and are trained in an end-to-end manner. In the experiments, we demonstrate the advantage of the proposed approach over the use of regularly-spaced layers with no adaptation to scene geometry. Despite being orders of magnitude faster during rendering, our approach also outperforms a recently proposed IBRNet system based on implicit geometry representation. See results at https://samsunglabs. github.io/StereoLaye rs .
公開日:2022-01-13
翻訳日:2022-01-14 20:13:15
# (参考訳) 素晴らしいデータとそれらを照会する方法 [全文訳有]

Fantastic Data and How to Query Them ( http://arxiv.org/abs/2201.05026v1 )

ライセンス: CC BY 4.0
Trung-Kien Tran, Anh Le-Tuan, Manh Nguyen-Duc, Jicheng Yuan, Danh Le-Phuoc(参考訳) 膨大なデータ(トレーニング)が利用可能であることは、人工知能(AI)の最近の進歩において最も重要な要素の1つであることが一般に認識されている。 しかしデータセットは、狭いaiサブエリアで特定のタスク用に設計されることが多く、それらを管理およびアクセスするための統一的な方法がない。 これにより、機械学習モデルのトレーニングやデプロイ時に不要なオーバーヘッドが発生するだけでなく、データ中心のAIにとって非常に重要なデータ理解も制限される。 本稿では,様々なデータセットのための統一フレームワークについて,例えば標準クエリ言語を用いて,統合やクエリが容易になるようなビジョンを示す。 我々は、コンピュータビジョンにおけるデータセットのフレームワークを作成するために進行中の作業でこれを実証し、異なるシナリオでその利点を示します。 私たちのデモはhttps://vision.semkg .orgで公開されています。

It is commonly acknowledged that the availability of the huge amount of (training) data is one of the most important factors for many recent advances in Artificial Intelligence (AI). However, datasets are often designed for specific tasks in narrow AI sub areas and there is no unified way to manage and access them. This not only creates unnecessary overheads when training or deploying Machine Learning models but also limits the understanding of the data, which is very important for data-centric AI. In this paper, we present our vision about a unified framework for different datasets so that they can be integrated and queried easily, e.g., using standard query languages. We demonstrate this in our ongoing work to create a framework for datasets in Computer Vision and show its advantages in different scenarios. Our demonstration is available at https://vision.semkg .org.
公開日:2022-01-13
翻訳日:2022-01-14 19:51:32
# (参考訳) 強化学習のための臨界に基づく可変ステップヌーバーアルゴリズム [全文訳有]

Criticality-Based Varying Step-Number Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2201.05034v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) 強化学習の文脈では、ある状態の臨界性の概念を導入し、その状態における行動の選択が期待されるリターンにどの程度影響するかを示す。 すなわち、行動の選択が最終結果に影響を及ぼす可能性が高い状態は、最終結果に影響を及ぼす可能性が低い状態よりも重要であるとみなされる。 我々は、人間が提供する臨界関数を利用するフレキシブルなステップ数アルゴリズムである臨界に基づく可変ステップ数アルゴリズム(CVS)を定式化し、環境から直接学習する。 Atari Pong環境、Road-Tree環境、Shooter環境の3つの異なる領域でテストする。 我々は、CVSがDeep Q-LearningやMonte Carloといった一般的な学習アルゴリズムより優れていることを示した。

In the context of reinforcement learning we introduce the concept of criticality of a state, which indicates the extent to which the choice of action in that particular state influences the expected return. That is, a state in which the choice of action is more likely to influence the final outcome is considered as more critical than a state in which it is less likely to influence the final outcome. We formulate a criticality-based varying step number algorithm (CVS) - a flexible step number algorithm that utilizes the criticality function provided by a human, or learned directly from the environment. We test it in three different domains including the Atari Pong environment, Road-Tree environment, and Shooter environment. We demonstrate that CVS is able to outperform popular learning algorithms such as Deep Q-Learning and Monte Carlo.
公開日:2022-01-13
翻訳日:2022-01-14 19:41:47
# (参考訳) アルツハイマー病における多タスク縦断予測の欠如 [全文訳有]

Multi-task longitudinal forecasting with missing values on Alzheimer's Disease ( http://arxiv.org/abs/2201.05040v1 )

ライセンス: CC BY 4.0
Carlos Sevilla-Salcedo, Vandad Imani, Pablo M. Olmos, Vanessa G\'omez-Verdejo, Jussi Tohka(参考訳) 機械学習の技術は通常、認知症予測能力の欠如に応用され、複数のタスクを共同学習し、時間依存の不均一なデータと不足した値を扱う。 本稿では,最近発表されたSSHIBAモデルを用いて,長手データ上で異なるタスクを学習するフレームワークを提案する。 この方法はベイズ変分推論を用いて、欠落した値をインプットし、複数のビューの情報を組み合わせる。 これにより、共通の潜在空間における異なる時点からの異なるデータビューを結合し、複数の出力変数をモデリングし予測しながら、各時点間の関係を学習することができる。 このモデルを用いて,認知症における診断,心室容積,臨床得点の予測を行う。 その結果, SSHIBAは, 3つのタスクを同時に予測しながら, 欠落した値の適切な計算を学習し, ベースラインよりも優れた性能を発揮することを示した。

Machine learning techniques typically applied to dementia forecasting lack in their capabilities to jointly learn several tasks, handle time dependent heterogeneous data and missing values. In this paper, we propose a framework using the recently presented SSHIBA model for jointly learning different tasks on longitudinal data with missing values. The method uses Bayesian variational inference to impute missing values and combine information of several views. This way, we can combine different data-views from different time-points in a common latent space and learn the relations between each time-point while simultaneously modelling and predicting several output variables. We apply this model to predict together diagnosis, ventricle volume, and clinical scores in dementia. The results demonstrate that SSHIBA is capable of learning a good imputation of the missing values and outperforming the baselines while simultaneously predicting three different tasks.
公開日:2022-01-13
翻訳日:2022-01-14 19:26:32
# (参考訳) ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v1 )

ライセンス: CC BY 4.0
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott process (NSP) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
公開日:2022-01-13
翻訳日:2022-01-14 19:00:13
# (参考訳) 自動車の軌道予測の逆ロバスト性について [全文訳有]

On Adversarial Robustness of Trajectory Prediction for Autonomous Vehicles ( http://arxiv.org/abs/2201.05057v1 )

ライセンス: CC BY 4.0
Qingzhao Zhang, Shengtuo Hu, Jiachen Sun, Qi Alfred Chen, Z. Morley Mao(参考訳) 軌道予測は、安全な計画とナビゲーションを行う自動運転車(AV)にとって重要な要素である。 しかし、軌道予測の逆ロバスト性を分析したり、最悪の場合の予測が安全な計画に繋がるかどうかを調査した研究はほとんどない。 このギャップを埋めるために、通常の車両軌道を乱す新たな対向攻撃を提案し、予測誤差を最大化することで、軌道予測モデルの対向ロバスト性を検討する。 3つのモデルと3つのデータセットに対する実験により、逆予測により予測誤差が150%以上増加することが示された。 ケーススタディでは、敵が敵の軌道に沿って目標のAVに近い車両を運転した場合、AVは不正確な予測を行い、さらには安全でない運転決定を下すことが示されている。 また,データ拡張と軌道平滑化による緩和技術についても検討する。

Trajectory prediction is a critical component for autonomous vehicles (AVs) to perform safe planning and navigation. However, few studies have analyzed the adversarial robustness of trajectory prediction or investigated whether the worst-case prediction can still lead to safe planning. To bridge this gap, we study the adversarial robustness of trajectory prediction models by proposing a new adversarial attack that perturbs normal vehicle trajectories to maximize the prediction error. Our experiments on three models and three datasets show that the adversarial prediction increases the prediction error by more than 150%. Our case studies show that if an adversary drives a vehicle close to the target AV following the adversarial trajectory, the AV may make an inaccurate prediction and even make unsafe driving decisions. We also explore possible mitigation techniques via data augmentation and trajectory smoothing.
公開日:2022-01-13
翻訳日:2022-01-14 18:58:48
# (参考訳) 薬物発見のためのマルチオミクスデータセットにおけるロバストカーネルマシンのバイオマーカー選択への回帰 [全文訳有]

A robust kernel machine regression towards biomarker selection in multi-omics datasets of osteoporosis for drug discovery ( http://arxiv.org/abs/2201.05060v1 )

ライセンス: CC BY 4.0
Md Ashad Alam and Hui Shen and Hong-Wen Deng(参考訳) 多くの統計機械アプローチは、マルチオミクスデータを解析することで、最終的に複雑な疾患の病因の新たな特徴を浮き彫りにする可能性がある。 しかし、観測されたサンプルが敵の破損した外れ値(例えば、架空のデータ分布)で汚染される可能性がある場合、分布の偏りに敏感である。 同様に、複雑なマルチオミクスデータ統合の包括的データ駆動分析をサポートする統計的進歩も遅れている。 本稿では,マルチオミクスデータセットの高次合成効果を検討するために,統計的マシン回帰の頑健さとフィクションデータの多様性を改善するために,非線形M-推定器に基づく新しい手法"RobKMR"を提案する。 モデルパラメータを正確に推定するために,堅牢なカーネル中心のグラム行列を扱う。 また,マルチオミクスデータから特徴の辺縁および関節アダマール積を評価するためのロバストスコアテストを提案する。 提案手法をコーカサス産の骨粗しょう症(OP)のマルチオミクスデータセットに適用した。 提案手法はOPの相互関連リスク因子を効果的に同定することを示した。 ソリッドエビデンス(p-value = 0.00001)、生物学的検証、ネットワークベースの分析、因果推論、薬物再精製により、選択された3つの三つ子(DKK1, SMTN, DRGX), (MTND5, FASTKD2, CSMD3), (MTND5, COG3, CSMD3)は重要なバイオマーカーであり、BMDに直接関係している。 総合的に、上位3つの遺伝子(DKK1, MTND5, FASTKD2)と1つの遺伝子(SIDT1 at p-value= 0.001)がタクロリムス、イバンドロネート、アレンドロネート、バゼドキシフェンの4つの薬物と結合し、OPにおける薬物再精製の候補30のうちの1つとなった。 さらに,提案手法は,マルチオミクスデータセットが利用可能な任意の疾患モデルに適用可能である。

Many statistical machine approaches could ultimately highlight novel features of the etiology of complex diseases by analyzing multi-omics data. However, they are sensitive to some deviations in distribution when the observed samples are potentially contaminated with adversarial corrupted outliers (e.g., a fictional data distribution). Likewise, statistical advances lag in supporting comprehensive data-driven analyses of complex multi-omics data integration. We propose a novel non-linear M-estimator-based approach, "robust kernel machine regression (RobKMR)," to improve the robustness of statistical machine regression and the diversity of fictional data to examine the higher-order composite effect of multi-omics datasets. We address a robust kernel-centered Gram matrix to estimate the model parameters accurately. We also propose a robust score test to assess the marginal and joint Hadamard product of features from multi-omics data. We apply our proposed approach to a multi-omics dataset of osteoporosis (OP) from Caucasian females. Experiments demonstrate that the proposed approach effectively identifies the inter-related risk factors of OP. With solid evidence (p-value = 0.00001), biological validations, network-based analysis, causal inference, and drug repurposing, the selected three triplets ((DKK1, SMTN, DRGX), (MTND5, FASTKD2, CSMD3), (MTND5, COG3, CSMD3)) are significant biomarkers and directly relate to BMD. Overall, the top three selected genes (DKK1, MTND5, FASTKD2) and one gene (SIDT1 at p-value= 0.001) significantly bond with four drugs- Tacrolimus, Ibandronate, Alendronate, and Bazedoxifene out of 30 candidates for drug repurposing in OP. Further, the proposed approach can be applied to any disease model where multi-omics datasets are available.
公開日:2022-01-13
翻訳日:2022-01-14 18:42:48
# (参考訳) 特徴豊富な多重語彙ネットワークが早期言語学習のメンタル戦略を明らかに

Feature-rich multiplex lexical networks reveal mental strategies of early language learning ( http://arxiv.org/abs/2201.05061v1 )

ライセンス: CC BY 4.0
Salvatore Citraro and Michael S. Vitevitch and Massimo Stella and Giulio Rossetti(参考訳) 人間の心の知識は双対的ベクトル/ネットワークの性質を示す。 単語をベクトルとしてモデル化することは自然言語処理の鍵であり、単語関連性のネットワークは意味記憶の性質をマッピングすることができる。 我々は、FEature-Rich MUltiplex LEXical(FERMULEX)ネットワークを導入し、言語学、心理学、計算機科学にまたがるこれらのパラダイムを精査する。 この新しい枠組みは、ネットワークにおける構造的類似性と単語の構造的特徴をマージする。 知識の意味的・統語的・音韻学的側面を横断する異種言語関係の類似性モデル 単語は、周波数、獲得年齢、長さ、ポリセミーを含む多次元特徴埋め込みで豊かである。 これらの側面は認知知識の先例のない探求を可能にする。 幼児データを通して, フェルムレックスネットワークを用いて18~30ヶ月間, 幼児1000名による規範言語獲得をモデル化する。 類似性や埋め込みは、距離と特徴による選別混合を測定する整合性を通じて単語をホモフィリーにキャプチャする。 コンフォニティは、頻繁に/多義/短い名詞と動詞の言語核を基礎文生成の鍵とし、30ヶ月で出現する子供の構文構成の最近の証拠を支持する。 このカーネルは、ネットワークコア検出と機能のみのクラスタリングには見えない。 初期単語学習における2つの重要な戦略を定量的に分析した。 ferMULEXトポロジーのランダムウォークとして単語の獲得をモデル化し,CDI(Communicative Developmental inventories)の不均一充填に注目した。 コンフォーマル性に基づく歩行は、CDIにおける早期単語学習の正確さ(75%)、正確さ(55%)、そして部分的に精確(34%)な予測をもたらす。

Knowledge in the human mind exhibits a dualistic vector/network nature. Modelling words as vectors is key to natural language processing, whereas networks of word associations can map the nature of semantic memory. We reconcile these paradigms - fragmented across linguistics, psychology and computer science - by introducing FEature-Rich MUltiplex LEXical (FERMULEX) networks. This novel framework merges structural similarities in networks and vector features of words, which can be combined or explored independently. Similarities model heterogenous word associations across semantic/syntactic/p honological aspects of knowledge. Words are enriched with multi-dimensional feature embeddings including frequency, age of acquisition, length and polysemy. These aspects enable unprecedented explorations of cognitive knowledge. Through CHILDES data, we use FERMULEX networks to model normative language acquisition by 1000 toddlers between 18 and 30 months. Similarities and embeddings capture word homophily via conformity, which measures assortative mixing via distance and features. Conformity unearths a language kernel of frequent/polysemous/ short nouns and verbs key for basic sentence production, supporting recent evidence of children's syntactic constructs emerging at 30 months. This kernel is invisible to network core-detection and feature-only clustering: It emerges from the dual vector/network nature of words. Our quantitative analysis reveals two key strategies in early word learning. Modelling word acquisition as random walks on FERMULEX topology, we highlight non-uniform filling of communicative developmental inventories (CDIs). Conformity-based walkers lead to accurate (75%), precise (55%) and partially well-recalled (34%) predictions of early word learning in CDIs, providing quantitative support to previous empirical findings and developmental theories.
公開日:2022-01-13
翻訳日:2022-01-14 18:19:37
# (参考訳) アンサー説明のためのインフォーマル・イット・コンサイス・エビデンス蒸留法 [全文訳有]

Grow-and-Clip: Informative-yet-Conc ise Evidence Distillation for Answer Explanation ( http://arxiv.org/abs/2201.05088v1 )

ライセンス: CC BY 4.0
Yuyan Chen, Yanghua Xiao, Bang Liu(参考訳) 既存の質問回答モデル(QA)の予測を解釈することは、医療、教育、財務のためのQAシステムなど、多くの現実世界のインテリジェントなアプリケーションにとって重要である。 しかし、既存のQAモデルは解釈可能性に欠けており、特定の予測が疑問に対する答えである理由を理解するためにエンドユーザにフィードバックや説明を提供していない。 文脈におけるいくつかの文をエビデンスとして抽出する従来の研究とは異なり、我々は証拠の概念を情報的で簡潔で読みやすい文脈における支援事実として明示的に定義する。 また,証拠の定量的・簡潔・可読性を定量的に評価するための効果的な戦略を提供する。 さらに, 情報提供性, 簡潔性, 可読性等により, 文脈からエビデンスを抽出するためのグロース・アンド・クリップ・エビデンス蒸留(gced)アルゴリズムを提案する。 我々は,複数のベースラインモデルを用いたSQuADとTriviaQAデータセットの広範な実験を行い,GCEDが質問に対する回答の解釈に与える影響を評価する。 蒸留された証拠の品質を確認するために人的評価も行われる。 実験の結果, 自動蒸留実験の結果は, 質問に対する回答の解釈性を高めるため, 人的情報性, 簡潔性, 可読性を有することがわかった。

Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question.In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
公開日:2022-01-13
翻訳日:2022-01-14 18:18:20
# (参考訳) 機能異常検出:ベンチマークによる検討 [全文訳有]

Functional Anomaly Detection: a Benchmark Study ( http://arxiv.org/abs/2201.05115v1 )

ライセンス: CC BY 4.0
Guillaume Staerman, Eric Adjakossa, Pavlo Mozharovskyi, Vera Hofer, Jayant Sen Gupta and Stephan Cl\'emen\c{c}on(参考訳) 業界の多くの分野における自動化の増大は、異常事象検出のための効率的な機械学習ソリューションの設計を明言している。 複雑なインフラストラクチャの状態をほぼ連続的に監視するセンサーがユビキタスに配備されることにより、異常検出は非常に高い頻度でサンプリングされた測定値に依存するようになり、監視下での現象の非常に豊かな表現が可能になる。 このように収集した情報を完全に活用するために、観測をもはや多変量データとして扱うことはできず、機能分析のアプローチが必要となる。 本研究の目的は, 実データ集合上の機能的セットアップにおける異常検出手法の最近の性能について検討することである。 最先端技術の概要と視覚記述的研究を経て,様々な異常検出手法を比較した。 機能的設定における異常(形状、位置など)の分類は文献に記録されているが、特定された異常に特定の型を割り当てることは難しい作業である。 このように,シミュレーション研究において,既存の手法の強みと弱みをこれらの強調型の観点からベンチマークする。 次に、飛行中のヘリコプターの監視と、建設材料の分光分析に関する2つのデータセットを用いて異常検出手法を評価する。 ベンチマーク分析は、実践者への推奨ガイダンスによって結論づけられる。

The increasing automation in many areas of the Industry expressly demands to design efficient machine-learning solutions for the detection of abnormal events. With the ubiquitous deployment of sensors monitoring nearly continuously the health of complex infrastructures, anomaly detection can now rely on measurements sampled at a very high frequency, providing a very rich representation of the phenomenon under surveillance. In order to exploit fully the information thus collected, the observations cannot be treated as multivariate data anymore and a functional analysis approach is required. It is the purpose of this paper to investigate the performance of recent techniques for anomaly detection in the functional setup on real datasets. After an overview of the state-of-the-art and a visual-descriptive study, a variety of anomaly detection methods are compared. While taxonomies of abnormalities (e.g. shape, location) in the functional setup are documented in the literature, assigning a specific type to the identified anomalies appears to be a challenging task. Thus, strengths and weaknesses of the existing approaches are benchmarked in view of these highlighted types in a simulation study. Anomaly detection methods are next evaluated on two datasets, related to the monitoring of helicopters in flight and to the spectrometry of construction materials namely. The benchmark analysis is concluded by recommendation guidance for practitioners.
公開日:2022-01-13
翻訳日:2022-01-14 17:54:37
# (参考訳) nordiachange: ノルウェーのセマンティクス変化データセット [全文訳有]

NorDiaChange: Diachronic Semantic Change Dataset for Norwegian ( http://arxiv.org/abs/2201.05123v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov, Samia Touileb, Petter M{\ae}hlum, Tita Ranveig Enstad, Alexandra Wittemann(参考訳) NorDiaChangeはノルウェーにおける最初のダイアクロニック意味変化データセットである。 NorDiaChangeは2つの新しいサブセットから構成されており、ノルウェーの約80の名詞が時間とともに段階的な意味変化を伴って手動で注釈付けされている。 両方のデータセットは同じアノテーション手順に従っており、相互にトレーナーとテストスプリットとして使用できる。 NorDiaChangeは戦前の出来事や戦後の出来事、ノルウェーにおける石油とガスの発見、技術開発に関連する期間をカバーしている。 このアノテーションはDURELフレームワークと2つの大きなノルウェーの歴史的コーパスを用いて行われた。 NorDiaChangeは、生のアノテーションデータと推論ダイアロン語使用グラフ(DWUG)を備えたパーミッシブライセンスで全文公開されている。

We describe NorDiaChange: the first diachronic semantic change dataset for Norwegian. NorDiaChange comprises two novel subsets, covering about 80 Norwegian nouns manually annotated with graded semantic change over time. Both datasets follow the same annotation procedure and can be used interchangeably as train and test splits for each other. NorDiaChange covers the time periods related to pre- and post-war events, oil and gas discovery in Norway, and technological developments. The annotation was done using the DURel framework and two large historical Norwegian corpora. NorDiaChange is published in full under a permissive license, complete with raw annotation data and inferred diachronic word usage graphs (DWUGs).
公開日:2022-01-13
翻訳日:2022-01-14 17:33:34
# (参考訳) GradMax: 勾配情報を用いたニューラルネットワークの成長 [全文訳有]

GradMax: Growing Neural Networks using Gradient Information ( http://arxiv.org/abs/2201.05125v1 )

ライセンス: CC BY 4.0
Utku Evci, Max Vladymyrov, Thomas Unterthiner, Bart van Merri\"enboer, Fabian Pedregosa(参考訳) ニューラルネットワークのアーキテクチャとパラメータは独立して最適化されることが多く、アーキテクチャが修正されるたびにパラメータの調整に要する。 この作業では、コストのかかる再トレーニングを必要とせずに、アーキテクチャの成長に重点を置いています。 本稿では,学習中に学習内容に影響を与えることなく新たなニューロンを付加し,トレーニングのダイナミクスを改良する手法を提案する。 本研究では,新しい重みの勾配を最大化し,特異値分解(svd)により最適初期化を求める。 我々はこの手法を成長を最大化する勾配(gradmax)と呼び、様々なビジョンタスクやアーキテクチャにおいてその効果を示す。

The architecture and the parameters of neural networks are often optimized independently, which requires costly retraining of the parameters whenever the architecture is modified. In this work we instead focus on growing the architecture without requiring costly retraining. We present a method that adds new neurons during training without impacting what is already learned, while improving the training dynamics. We achieve the latter by maximizing the gradients of the new weights and find the optimal initialization efficiently by means of the singular value decomposition (SVD). We call this technique Gradient Maximizing Growth (GradMax) and demonstrate its effectiveness in variety of vision tasks and architectures.
公開日:2022-01-13
翻訳日:2022-01-14 17:19:12
# (参考訳) SimReg: 自己教師型知識蒸留のためのシンプルな効果的なツールとしての回帰 [全文訳有]

SimReg: Regression as a Simple Yet Effective Tool for Self-supervised Knowledge Distillation ( http://arxiv.org/abs/2201.05131v1 )

ライセンス: CC BY 4.0
K L Navaneet, Soroush Abbasi Koohpayegani, Ajinkya Tejankar, Hamed Pirsiavash(参考訳) 特徴回帰は、大きなニューラルネットワークモデルをより小さなものに蒸留する簡単な方法である。 ネットワークアーキテクチャの単純な変更により、回帰は自己教師付きモデルからの知識蒸留において、より複雑な最先端の手法よりも優れていることを示す。 驚くべきことに、cnnバックボーンに多層パーセプトロンヘッドを追加することは、蒸留中にのみ使用し、下流タスクで廃棄しても有益である。 これにより、推論アーキテクチャや時間を変更することなく、教師を正確に模倣することができる。 さらに,独立したプロジェクションヘッドを用いて複数の教師ネットワークを同時に蒸留する。 また, 教師ネットワークと学生ネットワークの双方の入力として, 同じ弱い強調画像を使用することで, 蒸留が促進されることがわかった。 ImageNetデータセットの実験は、様々な自己監督蒸留設定における提案された変更の有効性を示す。

Feature regression is a simple way to distill large neural network models to smaller ones. We show that with simple changes to the network architecture, regression can outperform more complex state-of-the-art approaches for knowledge distillation from self-supervised models. Surprisingly, the addition of a multi-layer perceptron head to the CNN backbone is beneficial even if used only during distillation and discarded in the downstream task. Deeper non-linear projections can thus be used to accurately mimic the teacher without changing inference architecture and time. Moreover, we utilize independent projection heads to simultaneously distill multiple teacher networks. We also find that using the same weakly augmented image as input for both teacher and student networks aids distillation. Experiments on ImageNet dataset demonstrate the efficacy of the proposed changes in various self-supervised distillation settings.
公開日:2022-01-13
翻訳日:2022-01-14 17:00:07
# (参考訳) 遅延オートエンコーダを用いた部分計測による制御方程式の発見 [全文訳有]

Discovering Governing Equations from Partial Measurements with Deep Delay Autoencoders ( http://arxiv.org/abs/2201.05136v1 )

ライセンス: CC BY 4.0
Joseph Bakarji, Kathleen Champion, J. Nathan Kutz and Steven L. Brunton(参考訳) データ駆動モデル発見の中心的な課題は、直接測定されていないが動的に重要な隠れた変数や潜在変数の存在である。 テイケンズの定理は、これらの部分的測定を時間遅延情報で拡張できるときの条件を与え、結果として元の完全状態系と微分同相の引き金となる。 しかし、元のアトラクタへの座標変換は典型的には未知であり、埋め込み空間における力学の学習は数十年にわたって未解決の課題であった。 そこで我々は、遅延埋め込み空間から新しい空間への座標変換を学習するための独自のディープオートエンコーダネットワークを設計する。 このアプローチをlorenz、r\"ossler、およびlotka-volterraシステムで実証し、単一の測定変数からダイナミクスを学習する。 挑戦的な例として,カオス水車実験のビデオから抽出した1つのスカラー変数からlorenzアナログを学習する。 得られたモデリングフレームワークは、深い学習と効果的な座標の解明、解釈可能なモデリングのための非線形力学(SINDy)のスパース同定を組み合わせる。 そこで本研究では, 閉形式モデルと関連する座標系を同時に学習し, 部分的に観察されるダイナミクスについて述べる。

A central challenge in data-driven model discovery is the presence of hidden, or latent, variables that are not directly measured but are dynamically important. Takens' theorem provides conditions for when it is possible to augment these partial measurements with time delayed information, resulting in an attractor that is diffeomorphic to that of the original full-state system. However, the coordinate transformation back to the original attractor is typically unknown, and learning the dynamics in the embedding space has remained an open challenge for decades. Here, we design a custom deep autoencoder network to learn a coordinate transformation from the delay embedded space into a new space where it is possible to represent the dynamics in a sparse, closed form. We demonstrate this approach on the Lorenz, R\"ossler, and Lotka-Volterra systems, learning dynamics from a single measurement variable. As a challenging example, we learn a Lorenz analogue from a single scalar variable extracted from a video of a chaotic waterwheel experiment. The resulting modeling framework combines deep learning to uncover effective coordinates and the sparse identification of nonlinear dynamics (SINDy) for interpretable modeling. Thus, we show that it is possible to simultaneously learn a closed-form model and the associated coordinate system for partially observed dynamics.
公開日:2022-01-13
翻訳日:2022-01-14 16:43:21
# (参考訳) 長期因果推論のための一般的なカーネルリッジ回帰:治療効果, 線量応答, および対物分布 [全文訳有]

Generalized Kernel Ridge Regression for Long Term Causal Inference: Treatment Effects, Dose Responses, and Counterfactual Distributions ( http://arxiv.org/abs/2201.05139v1 )

ライセンス: CC BY 4.0
Rahul Singh(参考訳) そこで, ランダム化処理と短期サロゲートを含む短期実験データセットと, 短期サロゲートと長期結果を含む長期観察データセットとを融合させた, 長期因果推論のためのカーネルリッジ回帰推定器を提案する。 本稿では, カーネル行列演算による処理効果, 線量応答, および閉形式解を用いた反ファクト分布の推定器を提案する。 共変量、処理、サロゲートを離散的、連続的、低、高、無限次元とすることを許す。 長期的な治療効果については、$\sqrt{n}$一貫性、ガウス近似、半パラメトリック効率を証明します。 長期線量反応では,有限サンプルレートと均一な一貫性が証明される。 長期的な反実分布については、分布の収束を証明します。

I propose kernel ridge regression estimators for long term causal inference, where a short term experimental data set containing randomized treatment and short term surrogates is fused with a long term observational data set containing short term surrogates and long term outcomes. I propose estimators of treatment effects, dose responses, and counterfactual distributions with closed form solutions in terms of kernel matrix operations. I allow covariates, treatment, and surrogates to be discrete or continuous, and low, high, or infinite dimensional. For long term treatment effects, I prove $\sqrt{n}$ consistency, Gaussian approximation, and semiparametric efficiency. For long term dose responses, I prove uniform consistency with finite sample rates. For long term counterfactual distributions, I prove convergence in distribution.
公開日:2022-01-13
翻訳日:2022-01-14 16:19:05
# (参考訳) データ解析のための完全適応ベイズアルゴリズム, FABADA [全文訳有]

Fully Adaptive Bayesian Algorithm for Data Analysis, FABADA ( http://arxiv.org/abs/2201.05145v1 )

ライセンス: CC BY 4.0
Pablo M Sanchez-Alarcon and Yago Ascasibar Sequeiros(参考訳) 本研究の目的は,1次元と2次元のデータ,例えば天文学的な画像やスペクトルの信号対雑音比を自動的に改善する,ベイズ推定の観点から,新しい非パラメトリックノイズ低減手法を記述することである。 このアルゴリズムはデータの平滑化可能なバージョンである平滑化モデルを反復的に評価し、ノイズ測定と統計的に互換性のある信号の推定を得る。 繰り返しは、最後の滑らかなモデルのエビデンスと$\chi^2$統計量に基づいて停止し、スムーズなモデルの集合全体の重み付き平均として信号の期待値を計算する。 本稿では,アルゴリズムの数学的形式化と数値的実装について述べるとともに,実天体観測のバッテリを用いて,ピーク信号と雑音比,構造的類似度指数,時間ペイロードを用いてその性能を評価する。 データ解析のための完全適応ベイズアルゴリズム(fabada)は、パラメータチューニングなしでは、実際のアプリケーションでは不可能である真の信号に基づいてパラメータを最適化した標準的な画像処理アルゴリズムに匹敵する結果をもたらす。 bm3dのような最先端の非パラメトリックな手法は高い信号対雑音比で少し性能が向上するが、超ノイズデータではアルゴリズムの方がかなり正確である(相対誤差が20~40ドル以上であり、天文学の分野に特に関心がある状況である)。 この範囲では, 復元によって得られた残留物の標準偏差は, 元の測定値よりも1桁以上小さくなる可能性がある。 このレポートで提示された結果をすべて再現するために必要なソースコードは、メソッドの実装を含めて、https://github.com/P abloMSanAla/fabadaで公開されている。

The aim of this paper is to describe a novel non-parametric noise reduction technique from the point of view of Bayesian inference that may automatically improve the signal-to-noise ratio of one- and two-dimensional data, such as e.g. astronomical images and spectra. The algorithm iteratively evaluates possible smoothed versions of the data, the smooth models, obtaining an estimation of the underlying signal that is statistically compatible with the noisy measurements. Iterations stop based on the evidence and the $\chi^2$ statistic of the last smooth model, and we compute the expected value of the signal as a weighted average of the whole set of smooth models. In this paper, we explain the mathematical formalism and numerical implementation of the algorithm, and we evaluate its performance in terms of the peak signal to noise ratio, the structural similarity index, and the time payload, using a battery of real astronomical observations. Our Fully Adaptive Bayesian Algorithm for Data Analysis (FABADA) yields results that, without any parameter tuning, are comparable to standard image processing algorithms whose parameters have been optimized based on the true signal to be recovered, something that is impossible in a real application. State-of-the-art non-parametric methods, such as BM3D, offer slightly better performance at high signal-to-noise ratio, while our algorithm is significantly more accurate for extremely noisy data (higher than $20-40\%$ relative errors, a situation of particular interest in the field of astronomy). In this range, the standard deviation of the residuals obtained by our reconstruction may become more than an order of magnitude lower than that of the original measurements. The source code needed to reproduce all the results presented in this report, including the implementation of the method, is publicly available at https://github.com/P abloMSanAla/fabada
公開日:2022-01-13
翻訳日:2022-01-14 15:40:32
# MAg: マイクロサテライト不安定性検出のための単純学習型患者レベルアグリゲーション法

MAg: a simple learning-based patient-level aggregation method for detecting microsatellite instability from whole-slide images ( http://arxiv.org/abs/2201.04769v1 )

ライセンス: Link先を確認
Kaifeng Pang, Zuhayr Asad, Shilin Zhao, Yuankai Huo(参考訳) 消化器癌におけるマイクロサテライト不安定性(MSI)とマイクロサテライト安定性(MSS)の予測は治療効果と予後の予測に不可欠である。 臨床実践では、ユニバーサルMSIテストが推奨されるが、そのようなテストのアクセシビリティは制限されている。 したがって、従来テストされていない患者をカバーするために、コスト効率が高く、広くアクセス可能なツールが望まれる。 近年,ヘマトキシリンとエオシン(H&E)を用いた全スライディング画像(WSI)から直接MSIを予測するディープラーニングベースのアルゴリズムが提案されている。 このようなアルゴリズムは,(1)パッチレベルのMSI/MSS予測,(2)患者レベルのアグリゲーションと要約できる。 第1段階で採用されている高度なディープラーニングアプローチと比較して,第2段階では,na\"ive first-order statistics(平均化とカウント)のみを採用した。 本稿では,パッチレベルの情報を効果的に統合するための,シンプルながら広く一般化可能な患者レベルMSIアグリゲーション(MAg)手法を提案する。 簡単に言えば、第一段階の確率分布全体はヒストグラムに基づく特徴としてモデル化され、機械学習の最終結果(SVMなど)として融合される。 提案手法は,ResNet,MobileNetV2, EfficientNet,Dpn,Res Nextの5つの広く使用されているディープニューラルネットワークで評価されている。 提案手法は,2つの公開データセットに対する患者レベルのアグリゲーションの精度を一貫して改善する。 提案手法が低コストなH&EベースのMSI検出手法を活用できることを願っている。 私たちの作業のコードはhttps://github.com/C alvin-Pang/MAg.comで公開されています。

The prediction of microsatellite instability (MSI) and microsatellite stability (MSS) is essential in predicting both the treatment response and prognosis of gastrointestinal cancer. In clinical practice, a universal MSI testing is recommended, but the accessibility of such a test is limited. Thus, a more cost-efficient and broadly accessible tool is desired to cover the traditionally untested patients. In the past few years, deep-learning-based algorithms have been proposed to predict MSI directly from haematoxylin and eosin (H&E)-stained whole-slide images (WSIs). Such algorithms can be summarized as (1) patch-level MSI/MSS prediction, and (2) patient-level aggregation. Compared with the advanced deep learning approaches that have been employed for the first stage, only the na\"ive first-order statistics (e.g., averaging and counting) were employed in the second stage. In this paper, we propose a simple yet broadly generalizable patient-level MSI aggregation (MAg) method to effectively integrate the precious patch-level information. Briefly, the entire probabilistic distribution in the first stage is modeled as histogram-based features to be fused as the final outcome with machine learning (e.g., SVM). The proposed MAg method can be easily used in a plug-and-play manner, which has been evaluated upon five broadly used deep neural networks: ResNet, MobileNetV2, EfficientNet, Dpn and ResNext. From the results, the proposed MAg method consistently improves the accuracy of patient-level aggregation for two publicly available datasets. It is our hope that the proposed method could potentially leverage the low-cost H&E based MSI detection method. The code of our work has been made publicly available at https://github.com/C alvin-Pang/MAg.
公開日:2022-01-13
翻訳日:2022-01-14 15:17:26
# 転校学習と弱監督をともなう小作農家システムにおける大規模耕作地区分の解脱

Unlocking large-scale crop field delineation in smallholder farming systems with transfer learning and weak supervision ( http://arxiv.org/abs/2201.04771v1 )

ライセンス: Link先を確認
Sherrie Wang, Francois Waldner, David B. Lobell(参考訳) 畑の境界は作物の種類をマッピングし、収穫量を予測し、農家にフィールドスケールの分析を提供する。 近年, 産業用農業システムにおけるフィールド境界決定へのディープラーニングの適用が成功しているが, 1) 衛星画像のデライン化を必要とする小フィールド, (2) モデルトレーニングと検証のためのグラウンドラベルの欠如などにより, フィールド境界データセットが小型システムに欠落している。 本研究では,これらの課題を克服するためにトランスファーラーニングと弱い監督を併用し,インドにおける手法の成功を実証し,そこでは1万の新しいフィールドラベルを効率よく生成する。 我々の最良のモデルでは、1.5m解像度のAirbus SPOTイメージを入力として使用し、フランスのフィールド境界に最先端のニューラルネットワークを事前トレーニングし、インドで0.86の中央値のIoU(Intersection over Union)を達成するために、インドのラベルを微調整します。 4.8m解像度のPlanetScope画像を使用すると、最良のモデルは0.72の中央値のIoUが得られる。 また、フランスでの事前トレーニングにより、特定のパフォーマンスレベルを達成するのに必要なインドフィールドラベルの数を、データセットが小さい場合には最大20\times$に削減することを示した。 これらの結果は,現在フィールドバウンダリデータセットを欠いている地域において,作物畑を区切るためのスケーラブルな手法であることを示唆している。 我々は,フィールド境界マップの作成とコミュニティによる新しい方法を容易にするために,10,000のラベルとデライン化モデルを公開する。

Crop field boundaries aid in mapping crop types, predicting yields, and delivering field-scale analytics to farmers. Recent years have seen the successful application of deep learning to delineating field boundaries in industrial agricultural systems, but field boundary datasets remain missing in smallholder systems due to (1) small fields that require high resolution satellite imagery to delineate and (2) a lack of ground labels for model training and validation. In this work, we combine transfer learning and weak supervision to overcome these challenges, and we demonstrate the methods' success in India where we efficiently generated 10,000 new field labels. Our best model uses 1.5m resolution Airbus SPOT imagery as input, pre-trains a state-of-the-art neural network on France field boundaries, and fine-tunes on India labels to achieve a median Intersection over Union (IoU) of 0.86 in India. If using 4.8m resolution PlanetScope imagery instead, the best model achieves a median IoU of 0.72. Experiments also show that pre-training in France reduces the number of India field labels needed to achieve a given performance level by as much as $20\times$ when datasets are small. These findings suggest our method is a scalable approach for delineating crop fields in regions of the world that currently lack field boundary datasets. We publicly release the 10,000 labels and delineation model to facilitate the creation of field boundary maps and new methods by the community.
公開日:2022-01-13
翻訳日:2022-01-14 15:16:53
# disentangling representation style transferとcollaborative consistency learningによるクロスモダリティ網膜血管セグメンテーションのための教師なし領域適応

Unsupervised Domain Adaptation for Cross-Modality Retinal Vessel Segmentation via Disentangling Representation Style Transfer and Collaborative Consistency Learning ( http://arxiv.org/abs/2201.04812v1 )

ライセンス: Link先を確認
Linkai Peng, Li Lin, Pujin Cheng, Ziqi Huang, Xiaoying Tang(参考訳) 医学画像から解剖学的構造を抽出するために様々なディープラーニングモデルが開発されているが、通常、異なるデータ分布を持つ別の対象領域でテストすると、性能が低下する。 近年、このいわゆるドメインシフト問題を軽減するため、教師なしドメイン適応法が提案されているが、その多くは、比較的小さなドメインシフトのシナリオのために設計されており、大きなドメインギャップに遭遇すると失敗する可能性が高い。 本稿では,OCTA と OCT 画像から網膜血管を分割するなど,大きな領域シフトを伴うタスクを対象とした,新しい非教師付きドメイン適応フレームワーク DCDA を提案する。 DCDAは主に、拡張表現スタイル転送(DRST)モジュールと、協調一貫性学習(CCL)モジュールで構成される。 DRSTは、画像をコンテンツコンポーネントとスタイルコードに分解し、スタイル転送とイメージ再構成を行う。 cclはソースドメインとターゲットドメインの2つのセグメンテーションモデルを含んでいる。 2つのモデルはラベル付きデータ(対応する転送画像とともに)を使用して教師付き学習を行い、ラベル付きデータ上で協調的一貫性学習を行う。 各モデルは対応する単一ドメインに焦点を当て、専門化されたドメイン固有のセグメンテーションモデルを得ることを目指している。 網膜血管のセグメンテーションに関する広範な実験により,OCTA,OCCT,OCTAの両領域において,Diceスコアを目標としたオラクルに近い精度で達成した。

Various deep learning models have been developed to segment anatomical structures from medical images, but they typically have poor performance when tested on another target domain with different data distribution. Recently, unsupervised domain adaptation methods have been proposed to alleviate this so-called domain shift issue, but most of them are designed for scenarios with relatively small domain shifts and are likely to fail when encountering a large domain gap. In this paper, we propose DCDA, a novel cross-modality unsupervised domain adaptation framework for tasks with large domain shifts, e.g., segmenting retinal vessels from OCTA and OCT images. DCDA mainly consists of a disentangling representation style transfer (DRST) module and a collaborative consistency learning (CCL) module. DRST decomposes images into content components and style codes and performs style transfer and image reconstruction. CCL contains two segmentation models, one for source domain and the other for target domain. The two models use labeled data (together with the corresponding transferred images) for supervised learning and perform collaborative consistency learning on unlabeled data. Each model focuses on the corresponding single domain and aims to yield an expertized domain-specific segmentation model. Through extensive experiments on retinal vessel segmentation, our framework achieves Dice scores close to target-trained oracle both from OCTA to OCT and from OCT to OCTA, significantly outperforming other state-of-the-art methods.
公開日:2022-01-13
翻訳日:2022-01-14 15:16:23
# 条件付き目的物を用いたフレキシブルスタイル画像超解像

Flexible Style Image Super-Resolution using Conditional Objective ( http://arxiv.org/abs/2201.04898v1 )

ライセンス: Link先を確認
Seung Ho Park, Young Su Moon and Nam Ik Cho(参考訳) 近年の研究では、畳み込みニューラルネットワーク(CNN)を用いた単一画像超解像(SR)の性能が著しく向上している。 入力に対して多くの高分解能(hr)ソリューションが存在するが、既存のcnnベースのメソッドは推論中に代替ソリューションを探索しない。 代替SR結果を得るための典型的なアプローチは、損失重み付けの異なる複数のSRモデルを訓練し、これらのモデルの組み合わせを活用することである。 複数のモデルを使う代わりに、マルチタスク学習を生かして、様々な組み合わせの損失に対して単一の調整可能なSRモデルを訓練するより効率的な方法を提案する。 具体的には、訓練中に条件付き目的を持つSRモデルを最適化し、目的は異なる特徴レベルにおける複数の知覚的損失の重み付け和である。 重みは与えられた条件によって異なり、重みの集合はスタイルコントローラとして定義される。 また,空間的特徴変換層を備えたResidual-in-Residual Dense Blockである,このトレーニング手法に適したアーキテクチャを提案する。 推論フェーズでは、トレーニングされたモデルは、スタイル制御マップに基づいて、ローカルに異なる出力を生成することができます。 拡張実験により,提案したSRモデルは人工物なしで様々な望ましい再構築を行い,最先端のSR手法に匹敵する定量的性能が得られることが示された。

Recent studies have significantly enhanced the performance of single-image super-resolution (SR) using convolutional neural networks (CNNs). While there can be many high-resolution (HR) solutions for a given input, most existing CNN-based methods do not explore alternative solutions during the inference. A typical approach to obtaining alternative SR results is to train multiple SR models with different loss weightings and exploit the combination of these models. Instead of using multiple models, we present a more efficient method to train a single adjustable SR model on various combinations of losses by taking advantage of multi-task learning. Specifically, we optimize an SR model with a conditional objective during training, where the objective is a weighted sum of multiple perceptual losses at different feature levels. The weights vary according to given conditions, and the set of weights is defined as a style controller. Also, we present an architecture appropriate for this training scheme, which is the Residual-in-Residual Dense Block equipped with spatial feature transformation layers. At the inference phase, our trained model can generate locally different outputs conditioned on the style control map. Extensive experiments show that the proposed SR model produces various desirable reconstructions without artifacts and yields comparable quantitative performance to state-of-the-art SR methods.
公開日:2022-01-13
翻訳日:2022-01-14 15:15:55
# ナノ戦争は疫病の再発を引き起こし、協力の促進に失敗する

Nanowars can cause epidemic resurgence and fail to promote cooperation ( http://arxiv.org/abs/2201.04747v1 )

ライセンス: Link先を確認
Dirk Helbing, Matja\v{z} Perc(参考訳) 持続不可能で「人口過多」な世界では、ナノテクノロジーをベースとした自律兵器が人類の未来に何をもたらすのか? いくつかの洞察を得るために、ゲーム理論の思考実験を単純化する。 我々は,エージェントが公共財をプレイし,並行して流行が展開する集団を考える。 感染した病原体は特定の確率で殺害され、感受性のある共同作業員に置き換えられる。 このような「ナノワーズ」は、たとえ良好な行動や惑星の健康を促進しようとするとしても、協力を促進できないだけでなく、反復的な流行波の確率を著しく高めることを示す。 実際、新生児の協力者は、近所の亡命者にとって簡単に標的にできることがわかった。 したがって、反対に、議論された介入は、望んだように反対の効果を持ち、欠陥を促進するかもしれない。 また、感染した欠陥者の死亡率に重要なしきい値が見出され、回復する流行波が確実となる。 結論として,我々はナノテクノロジーと自律兵器の国際規制を緊急に求める。

In a non-sustainable, "over-populated" world, what might the use of nanotechnology-based targeted, autonomous weapons mean for the future of humanity? In order to gain some insights, we make a simplified game-theoretical thought experiment. We consider a population where agents play the public goods game, and where in parallel an epidemic unfolds. Agents that are infected defectors are killed with a certain probability and replaced by susceptible cooperators. We show that such "nanowars", even if aiming to promote good behavior and planetary health, fail not only to promote cooperation, but they also significantly increase the probability of repetitive epidemic waves. In fact, newborn cooperators turn out to be easy targets for defectors in their neighborhood. Therefore, counterintuitively, the discussed intervention may even have the opposite effect as desired, promoting defection. We also find a critical threshold for the death rate of infected defectors, beyond which resurgent epidemic waves become a certainty. In conclusion, we urgently call for international regulation of nanotechnology and autonomous weapons.
公開日:2022-01-13
翻訳日:2022-01-14 15:15:36
# ニューラルネットワークカーネルと記憶容量問題について

On neural network kernels and the storage capacity problem ( http://arxiv.org/abs/2201.04669v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) 本稿では,広層木状ニューラルネットワークにおける記憶容量問題と,広層ニューラルネットワークのカーネル限界に関する文献群との関係について再検討する。 具体的には、統計力学の文献で研究されている「効率的な順序パラメータ」は、無限幅ニューラルネットワークガウス過程カーネルと全く同じである。 この対応は、幅広い2層ニューラルネットワークの表現性とトレーサビリティを接続する。

In this short note, we reify the connection between work on the storage capacity problem in wide two-layer treelike neural networks and the rapidly-growing body of literature on kernel limits of wide neural networks. Concretely, we observe that the "effective order parameter" studied in the statistical mechanics literature is exactly equivalent to the infinite-width Neural Network Gaussian Process Kernel. This correspondence connects the expressivity and trainability of wide two-layer neural networks.
公開日:2022-01-12
翻訳日:2022-01-14 15:14:00
# 機械学習アルゴリズムを用いた脳腫瘍の検出

Detection of brain tumors using machine learning algorithms ( http://arxiv.org/abs/2201.04703v1 )

ライセンス: Link先を確認
Horacio Corral, Javier Melchor, Balam Sotelo, Jorge Vera(参考訳) 機械学習技術を用いて脳腫瘍の存在を検出するため,NMR画像の処理が可能なアルゴリズムを開発した。

An algorithm capable of processing NMR images was developed for analysis using machine learning techniques to detect the presence of brain tumors.
公開日:2022-01-12
翻訳日:2022-01-14 15:13:54
# ネットワーク用無線エッジにおけるマルチモーダルセンサデータの深層学習

Deep Learning on Multimodal Sensor Data at the Wireless Edge for Vehicular Network ( http://arxiv.org/abs/2201.04712v1 )

ライセンス: Link先を確認
Batool Salehi, Guillem Reus-Muns, Debashri Roy, Zifeng Wang, Tong Jian, Jennifer Dy, Stratis Ioannidis, and Kaushik Chowdhury(参考訳) 車両シナリオにおけるミリ波リンクのビーム選択は、全ての候補ビーム対間の徹底的な探索が短時間で完了できないため、難しい問題である。 我々は,LiDARやカメラ画像,GPSなどのセンサから収集したマルチモーダルデータを活用することで,ビーム選択の高速化によってこの問題を解決する。 本稿では,モバイルエッジコンピューティングセンター(MEC)において,ローカルだけでなくローカルでも実行可能な,個別のモダリティと分散融合型ディープラーニング(F-DL)アーキテクチャを提案する。 また,上述のf-dlアーキテクチャの出力次元を決定するために,実用的なビーム探索,mec処理,センサ対mecデータ配信遅延オーバーヘッドを考慮した最適化問題を定式化し,解決する。 市販の合成データと自家製データを用いた広範な評価の結果, 従来のrfのみのビームスイーピングに比べて, ビーム選択速度が95%, 96%向上したことがわかった。 f-dlはまた、トップ10ビーム対の予測において20-22%の精度で最先端技術を上回る。

Beam selection for millimeter-wave links in a vehicular scenario is a challenging problem, as an exhaustive search among all candidate beam pairs cannot be assuredly completed within short contact times. We solve this problem via a novel expediting beam selection by leveraging multimodal data collected from sensors like LiDAR, camera images, and GPS. We propose individual modality and distributed fusion-based deep learning (F-DL) architectures that can execute locally as well as at a mobile edge computing center (MEC), with a study on associated tradeoffs. We also formulate and solve an optimization problem that considers practical beam-searching, MEC processing and sensor-to-MEC data delivery latency overheads for determining the output dimensions of the above F-DL architectures. Results from extensive evaluations conducted on publicly available synthetic and home-grown real-world datasets reveal 95% and 96% improvement in beam selection speed over classical RF-only beam sweeping, respectively. F-DL also outperforms the state-of-the-art techniques by 20-22% in predicting top-10 best beam pairs.
公開日:2022-01-12
翻訳日:2022-01-14 15:13:52
# 最近近傍分類器の認証ロバスト性

Certifiable Robustness for Nearest Neighbor Classifiers ( http://arxiv.org/abs/2201.04770v1 )

ライセンス: Link先を確認
Austen Z. Fan and Paraschos Koutris(参考訳) mlモデルは通常、高品質の大規模データセットを使用してトレーニングされる。 しかし、トレーニングデータセットには一貫性のないデータや不完全なデータが含まれることが多い。 この問題に対処する一つの解決策は、モデルの予測が確実に堅牢かどうかを確認するアルゴリズムを開発することである。 分類器を生成し、テスト時に例を与える学習アルゴリズムが与えられると、不確定な(一貫性のない)データセットのすべての可能な世界(repairs)で訓練されたすべてのモデルによって予測された場合、分類結果が証明可能ロバストとなる。 この頑健性の概念は、ある答えの枠組みに自然に当てはまる。 本稿では,単純かつ広くデプロイされた分類アルゴリズムである$k$-Nearest Neighbors(k$-NN)のロバスト性証明の複雑さについて検討する。 当社の主な焦点は、整合性制約が関数依存(fds)である場合の一貫性のないデータセットにあります。 この設定のために、FDの集合として堅牢性を証明する複雑さを二分する:問題は多項式時間アルゴリズムを認めるか、coNPハードである。 さらに、あるラベルを予測できる可能性のある世界の数を数えることを目的として、問題の計数バージョンの同様の二分法を示す。 また,本研究の副産物として,独立した関心を持つ可能性のある最適部分修復の発見に関わる問題の複雑性を確立する。

ML models are typically trained using large datasets of high quality. However, training datasets often contain inconsistent or incomplete data. To tackle this issue, one solution is to develop algorithms that can check whether a prediction of a model is certifiably robust. Given a learning algorithm that produces a classifier and given an example at test time, a classification outcome is certifiably robust if it is predicted by every model trained across all possible worlds (repairs) of the uncertain (inconsistent) dataset. This notion of robustness falls naturally under the framework of certain answers. In this paper, we study the complexity of certifying robustness for a simple but widely deployed classification algorithm, $k$-Nearest Neighbors ($k$-NN). Our main focus is on inconsistent datasets when the integrity constraints are functional dependencies (FDs). For this setting, we establish a dichotomy in the complexity of certifying robustness w.r.t. the set of FDs: the problem either admits a polynomial time algorithm, or it is coNP-hard. Additionally, we exhibit a similar dichotomy for the counting version of the problem, where the goal is to count the number of possible worlds that predict a certain label. As a byproduct of our study, we also establish the complexity of a problem related to finding an optimal subset repair that may be of independent interest.
公開日:2022-01-13
翻訳日:2022-01-14 15:13:34
# クラウドソーシング信号マップの難読化におけるプライバシ・ユーティリティ取引

Privacy-Utility Trades in Crowdsourced Signal Map Obfuscation ( http://arxiv.org/abs/2201.04782v1 )

ライセンス: Link先を確認
Jiang Zhang, Lillian Clark, Matthew Clark, Konstantinos Psounis, Peter Kairouz(参考訳) セルラープロバイダとデータ集約企業は、ユーザデバイスからセルラー信号強度測定をクラウドソースして、信号マップを生成する。 このデータ収集がプライバシーの懸念に対する認識の高まりと相反する可能性があることを認識して、データをモバイル端末に残す前にそのようなデータを難読化することを検討する。 目標は、難読化されたデータ(例えば、ユーザidとユーザの居場所)から機密機能を回復しにくくすると同時に、ネットワークプロバイダがそのデータをネットワークサービスの改善(すなわち正確なシグナルマップの作成)に使用できるように、プライバシを向上することである。 このプライバシ利用のトレードオフを調べるために、私たちは、信号強度測定に適したプライバシとユーティリティメトリクスと脅威モデルを特定します。 次に,様々な難読化アプローチのベンチマークと,実用性を損なうことなくプライバシを保護するための信号マップ構築を任務とする実世界エンジニアへのガイダンスを提供するため,ディファレンシャルプライバシ,ジェネラティブ敵プライバシ,情報理論プライバシ技術など,いくつかの先行技術を用いて測定値の難読化を行う。 評価結果は,多種多様な実世界の信号マップデータセットに基づいて,設計においてデータセットの構造と意図した利用,最悪の場合ではなく平均ケースを対象とする難読化戦略を用いて,適切なプライバシーと実用性を同時に達成する可能性を示す。

Cellular providers and data aggregating companies crowdsource celluar signal strength measurements from user devices to generate signal maps, which can be used to improve network performance. Recognizing that this data collection may be at odds with growing awareness of privacy concerns, we consider obfuscating such data before the data leaves the mobile device. The goal is to increase privacy such that it is difficult to recover sensitive features from the obfuscated data (e.g. user ids and user whereabouts), while still allowing network providers to use the data for improving network services (i.e. create accurate signal maps). To examine this privacy-utility tradeoff, we identify privacy and utility metrics and threat models suited to signal strength measurements. We then obfuscate the measurements using several preeminent techniques, spanning differential privacy, generative adversarial privacy, and information-theoreti c privacy techniques, in order to benchmark a variety of promising obfuscation approaches and provide guidance to real-world engineers who are tasked to build signal maps that protect privacy without hurting utility. Our evaluation results, based on multiple, diverse, real-world signal map datasets, demonstrate the feasibility of concurrently achieving adequate privacy and utility, with obfuscation strategies which use the structure and intended use of datasets in their design, and target average-case, rather than worst-case, guarantees.
公開日:2022-01-13
翻訳日:2022-01-14 15:13:10
# 病院における機械学習のための信頼性が高くセキュアで信頼性の高いエンクレーブに向けて--emcp(essen medical computing platform)

Towards a trustworthy, secure and reliable enclave for machine learning in a hospital setting: The Essen Medical Computing Platform (EMCP) ( http://arxiv.org/abs/2201.04816v1 )

ライセンス: Link先を確認
Hendrik F. R. Schmidt (1), J\"org Schl\"otterer (1, 2, 3), Marcel Bargull (1), Enrico Nasca (1, 3), Ryan Aydelott (1), Christin Seifert (1, 2, 3), Folker Meyer (1, 2) ((1) Institute for Artificial Intelligence in Medicine, University Hospital Essen, Essen, Germany (2) University of Duisburg-Essen, Essen, Germany (3) Cancer Research Center Cologne Essen (CCCE), Essen, Germany)(参考訳) 大規模なAI/コンピューティングは、特にヘルスケア環境では難しい問題です。 我々は,ドイツの主要病院に付属するセキュアな研究コンピューティングエンクレーブであるessen medical computing platform (emcp) の実装に繋がる,要件,計画,実装の選択,指針について概説する。 コンプライアンス、データのプライバシ、ユーザビリティが、システムの不変要件だった。 我々は,コンピュータ・エンクレーブの機能について議論し,同様の設定を希望するグループのレシピを提供する。

AI/Computing at scale is a difficult problem, especially in a health care setting. We outline the requirements, planning and implementation choices as well as the guiding principles that led to the implementation of our secure research computing enclave, the Essen Medical Computing Platform (EMCP), affiliated with a major German hospital. Compliance, data privacy and usability were the immutable requirements of the system. We will discuss the features of our computing enclave and we will provide our recipe for groups wishing to adopt a similar setup.
公開日:2022-01-13
翻訳日:2022-01-14 15:12:41
# 4つのブラックボックス対応攻撃の評価とクエリ効率改善分析

Evaluation of Four Black-box Adversarial Attacks and Some Query-efficient Improvement Analysis ( http://arxiv.org/abs/2201.05001v1 )

ライセンス: Link先を確認
Rui Wang(参考訳) 機械学習技術の急速な発展に伴い、ディープラーニングモデルは日常生活のほぼあらゆる側面に展開されている。 しかし、これらのモデルのプライバシーとセキュリティは敵の攻撃によって脅かされている。 ブラックボックス攻撃は現実に近いもので、モデルから限られた知識を得ることができる。 本稿では,敵の攻撃に関する基本的な背景知識を提供し,バンディット,nes,スクエアアタック,zosignsgdの4つのブラックボックスアタックアルゴリズムを包括的に解析した。 また,新たに提案する正方形攻撃法を正方形サイズに対して検討し,クエリ効率の向上を期待した。

With the fast development of machine learning technologies, deep learning models have been deployed in almost every aspect of everyday life. However, the privacy and security of these models are threatened by adversarial attacks. Among which black-box attack is closer to reality, where limited knowledge can be acquired from the model. In this paper, we provided basic background knowledge about adversarial attack and analyzed four black-box attack algorithms: Bandits, NES, Square Attack and ZOsignSGD comprehensively. We also explored the newly proposed Square Attack method with respect to square size, hoping to improve its query efficiency.
公開日:2022-01-13
翻訳日:2022-01-14 15:11:30