このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220117となっている論文です。

PDF登録状況(公開日: 20220117)

TitleAuthorsAbstract論文公表日・翻訳日
# ビデオアクション認識のための階層型コントラストモーション学習

Hierarchical Contrastive Motion Learning for Video Action Recognition ( http://arxiv.org/abs/2007.10321v3 )

ライセンス: Link先を確認
Xitong Yang, Xiaodong Yang, Sifei Liu, Deqing Sun, Larry Davis, Jan Kautz(参考訳) ビデオアクション認識の中心的な問題は、動きのモデル化である。 本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。 我々のアプローチは、ネットワーク内の異なる抽象レベルに対応する動きの特徴の階層を段階的に学習する。 この階層的設計は、低レベルのモーションキューと高レベルの認識タスクのセマンティックギャップを橋渡しし、複数のレベルでの外観と動き情報の融合を促進する。 各レベルでは、コントラスト学習を通じて明示的な動き自己スーパービジョンが提供され、現在のレベルでの動作特徴を強制し、前のレベルでの将来の動きを予測する。 したがって、より高いレベルの動作特徴は、徐々に意味力学を捉え、より識別的なアクション認識へと進化するように訓練される。 私たちのモーションラーニングモジュールは軽量で、様々なバックボーンネットワークに組み込むのに柔軟です。 4つのベンチマークにおいて,提案手法が常に優れた結果が得られることを示す。

One central question for video action recognition is how to model motion. In this paper, we present hierarchical contrastive motion learning, a new self-supervised learning framework to extract effective motion representations from raw video frames. Our approach progressively learns a hierarchy of motion features that correspond to different abstraction levels in a network. This hierarchical design bridges the semantic gap between low-level motion cues and high-level recognition tasks, and promotes the fusion of appearance and motion information at multiple levels. At each level, an explicit motion self-supervision is provided via contrastive learning to enforce the motion features at the current level to predict the future ones at the previous level. Thus, the motion features at higher levels are trained to gradually capture semantic dynamics and evolve more discriminative for action recognition. Our motion learning module is lightweight and flexible to be embedded into various backbone networks. Extensive experiments on four benchmarks show that the proposed approach consistently achieves superior results.
翻訳日:2022-11-08 14:16:33 公開日:2022-01-17
# ほとんど)すべてのエンティティ解決

(Almost) All of Entity Resolution ( http://arxiv.org/abs/2008.04443v3 )

ライセンス: Link先を確認
Olivier Binette and Rebecca C. Steorts(参考訳) 目標は、議会地区に住む人々の数を見積もること、武力紛争で死亡した個人数を見積もること、あるいは書誌データを使って個々の著者を曖昧さから遠ざけること、いずれのアプリケーションも、複数のソースからの情報を統合するという共通のテーマを持っています。 このような疑問に答える前に、データベースを整理し、体系的かつ正確な方法で統合する必要がある。 本稿では,この領域の成長に繋がったモチベーション的応用とセミナル論文について概観する。 具体的には,1940年代から50年代にかけて始まった,現代の確率論的記録リンクに繋がる基礎研究について概観する。 本稿では, 人権, 公式統計, 医学, 引用ネットワークなどの応用において, 産業全体および学界で使用されている, エンティティ解決, 半教師あり手法, 標準化へのクラスタリングアプローチについて検討する。 最後に,本研究の実践的重要性について論じる。

Whether the goal is to estimate the number of people that live in a congressional district, to estimate the number of individuals that have died in an armed conflict, or to disambiguate individual authors using bibliographic data, all these applications have a common theme - integrating information from multiple sources. Before such questions can be answered, databases must be cleaned and integrated in a systematic and accurate way, commonly known as record linkage, de-duplication, or entity resolution. In this article, we review motivational applications and seminal papers that have led to the growth of this area. Specifically, we review the foundational work that began in the 1940's and 50's that have led to modern probabilistic record linkage. We review clustering approaches to entity resolution, semi- and fully supervised methods, and canonicalization, which are being used throughout industry and academia in applications such as human rights, official statistics, medicine, citation networks, among others. Finally, we discuss current research topics of practical importance.
翻訳日:2022-10-31 23:31:12 公開日:2022-01-17
# ミニからミニマックス最適化へのゼロ階乗法と1階乗法

Accelerated Zeroth-Order and First-Order Momentum Methods from Mini to Minimax Optimization ( http://arxiv.org/abs/2008.08170v7 )

ライセンス: Link先を確認
Feihu Huang, Shangqian Gao, Jian Pei, Heng Huang(参考訳) 本稿では,非凸極小最適化と最小極小最適化の双方に対して,加速ゼロ階法と一階運動量法を提案する。 具体的には、関数値のみが得られるブラックボックス最小最適化のための新しい加速零次運動量(acc-zom)法を提案する。 さらに、このacc-zom法は、$\epsilon$-stationary pointを見つけるために$\tilde{o}(d^{3/4}\epsilon^{-3})$という低いクエリ複雑さを達成することを証明します。 特に、Acc-ZOMは、既存のゼロ階確率アルゴリズムに必要な大きなバッチを必要としない。 一方,関数値のみが得られるブラックボックスミニマックス最適化のための高速化されたゼロ次運動量降下上昇法(acc-zomda)を提案する。 acc-zomda は $\tilde{o}((d_1+d_2)^{3/4}\kappa_y^{4.5}\epsilon^{-3})$ という低いクエリ複雑さを得ることができ、ここで $d_1$ と $d_2$ は変数次元を表し、$\kappa_y$ は条件数である。 また,Acc-MDA法を極小最適化のための高速化した1次運動量降下法を提案する。 我々のAcc-MDAは、$\epsilon$-stationary点を見つけるために大きなバッチを必要とすることなく、$\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$の低勾配の複雑性を達成する。 特に、我々のacc-mdaは、バッチサイズ$o(\kappa_y^4)$で$\tilde{o}(\kappa_y^{2.5}\epsilon^{-3})$という低い勾配複雑性を得ることができる。 ディープニューラルネットワークに対するブラックボックス逆攻撃とロジスティック回帰に対する中毒攻撃の広範な実験結果から,アルゴリズムの効率性が証明された。

In the paper, we propose a class of accelerated zeroth-order and first-order momentum methods for both nonconvex mini-optimization and minimax-optimization. Specifically, we propose a new accelerated zeroth-order momentum (Acc-ZOM) method for black-box mini-optimization where only function values can be obtained. Moreover, we prove that our Acc-ZOM method achieves a lower query complexity of $\tilde{O}(d^{3/4}\epsilon^{-3})$ for finding an $\epsilon$-stationary point, which improves the best known result by a factor of $O(d^{1/4})$ where $d$ denotes the variable dimension. In particular, our Acc-ZOM does not need large batches required in the existing zeroth-order stochastic algorithms. Meanwhile, we propose an accelerated zeroth-order momentum descent ascent (Acc-ZOMDA) method for black-box minimax optimization, where only function values can be obtained. Our Acc-ZOMDA obtains a low query complexity of $\tilde{O}((d_1+d_2)^{3/4}\kappa_y^{4.5}\epsilon^{-3})$ without requiring large batches for finding an $\epsilon$-stationary point, where $d_1$ and $d_2$ denote variable dimensions and $\kappa_y$ is condition number. Moreover, we propose an accelerated first-order momentum descent ascent (Acc-MDA) method for minimax optimization, whose explicit gradients are accessible. Our Acc-MDA achieves a low gradient complexity of $\tilde{O}(\kappa_y^{4.5}\epsilon^{-3})$ without requiring large batches for finding an $\epsilon$-stationary point. In particular, our Acc-MDA can obtain a lower gradient complexity of $\tilde{O}(\kappa_y^{2.5}\epsilon^{-3})$ with a batch size $O(\kappa_y^4)$, which improves the best known result by a factor of $O(\kappa_y^{1/2})$. Extensive experimental results on black-box adversarial attack to deep neural networks and poisoning attack to logistic regression demonstrate efficiency of our algorithms.
翻訳日:2022-10-27 21:21:09 公開日:2022-01-17
# サイド情報を用いた動的システム学習

Learning Dynamical Systems with Side Information ( http://arxiv.org/abs/2008.10135v2 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Bachir El Khadir(参考訳) 本稿では,いくつかの軌跡の雑音観測から力学系を学習する問題に対する数学的・計算的な枠組みについて述べる。 副次的な情報は、軌跡データ以外に学ぶべき力学系についての知識である。 通常、ドメイン固有の知識や科学分野の基本原理から推測される。 我々は、軌道観測の不足を補うために、学習プロセスにサイド情報を明示的に統合することに興味がある。 我々は、多くのアプリケーションで自然に発生する6種類のサイド情報を特定し、学習問題の凸制約に導く。 まず、未知の力学系のモデルが多項式としてパラメータ化されると、半定値プログラミングによって側情報制約を計算的に課すことができることを示す。 次に, 物理・細胞生物学における基礎モデルのダイナミクスを学習するだけでなく, 疫学におけるモデルのダイナミクスを学習し制御するために, サイド情報の付加価値を示す。 最後に, 多項式力学系がサイド情報(正確にも, ほぼ)を満足しながら, 連続微分可能系をいかによく近似できるかを検討する。 我々の学習方法論は、凸最適化、実代数、力学系、関数近似理論からのアイデアを結合し、これらの領域間の新しい相乗効果をもたらす可能性がある。

We present a mathematical and computational framework for the problem of learning a dynamical system from noisy observations of a few trajectories and subject to side information. Side information is any knowledge we might have about the dynamical system we would like to learn besides trajectory data. It is typically inferred from domain-specific knowledge or basic principles of a scientific discipline. We are interested in explicitly integrating side information into the learning process in order to compensate for scarcity of trajectory observations. We identify six types of side information that arise naturally in many applications and lead to convex constraints in the learning problem. First, we show that when our model for the unknown dynamical system is parameterized as a polynomial, one can impose our side information constraints computationally via semidefinite programming. We then demonstrate the added value of side information for learning the dynamics of basic models in physics and cell biology, as well as for learning and controlling the dynamics of a model in epidemiology. Finally, we study how well polynomial dynamical systems can approximate continuously-differentiable ones while satisfying side information (either exactly or approximately). Our overall learning methodology combines ideas from convex optimization, real algebra, dynamical systems, and functional approximation theory, and can potentially lead to new synergies between these areas.
翻訳日:2022-10-26 03:19:16 公開日:2022-01-17
# Reward Machines:Reinforcement LearningにおけるReward関数構造の爆発

Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning ( http://arxiv.org/abs/2010.03950v2 )

ライセンス: Link先を確認
Rodrigo Toro Icarte, Toryn Q. Klassen, Richard Valenzano, Sheila A. McIlraith(参考訳) 強化学習(RL)法は通常、報酬関数をブラックボックスとして扱う。 そのため、報酬と最適ポリシーを発見するためには、環境と広範囲に対話する必要がある。 しかし、ほとんどのRLアプリケーションでは、ユーザーは報酬関数をプログラムする必要があるため、報酬関数のコードをRLエージェントに示す機会がある。 本稿では,このアイデアを2つのステップで実現する方法を示す。 まず,報酬関数構造を露呈しながら報酬関数の特定を支援する有限状態機械の一種である報酬機械を提案する。 次に,この構造を学習支援に活用するための方法論として,報酬の自動生成,タスクの分解,オフポリシー学習による反事実推論などについて述べる。 表状および連続的なドメインの実験は、異なるタスクやRLエージェントを通して、サンプル効率と結果のポリシーの品質に関して報酬構造を利用する利点を示している。 最後に、有限状態機械の形式であることにより、報酬機械は正規言語の表現力を有し、補助ループ、シーケンス、条件式、および線形時相論理や非マルコフ的報酬仕様に典型的な時間拡張特性を表現することができる。

Reinforcement learning (RL) methods usually treat reward functions as black boxes. As such, these methods must extensively interact with the environment in order to discover rewards and optimal policies. In most RL applications, however, users have to program the reward function and, hence, there is the opportunity to make the reward function visible -- to show the reward function's code to the RL agent so it can exploit the function's internal structure to learn optimal policies in a more sample efficient manner. In this paper, we show how to accomplish this idea in two steps. First, we propose reward machines, a type of finite state machine that supports the specification of reward functions while exposing reward function structure. We then describe different methodologies to exploit this structure to support learning, including automated reward shaping, task decomposition, and counterfactual reasoning with off-policy learning. Experiments on tabular and continuous domains, across different tasks and RL agents, show the benefits of exploiting reward structure with respect to sample efficiency and the quality of resultant policies. Finally, by virtue of being a form of finite state machine, reward machines have the expressive power of a regular language and as such support loops, sequences and conditionals, as well as the expression of temporally extended properties typical of linear temporal logic and non-Markovian reward specification.
翻訳日:2022-10-10 05:45:19 公開日:2022-01-17
# 非正規モデルに対する耐性と予測間隔

Tolerance and Prediction Intervals for Non-normal Models ( http://arxiv.org/abs/2011.11583v5 )

ライセンス: Link先を確認
Geoffrey S Johnson(参考訳) 予測間隔は、繰り返しサンプリングされるランダムプロセスから将来の観測をカバーし、典型的には、補助統計量である中心的な量を特定することによって構成される。 同様に、許容間隔は反復サンプリングで人口のパーセンタイルをカバーし、しばしば重要な量に基づいている。 非正規モデルにおける1つのアプローチは、ほぼ通常に分布する中心的な量をもたらすリンク関数を利用する。 この正規近似が成立しない環境では、平均に対する信頼区間に基づいて、寛容と予測のための第二のアプローチを考える。 これらの手法は直感的で実装が簡単で、適切な操作特性を持ち、ベイジアンや再サンプリング、機械学習に比べて計算効率が良い。 本研究は, 起立障害を伴う多施設臨床試験, 治療実世界時間, 臨床エンドポイントの終末期成功の文脈で実証された。

A prediction interval covers a future observation from a random process in repeated sampling, and is typically constructed by identifying a pivotal quantity that is also an ancillary statistic. Analogously, a tolerance interval covers a population percentile in repeated sampling and is often based on a pivotal quantity. One approach we consider in non-normal models leverages a link function resulting in a pivotal quantity that is approximately normally distributed. In settings where this normal approximation does not hold we consider a second approach for tolerance and prediction based on a confidence interval for the mean. These methods are intuitive, simple to implement, have proper operating characteristics, and are computationally efficient compared to Bayesian, re-sampling, and machine learning methods. This is demonstrated in the context of multi-site clinical trial recruitment with staggered site initiation, real-world time on treatment, and end-of-study success for a clinical endpoint.
翻訳日:2022-09-22 03:14:20 公開日:2022-01-17
# (参考訳) 多層パーセプトロンを用いた中揮発性資産の株式取引システム

A Stock Trading System for a Medium Volatile Asset using Multi Layer Perceptron ( http://arxiv.org/abs/2201.12286v1 )

ライセンス: CC BY 4.0
Ivan Letteri, Giuseppe Della Penna, Giovanni De Gasperis, Abeer Dyoub(参考訳) 株式市場の予測は有望な利益をもたらす利益の分野であるが、その困難がなければ、一部の人々にとっては失敗の原因になるかもしれない。 その性質による金融市場は複雑で非線形であり、混乱しているため、その一部である資産の価格を正確に予測することが非常に複雑になる。 本稿では,ニューヨーク証券取引所 (nyse) の株式市場において, abercrombie & fitch co. (anf) が発行する株価のうち,次の30日間の公開市場価格を予測するために,フィードフォワードディープニューラルネットワーク (dnn) を主要コアとする株式取引システムを提案する。 私たちが精査したシステムは、DNNが計算した予測に適用して、最も効果的な技術指標を計算し、取引を生成する。 その結果、シャープ、ソーティーノ、カルダー比の2.194、3.340、12.403との利益率の2.112%の期待値が上昇した。 本システムでは,過去30日間の公開市場における取引データと実際のテストデータとをマッピングするバックトラックシミュレーションモジュールを,本システムに導入した。 全体としては、わずか1ヶ月で100ドルという控えめな予算から全体の利益率を3.2%と約束していた。 これは、最も効果的で効率的な取引を選択し、手数料と滑走費用を節約することで、取引の数を削減できた。

Stock market forecasting is a lucrative field of interest with promising profits but not without its difficulties and for some people could be even causes of failure. Financial markets by their nature are complex, non-linear and chaotic, which implies that accurately predicting the prices of assets that are part of it becomes very complicated. In this paper we propose a stock trading system having as main core the feed-forward deep neural networks (DNN) to predict the price for the next 30 days of open market, of the shares issued by Abercrombie & Fitch Co. (ANF) in the stock market of the New York Stock Exchange (NYSE). The system we have elaborated calculates the most effective technical indicator, applying it to the predictions computed by the DNNs, for generating trades. The results showed an increase in values such as Expectancy Ratio of 2.112% of profitable trades with Sharpe, Sortino, and Calmar Ratios of 2.194, 3.340, and 12.403 respectively. As a verification, we adopted a backtracking simulation module in our system, which maps trades to actual test data consisting of the last 30 days of open market on the ANF asset. Overall, the results were promising bringing a total profit factor of 3.2% in just one month from a very modest budget of $100. This was possible because the system reduced the number of trades by choosing the most effective and efficient trades, saving on commissions and slippage costs.
翻訳日:2022-02-06 11:25:38 公開日:2022-01-17
# (参考訳) 変分埋め込み学習フレームワークを用いたCTR予測におけるコールドスタート問題軽減

Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework ( http://arxiv.org/abs/2201.10980v1 )

ライセンス: CC BY 4.0
Xiaoxiao Xu, Chen Yang, Qian Yu, Zhiwei Fang, Jiaxing Wang, Chaosheng Fan, Yang He, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) 本稿では,CTR予測における寒冷開始問題を軽減するための変分埋め込み学習フレームワーク(VELF)を提案する。 velfは、データ分離によって引き起こされる過剰適合を2つの方法で緩和することで、コールドスタート問題に対処する。学習確率的埋め込みと、コールドスタートユーザと広告(ads)の豊富なサイド情報を利用するトレーニング可能かつ正規化された事前情報の導入である。 2つのテクニックは自然に変分推論フレームワークに統合され、エンドツーエンドのトレーニングプロセスを形成する。 ベンチマークデータセットに対する実証実験の欠如は、提案したVELFの利点をよく示している。 さらに、拡張実験により、パラメータ化および正規化プリミティブが従来の固定プリミティブよりもより一般化できることが確認された。

We propose a general Variational Embedding Learning Framework (VELF) for alleviating the severe cold-start problem in CTR prediction. VELF addresses the cold start problem via alleviating over-fits caused by data-sparsity in two ways: learning probabilistic embedding, and incorporating trainable and regularized priors which utilize the rich side information of cold start users and advertisements (Ads). The two techniques are naturally integrated into a variational inference framework, forming an end-to-end training process. Abundant empirical tests on benchmark datasets well demonstrate the advantages of our proposed VELF. Besides, extended experiments confirmed that our parameterized and regularized priors provide more generalization capability than traditional fixed priors.
翻訳日:2022-01-30 12:41:00 公開日:2022-01-17
# MOBAゲームDota 2における逐次項目推薦

Sequential Item Recommendation in the MOBA Game Dota 2 ( http://arxiv.org/abs/2201.08724v1 )

ライセンス: Link先を確認
Alexander Dallmann, Johannes Kohlmann, Daniel Zoller and Andreas Hotho(参考訳) Dota 2のようなマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームは毎年何十万人ものプレイヤーを惹きつけている。 大きなプレイヤー基盤にもかかわらず、ゲームのコミュニティが不活発になることを防ぐために新しいプレイヤーを引き付けることが依然として重要である。 しかし、MOBAゲームに参加することはしばしば要求され、プレイヤーは一度に多くのスキルを学ぶ必要がある。 成功の重要な要因は、既に購入したアイテムやチーム構成、利用可能なリソースなど、ゲーム内要因によって複雑なタスクを形成する正しいアイテムを購入することです。 推奨システムは、適切なアイテムを選択するのに必要な精神的労力を削減し、例えば、より長い休憩後にゲームに戻る新しいプレイヤーまたはプレイヤーが、ゲームの他の側面に集中するのを助けることで、プレイヤーを支援することができる。 シークエンシャルアイテムレコメンデーション(SIR)は、様々なドメイン(eコマース、映画レコメンデーション、プレイリスト継続など)で有効であることが証明されているため、Dota 2における購入レコメンデーションの文脈において、よく知られたSIRモデルの適用性について検討する。 この研究を容易にするために、最近のdota 2マッチに基づく新しい大規模データセットであるdota-350kを収集、分析、公開する。 Dota 2では、SIRモデルをアイテムレコメンデーションに効果的に利用することができる。 その結果,購入順序を考慮したモデルが最も効果的であることが判明した。 他のドメインとは対照的に、我々は最新のTransformerベースのアーキテクチャをDota-350kで上回るRNNベースのモデルを見つけました。

Multiplayer Online Battle Arena (MOBA) games such as Dota 2 attract hundreds of thousands of players every year. Despite the large player base, it is still important to attract new players to prevent the community of a game from becoming inactive. Entering MOBA games is, however, often demanding, requiring the player to learn numerous skills at once. An important factor of success is buying the correct items which forms a complex task depending on various in-game factors such as already purchased items, the team composition, or available resources. A recommendation system can support players by reducing the mental effort required to choose a suitable item, helping, e.g., newer players or players returning to the game after a longer break, to focus on other aspects of the game. Since Sequential Item Recommendation (SIR) has proven to be effective in various domains (e.g. e-commerce, movie recommendation or playlist continuation), we explore the applicability of well-known SIR models in the context of purchase recommendations in Dota 2. To facilitate this research, we collect, analyze and publish Dota-350k, a new large dataset based on recent Dota 2 matches. We find that SIR models can be employed effectively for item recommendation in Dota 2. Our results show that models that consider the order of purchases are the most effective. In contrast to other domains, we find RNN-based models to outperform the more recent Transformer-based architectures on Dota-350k.
翻訳日:2022-01-30 11:37:04 公開日:2022-01-17
# (参考訳) フレームレート制限時間分解能の相関分光実験における非平衡ダイナミクスの量子化アルゴリズム

Machine Learning Enhances Algorithms for Quantifying Non-Equilibrium Dynamics in Correlation Spectroscopy Experiments to Reach Frame-Rate-Limited Time Resolution ( http://arxiv.org/abs/2201.07889v1 )

ライセンス: CC BY 4.0
Tatiana Konstantinova, Lutz Wiegart, Maksim Rakitin, Anthony M DeGennaro and Andi M Barbour(参考訳) 非平衡ダイナミクスのためのx線光子相関分光法(xpcs)データの解析は、しばしば強度-強度相関関数の年齢領域の手動双対を必要とする。 これは時間分解能の喪失と、特に大きなノイズのある場合の力学を定量化するパラメータの体系的誤差の蓄積につながる。 さらに、高いデータ収集率による実験は、手動のバイナリ化が不可能なオンライン自動解析の必要性を生んでいる。 本稿では,非平衡二時間強度-強度相関関数の解析のためのアルゴリズムに,デノナイズドオートエンコーダモデルを統合する。 このモデルは任意のサイズの入力に適用することができる。 ノイズ低減は、フレームレートのみに制限された時間分解能でサンプルダイナミクスを特徴付けるパラメータを抽出することができる。 データの量的使用量を改善するだけでなく、分析ワークフローを自動化する可能性も生み出します。 不確実性定量化のための様々なアプローチと異常検出モデルの拡張について考察した。

Analysis of X-ray Photon Correlation Spectroscopy (XPCS) data for non-equilibrium dynamics often requires manual binning of age regions of an intensity-intensity correlation function. This leads to a loss of temporal resolution and accumulation of systematic error for the parameters quantifying the dynamics, especially in cases with considerable noise. Moreover, the experiments with high data collection rates create the need for automated online analysis, where manual binning is not possible. Here, we integrate a denoising autoencoder model into algorithms for analysis of non-equilibrium two-time intensity-intensity correlation functions. The model can be applied to an input of an arbitrary size. Noise reduction allows to extract the parameters that characterize the sample dynamics with temporal resolution limited only by frame rates. Not only does it improve the quantitative usage of the data, but it also creates the potential for automating the analytical workflow. Various approaches for uncertainty quantification and extension of the model for anomalies detection are discussed.
翻訳日:2022-01-22 07:01:18 公開日:2022-01-17
# (参考訳) 深部観察に向けて:超音波画像による胎児観察のための人工知能技術に関する体系的調査

Towards deep observation: A systematic survey on artificial intelligence techniques to monitor fetus via Ultrasound Images ( http://arxiv.org/abs/2201.07935v1 )

ライセンス: CC BY 4.0
Mahmood Alzubaidi, Marco Agus, Khalid Alyafei, Khaled A Althelaya, Uzair Shah, Alaa A. Abdalrazaq, Mohammed Anbar, Zafar Iqbal, and Mowafa Househ(参考訳) 胎児のモニタリング向上を目的とした革新的な情報学アプローチの確立は、生殖医学における新たな研究分野である。 妊娠成績を改善する人工知能(AI)技術に関するいくつかのレビューが実施されている。 妊娠中の母親のケアなどの特定のデータに焦点を合わせることで制限される。 この体系的な調査は、人工知能(AI)が超音波(US)画像による胎児の成長モニタリングをどのように支援できるかを探求することを目的としている。 我々は、PubMed、Embase、PsycINFO、ScienceDirect、IEEE Explor、ACM Library、Google Scholar、Web of Scienceを含む8つの医学・コンピュータ科学文献データベースを使用しました。 2010年から2021年にかけて出版された研究を回収した。 ナラティブ・アプローチを用いて研究から抽出したデータを合成した。 検索した1269件のうち,このトピックに関連するクエリから107件を抽出した。 2次元超音波画像は3次元超音波画像と4次元超音波画像より人気が高い(n=88)ことがわかった(n=19)。 分類は最も多く用いられる方法(n=42)、次にセグメンテーション(n=31)、セグメンテーション(n=16)、およびオブジェクト検出、回帰、強化学習(n=18)などの雑多な分類である。 最も一般的な妊娠領域は胎児頭(n=43)、胎児体(n=31)、胎児心臓(n=13)、胎児腹部(n=10)、胎児の顔(n=10)であった。 最近の研究では、主にディープラーニング技術(n=81)を使用し、次に機械学習(n=16)、ニューラルネットワーク(n=7)、強化学習(n=2)が続いた。 ai技術は胎児疾患の予測や妊娠中の胎児解剖構造同定に重要な役割を果たした。 パイロットスタディやランダムに制御されたAIとその病院での応用など、医師の観点からこの技術を検証するためには、さらなる研究が必要である。

Developing innovative informatics approaches aimed to enhance fetal monitoring is a burgeoning field of study in reproductive medicine. Several reviews have been conducted regarding Artificial intelligence (AI) techniques to improve pregnancy outcomes. They are limited by focusing on specific data such as mother's care during pregnancy. This systematic survey aims to explore how artificial intelligence (AI) can assist with fetal growth monitoring via Ultrasound (US) image. We used eight medical and computer science bibliographic databases, including PubMed, Embase, PsycINFO, ScienceDirect, IEEE explore, ACM Library, Google Scholar, and the Web of Science. We retrieved studies published between 2010 to 2021. Data extracted from studies were synthesized using a narrative approach. Out of 1269 retrieved studies, we included 107 distinct studies from queries that were relevant to the topic in the survey. We found that 2D ultrasound images were more popular (n=88) than 3D and 4D ultrasound images (n=19). Classification is the most used method (n=42), followed by segmentation (n=31), classification integrated with segmentation (n=16) and other miscellaneous such as object-detection, regression and reinforcement learning (n=18). The most common areas within the pregnancy domain were the fetus head (n=43), then fetus body (n=31), fetus heart (n=13), fetus abdomen (n=10), and lastly the fetus face (n=10). In the most recent studies, deep learning techniques were primarily used (n=81), followed by machine learning (n=16), artificial neural network (n=7), and reinforcement learning (n=2). AI techniques played a crucial role in predicting fetal diseases and identifying fetus anatomy structures during pregnancy. More research is required to validate this technology from a physician's perspective, such as pilot studies and randomized controlled trials on AI and its applications in a hospital setting.
翻訳日:2022-01-22 06:39:50 公開日:2022-01-17
# 球状ハアタイトフレームレットを用いた球面信号処理のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Spherical Signal Processing via Spherical Haar Tight Framelets ( http://arxiv.org/abs/2201.07890v1 )

ライセンス: Link先を確認
Jianfei Li, Han Feng, Xiaosheng Zhuang(参考訳) 本稿では,階層分割のある任意のコンパクト集合上にハール型タイトフレームレットを構築するための一般的な理論的枠組みを考案する。 特に, 2次元球面上の新しい領域規則的階層分割を構築し, 対応する球面ハールタイトフレームレットの方向性を確立した。 我々は,いくつかのデノイジング実験において,領域規則球形のhaarタイトフレームレットの有効性を評価し,その効果を明らかにした。 さらに,高速なフレームレット分解と再構成アルゴリズムを用いた球面信号復調のための畳み込みニューラルネットワーク(CNN)モデルを提案する。 実験の結果,提案するcnnモデルはしきい値法を上回り,強い一般化とロバスト性特性を処理できることがわかった。

In this paper, we develop a general theoretical framework for constructing Haar-type tight framelets on any compact set with a hierarchical partition. In particular, we construct a novel area-regular hierarchical partition on the 2-sphere and establish its corresponding spherical Haar tight framelets with directionality. We conclude by evaluating and illustrating the effectiveness of our area-regular spherical Haar tight framelets in several denoising experiments. Furthermore, we propose a convolutional neural network (CNN) model for spherical signal denoising which employs the fast framelet decomposition and reconstruction algorithms. Experiment results show that our proposed CNN model outperforms threshold methods, and processes strong generalization and robustness properties.
翻訳日:2022-01-21 13:58:37 公開日:2022-01-17
# 既存の慣性ベースデータセットの均質化による人間の活動認識支援

Homogenization of Existing Inertial-Based Datasets to Support Human Activity Recognition ( http://arxiv.org/abs/2201.07891v1 )

ライセンス: Link先を確認
Hamza Amrani, Daniela Micucci, Marco Mobilio, Paolo Napoletano(参考訳) 信号から日常生活の活動を認識するためのいくつかの手法が提案されている。 慣性信号に適用する深層学習手法は有効であることが証明されており、重要な分類精度を達成している。 近年,ヒト活動認識(HAR)モデルの研究はほぼ完全にモデル中心である。 トレーニングサンプルの数とその品質は、アーキテクチャから独立して機能し、クラス内の変動性とクラス間の類似性に対してより堅牢な深層学習モデルを得るために重要であることが証明されている。 残念ながら、公開されているデータセットには、常に高品質なデータと十分な量のサンプル(被験者数、実行された活動の種類、試行期間など)が含まれているとは限らない。 さらに、データセットはその間に不均一であり、したがってより大きな集合を得るために自明に組み合わせることはできない。 私たちの研究の最終目標は、慣性信号のデータセットを統合するプラットフォームの定義と実装であり、科学コミュニティが均質な信号からなる大きなデータセットを利用可能にするために、可能であればコンテキスト情報(例えば、対象とデバイスの位置)を充実させることです。 当社のプラットフォームの主な焦点は、効率的なモデルのトレーニングに不可欠なデータ品質を強調することです。

Several techniques have been proposed to address the problem of recognizing activities of daily living from signals. Deep learning techniques applied to inertial signals have proven to be effective, achieving significant classification accuracy. Recently, research in human activity recognition (HAR) models has been almost totally model-centric. It has been proven that the number of training samples and their quality are critical for obtaining deep learning models that both perform well independently of their architecture, and that are more robust to intraclass variability and interclass similarity. Unfortunately, publicly available datasets do not always contain hight quality data and a sufficiently large and diverse number of samples (e.g., number of subjects, type of activity performed, and duration of trials). Furthermore, datasets are heterogeneous among them and therefore cannot be trivially combined to obtain a larger set. The final aim of our work is the definition and implementation of a platform that integrates datasets of inertial signals in order to make available to the scientific community large datasets of homogeneous signals, enriched, when possible, with context information (e.g., characteristics of the subjects and device position). The main focus of our platform is to emphasise data quality, which is essential for training efficient models.
翻訳日:2022-01-21 13:58:25 公開日:2022-01-17
# (参考訳) 生成逆ネットワークを用いた指紋の合成と再構成

Synthesis and Reconstruction of Fingerprints using Generative Adversarial Networks ( http://arxiv.org/abs/2201.06164v1 )

ライセンス: CC BY 4.0
Rafael Bouzaglo and Yosi Keller(参考訳) 深層学習に基づくモデルは指紋認識の精度を向上させることが示されている。 これらのアルゴリズムは例外的な性能を示すが、訓練と評価には大規模な指紋データセットが必要である。 本研究では,StyleGan2アーキテクチャに基づく新しい指紋合成・再構築フレームワークを提案し,このような大規模データセットの取得に伴うプライバシー問題に対処する。 また,生成した指紋の属性を本人性を維持しながら修正する計算手法も提案する。 これにより、指ごとに複数の指紋画像を合成できる。 特に,合成指紋データセットを合成し,それぞれが同一のアイデンティティに対応する10k画像ペアからなる合成指紋データセットを提案する。 提案手法は, 指紋合成と復元の両面において, 現代的手法よりも優れていることを示した。 これは、視覚的にも指紋ベースの認証システムでも、生成された指紋の現実性を大幅に改善した。 コードと指紋のデータセットは、https://github.com/rafaelbou/fingerprint_generatorで公開されている。

Deep learning-based models have been shown to improve the accuracy of fingerprint recognition. While these algorithms show exceptional performance, they require large-scale fingerprint datasets for training and evaluation. In this work, we propose a novel fingerprint synthesis and reconstruction framework based on the StyleGan2 architecture, to address the privacy issues related to the acquisition of such large-scale datasets. We also derive a computational approach to modify the attributes of the generated fingerprint while preserving their identity. This allows synthesizing multiple different fingerprint images per finger. In particular, we introduce the SynFing synthetic fingerprints dataset consisting of 100K image pairs, each pair corresponding to the same identity. The proposed framework was experimentally shown to outperform contemporary state-of-the-art approaches for both fingerprint synthesis and reconstruction. It significantly improved the realism of the generated fingerprints, both visually and in terms of their ability to spoof fingerprint-based verification systems. The code and fingerprints dataset are publicly available: https://github.com/rafaelbou/fingerprint_generator.
翻訳日:2022-01-21 09:26:02 公開日:2022-01-17
# (参考訳) 地盤真理材料を含まないhtrモデルの評価

Evaluation of HTR models without Ground Truth Material ( http://arxiv.org/abs/2201.06170v1 )

ライセンス: CC BY 4.0
Phillip Benjamin Str\"obel, Simon Clematide, Martin Volk, Raphael Schwitter, Tobias Hodel, David Schoch(参考訳) HTRは教師付き問題であるため、通常のデータをトレーニング、検証、テストデータセットに分割することで、精度やエラー率の観点からモデルの評価が可能になる。 しかし、開発からアプリケーションに移行すると、評価プロセスはトリッキーになります。 モデルを適用したいデータのサンプルから新しい(そして強制的に小さい)基底真理(GT)をコンパイルし、それに続くモデルの評価は、モデルの信頼性スコア(利用可能であれば)が返されるように、認識されたテキストの品質に関するヒントを提供するのみである。 さらに、複数のモデルが手元にある場合、アプリケーション段階で可能な最良の結果を得たいため、モデル選択の問題に直面します。 そのために私たちは、単純でレキシコンベースのものから、標準言語モデルとマスク言語モデル(mlm)を使用してより精巧なものまで、さまざまなメトリクスを(再)導入し比較します。 MLMに基づく評価は,大規模・多言語変換器が容易に利用できるという利点を活かして,レキシコンベースの手法と競合しうることを示す。

The evaluation of Handwritten Text Recognition (HTR) models during their development is straightforward: because HTR is a supervised problem, the usual data split into training, validation, and test data sets allows the evaluation of models in terms of accuracy or error rates. However, the evaluation process becomes tricky as soon as we switch from development to application. A compilation of a new (and forcibly smaller) ground truth (GT) from a sample of the data that we want to apply the model on and the subsequent evaluation of models thereon only provides hints about the quality of the recognised text, as do confidence scores (if available) the models return. Moreover, if we have several models at hand, we face a model selection problem since we want to obtain the best possible result during the application phase. This calls for GT-free metrics to select the best model, which is why we (re-)introduce and compare different metrics, from simple, lexicon-based to more elaborate ones using standard language models and masked language models (MLM). We show that MLM-based evaluation can compete with lexicon-based methods, with the advantage that large and multilingual transformers are readily available, thus making compiling lexical resources for other metrics superfluous.
翻訳日:2022-01-21 09:10:09 公開日:2022-01-17
# (参考訳) サンキャスト:地球同期衛星データによる太陽照度ノキャスティング

SunCast: Solar Irradiance Nowcasting from Geosynchronous Satellite Data ( http://arxiv.org/abs/2201.06173v1 )

ライセンス: CC BY 4.0
Dhileeban Kumaresan, Richard Wang, Ernesto Martinez, Richard Cziva, Alberto Todeschini, Colorado J Reed, Hossein Vahabi(参考訳) 雲層が太陽光発電(pv)パネルを覆うと、パネルが生成する電力は急速に変動する。 そのため、電力網に十分なエネルギーを供給するために、電力会社は通常化石燃料から供給される予備電源に依存しているため、環境を汚染している。 正確な短期的なPV電力予測により、オペレーターはPVパネルから得られる電力量を最大化し、化石燃料源から必要な予備エネルギーを安全に削減することができる。 いくつかの研究は、特定の太陽光発電施設で太陽放射を予測するための機械学習モデルを開発したが、地球規模で短期太陽放射をモデル化するための研究はほとんど行われていない。 さらに、開発されたモデルはプロプライエタリで、公開されていない、または数値気象予測(nwp)モデルを必要とするアーキテクチャを持っている。 本稿では,nwpモデルよりも効率が良く,簡素で再現可能なアーキテクチャを有するソーラー・ナッシングを次世代のフレーム予測問題として扱う畳み込み型長期短期記憶ネットワークモデルを提案する。 われわれのモデルは、GPUを使わずに1台のマシンで最大3時間60秒で北米全土の太陽光照射を予測でき、2ヶ月のデータで評価するとRMSEは120W/m2となる。

When cloud layers cover photovoltaic (PV) panels, the amount of power the panels produce fluctuates rapidly. Therefore, to maintain enough energy on a power grid to match demand, utilities companies rely on reserve power sources that typically come from fossil fuels and therefore pollute the environment. Accurate short-term PV power prediction enables operators to maximize the amount of power obtained from PV panels and safely reduce the reserve energy needed from fossil fuel sources. While several studies have developed machine learning models to predict solar irradiance at specific PV generation facilities, little work has been done to model short-term solar irradiance on a global scale. Furthermore, models that have been developed are proprietary and have architectures that are not publicly available or rely on computationally demanding Numerical Weather Prediction (NWP) models. Here, we propose a Convolutional Long Short-Term Memory Network model that treats solar nowcasting as a next frame prediction problem, is more efficient than NWP models and has a straightforward, reproducible architecture. Our models can predict solar irradiance for entire North America for up to 3 hours in under 60 seconds on a single machine without a GPU and has a RMSE of 120 W/m2 when evaluated on 2 months of data.
翻訳日:2022-01-21 08:55:56 公開日:2022-01-17
# (参考訳) 地震体積における突発的構造検出のための新しい注意モデル

A novel attention model for salient structure detection in seismic volumes ( http://arxiv.org/abs/2201.06174v1 )

ライセンス: CC BY 4.0
Muhammad Amir Shafiq, Zhiling Long, Haibin Di, Ghassan AlRegib(参考訳) 視覚認識と人間の視覚システムモデリングを活用するために,新しい地震解釈手法を提案する。 具体的には,地震データボリューム内の地下構造を同定するために,新しい注意モデルに基づく塩分検出アルゴリズムを提案する。 このアルゴリズムは3D-FFTと多次元スペクトル投影を用いて、局所スペクトルを3つの異なる成分に分解する。 続いて,各ボクセルの方向比較を投影次元内の塩分検出に組み込むために,新しい指向性センタサーラウンドアテンションモデルを提案する。 次に,各次元に沿ったサリエンシマップを適応的に組み合わせて統合されたサリエンシマップを生成し,隣接する部分に対する微妙な変化と相対的な動きを特徴とする様々な構造を明らかにする。 地震データに関する事前情報は、方向比較において提案する注意モデルに組み込むか、サリエンシーマップを適応的に組み合わせてテンプレートを指定することでアルゴリズムに組み込むことができる。 ニュージーランドの北海, オランダ, グレート・サウス・ベースンから得られた2つの実際の地震データセットの実験結果から, 従来の地震解釈アルゴリズムとは大きく異なる性質と外観の健全な地震構造を検出するアルゴリズムの有効性が示された。 さらに, 提案手法は, 地震画像データに不適な自然画像やビデオに対して, 最先端の精度検出アルゴリズムよりも優れていることを示す。

A new approach to seismic interpretation is proposed to leverage visual perception and human visual system modeling. Specifically, a saliency detection algorithm based on a novel attention model is proposed for identifying subsurface structures within seismic data volumes. The algorithm employs 3D-FFT and a multi-dimensional spectral projection, which decomposes local spectra into three distinct components, each depicting variations along different dimensions of the data. Subsequently, a novel directional center-surround attention model is proposed to incorporate directional comparisons around each voxel for saliency detection within each projected dimension. Next, the resulting saliency maps along each dimension are combined adaptively to yield a consolidated saliency map, which highlights various structures characterized by subtle variations and relative motion with respect to their neighboring sections. A priori information about the seismic data can be either embedded into the proposed attention model in the directional comparisons, or incorporated into the algorithm by specifying a template when combining saliency maps adaptively. Experimental results on two real seismic datasets from the North Sea, Netherlands and Great South Basin, New Zealand demonstrate the effectiveness of the proposed algorithm for detecting salient seismic structures of different natures and appearances in one shot, which differs significantly from traditional seismic interpretation algorithms. The results further demonstrate that the proposed method outperforms comparable state-of-the-art saliency detection algorithms for natural images and videos, which are inadequate for seismic imaging data.
翻訳日:2022-01-21 08:48:35 公開日:2022-01-17
# (参考訳) LoGフィルタとそのゼロクロスを用いた高速高精度アイリス分割法

A fast and accurate iris segmentation method using an LoG filter and its zero-crossings ( http://arxiv.org/abs/2201.06176v1 )

ライセンス: CC BY 4.0
Tariq M. Khan, Donald G. bailey, Yinan Kong(参考訳) 本稿では,ガウスフィルタ(LoG)のラプラシアン,領域成長,LoGフィルタのゼロ交叉に基づくアイリスの局所化を実現するためのハイブリッド手法を提案する。 提案手法では, 瞳孔領域を検出するために, 領域が成長するLoGフィルタを用いる。 その後、LoGフィルタのゼロクロスは、内側および外側の円形境界を正確にマークするために使用される。 LoGベースのブロブ検出とゼロクロス検出を使用することで、内側と外側の円検出は迅速かつ堅牢になる。 提案手法は、MMUバージョン1.0、CASIA-IrisV1、CASIA-IrisV3-ランプの3つの公開データベースでテストされている。 実験の結果,提案手法のセグメンテーション精度が示された。 提案手法のロバスト性は, まつげ, 瞳孔の反射, ポアソン, ガウス, スペックル, ソルト・アンド・ペッパーノイズなどのノイズの存在下でも検証できる。 提案手法との比較により,提案手法の精度と性能が向上したことを示す。

This paper presents a hybrid approach to achieve iris localization based on a Laplacian of Gaussian (LoG) filter, region growing, and zero-crossings of the LoG filter. In the proposed method, an LoG filter with region growing is used to detect the pupil region. Subsequently, zero-crossings of the LoG filter are used to accurately mark the inner and outer circular boundaries. The use of LoG based blob detection along with zero-crossings makes the inner and outer circle detection fast and robust. The proposed method has been tested on three public databases: MMU version 1.0, CASIA-IrisV1 and CASIA-IrisV3- Lamp. The experimental results demonstrate the segmentation accuracy of the proposed method. The robustness of the proposed method is also validated in the presence of noise, such as eyelashes, a reflection of the pupil, Poisson, Gaussian, speckle and salt-and-pepper noise. The comparison with well-known methods demonstrates the superior performance of the proposed method's accuracy and speed.
翻訳日:2022-01-21 08:35:42 公開日:2022-01-17
# (参考訳) 文法的誤り訂正における品質評価の精度

Proficiency Matters Quality Estimation in Grammatical Error Correction ( http://arxiv.org/abs/2201.06199v1 )

ライセンス: CC BY 4.0
Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi(参考訳) 本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。 GEC評価のQEモデルは,手作業による評価と高い相関関係が得られた。 しかし,実世界の文脈で機能する場合,従来の研究は比較的熟練度の高い学習者によってデータに偏りがあったため,報告結果に使用されるデータには限界がある。 この問題に対処するために、複数の熟練度レベルを含むQEデータセットを作成し、ECのQEの熟練度評価を行う必要性について検討した。 実験により,評価データセットの習熟度の違いがQEモデルの性能に影響を及ぼし,習熟度評価がより堅牢なモデル作成に役立つことが示された。

This study investigates how supervised quality estimation (QE) models of grammatical error correction (GEC) are affected by the learners' proficiency with the data. QE models for GEC evaluations in prior work have obtained a high correlation with manual evaluations. However, when functioning in a real-world context, the data used for the reported results have limitations because prior works were biased toward data by learners with relatively high proficiency levels. To address this issue, we created a QE dataset that includes multiple proficiency levels and explored the necessity of performing proficiency-wise evaluation for QE of GEC. Our experiments demonstrated that differences in evaluation dataset proficiency affect the performance of QE models, and proficiency-wise evaluation helps create more robust models.
翻訳日:2022-01-21 08:22:08 公開日:2022-01-17
# (参考訳) グラフ畳み込みネットワークにおける隣接バックドア攻撃

Neighboring Backdoor Attacks on Graph Convolutional Network ( http://arxiv.org/abs/2201.06202v1 )

ライセンス: CC BY 4.0
Liang Chen, Qibiao Peng, Jintang Li, Yang Liu, Jiawei Chen, Yong Li, Zibin Zheng(参考訳) バックドア攻撃は、モデルが特定の入力(トリガー)を認識した時にのみ起動される通常のモデルにおける誤分類規則を隠すために広く研究されている。 しかし、従来のユークリッド空間での成功にもかかわらず、グラフ構造データに対するバックドア攻撃の研究はほとんどない。 本稿では,隣接するバックドアと呼ばれるグラフデータに特有の新しいタイプのバックドアを提案する。 グラフデータの離散性を考えると、元のタスクでモデルの精度を維持しながらトリガを効果的に設計する方法が大きな課題である。 このような課題に対処するため、我々はトリガーを単一ノードとして設定し、トリガーノードがターゲットノードに接続されているときにバックドアが起動する。 モデルの精度を維持するために、モデルのパラメータを変更することは許されない。 したがって、トリガーノードが接続されていない場合、モデルは正常に実行される。 これらの設定の下で、この作業では、トリガーノードの機能の生成に重点を置いています。 1) 特徴生成の近似解を求める線形グラフ畳み込みバックドア(整数計画問題と見なすことができる)は、gcnsの線形部分を調べることで得られる。 (2)既存のグラフ攻撃の変種。 我々は現在の勾配に基づく攻撃方法をバックドア攻撃シナリオに拡張する。 2つのソーシャルネットワークと2つの引用ネットワークデータセットに関する大規模な実験により、提案されたバックドアはすべて、予測精度に影響を与えることなく、およそ100倍の攻撃成功率を達成可能であることが示された。

Backdoor attacks have been widely studied to hide the misclassification rules in the normal models, which are only activated when the model is aware of the specific inputs (i.e., the trigger). However, despite their success in the conventional Euclidean space, there are few studies of backdoor attacks on graph structured data. In this paper, we propose a new type of backdoor which is specific to graph data, called neighboring backdoor. Considering the discreteness of graph data, how to effectively design the triggers while retaining the model accuracy on the original task is the major challenge. To address such a challenge, we set the trigger as a single node, and the backdoor is activated when the trigger node is connected to the target node. To preserve the model accuracy, the model parameters are not allowed to be modified. Thus, when the trigger node is not connected, the model performs normally. Under these settings, in this work, we focus on generating the features of the trigger node. Two types of backdoors are proposed: (1) Linear Graph Convolution Backdoor which finds an approximation solution for the feature generation (can be viewed as an integer programming problem) by looking at the linear part of GCNs. (2) Variants of existing graph attacks. We extend current gradient-based attack methods to our backdoor attack scenario. Extensive experiments on two social networks and two citation networks datasets demonstrate that all proposed backdoors can achieve an almost 100\% attack success rate while having no impact on predictive accuracy.
翻訳日:2022-01-21 08:13:50 公開日:2022-01-17
# (参考訳) エッジコンピューティングにおけるデータストリーム分類のためのバッグングアンサンブルの性能とエネルギー消費のバランス付け

Balancing Performance and Energy Consumption of Bagging Ensembles for the Classification of Data Streams in Edge Computing ( http://arxiv.org/abs/2201.06205v1 )

ライセンス: CC BY 4.0
Guilherme Cassales, Heitor Gomes, Albert Bifet, Bernhard Pfahringer, Hermes Senger(参考訳) 近年、エッジコンピューティング(EC)パラダイムは、IoT(Internet of Things)や5Gネットワークのようなテクノロジ開発を可能にする要因として現れ、クラウドコンピューティングサービスとエンドユーザ間のギャップを埋め、低レイテンシ、モビリティ、遅延に敏感なアプリケーションに対する位置認識をサポートする。 ECのほとんどのソリューションは、連続的および進化的なデータストリーム上でデータ分類やその他の情報処理タスクを実行するために機械学習(ML)メソッドを使用している。 通常、そのようなソリューションは、エネルギー消費、レイテンシ、アルゴリズムの予測性能のバランスをとりながら、データストリームとしてやってくる膨大なデータに対処する必要があります。 アンサンブル手法は、複数のモデルの組み合わせと選択的リセットの可能性によって、進化するデータストリームに適用されると顕著な予測性能を達成する。 本研究では,バッキングアンサンブルの性能(遅延,スループット)とエネルギー消費を最適化し,データストリームを分類する手法を検討する。 OzaBag, OzaBag Adaptive Size Hoeffding Tree, Online Bagging ADWIN, Leveraging Bagging, Adaptive RandomForest, Streaming Random Patchesの6つの最先端アンサンブルアルゴリズムが,3つのコンピュータプラットフォームでさまざまな特徴を持つ5つの機械学習ベンチマークデータセットを適用した。 このような戦略は、評価された実験シナリオの96%でエネルギー消費を大幅に削減することができる。 トレードオフにもかかわらず、予測性能の大幅な損失を避けるためにバランスをとることができる。

In recent years, the Edge Computing (EC) paradigm has emerged as an enabling factor for developing technologies like the Internet of Things (IoT) and 5G networks, bridging the gap between Cloud Computing services and end-users, supporting low latency, mobility, and location awareness to delay-sensitive applications. Most solutions in EC employ machine learning (ML) methods to perform data classification and other information processing tasks on continuous and evolving data streams. Usually, such solutions have to cope with vast amounts of data that come as data streams while balancing energy consumption, latency, and the predictive performance of the algorithms. Ensemble methods achieve remarkable predictive performance when applied to evolving data streams due to the combination of several models and the possibility of selective resets. This work investigates strategies for optimizing the performance (i.e., delay, throughput) and energy consumption of bagging ensembles to classify data streams. The experimental evaluation involved six state-of-art ensemble algorithms (OzaBag, OzaBag Adaptive Size Hoeffding Tree, Online Bagging ADWIN, Leveraging Bagging, Adaptive RandomForest, and Streaming Random Patches) applying five widely used machine learning benchmark datasets with varied characteristics on three computer platforms. Such strategies can significantly reduce energy consumption in 96% of the experimental scenarios evaluated. Despite the trade-offs, it is possible to balance them to avoid significant loss in predictive performance.
翻訳日:2022-01-21 07:47:48 公開日:2022-01-17
# (参考訳) ビデオ段落キャプションにおけるコヒーレンス評価のための談話分析

Discourse Analysis for Evaluating Coherence in Video Paragraph Captions ( http://arxiv.org/abs/2201.06207v1 )

ライセンス: CC BY 4.0
Arjun R Akula, Song-Chun Zhu(参考訳) ビデオ段落作成は、ビデオ中のアクションのコヒーレントな段落記述を自動的に生成するタスクである。 従来の言語研究では、自然言語テキストのコヒーレンスはその談話構造と関係によって反映されていることが示されている。 しかし,既存のビデオキャプション手法では,人文アノテーションとのみ比較して生成段落のコヒーレンスを評価し,その基盤となる談話構造を説明できない。 UCLAでは,ビデオのコヒーレンスを評価するための新しい談話ベースのフレームワークを現在検討中である。 私たちのアプローチの中心は、ビデオのコヒーレンスに基づく段落のコヒーレンスをモデル化するのに役立つビデオの談話表現です。 また,3000ビデオとその段落の視覚的談話アノテーションを含む新しいデータセットであるDisNetを紹介する。 実験の結果,提案手法はビデオ段落のコヒーレンスをベースライン法よりも有意に向上することが示された。 我々は、ビジュアルダイアログやビジュアルストーリーテリングなど、他の多くの多分野の人工知能問題も、提案されたvisual discourse frameworkとdisnetデータセットの恩恵を受けると信じている。

Video paragraph captioning is the task of automatically generating a coherent paragraph description of the actions in a video. Previous linguistic studies have demonstrated that coherence of a natural language text is reflected by its discourse structure and relations. However, existing video captioning methods evaluate the coherence of generated paragraphs by comparing them merely against human paragraph annotations and fail to reason about the underlying discourse structure. At UCLA, we are currently exploring a novel discourse based framework to evaluate the coherence of video paragraphs. Central to our approach is the discourse representation of videos, which helps in modeling coherence of paragraphs conditioned on coherence of videos. We also introduce DisNet, a novel dataset containing the proposed visual discourse annotations of 3000 videos and their paragraphs. Our experiment results have shown that the proposed framework evaluates coherence of video paragraphs significantly better than all the baseline methods. We believe that many other multi-discipline Artificial Intelligence problems such as Visual Dialog and Visual Storytelling would also greatly benefit from the proposed visual discourse framework and the DisNet dataset.
翻訳日:2022-01-21 07:28:07 公開日:2022-01-17
# (参考訳) 極端条件における顔検出:機械学習によるアプローチ

Face Detection in Extreme Conditions: A Machine-learning Approach ( http://arxiv.org/abs/2201.06220v1 )

ライセンス: CC BY-SA 4.0
Sameer Aqib Hashmi, Dr. Mahdy Rahman Chowdhury(参考訳) 非制限条件下での顔検出は、様々な表現、明るさ、色付けのフリングのため、長年にわたって問題となっている。 近年の研究では、様々なガジェットやパターンの識別において、戦略の深層学習知識が優れたパフォーマンスを得ることができることが示されている。 非拘束環境における顔検出は, 様々なポーズ, 照度, 咬合などにより困難である。 写真を持った人物を見つけることは、メディアを通じて普及している。 しかし、指紋スキャンや網膜スキャンほど頑丈ではありません。 最新の研究では、ディープマスター技術がこれら2つの責務に対して、思いがけないパフォーマンスを得られることが示されています。 本稿では,それらの相互関係を利用して性能を向上する,深層カスケード型マルチベンチャーフレームワークを提案する。 特に、私のフレームワークでは、3つの層を慎重に設計した深い畳み込みネットワークでカスケードされた形状を採用しています。 また,手作業によるパターン選択を伴わずにロボットによる性能向上が可能な,オンラインのタフサンプルマイニング手法を提案する。

Face detection in unrestricted conditions has been a trouble for years due to various expressions, brightness, and coloration fringing. Recent studies show that deep learning knowledge of strategies can acquire spectacular performance inside the identification of different gadgets and patterns. This face detection in unconstrained surroundings is difficult due to various poses, illuminations, and occlusions. Figuring out someone with a picture has been popularized through the mass media. However, it's miles less sturdy to fingerprint or retina scanning. The latest research shows that deep mastering techniques can gain mind-blowing performance on those two responsibilities. In this paper, I recommend a deep cascaded multi-venture framework that exploits the inherent correlation among them to boost up their performance. In particular, my framework adopts a cascaded shape with 3 layers of cautiously designed deep convolutional networks that expect face and landmark region in a coarse-to-fine way. Besides, within the gaining knowledge of the procedure, I propose a new online tough sample mining method that can enhance the performance robotically without manual pattern choice.
翻訳日:2022-01-21 07:19:42 公開日:2022-01-17
# (参考訳) テーブル質問に対する韓国特有データセット

Korean-Specific Dataset for Table Question Answering ( http://arxiv.org/abs/2201.06223v1 )

ライセンス: CC BY-SA 4.0
Changwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang, Kyungkoo Min(参考訳) 既存の質問応答システムは、主にテキストデータを扱うことに焦点を当てている。 しかし、毎日生成されるデータの多くは、ドキュメントやリレーショナルデータベース、あるいはWebで見られるテーブルの形式で格納されます。 テーブル上の質問応答のタスクを解決するために、英語で書かれたテーブル質問応答のデータセットは数多く存在するが、韓国語データセットは少ない。 本稿では,テーブル質問応答のための韓国固有のデータセットの構築方法を示す。 韓国表型データセットは1.4mのテーブルの集合であり,教師なし事前学習言語モデルに対応する記述である。 韓国語表質問応答コーパスは,クラウドソース作業員が作成する70k組の質問と回答で構成されている。 その後、Transformerに基づいて事前訓練された言語モデルを構築し、これらのデータセットに答えるテーブル質問のモデルを微調整する。 次に,本モデルの評価結果を報告する。 当社のデータセットをgithubリポジトリ経由で公開し、これらのデータセットがテーブル上の質問応答やテーブルフォーマットの変換に関するさらなる研究に役立つことを期待しています。

Existing question answering systems mainly focus on dealing with text data. However, much of the data produced daily is stored in the form of tables that can be found in documents and relational databases, or on the web. To solve the task of question answering over tables, there exist many datasets for table question answering written in English, but few Korean datasets. In this paper, we demonstrate how we construct Korean-specific datasets for table question answering: Korean tabular dataset is a collection of 1.4M tables with corresponding descriptions for unsupervised pre-training language models. Korean table question answering corpus consists of 70k pairs of questions and answers created by crowd-sourced workers. Subsequently, we then build a pre-trained language model based on Transformer, and fine-tune the model for table question answering with these datasets. We then report the evaluation results of our model. We make our datasets publicly available via our GitHub repository, and hope that those datasets will help further studies for question answering over tables, and for transformation of table formats.
翻訳日:2022-01-21 07:11:29 公開日:2022-01-17
# (参考訳) 言語モデルに基づく会話レコメンデーションにおける意図しないバイアス

Unintended Bias in Language Model-drivenConversational Recommendation ( http://arxiv.org/abs/2201.06224v1 )

ライセンス: CC BY 4.0
Tianshu Shen, Jiaru Li, Mohamed Reda Bouadjenek, Zheda Mai, Scott Sanner(参考訳) Conversational Recommendation Systems (CRS)は、BERTのような事前訓練された言語モデル(LM)を活用して、幅広い好み文のバリエーションを意味論的に解釈する機能を提供している。 しかし、事前学習されたLMは、トレーニングデータに固有のバイアスが伴うことがよく知られており、これは、CRSのための微調整に使用されるドメイン固有の言語データ(例えば、ユーザレビュー)に埋め込まれたバイアスによって悪化する可能性がある。 我々は最近,CRS の LM によるレコメンデーションバックボーン (termedLMRec) を導入し,レストランのレコメンデーションの価格やカテゴリー分布が著しく変動している場合の,名前参照や性的指向の間接的指標などの言語的偏見や,レコメンデーションに影響を及ぼさない場所などについて検討した。 その結果,lmrecは有害なステレオタイプを推奨することで強化できることが強く示唆された。 例えば、黒人コミュニティに関連する名前のオフハンド言及は推奨レストランの価格分布を著しく下げる一方、男性関連の名前のオフハンド言及は推奨アルコール飲食施設の増加につながっている。 LM駆動CRSの言語処理能力が向上する赤旗は、将来のデプロイされたCRSアシスタントにおける意図しないバイアスを軽減し、数億人のエンドユーザにリーチする、という大きな課題を伴わない。

Conversational Recommendation Systems (CRSs) have recently started to leverage pretrained language models (LM) such as BERTfor their ability to semantically interpret a wide range of preference statement variations. However, pretrained LMs are well-known to be prone to intrinsic biases in their training data, which may be exacerbated by biases embedded in domain-specific language data(e.g., user reviews) used to fine-tune LMs for CRSs. We study are recently introduced LM-driven recommendation backbone (termedLMRec) of a CRS to investigate how unintended bias i.e., language variations such as name references or indirect indicators of sexual orientation or location that should not affect recommendations manifests in significantly shifted price and category distributions of restaurant recommendations. The alarming results we observe strongly indicate that LMRec has learned to reinforce harmful stereotypes through its recommendations. For example, offhand mention of names associated with the black community significantly lowers the price distribution of recommended restaurants, while offhand mentions of common male-associated names lead to an increase in recommended alcohol-serving establishments. These and many related results presented in this work raise a red flag that advances in the language handling capability of LM-drivenCRSs do not come without significant challenges related to mitigating unintended bias in future deployed CRS assistants with a potential reach of hundreds of millions of end users.
翻訳日:2022-01-21 06:38:26 公開日:2022-01-17
# (参考訳) 知識誘導層凍結による効率的なDNN訓練

Efficient DNN Training with Knowledge-Guided Layer Freezing ( http://arxiv.org/abs/2201.06227v1 )

ライセンス: CC BY 4.0
Yiding Wang, Decang Sun, Kai Chen, Fan Lai, Mosharaf Chowdhury(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングには時間を要する。 既存のほとんどのソリューションは、効率的なトレーニングのために計算とスケジューリングの重複と通信を試みているが、本論文は、DNN層凍結による計算と通信をスキップすることで一歩進める。 私たちの重要な洞察は、内部dnn層のトレーニングの進捗が著しく異なり、フロント層が深い層よりもずっと早くトレーニングされることが多いということです。 そこで我々はまず,内部DNN層の学習過程を定量化するために,塑性のトレーニングの概念を導入する。 そこで我々は,知識誘導型DNN訓練システムKGTを設計し,各レイヤの学習可塑性を正確に評価し,収束したものを安全に凍結し,対応する後方計算と通信を省く。 我々の参照モデルは、量子化技術を用いてオンザフライで生成され、利用可能なCPU上で非同期に前方操作を実行し、オーバーヘッドを最小限に抑える。 さらに、KGTは凍結した層の中間出力をプリフェッチでキャッシュし、フォワード計算をさらにスキップする。 一般的なビジョンと言語モデルを用いたテストベッド実験により、KGTは精度を犠牲にすることなく19%~43%のトレーニングスピードアップを達成した。

Training deep neural networks (DNNs) is time-consuming. While most existing solutions try to overlap/schedule computation and communication for efficient training, this paper goes one step further by skipping computing and communication through DNN layer freezing. Our key insight is that the training progress of internal DNN layers differs significantly, and front layers often become well-trained much earlier than deep layers. To explore this, we first introduce the notion of training plasticity to quantify the training progress of internal DNN layers. Then we design KGT, a knowledge-guided DNN training system that employs semantic knowledge from a reference model to accurately evaluate individual layers' training plasticity and safely freeze the converged ones, saving their corresponding backward computation and communication. Our reference model is generated on the fly using quantization techniques and runs forward operations asynchronously on available CPUs to minimize the overhead. In addition, KGT caches the intermediate outputs of the frozen layers with prefetching to further skip the forward computation. Our implementation and testbed experiments with popular vision and language models show that KGT achieves 19%-43% training speedup w.r.t. the state-of-the-art without sacrificing accuracy.
翻訳日:2022-01-21 06:15:26 公開日:2022-01-17
# (参考訳) MT-GBM:共有決定木を有するマルチタスク勾配昇降機

MT-GBM: A Multi-Task Gradient Boosting Machine with Shared Decision Trees ( http://arxiv.org/abs/2201.06239v1 )

ライセンス: CC BY 4.0
ZhenZhe Ying, Zhuoer Xu, Weiqiang Wang, Changhua Meng(参考訳) コンピュータビジョンと自然言語処理におけるディープラーニングの成功にもかかわらず、Gradient Boosted Decision Tree(GBDT)は、EコマースやFinTechといった表形式のデータを扱うアプリケーションにとって、最も強力なツールのひとつだ。 しかし、マルチタスク学習にGBDTを適用することは依然として課題である。 複数のタスク間で共有潜在表現を共同で学習できるディープモデルとは異なり、GBDTは共有ツリー構造をほとんど学べない。 本稿では,マルチタスク学習のためのgbdtベース手法であるマルチタスク勾配ブースティングマシン(mt-gbm)を提案する。 MT-GBMは、マルチタスクの損失に応じて、共有ツリー構造と分割ブランチを見つけることができる。 まず、各葉ノードに複数の出力を割り当てる。 次に、各出力(タスク)に対応する勾配を計算する。 また,全てのタスクの勾配を合成し,木を更新するアルゴリズムを提案する。 最後に、MT-GBMをLightGBMに適用する。 実験により, MT-GBMは主課題の性能を著しく向上し, 提案したMT-GBMは効率的かつ効果的であることがわかった。

Despite the success of deep learning in computer vision and natural language processing, Gradient Boosted Decision Tree (GBDT) is yet one of the most powerful tools for applications with tabular data such as e-commerce and FinTech. However, applying GBDT to multi-task learning is still a challenge. Unlike deep models that can jointly learn a shared latent representation across multiple tasks, GBDT can hardly learn a shared tree structure. In this paper, we propose Multi-task Gradient Boosting Machine (MT-GBM), a GBDT-based method for multi-task learning. The MT-GBM can find the shared tree structures and split branches according to multi-task losses. First, it assigns multiple outputs to each leaf node. Next, it computes the gradient corresponding to each output (task). Then, we also propose an algorithm to combine the gradients of all tasks and update the tree. Finally, we apply MT-GBM to LightGBM. Experiments show that our MT-GBM improves the performance of the main task significantly, which means the proposed MT-GBM is efficient and effective.
翻訳日:2022-01-21 05:46:43 公開日:2022-01-17
# (参考訳) 自動X線スキャン品質向上アルゴリズムによる臨床診断性能の向上

Improving Clinical Diagnosis Performance with Automated X-ray Scan Quality Enhancement Algorithms ( http://arxiv.org/abs/2201.06250v1 )

ライセンス: CC BY 4.0
Karthik K and Sowmya Kamath S(参考訳) 臨床診断において、スキャン装置から得られた診断画像は、質の高い医療を提供する過程におけるさらなる調査の予備的証拠となる。 しかし、しばしば医療画像には、ノイズ、ぼやけ、故障した機器によって引き起こされる異常なアーティファクトが含まれている。 この原因は、低品質または古い走査装置、試験環境や技術者の訓練不足などであるが、その結果、迅速で信頼性の高い診断のプロセスが妨げられている。 これらの問題を自動的に解決することは、病院の臨床ワークフローにおいて大きなプラスの影響を与える可能性がある。 本稿では,医用画像の超解像処理に適応・ベンチマークするための画像品質改善手法を提案する。 標準オープンデータセットを実験的に評価した結果、特定のアルゴリズムがより良く機能し、医療スキャンの診断品質が大幅に向上し、人間の診断目的の可視化が向上した。

In clinical diagnosis, diagnostic images that are obtained from the scanning devices serve as preliminary evidence for further investigation in the process of delivering quality healthcare. However, often the medical image may contain fault artifacts, introduced due to noise, blur and faulty equipment. The reason for this may be the low-quality or older scanning devices, the test environment or technicians lack of training etc; however, the net result is that the process of fast and reliable diagnosis is hampered. Resolving these issues automatically can have a significant positive impact in a hospital clinical workflow, where often, there is no other way but to work with faulty/older equipment or inadequately qualified radiology technicians. In this paper, automated image quality improvement approaches for adapted and benchmarked for the task of medical image super-resolution. During experimental evaluation on standard open datasets, the observations showed that certain algorithms perform better and show significant improvement in the diagnostic quality of medical scans, thereby enabling better visualization for human diagnostic purposes.
翻訳日:2022-01-21 05:34:25 公開日:2022-01-17
# (参考訳) 深層学習と位置予測を用いた頸動脈腔・血管壁の分節化

Segmentation of the Carotid Lumen and Vessel Wall using Deep Learning and Location Priors ( http://arxiv.org/abs/2201.06259v1 )

ライセンス: CC BY 4.0
Florian Thamm and Felix Denzinger and Leonhard Rist and Celia Martin Vicario and Florian Kordon and Andreas Maier(参考訳) 本報告では,頸動脈血管壁セグメンテーションチャレンジの方法と結果について紹介する。 そこで本研究では,u-netアーキテクチャと位置優先を利用した画像ベースパイプラインを提案する。

In this report we want to present our method and results for the Carotid Artery Vessel Wall Segmentation Challenge. We propose an image-based pipeline utilizing the U-Net architecture and location priors to solve the segmentation problem at hand.
翻訳日:2022-01-21 05:27:49 公開日:2022-01-17
# (参考訳) Gromovのリンク条件によるグリッドワールドの危険検出

Detecting danger in gridworlds using Gromov's Link Condition ( http://arxiv.org/abs/2201.06274v1 )

ライセンス: CC BY 4.0
Thomas F Burns and Robert Tang(参考訳) グリッドワールドは、ロボットナビゲーション、創発的行動、オペレーションリサーチなど、現実の多くのアプリケーションに対して、シンプルだがスケーラブルなモデルを提供するため、AI研究、特に強化学習で長い間利用されてきた。 abrams, ghrist & peterson による再構成可能なシステムと状態コンプレックスの数学的枠組みを用いてグリッドワールドの研究を開始する。 状態複体は、システムの可能なすべての構成を単一の幾何学的空間として表現し、幾何学的、位相的、あるいは組合せ的手法を用いて研究しやすくする。 この研究の主な貢献は、グリッドワールドの文脈に自然に適していると考えるオリジナルのAbrams, Ghrist & Petersonのセットアップの変更である。 この修正により、状態錯体は幾何学的欠陥(グロモフのリンク条件の障害)を示す可能性があるが、これらの失敗はグリッドワールドにおける望ましくない状態や危険な状態を示すことができる。 提案手法は,単一エージェントまたは複数エージェントによる個別タスク環境における安全性の保証を求める新しい手法であり,機械学習システムの構成や解析に有用な幾何学的・トポロジカルな情報を提供する。

Gridworlds have been long-utilised in AI research, particularly in reinforcement learning, as they provide simple yet scalable models for many real-world applications such as robot navigation, emergent behaviour, and operations research. We initiate a study of gridworlds using the mathematical framework of reconfigurable systems and state complexes due to Abrams, Ghrist & Peterson. State complexes represent all possible configurations of a system as a single geometric space, thus making them conducive to study using geometric, topological, or combinatorial methods. The main contribution of this work is a modification to the original Abrams, Ghrist & Peterson setup which we believe is more naturally-suited to the context of gridworlds. With this modification, the state complexes may exhibit geometric defects (failure of Gromov's Link Condition), however, we argue that these failures can indicate undesirable or dangerous states in the gridworld. Our results provide a novel method for seeking guaranteed safety limitations in discrete task environments with single or multiple agents, and offer potentially useful geometric and topological information for incorporation in or analysis of machine learning systems.
翻訳日:2022-01-21 05:23:43 公開日:2022-01-17
# (参考訳) MuLVE - 多言語語彙評価データセット

MuLVE, A Multi-Language Vocabulary Evaluation Data Set ( http://arxiv.org/abs/2201.06286v1 )

ライセンス: CC BY 4.0
Anik Jacobsen, Salar Mohtaj, Sebastian M\"oller(参考訳) 外国語学習には語彙学習が不可欠である。 正しい適切なフィードバックは、語彙訓練の成功と満足に不可欠である。 しかし、多くの語彙や言語評価システムは単純なルールで実行されており、実際のユーザ学習データを考慮していない。 マルチランゲージ語彙評価データセット(MuLVE)は、語彙カードと実際のユーザ回答からなるデータセットであり、ユーザ回答が正しいかどうかを示すラベルが付けられている。 データソースは、フェーズ6語彙トレーナーからのユーザ学習データである。 データセットには、ドイツ語と英語、スペイン語、フランス語の語彙問題が含まれており、前処理と重複解消に関する4つの異なるバリエーションがある。 提案したMulVEデータセットを用いて語彙評価の下流タスクにおいて,事前学習したBERT言語モデルを微調整する実験を行った。 その結果、95.5 以上の精度と f2-score が得られた。 データセットはEuropean Language Gridで公開されている。

Vocabulary learning is vital to foreign language learning. Correct and adequate feedback is essential to successful and satisfying vocabulary training. However, many vocabulary and language evaluation systems perform on simple rules and do not account for real-life user learning data. This work introduces Multi-Language Vocabulary Evaluation Data Set (MuLVE), a data set consisting of vocabulary cards and real-life user answers, labeled indicating whether the user answer is correct or incorrect. The data source is user learning data from the Phase6 vocabulary trainer. The data set contains vocabulary questions in German and English, Spanish, and French as target language and is available in four different variations regarding pre-processing and deduplication. We experiment to fine-tune pre-trained BERT language models on the downstream task of vocabulary evaluation with the proposed MuLVE data set. The results provide outstanding results of > 95.5 accuracy and F2-score. The data set is available on the European Language Grid.
翻訳日:2022-01-21 05:03:49 公開日:2022-01-17
# (参考訳) 絵文字の文脈自由曖昧性について:1,289個の絵文字のデータ駆動研究

On the Context-Free Ambiguity of Emoji: A Data-Driven Study of 1,289 Emojis ( http://arxiv.org/abs/2201.06302v1 )

ライセンス: CC BY 4.0
Justyna Czestochowska, Kristina Gligoric, Maxime Peyrard, Yann Mentha, Michal Bien, Andrea Grutter, Anita Auer, Aris Xanthos, Robert West(参考訳) 絵文字にはセマンティクスが備わっているので、よりアクセスしやすいコミュニケーションの新たな形式を作るのに最適な候補となる。 しかし、この絵文字のセマンティクスがいかに人間によって合意されているかは、テキストの文脈以外ではほとんど分かっていない。 そこで我々は,周囲のテキストを持たない参加者に提示された1,289の絵文字について,ワンワードの絵文字記述のクラウドソーシングデータセットを収集した。 絵文字とその解釈は曖昧さのために検査された。 30のアノテーションで、16の絵文字(1.2%)は完全に曖昧であるのに対し、55の絵文字(4.3%)は曖昧で、ランダムに選択された記述と区別できない。 研究対象の絵文字のほとんどは両極端に散在している。 さらに,異なる絵文字のあいまいさについて検討した結果,絵文字が確立された記号コードブックから導かれる記号的意味が組み込まれている程度が重要な要因であることが判明した。 デザインの意味を議論することで締めくくります。

Emojis come with prepacked semantics making them great candidates to create new forms of more accessible communications. Yet, little is known about how much of this emojis semantic is agreed upon by humans, outside of textual contexts. Thus, we collected a crowdsourced dataset of one-word emoji descriptions for 1,289 emojis presented to participants with no surrounding text. The emojis and their interpretations were then examined for ambiguity. We find that with 30 annotations per emoji, 16 emojis (1.2%) are completely unambiguous, whereas 55 emojis (4.3%) are so ambiguous that their descriptions are indistinguishable from randomly chosen descriptions. Most of studied emojis are spread out between the two extremes. Furthermore, investigating the ambiguity of different types of emojis, we find that an important factor is the extent to which an emoji has an embedded symbolical meaning drawn from an established code-book of symbols. We conclude by discussing design implications.
翻訳日:2022-01-21 04:54:44 公開日:2022-01-17
# (参考訳) 大規模カーネルリッジ回帰のための高効率ハイパーパラメータチューニング

Efficient Hyperparameter Tuning for Large Scale Kernel Ridge Regression ( http://arxiv.org/abs/2201.06314v1 )

ライセンス: CC BY-SA 4.0
Giacomo Meanti, Luigi Carratino, Ernesto De Vito, Lorenzo Rosasco(参考訳) カーネルメソッドは、非パラメトリック学習の原則的なアプローチを提供する。 基本実装は大きな問題に対して不十分にスケールするが、近年の進歩により、近似解法は大量のデータセットを効率的に処理できることが示されている。 これらのソリューションの欠点は、ハイパーパラメータチューニングが考慮されず、ユーザが実行するために残されたことだ。 ハイパーパラメータは実践上極めて重要であり、自動チューニングの欠如は効率とユーザビリティを著しく損なう。 本稿では,このギャップを埋めるために,nystr\"om近似に基づくカーネルリッジ回帰に着目した。 多くのハイパーパラメータチューニング戦略をレビュー・対比し,データ依存ペナルティに基づく複雑性正規化基準を提案し,その効率的な最適化について考察する。 次に、異なるチューニング戦略の強みと弱みを強調する慎重で広範な経験的評価を行う。 提案手法は,適応的に調整された解を導出するために,大規模カーネルメソッドのためのライブラリに組み込む手法である。

Kernel methods provide a principled approach to nonparametric learning. While their basic implementations scale poorly to large problems, recent advances showed that approximate solvers can efficiently handle massive datasets. A shortcoming of these solutions is that hyperparameter tuning is not taken care of, and left for the user to perform. Hyperparameters are crucial in practice and the lack of automated tuning greatly hinders efficiency and usability. In this paper, we work to fill in this gap focusing on kernel ridge regression based on the Nystr\"om approximation. After reviewing and contrasting a number of hyperparameter tuning strategies, we propose a complexity regularization criterion based on a data dependent penalty, and discuss its efficient optimization. Then, we proceed to a careful and extensive empirical evaluation highlighting strengths and weaknesses of the different tuning strategies. Our analysis shows the benefit of the proposed approach, that we hence incorporate in a library for large scale kernel methods to derive adaptively tuned solutions.
翻訳日:2022-01-21 04:46:01 公開日:2022-01-17
# (参考訳) ロボット言語学習のための言語モデルに基づくペア型変分オートエンコーダ

Language Model-Based Paired Variational Autoencoders for Robotic Language Learning ( http://arxiv.org/abs/2201.06317v1 )

ライセンス: CC BY 4.0
Ozan \"Ozdemir, Matthias Kerzel, Cornelius Weber, Jae Hee Lee, Stefan Wermter(参考訳) ヒトの幼児は、介護者が行動する対象や行動を記述する環境と相互作用しながら言語を学ぶ。 人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。 本稿では,まず,単純なオブジェクト操作シナリオにおいて,ロボット動作とその言語記述を双方向に結合するニューラルモデルを提案する。 従来のPaired Variational Autoencoders(PVAE)モデルに基づいて、異なる色の立方体を実験し、代替語彙の生成を可能にすることで、標準オートエンコーダよりも変分オートエンコーダの優位性を実証する。 さらなる実験により、モデルのチャネル分離された視覚的特徴抽出モジュールが異なる形状のオブジェクトに対応できることが示されている。 次に、PVAE-BERTを導入し、このモデルに事前訓練された大規模言語モデル、すなわち変換器(BERT)からの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers)を組み込むことにより、ネットワークがトレーニングした事前定義された記述のみを理解でき、モデルが同じ記述の無制限なバリエーションを理解することができるため、動作記述の認識は制約のない自然言語に一般化される。 実験では,事前学習した言語モデルを言語エンコーダとして使用することにより,ユーザからの指示によって実世界のシナリオをスケールアップする手法を提案する。

Human infants learn language while interacting with their environment in which their caregivers may describe the objects and actions they perform. Similar to human infants, artificial agents can learn language while interacting with their environment. In this work, first, we present a neural model that bidirectionally binds robot actions and their language descriptions in a simple object manipulation scenario. Building on our previous Paired Variational Autoencoders (PVAE) model, we demonstrate the superiority of the variational autoencoder over standard autoencoders by experimenting with cubes of different colours, and by enabling the production of alternative vocabularies. Additional experiments show that the model's channel-separated visual feature extraction module can cope with objects of different shapes. Next, we introduce PVAE-BERT, which equips the model with a pretrained large-scale language model, i.e., Bidirectional Encoder Representations from Transformers (BERT), enabling the model to go beyond comprehending only the predefined descriptions that the network has been trained on; the recognition of action descriptions generalises to unconstrained natural language as the model becomes capable of understanding unlimited variations of the same descriptions. Our experiments suggest that using a pretrained language model as the language encoder allows our approach to scale up for real-world scenarios with instructions from human users.
翻訳日:2022-01-21 04:13:11 公開日:2022-01-17
# (参考訳) 正規化フローを持つフェアグループ共有表現

Fair Group-Shared Representations with Normalizing Flows ( http://arxiv.org/abs/2201.06336v1 )

ライセンス: CC BY 4.0
Mattia Cerrato and Marius K\"oppel and Alexander Segner and Stefan Kramer(参考訳) 機械学習における公平性の問題の原因は、過去のデータは、過去に未熟だったり、まだ存在する特定のグループに対する偏見をしばしば示しているという事実にある。 この文脈で考えられるアプローチの1つは、データからバイアスを取り除くことができ、グループを統計的に区別できない公正な表現学習アルゴリズムを採用することである。 そこで本研究では,異なるグループに属する個人を1つのグループにマッピング可能な,公平な表現学習アルゴリズムを開発した。 これは、一対の正規化フローモデルを訓練し、それらの上にランキングや分類モデルを訓練することで、基礎的真実に関する情報を取り除かないよう制約することで実現される。 全体として、'chained' モデルは可逆であり、抽出可能なヤコビアンを持ち、異なる群の確率密度と ``translate' の個人をあるグループから別のグループへ関連付けることができる。 本手法は他の公平表現学習アルゴリズムと競合することを実験的に示す。 さらに,本アルゴリズムは感度特性の強い不変性を実現する。

The issue of fairness in machine learning stems from the fact that historical data often displays biases against specific groups of people which have been underprivileged in the recent past, or still are. In this context, one of the possible approaches is to employ fair representation learning algorithms which are able to remove biases from data, making groups statistically indistinguishable. In this paper, we instead develop a fair representation learning algorithm which is able to map individuals belonging to different groups in a single group. This is made possible by training a pair of Normalizing Flow models and constraining them to not remove information about the ground truth by training a ranking or classification model on top of them. The overall, ``chained'' model is invertible and has a tractable Jacobian, which allows to relate together the probability densities for different groups and ``translate'' individuals from one group to another. We show experimentally that our methodology is competitive with other fair representation learning algorithms. Furthermore, our algorithm achieves stronger invariance w.r.t. the sensitive attribute.
翻訳日:2022-01-21 03:51:16 公開日:2022-01-17
# (参考訳) 補正ベクトルによる公正な解釈可能学習

Fair Interpretable Learning via Correction Vectors ( http://arxiv.org/abs/2201.06343v1 )

ライセンス: CC BY 4.0
Mattia Cerrato and Marius K\"oppel and Alexander Segner and Stefan Kramer(参考訳) ニューラルネットワークアーキテクチャは、機密情報に依存しない与えられたベクトルの新しい表現を学ぶことを目的として、公正表現学習環境において広く採用されている。 様々な「表現脱バイアス」技術が文献で提案されている。 しかし、ニューラルネットワークは本質的に不透明であるため、これらの方法を理解するのが難しく、有用性が制限される。 本研究では,与えられたデータベクトルと同じ次元を持つ「補正ベクトル」の学習を中心に,公平表現学習のための新しい枠組みを提案する。 補正は元の機能に単純に要約されるので、各機能に対する明示的なペナルティやボーナスとして分析することができる。 このような方法で制約された公正表現学習問題が性能に影響を与えないことを実験的に示す。

Neural network architectures have been extensively employed in the fair representation learning setting, where the objective is to learn a new representation for a given vector which is independent of sensitive information. Various "representation debiasing" techniques have been proposed in the literature. However, as neural networks are inherently opaque, these methods are hard to comprehend, which limits their usefulness. We propose a new framework for fair representation learning which is centered around the learning of "correction vectors", which have the same dimensionality as the given data vectors. The corrections are then simply summed up to the original features, and can therefore be analyzed as an explicit penalty or bonus to each feature. We show experimentally that a fair representation learning problem constrained in such a way does not impact performance.
翻訳日:2022-01-21 03:42:25 公開日:2022-01-17
# (参考訳) ExpertNet: 分類とクラスタリングの共生

ExpertNet: A Symbiosis of Classification and Clustering ( http://arxiv.org/abs/2201.06344v1 )

ライセンス: CC BY 4.0
Shivin Srivastava, Kenji Kawaguchi, Vaibhav Rajan(参考訳) 高容量ニューラルモデルの一般化性能を向上させるために広く用いられているパラダイムは、教師なしトレーニング中に補助的な教師なしタスクを追加することである。 類似性マッチングや入力再構成といったタスクは、表現学習を導くことで有効な正規化効果をもたらすことが示されている。 実データはしばしば複雑な構造を持ち、現在のアプローチではうまく学ばない不均質な部分集団で構成されている。 本研究では,新しい学習戦略を用いてクラスタ化された潜在表現を学習し,クラスタ固有の分類器を効果的に組み合わせて活用するexpertnetを設計した。 本稿では,クラスタ化が一般化ギャップに与える影響を理論的に解析し,expertnetからの潜在表現のクラスタ化が本質的構造と分類性能の向上に繋がることを示す。 ExpertNetはまた、臨床リスクモデルのような異なるサブ集団のために分類器を調整する必要がある重要な現実世界のニーズを満たす。 我々は6つの大規模臨床データセットにおいて,expertnetが最先端の手法よりも優れていることを示す。

A widely used paradigm to improve the generalization performance of high-capacity neural models is through the addition of auxiliary unsupervised tasks during supervised training. Tasks such as similarity matching and input reconstruction have been shown to provide a beneficial regularizing effect by guiding representation learning. Real data often has complex underlying structures and may be composed of heterogeneous subpopulations that are not learned well with current approaches. In this work, we design ExpertNet, which uses novel training strategies to learn clustered latent representations and leverage them by effectively combining cluster-specific classifiers. We theoretically analyze the effect of clustering on its generalization gap, and empirically show that clustered latent representations from ExpertNet lead to disentangling the intrinsic structure and improvement in classification performance. ExpertNet also meets an important real-world need where classifiers need to be tailored for distinct subpopulations, such as in clinical risk models. We demonstrate the superiority of ExpertNet over state-of-the-art methods on 6 large clinical datasets, where our approach leads to valuable insights on group-specific risks.
翻訳日:2022-01-21 03:36:14 公開日:2022-01-17
# (参考訳) チャットボットシステムアーキテクチャ

Chatbot System Architecture ( http://arxiv.org/abs/2201.06348v1 )

ライセンス: CC BY 4.0
Moataz Mohammed, Mostafa M. Aref(参考訳) 会話エージェントは、近年のコンピュータ科学分野における最も関心のあるトピックの1つだ。 この分野では、自然言語処理の概念やDeep Learningなど、いくつかの人工知能技術を適用して、どのように対応すべきかを判断する必要がある。 本稿では,会話エージェントのシステムアーキテクチャを議論し,各コンポーネントについて詳細に解説する。

The conversational agents is one of the most interested topics in computer science field in the recent decade. Which can be composite from more than one subject in this field, which you need to apply Natural Language Processing Concepts and some Artificial Intelligence Techniques such as Deep Learning methods to make decision about how should be the response. This paper is dedicated to discuss the system architecture for the conversational agent and explain each component in details.
翻訳日:2022-01-21 03:16:35 公開日:2022-01-17
# (参考訳) ガウワー距離の確率論的代替:デオデータ予測器について

Probabilistic Alternatives to the Gower Distance: A Note on Deodata Predictors ( http://arxiv.org/abs/2201.06355v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) ガウワー距離の確率的代替法を提案する。 確率距離は、一般的なデオデータ予測器の実現を可能にする。

A probabilistic alternative to the Gower distance is proposed. The probabilistic distance enables the realization of a generic deodata predictor.
翻訳日:2022-01-21 03:10:55 公開日:2022-01-17
# (参考訳) インタプリタ型モノクロ高さ推定用遠方変圧器

Disentangled Latent Transformer for Interpretable Monocular Height Estimation ( http://arxiv.org/abs/2201.06357v1 )

ライセンス: CC BY 4.0
Zhitong Xiong Sining Chen, Yilei Shi, and Xiao Xiang Zhu(参考訳) リモートセンシング画像からの単眼高度推定 (mhe) は, 自然災害に対する迅速な対応のために, 効率的な3次元都市モデルを生成する可能性が高い。 現存する作品の多くは高い性能を追求している。 しかし、mheネットワークの解釈可能性についての研究はほとんどない。 本稿では,単一の単眼画像からディープニューラルネットワークが身長を予測する方法を検討することを目的とした。 MHEネットワークの包括的理解に向けて,複数のレベルから解釈することを提案する。 1) ニューロン: 単位レベル解離。 学習した内部深部表現の意味と高さの選択性を探る 2) インスタンス: オブジェクトレベルの解釈。 異なる意味クラス,尺度,空間的文脈が高さ推定に及ぼす影響に関する研究 3) 帰属: ピクセルレベルの分析。 どの入力画素が高さ推定に重要であるかを理解する。 マルチレベル解釈に基づき, よりコンパクトで信頼性が高く, 説明可能な単眼高さ推定用深層モデルに向けて, 不等角型潜在トランスネットワークを提案する。 さらに, 高さ推定に基づく新しい教師なし意味セグメンテーションタスクを本研究に導入した。 さらに,共同セマンティックセグメンテーションと高さ推定のための新しいデータセットを構築した。 私たちの研究はmheモデルの理解と設計の両方に新しい洞察を与えます。

Monocular height estimation (MHE) from remote sensing imagery has high potential in generating 3D city models efficiently for a quick response to natural disasters. Most existing works pursue higher performance. However, there is little research exploring the interpretability of MHE networks. In this paper, we target at exploring how deep neural networks predict height from a single monocular image. Towards a comprehensive understanding of MHE networks, we propose to interpret them from multiple levels: 1) Neurons: unit-level dissection. Exploring the semantic and height selectivity of the learned internal deep representations; 2) Instances: object-level interpretation. Studying the effects of different semantic classes, scales, and spatial contexts on height estimation; 3) Attribution: pixel-level analysis. Understanding which input pixels are important for the height estimation. Based on the multi-level interpretation, a disentangled latent Transformer network is proposed towards a more compact, reliable, and explainable deep model for monocular height estimation. Furthermore, a novel unsupervised semantic segmentation task based on height estimation is first introduced in this work. Additionally, we also construct a new dataset for joint semantic segmentation and height estimation. Our work provides novel insights for both understanding and designing MHE models.
翻訳日:2022-01-21 03:09:19 公開日:2022-01-17
# (参考訳) 超音波画像テクスチャに基づく乳癌診断のための説明可能なアンサンブル機械学習

Explainable Ensemble Machine Learning for Breast Cancer Diagnosis based on Ultrasound Image Texture Features ( http://arxiv.org/abs/2201.07227v1 )

ライセンス: CC BY 4.0
Alireza Rezazadeh, Yasamin Jafarian and Ali Kord(参考訳) 画像分類は乳がん診断の予測モデルを構築するために広く使われている。 既存のアプローチのほとんどは、そのような診断パイプラインを構築するために深い畳み込みネットワークに依存している。 これらのモデルアーキテクチャは、性能は注目に値するが、予測の裏にある内部ロジックに対する最小限の洞察を提供するブラックボックスシステムである。 これは、がん診断のような応用には予測の説明が不可欠であるため、大きな欠点である。 本稿では、超音波画像に基づく乳がん診断のための説明可能な機械学習パイプラインを提案し、この問題に対処する。 超音波画像の1次および2次テクスチャ特徴を抽出し,それを用いて決定木分類器の確率的アンサンブルを構築する。 各決定木は、画像のテクスチャ特徴に対するロバストな決定しきい値のセットを学習して入力超音波画像を分類することを学ぶ。 モデル予測の決定経路は、学習した決定木を分解することで解釈できる。 その結果,提案フレームワークは説明可能でありながら高い予測性能を達成できることがわかった。

Image classification is widely used to build predictive models for breast cancer diagnosis. Most existing approaches overwhelmingly rely on deep convolutional networks to build such diagnosis pipelines. These model architectures, although remarkable in performance, are black-box systems that provide minimal insight into the inner logic behind their predictions. This is a major drawback as the explainability of prediction is vital for applications such as cancer diagnosis. In this paper, we address this issue by proposing an explainable machine learning pipeline for breast cancer diagnosis based on ultrasound images. We extract first- and second-order texture features of the ultrasound images and use them to build a probabilistic ensemble of decision tree classifiers. Each decision tree learns to classify the input ultrasound image by learning a set of robust decision thresholds for texture features of the image. The decision path of the model predictions can then be interpreted by decomposing the learned decision trees. Our results show that our proposed framework achieves high predictive performance while being explainable.
翻訳日:2022-01-21 02:47:23 公開日:2022-01-17
# 意思決定問題に対するパラメータ付き凸普遍近似器

Parametrized Convex Universal Approximators for Decision-Making Problems ( http://arxiv.org/abs/2201.06298v1 )

ライセンス: Link先を確認
Jinrae Kim, Youdan Kim(参考訳) 一般的な意思決定問題に対して、PMA(Parametrized Max-affine)とPLSE(Parametrized log-sum-exp)ネットワークを提案する。 提案した近似器は、条件変数と決定変数の関数引数を考慮し、MAおよびLSEネットワークのネットワークパラメータを条件変数に関する連続関数に置き換えることで、既存の凸近似器、すなわちmax-affine(MA)とlog-sum-exp(LSE)ネットワークを一般化する。 PMA と PLSE の普遍近似定理が証明され、これは PMA と PLSE がパラメタライズされた凸連続函数に対する形状保存普遍近似器であることを意味する。 PMAとPLSEネットワークにディープニューラルネットワークを組み込むための実践的ガイドラインが提供される。 提案した近似器の性能を示す数値シミュレーションを行う。 シミュレーションの結果、plseは、高次元の場合のスケーラブルで効率的な計算により、最少値と最適値の誤差の点で、既存の近似器よりも優れています。

Parametrized max-affine (PMA) and parametrized log-sum-exp (PLSE) networks are proposed for general decision-making problems. The proposed approximators generalize existing convex approximators, namely, max-affine (MA) and log-sum-exp (LSE) networks, by considering function arguments of condition and decision variables and replacing the network parameters of MA and LSE networks with continuous functions with respect to the condition variable. The universal approximation theorem of PMA and PLSE is proven, which implies that PMA and PLSE are shape-preserving universal approximators for parametrized convex continuous functions. Practical guidelines for incorporating deep neural networks within PMA and PLSE networks are provided. A numerical simulation is performed to demonstrate the performance of the proposed approximators. The simulation results support that PLSE outperforms other existing approximators in terms of minimizer and optimal value errors with scalable and efficient computation for high-dimensional cases.
翻訳日:2022-01-20 15:27:49 公開日:2022-01-17
# グラフ埋め込みを用いた相関アラームの検出

Detection of Correlated Alarms Using Graph Embedding ( http://arxiv.org/abs/2201.07748v1 )

ライセンス: Link先を確認
Hossein Khaleghy, Iman Izadi(参考訳) 近年,産業用アラームシステムはネットワークの複雑さやアラーム数の観点から大きく進歩している。 複雑化とアラームの数の増加は、システムの効率を低下させ、オペレータの不信を生じさせ、広範囲の損害をもたらすであろうこれらのシステムの課題を示す。 アラームの非効率性の要因の1つはアラームの相関である。 これらのアラームは新しい情報を含んでおらず、オペレータを混乱させるだけです。 本稿では,人工知能を用いたアラーム検出手法を提案する。 提案手法はグラフ埋め込みとアラームクラスタリングに基づいており,アラームの相関を検出する。 提案手法を評価するために,有名なテネシー・イーストマン過程のケーススタディを行った。

Industrial alarm systems have recently progressed considerably in terms of network complexity and the number of alarms. The increase in complexity and number of alarms presents challenges in these systems that decrease system efficiency and cause distrust of the operator, which might result in widespread damages. One contributing factor in alarm inefficiency is the correlated alarms. These alarms do not contain new information and only confuse the operator. This paper tries to present a novel method for detecting correlated alarms based on artificial intelligence methods to help the operator. The proposed method is based on graph embedding and alarm clustering, resulting in the detection of correlated alarms. To evaluate the proposed method, a case study is conducted on the well-known Tennessee-Eastman process.
翻訳日:2022-01-20 15:23:41 公開日:2022-01-17
# 対照的な時空間的抽象とエージェントダイナミクスの要約と比較

Summarising and Comparing Agent Dynamics with Contrastive Spatiotemporal Abstraction ( http://arxiv.org/abs/2201.07749v1 )

ライセンス: Link先を確認
Tom Bewley, Jonathan Lawry, Arthur Richards(参考訳) 本稿では,制御エージェントの学習過程など,進化する力学系において,コントラストの突出点の人間解釈可能な要約を生成するためのデータ駆動型モデル非依存手法を提案する。 情報理論のばらつき尺度に従って、空間次元と時間次元の両方に沿って遷移データの集約を行う。 実用的なアルゴリズムは連続状態空間について概説し、グラフィカルおよびテキスト通信手法を用いて深層強化学習エージェントの学習履歴を要約するために展開される。 我々はエージェント解釈可能性の観点から既存の手法を補完する手法を期待する。

We introduce a data-driven, model-agnostic technique for generating a human-interpretable summary of the salient points of contrast within an evolving dynamical system, such as the learning process of a control agent. It involves the aggregation of transition data along both spatial and temporal dimensions according to an information-theoretic divergence measure. A practical algorithm is outlined for continuous state spaces, and deployed to summarise the learning histories of deep reinforcement learning agents with the aid of graphical and textual communication methods. We expect our method to be complementary to existing techniques in the realm of agent interpretability.
翻訳日:2022-01-20 14:49:48 公開日:2022-01-17
# NSGZero: ニューラルネットワークモンテカルロ木探索による大規模ネットワークセキュリティゲームにおける非明示的ポリシの学習

NSGZero: Efficiently Learning Non-Exploitable Policy in Large-Scale Network Security Games with Neural Monte Carlo Tree Search ( http://arxiv.org/abs/2201.07224v1 )

ライセンス: Link先を確認
Wanqi Xue, Bo An, Chai Kiat Yeo(参考訳) ネットワークの重要なターゲットを確保するためにリソースをどのようにデプロイするかは、Network Security Games(NSG)によってモデル化できる。 近年のディープラーニング(DL)の進歩は、大規模なNSGを扱うための強力なアプローチを提供する一方で、NSG-NFSPのようなDL手法は、データ非効率の問題に悩まされている。 さらに、集中管理のため、大量のリソースを持つシナリオにはスケールできない。 本稿では,新しいDLベースのNSGZeroを提案する。 NSGZeroは、ニューラルモンテカルロツリーサーチ(MCTS)で計画を実行することで、データ効率を改善する。 私たちの主な貢献は3倍です。 まず,深層ニューラルネットワーク(dnn)の設計を行い,nsgsでニューラルネットワークを行う。 次に、分散制御によるニューラルMCTSを実現し、NSGZeroを多くのリソースを持つNSGに適用する。 第3に,NSGZeroにおけるDNNの協調訓練を実現するための,効率的な学習パラダイムを提供する。 最先端のアルゴリズムと比較して,本手法はデータ効率とスケーラビリティを著しく向上させる。

How resources are deployed to secure critical targets in networks can be modelled by Network Security Games (NSGs). While recent advances in deep learning (DL) provide a powerful approach to dealing with large-scale NSGs, DL methods such as NSG-NFSP suffer from the problem of data inefficiency. Furthermore, due to centralized control, they cannot scale to scenarios with a large number of resources. In this paper, we propose a novel DL-based method, NSGZero, to learn a non-exploitable policy in NSGs. NSGZero improves data efficiency by performing planning with neural Monte Carlo Tree Search (MCTS). Our main contributions are threefold. First, we design deep neural networks (DNNs) to perform neural MCTS in NSGs. Second, we enable neural MCTS with decentralized control, making NSGZero applicable to NSGs with many resources. Third, we provide an efficient learning paradigm, to achieve joint training of the DNNs in NSGZero. Compared to state-of-the-art algorithms, our method achieves significantly better data efficiency and scalability.
翻訳日:2022-01-20 14:02:47 公開日:2022-01-17
# 機械学習による二元中性子星からの後光のパラメトリゼーション

Using machine learning to parametrize postmerger signals from binary neutron stars ( http://arxiv.org/abs/2201.06461v1 )

ライセンス: Link先を確認
Tim Whittaker, William E. East, Stephen R. Green, Luis Lehner, Huan Yang(参考訳) 二元中性子星の後発振動による重力波の検出とキャラクタリゼーションへの関心が高まっている。 これらの信号には、残基の性質と、どの電磁信号も補完する後過程の高密度および非平衡物理学に関する情報が含まれている。 しかし、二元中性子星後星波形の構築は二元ブラックホールよりもはるかに複雑である。 (i)中性子星の状態方程式や高密度物理学の他の側面に理論的に不確かさがある。 (二)数値シミュレーションは高価で、利用可能な数値はパラメータ空間のごく一部に限られており、数値精度は限られている。 三 理論の不確かさをパラメトリケートし、パラメータ空間をまたいで補間する方法は定かでない。 本研究では,超大質量中性子星残差信号の連星後モデルを構築するために,条件変分オートエンコーダ(CVAE)と呼ばれる機械学習手法を用いた。 CVAEは確率モデルを提供し、潜在パラメータのセット内のトレーニングデータの不確実性を符号化する。 このようなモデルのトレーニングには、最終的に$\sim 10^4$波形が必要になると見積もる。 しかし, 合成学習波形を原理証明として, CVAEを正確な生成モデルとして用いることができ, 有効な潜在表現として状態方程式を符号化することを示した。

There is growing interest in the detection and characterization of gravitational waves from postmerger oscillations of binary neutron stars. These signals contain information about the nature of the remnant and the high-density and out-of-equilibrium physics of the postmerger processes, which would complement any electromagnetic signal. However, the construction of binary neutron star postmerger waveforms is much more complicated than for binary black holes: (i) there are theoretical uncertainties in the neutron-star equation of state and other aspects of the high-density physics, (ii) numerical simulations are expensive and available ones only cover a small fraction of the parameter space with limited numerical accuracy, and (iii) it is unclear how to parametrize the theoretical uncertainties and interpolate across parameter space. In this work, we describe the use of a machine-learning method called a conditional variational autoencoder (CVAE) to construct postmerger models for hyper/massive neutron star remnant signals based on numerical-relativity simulations. The CVAE provides a probabilistic model, which encodes uncertainties in the training data within a set of latent parameters. We estimate that training such a model will ultimately require $\sim 10^4$ waveforms. However, using synthetic training waveforms as a proof-of-principle, we show that the CVAE can be used as an accurate generative model and that it encodes the equation of state in a useful latent representation.
翻訳日:2022-01-20 14:02:08 公開日:2022-01-17
# (参考訳) 教師なし深層グラフ構造学習に向けて

Towards Unsupervised Deep Graph Structure Learning ( http://arxiv.org/abs/2201.06367v1 )

ライセンス: CC BY 4.0
Yixin Liu, Yu Zheng, Daokun Zhang, Hongxu Chen, Hao Peng, Shirui Pan(参考訳) 近年、グラフニューラルネットワーク(GNN)は、さまざまなグラフ関連アプリケーションで成功したツールとして登場している。 しかし、元のグラフ構造にノイズのある接続が発生すると、GNNの性能は低下し、また明示的な構造への依存により、GNNが一般的な非構造的シナリオに適用されるのを防ぐことができる。 これらの問題に対処するため,最近登場したディープグラフ構造学習(GSL)手法は,ノード分類タスクの監督の下でGNNと共同でグラフ構造を最適化することを提案する。 それでもこれらの方法は教師付き学習シナリオに焦点を当てており、ラベルへの依存、エッジ分布のバイアス、アプリケーションタスクの制限など、いくつかの問題を引き起こす。 本稿では、学習したグラフトポロジを外部ガイダンス(ラベルなど)なしでデータ自身で最適化する、より実用的なGSLパラダイム、教師なしグラフ構造学習を提案する。 本稿では,教師なしgsl問題を解決するために,自己教師なしコントラスト学習を支援する新しい構造ブートストラップ型コントラスト学習フレームワーク(略語)を提案する。 具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。 永続的な指導を提供するため,モデル学習中にアンカーグラフを学習構造にアップグレードする新しいブートストラップ機構を設計する。 また,学習する構造をモデル化するために,グラフ学習者および後処理スキームも設計した。 8つのベンチマークデータセットに対する大規模な実験により,提案したSUBLIMEの有効性と最適化グラフの高品質性を示した。

In recent years, graph neural networks (GNNs) have emerged as a successful tool in a variety of graph-related applications. However, the performance of GNNs can be deteriorated when noisy connections occur in the original graph structures; besides, the dependence on explicit structures prevents GNNs from being applied to general unstructured scenarios. To address these issues, recently emerged deep graph structure learning (GSL) methods propose to jointly optimize the graph structure along with GNN under the supervision of a node classification task. Nonetheless, these methods focus on a supervised learning scenario, which leads to several problems, i.e., the reliance on labels, the bias of edge distribution, and the limitation on application tasks. In this paper, we propose a more practical GSL paradigm, unsupervised graph structure learning, where the learned graph topology is optimized by data itself without any external guidance (i.e., labels). To solve the unsupervised GSL problem, we propose a novel StrUcture Bootstrapping contrastive LearnIng fraMEwork (SUBLIME for abbreviation) with the aid of self-supervised contrastive learning. Specifically, we generate a learning target from the original data as an "anchor graph", and use a contrastive loss to maximize the agreement between the anchor graph and the learned graph. To provide persistent guidance, we design a novel bootstrapping mechanism that upgrades the anchor graph with learned structures during model learning. We also design a series of graph learners and post-processing schemes to model the structures to learn. Extensive experiments on eight benchmark datasets demonstrate the significant effectiveness of our proposed SUBLIME and high quality of the optimized graphs.
翻訳日:2022-01-20 12:10:54 公開日:2022-01-17
# (参考訳) サイバーいじめ分類器はモデル非依存の摂動に敏感である

Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations ( http://arxiv.org/abs/2201.06384v1 )

ライセンス: CC BY-SA 4.0
Chris Emmery, \'Akos K\'ad\'ar, Grzegorz Chrupa{\l}a, Walter Daelemans(参考訳) 限定的な研究は、有害な内容分類におけるモデル非依存的敵対行動の役割を研究する。 毒性分類器は、主に語彙的手がかりに依存しているため、(決定的に)創造的で進化する言語利用は、コンテンツモデレーションにデプロイされる際に、現在のコーパスや最先端のモデルの有用性に有害である。 トレーニングデータが少ないほど、より脆弱なモデルになる可能性がある。 この研究は、我々の知る限り、初めて、サイバーいじめ検出に対する敵対行動と強化の効果を調査するものである。 モデル非依存の語彙置換が分類器の性能を著しく損なうことを示す。 さらに,これらの摂動サンプルを拡張に使用すると,全体のタスク性能に多少のトレードオフがある場合,単語レベルの摂動に対してモデルが頑健になることを示す。 毒性に関する先行研究で提案された増強は効果が低いことが証明された。 以上の結果から,小規模コーパスのオンライン害地域における評価の必要性が示唆された。 摂動データ、モデル、コードはhttps://github.com/cmry/augtoxで再生可能である。

A limited amount of studies investigates the role of model-agnostic adversarial behavior in toxic content classification. As toxicity classifiers predominantly rely on lexical cues, (deliberately) creative and evolving language-use can be detrimental to the utility of current corpora and state-of-the-art models when they are deployed for content moderation. The less training data is available, the more vulnerable models might become. This study is, to our knowledge, the first to investigate the effect of adversarial behavior and augmentation for cyberbullying detection. We demonstrate that model-agnostic lexical substitutions significantly hurt classifier performance. Moreover, when these perturbed samples are used for augmentation, we show models become robust against word-level perturbations at a slight trade-off in overall task performance. Augmentations proposed in prior work on toxicity prove to be less effective. Our results underline the need for such evaluations in online harm areas with small corpora. The perturbed data, models, and code are available for reproduction at https://github.com/cmry/augtox
翻訳日:2022-01-20 11:31:40 公開日:2022-01-17
# (参考訳) 大ラベル空間における問題バイアスの視覚的同定

Visual Identification of Problematic Bias in Large Label Spaces ( http://arxiv.org/abs/2201.06386v1 )

ライセンス: CC BY 4.0
Alex B\"auerle, Aybuke Gul Turker, Ken Burke, Osman Aka, Timo Ropinski, Christina Greer, and Mani Varadarajan(参考訳) 十分に訓練された公正なmlシステムの必要性はますます高まっているが、現代のモデルやデータセットの公平性を測定することは、前例のないペースで成長するにつれてますます難しくなっている。 このようなモデルやデータセットに共通フェアネスメトリクスをスケールする上での鍵となる課題のひとつは、徹底的な基底真理ラベリングの要件である。 実際、これはしばしば従来の分析メトリクスやシステムの適用を除外します。 同時に、公平性は極めて主観的な問題であるため、mlフェアネス評価をアルゴリズム的に行うことはできない。 したがって、ドメインの専門家は、モデルやデータセット全体を通してバイアスを抽出し、推論し、情報的な決定を行う必要があります。 ビジュアル分析ツールはDLモデルの潜在的なバイアスを調査するのに非常に役立ちますが、既存のアプローチは大きなラベル空間で発生する特定のタスクや課題のために設計されていません。 この領域における可視化作業の欠如に対処し、技術的・倫理的問題を考慮し、このような大きなラベル空間の可視化を設計するためのガイドラインを提案する。 提案する可視化手法は,従来のモデルやデータパイプラインに組み込むことができ,オープンソースのTensorBoardプラグインとして実装されている。 提案手法では,大規模ラベル空間の異なるモデルとデータセットを系統的・視覚的に解析し,問題バイアスに対処するための情報的公正度評価を行う。

While the need for well-trained, fair ML systems is increasing ever more, measuring fairness for modern models and datasets is becoming increasingly difficult as they grow at an unprecedented pace. One key challenge in scaling common fairness metrics to such models and datasets is the requirement of exhaustive ground truth labeling, which cannot always be done. Indeed, this often rules out the application of traditional analysis metrics and systems. At the same time, ML-fairness assessments cannot be made algorithmically, as fairness is a highly subjective matter. Thus, domain experts need to be able to extract and reason about bias throughout models and datasets to make informed decisions. While visual analysis tools are of great help when investigating potential bias in DL models, none of the existing approaches have been designed for the specific tasks and challenges that arise in large label spaces. Addressing the lack of visualization work in this area, we propose guidelines for designing visualizations for such large label spaces, considering both technical and ethical issues. Our proposed visualization approach can be integrated into classical model and data pipelines, and we provide an implementation of our techniques open-sourced as a TensorBoard plug-in. With our approach, different models and datasets for large label spaces can be systematically and visually analyzed and compared to make informed fairness assessments tackling problematic bias.
翻訳日:2022-01-20 10:56:36 公開日:2022-01-17
# (参考訳) SwinUNet3D - シフトウィンドウ変換器を用いたディープトラフィック予測のための階層アーキテクチャ

SwinUNet3D -- A Hierarchical Architecture for Deep Traffic Prediction using Shifted Window Transformers ( http://arxiv.org/abs/2201.06390v1 )

ライセンス: CC BY 4.0
Alabi Bojesomo and Hasan Al Marzouqi and Panos Liatsis(参考訳) 交通予測はロジスティクス産業を牽引する重要な鍵であるモビリティマネジメントの重要な要素である。 長年にわたり、時系列と時空間的動的予測を用いた交通予測において多くの作業が行われている。 本稿では,UNet設定における視覚変換器の利用について検討する。 UNetのすべてのコンボリューションベースのビルディングブロックを完全に取り除き、エンコーダとデコーダの両方で3Dシフトウィンドウトランスフォーマーを使用します。 さらに,パッチエンコーディング直前に特徴混合を用いて特徴の相互関係を制御し,時空間入力の深さ次元の縮小を回避する実験を行った。 提案するネットワークは,ニューラル情報処理システム(NeurIPS)の競合トラックで開催されるTraffic4cast2021(Traffic4cast2021)によって提供されるデータに基づいてテストされる。 Traffic4cast2021タスクは、与えられたトラフィック状態の1時間(平均5分で平均12フレーム)から、トラフィック条件(ボリュームと平均速度)の1時間(6フレーム)を予測する。 ソースコードはhttps://github.com/bojesomo/traffic4cast2021-swinunet3dで入手できる。

Traffic forecasting is an important element of mobility management, an important key that drives the logistics industry. Over the years, lots of work have been done in Traffic forecasting using time series as well as spatiotemporal dynamic forecasting. In this paper, we explore the use of vision transformer in a UNet setting. We completely remove all convolution-based building blocks in UNet, while using 3D shifted window transformer in both encoder and decoder branches. In addition, we experiment with the use of feature mixing just before patch encoding to control the inter-relationship of the feature while avoiding contraction of the depth dimension of our spatiotemporal input. The proposed network is tested on the data provided by Traffic Map Movie Forecasting Challenge 2021(Traffic4cast2021), held in the competition track of Neural Information Processing Systems (NeurIPS). Traffic4cast2021 task is to predict an hour (6 frames) of traffic conditions (volume and average speed)from one hour of given traffic state (12 frames averaged in 5 minutes time span). Source code is available online at https://github.com/bojesomo/Traffic4Cast2021-SwinUNet3D.
翻訳日:2022-01-20 10:36:29 公開日:2022-01-17
# (参考訳) 検索とスコアに基づくウォーターフォールオークション最適化

Search and Score-Based Waterfall Auction Optimization ( http://arxiv.org/abs/2201.06409v1 )

ライセンス: CC BY 4.0
Dan Halbersberg, Matan Halevi, Moshe Salhov(参考訳) オンライン広告は多くのオンライン企業にとって主要な収入源である。 一般的なアプローチのひとつとして、ウォーターフォールオークションを通じてオンライン広告を販売する方法がある。 出版社は滝の注文と価格を管理し、収入を最大化することを目的としている。 本研究では,可能なウォーターフォールの空間を賢く探索し,最高収益につながるものを選択することにより,歴史的データからウォーターフォール戦略を学ぶ手法を提案する。 まず,各ユーザの広告ネットワークに対する評価分布を推定する新しい手法を提案する。 第2に, 局所的に反復的に探索する手法の一環として, 評価行列を用いて, 候補となる滝を評価する。 私たちのフレームワークは、局所的な最適化に収束するまでのイテレーション間のウォーターフォール収益が向上することを保証します。 提案手法は,手動による専門家の最適化と比較して,実世界の滝の総収入を改善することを示す。 最後に、コードとデータはここで入手できる。

Online advertising is a major source of income for many online companies. One common approach is to sell online advertisements via waterfall auctions, where a publisher makes sequential price offers to ad networks. The publisher controls the order and prices of the waterfall and by that aims to maximize his revenue. In this work, we propose a methodology to learn a waterfall strategy from historical data by wisely searching in the space of possible waterfalls and selecting the one leading to the highest revenue. The contribution of this work is twofold; First, we propose a novel method to estimate the valuation distribution of each user with respect to each ad network. Second, we utilize the valuation matrix to score our candidate waterfalls as part of a procedure that iteratively searches in local neighborhoods. Our framework guarantees that the waterfall revenue improves between iterations until converging to a local optimum. Real-world demonstrations are provided to show that the proposed method improves the total revenue of real-world waterfalls compared to manual expert optimization. Finally, the code and the data are available here.
翻訳日:2022-01-20 10:26:28 公開日:2022-01-17
# (参考訳) ハイパーパラメータ最適化ツールの比較研究

A Comparative study of Hyper-Parameter Optimization Tools ( http://arxiv.org/abs/2201.06433v1 )

ライセンス: CC BY 4.0
Shashank Shekhar, Adesh Bansode, Asif Salim(参考訳) ほとんどの機械学習モデルは、パラメータと関連するハイパーパラメータを持つ。 このアルゴリズムはパラメータの解を与えるが、モデル性能の効用はハイパーパラメータの選択に大きく依存する。 モデルのロバストな性能を得るためには、適切なハイパーパラメータの組み合わせを見つける必要がある。 ハイパーパラメータ最適化(HPO)は、それらの適切な値を見つけるのに役立つ体系的なプロセスである。 従来の手法はグリッド探索とランダム探索であり,両手法が産業用アプリケーションに問題をもたらす。 したがって、プロダクション環境でのランタイム問題と堅牢なパフォーマンスに役立つベイズ最適化と進化的アルゴリズム原則に基づいた戦略が最近提案されている。 本稿では,ハイパーパラメータ最適化のために提案されている4つのピソンライブラリ,すなわちOptuna,Hyper-opt,Optunity,および逐次モデルベースアルゴリズム構成(SMAC)の性能を比較した。 これらのツールのパフォーマンスは、2つのベンチマークを使ってテストされる。 第1の問題はアルゴリズム選択とハイパーパラメータ最適化(cash)を組み合わせることであり、第2の問題は、関連するアーキテクチャ制約とハイパーパラメータのセットから多層知覚(mlp)アーキテクチャを選択しなければならないニューオリプスブラックボックス最適化チャレンジである。 ベンチマークは6つの実世界のデータセットで行われます。 実験の結果,オプトゥーナはCASH問題に対して,HyperOptはMLP問題に対して優れた性能を示した。

Most of the machine learning models have associated hyper-parameters along with their parameters. While the algorithm gives the solution for parameters, its utility for model performance is highly dependent on the choice of hyperparameters. For a robust performance of a model, it is necessary to find out the right hyper-parameter combination. Hyper-parameter optimization (HPO) is a systematic process that helps in finding the right values for them. The conventional methods for this purpose are grid search and random search and both methods create issues in industrial-scale applications. Hence a set of strategies have been recently proposed based on Bayesian optimization and evolutionary algorithm principles that help in runtime issues in a production environment and robust performance. In this paper, we compare the performance of four python libraries, namely Optuna, Hyper-opt, Optunity, and sequential model-based algorithm configuration (SMAC) that has been proposed for hyper-parameter optimization. The performance of these tools is tested using two benchmarks. The first one is to solve a combined algorithm selection and hyper-parameter optimization (CASH) problem The second one is the NeurIPS black-box optimization challenge in which a multilayer perception (MLP) architecture has to be chosen from a set of related architecture constraints and hyper-parameters. The benchmarking is done with six real-world datasets. From the experiments, we found that Optuna has better performance for CASH problem and HyperOpt for MLP problem.
翻訳日:2022-01-20 10:13:02 公開日:2022-01-17
# (参考訳) SigGAN : ネットワークにおける有意関係の学習モデル

SigGAN : Adversarial Model for Learning Signed Relationships in Networks ( http://arxiv.org/abs/2201.06437v1 )

ライセンス: CC BY 4.0
Roshni Chakraborty, Ritwika Das, Joydeep Chandra(参考訳) グラフにおける符号付きリンク予測は、様々な領域に適用できる重要な問題である。 一対のノード間のエッジが正か負かを予測する二項分類問題である。 非符号ネットワークにおけるリンク予測の既存のアプローチは、その固有の差異のため、符号付きリンク予測に直接適用することはできない。 さらに、署名されたネットワークの構造的バランス特性は、署名されたリンク予測のために考慮されなければならない。 最近の符号付きリンク予測手法は、生成モデルまたは識別モデルを用いてノード表現を生成する。 識別器と生成器からなるgan(generative adversarial network)ベースのモデルが最近成功したことに着想を得て,署名ネットワークのためのgan(generative adversarial network)ベースのモデルであるsigganを提案する。 負のエッジからの情報の統合、正のエッジ数と負のエッジ数における高い不均衡、構造バランス理論などの符号付きネットワークの要件を考察する。 SigGANの有効性を検証するために,複数の実世界のデータセットにおける技術技術の性能比較を行った。

Signed link prediction in graphs is an important problem that has applications in diverse domains. It is a binary classification problem that predicts whether an edge between a pair of nodes is positive or negative. Existing approaches for link prediction in unsigned networks cannot be directly applied for signed link prediction due to their inherent differences. Further, additional structural constraints, like, the structural balance property of the signed networks must be considered for signed link prediction. Recent signed link prediction approaches generate node representations using either generative models or discriminative models. Inspired by the recent success of Generative Adversarial Network (GAN) based models which comprises of a discriminator and generator in several applications, we propose a Generative Adversarial Network (GAN) based model for signed networks, SigGAN. It considers the requirements of signed networks, such as, integration of information from negative edges, high imbalance in number of positive and negative edges and structural balance theory. Comparing the performance with state of the art techniques on several real-world datasets validates the effectiveness of SigGAN.
翻訳日:2022-01-20 10:03:03 公開日:2022-01-17
# (参考訳) 効率的なコンテンツベース検索のためのリモートセンシング画像の圧縮とインデックス化のための新しいフレームワーク

A Novel Framework to Jointly Compress and Index Remote Sensing Images for Efficient Content-Based Retrieval ( http://arxiv.org/abs/2201.06459v1 )

ライセンス: CC BY 4.0
Jun Xiang, Gencer Sumbul, Nimisha Thekke Madam, Beg\"um Demir(参考訳) リモートセンシング(rs)イメージは通常、アーカイブのストレージサイズを減らすために圧縮フォーマットに保存される。 したがって、RSの既存のコンテンツベース画像検索(CBIR)システムは、CBIRを適用する前にデコード画像を必要とする(大規模なCBIR問題の場合、計算的に要求される)。 そこで本稿では,CBIR適用前のRS画像の復号化を不要とし,RS画像の圧縮とインデックス化を同時に学習するジョイントフレームワークを提案する。 提案するフレームワークは2つのモジュールで構成されている。 最初のモジュールはRS画像を効果的に圧縮することを目的としている。 自動エンコーダアーキテクチャに基づいて実現される。 第2のモジュールは、高い差別能力を備えたハッシュコードの生成を目標としている。 ソフトペア、ビットバランス、分類損失関数を利用するディープハッシュ法に基づいて実現されている。 また,rs画像インデクシングと圧縮の両方に適合する画像表現を得るために,勾配操作技術を用いた2段階学習戦略を提案する。 実験の結果,提案フレームワークの圧縮とCBIRの有効性がRSで広く用いられている手法と比較された。 提案されたフレームワークのコードはhttps://git.tu-berlin.de/rsim/RS-JCIFで公開されている。

Remote sensing (RS) images are usually stored in compressed format to reduce the storage size of the archives. Thus, existing content-based image retrieval (CBIR) systems in RS require decoding images before applying CBIR (which is computationally demanding in the case of large-scale CBIR problems). To address this problem, in this paper, we present a joint framework that simultaneously learns RS image compression and indexing, eliminating the need for decoding RS images before applying CBIR. The proposed framework is made up of two modules. The first module aims at effectively compressing RS images. It is achieved based on an auto-encoder architecture. The second module aims at producing hash codes with a high discrimination capability. It is achieved based on a deep hashing method that exploits soft pairwise, bit-balancing and classification loss functions. We also propose a two stage learning strategy with gradient manipulation techniques to obtain image representations that are compatible with both RS image indexing and compression. Experimental results show the compression and CBIR efficacy of the proposed framework when compared to widely used approaches in RS. The code of the proposed framework is available at https://git.tu-berlin.de/rsim/RS-JCIF.
翻訳日:2022-01-20 09:35:27 公開日:2022-01-17
# (参考訳) 物理インフォームドプリエントを用いた不完全計算機モデルのベイズ校正

Bayesian Calibration of imperfect computer models using Physics-informed priors ( http://arxiv.org/abs/2201.06463v1 )

ライセンス: CC BY 4.0
Michail Spitieris and Ingelin Steinsland(参考訳) 本研究では,微分方程式に代表される計算機モデルの物理パラメータの不確かさの定量化に適した計算効率の高いデータ駆動フレームワークを提案する。 モデルの構造を共分散関数にエンコードする多出力ガウス過程 (GP) の述語である微分方程式の物理インフォームド述語を構成する。 物理パラメータの不確実性やモデル予測の定量化を可能にする、完全にベイズ的フレームワークに拡張する。 物理モデルは通常、実際のプロセスの完全な記述であるため、差分関数を考慮すれば、観測データからモデルを逸脱させることができる。 推測にはハミルトン・モンテカルロ(HMC)サンプリングを用いる。 この研究は、高血圧の個人的治療のための心臓の血行動態の解釈可能なパラメータの必要性が動機である。 このモデルは動脈のウィンドケッセルモデルであり、医学的関心の物理的に解釈可能なパラメータを持つ微分方程式を通して心臓の血行動態を表現する。 ほとんどの物理モデルと同様に、ウィンドケッセルモデルは実際の過程の完全な記述である。 提案手法を実証するために,より複雑な物理モデルから,モデル選択に既知の数学的関係を持つノイズデータをシミュレートする。 差分を考慮せずに、物理パラメータの後方は真値から逸脱し、不一致を考慮に入れれば物理パラメータの不確かさを合理的に定量化し、その後のモデル予測の不確かさを低減できることを示す。

In this work we introduce a computational efficient data-driven framework suitable for quantifying the uncertainty in physical parameters of computer models, represented by differential equations. We construct physics-informed priors for differential equations, which are multi-output Gaussian process (GP) priors that encode the model's structure in the covariance function. We extend this into a fully Bayesian framework which allows quantifying the uncertainty of physical parameters and model predictions. Since physical models are usually imperfect descriptions of the real process, we allow the model to deviate from the observed data by considering a discrepancy function. For inference Hamiltonian Monte Carlo (HMC) sampling is used. This work is motivated by the need for interpretable parameters for the hemodynamics of the heart for personal treatment of hypertension. The model used is the arterial Windkessel model, which represents the hemodynamics of the heart through differential equations with physically interpretable parameters of medical interest. As most physical models, the Windkessel model is an imperfect description of the real process. To demonstrate our approach we simulate noisy data from a more complex physical model with known mathematical connections to our modeling choice. We show that without accounting for discrepancy, the posterior of the physical parameters deviates from the true value while when accounting for discrepancy gives reasonable quantification of physical parameters uncertainty and reduces the uncertainty in subsequent model predictions.
翻訳日:2022-01-20 09:28:51 公開日:2022-01-17
# (参考訳) マルチリニアモデルにおける原理的多種多様な反事実

Principled Diverse Counterfactuals in Multilinear Models ( http://arxiv.org/abs/2201.06467v1 )

ライセンス: CC BY 4.0
Ioannis Papantonis, Vaishak Belle(参考訳) 機械学習(ML)アプリケーションは、多数の実生活タスクを自動化し、プライベートとパブリック両方の生活を改善している。 しかし、多くの最先端モデルのブラックボックス性は、モデル検証の課題を提起する。アルゴリズムが適切な基準に基づいて決定を下すか、あるいは特定の少数派グループと判別しないか、どのように確かめることができるのか? 本稿では,ランダム林を含む広いクラスであるマルチリニアモデルとベイズネットワークから,多様な反事実的説明を生成する手法を提案する。

Machine learning (ML) applications have automated numerous real-life tasks, improving both private and public life. However, the black-box nature of many state-of-the-art models poses the challenge of model verification; how can one be sure that the algorithm bases its decisions on the proper criteria, or that it does not discriminate against certain minority groups? In this paper we propose a way to generate diverse counterfactual explanations from multilinear models, a broad class which includes Random Forests, as well as Bayesian Networks.
翻訳日:2022-01-20 09:20:44 公開日:2022-01-17
# (参考訳) モバイルキーボード入力における処理複合化

Handling Compounding in Mobile Keyboard Input ( http://arxiv.org/abs/2201.06469v1 )

ライセンス: CC BY 4.0
Andreas Kabel, Keith Hall, Tom Ouyang, David Rybach, Daan van Esch, Fran\c{c}oise Beaufays(参考訳) 本稿では,形態的に豊かな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。 スマートフォンのキーボードは通常、入力デコード、修正、予測といった言語モデルに依存する機能をサポートしている。 レイテンシの理由から、これらの操作はデバイス上で実行されるため、モデルのサイズは限られており、特に形態学的にリッチな言語では、日々のタスクに必要なすべての単語を簡単にカバーできない。 特にゲルマン語の複雑な性質は、語彙を事実上無限にしている。 同様に、多言語(スラヴ語、トルコ語、フィンノ・ウグリ語など)は、英語やマンダリンのような形態学的に単純な言語よりもはるかに大きい語彙を持つ傾向がある。 そこで本稿では,自動選択したサブワード単位にバインディングタイプを付加した言語をモデル化し,サブワード単位を単語にバインドするタイミングをデコーダが把握できるようにする。 本手法は,様々な複合言語において約20%の単語誤り率削減をもたらすことを示す。 これは、我々が以前入手した改善の2倍以上の基本的なアプローチである、と論文で述べられている。

This paper proposes a framework to improve the typing experience of mobile users in morphologically rich languages. Smartphone keyboards typically support features such as input decoding, corrections and predictions that all rely on language models. For latency reasons, these operations happen on device, so the models are of limited size and cannot easily cover all the words needed by users for their daily tasks, especially in morphologically rich languages. In particular, the compounding nature of Germanic languages makes their vocabulary virtually infinite. Similarly, heavily inflecting and agglutinative languages (e.g. Slavic, Turkic or Finno-Ugric languages) tend to have much larger vocabularies than morphologically simpler languages, such as English or Mandarin. We propose to model such languages with automatically selected subword units annotated with what we call binding types, allowing the decoder to know when to bind subword units into words. We show that this method brings around 20% word error rate reduction in a variety of compounding languages. This is more than twice the improvement we previously obtained with a more basic approach, also described in the paper.
翻訳日:2022-01-20 08:45:57 公開日:2022-01-17
# (参考訳) AutoAlign:マルチモーダル3Dオブジェクト検出のための画素インスタンス機能集約

AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2201.06493v1 )

ライセンス: CC BY 4.0
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinghong Jiang, Feng Zhao, Bolei Zhou, Hang Zhao(参考訳) RGB画像またはLiDAR点雲による物体検出は、自動運転において広範囲に研究されている。 しかし、これらの2つのデータソースを相互に補完し、有益にするのは難しい。 本稿では,3次元物体検出のための自動機能融合戦略である \textit{autoalign} を提案する。 カメラ投影行列と決定論的対応を確立する代わりに、画像と点雲のマッピング関係を学習可能なアライメントマップでモデル化する。 このマップにより,非同種機能の動的かつデータ駆動的なアライメントを自動化することができる。 具体的には、各ボクセルの \textit{pixel-level} 画像特徴を適応的に集約するクロスアテンション機能アライメントモジュールを考案する。 また,機能アライメント時のセマンティックな一貫性を高めるために,モデルが機能アグリゲーションを \textit{instance-level} 機能ガイダンスで学習できる自己教師付きクロスモーダル機能インタラクションモジュールを設計する。 その結果,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善が得られた。 特に、私たちの最高のモデルは、nuScenesテストのリーダーボード上で70.9 NDSに達し、様々な最先端技術の間で競争力を発揮する。

Object detection through either RGB images or the LiDAR point clouds has been extensively explored in autonomous driving. However, it remains challenging to make these two data sources complementary and beneficial to each other. In this paper, we propose \textit{AutoAlign}, an automatic feature fusion strategy for 3D object detection. Instead of establishing deterministic correspondence with camera projection matrix, we model the mapping relationship between the image and point clouds with a learnable alignment map. This map enables our model to automate the alignment of non-homogenous features in a dynamic and data-driven manner. Specifically, a cross-attention feature alignment module is devised to adaptively aggregate \textit{pixel-level} image features for each voxel. To enhance the semantic consistency during feature alignment, we also design a self-supervised cross-modal feature interaction module, through which the model can learn feature aggregation with \textit{instance-level} feature guidance. Extensive experimental results show that our approach can lead to 2.3 mAP and 7.0 mAP improvements on the KITTI and nuScenes datasets, respectively. Notably, our best model reaches 70.9 NDS on the nuScenes testing leaderboard, achieving competitive performance among various state-of-the-arts.
翻訳日:2022-01-20 08:35:53 公開日:2022-01-17
# (参考訳) AugLy:ロバストネスのためのデータ拡張

AugLy: Data Augmentations for Robustness ( http://arxiv.org/abs/2201.06494v1 )

ライセンス: CC BY 4.0
Zoe Papakipos, Joanna Bitton(参考訳) 我々は,adversarial robustnessに着目したデータ拡張ライブラリであるauglyを紹介する。 AugLyは、複数のモーダル(オーディオ、画像、テキスト、ビデオ)に対して、幅広い拡張を提供する。 これらの拡張は、実際のユーザがソーシャルメディアプラットフォームで実行するものにインスパイアされたもので、一部はすでに既存のデータ拡張ライブラリではサポートされていなかった。 AugLyは、データ拡張が有用であるあらゆる目的に使用できるが、特にロバスト性を評価し、体系的に敵攻撃を発生させるのに適している。 本稿では, auglyの実用性を示すため, 既存のライブラリと比較し, 既存のライブラリと比較し, 各種最先端モデルのロバスト性評価を行う。 AugLyリポジトリはhttps://github.com/facebookresearch/AugLyにある。

We introduce AugLy, a data augmentation library with a focus on adversarial robustness. AugLy provides a wide array of augmentations for multiple modalities (audio, image, text, & video). These augmentations were inspired by those that real users perform on social media platforms, some of which were not already supported by existing data augmentation libraries. AugLy can be used for any purpose where data augmentations are useful, but it is particularly well-suited for evaluating robustness and systematically generating adversarial attacks. In this paper we present how AugLy works, benchmark it compared against existing libraries, and use it to evaluate the robustness of various state-of-the-art models to showcase AugLy's utility. The AugLy repository can be found at https://github.com/facebookresearch/AugLy.
翻訳日:2022-01-20 08:24:54 公開日:2022-01-17
# (参考訳) ArCovidVac:新型コロナウイルスワクチンに関するアラビア語ツイートの分析

ArCovidVac: Analyzing Arabic Tweets About COVID-19 Vaccination ( http://arxiv.org/abs/2201.06496v1 )

ライセンス: CC BY 4.0
Hamdy Mubarak, Sabit Hassan, Shammur Absar Chowdhury, Firoj Alam(参考訳) 新型コロナウイルスのパンデミックと世界初となるインフォデミックは、さまざまな方法で私たちの生活を変えました。 われわれはソーシャルメディアを利用して新型コロナウイルス(covid-19)パンデミックの最新情報を入手し、同時に情報を広めることにした。 ソーシャルメディアの内容は、健康に関する助言、計画、政策立案者からの情報的なニュースだけでなく、陰謀や噂も含んでいた。 行動可能な判断を下すため(噂を流したり、旅行のために一定の措置をとるなど)に投稿されるとすぐにその情報を特定することが重要になった。 この課題に対処するため、私たちは、新型コロナウイルス(COVID-19)予防接種キャンペーンのために、初めて手動で注釈付きアラビア語のツイートデータセットArCovidVacを開発し、公開しました。 データセットはアノテーションの異なるレイヤでリッチ化されます。 (i)インフォメーション性(ツイートの重要度よりも重要度が低い) (ii)きめ細かいつぶやきコンテンツの種類(アドバイス、噂、制限、ニュース/情報の認証等) (iii)予防接種に対するスタンス(予防接種、中立、抗ワクチン) さらに, 各種ワクチンの人気, 流行ハッシュタグ, 話題, ツイートにおける攻撃性について調査し, 詳細な分析を行った。 個別のツイートに対するデータとワクチンに対する姿勢の時間的変化について検討した。 我々は、情報性、コンテンツタイプ、姿勢検出のためのトランスフォーマーアーキテクチャを用いてArCovidVacデータセットをベンチマークした。

The emergence of the COVID-19 pandemic and the first global infodemic have changed our lives in many different ways. We relied on social media to get the latest information about the COVID-19 pandemic and at the same time to disseminate information. The content in social media consisted not only health related advises, plans, and informative news from policy makers, but also contains conspiracies and rumors. It became important to identify such information as soon as they are posted to make actionable decisions (e.g., debunking rumors, or taking certain measures for traveling). To address this challenge, we develop and publicly release the first largest manually annotated Arabic tweet dataset, ArCovidVac, for the COVID-19 vaccination campaign, covering many countries in the Arab region. The dataset is enriched with different layers of annotation, including, (i) Informativeness (more vs. less importance of the tweets); (ii) fine-grained tweet content types (e.g., advice, rumors, restriction, authenticate news/information); and (iii) stance towards vaccination (pro-vaccination, neutral, anti-vaccination). Further, we performed in-depth analysis of the data, exploring the popularity of different vaccines, trending hashtags, topics and presence of offensiveness in the tweets. We studied the data for individual types of tweets and temporal changes in stance towards vaccine. We benchmarked the ArCovidVac dataset using transformer architectures for informativeness, content types, and stance detection.
翻訳日:2022-01-20 08:09:50 公開日:2022-01-17
# (参考訳) 対数連続学習

Logarithmic Continual Learning ( http://arxiv.org/abs/2201.06534v1 )

ライセンス: CC BY 4.0
Wojciech Masarczyk, Pawe{\l} Wawrzy\'nski, Daniel Marczak, Kamil Deja, Tomasz Trzci\'nski(参考訳) 連続学習モデルの生成的リハーサルにおける自己リハーサルステップの数を対数的に減少させるニューラルネットワークアーキテクチャを提案する。 連続学習(cl)では、トレーニングサンプルは後続のタスクに含まれ、トレーニングされたモデルは一度に1つのタスクのみにアクセスできる。 以前のサンプルを再生するために、現在のclメソッドは生成モデルをブートストラップし、現在のデータと再生成された過去のデータを組み合わせて再帰的にトレーニングする。 この再帰は、各タスクの後に同じ過去のサンプルが再生成されるような過度な計算につながり、コンストラクションの品質は順次低下する。 そこで本研究では,これらの制約に対処し,各サンプルの対数的再訓練数を必要とする新しい生成的リハーサルアーキテクチャを提案する。 我々のアプローチは、a~taskの後に再トレーニングする必要のないように、生成モデルのセットで過去のデータの割り当てを利用する。 対数連続学習の手法を実験的に評価したところ,本手法の最先端な生成的リハーサル法に対する優位性を示した。

We introduce a neural network architecture that logarithmically reduces the number of self-rehearsal steps in the generative rehearsal of continually learned models. In continual learning (CL), training samples come in subsequent tasks, and the trained model can access only a single task at a time. To replay previous samples, contemporary CL methods bootstrap generative models and train them recursively with a combination of current and regenerated past data. This recurrence leads to superfluous computations as the same past samples are regenerated after each task, and the reconstruction quality successively degrades. In this work, we address these limitations and propose a new generative rehearsal architecture that requires at most logarithmic number of retraining for each sample. Our approach leverages allocation of past data in a~set of generative models such that most of them do not require retraining after a~task. The experimental evaluation of our logarithmic continual learning approach shows the superiority of our method with respect to the state-of-the-art generative rehearsal methods.
翻訳日:2022-01-20 07:37:25 公開日:2022-01-17
# (参考訳) コンディショニングによる崩壊:限られたデータによるクラス条件付きGANの訓練

Collapse by Conditioning: Training Class-conditional GANs with Limited Data ( http://arxiv.org/abs/2201.06578v1 )

ライセンス: CC BY 4.0
Mohamad Shahbazi, Martin Danelljan, Danda Pani Paudel, Luc Van Gool(参考訳) クラスコンディショニングは、離散的な入力変数に基づいてGAN(Generative Adversarial Network)を制御する直接的な手段を提供する。 多くのアプリケーションで必要とされるが、クラスラベルによって提供される追加情報は、gan自体のトレーニングの恩恵を受けることさえ期待できる。 このような考え方とは対照的に,非条件学習が十分な生成能力をもたらす限定的なデータ設定において,クラスコンディショニングがモード崩壊を引き起こすことを観察する。 本研究では, 条件付きGAN(cGAN)の学習戦略を提案し, 非条件学習を活用することで, 観測モードの崩壊を効果的に防止する。 我々のトレーニング戦略は、無条件のGANから始まり、徐々に条件情報をジェネレータと目的関数に注入する。 クラス間での情報共有を早期に活用するため, 安定したトレーニングだけでなく, 高品質な画像生成にも限られたデータでcGANを訓練する方法を提案する。 4つのデータセットの包括的実験において,前述のモード崩壊問題を解析する。 本手法は,最先端手法や確立されたベースラインと比較し,優れた結果を示す。 コードは以下の通り。 https://github.com/mshahbazi72/transitional-cGAN

Class-conditioning offers a direct means of controlling a Generative Adversarial Network (GAN) based on a discrete input variable. While necessary in many applications, the additional information provided by the class labels could even be expected to benefit the training of the GAN itself. Contrary to this belief, we observe that class-conditioning causes mode collapse in limited data settings, where unconditional learning leads to satisfactory generative ability. Motivated by this observation, we propose a training strategy for conditional GANs (cGANs) that effectively prevents the observed mode-collapse by leveraging unconditional learning. Our training strategy starts with an unconditional GAN and gradually injects conditional information into the generator and the objective function. The proposed method for training cGANs with limited data results not only in stable training but also in generating high-quality images, thanks to the early-stage exploitation of the shared information across classes. We analyze the aforementioned mode collapse problem in comprehensive experiments on four datasets. Our approach demonstrates outstanding results compared with state-of-the-art methods and established baselines. The code is available at: https://github.com/mshahbazi72/transitional-cGAN
翻訳日:2022-01-20 07:27:56 公開日:2022-01-17
# (参考訳) 機械学習による2次元画像の反射対称性からの回転対称性の検出

Using Machine Learning to Detect Rotational Symmetries from Reflectional Symmetries in 2D Images ( http://arxiv.org/abs/2201.06594v1 )

ライセンス: CC BY 4.0
Koen Ponse, Anna V. Kononova, Maria Loleyt, Bas van Stein(参考訳) 自動対称性検出は2021年でも難しい課題である。 しかし、コンピュータビジョンには応用があり、芸術を理解する上でも重要な役割を果たしている。 本稿では、異なる最先端自動対称性検出アルゴリズムを比較して後者を支援することに焦点を当てる。 反射対称性を対象とするアルゴリズムの1つとして,画像の局所的対称性の探索,検出された対称性の選択の改善,他の対称性タイプ(回転型)の同定のための後処理改善を提案する。 回転対称性を検出するために,提案した反射対称性軸対に基づいて回転対称性を検出する機械学習モデルを提案する。 本研究では,局所対称性を検出する拡張アルゴリズムと,回転対称性を分類する機械学習モデルの性能を実証し,解析する。

Automated symmetry detection is still a difficult task in 2021. However, it has applications in computer vision, and it also plays an important part in understanding art. This paper focuses on aiding the latter by comparing different state-of-the-art automated symmetry detection algorithms. For one of such algorithms aimed at reflectional symmetries, we propose post-processing improvements to find localised symmetries in images, improve the selection of detected symmetries and identify another symmetry type (rotational). In order to detect rotational symmetries, we contribute a machine learning model which detects rotational symmetries based on provided reflection symmetry axis pairs. We demonstrate and analyze the performance of the extended algorithm to detect localised symmetries and the machine learning model to classify rotational symmetries.
翻訳日:2022-01-20 07:12:25 公開日:2022-01-17
# (参考訳) 空間時空間応用のためのフェデレーション学習の公平性

Fairness in Federated Learning for Spatial-Temporal Applications ( http://arxiv.org/abs/2201.06598v1 )

ライセンス: CC BY 4.0
Afra Mashhadi, Alex Kyllo, Reza M. Parizi(参考訳) フェデレート学習は、データをローカライズしながら、携帯電話などのリモートデバイス上で統計モデルをトレーニングする。 不均一で潜在的に巨大なネットワークでのトレーニングは、プライバシー保護データ分析の機会を導入し、これらのモデルを多様化し、より人口を包含する。 フェデレーション学習は、様々な参加者の集まりと定期的に動的に生成されたデータでモデルトレーニングを行えるようにすることで、既存の多くのモデルに公平さと平等をもたらすユニークな機会と見なすことができる。 本稿では,空間-時間モデルの文脈において公平性を測定し評価できる現在の指標と手法について述べる。 フェデレーション学習環境において直面する課題に対処するために,これらの指標とアプローチを再定義する方法を提案する。

Federated learning involves training statistical models over remote devices such as mobile phones while keeping data localized. Training in heterogeneous and potentially massive networks introduces opportunities for privacy-preserving data analysis and diversifying these models to become more inclusive of the population. Federated learning can be viewed as a unique opportunity to bring fairness and parity to many existing models by enabling model training to happen on a diverse set of participants and on data that is generated regularly and dynamically. In this paper, we discuss the current metrics and approaches that are available to measure and evaluate fairness in the context of spatial-temporal models. We propose how these metrics and approaches can be re-defined to address the challenges that are faced in the federated learning setting.
翻訳日:2022-01-20 07:01:56 公開日:2022-01-17
# (参考訳) 高次元におけるグラニュラーインストゥルメンタル変数の推論理論

Inferential Theory for Granular Instrumental Variables in High Dimensions ( http://arxiv.org/abs/2201.06605v1 )

ライセンス: CC BY 4.0
Saman Banafti and Tae-Hwy Lee(参考訳) グラニュラーインストゥルメンタル変数 (giv) の手法は、因子誤差構造を持つパネルを利用して、潜在因子の制御後も内在性を持つ構造時系列モデルの推定を行う。 我々はgiv方法論を数次元に拡張する。 まず、識別手順を大きな$N$および大きな$T$フレームワークに拡張し、これは、N$断面単位のサイズ分布の漸近的なHerfindahl指数に依存する。 第2に, パラメータと負荷の双方を未知として扱い, 構造パラメータの限定分布を考慮した場合, 推定器と要素のサンプリング誤差が無視可能であることを示す。 第3に,高次元精度行列におけるサンプリング誤差は推定アルゴリズムでは無視できることを示した。 第4に、構造パラメータを付加的な構成機器で過度に同定し、効率性の向上につながる。 モンテカルロの証拠は、我々の漸近的理論と世界の原油市場への応用を支え、新たな結果をもたらす。

The Granular Instrumental Variables (GIV) methodology exploits panels with factor error structures to construct instruments to estimate structural time series models with endogeneity even after controlling for latent factors. We extend the GIV methodology in several dimensions. First, we extend the identification procedure to a large $N$ and large $T$ framework, which depends on the asymptotic Herfindahl index of the size distribution of $N$ cross-sectional units. Second, we treat both the factors and loadings as unknown and show that the sampling error in the estimated instrument and factors is negligible when considering the limiting distribution of the structural parameters. Third, we show that the sampling error in the high-dimensional precision matrix is negligible in our estimation algorithm. Fourth, we overidentify the structural parameters with additional constructed instruments, which leads to efficiency gains. Monte Carlo evidence is presented to support our asymptotic theory and application to the global crude oil market leads to new results.
翻訳日:2022-01-20 06:48:47 公開日:2022-01-17
# (参考訳) クローズドループACAS Xu NNCSは安全でない:検証のための量子状態バックリーチ

Closed-Loop ACAS Xu NNCS is Unsafe: Quantized State Backreachability for Verification ( http://arxiv.org/abs/2201.06626v1 )

ライセンス: CC BY 4.0
Stanley Bak and Hoang-Dung Tran(参考訳) ACAS Xuは無人航空機向けに設計された空中対空衝突回避システムで、侵入機を避けるために水平旋回勧告を発行する。 設計に大規模なルックアップテーブルを使用するため、ポリシーのニューラルネットワーク圧縮が提案されている。 このシステムの解析は、ニューラルネットワークの検証に関する形式的手法コミュニティにおいて、重要な研究機関となった。 多くの強力な手法が開発されているが、ほとんどの研究はクローズドループ解析を必要とするシステムのメインポイントである衝突回避ではなく、ネットワークのオープンループ特性に焦点を当てている。 本研究では,状態量子化とバックリーチ性を用いてACAS Xuの閉ループ近似を検証する手法を開発した。 完璧なセンサー情報、アドバイザリーの即時追従、理想的な航空機操縦、まっすぐに飛ぶだけの侵入者といった分析には、望ましい仮定を用いています。 この手法が安全性を証明できなかった場合、元の(非量子化)システムが衝突する反例を生成するまで量子化パラメータを精査する。

ACAS Xu is an air-to-air collision avoidance system designed for unmanned aircraft that issues horizontal turn advisories to avoid an intruder aircraft. Due the use of a large lookup table in the design, a neural network compression of the policy was proposed. Analysis of this system has spurred a significant body of research in the formal methods community on neural network verification. While many powerful methods have been developed, most work focuses on open-loop properties of the networks, rather than the main point of the system -- collision avoidance -- which requires closed-loop analysis. In this work, we develop a technique to verify a closed-loop approximation of ACAS Xu using state quantization and backreachability. We use favorable assumptions for the analysis -- perfect sensor information, instant following of advisories, ideal aircraft maneuvers and an intruder that only flies straight. When the method fails to prove the system is safe, we refine the quantization parameters until generating counterexamples where the original (non-quantized) system also has collisions.
翻訳日:2022-01-20 06:47:30 公開日:2022-01-17
# (参考訳) 意図に基づく畳み込みリカレントオートエンコーダネットによる学習波伝播

Learning Wave Propagation with Attention-Based Convolutional Recurrent Autoencoder Net ( http://arxiv.org/abs/2201.06628v1 )

ライセンス: CC BY 4.0
Indu Kant Deo, Rajeev Jaiman(参考訳) 本稿では,波動伝播現象をデータ駆動でモデル化するための,エンド・ツー・エンドの注意に基づく畳み込みリカレントオートエンコーダ(AB-CRAN)ネットワークを提案する。 提案したネットワークアーキテクチャは、長い短期記憶(LSTM)セルを持つ注意ベースのリカレントニューラルネットワーク(RNN)に依存している。 低次元学習モデルを構築するために,波伝搬の時間依存双曲型偏微分方程式が与える全次スナップショットからデニュージングに基づく畳み込みオートエンコーダを用いる。 まず,低次元表現を時間的に発展させることの難しさを,波動伝播現象に対するプレーンなRNN-LSTMを用いて解決しようとする。 注意に基づくシーケンス・ツー・シークエンス RNN-LSTM アーキテクチャを構築し,その解決策を長期にわたって予測する。 提案した学習モデルの有効性を示すために, 1次元線形対流, 非線形粘性バーガー, 2次元サントベナント浅層水系の3つのベンチマーク問題を検討した。 ベンチマーク問題から得られた時系列データセットを用いて,我々の新しいAB-CRANアーキテクチャは,波の振幅を正確に把握し,解の波動特性を長期水平に保存する。 注意に基づくシーケンスからシーケンスへのネットワークは、通常のrnn-lstmと比較して予測の時間ホリゾンを5倍増加させる。 デノージングオートエンコーダはさらに予測の平均二乗誤差を低減し、パラメータ空間における一般化能力を向上させる。

In this paper, we present an end-to-end attention-based convolutional recurrent autoencoder (AB-CRAN) network for data-driven modeling of wave propagation phenomena. The proposed network architecture relies on the attention-based recurrent neural network (RNN) with long short-term memory (LSTM) cells. To construct the low-dimensional learning model, we employ a denoising-based convolutional autoencoder from the full-order snapshots given by time-dependent hyperbolic partial differential equations for wave propagation. To begin, we attempt to address the difficulty in evolving the low-dimensional representation in time with a plain RNN-LSTM for wave propagation phenomenon. We build an attention-based sequence-to-sequence RNN-LSTM architecture to predict the solution over a long time horizon. To demonstrate the effectiveness of the proposed learning model, we consider three benchmark problems namely one-dimensional linear convection, nonlinear viscous Burgers, and two-dimensional Saint-Venant shallow water system. Using the time-series datasets from the benchmark problems, our novel AB-CRAN architecture accurately captures the wave amplitude and preserves the wave characteristics of the solution for long time horizons. The attention-based sequence-to-sequence network increases the time-horizon of prediction by five times compared to the plain RNN-LSTM. Denoising autoencoder further reduces the mean squared error of prediction and improves the generalization capability in the parameter space.
翻訳日:2022-01-20 06:17:46 公開日:2022-01-17
# (参考訳) 不正確な未学習を評価するには再考が必要である

Evaluating Inexact Unlearning Requires Revisiting Forgetting ( http://arxiv.org/abs/2201.06640v1 )

ライセンス: CC BY 4.0
Shashwat Goel, Ameya Prabhu and Ponnurangam Kumaraguru(参考訳) inexact machine unlearningの既存の作業は、削除セットを削除することで再トレーニングされたモデルとの区別不能性を達成することに焦点を当てている。 我々は、識別不能性は不要であり、測定が不可能であり、実際の緩和が不十分であると主張する。 私たちは、高いユーティリティとリソース効率を維持しながら、削除セットに固有のすべての情報を忘れるという学習の目標を再定義します。 モデルから誤りや偏りのあるデータを除去する実践的応用によって、我々は、IC(Interclass Confusion)と呼ばれる忘れ度を測定する新しいテストを導入する。 忘れることの2つの側面を分析します (i)記憶と記憶 (ii)プロパティの一般化。 ブラックボックステストであるにもかかわらず、ICは削除セットからの情報がネットワークの初期層まで消去されたかどうかを調べることができる。 実験により,ネットワークの最終k層を完全非学習と破滅的に隠蔽する2つの単純なアンラーニング手法が,事前のアンラーニング法と異なり,大きな削除集合によく拡張できることを示した。 k は同様のユーティリティで忘れられる効率のトレードオフを制御する。 全体として、我々の未学習の定式化とICテストは、より良い未学習アルゴリズムの設計を導くと信じている。

Existing works in inexact machine unlearning focus on achieving indistinguishability from models retrained after removing the deletion set. We argue that indistinguishability is unnecessary, infeasible to measure, and its practical relaxations can be insufficient. We redefine the goal of unlearning as forgetting all information specific to the deletion set while maintaining high utility and resource efficiency. Motivated by the practical application of removing mislabelled and biased data from models, we introduce a novel test to measure the degree of forgetting called Interclass Confusion (IC). It allows us to analyze two aspects of forgetting: (i) memorization and (ii) property generalization. Despite being a black-box test, IC can investigate whether information from the deletion set was erased until the early layers of the network. We empirically show that two simple unlearning methods, exact-unlearning and catastrophic-forgetting the final k layers of a network, scale well to large deletion sets unlike prior unlearning methods. k controls the forgetting-efficiency tradeoff at similar utility. Overall, we believe our formulation of unlearning and the IC test will guide the design of better unlearning algorithms.
翻訳日:2022-01-20 05:46:48 公開日:2022-01-17
# (参考訳) よりクリーンな文書指向多言語クロールコーパスを目指して

Towards a Cleaner Document-Oriented Multilingual Crawled Corpus ( http://arxiv.org/abs/2201.06642v1 )

ライセンス: CC BY 4.0
Julien Abadji, Pedro Ortiz Suarez, Laurent Romary, Beno\^it Sagot(参考訳) 近年,自然言語処理へのトランスファー学習や半教師付き学習手法の導入により,生の生コーパスの必要性が劇的に高まっている。 また、大規模な言語モデルのトレーニングに必要なデータ量を手作業でキュレートする試みが最近行われているが、このデータを取得する主な方法は、いまだに自動Webクローリングである。 本稿では,既存の多言語 Web コーパス OSCAR とそのパイプライン Ungoliant を用いて,行レベルで Common Crawl からデータを抽出・分類し,新たな文書指向版 OSCAR を作成するための改良と自動アノテーションを提案する。

The need for raw large raw corpora has dramatically increased in recent years with the introduction of transfer learning and semi-supervised learning methods to Natural Language Processing. And while there have been some recent attempts to manually curate the amount of data necessary to train large language models, the main way to obtain this data is still through automatic web crawling. In this paper we take the existing multilingual web corpus OSCAR and its pipeline Ungoliant that extracts and classifies data from Common Crawl at the line level, and propose a set of improvements and automatic annotations in order to produce a new document-oriented version of OSCAR that could prove more suitable to pre-train large generative language models as well as hopefully other applications in Natural Language Processing and Digital Humanities.
翻訳日:2022-01-20 05:24:10 公開日:2022-01-17
# (参考訳) マルチ勝者投票が疫病に

Multi-winner Approval Voting Goes Epistemic ( http://arxiv.org/abs/2201.06655v1 )

ライセンス: CC BY 4.0
Tahar Allouche, J\'er\^ome Lang, Florian Yger(参考訳) エピステマティック投票は、投票を根底にある真実に関する騒々しいシグナルとして解釈する。 我々は、真理が客観的な勝者の集合から成り、その濃度について下界と上界を知る文脈を考える。 この設定の原型的な問題は、基底真理の大きさに関する事前知識を持つ多段アノテーションのアグレゲーションである。 我々は、最適な勝者集合を出力するルールを定義するノイズモデルを提案する。 マルチラベルアノテーション(収集したアノテーション)の実験について報告する。

Epistemic voting interprets votes as noisy signals about a ground truth. We consider contexts where the truth consists of a set of objective winners, knowing a lower and upper bound on its cardinality. A prototypical problem for this setting is the aggre-gation of multi-label annotations with prior knowledge on the size of the ground truth. We posit noisemodels, for which we define rules that output an optimal set of winners. We report on experiments on multi-label annotations (which we collected).
翻訳日:2022-01-20 04:59:33 公開日:2022-01-17
# (参考訳) リーマン収縮による教師付き学習の一般化

Generalization in Supervised Learning Through Riemannian Contraction ( http://arxiv.org/abs/2201.06656v1 )

ライセンス: CC BY 4.0
Leo Kozachkov, Patrick M. Wensing, Jean-Jacques Slotine(参考訳) 教師付き学習集合におけるリーマン収縮が一般化を意味することを証明する。 具体的には、オプティマイザがレート $\lambda > 0$ のあるリーマン計量で収縮している場合、レート $\mathcal{o}(1/\lambda n)$ で一様に安定であり、ここで $n$ はトレーニングセット内のラベル付き例の数である。 その結果、凸面と非凸面の連続時間と離散時間の両方において確率的および決定論的最適化が達成される。 関連する一般化境界は、凸面や強い凸損失面上の勾配降下の場合、よく知られた結果に還元される。 勾配流下でのカーネルリッジ回帰のような特定の線形設定で最適であることを示すことができる。

We prove that Riemannian contraction in a supervised learning setting implies generalization. Specifically, we show that if an optimizer is contracting in some Riemannian metric with rate $\lambda > 0$, it is uniformly algorithmically stable with rate $\mathcal{O}(1/\lambda n)$, where $n$ is the number of labelled examples in the training set. The results hold for stochastic and deterministic optimization, in both continuous and discrete-time, for convex and non-convex loss surfaces. The associated generalization bounds reduce to well-known results in the particular case of gradient descent over convex or strongly convex loss surfaces. They can be shown to be optimal in certain linear settings, such as kernel ridge regression under gradient flow.
翻訳日:2022-01-20 04:39:04 公開日:2022-01-17
# (参考訳) チャットボットの最近の進歩に関する文献調査

A Literature Survey of Recent Advances in Chatbots ( http://arxiv.org/abs/2201.06657v1 )

ライセンス: CC BY 4.0
Guendalina Caldarini and Sardar Jaf and Kenneth McGarry(参考訳) チャットボットは、人間の会話を模倣して自動化されたオンラインガイダンスとサポートを可能にするインテリジェントな会話コンピュータシステムである。 チャットボットのメリットの増加は、顧客への仮想支援を提供するために、多くの業界で広く採用された。 Chatbotsは自然言語処理と機械学習という2つの人工知能領域からメソッドとアルゴリズムを利用する。 しかしながら、アプリケーションには多くの課題と制限があります。 本稿では,人工知能と自然言語処理を用いたチャットボットの最近の進歩を概観する。 我々は、現在の作業の主な課題と限界を強調し、今後の調査のために推奨する。

Chatbots are intelligent conversational computer systems designed to mimic human conversation to enable automated online guidance and support. The increased benefits of chatbots led to their wide adoption by many industries in order to provide virtual assistance to customers. Chatbots utilise methods and algorithms from two Artificial Intelligence domains: Natural Language Processing and Machine Learning. However, there are many challenges and limitations in their application. In this survey we review recent advances on chatbots, where Artificial Intelligence and Natural Language processing are used. We highlight the main challenges and limitations of current work and make recommendations for future research investigation.
翻訳日:2022-01-20 04:22:23 公開日:2022-01-17
# 連続時間ポリシー勾配に基づく構造化ニューラルコントローラの最適化

Optimisation of Structured Neural Controller Based on Continuous-Time Policy Gradient ( http://arxiv.org/abs/2201.06262v1 )

ライセンス: Link先を確認
Namhoon Cho, Hyo-Sang Shin(参考訳) 本研究では、連続時間(決定論的)動的システムの非線形構造制御のためのポリシー最適化フレームワークを提案する。 提案手法は、与えられた構造内の可変要素をニューラルネットワークとのパラメトリゼーションのポイントとして考慮しながら、関連する科学的知識(リアプノフ安定理論やドメイン経験など)に基づく制御器の構造を規定する。 ニューラルネットワーク重みの関数として表されるコストを最適化するため, 提案手法では, コスト勾配の正確かつ実効的な計算方法として, 随伴感度解析に基づく連続時間ポリシー勾配法を利用する。 これにより、フィードバックコントローラに対する解析的由来の構造の安定性、堅牢性、物理的解釈性と表現的柔軟性を組み合わせ、機械学習技術によって提供される結果のパフォーマンスを最適化することができる。 このような固定構造制御合成のハイブリッドパラダイムは、オンライン操作の性能向上のために適応非線形コントローラの最適化に特に有用であり、既存の理論が構造設計に先行する分野であり、ゲインのチューニングに関する明確な解析的理解や性能特性を管理する不確実性モデル基底関数を欠いている。 航空宇宙応用に関する数値実験は、構造化非線形コントローラ最適化フレームワークの有用性を実証している。

This study presents a policy optimisation framework for structured nonlinear control of continuous-time (deterministic) dynamic systems. The proposed approach prescribes a structure for the controller based on relevant scientific knowledge (such as Lyapunov stability theory or domain experiences) while considering the tunable elements inside the given structure as the point of parametrisation with neural networks. To optimise a cost represented as a function of the neural network weights, the proposed approach utilises the continuous-time policy gradient method based on adjoint sensitivity analysis as a means for correct and performant computation of cost gradient. This enables combining the stability, robustness, and physical interpretability of an analytically-derived structure for the feedback controller with the representational flexibility and optimised resulting performance provided by machine learning techniques. Such a hybrid paradigm for fixed-structure control synthesis is particularly useful for optimising adaptive nonlinear controllers to achieve improved performance in online operation, an area where the existing theory prevails the design of structure while lacking clear analytical understandings about tuning of the gains and the uncertainty model basis functions that govern the performance characteristics. Numerical experiments on aerospace applications illustrate the utility of the structured nonlinear controller optimisation framework.
翻訳日:2022-01-19 18:57:22 公開日:2022-01-17
# 量子パラメトリック分類器における転送学習:情報理論一般化分析

Transfer Learning in Quantum Parametric Classifiers: An Information-Theoretic Generalization Analysis ( http://arxiv.org/abs/2201.06297v1 )

ライセンス: Link先を確認
Sharu Theresa Jose and Osvaldo Simeone(参考訳) 古典的な入力を持つ量子機械学習の重要なステップは、入力を量子状態にマッピングする埋め込み回路の設計である。 本稿では,古典-量子埋め込みを任意のパラメトリック量子回路で実行し,ソースタスクのデータに基づいて事前学習する移行学習環境について検討する。 実行時に、バイナリ分類器は、対象とするタスクからのデータに基づいて最適化される。 情報理論的なアプローチを用いて, 平均余剰リスク(最適性ギャップ)は, 古典入力と量子埋め込みの2つの相互情報項と, トレース距離に関連するソースとターゲットタスクの類似度尺度を用いて境界化できることを実証する。 主な理論的結果は単純な二項分類の例で検証される。

A key step in quantum machine learning with classical inputs is the design of an embedding circuit mapping inputs to a quantum state. This paper studies a transfer learning setting in which classical-to-quantum embedding is carried out by an arbitrary parametric quantum circuit that is pre-trained based on data from a source task. At run time, the binary classifier is then optimized based on data from the target task of interest. Using an information-theoretic approach, we demonstrate that the average excess risk, or optimality gap, can be bounded in terms of two R\'enyi mutual information terms between classical input and quantum embedding under source and target tasks, as well as in terms of a measure of similarity between the source and target tasks related to the trace distance. The main theoretical results are validated on a simple binary classification example.
翻訳日:2022-01-19 18:57:03 公開日:2022-01-17
# データサイエンスプロジェクトにおける成功要因に関する調査研究

A survey study of success factors in data science projects ( http://arxiv.org/abs/2201.06310v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola(参考訳) 近年、データサイエンスコミュニティは卓越性を追求し、組織的・社会技術的課題を犠牲にして技術的な問題を解決することに焦点を当て、高度な分析を開発するための重要な研究努力を行っている。 データサイエンスプロジェクト管理の現状に関する以前の調査によると、技術プロセスと組織プロセスの間には大きなギャップがある。 本稿では,237名のデータサイエンス専門家を対象に,データサイエンスにおけるプロジェクト管理方法論の活用に関する調査を行った。 データサイエンスプロジェクト実行時の回答者の役割と優先順位を,さらにプロファイリングします。 1) アジャイルデータサイエンスのライフサイクルは最も広く使われているフレームワークですが、調査参加者の25%だけがデータサイエンスプロジェクトの方法論に従うことを述べています。 2)最も重要な成功要因は、ステークホルダーのニーズを正確に説明し、エンドユーザに結果を伝え、チームのコラボレーションと調整です。 (3) プロジェクト方法論に従うプロフェッショナルは、プロジェクトの潜在的なリスクと落とし穴、バージョン管理、運用へのデプロイメントパイプライン、データセキュリティとプライバシに重点を置いています。

In recent years, the data science community has pursued excellence and made significant research efforts to develop advanced analytics, focusing on solving technical problems at the expense of organizational and socio-technical challenges. According to previous surveys on the state of data science project management, there is a significant gap between technical and organizational processes. In this article we present new empirical data from a survey to 237 data science professionals on the use of project management methodologies for data science. We provide additional profiling of the survey respondents' roles and their priorities when executing data science projects. Based on this survey study, the main findings are: (1) Agile data science lifecycle is the most widely used framework, but only 25% of the survey participants state to follow a data science project methodology. (2) The most important success factors are precisely describing stakeholders' needs, communicating the results to end-users, and team collaboration and coordination. (3) Professionals who adhere to a project methodology place greater emphasis on the project's potential risks and pitfalls, version control, the deployment pipeline to production, and data security and privacy.
翻訳日:2022-01-19 18:56:51 公開日:2022-01-17
# テキスト依存話者照合における深部表現学習の学習目標とアクティベーション関数について

On Training Targets and Activation Functions for Deep Representation Learning in Text-Dependent Speaker Verification ( http://arxiv.org/abs/2201.06426v1 )

ライセンス: Link先を確認
Achintya kr. Sarkar, Zheng-Hua Tan(参考訳) 深層表現学習は,テキスト依存型話者検証(TD-SV)システムの発展に大きく寄与している。 ボトルネック機能を抽出するためにディープニューラルネットワーク(dnn)を設計する際には、トレーニングターゲット、アクティベーション関数、損失関数などが考慮される。 本稿では,これらの選択がTD-SVの性能に与える影響を系統的に研究する。 訓練対象として、話者識別、時間コントラスト学習(TCL)、自己回帰予測コーディングを、まずは教師付き、2つは自己教師付きで検討する。 さらに,学習対象として話者識別を用いた場合の損失関数について検討した。 活性化関数については,広く用いられているシグモイド関数,補正線形単位(ReLU),ガウス誤差線形単位(GELU)について検討した。 GELUは,訓練対象に関係なく,Sigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。 3つの訓練目標のうち、tclが最善を尽くす。 様々な損失関数のうち、クロスエントロピー、ジョイントソフトマックス、焦点損失関数は他よりも優れている。 最後に、異なるシステムのスコアレベルの融合は、エラー率を減らすこともできる。 reddots 2016 challenge database for td-svで短い発話を用いて実験を行った。 話者分類には、よく知られたガウス混合モデル-普遍背景モデル(gmm-ubm)とi-vector法が用いられる。

Deep representation learning has gained significant momentum in advancing text-dependent speaker verification (TD-SV) systems. When designing deep neural networks (DNN) for extracting bottleneck features, key considerations include training targets, activation functions, and loss functions. In this paper, we systematically study the impact of these choices on the performance of TD-SV. For training targets, we consider speaker identity, time-contrastive learning (TCL) and auto-regressive prediction coding with the first being supervised and the last two being self-supervised. Furthermore, we study a range of loss functions when speaker identity is used as the training target. With regard to activation functions, we study the widely used sigmoid function, rectified linear unit (ReLU), and Gaussian error linear unit (GELU). We experimentally show that GELU is able to reduce the error rates of TD-SV significantly compared to sigmoid, irrespective of training target. Among the three training targets, TCL performs the best. Among the various loss functions, cross entropy, joint-softmax and focal loss functions outperform the others. Finally, score-level fusion of different systems is also able to reduce the error rates. Experiments are conducted on the RedDots 2016 challenge database for TD-SV using short utterances. For the speaker classifications, the well-known Gaussian mixture model-universal background model (GMM-UBM) and i-vector techniques are used.
翻訳日:2022-01-19 18:56:33 公開日:2022-01-17
# 非線形制御割当:学習に基づくアプローチ

Nonlinear Control Allocation: A Learning Based Approach ( http://arxiv.org/abs/2201.06180v1 )

ライセンス: Link先を確認
Hafiz Zeeshan Iqbal Khan, Surrayya Mobeen, Jahanzeb Rajput, Jamshed Riaz(参考訳) 現代の航空機は耐障害性と操縦性要件を満たすために冗長な制御エフェクターで設計されている。 これは、エフェクター間で制御コマンドを分配するために制御割り当てスキームを必要とする過度に作動する航空機に繋がる。 従来、最適化に基づく制御割当方式が用いられてきたが、非線型割当問題では大きな計算資源を必要とする。 本研究では,ANNに基づく非線形制御割当方式を提案する。 まず、所望のモーメントを制御エフェクタにマップする関数を求めるため、異なる視点で一般的な非線形制御割り当て問題が発生する。 一般に非線形アロケーションスキームの安定性と性能に関する重要な結果はほとんどなく、特にこのANNベースのアロケーションスキームについて述べる。 提案手法の有効性を示すために, 標準二次プログラミングに基づく制御割当法と比較した。

Modern aircraft are designed with redundant control effectors to cater for fault tolerance and maneuverability requirements. This leads to an over-actuated aircraft which requires a control allocation scheme to distribute the control commands among effectors. Traditionally, optimization based control allocation schemes are used; however, for nonlinear allocation problems these methods require large computational resources. In this work, a novel ANN based nonlinear control allocation scheme is proposed. To start, a general nonlinear control allocation problem is posed in a different perspective to seek a function which maps desired moments to control effectors. Few important results on stability and performance of nonlinear allocation schemes in general and this ANN based allocation scheme, in particular, are presented. To demonstrate the efficacy of the proposed scheme, it is compared with standard quadratic programming based method for control allocation.
翻訳日:2022-01-19 18:43:31 公開日:2022-01-17
# 要約統計を用いた最適治療レジーム学習

Targeted Optimal Treatment Regime Learning Using Summary Statistics ( http://arxiv.org/abs/2201.06229v1 )

ライセンス: Link先を確認
Jianing Chu, Wenbin Lu, Shu Yang(参考訳) パーソナライズド・意思決定は、個人的特徴に基づく最適な個別化された治療規則(itr)を導出することを目的としており、近年、医学、社会サービス、経済学など多くの分野で注目を集めている。 現在の文献は主に単一源集団からのITRの推定に焦点を当てている。 実世界のアプリケーションでは、ターゲット人口の分布はソース人口の分布とは異なる可能性がある。 したがって、既存の手法で学んだitrは、ターゲット人口に対してうまく一般化できない。 プライバシの懸念やその他の実用上の問題により、ターゲット人口からの個人レベルのデータが入手できないことが多く、ITR学習がより困難になる。 対象個体群とソース個体群が異種である可能性があり、ソース個体群から個々のデータが得られ、モーメントなどの共変量の要約情報のみが対象個体群からアクセス可能であるitr推定問題を考える。 我々は、利用可能な要約統計を利用して、所定の対象人口に対してITRを調整する重み付けフレームワークを開発する。 具体的には、対象集団の値関数の校正された逆確率重み付き推定器を提案し、この推定器を予め特定されたITRのクラス内で最大化することにより最適なIRRを推定する。 提案手法は, ニュアンス関数近似のためのフレキシブルな半/非パラメトリックモデルであっても, キャリブレーション推定器は一貫性があり, 漸近的に正常であることを示す。 提案手法の実証的な性能をシミュレーションで検証し,eICUデータセットをソースサンプルとし,MIMIC-IIIデータセットをターゲットサンプルとする実例を示した。

Personalized decision-making, aiming to derive optimal individualized treatment rules (ITRs) based on individual characteristics, has recently attracted increasing attention in many fields, such as medicine, social services, and economics. Current literature mainly focuses on estimating ITRs from a single source population. In real-world applications, the distribution of a target population can be different from that of the source population. Therefore, ITRs learned by existing methods may not generalize well to the target population. Due to privacy concerns and other practical issues, individual-level data from the target population is often not available, which makes ITR learning more challenging. We consider an ITR estimation problem where the source and target populations may be heterogeneous, individual data is available from the source population, and only the summary information of covariates, such as moments, is accessible from the target population. We develop a weighting framework that tailors an ITR for a given target population by leveraging the available summary statistics. Specifically, we propose a calibrated augmented inverse probability weighted estimator of the value function for the target population and estimate an optimal ITR by maximizing this estimator within a class of pre-specified ITRs. We show that the proposed calibrated estimator is consistent and asymptotically normal even with flexible semi/nonparametric models for nuisance function approximation, and the variance of the value estimator can be consistently estimated. We demonstrate the empirical performance of the proposed method using simulation studies and a real application to an eICU dataset as the source sample and a MIMIC-III dataset as the target sample.
翻訳日:2022-01-19 18:40:48 公開日:2022-01-17
# ランダムに選択したPU学習におけるリスク境界

Risk bounds for PU learning under Selected At Random assumption ( http://arxiv.org/abs/2201.06277v1 )

ライセンス: Link先を確認
Olivier Coudray (CELESTE), Christine Keribin (CELESTE), Pascal Massart (CELESTE), Patrick Pamphile (CELESTE)(参考訳) 正の非ラベル付き学習(PU learning)は半教師付きバイナリ分類の特殊な例として知られており、少数の正の例がラベル付けされているのみである。 この情報不足にもかかわらず、正しい分類器を見つけることが課題である。 近年,ラベル付けされる確率が共変量に依存する場合に対処する新たな手法が導入された。 本稿では,この前提の下でPU学習のリスクバウンダリを確立することに関心がある。 さらに,ラベルノイズがPU学習に与える影響を,標準分類設定と比較して定量化する。 最後に、上界がほぼ最適であることを証明したミニマックスリスクに対する下界を提供する。

Positive-unlabeled learning (PU learning) is known as a special case of semi-supervised binary classification where only a fraction of positive examples are labeled. The challenge is then to find the correct classifier despite this lack of information. Recently, new methodologies have been introduced to address the case where the probability of being labeled may depend on the covariates. In this paper, we are interested in establishing risk bounds for PU learning under this general assumption. In addition, we quantify the impact of label noise on PU learning compared to standard classification setting. Finally, we provide a lower bound on minimax risk proving that the upper bound is almost optimal.
翻訳日:2022-01-19 18:40:19 公開日:2022-01-17
# Tk-merge: 計算効率の良いロバストクラスタリング

Tk-merge: Computationally Efficient Robust Clustering Under General Assumptions ( http://arxiv.org/abs/2201.06391v1 )

ライセンス: Link先を確認
Luca Insolia and Domenico Perrotta(参考訳) トリミングk平均と階層的凝集に基づく2段階のハイブリッドロバストクラスタリングアルゴリズムを用いて,非常に弱いパラメトリック仮定下での一般型クラスタリング問題に対処する。 このアルゴリズムは計算複雑性が低く、データ汚染の有無でクラスタを効果的に識別する。 また、本手法の自然な一般化と、データ駆動方式で汚染量を推定する適応的な手順を提案する。 提案手法は, 画像解析のカラー量子化, GPSデータに基づく人体移動パターン, 糖尿病網膜症の生体画像, 気象観測所間の機能データなど, 現状の頑健なモデルベース手法よりも優れている。

We address general-shaped clustering problems under very weak parametric assumptions with a two-step hybrid robust clustering algorithm based on trimmed k-means and hierarchical agglomeration. The algorithm has low computational complexity and effectively identifies the clusters also in presence of data contamination. We also present natural generalizations of the approach as well as an adaptive procedure to estimate the amount of contamination in a data-driven fashion. Our proposal outperforms state-of-the-art robust, model-based methods in our numerical simulations and real-world applications related to color quantization for image analysis, human mobility patterns based on GPS data, biomedical images of diabetic retinopathy, and functional data across weather stations.
翻訳日:2022-01-19 18:40:11 公開日:2022-01-17
# 雑音障害行列に対する行列順序付け:最適性と計算効率の良いアルゴリズム

Matrix Reordering for Noisy Disordered Matrices: Optimality and Computationally Efficient Algorithms ( http://arxiv.org/abs/2201.06438v1 )

ライセンス: Link先を確認
T. Tony Cai and Rong Ma(参考訳) 単細胞生物学とメタゲノミクスの応用に動機づけられ, 騒がしい行列モデルに基づく行列の再順序付けを考える。 まず,行列再順序付け問題の基本的な統計的極限を決定論的枠組みで定め,制約付き最小二乗推定器がレート最適であることを示す。 最適手順の計算困難さを考慮し、一般的な多項式時間アルゴリズム、スペクトルセレーションを分析し、それが最適でないことを示す。 次に,性能向上を保証した新しい多項式時間適応ソートアルゴリズムを提案する。 既存の手法よりも適応的ソートアルゴリズムの方が優れていることがシミュレーション研究および2つの実シングルセルRNAシークエンシングデータセットの解析で示されている。

Motivated by applications in single-cell biology and metagenomics, we consider matrix reordering based on the noisy disordered matrix model. We first establish the fundamental statistical limit for the matrix reordering problem in a decision-theoretic framework and show that a constrained least square estimator is rate-optimal. Given the computational hardness of the optimal procedure, we analyze a popular polynomial-time algorithm, spectral seriation, and show that it is suboptimal. We then propose a novel polynomial-time adaptive sorting algorithm with guaranteed improvement on the performance. The superiority of the adaptive sorting algorithm over the existing methods is demonstrated in simulation studies and in the analysis of two real single-cell RNA sequencing datasets.
翻訳日:2022-01-19 18:39:57 公開日:2022-01-17
# レベルセットアプローチによる形状最適化のための深層畳み込みニューラルネットワーク

Deep convolutional neural network for shape optimization using level-set approach ( http://arxiv.org/abs/2201.06210v1 )

ライセンス: Link先を確認
Wrik Mallik, Neil Farvolden, Rajeev K. Jaiman and Jasmin Jelovica(参考訳) 本稿では, 深部畳み込みニューラルネットワーク(CNN)を用いた形状最適化のための低次モデリング手法を提案する。 CNNは、これらの属性と形変換の等価性を保ちながら、形状とその関連属性の間の非線形マッピングを提供する。 CNN適用可能なカルテシアン構造格子を介して複雑な形状を暗黙的に表現するために、レベルセット法を用いる。 cnnベースの還元順序モデル(rom)は完全にデータ駆動の方法で構築され、非インタラクティブなアプリケーションに適している。 傾斜型3次元形状最適化問題に対して, ROMを用いた形状最適化の完全性を示し, 潜在的流れにおける翼の引きずりの最小化を図った。 本研究では, 空気力学係数に対するromに基づくオプティマと, ポテンシャルフローソルバを用いて得られたオプティマの比較を行った。 ROMに基づくグローバルオプティマの予測挙動は理論的予測と密接に一致している。 また,深部CNNモデルの学習機構を物理的に解釈可能な方法で提示する。 CNN-ROMに基づく形状最適化アルゴリズムは,完全順序モデルに基づくオンライン最適化と比較して,計算効率がかなり高い。 したがって、複雑な構成と物理的問題の形状最適化のための扱いやすい解を約束する。

This article presents a reduced-order modeling methodology for shape optimization applications via deep convolutional neural networks (CNNs). The CNN provides a nonlinear mapping between the shapes and their associated attributes while conserving the equivariance of these attributes to the shape translations. To implicitly represent complex shapes via a CNN-applicable Cartesian structured grid, a level-set method is employed. The CNN-based reduced-order model (ROM) is constructed in a completely data-driven manner, and suited for non-intrusive applications. We demonstrate our complete ROM-based shape optimization on a gradient-based three-dimensional shape optimization problem to minimize the induced drag of a wing in potential flow. We show a satisfactory comparison between ROM-based optima for the aerodynamic coefficients compared to their counterparts obtained via a potential flow solver. The predicted behavior of our ROM-based global optima closely matches the theoretical predictions. We also present the learning mechanism of the deep CNN model in a physically interpretable manner. The CNN-ROM-based shape optimization algorithm exhibits significant computational efficiency compared to full order model-based online optimization applications. Thus, it promises a tractable solution for shape optimization of complex configuration and physical problems.
翻訳日:2022-01-19 18:35:23 公開日:2022-01-17
# EFMVFL: サードパーティなしの効率的かつ柔軟な多人数縦型学習

EFMVFL: An Efficient and Flexible Multi-party Vertical Federated Learning without a Third Party ( http://arxiv.org/abs/2201.06244v1 )

ライセンス: Link先を確認
Yimin Huang, Xinyu Feng, Wanwan Wang, Hao He, Yukun Wang, Ming Yao(参考訳) フェデレーション学習は、複数の参加者がローカルデータを開示することなく共同モデリングを行うことができる。 垂直連合学習(VFL)は、参加者が同じID空間と異なる特徴空間を共有する状況を扱う。 ほとんどのVFLフレームワークでは、参加者のローカルデータのセキュリティとプライバシを保護するために、同型暗号化キーペアを生成して復号操作を行うために第三者が必要である。 このようにして、第三者はモデルパラメータに関連する情報を復号する権利を与えられる。 しかし、そのような信頼できる実体を現実世界で見つけることは容易ではない。 この問題を解決する既存の方法は、コミュニケーション集約的か、あるいはマルチパーティのシナリオに適さない。 秘密共有と同型暗号化を組み合わせることで、EFMVFLと呼ばれるサードパーティを使わずに新しいVFLフレームワークを提案し、通信オーバーヘッドの少ない複数の参加者への柔軟な拡張をサポートし、一般化線形モデルに適用できる。 我々はロジスティック回帰とポアソン回帰の下でフレームワークのインスタンス化を行う。 理論的分析と実験は、我々のフレームワークが安全で、より効率的で、複数の参加者に拡張しやすいことを示している。

Federated learning allows multiple participants to conduct joint modeling without disclosing their local data. Vertical federated learning (VFL) handles the situation where participants share the same ID space and different feature spaces. In most VFL frameworks, to protect the security and privacy of the participants' local data, a third party is needed to generate homomorphic encryption key pairs and perform decryption operations. In this way, the third party is granted the right to decrypt information related to model parameters. However, it isn't easy to find such a credible entity in the real world. Existing methods for solving this problem are either communication-intensive or unsuitable for multi-party scenarios. By combining secret sharing and homomorphic encryption, we propose a novel VFL framework without a third party called EFMVFL, which supports flexible expansion to multiple participants with low communication overhead and is applicable to generalized linear models. We give instantiations of our framework under logistic regression and Poisson regression. Theoretical analysis and experiments show that our framework is secure, more efficient, and easy to be extended to multiple participants.
翻訳日:2022-01-19 18:35:07 公開日:2022-01-17
# 多次元射影における対話型クラスター解析のための歪み認識ブラッシング

Distortion-Aware Brushing for Interactive Cluster Analysis in Multidimensional Projections ( http://arxiv.org/abs/2201.06379v1 )

ライセンス: Link先を確認
Hyeon Jeon, Michael Aupetit, Soohyun Lee, Hyung-Kwon Ko, Youngtaek Kim, Jinwook Seo(参考訳) ブラシは2Dスパッタプロットにおける日常的なインタラクションであり、ユーザは連続した囲い領域内のデータポイントを選択してフィルタリングし、ポイントについてさらなる分析を行うことができる。 しかし、このような従来のブラッシングは、FalseやMissing Neighborsの歪みから逃れられず、点の相対的な位置が信頼できないため、MDP(Multidimensional Projections)に直接適用することはできない。 この問題を軽減するため,MDPの新しいブラッシング技術である歪認識ブラッシングを導入する。 ユーザがブラッシングを行う間、歪認識ブラッシングは、現在のブラッシング点周辺の歪みをプロジェクション内の点を動的に移動させることで解決する。多次元(MD)空間におけるブラッシングデータに近い点がプロジェクション内の対応するブラッシング点に近づき、反対側が動き去る。 これにより,歪みを克服し,MD空間内のクラスタデータを容易に抽出することができる。 本稿では,2つのデータセットを用いたディストーション対応ブラッシングの有効性と適用性を示す。 最後に,30名を対象にユーザ調査を行い,md空間のクラスターを高精度に分離する従来のブラッシング技術を大きく上回り,mdpの歪みの種類や量によらず頑健に動作することを確認した。

Brushing is an everyday interaction in 2D scatterplots, which allows users to select and filter data points within a continuous, enclosed region and conduct further analysis on the points. However, such conventional brushing cannot be directly applied to Multidimensional Projections (MDP), as they hardly escape from False and Missing Neighbors distortions that make the relative positions of the points unreliable. To alleviate this problem, we introduce Distortion-aware brushing, a novel brushing technique for MDP. While users perform brushing, Distortion-aware brushing resolves distortions around currently brushed points by dynamically relocating points in the projection; the points whose data are close to the brushed data in the multidimensional (MD) space go near the corresponding brushed points in the projection, and the opposites move away. Hence, users can overcome distortions and readily extract out clustered data in the MD space using the technique. We demonstrate the effectiveness and applicability of Distortion-aware brushing through usage scenarios with two datasets. Finally, by conducting user studies with 30 participants, we verified that Distortion-aware brushing significantly outperforms previous brushing techniques in precisely separating clusters in the MD space, and works robustly regardless of the types or the amount of distortions in MDP.
翻訳日:2022-01-19 18:34:51 公開日:2022-01-17
# 暗黙のユーザフィードバックからオンラインのニューラルネットワークランキングモデルを学ぶ

Learning Neural Ranking Models Online from Implicit User Feedback ( http://arxiv.org/abs/2201.06658v1 )

ライセンス: Link先を確認
Yiling Jia, Hongning Wang(参考訳) 既存のオンライン学習 to rank (OL2R) ソリューションは、クエリとドキュメント間の非線形関係をキャプチャする能力のない線形モデルに限られている。 本研究では,OL2Rにおける表現学習の力を解き放つために,ユーザの暗黙のフィードバック(クリックなど)からニューラルネットワークのランキングモデルを直接学習することを提案する。 RankNetとLambdaRankは、実験的な成功とオフライン設定の広範な採用により、ニューラルネットワークの収束解析に基づいて、悪名高い探索と露見のトレードオフを制御しています。 具体的には、2つの文書の間で予測されたランク順が不確実な文書ペア上でのみ探索が行われ、そうでなければ、ランクの予測順序が結果としてランク付けされる。 標準仮定の下では、OL2R の解がギャップ依存上後悔境界 $O(\log^2(T))$ を達成し、その後悔は、$T$ 以上の不順序対の総数で定義される。 ベンチマークデータセットをランク付けするための2つの公開学習に基づく、最先端のOL2Rベースラインの広範なセットとの比較は、提案ソリューションの有効性を示している。

Existing online learning to rank (OL2R) solutions are limited to linear models, which are incompetent to capture possible non-linear relations between queries and documents. In this work, to unleash the power of representation learning in OL2R, we propose to directly learn a neural ranking model from users' implicit feedback (e.g., clicks) collected on the fly. We focus on RankNet and LambdaRank, due to their great empirical success and wide adoption in offline settings, and control the notorious explore-exploit trade-off based on the convergence analysis of neural networks using neural tangent kernel. Specifically, in each round of result serving, exploration is only performed on document pairs where the predicted rank order between the two documents is uncertain; otherwise, the ranker's predicted order will be followed in result ranking. We prove that under standard assumptions our OL2R solution achieves a gap-dependent upper regret bound of $O(\log^2(T))$, in which the regret is defined on the total number of mis-ordered pairs over $T$ rounds. Comparisons against an extensive set of state-of-the-art OL2R baselines on two public learning to rank benchmark datasets demonstrate the effectiveness of the proposed solution.
翻訳日:2022-01-19 18:32:28 公開日:2022-01-17
# マルチモーダル感情認識のための注意に基づく双方向アライメントに基づくグループゲート融合

Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition ( http://arxiv.org/abs/2201.06309v1 )

ライセンス: Link先を確認
Pengfei Liu, Kun Li and Helen Meng(参考訳) 感情認識は、感情に敏感な人間とコンピュータのインタラクションシステムにおいて重要な役割を果たす、挑戦的で活発に研究されている研究分野である。 マルチモーダル環境では、異なるモーダル間の時間的アライメントはまだ十分に研究されていない。 本稿では,言語とテキストのアライメント関係を明示的に捉えるために,LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルと,異なるモダリティの表現を統合するためのグループゲート融合(GGF)層を提案する。 また,本提案手法により,提案したGBANモデルは,IEMOCAPデータセット上での既存のマルチモーダルアプローチよりも優れていることを示す。

Emotion recognition is a challenging and actively-studied research area that plays a critical role in emotion-aware human-computer interaction systems. In a multimodal setting, temporal alignment between different modalities has not been well investigated yet. This paper presents a new model named as Gated Bidirectional Alignment Network (GBAN), which consists of an attention-based bidirectional alignment network over LSTM hidden states to explicitly capture the alignment relationship between speech and text, and a novel group gated fusion (GGF) layer to integrate the representations of different modalities. We empirically show that the attention-aligned representations outperform the last-hidden-states of LSTM significantly, and the proposed GBAN model outperforms existing state-of-the-art multimodal approaches on the IEMOCAP dataset.
翻訳日:2022-01-19 17:53:40 公開日:2022-01-17
# h\&e-adversarial network: hematoxylin \& eosin regression による染色不変特徴学習のための畳み込みニューラルネットワーク

H\&E-adversarial network: a convolutional neural network to learn stain-invariant features through Hematoxylin \& Eosin regression ( http://arxiv.org/abs/2201.06329v1 )

ライセンス: Link先を確認
Niccol\'o Marini, Manfredo Atzori, Sebastian Ot\'alora, Stephane Marchand-Maillet, Henning M\"uller(参考訳) コンピュータ病理学(Computational pathology)は、スライド画像全体 (WSI) と呼ばれる大規模なデジタル組織像を自動的に解析するアルゴリズムを開発することを目的とした分野である。 WSIは、特定の構造を可視化するために染色された薄い組織サンプルを走査する。 医療センター間で異なる準備とスキャン設定により、染色色の不均一性を示す。 色の不均一性は、ほとんどの計算病理タスクの最先端アルゴリズムである畳み込みニューラルネットワーク(CNN)を訓練する問題である。 いくつかの方法が開発されているにもかかわらず、染色色の不均一性は、いくつかの医療センターのデータに基づいて一般化できるCNNの開発を制限する未解決の課題である。 本稿では,複数の色変化を含むデータをより一般化するcnnの訓練手法を提案する。 この方法はh\&e-adversarial cnnと呼ばれ、h\&eマトリクス情報を利用してトレーニング中に染色不変の特徴を学ぶ。 この方法は,11種類の異種データセットを含む大腸および前立腺病理画像の分類において評価され,染色色多様性を扱うために用いられる他の5つの手法と比較された。 H\&E-adversarial CNNは、他のアルゴリズムと比較して性能が向上し、色の不均一な画像に対処するのに役立つことを示した。

Computational pathology is a domain that aims to develop algorithms to automatically analyze large digitized histopathology images, called whole slide images (WSI). WSIs are produced scanning thin tissue samples that are stained to make specific structures visible. They show stain colour heterogeneity due to different preparation and scanning settings applied across medical centers. Stain colour heterogeneity is a problem to train convolutional neural networks (CNN), the state-of-the-art algorithms for most computational pathology tasks, since CNNs usually underperform when tested on images including different stain variations than those within data used to train the CNN. Despite several methods that were developed, stain colour heterogeneity is still an unsolved challenge that limits the development of CNNs that can generalize on data from several medical centers. This paper aims to present a novel method to train CNNs that better generalize on data including several colour variations. The method, called H\&E-adversarial CNN, exploits H\&E matrix information to learn stain-invariant features during the training. The method is evaluated on the classification of colon and prostate histopathology images, involving eleven heterogeneous datasets, and compared with five other techniques used to handle stain colour heterogeneity. H\&E-adversarial CNNs show an improvement in performance compared to the other algorithms, demonstrating that it can help to better deal with stain colour heterogeneous images.
翻訳日:2022-01-19 17:48:09 公開日:2022-01-17
# registration-assisted prototypical learning を用いた男性骨盤間臓器の能動画像分割

Few-shot image segmentation for cross-institution male pelvic organs using registration-assisted prototypical learning ( http://arxiv.org/abs/2201.06358v1 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Qianye Yang, Zhe Min, Wen Yan, Henkjan Huisman, Dean Barratt, Victor Adrian Prisacariu, Yipeng Hu(参考訳) 地域医療提供者からいくつかのラベル付きサンプルしか入手できない場合、解剖学的、病理学的構造などの新しいクラスに医療画像分割ネットワークを適用する能力を求める。 これは、近代的なディープラーニングモデルを臨床実践に展開する際の、広く認められた2つの制限に対処する可能性がある。 本研究は, 前立腺癌患者8領域のラベル付き多施設データセットを用いて, 医用画像のための3次元マイノリティクラス間セグメンテーションネットワークを提案する。 本稿では,問合せとサポートデータの両方の予測されたセグメント化を,基準アトラス空間に標準のプロトタイプ学習アルゴリズムで登録する画像アライメントモジュールを提案する。 ビルトイン登録機構は、同一機関であるか否かに関わらず、被験者間で一貫した解剖学の事前知識を効果的に活用することができる。 実験の結果,提案した登録支援型原型学習は,複数施設からの検索データに対するセグメンテーション精度(p-values<0.01)を有意に向上し,複数の機関からのサポートデータも変化した。 また,提案する3Dネットワークによるパラメータの75%削減と,既存の2Dスライスによるボリューム医療画像の2Dスライスに対する実装の簡易化を報告した。

The ability to adapt medical image segmentation networks for a novel class such as an unseen anatomical or pathological structure, when only a few labelled examples of this class are available from local healthcare providers, is sought-after. This potentially addresses two widely recognised limitations in deploying modern deep learning models to clinical practice, expertise-and-labour-intensive labelling and cross-institution generalisation. This work presents the first 3D few-shot interclass segmentation network for medical images, using a labelled multi-institution dataset from prostate cancer patients with eight regions of interest. We propose an image alignment module registering the predicted segmentation of both query and support data, in a standard prototypical learning algorithm, to a reference atlas space. The built-in registration mechanism can effectively utilise the prior knowledge of consistent anatomy between subjects, regardless whether they are from the same institution or not. Experimental results demonstrated that the proposed registration-assisted prototypical learning significantly improved segmentation accuracy (p-values<0.01) on query data from a holdout institution, with varying availability of support data from multiple institutions. We also report the additional benefits of the proposed 3D networks with 75% fewer parameters and an arguably simpler implementation, compared with existing 2D few-shot approaches that segment 2D slices of volumetric medical images.
翻訳日:2022-01-19 17:47:42 公開日:2022-01-17
# ESRGANを用いた単一画像超解像における二重知覚損失

Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN ( http://arxiv.org/abs/2201.06383v1 )

ライセンス: Link先を確認
Jie Song and Huawei Yi and Wenqian Xu and Xiaohui Li and Bo Li and Yuanyuan Liu(参考訳) 知覚損失の提案は、画素ごとの差分損失関数が再構成画像を過大にスムースさせ、単一画像超解像の分野における著しい進歩を得るという問題を解決する。 さらに、この超解像場に生成対向ネットワーク(GAN)を適用し、再構成画像の視覚的品質を効果的に向上させる。 しかし,高スケール化要因を考慮すれば,ネットワークの過度な異常推論は歪んだ構造を生じさせるため,再構成画像と地対面画像との間に一定のずれが生じる。 本稿では, 再構成画像の品質を根本的に向上させるため, 従来の知覚損失を置き換え, 単一画像の超解像再構成の課題を解決するために, DPロス (Dual Perceptual Loss) と呼ばれる有効手法を提案する。 VGG特徴とResNet特徴の相補性のため,提案したDPロスは2つの特徴を同時に学習する利点を考慮し,画像の再構成効果を大幅に改善する。 ベンチマークデータセットの定性的および定量的解析により,提案手法が最先端の超解像法よりも優れていることを示す。

The proposal of perceptual loss solves the problem that per-pixel difference loss function causes the reconstructed image to be overly-smooth, which acquires a significant progress in the field of single image super-resolution reconstruction. Furthermore, the generative adversarial networks (GAN) is applied to the super-resolution field, which effectively improves the visual quality of the reconstructed image. However, under the condtion of high upscaling factors, the excessive abnormal reasoning of the network produces some distorted structures, so that there is a certain deviation between the reconstructed image and the ground-truth image. In order to fundamentally improve the quality of reconstructed images, this paper proposes a effective method called Dual Perceptual Loss (DP Loss), which is used to replace the original perceptual loss to solve the problem of single image super-resolution reconstruction. Due to the complementary property between the VGG features and the ResNet features, the proposed DP Loss considers the advantages of learning two features simultaneously, which significantly improves the reconstruction effect of images. The qualitative and quantitative analysis on benchmark datasets demonstrates the superiority of our proposed method over state-of-the-art super-resolution methods.
翻訳日:2022-01-19 17:47:15 公開日:2022-01-17
# 潜在セグメンテーション空間への雑音注入による意味セグメンテーションサイクルガンの性能向上

Improving Performance of Semantic Segmentation CycleGANs by Noise Injection into the Latent Segmentation Space ( http://arxiv.org/abs/2201.06415v1 )

ライセンス: Link先を確認
Jonas L\"ohdefink, Tim Fingscheidt(参考訳) 近年、セマンティックセグメンテーションはコンピュータビジョンの様々な作品から恩恵を受けている。 非常に多用途なCycleGANアーキテクチャにヒントを得て、セマンティックセグメンテーションとサイクル一貫性の概念を組み合わせることで、マルチタスクトレーニングプロトコルを実現する。 しかし、学習はいわゆるステガノグラフィー効果(steganography effect)によって妨げられ、潜在分節領域の透かしとして表現されるため、画像再構成が容易すぎる。 そこで本研究では, この不利な情報の流れを回避するため, 量子化雑音やガウス雑音付加に基づく雑音注入を提案する。 ノイズインジェクションは透かしの生成を著しく減らし,ERFNetベースラインではほとんど検出されない「交通標識」のような高関連クラスの認識を可能にする。 セマンティックセグメンテーションと画像再構成のためのCityscapesデータセット上でmIoUとPSNRの結果を報告する。 提案手法は,同一のCycleGANをノイズ注入せずに5.7%,ERFNetの非循環ベースライン上では4.9%で,Cityscapes検証セットのmIoU改善を実現する。

In recent years, semantic segmentation has taken benefit from various works in computer vision. Inspired by the very versatile CycleGAN architecture, we combine semantic segmentation with the concept of cycle consistency to enable a multitask training protocol. However, learning is largely prevented by the so-called steganography effect, which expresses itself as watermarks in the latent segmentation domain, making image reconstruction a too easy task. To combat this, we propose a noise injection, based either on quantization noise or on Gaussian noise addition to avoid this disadvantageous information flow in the cycle architecture. We find that noise injection significantly reduces the generation of watermarks and thus allows the recognition of highly relevant classes such as "traffic signs", which are hardly detected by the ERFNet baseline. We report mIoU and PSNR results on the Cityscapes dataset for semantic segmentation and image reconstruction, respectively. The proposed methodology allows to achieve an mIoU improvement on the Cityscapes validation set of 5.7% absolute over the same CycleGAN without noise injection, and still an absolute 4.9% over the ERFNet non-cyclic baseline.
翻訳日:2022-01-19 17:46:55 公開日:2022-01-17
# ニューラルCT

Neural Computed Tomography ( http://arxiv.org/abs/2201.06574v1 )

ライセンス: Link先を確認
Kunal Gupta, Brendan Colvert and Francisco Contijoch(参考訳) プロジェクションの集合の獲得時の運動は、個々のビューの迅速な獲得にもかかわらず、計算トモグラフィー再構成において重要な運動アーティファクトをもたらす可能性がある。 心臓画像などの場合、運動は避けられない可能性があり、運動の評価は臨床的に興味深い。 運動アーティファクトを縮小した画像の再構成は、ガントリー回転を速くするシステムや、変位を計測・推定するアルゴリズムの開発によって達成されている。 しかし、これらのアプローチは、物理的制約と非剛性、時間的変化、患者固有の動作の推定/測定の課題の両方により、成功に至らなかった。 本稿では,運動アーチファクトのない時間分解画像を生成するための新しい再構成フレームワークneuralctを提案する。 提案手法はニューラルネットワークによる暗黙的アプローチを応用し,基礎となる動作の推定やモデル化を必要としない。 代わりに、境界は符号付き距離メトリックとニューラルネットワークの暗黙のフレームワークを使って表現される。 得られたシンノグラムと一致した解の同定と,空間的および時間的一貫性の制約の同定に,「合成による分析」を用いる。 我々は,小さな円の変換,楕円径の心拍変化,複雑な位相変形という,より複雑な3つのシナリオにおけるニューラルctの有用性を説明する。 ハイパーパラメータチューニングやアーキテクチャの変更がなければ、NeuralCTは平均2乗誤差とDiceメトリクスを使用してフィルタされたバックプロジェクションと比較して、3つの動作すべてに対して高品質なイメージ再構成を提供する。

Motion during acquisition of a set of projections can lead to significant motion artifacts in computed tomography reconstructions despite fast acquisition of individual views. In cases such as cardiac imaging, motion may be unavoidable and evaluating motion may be of clinical interest. Reconstructing images with reduced motion artifacts has typically been achieved by developing systems with faster gantry rotation or using algorithms which measure and/or estimate the displacements. However, these approaches have had limited success due to both physical constraints as well as the challenge of estimating/measuring non-rigid, temporally varying, and patient-specific motions. We propose a novel reconstruction framework, NeuralCT, to generate time-resolved images free from motion artifacts. Our approaches utilizes a neural implicit approach and does not require estimation or modeling of the underlying motion. Instead, boundaries are represented using a signed distance metric and neural implicit framework. We utilize `analysis-by-synthesis' to identify a solution consistent with the acquired sinogram as well as spatial and temporal consistency constraints. We illustrate the utility of NeuralCT in three progressively more complex scenarios: translation of a small circle, heartbeat-like change in an ellipse's diameter, and complex topological deformation. Without hyperparameter tuning or change to the architecture, NeuralCT provides high quality image reconstruction for all three motions, as compared to filtered backprojection, using mean-square-error and Dice metrics.
翻訳日:2022-01-19 17:46:30 公開日:2022-01-17
# 生理データを用いた感情予測のための機械学習手法に関する調査研究

A Brief Survey of Machine Learning Methods for Emotion Prediction using Physiological Data ( http://arxiv.org/abs/2201.06610v1 )

ライセンス: Link先を確認
Maryam Khalid, Emily Willis(参考訳) 感情予測は、複数のモードから人間の感情状態を特定し予測することに焦点を当てた重要な研究分野である。 他のデータソースでは、生理学的データは個人によってマスキングやスタンプができず、簡単に収集できるというアドバンテージを持つ感情の指標として機能する。 本稿では, スマートフォンと生理データをリアルタイムに展開する複数の機械学習手法について, 自己報告型生態モーメントアセスメント(EMA)スコアを基盤として検討する。 回帰、長期記憶(LSTM)ネットワーク、畳み込みニューラルネットワーク(CNN)、強化オンライン学習(ROL)、深層信頼ネットワーク(DBN)を比較し、正確な感情予測を実現するための機械学習手法の多様性を示す。 我々は最先端の手法を比較し、実験性能がまだあまり良くない点を強調した。 スケーラビリティと一般化性の向上、マルチモーダルデータの同期、EMAサンプリングの最適化、シーケンス予測への適応性の統合、非バイアスデータ収集、高度な機能エンジニアリング技術を活用することで、今後の作業でパフォーマンスを向上させることができる。

Emotion prediction is a key emerging research area that focuses on identifying and forecasting the emotional state of a human from multiple modalities. Among other data sources, physiological data can serve as an indicator for emotions with an added advantage that it cannot be masked/tampered by the individual and can be easily collected. This paper surveys multiple machine learning methods that deploy smartphone and physiological data to predict emotions in real-time, using self-reported ecological momentary assessments (EMA) scores as ground-truth. Comparing regression, long short-term memory (LSTM) networks, convolutional neural networks (CNN), reinforcement online learning (ROL), and deep belief networks (DBN), we showcase the variability of machine learning methods employed to achieve accurate emotion prediction. We compare the state-of-the-art methods and highlight that experimental performance is still not very good. The performance can be improved in future works by considering the following issues: improving scalability and generalizability, synchronizing multimodal data, optimizing EMA sampling, integrating adaptability with sequence prediction, collecting unbiased data, and leveraging sophisticated feature engineering techniques.
翻訳日:2022-01-19 17:14:39 公開日:2022-01-17
# ネットワーク内集約のための効率的なデータプレーンメモリスケジューリング

Efficient Data-Plane Memory Scheduling for In-Network Aggregation ( http://arxiv.org/abs/2201.06398v1 )

ライセンス: Link先を確認
Hao Wang, Yuxuan Qin, ChonLam Lao, Yanfang Le, Wenfei Wu, Kai Chen(参考訳) 分散トレーニングの規模が大きくなると、コミュニケーションはボトルネックになる。 通信を加速するために、最近の研究では、勾配和をネットワークの中間ボックス(例えばプログラマブルスイッチ)に移動させ、トラフィック量を減少させるインネットワークアグリゲーション(ina)が導入されている。 しかし、スイッチメモリは分散トレーニングで伝送される勾配の体積に比べて少ない。 このミスマッチに対処するために、文献はプールベースのストリーミングや動的共有のような手法を適用するが、スイッチメモリはパフォーマンスのボトルネックになり得る。 さらに,近年の作業において,アグリゲータ・デコロケーションの同期要求によるスイッチメモリのアンダーユース化を観測した。 In-Network $\underline{A}$ggregationに対して、スイッチメモリの利用を改善するために、ESA、$\underline{E}$fficient Switch Memory $\underline{S}$chedulerを提案する。 ESAはプリエンプティブアグリゲータ割り当てプリミティブを強制し、データプレーンに優先度スケジューリングを導入し、スイッチメモリの利用率と平均ジョブ完了時間(JCT)を改善する。 実験の結果、ESAは平均的なJCTを最大$1.35\times$で改善できることがわかった。

As the scale of distributed training grows, communication becomes a bottleneck. To accelerate the communication, recent works introduce In-Network Aggregation (INA), which moves the gradients summation into network middle-boxes, e.g., programmable switches to reduce the traffic volume. However, switch memory is scarce compared to the volume of gradients transmitted in distributed training. Although literature applies methods like pool-based streaming or dynamic sharing to tackle the mismatch, switch memory is still a potential performance bottleneck. Furthermore, we observe the under-utilization of switch memory due to the synchronization requirement for aggregator deallocation in recent works. To improve the switch memory utilization, we propose ESA, an $\underline{E}$fficient Switch Memory $\underline{S}$cheduler for In-Network $\underline{A}$ggregation. At its cores, ESA enforces the preemptive aggregator allocation primitive and introduces priority scheduling at the data-plane, which improves the switch memory utilization and average job completion time (JCT). Experiments show that ESA can improve the average JCT by up to $1.35\times$.
翻訳日:2022-01-19 17:07:08 公開日:2022-01-17
# 深層逆強化学習によるmpcの時空間コストマップ推定

Spatiotemporal Costmap Inference for MPC via Deep Inverse Reinforcement Learning ( http://arxiv.org/abs/2201.06539v1 )

ライセンス: Link先を確認
Keuntaek Lee, David Isele, Evangelos A. Theodorou, Sangjae Bae(参考訳) 他の交通参加者にとって自然に見えるように、自律的に運転行動を生成することは困難である。 逆強化学習(irl)により,人間の実演から報酬関数を学習することで,このプロセスを自動化できる。 目標条件付き時空間報酬関数を学習するIRLアルゴリズムを提案する。 結果として生じるコストマップは、モデル予測コントローラ(MPC)によって、コスト関数の手作業や手作業なしでタスクを実行するために使用される。 CARLAシミュレータにおけるMPCとMEDIRL(GSTZ)フレームワークを併用して,高密度幹線道路における自律走行・車線維持・車線変更タスクの評価を行った。 提案手法は,学習に基づく行動予測モデルを用いた行動クローン,最先端のrlポリシ,mpcなど,他のベースライン手法と比較して高い成功率を示す。

It can be difficult to autonomously produce driver behavior so that it appears natural to other traffic participants. Through Inverse Reinforcement Learning (IRL), we can automate this process by learning the underlying reward function from human demonstrations. We propose a new IRL algorithm that learns a goal-conditioned spatiotemporal reward function. The resulting costmap is used by Model Predictive Controllers (MPCs) to perform a task without any hand-designing or hand-tuning of the cost function. We evaluate our proposed Goal-conditioned SpatioTemporal Zeroing Maximum Entropy Deep IRL (GSTZ)-MEDIRL framework together with MPC in the CARLA simulator for autonomous driving, lane keeping, and lane changing tasks in a challenging dense traffic highway scenario. Our proposed methods show higher success rates compared to other baseline methods including behavior cloning, state-of-the-art RL policies, and MPC with a learning-based behavior prediction model.
翻訳日:2022-01-19 17:06:44 公開日:2022-01-17
# 話さないように計画する - コミュニケーション損失にロバストなマルチエージェントシステム

Planning Not to Talk: Multiagent Systems that are Robust to Communication Loss ( http://arxiv.org/abs/2201.06619v1 )

ライセンス: Link先を確認
Mustafa O. Karabag, Cyrus Neary, Ufuk Topcu(参考訳) 協調型マルチエージェントシステムでは、エージェントの集合が共通の目的を達成するために共同ポリシーを実行する。 このようなシステムのデプロイの成功は、信頼できるエージェント間通信の可用性にかかっている。 しかし、無線の干渉、ハードウェアの故障、敵対的な攻撃など、通信に破壊をもたらす可能性のある多くのソースが存在する。 本研究では,コミュニケーションの潜在的な損失に対してロバストな協調マルチエージェントシステムのための共同政策を策定する。 より具体的には、リーチ回避目的の協調マルコフゲームのための共同ポリシーを開発する。 まず,コミュニケーション損失の期間に共同政策を分散的に実行するためのアルゴリズムを提案する。 次に,協調政策によって引き起こされる状態行動過程の全体相関を,エージェント間の内在的依存関係の尺度として用いる。 次に、この手段を用いて、コミュニケーションが失われる際の共同政策のパフォーマンスを低くする。 最後に,この下位境界に対するプロキシを最大化して,通信損失に対して堅牢な最小依存性のジョイントポリシを合成するアルゴリズムを提案する。 数値実験により, 提案する最小依存政策では, エージェント間の調整が最小限に抑えられるが, 性能の低下は少ないが, 総合政策の総相関値は, 潜在的な通信損失を考慮しないベースライン政策の総相関値の5分の1であることがわかった。 その結果、通信が可能かどうかに関わらず、最小依存ポリシーのパフォーマンスは一貫して高いままである。 対照的に、通信が失われると、ベースラインポリシーのパフォーマンスは20%低下します。

In a cooperative multiagent system, a collection of agents executes a joint policy in order to achieve some common objective. The successful deployment of such systems hinges on the availability of reliable inter-agent communication. However, many sources of potential disruption to communication exist in practice, such as radio interference, hardware failure, and adversarial attacks. In this work, we develop joint policies for cooperative multiagent systems that are robust to potential losses in communication. More specifically, we develop joint policies for cooperative Markov games with reach-avoid objectives. First, we propose an algorithm for the decentralized execution of joint policies during periods of communication loss. Next, we use the total correlation of the state-action process induced by a joint policy as a measure of the intrinsic dependencies between the agents. We then use this measure to lower-bound the performance of a joint policy when communication is lost. Finally, we present an algorithm that maximizes a proxy to this lower bound in order to synthesize minimum-dependency joint policies that are robust to communication loss. Numerical experiments show that the proposed minimum-dependency policies require minimal coordination between the agents while incurring little to no loss in performance; the total correlation value of the synthesized policy is one fifth of the total correlation value of the baseline policy which does not take potential communication losses into account. As a result, the performance of the minimum-dependency policies remains consistently high regardless of whether or not communication is available. By contrast, the performance of the baseline policy decreases by twenty percent when communication is lost.
翻訳日:2022-01-19 17:06:27 公開日:2022-01-17
# SQUIRE:マルチホップ知識グラフ推論のためのシーケンス・ツー・シーケンスフレームワーク

SQUIRE: A Sequence-to-sequence Framework for Multi-hop Knowledge Graph Reasoning ( http://arxiv.org/abs/2201.06206v1 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Juanzi Li, Lei Hou, Yincen Qu, Zelin Dai, Feiyu Xiong(参考訳) マルチホップ知識グラフ(KG)推論は近年広く研究されており、欠落リンクの解釈可能な予測を提供している。 トリプルクエリを与えられたマルチホップ推論タスクは、推論プロセスを示す明確なパスを提供することを目的としている。 これまでのほとんどの研究は強化学習(RL)に基づく手法を使用しており、ターゲットエンティティへの経路を学習している。 しかし、これらの手法は緩やかな収束に悩まされており、経路に沿ってエッジが欠落しているときに特定の経路を推測できない場合がある。 本稿では,最初のシーケンス・ツー・シーケンスに基づくマルチホップ推論フレームワークであるSQUIREを紹介し,エンコーダ・デコーダ構造を用いてクエリをパスに変換する。 モデル設計には2つの利点がある: 1) エンド・ツー・エンドで学習し、予測し、より良く、より高速な収束を可能にする; (2) モデルがパスを生成するために既存のエッジに依存しておらず、特に疎KGにおいて欠落したエッジを完遂する柔軟性がある。 標準KGとスパースKGを用いた実験により,従来の手法よりも精度が向上し,コンバージが4×7倍速くなった。

Multi-hop knowledge graph (KG) reasoning has been widely studied in recent years to provide interpretable predictions on missing links. Given a triple query, multi-hop reasoning task aims to give an evidential path that indicates the inference process. Most previous works use reinforcement learning (RL) based method that learns to navigate the path towards the target entity. However, these methods suffer from slow and poor convergence, and they may fail to infer a certain path when there is a missing edge along the path. Here we present SQUIRE, the first Sequence-to-sequence based multi-hop reasoning framework, which utilizes an encoder-decoder structure to translate the query to a path. Our model design brings about two benefits: (1) It can learn and predict in an end-to-end fashion, which gives better and faster convergence; (2) Our model does not rely on existing edges to generate the path, and has the flexibility to complete missing edges along the path, especially in sparse KGs. Experiments on standard and sparse KGs show that our approach yields significant improvement over prior methods, while converging 4x-7x faster.
翻訳日:2022-01-19 16:47:43 公開日:2022-01-17
# アクセシビリティと軌道に基づくテキストキャラクタリゼーション

Accessibility and Trajectory-Based Text Characterization ( http://arxiv.org/abs/2201.06665v1 )

ライセンス: Link先を確認
B\'arbara C. e Souza and Filipi N. Silva and Henrique F. de Arruda and Luciano da F. Costa and Diego R. Amancio(参考訳) いくつかの複雑な系は、多くのスケールにまたがる複雑な特性を示すことで特徴づけられる。 これらの特徴は、テキスト分類、疾患の理解の向上、都市間の比較など、様々な用途で用いられている。 特に、テキストは階層構造によって特徴づけられ、マルチスケールの概念や手法を用いてアプローチすることができる。 本研究は,ネットワークのメソスコピック表現に着目しながら,これらの可能性を開発することを目的とする。 より具体的には、テキスト物語を表現するメソスコピックアプローチの拡張として、タグ付けされた部分間の連続的な関係のみが、逐次的なテキスト(例えば、段落)間の関係を確立すると考えられる。 テキストの特徴付けは、アクセシビリティ、対称性、繰り返しシグネチャといったスケール依存の補完的手法を考慮して達成された。 これらの概念や手法の可能性を評価するために,文学的ジャンル(フィクションとノンフィクション)を区別する問題にアプローチした。 2つのジャンルに分かれた300冊の本が検討され、上記のアプローチを用いて比較された。 すべての手法は、2つのジャンルの間である程度の差異があった。 アクセシビリティと対称性は物語の非対称性を反映し、繰り返しシグネチャは物語に沿って起こる非逐次意味的関係をより直接的に示す。

Several complex systems are characterized by presenting intricate characteristics extending along many scales. These characterizations are used in various applications, including text classification, better understanding of diseases, and comparison between cities, among others. In particular, texts are also characterized by a hierarchical structure that can be approached by using multi-scale concepts and methods. The present work aims at developing these possibilities while focusing on mesoscopic representations of networks. More specifically, we adopt an extension to the mesoscopic approach to represent text narratives, in which only the recurrent relationships among tagged parts of speech are considered to establish connections among sequential pieces of text (e.g., paragraphs). The characterization of the texts was then achieved by considering scale-dependent complementary methods: accessibility, symmetry and recurrence signatures. In order to evaluate the potential of these concepts and methods, we approached the problem of distinguishing between literary genres (fiction and non-fiction). A set of 300 books organized into the two genres was considered and were compared by using the aforementioned approaches. All the methods were capable of differentiating to some extent between the two genres. The accessibility and symmetry reflected the narrative asymmetries, while the recurrence signature provide a more direct indication about the non-sequential semantic connections taking place along the narrative.
翻訳日:2022-01-19 16:47:21 公開日:2022-01-17
# 知識再構築による生涯学習

Lifelong Generative Learning via Knowledge Reconstruction ( http://arxiv.org/abs/2201.06418v1 )

ライセンス: Link先を確認
Libo Huang, Zhulin An, Xiang Zhi, and Yongjun Xu(参考訳) 生成モデルはしばしば、複数のタスク、すなわち生涯の生成学習を逐次学習するために使用されるとき、破滅的な放棄問題を引き起こす。 この問題に取り組む努力はいくつかあるが、彼らは高い時間消費やエラーの蓄積に悩まされている。 本研究では,変分オートエンコーダ(VAE)に基づく,効率的かつ効率的な寿命生成モデルを開発する。 生成的敵ネットワークとは異なり、VAEはトレーニングプロセスにおいて高い効率を享受し、少ないリソースで自然な利益を提供する。 本研究は,vaeの固有再構成特性を歴史知識保持に拡張することにより,生涯の生成モデルを提案する。 さらに,再構成データに対するフィードバック戦略を考案し,誤りの蓄積を緩和する。 MNIST, FashionMNIST, SVHNの持続的生成タスクに関する実験により, SOTAに匹敵する結果が得られた。

Generative models often incur the catastrophic forgetting problem when they are used to sequentially learning multiple tasks, i.e., lifelong generative learning. Although there are some endeavors to tackle this problem, they suffer from high time-consumptions or error accumulation. In this work, we develop an efficient and effective lifelong generative model based on variational autoencoder (VAE). Unlike the generative adversarial network, VAE enjoys high efficiency in the training process, providing natural benefits with few resources. We deduce a lifelong generative model by expending the intrinsic reconstruction character of VAE to the historical knowledge retention. Further, we devise a feedback strategy about the reconstructed data to alleviate the error accumulation. Experiments on the lifelong generating tasks of MNIST, FashionMNIST, and SVHN verified the efficacy of our approach, where the results were comparable to SOTA.
翻訳日:2022-01-19 16:44:06 公開日:2022-01-17
# 拡散確率モデルにおける最適逆分散の解析的推定

Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models ( http://arxiv.org/abs/2201.06503v1 )

ライセンス: Link先を確認
Fan Bao, Chongxuan Li, Jun Zhu, Bo Zhang(参考訳) 拡散確率モデル(DPM)は、強力な生成モデルのクラスを表す。 成功にもかかわらず、一般的に数千回以上のタイムステップを繰り返す必要があるため、DPMの推測は高価である。 推論における重要な問題は、逆過程の各時間ステップにおける分散を推定することである。 本研究では、DPMの最適逆分散と対応する最適KL分散の両方が解析形式w.r.t.のスコア関数を持つという驚くべき結果を示す。 そこで本研究では,モンテカルロ法と事前学習スコアベースモデルを用いて,分散とKL分散の分析形式を推定する,学習自由推論フレームワークであるAnalytic-DPMを提案する。 さらに、スコアベースモデルによる潜在的なバイアスを補正するために、最適分散の上下境界を導出し、より良い結果を得るために見積もりをクリップする。 実験では,様々なdpmのログライク性を改善し,高品質なサンプルを生成するとともに,20倍から80倍の高速化を実現している。

Diffusion probabilistic models (DPMs) represent a class of powerful generative models. Despite their success, the inference of DPMs is expensive since it generally needs to iterate over thousands of timesteps. A key problem in the inference is to estimate the variance in each timestep of the reverse process. In this work, we present a surprising result that both the optimal reverse variance and the corresponding optimal KL divergence of a DPM have analytic forms w.r.t. its score function. Building upon it, we propose Analytic-DPM, a training-free inference framework that estimates the analytic forms of the variance and KL divergence using the Monte Carlo method and a pretrained score-based model. Further, to correct the potential bias caused by the score-based model, we derive both lower and upper bounds of the optimal variance and clip the estimate for a better result. Empirically, our analytic-DPM improves the log-likelihood of various DPMs, produces high-quality samples, and meanwhile enjoys a 20x to 80x speed up.
翻訳日:2022-01-19 16:43:51 公開日:2022-01-17
# 異種無ラベルコレクションからの蒸留

Distillation from heterogeneous unlabeled collections ( http://arxiv.org/abs/2201.06507v1 )

ライセンス: Link先を確認
Jean-Michel Begon and Pierre Geurts(参考訳) ディープネットワークの圧縮は、アプリケーションの範囲を制約された設定に拡大するために不可欠である。 しかし、圧縮の必要性はモデルがトレーニングされてからずっと経ち、元のデータが使えなくなった後にしばしば生じます。 一方で、対象とするタスクに必ずしも関連しないラベルのないデータは、通常、特に画像分類タスクにおいて豊富である。 本研究では,大規模な教員ネットワークで学習した知識を小学生に抽出するために,そのようなサンプルを活用する手法を提案する。 提案手法は (i)関係に現れるデータポイントを優先的にサンプリングし、 (II)学習信号のより優れた活用。 その結果、前者は生徒の収束を加速し、後者は成績を向上し、元のデータで期待できるようなパフォーマンスを達成できることが判明した。

Compressing deep networks is essential to expand their range of applications to constrained settings. The need for compression however often arises long after the model was trained, when the original data might no longer be available. On the other hand, unlabeled data, not necessarily related to the target task, is usually plentiful, especially in image classification tasks. In this work, we propose a scheme to leverage such samples to distill the knowledge learned by a large teacher network to a smaller student. The proposed technique relies on (i) preferentially sampling datapoints that appear related, and (ii) taking better advantage of the learning signal. We show that the former speeds up the student's convergence, while the latter boosts its performance, achieving performances closed to what can be expected with the original data.
翻訳日:2022-01-19 16:43:32 公開日:2022-01-17
# RestoreFormer: 分解されていないキーバリューペアから高品質のブラインド顔復元

RestoreFormer: High-Quality Blind Face Restoration From Undegraded Key-Value Pairs ( http://arxiv.org/abs/2201.06374v1 )

ライセンス: Link先を確認
Zhouxia Wang, Jiawei Zhang, Runjian Chen, Wenping Wang and Ping Luo(参考訳) ブラインド顔復元は、未知の劣化から高品質な顔画像を取り戻すことである。 顔画像には文脈情報が豊富に存在するため,文脈情報をモデル化し,局所演算子を用いた既存の作業を超える全空間的注意を探索する手法であるRestoreFormerを提案する。 RestoreFormerは、先行技術と比較していくつかの利点がある。 第一に、以前のVision Transformer(ViTs)の従来のマルチヘッド自己アテンションとは異なり、RestoreFormerはマルチヘッドのクロスアテンション層を組み込んで、破損したクエリと高品質なキー値ペア間の完全な空間的相互作用を学習する。 第2に、顔再建に特化した高品質な顔特徴に富んだ再構成指向の高品位辞書から、resotreformerのキー値対をサンプリングし、優れた復元結果を得る。 第3に、restoreformerは1つの合成データセットと3つの実世界のデータセットで最先端の最先端のメソッドを上回り、より優れた視覚品質のイメージを生成する。

Blind face restoration is to recover a high-quality face image from unknown degradations. As face image contains abundant contextual information, we propose a method, RestoreFormer, which explores fully-spatial attentions to model contextual information and surpasses existing works that use local operators. RestoreFormer has several benefits compared to prior arts. First, unlike the conventional multi-head self-attention in previous Vision Transformers (ViTs), RestoreFormer incorporates a multi-head cross-attention layer to learn fully-spatial interactions between corrupted queries and high-quality key-value pairs. Second, the key-value pairs in ResotreFormer are sampled from a reconstruction-oriented high-quality dictionary, whose elements are rich in high-quality facial features specifically aimed for face reconstruction, leading to superior restoration results. Third, RestoreFormer outperforms advanced state-of-the-art methods on one synthetic dataset and three real-world datasets, as well as produces images with better visual quality.
翻訳日:2022-01-19 16:18:53 公開日:2022-01-17
# UWC: 高速ネットワーク圧縮に向けたユニットワイド校正

UWC: Unit-wise Calibration Towards Rapid Network Compression ( http://arxiv.org/abs/2201.06376v1 )

ライセンス: Link先を確認
Chen Lin, Zheyang Li, Bo Peng, Haoji Hu, Wenming Tan, Ye Ren, Shiliang Pu(参考訳) 本稿では,高効率な畳み込みニューラルネットワーク(CNN)量子化を実現するための学習後量子化〜(PTQ)手法を提案する。 従来のPTQ手法は通常、層ごとのパラメータキャリブレーションによって圧縮誤差を低減する。 しかし、非常に圧縮されたパラメータ(例えばビット幅が4以下)の表現能力が低いため、すべてのレイヤワイズエラーを除去することは困難である。 本研究は,ユニットワイズ誤差の2次テイラー級数展開の観測に基づいて,ユニットワイズ特徴復元アルゴリズムを提案することで,この問題に対処した。 隣接するレイヤのパラメータ間のインタラクションを活用することで、レイヤ毎のエラーを補うことができる。 本稿では,隣接する複数の層を基本ユニットとして定義し,量子化誤差を最小化できるユニットワイド後学習アルゴリズムを提案する。 この方法は、FP32モデルをINT4とINT3に量子化する際に、ImageNetとCOCOでほぼオリジナルに近い精度を達成する。

This paper introduces a post-training quantization~(PTQ) method achieving highly efficient Convolutional Neural Network~ (CNN) quantization with high performance. Previous PTQ methods usually reduce compression error via performing layer-by-layer parameters calibration. However, with lower representational ability of extremely compressed parameters (e.g., the bit-width goes less than 4), it is hard to eliminate all the layer-wise errors. This work addresses this issue via proposing a unit-wise feature reconstruction algorithm based on an observation of second order Taylor series expansion of the unit-wise error. It indicates that leveraging the interaction between adjacent layers' parameters could compensate layer-wise errors better. In this paper, we define several adjacent layers as a Basic-Unit, and present a unit-wise post-training algorithm which can minimize quantization error. This method achieves near-original accuracy on ImageNet and COCO when quantizing FP32 models to INT4 and INT3.
翻訳日:2022-01-19 16:18:31 公開日:2022-01-17
# フーリエネット:光コヒーレンストモグラフィー画像におけるヘンレ繊維層セグメンテーションのための形状保存ネットワーク

FourierNet: Shape-Preserving Network for Henle's Fiber Layer Segmentation in Optical Coherence Tomography Images ( http://arxiv.org/abs/2201.06435v1 )

ライセンス: Link先を確認
Selahattin Cansiz, Cem Kesim, Sevval Nur Bektas, Zeynep Kulali, Murat Hasanreisoglu, Cigdem Gunduz-Demir(参考訳) 網膜のヘンレ繊維層(HFL)は、眼の黄斑状態に関する貴重な情報を持っている。 しかし, 標準光コヒーレンス断層撮影(oct)ではhfl輪郭を知覚することが困難であるため, この層は別々に区分されるのではなく, 外部核層に含まれている。 イメージングビームの下での反射率の変化により、HFLの輪郭を直線化するためには、追加の撮像を必要とする方向のOCTが必要である。 本稿では,標準CTスキャンにおけるHFLセグメンテーションを実現する形状保存ネットワークであるFourierNetを導入することでこの問題に対処する。 FourierNetは、新しいカスケードネットワーク設計であり、ネットワークトレーニングにおけるHFL以前の形状の利点を後押しする。 この設計は、hfl輪郭上のフーリエ記述子を抽出し、これらの記述子を学習する追加の回帰タスクを定義することによって、先行する形状を表現することを提案する。 次に、HFLセグメンテーションを回帰と分類タスクの同時学習として定式化し、入力画像からフーリエ記述子を推定し、その形状を予め符号化し、入力画像と共に使用してHFLセグメンテーションマップを構築する。 30オクタースキャンの1470枚の画像を用いて,フーリエディスクリプタを用いてhfl形状を定量化し,hflセグメンテーションの主要なタスクで同時に学習した結果,良好な結果が得られた。 これは、指向性octイメージングの必要性を低減し、hflセグメンテーションを改善するための形状保存ネットワークの設計の有効性を示す。

The Henle's fiber layer (HFL) in the retina carries valuable information on the macular condition of an eye. However, in the common practice, this layer is not separately segmented but rather included in the outer nuclear layer since it is difficult to perceive HFL contours on standard optical coherence tomography (OCT) imaging. Due to its variable reflectivity under an imaging beam, delineating the HFL contours necessitates directional OCT, which requires additional imaging. This paper addresses this issue by introducing a shape-preserving network, FourierNet, that achieves HFL segmentation in standard OCT scans with the target performance obtained when directional OCT scans are used. FourierNet is a new cascaded network design that puts forward the idea of benefiting the shape prior of HFL in the network training. This design proposes to represent the shape prior by extracting Fourier descriptors on the HFL contours and defining an additional regression task of learning these descriptors. It then formulates HFL segmentation as concurrent learning of regression and classification tasks, in which Fourier descriptors are estimated from an input image to encode the shape prior and used together with the input image to construct the HFL segmentation map. Our experiments on 1470 images of 30 OCT scans reveal that quantifying the HFL shape with Fourier descriptors and concurrently learning them with the main task of HFL segmentation lead to better results. This indicates the effectiveness of designing a shape-preserving network to improve HFL segmentation by reducing the need to perform directional OCT imaging.
翻訳日:2022-01-19 16:18:16 公開日:2022-01-17
# 街路樹の自動定量化と可視化

Automatic Quantification and Visualization of Street Trees ( http://arxiv.org/abs/2201.06569v1 )

ライセンス: Link先を確認
Arpit Bahety, Rohit Saluja, Ravi Kiran Sarvadevabhatla, Anbumani Subramanian, C.V. Jawahar(参考訳) 街路樹数の評価は都市緑化の評価に不可欠であり、自治体が樹木が生い茂る街路を特定するための解決策を提供するのに役立つ。 また、森林破壊や森林破壊のレベルが異なる道路を特定するのにも役立つ。 しかし、街路樹の定量化の分野ではほとんど仕事がなかった。 この研究はまず,道端木を数えるために慎重に設計されたデータ収集のセットアップについて説明する。 次に,木を頑健に検出・定量化することを目的としたユニークなアノテーション手法について述べる。 約1300箇所のインド道路シーンのデータセットに2500本以上の街路の樹木を注釈付けしている。 さらに、25kmの道路をカバーする5つのホールドアウトビデオを使って木を数えている。 最後に,現在の物体検出器を用いた街路木検出・計数・可視化フレームワークと,思慮深い収集設定による新しい簡便な計数アルゴリズムを提案する。 ルート上の木々の密度とカーネル密度ランク付け(KDR)に基づく高レベルな可視化は、木々飢えの街路を素早く、正確に、安価に認識する方法を提供する。 我々は,試験画像上で83.74%の樹木検出mAPを取得し,ベースラインよりも2.73%改善した。 本稿では,木数密度分類精度(TCDCA)を評価指標として提案する。 テストビデオのTDCAは96.77%で、ベースラインよりも22.58%向上し、カウントモジュールの性能が人間に近いことを示す。 ソースコード:https://github.com/iHubData-Mobility/public-tree-counting。

Assessing the number of street trees is essential for evaluating urban greenery and can help municipalities employ solutions to identify tree-starved streets. It can also help identify roads with different levels of deforestation and afforestation over time. Yet, there has been little work in the area of street trees quantification. This work first explains a data collection setup carefully designed for counting roadside trees. We then describe a unique annotation procedure aimed at robustly detecting and quantifying trees. We work on a dataset of around 1300 Indian road scenes annotated with over 2500 street trees. We additionally use the five held-out videos covering 25 km of roads for counting trees. We finally propose a street tree detection, counting, and visualization framework using current object detectors and a novel yet simple counting algorithm owing to the thoughtful collection setup. We find that the high-level visualizations based on the density of trees on the routes and Kernel Density Ranking (KDR) provide a quick, accurate, and inexpensive way to recognize tree-starved streets. We obtain a tree detection mAP of 83.74% on the test images, which is a 2.73% improvement over our baseline. We propose Tree Count Density Classification Accuracy (TCDCA) as an evaluation metric to measure tree density. We obtain TCDCA of 96.77% on the test videos, with a remarkable improvement of 22.58% over baseline, and demonstrate that our counting module's performance is close to human level. Source code: https://github.com/iHubData-Mobility/public-tree-counting.
翻訳日:2022-01-19 16:17:44 公開日:2022-01-17
# 合成データを用いたUAV画像における物体検出の検証

Validation of object detection in UAV-based images using synthetic data ( http://arxiv.org/abs/2201.06629v1 )

ライセンス: Link先を確認
Eung-Joo Lee, Damon M. Conover, Shuvra S. Bhattacharyyaa, Heesung Kwon, Jason Hill, Kenneth Evensen(参考訳) 物体検出は無人航空機(UAV)上で様々な用途に使用されることが多いが、UAVに基づく検出のための機械学習(ML)モデルは、UAVアプリケーションとは無関係なタスクのためにキュレートされたデータを用いて検証されることが多い。 これは、大規模ベンチマークでニューラルネットワークをトレーニングすることは、汎用オブジェクト検出タスクにおいて優れた能力を示しているが、従来のトレーニングアプローチは、uavベースの画像に対する大きな推論エラーを引き起こす可能性があるため、懸念である。 このようなエラーは、UAVの画像と訓練中の画像との間の画像条件の違いによって生じる。 この問題を解決するために,MLモデルの境界条件を特徴付ける。 本研究は,ゲームエンジンを用いて生成した合成データを用いて,異なるUAV画像条件が検出性能に与える影響を理解することに焦点を当てた。 ゲームエンジンの特性は、合成データセットに写実的で注釈付きイメージを投入するために利用される。 具体的には、カメラの位置、視野角、照明条件、被写体ポーズなどの様々なパラメータの微調整を可能にする。 合成データセットを用いて、上記パラメータの関数として、異なる撮像条件における検出精度を解析する。 私たちの研究では、モデル複雑性が異なる3つのよく知られたニューラルネットワークモデルを使用しています。 実験では、以下のことを観察し、定量化する。 1)カメラがnadirビュー領域に向かって移動すると、検出精度が低下する。 2) 物体のポーズによって検出精度がどう変化するか, および 3)照明条件によってモデルの頑健性が変化する程度が変化する。

Object detection is increasingly used onboard Unmanned Aerial Vehicles (UAV) for various applications; however, the machine learning (ML) models for UAV-based detection are often validated using data curated for tasks unrelated to the UAV application. This is a concern because training neural networks on large-scale benchmarks have shown excellent capability in generic object detection tasks, yet conventional training approaches can lead to large inference errors for UAV-based images. Such errors arise due to differences in imaging conditions between images from UAVs and images in training. To overcome this problem, we characterize boundary conditions of ML models, beyond which the models exhibit rapid degradation in detection accuracy. Our work is focused on understanding the impact of different UAV-based imaging conditions on detection performance by using synthetic data generated using a game engine. Properties of the game engine are exploited to populate the synthetic datasets with realistic and annotated images. Specifically, it enables the fine control of various parameters, such as camera position, view angle, illumination conditions, and object pose. Using the synthetic datasets, we analyze detection accuracy in different imaging conditions as a function of the above parameters. We use three well-known neural network models with different model complexity in our work. In our experiment, we observe and quantify the following: 1) how detection accuracy drops as the camera moves toward the nadir-view region; 2) how detection accuracy varies depending on different object poses, and 3) the degree to which the robustness of the models changes as illumination conditions vary.
翻訳日:2022-01-19 16:17:20 公開日:2022-01-17
# HydraFusion:ロバストで効率的な自律走行車知覚のためのコンテキスト対応選択型センサフュージョン

HydraFusion: Context-Aware Selective Sensor Fusion for Robust and Efficient Autonomous Vehicle Perception ( http://arxiv.org/abs/2201.06644v1 )

ライセンス: Link先を確認
Arnav Vaibhav Malawade, Trier Mortlock, Mohammad Abdullah Al Faruque(参考訳) 自動運転車(AV)は輸送に革命をもたらすと期待されているが、幅広い運転状況における堅牢な認識は依然として大きな課題である。 AV知覚を改善するために、カメラ、レーダー、ライダーセンサーからのセンサデータを融合する技術が提案されている。 しかし、既存の手法は、核融合実装の剛性により、困難な運転環境(例えば、悪天候、低照度、センサーの妨害など)では十分に堅牢である。 これらの方法は2つの幅広いカテゴリーに分類される。 (i)初期の融合で、センサデータがノイズや不明瞭な場合に故障し、 (II)遅延融合は複数のセンサの特徴を生かし得ないため、より悪い推定を導出する。 これらの制限に対処するために,我々は,現在の運転状況を特定し,効率を損なうことなくロバスト性を最大化するために,センサの最適な組み合わせを融合する選択的センサー融合フレームワークであるhydrafusionを提案する。 水和反応は、初期核融合、後期核融合、中間核融合の組み合わせを動的に調整することを提案する最初のアプローチである。 我々は、HydraFusionが、業界標準のNvidia Drive PX2 AVハードウェアプラットフォームにおいて、計算複雑性やエネルギー消費を増大させることなく、それぞれ13.66%と14.54%の早期と後期の融合アプローチより優れていることを示した。 また,静的および深層学習に基づく文脈識別手法を提案する。 当社のオープンソースコードとモデルの実装は、https://github.com/aicps/hydrafusionで利用可能です。

Although autonomous vehicles (AVs) are expected to revolutionize transportation, robust perception across a wide range of driving contexts remains a significant challenge. Techniques to fuse sensor data from camera, radar, and lidar sensors have been proposed to improve AV perception. However, existing methods are insufficiently robust in difficult driving contexts (e.g., bad weather, low light, sensor obstruction) due to rigidity in their fusion implementations. These methods fall into two broad categories: (i) early fusion, which fails when sensor data is noisy or obscured, and (ii) late fusion, which cannot leverage features from multiple sensors and thus produces worse estimates. To address these limitations, we propose HydraFusion: a selective sensor fusion framework that learns to identify the current driving context and fuses the best combination of sensors to maximize robustness without compromising efficiency. HydraFusion is the first approach to propose dynamically adjusting between early fusion, late fusion, and combinations in-between, thus varying both how and when fusion is applied. We show that, on average, HydraFusion outperforms early and late fusion approaches by 13.66% and 14.54%, respectively, without increasing computational complexity or energy consumption on the industry-standard Nvidia Drive PX2 AV hardware platform. We also propose and evaluate both static and deep-learning-based context identification strategies. Our open-source code and model implementation are available at https://github.com/AICPS/hydrafusion.
翻訳日:2022-01-19 16:16:58 公開日:2022-01-17
# 異種音源を用いた現実的な視覚ドッキング

Towards Realistic Visual Dubbing with Heterogeneous Sources ( http://arxiv.org/abs/2201.06260v1 )

ライセンス: Link先を確認
Tianyi Xie, Liucheng Liao, Cheng Bi, Benlai Tang, Xiang Yin, Jianfei Yang, Mingjie Wang, Jiali Yao, Yang Zhang, Zejun Ma(参考訳) 数発の視覚ダビングのタスクは、任意の音声入力と唇の動きを同期させることに重点を置いている。 現在のアプローチでは適度に改善されているが、ビデオやオーディオの高品質なホモロジーデータソースを必要とするため、不均一なデータを十分に活用できない。 実際には、オーディオやピクチャブルなビデオなど、完全な均質なデータを集めるのは難しそうにない。 この種のデータを探索し,高精細なマイニングを支援するため,本稿では,ヘテロジニアスデータマイニングの柔軟性の高い簡易かつ効率的な2段階フレームワークを提案する。 特に,この2段階のパラダイムでは,潜在表現の中間として顔のランドマークを用い,現実的な発話ヘッド生成のコアタスクから唇運動予測を分離する。 これにより、より利用可能な異種データを容易に取得できる2段階のサブネットワークに対して、トレーニングコーパスを独立に利用することが可能となる。 さらに,このアンタングル化により,本フレームワークは,音声頭部のさらなる微調整が可能となり,最終的な合成結果の話者識別性が向上する。 また,提案手法では,他者からターゲット話者に外観特徴を伝達することもできる。 広範に実験を行い,提案手法が最先端の音声に同期した高写実性映像を生成する上で優れていることを示した。

The task of few-shot visual dubbing focuses on synchronizing the lip movements with arbitrary speech input for any talking head video. Albeit moderate improvements in current approaches, they commonly require high-quality homologous data sources of videos and audios, thus causing the failure to leverage heterogeneous data sufficiently. In practice, it may be intractable to collect the perfect homologous data in some cases, for example, audio-corrupted or picture-blurry videos. To explore this kind of data and support high-fidelity few-shot visual dubbing, in this paper, we novelly propose a simple yet efficient two-stage framework with a higher flexibility of mining heterogeneous data. Specifically, our two-stage paradigm employs facial landmarks as intermediate prior of latent representations and disentangles the lip movements prediction from the core task of realistic talking head generation. By this means, our method makes it possible to independently utilize the training corpus for two-stage sub-networks using more available heterogeneous data easily acquired. Besides, thanks to the disentanglement, our framework allows a further fine-tuning for a given talking head, thereby leading to better speaker-identity preserving in the final synthesized results. Moreover, the proposed method can also transfer appearance features from others to the target speaker. Extensive experimental results demonstrate the superiority of our proposed method in generating highly realistic videos synchronized with the speech over the state-of-the-art.
翻訳日:2022-01-19 15:51:18 公開日:2022-01-17
# 効率的な映像認識のためのアクションキーポイントネットワーク

Action Keypoint Network for Efficient Video Recognition ( http://arxiv.org/abs/2201.06304v1 )

ライセンス: Link先を確認
Xu Chen, Yahong Han, Xiaohan Wang, Yifan Sun, Yi Yang(参考訳) ビデオ認識モデルの効率向上には冗長性の低減が不可欠である。 効果的なアプローチは、総合的なビデオから情報コンテンツを選択し、動的なビデオ認識方法の一般的なファミリを生成することである。 しかし、既存の動的手法は時間的あるいは空間的選択を独立的に重視する一方で、冗長性が通常空間的かつ時間的であるという事実を無視する。 さらに、選択されたコンテンツは通常一定の形状で切り分けられるが、情報コンテンツの現実的な分布はより多様である。 これら2つの知見から,時空間選択と空間選択をAK-Net(Action Keypoint Network)に統合することを提案する。 異なるフレームと位置から、AK-Netはアクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。 AK-Netにはキーポイント選択とポイントクラウド分類という2つのステップがある。 まず、動画をベースラインネットワークに入力し、中間層から特徴マップを出力する。 この特徴マップ上の各ピクセルを時空間点とみなし、自己注意を用いていくつかの情報的キーポイントを選択する。 次に、ak-netはランキング基準を考案し、キーポイントを順序付けられた1dシーケンスに配置する。 キーポイント選択ステップは任意の形状内で情報的コンテンツを収集し、空間的時間的依存をモデル化する効率を高める一方、ポイントクラウド分類ステップは、畳み込みカーネルをコンパクト化することにより、計算コストをさらに削減する。 実験の結果、ak-netは複数のビデオ認識ベンチマークにおけるベースライン手法の効率と性能を一貫して改善できることがわかった。

Reducing redundancy is crucial for improving the efficiency of video recognition models. An effective approach is to select informative content from the holistic video, yielding a popular family of dynamic video recognition methods. However, existing dynamic methods focus on either temporal or spatial selection independently while neglecting a reality that the redundancies are usually spatial and temporal, simultaneously. Moreover, their selected content is usually cropped with fixed shapes, while the realistic distribution of informative content can be much more diverse. With these two insights, this paper proposes to integrate temporal and spatial selection into an Action Keypoint Network (AK-Net). From different frames and positions, AK-Net selects some informative points scattered in arbitrary-shaped regions as a set of action keypoints and then transforms the video recognition into point cloud classification. AK-Net has two steps, i.e., the keypoint selection and the point cloud classification. First, it inputs the video into a baseline network and outputs a feature map from an intermediate layer. We view each pixel on this feature map as a spatial-temporal point and select some informative keypoints using self-attention. Second, AK-Net devises a ranking criterion to arrange the keypoints into an ordered 1D sequence. Consequentially, AK-Net brings two-fold benefits for efficiency: The keypoint selection step collects informative content within arbitrary shapes and increases the efficiency for modeling spatial-temporal dependencies, while the point cloud classification step further reduces the computational cost by compacting the convolutional kernels. Experimental results show that AK-Net can consistently improve the efficiency and performance of baseline methods on several video recognition benchmarks.
翻訳日:2022-01-19 15:50:54 公開日:2022-01-17
# クロスカメラデータアソシエーションのためのグラフニューラルネットワーク

Graph Neural Networks for Cross-Camera Data Association ( http://arxiv.org/abs/2201.06311v1 )

ライセンス: Link先を確認
Elena Luna, Juan C. SanMiguel, Jos\'e M. Mart\'inez, and Pablo Carballeira(参考訳) クロスカメラ画像データアソシエーションは、マルチカメラの歩行者検出、マルチカメラのマルチターゲットトラッキング、3Dポーズ推定など、多くのマルチカメラコンピュータビジョンタスクに不可欠である。 このアソシエーションタスクは一般に二部グラフマッチング問題として記述され、大容量データでは計算効率が劣る最小コストフロー手法を適用することでしばしば解決される。 さらに、カメラは通常、一度にグローバルソリューションを見つけるのではなく、ペアで処理し、ローカルソリューションを得る。 その他の重要な問題はアフィニティ測定のそれであり、ユークリッド距離やコサイン距離など、説明不能な事前定義距離が広く使われている。 本稿では,ペアでカメラを処理するのではなく,グローバルなソリューションに焦点を当てたクロスカメラデータアソシエーションの効率的なアプローチを提案する。 固定距離の使用を避けるため,これまで未使用であったグラフニューラルネットワークの接続を活用し,メッセージパッシングネットワークを用いて特徴と類似性を共同で学習する。 我々は,EPFL多カメラ歩行者データセットを用いた歩行者多視点アソシエーションの提案を検証した。 また,本手法は文献データアソシエーション技術よりもかなり優れており,テストのシナリオでトレーニングを行う必要がなくなる。 私たちのコードは \url{http://www-vpu.eps.uam.es/publications/gnn_cca} で利用可能です。

Cross-camera image data association is essential for many multi-camera computer vision tasks, such as multi-camera pedestrian detection, multi-camera multi-target tracking, 3D pose estimation, etc. This association task is typically stated as a bipartite graph matching problem and often solved by applying minimum-cost flow techniques, which may be computationally inefficient with large data. Furthermore, cameras are usually treated by pairs, obtaining local solutions, rather than finding a global solution at once. Other key issue is that of the affinity measurement: the widespread usage of non-learnable pre-defined distances, such as the Euclidean and Cosine ones. This paper proposes an efficient approach for cross-cameras data-association focused on a global solution, instead of processing cameras by pairs. To avoid the usage of fixed distances, we leverage the connectivity of Graph Neural Networks, previously unused in this scope, using a Message Passing Network to jointly learn features and similarity. We validate the proposal for pedestrian multi-view association, showing results over the EPFL multi-camera pedestrian dataset. Our approach considerably outperforms the literature data association techniques, without requiring to be trained in the same scenario in which it is tested. Our code is available at \url{http://www-vpu.eps.uam.es/publications/gnn_cca}.
翻訳日:2022-01-19 15:50:27 公開日:2022-01-17
# 深部生成ネットワークに非現実的な画像を引き起こすニューロンは見つかるか?

Can We Find Neurons that Cause Unrealistic Images in Deep Generative Networks? ( http://arxiv.org/abs/2201.06346v1 )

ライセンス: Link先を確認
Hwanil Choi, Wonjoon Chang, Jaesik Choi(参考訳) Generative Adversarial Networksによる画像生成は、高品質な画像を生成する素晴らしい能力を示しているが、GANが常にフォトリアリスティックな画像を生成するとは限らない。 時に「人工物」と呼ばれる欠陥や不自然な物体を持つ画像を生成する。 アーティファクトがなぜ出現し、どのように検出・除去できるかを決定する研究は、十分に行われていない。 これを分析するために、まず、滅多に活性化されたニューロンと頻繁に活性化されるニューロンは、画像の生成の進行に異なる目的と責任を持つと仮定する。 これらのニューロンの統計と役割を分析することで、希少な活性化ニューロンが多種多様な物を作り、人工物に繋がる失敗の結果と関係があることを実証的に示す。 また,複雑な計算コストや手作業を伴わずに生成画像の欠陥部分を修復する「逐次アブレーション」という補正手法を提案する。

Even though image generation with Generative Adversarial Networks has been showing remarkable ability to generate high-quality images, GANs do not always guarantee photorealistic images will be generated. Sometimes they generate images that have defective or unnatural objects, which are referred to as 'artifacts'. Research to determine why the artifacts emerge and how they can be detected and removed has not been sufficiently carried out. To analyze this, we first hypothesize that rarely activated neurons and frequently activated neurons have different purposes and responsibilities for the progress of generating images. By analyzing the statistics and the roles for those neurons, we empirically show that rarely activated neurons are related to failed results of making diverse objects and lead to artifacts. In addition, we suggest a correction method, called 'sequential ablation', to repair the defective part of the generated images without complex computational cost and manual efforts.
翻訳日:2022-01-19 15:50:04 公開日:2022-01-17
# マルチタスクディープラーニングを用いたペルシャレビューにおけるアスペクトと極性分類のための共同学習

Joint Learning for Aspect and Polarity Classification in Persian Reviews Using Multi-Task Deep Learning ( http://arxiv.org/abs/2201.06313v1 )

ライセンス: Link先を確認
Milad Vazan(参考訳) 本稿では,ペルシャ語におけるアスペクトカテゴリ検出(acd)とアスペクトカテゴリ極性(acp)という,アスペクトベースの感情分析に関連する2つのサブタスクに着目した。 従来の手法のほとんどは、これらのサブタスクの1つを別々に解決することのみに焦点を当てていた。 本稿では,深層ニューラルネットワークに基づくマルチタスク学習モデルを提案する。 異なる深層学習モデルを用いて,映画領域におけるペルシャ語データセットを用いた提案手法の評価を行った。 最終実験では、CNNモデルは他のモデルよりも良い結果が得られた。

The purpose of this paper focuses on two sub-tasks related to aspect-based sentiment analysis, namely, aspect category detection (ACD) and aspect category polarity (ACP) in the Persian language. Most of the previous methods only focus on solving one of these sub-tasks separately. In this paper, we propose a multi-task learning model based on deep neural networks, which can concurrently detect aspect category and detect aspect category polarity. We evaluated the proposed method using a Persian language dataset in the movie domain on different deep learning-based models. Final experiments show that the CNN model has better results than other models.
翻訳日:2022-01-19 15:34:39 公開日:2022-01-17
# パーソナリティ認識のための機械学習モデルの利用

Using Machine Learning Based Models for Personality Recognition ( http://arxiv.org/abs/2201.06248v1 )

ライセンス: Link先を確認
Fatemeh Mohades Deilami, Hossein Sadr, Mojdeh Nazari(参考訳) 性格は、人間の行動の様々な側面を、いくつかの安定的で測定可能な特徴に基づいて記述することを目的とした行動、感情、モチベーション、思考の組み合わせとして定義することができる。 我々の性格が日常生活に顕著な影響を与えているという事実を考えると、人の性格特性の自動認識は認知科学の様々な側面において重要な実践的応用をもたらすことができる。 本稿では,テキストからのパーソナリティ認識タスクのための深層学習に基づく手法を提案する。 様々な深層ニューラルネットワークにおいて、畳み込みニューラルネットワーク(cnn)は自然言語処理、特にパーソナリティ検出において多大な効率を示した。 cnnにおける様々なフィルタサイズがその性能に影響を与える可能性があるため、cnnと古典的なアンサンブルアルゴリズムであるadaboostを組み合わせることで、様々なフィルタ長の寄与を考慮し、様々な分類器とそれぞれのフィルタサイズをadaboostを用いて組み合わせて最終分類においてそれらのポテンシャルをガスプする可能性を検討することにした。 提案手法は,エッセイデータセット上で一連の実験を行い,その実験結果から,人格認識の課題に対する機械学習と深層学習の両方と比較して,提案手法の優位性を実証した。

Personality can be defined as the combination of behavior, emotion, motivation, and thoughts that aim at describing various aspects of human behavior based on a few stable and measurable characteristics. Considering the fact that our personality has a remarkable influence in our daily life, automatic recognition of a person's personality attributes can provide many essential practical applications in various aspects of cognitive science. deep learning based method for the task of personality recognition from text is proposed in this paper. Among various deep neural networks, Convolutional Neural Networks (CNN) have demonstrated profound efficiency in natural language processing and especially personality detection. Owing to the fact that various filter sizes in CNN may influence its performance, we decided to combine CNN with AdaBoost, a classical ensemble algorithm, to consider the possibility of using the contribution of various filter lengths and gasp their potential in the final classification via combining various classifiers with respective filter size using AdaBoost. Our proposed method was validated on the Essay dataset by conducting a series of experiments and the empirical results demonstrated the superiority of our proposed method compared to both machine learning and deep learning methods for the task of personality recognition.
翻訳日:2022-01-19 15:31:18 公開日:2022-01-17
# 顧客生涯価値をメモリレス実験で活用する

Exploit Customer Life-time Value with Memoryless Experiments ( http://arxiv.org/abs/2201.06254v1 )

ライセンス: Link先を確認
Zizhao Zhang, Yifei Zhao, Guangda Huzhang(参考訳) サービスまたは製品関係における顧客による長期的な貢献の尺度として、ライフタイムバリュー(LTV)は、サービス提供の最適な戦略をより包括的に見つけることができる。 しかし,ltvシーンを正確に抽象化し,合理的にモデル化し,最適な解を求めることは困難である。 現在の理論は、単一のモデリング構造のために正確にLTVを表現できないか、効率的な解がないかのいずれかである。 本稿では,クリックスルー率のモデル化などの既存手法が短期的貢献のみを追求する一方で,顧客による長期貢献の定量化が難しいという問題を解決する汎用ltvモデリング手法を提案する。 同時に,可変二分法とメモリレス反復実験を前提とした高速動的計画法を提案する。 モデルとメソッドは、レコメンデーションシステムなど、さまざまなサービスシナリオに適用することができる。 実世界のデータセット実験により,提案手法の有効性が確認された。 さらに、この全LTV構造は、大規模なEコマース携帯電話アプリケーションにデプロイされ、最適なプッシュメッセージ送信時間を選択し、10%のLTV改善を実現した。

As a measure of the long-term contribution produced by customers in a service or product relationship, life-time value, or LTV, can more comprehensively find the optimal strategy for service delivery. However, it is challenging to accurately abstract the LTV scene, model it reasonably, and find the optimal solution. The current theories either cannot precisely express LTV because of the single modeling structure, or there is no efficient solution. We propose a general LTV modeling method, which solves the problem that customers' long-term contribution is difficult to quantify while existing methods, such as modeling the click-through rate, only pursue the short-term contribution. At the same time, we also propose a fast dynamic programming solution based on a mutated bisection method and the memoryless repeated experiments assumption. The model and method can be applied to different service scenarios, such as the recommendation system. Experiments on real-world datasets confirm the effectiveness of the proposed model and optimization method. In addition, this whole LTV structure was deployed at a large E-commerce mobile phone application, where it managed to select optimal push message sending time and achieved a 10\% LTV improvement.
翻訳日:2022-01-19 15:30:56 公開日:2022-01-17
# 一般ゲームにおける空間状態特性

Spatial State-Action Features for General Games ( http://arxiv.org/abs/2201.06401v1 )

ライセンス: Link先を確認
Dennis J.N.J. Soemers and \'Eric Piette and Matthew Stephenson and Cameron Browne(参考訳) 多くのボードゲームやその他の抽象ゲームでは、パターンは自動ゲームプレイエージェントを導く機能として使われてきた。 このようなパターンや特徴は、ゲームの戦略に関係のある特定の構成や空の位置などを表現することが多い。 それらの利用は、Goのゲームで特に広く使われてきたが、AI研究のベンチマークとして使用されている他のゲームも数多くある。 このような特徴の単純で線形なポリシーは、近年一般的に使われているディープニューラルネットワークのような最先端の演奏力を生み出す可能性は低い。 しかし、訓練に要するリソースは極めて少なく、数百から数千の異なるゲームの大規模研究において最重要となる。 本稿では,一般ゲームにおける空間状態対応機能の設計と効率的な実装について述べる。 これらのパターンは、アクション変数周辺のローカル領域の状態変数にマッチするかどうかに基づいて、アクションをインセンティブまたは非インセンティブにすることができる。 いくつかの設計と実装の選択肢について詳細な情報を提供し、様々なボードジオメトリや他のグラフを用いて様々なゲームをサポートするための高度な汎用性の実現に重点を置いている。 第2に,任意の機能セットのアクティブ機能を評価するための効率的なアプローチを提案する。 このアプローチでは,SATなどの問題で用いられるヒューリスティックスからインスピレーションを得て,パターンの一部が一致し不必要な評価を行う順序を最適化する。 ルディイ一般ゲームシステムにおける33の異なるゲームに対する経験的評価は、プレフィックスツリーに基づくベースラインだけでなく、ナイーブベースラインと比較してこのアプローチの効率性を示す。

In many board games and other abstract games, patterns have been used as features that can guide automated game-playing agents. Such patterns or features often represent particular configurations of pieces, empty positions, etc., which may be relevant for a game's strategies. Their use has been particularly prevalent in the game of Go, but also many other games used as benchmarks for AI research. Simple, linear policies of such features are unlikely to produce state-of-the-art playing strength like the deep neural networks that have been more commonly used in recent years do. However, they typically require significantly fewer resources to train, which is paramount for large-scale studies of hundreds to thousands of distinct games. In this paper, we formulate a design and efficient implementation of spatial state-action features for general games. These are patterns that can be trained to incentivise or disincentivise actions based on whether or not they match variables of the state in a local area around action variables. We provide extensive details on several design and implementation choices, with a primary focus on achieving a high degree of generality to support a wide variety of different games using different board geometries or other graphs. Secondly, we propose an efficient approach for evaluating active features for any given set of features. In this approach, we take inspiration from heuristics used in problems such as SAT to optimise the order in which parts of patterns are matched and prune unnecessary evaluations. An empirical evaluation on 33 distinct games in the Ludii general game system demonstrates the efficiency of this approach in comparison to a naive baseline, as well as a baseline based on prefix trees.
翻訳日:2022-01-19 15:30:37 公開日:2022-01-17
# 頭頸部腫瘍の自動切開:トランスフォーマーはいかに強力か?

Automatic Segmentation of Head and Neck Tumor: How Powerful Transformers Are? ( http://arxiv.org/abs/2201.06251v1 )

ライセンス: Link先を確認
Ikboljon Sobirov, Otabek Nazarov, Hussain Alasmawi, and Mohammad Yaqub(参考訳) がんは世界有数の死因の1つであり、頭頸部がん(h&n cancer)は最も一般的ながんの1つである。 ポジトロン・エミッション・トモグラフィとctは腫瘍領域の検出と分画に使用される。 臨床的には、腫瘍の分節は広範囲に時間がかかり、エラーを起こしやすい。 機械学習、特にディープラーニングは、このプロセスを自動化し、臨床医の結果と同じ精度で結果を得ることができる。 本研究では,h&n腫瘍を自動的に診断する視覚トランスフォーマー(vision transformers)に基づく手法を開発し,その結果をcnn(leading convolutional neural network)モデルと比較する。 我々はCTとPETのマルチモーダルデータを用いてこの処理を行う。 選択したトランスモデルにより,CNNモデルと同等の結果が得られることを示す。 交差検証により、平均サイコロ類似度係数は0.736、平均精度は0.766、平均リコールは0.766となる。 これはdscスコアの点で2020年の優勝モデルよりわずか0.021少ない。 これはトランスフォーマーモデルの研究が有望な研究領域であることを示している。

Cancer is one of the leading causes of death worldwide, and head and neck (H&N) cancer is amongst the most prevalent types. Positron emission tomography and computed tomography are used to detect and segment the tumor region. Clinically, tumor segmentation is extensively time-consuming and prone to error. Machine learning, and deep learning in particular, can assist to automate this process, yielding results as accurate as the results of a clinician. In this research study, we develop a vision transformers-based method to automatically delineate H&N tumor, and compare its results to leading convolutional neural network (CNN)-based models. We use multi-modal data of CT and PET scans to do this task. We show that the selected transformer-based model can achieve results on a par with CNN-based ones. With cross validation, the model achieves a mean dice similarity coefficient of 0.736, mean precision of 0.766 and mean recall of 0.766. This is only 0.021 less than the 2020 competition winning model in terms of the DSC score. This indicates that the exploration of transformer-based models is a promising research area.
翻訳日:2022-01-19 15:08:50 公開日:2022-01-17
# BDA-SketRet: ゼロショットSBIRのための双方向ドメイン適応

BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR ( http://arxiv.org/abs/2201.06570v1 )

ライセンス: Link先を確認
Ushasi Chaudhuri, Ruchika Chavan, Biplab Banerjee, Anjan Dutta, Zeynep Akata(参考訳) ゼロショットスケッチベース画像検索(ZS-SBIR)モデルの有効性は2つの課題によって制御される。 スケッチと画像の間の膨大な分布は、適切なドメインアライメントを必要とする。 さらに、タスクのきめ細かい性質と多くのカテゴリのクラス内の高い分散は、スケッチ、画像、セマンティック空間間のクラスワイドの識別的マッピングを必要とする。 この前提のもと、視覚データペアの空間的特徴と意味的特徴を段階的に整合させる二段階ドメイン適応を行う新しいZS-SBIRフレームワークであるBDA-SketRetを提案する。 共有特徴を強調表示し,スケッチや画像特有のアーティファクトの効果を低減すべく,空間的特徴マップにクロスエントロピーベースの逆損失を導入する一方で,意味的特徴を整合するための情報ボトルネックの概念に基づく新しい対称的損失関数を提案する。 最後に、cnnに基づくモデルは、新しいトポロジー保存意味投影ネットワークを介して共有潜在空間の識別性を確認する。 拡張Sketchy、TU-Berlin、QuickDrawデータセットの実験結果は、文献よりも大幅に改善されている。

The efficacy of zero-shot sketch-based image retrieval (ZS-SBIR) models is governed by two challenges. The immense distributions-gap between the sketches and the images requires a proper domain alignment. Moreover, the fine-grained nature of the task and the high intra-class variance of many categories necessitates a class-wise discriminative mapping among the sketch, image, and the semantic spaces. Under this premise, we propose BDA-SketRet, a novel ZS-SBIR framework performing a bi-level domain adaptation for aligning the spatial and semantic features of the visual data pairs progressively. In order to highlight the shared features and reduce the effects of any sketch or image-specific artifacts, we propose a novel symmetric loss function based on the notion of information bottleneck for aligning the semantic features while a cross-entropy-based adversarial loss is introduced to align the spatial feature maps. Finally, our CNN-based model confirms the discriminativeness of the shared latent space through a novel topology-preserving semantic projection network. Experimental results on the extended Sketchy, TU-Berlin, and QuickDraw datasets exhibit sharp improvements over the literature.
翻訳日:2022-01-19 15:08:33 公開日:2022-01-17
# オフポリシー評価における非パラメトリックq関数推定の適切性と最小化率について

On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy Evaluation ( http://arxiv.org/abs/2201.06169v1 )

ライセンス: Link先を確認
Xiaohong Chen, Zhengling Qi(参考訳) 本研究では,連続状態と行動を伴う無限水平マルコフ決定過程におけるオフ・ポリティ・アセスメント(OPE)問題について検討する。 我々は、$q$関数推定を非パラメトリックインストゥルメンタル変数(npiv)推定問題の特別な形式に再キャストする。 まず,1つの軽度条件下でのNPIV定式化は,様々な$Q$関数推定器の収束率を求めるために,最近の文献で課された割引係数$$\gamma$の強い仮定を回避し,データ生成量に対する不測値の$L^2$測定において良好であることを示す。 この新しいよく考えられた性質により、古典的非パラメトリック回帰 (stone, 1982) と同値であることが示されているsup-norm と $l^2$-norm の両方において、q$-関数とその導関数の非パラメトリック推定の収束率の最初のミニマックス下限を導出する。 次に,二段階最小二乗推定器を提案し,穏やかな条件下での両ノルムにおけるそのレート最適性を確立する。 本稿では,Q$関数に対する他の非パラメトリック推定器だけでなく,オフ・ポリティック・セッティングにおける目標ポリシの値の効率的な評価を行うために,その有効性や最小値の下限に関する一般的な結果が,独立に注目されている。

We study the off-policy evaluation (OPE) problem in an infinite-horizon Markov decision process with continuous states and actions. We recast the $Q$-function estimation into a special form of the nonparametric instrumental variables (NPIV) estimation problem. We first show that under one mild condition the NPIV formulation of $Q$-function estimation is well-posed in the sense of $L^2$-measure of ill-posedness with respect to the data generating distribution, bypassing a strong assumption on the discount factor $\gamma$ imposed in the recent literature for obtaining the $L^2$ convergence rates of various $Q$-function estimators. Thanks to this new well-posed property, we derive the first minimax lower bounds for the convergence rates of nonparametric estimation of $Q$-function and its derivatives in both sup-norm and $L^2$-norm, which are shown to be the same as those for the classical nonparametric regression (Stone, 1982). We then propose a sieve two-stage least squares estimator and establish its rate-optimality in both norms under some mild conditions. Our general results on the well-posedness and the minimax lower bounds are of independent interest to study not only other nonparametric estimators for $Q$-function but also efficient estimation on the value of any target policy in off-policy settings.
翻訳日:2022-01-19 15:06:57 公開日:2022-01-17
# 分岐学習のための強化学習アルゴリズムの改良

An Improved Reinforcement Learning Algorithm for Learning to Branch ( http://arxiv.org/abs/2201.06213v1 )

ライセンス: Link先を確認
Qingyu Qu, Xijun Li, Yunfan Zhou, Jia Zeng, Mingxuan Yuan, Jie Wang, Jinhu Lv, Kexin Liu and Kun Mao(参考訳) ほとんどの組合せ最適化問題は混合整数線形計画 (milp) として定式化でき、分岐・境界 (b\&b) は一般に広く使われる手法である。 近年,機械学習と組合せ最適化の交差において,分岐学習がホットな研究トピックとなっている。 本稿では,新しい強化学習に基づくB\&Bアルゴリズムを提案する。 オフラインの強化学習と同様に、最初はデモデータをトレーニングして、学習を大規模に加速します。 トレーニング効果の改善により、エージェントは学習したポリシーで環境と徐々に対話し始める。 実演データと自己生成データの混合比を決定することにより,アルゴリズムの性能を向上させることが重要である。 そこで本研究では,この比率を自動的に制御する優先記憶機構を提案する。 トレーニングプロセスの堅牢性を改善するため、競争性能のQネットワークとして常に機能するDouble DQNに基づいて、優れたネットワークが導入された。 提案アルゴリズムを3つの公開研究ベンチマークで評価し,古典的ヒューリスティックスと1つの最先端の模倣学習に基づく分岐アルゴリズムを含む,強力なベースラインと比較した。 その結果,提案アルゴリズムは比較アルゴリズムの中で最高の性能を達成でき,b\&bアルゴリズムの性能を継続的に向上できる可能性が示唆された。

Most combinatorial optimization problems can be formulated as mixed integer linear programming (MILP), in which branch-and-bound (B\&B) is a general and widely used method. Recently, learning to branch has become a hot research topic in the intersection of machine learning and combinatorial optimization. In this paper, we propose a novel reinforcement learning-based B\&B algorithm. Similar to offline reinforcement learning, we initially train on the demonstration data to accelerate learning massively. With the improvement of the training effect, the agent starts to interact with the environment with its learned policy gradually. It is critical to improve the performance of the algorithm by determining the mixing ratio between demonstration and self-generated data. Thus, we propose a prioritized storage mechanism to control this ratio automatically. In order to improve the robustness of the training process, a superior network is additionally introduced based on Double DQN, which always serves as a Q-network with competitive performance. We evaluate the performance of the proposed algorithm over three public research benchmarks and compare it against strong baselines, including three classical heuristics and one state-of-the-art imitation learning-based branching algorithm. The results show that the proposed algorithm achieves the best performance among compared algorithms and possesses the potential to improve B\&B algorithm performance continuously.
翻訳日:2022-01-19 14:48:24 公開日:2022-01-17
# 線形プログラミングの改革を学ぶ

Learning to Reformulate for Linear Programming ( http://arxiv.org/abs/2201.06216v1 )

ライセンス: Link先を確認
Xijun Li, Qingyu Qu, Fangzhou Zhu, Jia Zeng, Mingxuan Yuan, Kun Mao and Jie Wang(参考訳) 線形プログラミング (LP) は, OptVerse や Gurobi , CPLEX などの対応問題に頼って,多くの実時間最適化問題を定式化できることが確認されている。 過去数十年間、あるLPの最適値をより少ない解時間で得られるように、従来の運用研究アルゴリズムが提案されてきた。 近年,上記の解法の性能向上に機械学習(ML)技術を用いる傾向にある。 しかしながら、ml技術を利用してフロントエンド、すなわちモデリング(あるいは定式化)からソルバのパフォーマンスを改善する以前の作業はほとんどない。 本稿では,LPの強化学習に基づく改良手法を初めて提案し,解法の性能向上を図る。 オープンソースソルバCOIN-OR LP(CLP)を環境として,実運用シナリオから収集した2つの公開研究用LPデータセットと大規模LPデータセットを用いて提案手法を実装した。 評価の結果,提案手法は,従来のLPインスタンスを直接解いた場合と比較して,上述のデータセットよりも解法反復数 (25\%\downarrow$) と解法時間 (15\%\downarrow$) を効果的に削減できることが示唆された。

It has been verified that the linear programming (LP) is able to formulate many real-life optimization problems, which can obtain the optimum by resorting to corresponding solvers such as OptVerse, Gurobi and CPLEX. In the past decades, a serial of traditional operation research algorithms have been proposed to obtain the optimum of a given LP in a fewer solving time. Recently, there is a trend of using machine learning (ML) techniques to improve the performance of above solvers. However, almost no previous work takes advantage of ML techniques to improve the performance of solver from the front end, i.e., the modeling (or formulation). In this paper, we are the first to propose a reinforcement learning-based reformulation method for LP to improve the performance of solving process. Using an open-source solver COIN-OR LP (CLP) as an environment, we implement the proposed method over two public research LP datasets and one large-scale LP dataset collected from practical production planning scenario. The evaluation results suggest that the proposed method can effectively reduce both the solving iteration number ($25\%\downarrow$) and the solving time ($15\%\downarrow$) over above datasets in average, compared to directly solving the original LP instances.
翻訳日:2022-01-19 14:48:04 公開日:2022-01-17
# 動的シミュレーションと強化学習による鉄道運行再スケジュールシステム

Railway Operation Rescheduling System via Dynamic Simulation and Reinforcement Learning ( http://arxiv.org/abs/2201.06276v1 )

ライセンス: Link先を確認
Shumpei Kubosawa, Takashi Onishi, Makoto Sakahara, Yoshimasa Tsuruoka(参考訳) 自然災害の激化により、鉄道運行の混乱が増している。 また、新型コロナウイルスの感染拡大など社会状況の急激な変化は、鉄道会社が頻繁に交通スケジュールを変更する必要がある。 これにより、最適スケジューリングに対する自動サポートが期待できる。 本研究では,自動鉄道計画システムについて述べる。 このシステムは強化学習と動的シミュレータを利用して、全線の鉄道交通と乗客の流れをシミュレートする。 提案システムは,トレーニングとして事前に最適化処理を行うため,全線の交通スケジュールを高速に生成することができる。 システムは割り込みシナリオを用いて評価され、その結果、システムは数分で全行の最適化されたスケジュールを生成できることが示される。

The number of railway service disruptions has been increasing owing to intensification of natural disasters. In addition, abrupt changes in social situations such as the COVID-19 pandemic require railway companies to modify the traffic schedule frequently. Therefore, automatic support for optimal scheduling is anticipated. In this study, an automatic railway scheduling system is presented. The system leverages reinforcement learning and a dynamic simulator that can simulate the railway traffic and passenger flow of a whole line. The proposed system enables rapid generation of the traffic schedule of a whole line because the optimization process is conducted in advance as the training. The system is evaluated using an interruption scenario, and the results demonstrate that the system can generate optimized schedules of the whole line in a few minutes.
翻訳日:2022-01-19 14:46:18 公開日:2022-01-17
# 深部ニューラルネットワークにおけるブラックボックスエラー診断 : ツールの調査

Black-box error diagnosis in deep neural networks: a survey of tools ( http://arxiv.org/abs/2201.06444v1 )

ライセンス: Link先を確認
Piero Fraternali, Federico Milani, Rocio Nahime Torres, Niccol\`o Zangrando(参考訳) ディープニューラルネットワーク(DNN)の幅広いタスクへの適用は、これらのアーキテクチャの複雑で不透明な性質に対処するための方法を必要とする。 性能分析は2つの方法で行うことができる。 一方、モデル解釈手法は、入力、内部層、出力の関係を評価するために「箱を開ける」ことを目的としている。 例えば、正当性と注意モデルはアーキテクチャの知識を利用して、推論プロセスと出力に最も影響を与える入力の本質的な領域をキャプチャします。 一方、モデルは「ブラックボックス」として分析することができ、例えば、入力サンプルにモデルトレーニングに寄与しない追加アノテーションを関連付けることで、モデルの応答を特徴づけるために利用することができる。 このようなパフォーマンス駆動型メタアノテーションは、パフォーマンスメトリクスとエラーの詳細な特徴付けを可能にし、予測失敗の原因となる入力の特徴を特定し、モデル改善の取り組みに集中するのに役立つ。 本稿では,dnnの「ブラックボックス」分析を支援するツールに関する構造化調査を行い,本研究における提案のギャップと今後の方向性について述べる。

The application of Deep Neural Networks (DNNs) to a broad variety of tasks demands methods for coping with the complex and opaque nature of these architectures. The analysis of performance can be pursued in two ways. On one side, model interpretation techniques aim at "opening the box" to assess the relationship between the input, the inner layers, and the output. For example, saliency and attention models exploit knowledge of the architecture to capture the essential regions of the input that have the most impact on the inference process and output. On the other hand, models can be analysed as "black boxes", e.g., by associating the input samples with extra annotations that do not contribute to model training but can be exploited for characterizing the model response. Such performance-driven meta-annotations enable the detailed characterization of performance metrics and errors and help scientists identify the features of the input responsible for prediction failures and focus their model improvement efforts. This paper presents a structured survey of the tools that support the "black box" analysis of DNNs and discusses the gaps in the current proposals and the relevant future directions in this research field.
翻訳日:2022-01-19 14:46:07 公開日:2022-01-17
# 自然主義駆動データセットにおける近接クラッシュ事象のパターン--ルールマイニングの適用

Patterns of near-crash events in a naturalistic driving dataset: applying rules mining ( http://arxiv.org/abs/2201.06523v1 )

ライセンス: Link先を確認
Xiaoqiang Konga, Subasish Das, Hongmin Zhou, Yunlong Zhang(参考訳) 本研究の目的は,自然主義的運転データセットとそれに対応する道路在庫データセットを関連ルールマイニング法を用いて調査することにより,道路形状と道路形状の関連性を検討することである。

This study aims to explore the associations between near-crash events and road geometry and trip features by investigating a naturalistic driving dataset and a corresponding roadway inventory dataset using an association rule mining method.
翻訳日:2022-01-19 14:45:50 公開日:2022-01-17
# 学習的関係特徴を用いた微分可能な規則誘導

Differentiable Rule Induction with Learned Relational Features ( http://arxiv.org/abs/2201.06515v1 )

ライセンス: Link先を確認
Remy Kusters, Yusik Kim, Marine Collery, Christian de Sainte Marie, Shubham Gupta(参考訳) ルールベースの決定モデルは、解釈可能性のために魅力的です。 しかし、既存の規則帰納法は、しばしば長く、従って解釈不能な規則の集合をもたらす。 この問題は、多くの場合、ルール学習者が適切に表現された語彙、すなわち関連する述語を欠いていることに起因する。 既存のルール誘導アルゴリズムの多くは、規則を表すために使われる述語が利用可能であると仮定し、述語の定義と規則学習フェーズを自然に分離する。 これとは対照的に,属性間の線形関係を表す関係述語とそれを使用する規則を学習するニューラルネットワークであるrelational rule network(rrn)を提案する。 このアプローチは、述語学習とルール学習をエンドツーエンドの微分可能な方法で直接結合することにより、帰納的決定モデルの表現性を高めるための扉を開く。 ベンチマークタスクでは,これらの関係述語は解釈可能性を維持するのに十分単純であるが,予測精度は向上し,美術規則誘導アルゴリズムの状態よりも簡潔なルールセットを提供する。

Rule-based decision models are attractive due to their interpretability. However, existing rule induction methods often results in long and consequently less interpretable set of rules. This problem can, in many cases, be attributed to the rule learner's lack of appropriately expressive vocabulary, i.e., relevant predicates. Most existing rule induction algorithms presume the availability of predicates used to represent the rules, naturally decoupling the predicate definition and the rule learning phases. In contrast, we propose the Relational Rule Network (RRN), a neural architecture that learns relational predicates that represent a linear relationship among attributes along with the rules that use them. This approach opens the door to increasing the expressiveness of induced decision models by coupling predicate learning directly with rule learning in an end to end differentiable fashion. On benchmark tasks, we show that these relational predicates are simple enough to retain interpretability, yet improve prediction accuracy and provide sets of rules that are more concise compared to state of the art rule induction algorithms.
翻訳日:2022-01-19 14:43:16 公開日:2022-01-17
# 平等なコミュニティレジリエンス : テキサス州の冬の嵐うりを事例として

Equitable Community Resilience: The Case of Winter Storm Uri in Texas ( http://arxiv.org/abs/2201.06652v1 )

ライセンス: Link先を確認
Ali Nejat, Laura Solitare, Edward Pettitt, Hamed Mohsenian-Rad(参考訳) 自然災害に直面したコミュニティのレジリエンスは、コミュニティが反発する可能性に依存している。 株式をレジリエンスの考慮に組み込むことの失敗は、米国内で長い間懸念されてきた脆弱な人口に対する不平等な回復と不均衡な影響をもたらす。 この研究は、テキサス州のウィンターストーム・uriの余波でコミュニティのレジリエンスに関連する株式の側面を調査し、400万世帯以上の停電に繋がった。 郡レベルの機能停止と回復のデータを分析し、様々な郡属性と、回復と回復の段階における機能停止のシェアとの間に有意な関連性を見出した。 次に、衛星画像を用いて、ヒューストン市の国勢調査領域に焦点を当てたより高度な地理的解像度でデータを調査した。 目的は、コンピュータビジョンを用いて、国勢調査区域内の停電の程度を抽出し、国勢調査区域の属性と関連性を調べることである。 様々な統計手順の結果、郡非ヒスパニック白人の割合と世帯収入の中央値との間に統計学的に有意な負の相関があることが判明した。 さらに, 言語学的に孤立した人口と公共交通機関の利用者の比率を含む変数は, コンピュータビジョン分析により検出された機能停止の影響を受けやすい群と正の相関を示した。 これらの結果から, 送電網の近代化技術の適用性や, 地域地形特性に配慮した分散型・再生可能エネルギー資源などの技術ソリューションが提案され, 自然災害に直面した電力グリッドの弾力性の向上が図られた。

Community resilience in the face of natural hazards relies on a community's potential to bounce back. A failure to integrate equity into resilience considerations results in unequal recovery and disproportionate impacts on vulnerable populations, which has long been a concern in the United States. This research investigated aspects of equity related to community resilience in the aftermath of Winter Storm Uri in Texas which led to extended power outages for more than 4 million households. County level outage and recovery data was analyzed to explore potential significant links between various county attributes and their share of the outages during the recovery and restoration phases. Next, satellite imagery was used to examine data at a much higher geographical resolution focusing on census tracts in the city of Houston. The goal was to use computer vision to extract the extent of outages within census tracts and investigate their linkages to census tracts attributes. Results from various statistical procedures revealed statistically significant negative associations between counties' percentage of non-Hispanic whites and median household income with the ratio of outages. Additionally, at census tract level, variables including percentages of linguistically isolated population and public transport users exhibited positive associations with the group of census tracts that were affected by the outage as detected by computer vision analysis. Informed by these results, engineering solutions such as the applicability of grid modernization technologies, together with distributed and renewable energy resources, when controlled for the region's topographical characteristics, are proposed to enhance equitable power grid resiliency in the face of natural hazards.
翻訳日:2022-01-19 14:43:01 公開日:2022-01-17
# 誰が監督を? 深部特徴埋め込みを用いた生産時のモデルモニタリングとワークワークインスペクションへの応用

Who supervises the supervisor? Model monitoring in production using deep feature embeddings with applications to workpiece inspection ( http://arxiv.org/abs/2201.06599v1 )

ライセンス: Link先を確認
Michael Banf and Gregor Steinhagen(参考訳) コンディションモニタリングとワークインスペクションの自動化は、製造プロセスの高スループットと高品質を維持する上で重要な役割を果たす。 この目的のために、近年の機械学習の発展は、自律的なプロセス監視の領域で大幅に改善されている。 しかし、これらのモデルがより複雑で強力になると、透明性が低くなり、一般にも説明が容易になる。 主な課題のひとつは、これらの機械学習システムのライブデプロイメントの監視と、モデルパフォーマンスに影響を与える可能性のあるイベントに遭遇した場合のアラートの発行だ。 特に、教師付き分類器は、基礎となるデータ分布の定常性を前提に構築される。 例えば、材料表面欠陥のセットに基づいてトレーニングされた視覚検査システムは、一般的に、新しいタイプの表面欠陥の出現など、データ分散の段階的な変化("データドリフト"と呼ばれる問題)を適応または認識しない。 これは、例えば、新しい欠陥クラスのサンプルが非欠陥であると分類されるなど、有害な誤予測を引き起こす可能性がある。 この目的のために、分類器の動作をリアルタイムに追跡し、追加のエラークラスの入出力と、分類器の再訓練に関する手動介入の必要性を知らせることが望ましい。 本稿では,教師付き分類システム上で機能する非教師付きフレームワークを提案し,その内部深層特徴表現をプロキシとして利用し,デプロイ時のデータ分布の変化を追跡し,分類器の性能低下を予測した。

The automation of condition monitoring and workpiece inspection plays an essential role in maintaining high quality as well as high throughput of the manufacturing process. To this end, the recent rise of developments in machine learning has lead to vast improvements in the area of autonomous process supervision. However, the more complex and powerful these models become, the less transparent and explainable they generally are as well. One of the main challenges is the monitoring of live deployments of these machine learning systems and raising alerts when encountering events that might impact model performance. In particular, supervised classifiers are typically build under the assumption of stationarity in the underlying data distribution. For example, a visual inspection system trained on a set of material surface defects generally does not adapt or even recognize gradual changes in the data distribution - an issue known as "data drift" - such as the emergence of new types of surface defects. This, in turn, may lead to detrimental mispredictions, e.g. samples from new defect classes being classified as non-defective. To this end, it is desirable to provide real-time tracking of a classifier's performance to inform about the putative onset of additional error classes and the necessity for manual intervention with respect to classifier re-training. Here, we propose an unsupervised framework that acts on top of a supervised classification system, thereby harnessing its internal deep feature representations as a proxy to track changes in the data distribution during deployment and, hence, to anticipate classifier performance degradation.
翻訳日:2022-01-19 14:24:44 公開日:2022-01-17
# vaqf:低ビットビジョントランスフォーマーのための完全自動ソフトウェアハードウェア共同設計フレームワーク

VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer ( http://arxiv.org/abs/2201.06618v1 )

ライセンス: Link先を確認
Mengshu Sun, Haoyu Ma, Guoliang Kang, Yifan Jiang, Tianlong Chen, Xiaolong Ma, Zhangyang Wang, Yanzhi Wang(参考訳) 注意機構を備えたトランスフォーマーアーキテクチャはNLP(Nature Language Processing)で成功し、ViT(Vision Transformer)はアプリケーションドメインを様々な視覚タスクに拡張した。 高性能を実現する一方で、ViTは大きなモデルサイズと高い計算複雑性に悩まされ、エッジデバイスへのデプロイを妨げている。 ハードウェア上で高いスループットを実現し,モデル精度を同時に維持するために,二値重み付き量子化ViTのためのFPGAプラットフォーム上で推論アクセラレータを構築するVAQFを提案する。 モデル構造と所望のフレームレートを考慮すれば、vaqfはハードウェア要件を満たすアクセラレータの最適化パラメータ設定に加えて、アクティベーションに必要な量子化精度を自動的に出力します。 実装は、xilinx zcu102 fpga基板上でvivado high-level synthesis (hls) を用いて開発され、deit-baseモデルによる評価結果から、24フレーム/秒(fps)のフレームレート要件が8ビットのアクティベーション量子化で満たされ、30fpsのターゲットが6ビットのアクティベーション量子化を満足していることが示されている。 我々の知る限りでは、ソフトウェア側の量子化戦略とハードウェア側のアクセラレータ実装を目標フレームレートでガイドする完全に自動化されたフレームワークの助けを借りて、FPGA上でのVTアクセラレーションに量子化が組み込まれたのはこれが初めてである。 量子化トレーニングに比べてコンパイル時間コストが非常に小さく、生成された加速器はfpga上の最先端vitモデルのリアルタイム実行を実現する能力を示している。

The transformer architectures with attention mechanisms have obtained success in Nature Language Processing (NLP), and Vision Transformers (ViTs) have recently extended the application domains to various vision tasks. While achieving high performance, ViTs suffer from large model size and high computation complexity that hinders the deployment of them on edge devices. To achieve high throughput on hardware and preserve the model accuracy simultaneously, we propose VAQF, a framework that builds inference accelerators on FPGA platforms for quantized ViTs with binary weights and low-precision activations. Given the model structure and the desired frame rate, VAQF will automatically output the required quantization precision for activations as well as the optimized parameter settings of the accelerator that fulfill the hardware requirements. The implementations are developed with Vivado High-Level Synthesis (HLS) on the Xilinx ZCU102 FPGA board, and the evaluation results with the DeiT-base model indicate that a frame rate requirement of 24 frames per second (FPS) is satisfied with 8-bit activation quantization, and a target of 30 FPS is met with 6-bit activation quantization. To the best of our knowledge, this is the first time quantization has been incorporated into ViT acceleration on FPGAs with the help of a fully automatic framework to guide the quantization strategy on the software side and the accelerator implementations on the hardware side given the target frame rate. Very small compilation time cost is incurred compared with quantization training, and the generated accelerators show the capability of achieving real-time execution for state-of-the-art ViT models on FPGAs.
翻訳日:2022-01-19 14:24:22 公開日:2022-01-17
# OmniPrint: 構成可能な印刷文字合成ツール

OmniPrint: A Configurable Printed Character Synthesizer ( http://arxiv.org/abs/2201.06648v1 )

ライセンス: Link先を確認
Haozhe Sun and Wei-Wei Tu and Isabelle Guyon(参考訳) 我々は,機械学習研究を指向した,孤立した印刷文字の合成データ生成装置であるomniprintを紹介する。 mnist、svhn、omniglotといった有名なデータセットからインスピレーションを得ているが、様々な言語、フォント、スタイルから様々な印刷文字を生成し、カスタマイズされた歪みを持つ。 27のスクリプトから935のフォントと多くの種類の歪みが含まれています。 概念実証として,近日開催されるMetaDL NeurIPS 2021コンペティション用に設計されたメタラーニングデータセットの例を含む,さまざまなユースケースを示す。 OmniPrintはhttps://github.com/SunHaozhe/OmniPrintで入手できる。

We introduce OmniPrint, a synthetic data generator of isolated printed characters, geared toward machine learning research. It draws inspiration from famous datasets such as MNIST, SVHN and Omniglot, but offers the capability of generating a wide variety of printed characters from various languages, fonts and styles, with customized distortions. We include 935 fonts from 27 scripts and many types of distortions. As a proof of concept, we show various use cases, including an example of meta-learning dataset designed for the upcoming MetaDL NeurIPS 2021 competition. OmniPrint is available at https://github.com/SunHaozhe/OmniPrint.
翻訳日:2022-01-19 14:21:51 公開日:2022-01-17
# Facebook上のライフスタイル政治の極端な事例をデモグラフィーで表現する

Demographic Confounding Causes Extreme Instances of Lifestyle Politics on Facebook ( http://arxiv.org/abs/2201.06517v1 )

ライセンス: Link先を確認
Alexander Ruch, Yujia Zhang, Michael Macy(参考訳) ライフスタイルの政治は、イデオロギーに実質的な関係のない活動が政治的に整列し、偏極化するにつれて現れる。 ホモフィリーと社会的影響は、これらの断層線を独自に生成することができるが、人口統計学からの社会的アイデンティティは、ライフスタイルの政治を動員するコーディネートメカニズムとして機能する可能性がある。 人種、民族、教育、年齢、性別、所得の異なるユーザーを対象に、299,327人のfacebookの関心事から得られた137,661,886のデータセットを使って、ライフスタイル政治の最も極端な例が、人種/民族(黒人アーティストやパフォーマーなど)のような人口層によって高度に一致していることがわかりました。 人口統計効果の政治調整後、ライフスタイル政治は27.36%減少し、政治的「中心」となり、人口統計学的に合致した関心はもはや最も分断された関心事ではなかった。 その代わりに、人口統計の崩壊の後、最もリベラルな関心は電気自動車、プランテッド・ペアレントフッド、リベラルな風刺であり、一方で最も保守的な関心は共和党や保守的なコメンテーターであった。 我々は、一般社会調査(General Social Survey)を用いて、政治アライメントとライフスタイルの政治に関する私たちの対策を検証するとともに、Facebookのようなソーシャルメディアがユビキタスになる前に、ライフスタイルの政治と同じような人口動態の絡み合いを見出した。 同様に、人口統計学的特徴はイデオロギー的価値に先立って存在するため、私たちが観察する人口統計学的背景は、集約された関心の中に見出されるライフスタイル政治の極端な事例に因果関係があることを論じる。 本論文は,シンプソンのパラドックス,文化的雑食性,ネットワーク自己相関に関連づけて結論づける。

Lifestyle politics emerge when activities that have no substantive relevance to ideology become politically aligned and polarized. Homophily and social influence are able generate these fault lines on their own; however, social identities from demographics may serve as coordinating mechanisms through which lifestyle politics are mobilized are spread. Using a dataset of 137,661,886 observations from 299,327 Facebook interests aggregated across users of different racial/ethnic, education, age, gender, and income demographics, we find that the most extreme instances of lifestyle politics are those which are highly confounded by demographics such as race/ethnicity (e.g., Black artists and performers). After adjusting political alignment for demographic effects, lifestyle politics decreased by 27.36% toward the political "center" and demographically confounded interests were no longer among the most polarized interests. Instead, after demographic deconfounding, we found that the most liberal interests included electric cars, Planned Parenthood, and liberal satire while the most conservative interests included the Republican Party and conservative commentators. We validate our measures of political alignment and lifestyle politics using the General Social Survey and find similar demographic entanglements with lifestyle politics existed before social media such as Facebook were ubiquitous, giving us strong confidence that our results are not due to echo chambers or filter bubbles. Likewise, since demographic characteristics exist prior to ideological values, we argue that the demographic confounding we observe is causally responsible for the extreme instances of lifestyle politics that we find among the aggregated interests. We conclude our paper by relating our results to Simpson's paradox, cultural omnivorousness, and network autocorrelation.
翻訳日:2022-01-19 14:21:15 公開日:2022-01-17
# 何百万もの共同購入とレビューがオンライン市場における分断とライフスタイル政治の拡散を明らかに

Millions of Co-purchases and Reviews Reveal the Spread of Polarization and Lifestyle Politics across Online Markets ( http://arxiv.org/abs/2201.06556v1 )

ライセンス: Link先を確認
Alexander Ruch, Ari Decter-Frain, Raghav Batra(参考訳) 市場の分極化が進む中、米国の分極は高い水準に達している。 しかし、既存の研究は特定の市場セグメントと製品に焦点を当てており、この傾向の全幅を評価していない。 もしそのような断層線が政治的でない他の部分に広がっていれば、それはライフスタイル政治の存在を示すことになる。 多様な市場における異なる製品セグメントにおける分極化とライフスタイル政策の広がりについて調査し、消費者とプラットフォームレベルのネットワーク効果とモラルがライフスタイル政治をどの程度説明できるかを検証した。 具体的には、amazonのグラフと言語データ(1996年から2014年にかけての950万製品と製品およびカテゴリーメタデータのレビュー8250万)を使用して、2180万の市場エンティティ間の23460万の関係をサンプリングし、最も政治的に関連し、連携し、分断された製品カテゴリを見つける。 次に、レビューのテキストに現れる道徳的価値を抽出し、これらのデータと他のレビュアー、製品、およびカテゴリーレベルのデータを用いて、個人レベルのネットワーク要素が製品の暗黙のモラルよりもライフスタイルの政治を説明するかどうかを検証する。 広汎なライフスタイル政治が見られます 文化製品は他のどの部分よりも4倍偏光化されており、製品の政治的特性は作家レベルの共変種よりも3.7倍もライフスタイル政治と関連がある。 これらの文脈でライフスタイル政治を調べることは、パルチザンの違いの程度と根源、なぜアメリカ人がこれほど二極化されるのか、そしてこの二極化が市場システムにどのように影響するかを理解するのに役立ちます。

Polarization in America has reached a high point as markets are also becoming polarized. Existing research, however, focuses on specific market segments and products and has not evaluated this trend's full breadth. If such fault lines do spread into other segments that are not explicitly political, it would indicate the presence of lifestyle politics -- when ideas and behaviors not inherently political become politically aligned through their connections with explicitly political things. We study the pervasiveness of polarization and lifestyle politics over different product segments in a diverse market and test the extent to which consumer- and platform-level network effects and morality may explain lifestyle politics. Specifically, using graph and language data from Amazon (82.5M reviews of 9.5M products and product and category metadata from 1996-2014), we sample 234.6 million relations among 21.8 million market entities to find product categories that are most politically relevant, aligned, and polarized. We then extract moral values present in reviews' text and use these data and other reviewer-, product-, and category-level data to test whether individual- and platform- level network factors explain lifestyle politics better than products' implicit morality. We find pervasive lifestyle politics. Cultural products are 4 times more polarized than any other segment, products' political attributes have up to 3.7 times larger associations with lifestyle politics than author-level covariates, and morality has statistically significant but relatively small correlations with lifestyle politics. Examining lifestyle politics in these contexts helps us better understand the extent and root of partisan differences, why Americans may be so polarized, and how this polarization affects market systems.
翻訳日:2022-01-19 14:20:37 公開日:2022-01-17
# 半教師付き学習におけるコントラスト正規化

Contrastive Regularization for Semi-Supervised Learning ( http://arxiv.org/abs/2201.06247v1 )

ライセンス: Link先を確認
Doyup Lee, Sungwoong Kim, Ildoo Kim, Yeongjae Cheon, Minsu Cho, Wook-Shin Han(参考訳) ラベル予測における一貫性の正規化は、半教師付き学習において基本的なテクニックとなるが、ハイパフォーマンスのために多くのトレーニングイテレーションが必要である。 本研究では,モデル更新における信頼できない擬似ラベルを用いたサンプルの排除により,一貫性の正規化によりラベル情報の伝播が抑制されることを示す。 そこで本稿では,非ラベルデータの特徴量によって整合性正則化の効率性と精度を両立させるコントラスト正則化を提案する。 具体的には、強く拡張されたサンプルが疑似ラベルによってクラスタに割り当てられた後、我々のコントラスト・レギュライゼーションがモデルを更新し、自信のある疑似ラベルを持つフィーチャが同じクラスタの機能を集約するようにします。 その結果、信頼度の高い擬似ラベルの情報は、よくクラスタ化された特徴によるトレーニング中に、より未ラベルのサンプルに効果的に伝播することができる。 半教師付き学習タスクのベンチマークでは,従来の一貫性に基づく手法を改善し,特に少ないトレーニングイテレーションで最新の結果を得る。 また,ラベルのないデータに分散サンプルを含むオープンセット半教師あり学習におけるロバストな性能を示す。

Consistency regularization on label predictions becomes a fundamental technique in semi-supervised learning, but it still requires a large number of training iterations for high performance. In this study, we analyze that the consistency regularization restricts the propagation of labeling information due to the exclusion of samples with unconfident pseudo-labels in the model updates. Then, we propose contrastive regularization to improve both efficiency and accuracy of the consistency regularization by well-clustered features of unlabeled data. In specific, after strongly augmented samples are assigned to clusters by their pseudo-labels, our contrastive regularization updates the model so that the features with confident pseudo-labels aggregate the features in the same cluster, while pushing away features in different clusters. As a result, the information of confident pseudo-labels can be effectively propagated into more unlabeled samples during training by the well-clustered features. On benchmarks of semi-supervised learning tasks, our contrastive regularization improves the previous consistency-based methods and achieves state-of-the-art results, especially with fewer training iterations. Our method also shows robust performance on open-set semi-supervised learning where unlabeled data includes out-of-distribution samples.
翻訳日:2022-01-19 14:02:45 公開日:2022-01-17
# 0-1損失のミニマックスリスク分類器

Minimax risk classifiers with 0-1 loss ( http://arxiv.org/abs/2201.06487v1 )

ライセンス: Link先を確認
Santiago Mazuelas and Mauricio Romero and Peter Gr\"unwald(参考訳) 教師付き分類技術は、トレーニングサンプルを使用して、予測される0-1-ロス(エラー確率)の少ない分類規則を学ぶ。 従来の手法では、0-1-lossの代わりにサーロゲート損失を使い、特定のルールファミリー(仮説クラス)を考慮し、扱いやすい学習とサンプル外一般化を可能にする。 本稿では、一般的な分類規則よりも最悪の0-1-lossを最小限に抑え、学習時の性能保証を行うミニマックスリスク分類器(MRC)を提案する。 特徴カーネルによって与えられる特徴写像を用いて, MRC は強普遍的に整合性を示す。 また, MRC学習における効率的な最適化手法を提案し, 提案手法が厳密な性能保証とともに正確な分類を提供できることを示した。

Supervised classification techniques use training samples to learn a classification rule with small expected 0-1-loss (error probability). Conventional methods enable tractable learning and provide out-of-sample generalization by using surrogate losses instead of the 0-1-loss and considering specific families of rules (hypothesis classes). This paper presents minimax risk classifiers (MRCs) that minimize the worst-case 0-1-loss over general classification rules and provide tight performance guarantees at learning. We show that MRCs are strongly universally consistent using feature mappings given by characteristic kernels. The paper also proposes efficient optimization techniques for MRC learning and shows that the methods presented can provide accurate classification together with tight performance guarantees
翻訳日:2022-01-19 14:00:29 公開日:2022-01-17
# 非定常確率バンディットに対する動的後悔の新しい見方

A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits ( http://arxiv.org/abs/2201.06532v1 )

ライセンス: Link先を確認
Yasin Abbasi-Yadkori, Andras Gyorgy, Nevena Lazic(参考訳) 本研究では,学習過程において各腕の報酬統計が数回変化しうる非定常確率的マルチアームバンディット問題について検討する。 学習アルゴリズムの性能は、各ラウンドにおいて最適なアームを選択するエージェントの期待累積報酬と学習アルゴリズムの累積報酬との差として定義される動的後悔の観点から評価される。 このような環境の硬さを測る一つの方法は、最適な腕の同一性を何回変えられるかを考えることである。 我々は、$k$-armed bandit問題において、ほぼ最適に近い$\widetilde o(\sqrt{k n(s+1)})$ dynamic regretを実現する方法を提案する。 この問題の以前の研究は、報酬関数における変化の数(または変化の量)と共にスケールする後悔の限界を得るが、これはより大きい可能性があるし、あるいは同様の境界を達成するために$S$の事前の知識を仮定する。

We study the non-stationary stochastic multi-armed bandit problem, where the reward statistics of each arm may change several times during the course of learning. The performance of a learning algorithm is evaluated in terms of their dynamic regret, which is defined as the difference of the expected cumulative reward of an agent choosing the optimal arm in every round and the cumulative reward of the learning algorithm. One way to measure the hardness of such environments is to consider how many times the identity of the optimal arm can change. We propose a method that achieves, in $K$-armed bandit problems, a near-optimal $\widetilde O(\sqrt{K N(S+1)})$ dynamic regret, where $N$ is the number of rounds and $S$ is the number of times the identity of the optimal arm changes, without prior knowledge of $S$ and $N$. Previous works for this problem obtain regret bounds that scale with the number of changes (or the amount of change) in the reward functions, which can be much larger, or assume prior knowledge of $S$ to achieve similar bounds.
翻訳日:2022-01-19 14:00:15 公開日:2022-01-17
# 能動学習による地震データの品質管理の改善

Improving the quality control of seismic data through active learning ( http://arxiv.org/abs/2201.06616v1 )

ライセンス: Link先を確認
Mathieu Chambefort, Rapha\"el Butez, Emilie Chautru and Stephan Cl\'emen\c{c}on(参考訳) 画像分割問題では、画像の密度が増加すると、徹底的な視覚検査が不可能となり、機械学習に基づく自動化手法をこの目的のために展開する必要がある。 これは特に地震信号処理の場合である。 エンジニアや地球物理学者は、何百万もの地震の時系列を扱う必要がある。 石油産業に有用な地下特性の発見には1年を要し、計算・人的資源の面では非常にコストがかかる。 特に、データはノイズ減衰の異なるステップを通過しなければならない。 それぞれの装飾ステップは、人間の専門知識によって実行される品質管理(QC)段階が理想的に続く。 品質管理分類器を教師付きで学習するには、ラベル付きトレーニングデータが必要であるが、人間の専門家によるラベルの収集は非常に時間がかかる。 そこで我々は,最も関連性の高いデータを順次選択し,人間にラベル付けを依頼する新しいアクティブラーニング手法を提案する。 本論文では,地球物理学の応用以外にも,局所誤差とその不確実性の推定に基づく手法を一般化した。 この論文で提示された数値実験で示されているように、その性能は、合成データと実際の地震データセットの両方において、代替のアクティブラーニング戦略と比較される強力な実証的証拠によって支えられている。

In image denoising problems, the increasing density of available images makes an exhaustive visual inspection impossible and therefore automated methods based on machine-learning must be deployed for this purpose. This is particulary the case in seismic signal processing. Engineers/geophysicists have to deal with millions of seismic time series. Finding the sub-surface properties useful for the oil industry may take up to a year and is very costly in terms of computing/human resources. In particular, the data must go through different steps of noise attenuation. Each denoise step is then ideally followed by a quality control (QC) stage performed by means of human expertise. To learn a quality control classifier in a supervised manner, labeled training data must be available, but collecting the labels from human experts is extremely time-consuming. We therefore propose a novel active learning methodology to sequentially select the most relevant data, which are then given back to a human expert for labeling. Beyond the application in geophysics, the technique we promote in this paper, based on estimates of the local error and its uncertainty, is generic. Its performance is supported by strong empirical evidence, as illustrated by the numerical experiments presented in this article, where it is compared to alternative active learning strategies both on synthetic and real seismic datasets.
翻訳日:2022-01-19 13:59:55 公開日:2022-01-17
# 共有パラメータを用いた成長ニューラルネットワーク

Growing Neural Network with Shared Parameter ( http://arxiv.org/abs/2201.06500v1 )

ライセンス: Link先を確認
Ruilin Tong(参考訳) 本稿では,学習したネットワークを新しい入力に合わせることで,共有パラメータでニューラルネットワークを成長させる一般的な手法を提案する。 Hoeffdingの不等式を活用することにより,既存のネットワークにサブネットワークを追加することにより,性能向上のための理論的基盤を提供する。 新しいサブネットワークを追加する理論的基盤により、既存のネットワークのトレーニング済みサブネットワークを新しい入力に適用するためのマッチング手法を実装した。 提案手法は,パラメータ効率の向上による性能向上能力を示した。 トランスタスクケースにも適用でき、新しいタスクのトレーニングなしでサブネットワークの組み合わせを変更することで、転送学習を実現することができる。

We propose a general method for growing neural network with shared parameter by matching trained network to new input. By leveraging Hoeffding's inequality, we provide a theoretical base for improving performance by adding subnetwork to existing network. With the theoretical base of adding new subnetwork, we implement a matching method to apply trained subnetwork of existing network to new input. Our method has shown the ability to improve performance with higher parameter efficiency. It can also be applied to trans-task case and realize transfer learning by changing the combination of subnetworks without training on new task.
翻訳日:2022-01-19 13:41:08 公開日:2022-01-17
# オープンドメイン対話データセットの重複問題に関する実証的研究

An Empirical Study on the Overlapping Problem of Open-Domain Dialogue Datasets ( http://arxiv.org/abs/2201.06219v1 )

ライセンス: Link先を確認
Yuqiao Wen, Guoqing Luo, Lili Mou(参考訳) オープンドメイン対話システムは、テキストを通じて人間と会話することを目的としており、その研究はベンチマークデータセットに大きく依存している。 本研究では,2つの人気のあるオープンドメイン対話ベンチマークデータセットであるDailyDialogとOpenSubtitlesの重複問題を特定する。 体系的な分析により,このような重複を生かして偽の最先端のパフォーマンスが得られることを示した。 最後に、これらのデータセットをクリーン化し、将来の研究のために適切なデータ処理手順を設定することで、この問題に対処する。

Open-domain dialogue systems aim to converse with humans through text, and its research has heavily relied on benchmark datasets. In this work, we first identify the overlapping problem in DailyDialog and OpenSubtitles, two popular open-domain dialogue benchmark datasets. Our systematic analysis then shows that such overlapping can be exploited to obtain fake state-of-the-art performance. Finally, we address this issue by cleaning these datasets and setting up a proper data processing procedure for future research.
翻訳日:2022-01-19 13:32:03 公開日:2022-01-17
# ICLEA:自己管理型エンティティアライメントのための対話型コントラスト学習

ICLEA: Interactive Contrastive Learning for Self-supervised Entity Alignment ( http://arxiv.org/abs/2201.06225v1 )

ライセンス: Link先を確認
Kaisheng Zeng, Zhenhao Dong, Lei Hou, Yixin Cao, Minghao Hu, Jifan Yu, Xin Lv, Juanzi Li, Ling Feng(参考訳) 自己管理エンティティアライメント(EA)は、シードアライメントなしで異なる知識グラフ(KG)に等価なエンティティをリンクすることを目的としている。 現在の sota 自己教師付き ea 法は、インスタンス識別とコントラスト損失に基づくコンピュータビジョンで設計されたコントラスト学習からインスピレーションを得ており、2つの欠点に苦しむ。 まず、十分に確立されたEAで行われているように、正に整合したペアを閉じるのではなく、サンプル化された負のエンティティを遠くに押し出すことに一方向の重点を置いている。 第二に、KGには豊富な側情報(エンティティ記述など)が含まれており、これらの情報を効果的に活用する方法は、自己管理EAでは十分に研究されていない。 本稿では,自己教師型EAのための対話型コントラスト学習モデルを提案する。 このモデルは、エンティティの構造と意味論(エンティティ名、エンティティ記述、エンティティ近隣を含む)を符号化するだけでなく、擬似整合エンティティペアを構築することで、相互KGの対照的な学習も行う。 実験結果から,本手法は従来の最良自己指導結果よりも9%以上の差(平均改善率)で優れており,従来のSOTA指導結果と同等の成績を示し,自己管理EAに対する相互比較学習の有効性を示した。

Self-supervised entity alignment (EA) aims to link equivalent entities across different knowledge graphs (KGs) without seed alignments. The current SOTA self-supervised EA method draws inspiration from contrastive learning, originally designed in computer vision based on instance discrimination and contrastive loss, and suffers from two shortcomings. Firstly, it puts unidirectional emphasis on pushing sampled negative entities far away rather than pulling positively aligned pairs close, as is done in the well-established supervised EA. Secondly, KGs contain rich side information (e.g., entity description), and how to effectively leverage those information has not been adequately investigated in self-supervised EA. In this paper, we propose an interactive contrastive learning model for self-supervised EA. The model encodes not only structures and semantics of entities (including entity name, entity description, and entity neighborhood), but also conducts cross-KG contrastive learning by building pseudo-aligned entity pairs. Experimental results show that our approach outperforms previous best self-supervised results by a large margin (over 9% average improvement) and performs on par with previous SOTA supervised counterparts, demonstrating the effectiveness of the interactive contrastive learning for self-supervised EA.
翻訳日:2022-01-19 13:31:53 公開日:2022-01-17
# コモンセンス質問応答のための一般化型ニューロシンボリックシステム

Generalizable Neuro-symbolic Systems for Commonsense Question Answering ( http://arxiv.org/abs/2201.06230v1 )

ライセンス: Link先を確認
Alessandro Oltramari, Jonathan Francis, Filip Ilievski, Kaixin Ma, Roshanak Mirzaee(参考訳) この章では、言語理解に適したニューロシンボリックモデルが、下流タスクにおけるドメインの一般化性と堅牢性を実現する方法について説明する。 ニューラルネットワークモデルと知識グラフを統合するさまざまな方法について議論する。 この組み合わせが最も適している状況は、様々なコモンセンス質問応答ベンチマークデータセットの定量的評価や定性的誤り分析などである。

This chapter illustrates how suitable neuro-symbolic models for language understanding can enable domain generalizability and robustness in downstream tasks. Different methods for integrating neural language models and knowledge graphs are discussed. The situations in which this combination is most appropriate are characterized, including quantitative evaluation and qualitative error analysis on a variety of commonsense question answering benchmark datasets.
翻訳日:2022-01-19 13:31:28 公開日:2022-01-17
# 自動運転車の視線を食う:交通信号認識システムに対するロバストな物理的対抗例

Fooling the Eyes of Autonomous Vehicles: Robust Physical Adversarial Examples Against Traffic Sign Recognition Systems ( http://arxiv.org/abs/2201.06192v1 )

ライセンス: Link先を確認
Wei Jia, Zhaojun Lu, Haichun Zhang, Zhenglin Liu, Jie Wang, Gang Qu(参考訳) Adversarial Examples(AE)はDeep Neural Networks(DNN)を騙し、最近多くの注目を集めている。 しかし、AEsの研究の大部分はデジタルドメインにあり、敵のパッチは静的であり、自動運転車における交通信号認識(TSR)システムのような現実のDNNアプリケーションとは大きく異なる。 TSRシステムでは、オブジェクト検出器はDNNを使用してストリーミングビデオをリアルタイムで処理する。 オブジェクト検出器の観点からは、トラフィックサインの位置とビデオの品質は継続的に変化しており、デジタルAEは物理的な世界では効果がない。 本稿では,実世界の物体検出装置に対して,ロバストな物理AEを生成するためのシステムパイプラインを提案する。 堅牢性は3つの方法で達成される。 まず,画像変換の分布をぼかし変換と解像度変換で拡張することで車載カメラをシミュレートする。 第2に、摂動トレーニングの効率を向上させるために、単一および複数境界ボックスフィルタを設計する。 第3に,隠れ攻撃,外観攻撃,非標的攻撃,標的攻撃の4つの代表的な攻撃ベクトルを検討する。 我々は、様々な環境条件下で総合的な実験を行い、日当たりや曇りの天候や夜間の照度を考慮している。 実験結果から, YOLO v5 ベースの TSR システムを攻撃する場合, パイプラインから発生する物理的 AE は有効かつ堅牢であることがわかった。 攻撃は転送性が高く、他の最先端の物体検出器を欺くことができる。 私たちは2021年モデルでhaとntaを打ち上げました。 どちらの攻撃もTSRシステムを騙すことに成功している。 最後に,画像前処理,AE検出,モデル強化に基づく3つの防御機構について論じる。

Adversarial Examples (AEs) can deceive Deep Neural Networks (DNNs) and have received a lot of attention recently. However, majority of the research on AEs is in the digital domain and the adversarial patches are static, which is very different from many real-world DNN applications such as Traffic Sign Recognition (TSR) systems in autonomous vehicles. In TSR systems, object detectors use DNNs to process streaming video in real time. From the view of object detectors, the traffic sign`s position and quality of the video are continuously changing, rendering the digital AEs ineffective in the physical world. In this paper, we propose a systematic pipeline to generate robust physical AEs against real-world object detectors. Robustness is achieved in three ways. First, we simulate the in-vehicle cameras by extending the distribution of image transformations with the blur transformation and the resolution transformation. Second, we design the single and multiple bounding boxes filters to improve the efficiency of the perturbation training. Third, we consider four representative attack vectors, namely Hiding Attack, Appearance Attack, Non-Target Attack and Target Attack. We perform a comprehensive set of experiments under a variety of environmental conditions, and considering illuminations in sunny and cloudy weather as well as at night. The experimental results show that the physical AEs generated from our pipeline are effective and robust when attacking the YOLO v5 based TSR system. The attacks have good transferability and can deceive other state-of-the-art object detectors. We launched HA and NTA on a brand-new 2021 model vehicle. Both attacks are successful in fooling the TSR system, which could be a life-threatening case for autonomous vehicles. Finally, we discuss three defense mechanisms based on image preprocessing, AEs detection, and model enhancing.
翻訳日:2022-01-19 13:30:05 公開日:2022-01-17
# 連続トランスフォーマー:冗長性のないオンライン推論

Continual Transformers: Redundancy-Free Attention for Online Inference ( http://arxiv.org/abs/2201.06268v1 )

ライセンス: Link先を確認
Lukas Hedegaard and Arian Bakhtiarnia and Alexandros Iosifidis(参考訳) トランスフォーマーは注目に基づくシーケンス変換モデルであり、自然言語処理やコンピュータビジョンアプリケーションで広く成功している。 しかし、現在の形式でのトランスフォーマーは、本質的に1つのトークンではなく、トークンシーケンス全体の操作に限られています。 その結果、オンライン推論におけるそれらの使用には、連続したトークンシーケンスの重複によるかなりの冗長性が伴う。 本研究では,連続入力ストリームにおいて,トランスフォーマが効率的なオンライントークン・バイ・トケン推論を実現するための,スケールド・ドット・プロダクト・アテンションの新規な定式化を提案する。 重要なことは、我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。 提案手法を検証するために, THUMOS14とTVSeriesのオンライン行動検出, GTZANのオンライン音声分類など, 視覚的, 音声的, 音声的, 視覚的分類および検出タスクの実験を行った。 連続する1ブロックトランスは,同様の予測性能でオンライン動作検出および音声分類実験において,浮動小数点演算を63.5倍,51.5倍削減する。

Transformers are attention-based sequence transduction models, which have found widespread success in Natural Language Processing and Computer Vision applications. Yet, Transformers in their current form are inherently limited to operate on whole token sequences rather than on one token at a time. Consequently, their use during online inference entails considerable redundancy due to the overlap in successive token sequences. In this work, we propose novel formulations of the Scaled Dot-Product Attention, which enable Transformers to perform efficient online token-by-token inference in a continual input stream. Importantly, our modification is purely to the order of computations, while the produced outputs and learned weights are identical to those of the original Multi-Head Attention. To validate our approach, we conduct experiments on visual, audio, and audio-visual classification and detection tasks, i.e. Online Action Detection on THUMOS14 and TVSeries and Online Audio Classification on GTZAN, with remarkable results. Our continual one-block transformers reduce the floating point operations by respectively 63.5x and 51.5x in the Online Action Detection and Audio Classification experiments at similar predictive performance.
翻訳日:2022-01-19 13:28:58 公開日:2022-01-17
# 自己拡張と負サンプリングによる自己監督型異常検出

Self-Supervised Anomaly Detection by Self-Distillation and Negative Sampling ( http://arxiv.org/abs/2201.06378v1 )

ライセンス: Link先を確認
Nima Rafiee, Rahil Gholamipoorfard, Nikolas Adaloglou, Simon Jaxy, Julius Ramakers, Markus Kollmann(参考訳) サンプルが所定のインディストリビューションに属するか、あるいはアウトオブディストリビューション(ood)に属するかを検出するには、インディストリビューション特有の特徴を特定する必要がある。 ラベルがない場合、これらの特徴は、最も抽象的な特徴は、同じ領域の他の分布と比較して統計的に最も過剰に表現されるものであるという一般的な仮定の下で、自己教師技術によって学べる。 本研究では, 補助データのシフト変換による負の例と対照的に, 分散学習セットの自己蒸留がOOD検出を強く向上させることを示す。 この改善は、負のサンプルの生成方法に依存することが分かりました。 特に,高レベルのセマンティクスを変化させながら低レベルの特徴の統計を保持する負のサンプルを利用することで,高い平均検出性能が得られることを観察した。 さらに、OOD検出スコアの感度から良い負のサンプリング戦略を特定することができる。 提案手法の効率性は多様なOOD検出問題で実証され、視覚領域における教師なしOOD検出のための新しいベンチマークが設定される。

Detecting whether examples belong to a given in-distribution or are Out-Of-Distribution (OOD) requires identifying features specific to the in-distribution. In the absence of labels, these features can be learned by self-supervised techniques under the generic assumption that the most abstract features are those which are statistically most over-represented in comparison to other distributions from the same domain. In this work, we show that self-distillation of the in-distribution training set together with contrasting against negative examples derived from shifting transformation of auxiliary data strongly improves OOD detection. We find that this improvement depends on how the negative samples are generated. In particular, we observe that by leveraging negative samples, which keep the statistics of low-level features while changing the high-level semantics, higher average detection performance is obtained. Furthermore, good negative sampling strategies can be identified from the sensitivity of the OOD detection score. The efficiency of our approach is demonstrated across a diverse range of OOD detection problems, setting new benchmarks for unsupervised OOD detection in the visual domain.
翻訳日:2022-01-19 13:28:37 公開日:2022-01-17
# 深層学習による胎児超音波検査における臨床プロトコルの適合性の評価

Deep Learning-based Quality Assessment of Clinical Protocol Adherence in Fetal Ultrasound Dating Scans ( http://arxiv.org/abs/2201.06406v1 )

ライセンス: Link先を確認
Sevim Cengiz and Mohammad Yaqub(参考訳) 妊娠中の胎児の健康を評価するために、医師は胎児の大きさと成長軌跡を確認するために、クラウンランプ長さ(CRL)測定に基づく妊娠年齢(GA)計算を使用する。 しかし、crlに基づくga推定では、胎児のクラウンとランプビュー上のカリパーの適切な位置決めが必要であり、これは必ずしも見つけるのが容易ではない。 真の CRL ビューからわずかに斜めのビューを見つけると、異なる CRL 値となり、したがって誤って GA を推定する。 本研究では、取得した平面の正当性を検証するために用いられる臨床評価基準を7つ検証することにより、CRLビューの品質評価のためのAIベースの手法を提案する。 提案手法は, 評価基準の大部分において, 専門家と比較して高い精度が得られることを示す。 また,このようなスコアリングシステムを用いると,取得不足の画像を正確に識別できるため,超音波撮影者が良好な画像を得るのに役立ち,子宮内発育制限(iugr)などの条件の評価が向上する可能性が示唆された。

To assess fetal health during pregnancy, doctors use the gestational age (GA) calculation based on the Crown Rump Length (CRL) measurement in order to check for fetal size and growth trajectory. However, GA estimation based on CRL, requires proper positioning of calipers on the fetal crown and rump view, which is not always an easy plane to find, especially for an inexperienced sonographer. Finding a slightly oblique view from the true CRL view could lead to a different CRL value and therefore incorrect estimation of GA. This study presents an AI-based method for a quality assessment of the CRL view by verifying 7 clinical scoring criteria that are used to verify the correctness of the acquired plane. We show how our proposed solution achieves high accuracy on the majority of the scoring criteria when compared to an expert. We also show that if such scoring system is used, it helps identify poorly acquired images accurately and hence may help sonographers acquire better images which could potentially lead to a better assessment of conditions such as Intrauterine Growth Restriction (IUGR).
翻訳日:2022-01-19 13:28:20 公開日:2022-01-17
# マスク付きマスク付きマスク

Masked Faces with Faced Masks ( http://arxiv.org/abs/2201.06427v1 )

ライセンス: Link先を確認
Jiayi Zhu and Qing Guo and Felix Juefei-Xu and Yihao Huang and Yang Liu and Geguang Pu(参考訳) 現代の顔認識システム(FRS)は、被験者がマスクを着用しているときに依然として不足している。 直感的な部分的治療は、マスク付き顔にマスク検出装置を追加して、低信頼のマスク付き顔に対してFRSが対応できるようにすることである。 本研究では,マスク検出装置を備えたFRSの大規模マスク面における潜在的な脆弱性について検討した。 既存の顔認識器とマスク検出器は、それぞれのタスクで高い性能を持つため、同時にそれらを騙し、攻撃の伝達性を維持することは困難である。 そこで本研究では,顔の部分的な顔パターン(面面マスクなど)を呈するリアルな顔マスクを考案し,soma深層学習に基づくfrsの大幅な性能低下につながるだけでなく,soma顔マスク検出器によって検出されず,両システムを同時に騙すことに成功した。 提案手法は,マスクを被ったマスク面を扱う場合のFRSの脆弱性を明らかにする。

Modern face recognition systems (FRS) still fall short when the subjects are wearing facial masks, a common theme in the age of respiratory pandemics. An intuitive partial remedy is to add a mask detector to flag any masked faces so that the FRS can act accordingly for those low-confidence masked faces. In this work, we set out to investigate the potential vulnerability of such FRS, equipped with a mask detector, on large-scale masked faces. As existing face recognizers and mask detectors have high performance in their respective tasks, it is a challenge to simultaneously fool them and preserve the transferability of the attack. To this end, we devise realistic facial masks that exhibit partial face patterns (i.e., faced masks) and stealthily add adversarial textures that can not only lead to significant performance deterioration of the SOTA deep learning-based FRS, but also remain undetected by the SOTA facial mask detector, thus successfully fooling both systems at the same time. The proposed method unveils the vulnerability of the FRS when dealing with masked faces wearing faced masks.
翻訳日:2022-01-19 13:28:01 公開日:2022-01-17
# デジタル医療における情報融合のためのデータ調和--システムレビュー,メタ分析,将来研究の方向性

Data Harmonisation for Information Fusion in Digital Healthcare: A State-of-the-Art Systematic Review, Meta-Analysis and Future Research Directions ( http://arxiv.org/abs/2201.06505v1 )

ライセンス: Link先を確認
Yang Nan, Javier Del Ser, Simon Walsh, Carola Sch\"onlieb, Michael Roberts, Ian Selby, Kit Howard, John Owen, Jon Neville, Julien Guiot, Benoit Ernst, Ana Pastor, Angel Alberich-Bayarri, Marion I. Menzel, Sean Walsh, Wim Vos, Nina Flerin, Jean-Paul Charbonnier, Eva van Rikxoort, Avishek Chatterjee, Henry Woodruff, Philippe Lambin, Leonor Cerd\'a-Alberich, Luis Mart\'i-Bonmat\'i, Francisco Herrera, Guang Yang(参考訳) さまざまなスキャナーとプロトコルによって取得されたデータから抽出された臨床機能を統合することで、安定性と堅牢性を改善する必要がある。 以前の研究では、単一モダリティのマルチセンタデータセットを融合する様々な計算手法が記述されている。 しかし、これらの調査は評価メトリクスにほとんど焦点を合わせず、計算データ調和研究のチェックリストを欠いていた。 本稿では,デジタル医療分野におけるマルチモダリティデータの計算データ調和手法について概説する。 また,データ調和研究の共通実践を要約した総合的なチェックリストを提案し,研究成果をより効果的に報告するよう指導した。 最後に,方法論と計量選択の可能な方法を示すフローチャートを提案し,今後の研究のために様々な手法の限界を調査した。

Removing the bias and variance of multicentre data has always been a challenge in large scale digital healthcare studies, which requires the ability to integrate clinical features extracted from data acquired by different scanners and protocols to improve stability and robustness. Previous studies have described various computational approaches to fuse single modality multicentre datasets. However, these surveys rarely focused on evaluation metrics and lacked a checklist for computational data harmonisation studies. In this systematic review, we summarise the computational data harmonisation approaches for multi-modality data in the digital healthcare field, including harmonisation strategies and evaluation metrics based on different theories. In addition, a comprehensive checklist that summarises common practices for data harmonisation studies is proposed to guide researchers to report their research findings more effectively. Last but not least, flowcharts presenting possible ways for methodology and metric selection are proposed and the limitations of different methods have been surveyed for future research.
翻訳日:2022-01-19 13:27:40 公開日:2022-01-17
# the clear benchmark: 現実世界のイメージを継続的に学習する

The CLEAR Benchmark: Continual LEArning on Real-World Imagery ( http://arxiv.org/abs/2201.06289v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Jia Shi, Deepak Pathak, Deva Ramanan(参考訳) 連続学習(CL)は生涯AIにとって重要な課題であると考えられている。 しかし、既存のCLベンチマーク、例えばPermuted-MNISTやSplit-CIFARは人工的な時間変動を利用し、現実世界と整合したり一般化したりしない。 本稿では、10年(2004年~2014年)にわたる現実世界における視覚概念の自然な時間的進化を伴う,最初の連続的画像分類ベンチマークデータセットであるclearを紹介する。 既存の大規模画像コレクション(YFCC100M)から,視覚言語的データセットキュレーションのための,新しい,スケーラブルな低コストアプローチによりCLEARを構築する。 私たちのパイプラインでは、事前にトレーニングされた視覚言語モデル(例えばCLIP)を使用してラベル付きデータセットをインタラクティブに構築しています。 CLEARの以前のCLベンチマークに対する最大の強みは、高品質なラベル付きデータと、連続的な半教師付き学習のための時間単位の豊富なラベル付きサンプルを含む、実世界のイメージによる視覚概念のスムーズな時間的進化である。 我々は、教師なし事前学習の単純なステップが、完全に教師付きデータのみを利用する最先端のCLアルゴリズムを既に強化できることを発見した。 また, iidデータをトレーニングし, テストするcl評価プロトコルがclシステムの性能を人為的に膨らませることを明らかにした。 この問題に対処するため、我々は、常に(近い)未来でテストするCLのための新しい"ストリーミング"プロトコルを提案する。 興味深いことに ストリーミングプロトコルは (a)今日のテストセットを明日のトレインセットに再利用できるため、データセットのキュレーションを簡略化できる。 (b) トレーニングとテストの両方に各期間のラベル付きデータを使用するため、より正確な性能推定でより一般化可能なモデルを作成することができる。

Continual learning (CL) is widely regarded as crucial challenge for lifelong AI. However, existing CL benchmarks, e.g. Permuted-MNIST and Split-CIFAR, make use of artificial temporal variation and do not align with or generalize to the real-world. In this paper, we introduce CLEAR, the first continual image classification benchmark dataset with a natural temporal evolution of visual concepts in the real world that spans a decade (2004-2014). We build CLEAR from existing large-scale image collections (YFCC100M) through a novel and scalable low-cost approach to visio-linguistic dataset curation. Our pipeline makes use of pretrained vision-language models (e.g. CLIP) to interactively build labeled datasets, which are further validated with crowd-sourcing to remove errors and even inappropriate images (hidden in original YFCC100M). The major strength of CLEAR over prior CL benchmarks is the smooth temporal evolution of visual concepts with real-world imagery, including both high-quality labeled data along with abundant unlabeled samples per time period for continual semi-supervised learning. We find that a simple unsupervised pre-training step can already boost state-of-the-art CL algorithms that only utilize fully-supervised data. Our analysis also reveals that mainstream CL evaluation protocols that train and test on iid data artificially inflate performance of CL system. To address this, we propose novel "streaming" protocols for CL that always test on the (near) future. Interestingly, streaming protocols (a) can simplify dataset curation since today's testset can be repurposed for tomorrow's trainset and (b) can produce more generalizable models with more accurate estimates of performance since all labeled data from each time-period is used for both training and testing (unlike classic iid train-test splits).
翻訳日:2022-01-19 13:14:54 公開日:2022-01-17
# センサ間を探索するニューラルアーキテクチャの展望:その違いはどの程度か?

Landscape of Neural Architecture Search across sensors: how much do they differ ? ( http://arxiv.org/abs/2201.06321v1 )

ライセンス: Link先を確認
Kalifou Ren\'e Traor\'e, Andr\'es Camero, Xiao Xiang Zhu(参考訳) ニューラルネットワーク検索の急速な普及に伴い,探索アルゴリズムの観点からその複雑さを理解する能力が望ましい。 Traor\'eらは最近、ニューラルネットワークの検索問題を記述し比較するためのFitness Landscape Footprintのフレームワークを提案している。 検索戦略が成功したり、苦労したり、目的のタスクで失敗したりする理由を説明する。 本研究は,センサデータ融合を含むセンサ横断探索の文脈において,この手法を活用している。 特に、ニューラルネットワークのハイパーパラメータ最適化問題において最も有用なセンサを特定するために、実世界のS2Sat LCZ42画像分類問題にFitness Landscape Footprintを適用した。 フィットネスの分布から見れば、トレーニング時間が長ければ長いほど、全体のフィットネスが大きくなり、風景の平坦さ(頑丈さや偏りがない)が増す。 センサーに関しては、適合性が高いほど(Sentinel-2)、検索トラジェクトリ(スモザー、高持続性)が良くなる。 また、探索空間(Sentinel-2 と fusion)に適切に取付けることができるセンサーについても、非常に類似した探索挙動を示す。

With the rapid rise of neural architecture search, the ability to understand its complexity from the perspective of a search algorithm is desirable. Recently, Traor\'e et al. have proposed the framework of Fitness Landscape Footprint to help describe and compare neural architecture search problems. It attempts at describing why a search strategy might be successful, struggle or fail on a target task. Our study leverages this methodology in the context of searching across sensors, including sensor data fusion. In particular, we apply the Fitness Landscape Footprint to the real-world image classification problem of So2Sat LCZ42, in order to identify the most beneficial sensor to our neural network hyper-parameter optimization problem. From the perspective of distributions of fitness, our findings indicate a similar behaviour of the search space for all sensors: the longer the training time, the larger the overall fitness, and more flatness in the landscapes (less ruggedness and deviation). Regarding sensors, the better the fitness they enable (Sentinel-2), the better the search trajectories (smoother, higher persistence). Results also indicate very similar search behaviour for sensors that can be decently fitted by the search space (Sentinel-2 and fusion).
翻訳日:2022-01-19 13:14:26 公開日:2022-01-17
# (参考訳) perpada:暗黙のクラウドソーシングデータ収集に基づくペルシャのパラフレーズデータセット

PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data Collection ( http://arxiv.org/abs/2201.06573v1 )

ライセンス: CC BY 4.0
Salar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari(参考訳) 本稿では, ユーザの入力から収集したペルシャ語のパラフレーズデータセットPerPaDaを, プラジャリズム検出システムで紹介する。 暗黙的なクラウドソーシング体験として,ハンタジョの原文およびパラフレーズ文を多数収集した。ハンタジョはペルシアの盗作検出システムで,ユーザが文書に再使用した事例をパラフレーズで隠蔽し,分析のために原稿を再提出する。 コンパイルされたデータセットには、パラフレーズの2446のインスタンスが含まれている。 収集されたデータの全体的な品質を改善するために、提案された基準を満たさない文を除外するためにいくつかのヒューリスティックが用いられてきた。 導入されたコーパスは、ペルシア語でパラフレーズ識別を行うための利用可能なデータセットよりもはるかに大きい。 さらに、ユーザは、元の入力に類似したテキストを生成するために、いくつかの固定された事前定義ルールを試さなかったため、データに類似したデータセットに比べてバイアスが少ない。

In this paper we introduce PerPaDa, a Persian paraphrase dataset that is collected from users' input in a plagiarism detection system. As an implicit crowdsourcing experience, we have gathered a large collection of original and paraphrased sentences from Hamtajoo; a Persian plagiarism detection system, in which users try to conceal cases of text re-use in their documents by paraphrasing and re-submitting manuscripts for analysis. The compiled dataset contains 2446 instances of paraphrasing. In order to improve the overall quality of the collected data, some heuristics have been used to exclude sentences that don't meet the proposed criteria. The introduced corpus is much larger than the available datasets for the task of paraphrase identification in Persian. Moreover, there is less bias in the data compared to the similar datasets, since the users did not try some fixed predefined rules in order to generate similar texts to their original inputs.
翻訳日:2022-01-19 13:11:12 公開日:2022-01-17
# RuMedBench: ベンチマークを理解するロシアの医療言語

RuMedBench: A Russian Medical Language Understanding Benchmark ( http://arxiv.org/abs/2201.06499v1 )

ライセンス: Link先を確認
Pavel Blinov, Arina Reshetnikova, Aleksandr Nesterov, Galina Zubkova, Vladimir Kokh(参考訳) 本稿は,いくつかのタスクタイプ(分類,質問応答,自然言語推論,名前付きエンティティ認識)を対象とした,ロシアのオープン医療言語理解ベンチマークについて述べる。 医療におけるデータの繊細な性質を考えると、そのようなベンチマークはロシアの医療データセットの欠如の問題を部分的に解決する。 新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを準備します。 残りのタスクは、いくつかの変更を含む既存のデータセットからのものである。 シングルナンバーメトリックは、モデルのベンチマークに対応する能力を表す。 さらに、単純なモデルからトランスフォーマーアーキテクチャによるニューラルネットワークまで、いくつかのベースラインモデルを実装し、コードをリリースします。 予想通り、より高度なモデルの方がパフォーマンスが向上するが、単純なモデルであっても、いくつかのタスクでまともな結果を出すには十分である。 さらに、全てのタスクに対して、人間の評価を提供する。 興味深いことに、モデルは大規模な分類タスクで人間を上回っている。 しかし、自然知能の利点は、より多くの知識と推論を必要とするタスクに残る。

The paper describes the open Russian medical language understanding benchmark covering several task types (classification, question answering, natural language inference, named entity recognition) on a number of novel text sets. Given the sensitive nature of the data in healthcare, such a benchmark partially closes the problem of Russian medical dataset absence. We prepare the unified format labeling, data split, and evaluation metrics for new tasks. The remaining tasks are from existing datasets with a few modifications. A single-number metric expresses a model's ability to cope with the benchmark. Moreover, we implement several baseline models, from simple ones to neural networks with transformer architecture, and release the code. Expectedly, the more advanced models yield better performance, but even a simple model is enough for a decent result in some tasks. Furthermore, for all tasks, we provide a human evaluation. Interestingly the models outperform humans in the large-scale classification tasks. However, the advantage of natural intelligence remains in the tasks requiring more knowledge and reasoning.
翻訳日:2022-01-19 12:58:38 公開日:2022-01-17
# 法律領域におけるデータ中心機械学習

Data-Centric Machine Learning in the Legal Domain ( http://arxiv.org/abs/2201.06653v1 )

ライセンス: Link先を確認
Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley, Karim Benyekhlef(参考訳) 機械学習の研究は通常、プロセスの初期に作成された固定データセットから始まる。 実験の焦点は、選択された評価基準の観点から最高のパフォーマンスをもたらすモデルとトレーニング手順を見つけることである。 本稿では,データセットの変化がモデルの性能に与える影響について考察する。 法領域から公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度が,訓練されたディープラーニング分類器の性能に与える影響について検討する。 全体的なパフォーマンス(重み付け平均)とクラスごとのパフォーマンスを評価します。 観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。 本研究では,クラス,すなわち意味埋め込み空間における文の近接が,その分類の難しさにどのように影響するかを検討する。 提案した結果は,AIと法学の分野におけるデータ収集とキュレーションに関する取り組みに大きく影響している。 また、機械学習モデルの進歩とともに、データセットの強化が、AI & Lawにおける様々なタスクにおける分類性能を高めるための追加の経路として考慮できることを示した。 最後に,データセット特性の潜在的影響を評価するための確立された手法の必要性について述べる。

Machine learning research typically starts with a fixed data set created early in the process. The focus of the experiments is finding a model and training procedure that result in the best possible performance in terms of some selected evaluation metric. This paper explores how changes in a data set influence the measured performance of a model. Using three publicly available data sets from the legal domain, we investigate how changes to their size, the train/test splits, and the human labelling accuracy impact the performance of a trained deep learning classifier. We assess the overall performance (weighted average) as well as the per-class performance. The observed effects are surprisingly pronounced, especially when the per-class performance is considered. We investigate how "semantic homogeneity" of a class, i.e., the proximity of sentences in a semantic embedding space, influences the difficulty of its classification. The presented results have far reaching implications for efforts related to data collection and curation in the field of AI & Law. The results also indicate that enhancements to a data set could be considered, alongside the advancement of the ML models, as an additional path for increasing classification performance on various tasks in AI & Law. Finally, we discuss the need for an established methodology to assess the potential effects of data set properties.
翻訳日:2022-01-19 12:58:23 公開日:2022-01-17
# オフポリティ学習のための連鎖値関数

Chaining Value Functions for Off-Policy Learning ( http://arxiv.org/abs/2201.06468v1 )

ライセンス: Link先を確認
Simon Schmitt, John Shawe-Taylor, Hado van Hasselt(参考訳) 知識を蓄積し、行動方針を改善するために、強化学習エージェントは、その経験を生み出すために使用される方針とは異なる政策について「オフ・ポリティ」を学ぶことができる。 これは反事実を学ぶために重要であり、また経験が自身のコントロールから生み出されたからである。 しかし、非政治的な学習は簡単ではなく、標準的な強化学習アルゴリズムは不安定でばらつきがある。 本稿では,構成によって収束する新しいオフポリシー予測アルゴリズムについて述べる。 この考え方は、まずデータ生成行動に関するオンポリシーを学び、次にこのオンポリシー推定に基づいてオフポリシー値推定をブートストラップすることで、部分的にオフポリシーである値推定を構築することである。 このプロセスは繰り返して値関数の連鎖を構築することができ、各時間はチェーンの前の見積もりで新しい見積もりをブートストラップする。 チェーンの各ステップは安定しており、完全アルゴリズムは安定であることが保証される。 穏やかな条件下では、鎖の長さが増加すると、これは外部のTD溶液に任意に近づく。 したがって、オフポリシーtdが分岐した場合でも、解を計算できる。 提案手法が収束し,逆鍵行列の反復分解に対応することを証明した。 さらに、行動方針を無期限に継続する前に、有限段階の目標方針に従うという、新しい目標である「k-step expedition」を推定するものとして解釈することもできる。 Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,良好な結果を得た。

To accumulate knowledge and improve its policy of behaviour, a reinforcement learning agent can learn `off-policy' about policies that differ from the policy used to generate its experience. This is important to learn counterfactuals, or because the experience was generated out of its own control. However, off-policy learning is non-trivial, and standard reinforcement-learning algorithms can be unstable and divergent. In this paper we discuss a novel family of off-policy prediction algorithms which are convergent by construction. The idea is to first learn on-policy about the data-generating behaviour, and then bootstrap an off-policy value estimate on this on-policy estimate, thereby constructing a value estimate that is partially off-policy. This process can be repeated to build a chain of value functions, each time bootstrapping a new estimate on the previous estimate in the chain. Each step in the chain is stable and hence the complete algorithm is guaranteed to be stable. Under mild conditions this comes arbitrarily close to the off-policy TD solution when we increase the length of the chain. Hence it can compute the solution even in cases where off-policy TD diverges. We prove that the proposed scheme is convergent and corresponds to an iterative decomposition of the inverse key matrix. Furthermore it can be interpreted as estimating a novel objective -- that we call a `k-step expedition' -- of following the target policy for finitely many steps before continuing indefinitely with the behaviour policy. Empirically we evaluate the idea on challenging MDPs such as Baird's counter example and observe favourable results.
翻訳日:2022-01-19 12:57:55 公開日:2022-01-17
# (参考訳) demystifying swarm learning: ブロックチェーンベースの分散フェデレーション学習の新しいパラダイム

Demystifying Swarm Learning: A New Paradigm of Blockchain-based Decentralized Federated Learning ( http://arxiv.org/abs/2201.05286v2 )

ライセンス: CC BY 4.0
Jialiang Han, Yun Ma, Yudong Han(参考訳) フェデレーテッド・ラーニング(FL)は、将来有望なプライバシー保護機械学習パラダイムであり、研究者や開発者から注目を集めている。 flはユーザの個人データをデバイスに保持し、ローカルモデルの勾配を交換して、中央のカストディアンの共有ディープラーニング(dl)モデルを協調的にトレーニングする。 しかし、その中央カストディアン機構や星型アーキテクチャは悪意のある攻撃やソフトウェア障害に対して脆弱である可能性があるため、flのセキュリティとフォールトトレランスはますます議論されている。 これらの問題に対処するため、Swarm Learning(SL)では、メンバを安全に参加させ、リーダを動的に選択する権限付きブロックチェーンを導入している。 slに非常に注目されているのに対して、slやブロックチェーンベースの分散flには、ベストプラクティスに関する包括的知識と現実のシナリオにslをデプロイするための予防策を提供する、実証的な研究がほとんどありません。 したがって、私たちは、SLデプロイメントと開発者の間の知識ギャップを埋めるために、今までにない、SLの包括的な研究を行いました。 本稿では,5つの研究課題の3つの公開データセットについて様々な実験を行い,その背景にある理由を定量的に分析し,実践的な提案を行う。 この結果から,データセットのバランス,汚染,あるいは無関係な機能に対する偏りに関わらず,SLがほとんどのアプリケーションシナリオに適していることが証明された。

Federated learning (FL) is an emerging promising privacy-preserving machine learning paradigm and has raised more and more attention from researchers and developers. FL keeps users' private data on devices and exchanges the gradients of local models to cooperatively train a shared Deep Learning (DL) model on central custodians. However, the security and fault tolerance of FL have been increasingly discussed, because its central custodian mechanism or star-shaped architecture can be vulnerable to malicious attacks or software failures. To address these problems, Swarm Learning (SL) introduces a permissioned blockchain to securely onboard members and dynamically elect the leader, which allows performing DL in an extremely decentralized manner. Compared with tremendous attention to SL, there are few empirical studies on SL or blockchain-based decentralized FL, which provide comprehensive knowledge of best practices and precautions of deploying SL in real-world scenarios. Therefore, we conduct the first comprehensive study of SL to date, to fill the knowledge gap between SL deployment and developers, as far as we are concerned. In this paper, we conduct various experiments on 3 public datasets of 5 research questions, present interesting findings, quantitatively analyze the reasons behind these findings, and provide developers and researchers with practical suggestions. The findings have evidenced that SL is supposed to be suitable for most application scenarios, no matter whether the dataset is balanced, polluted, or biased over irrelevant features.
翻訳日:2022-01-19 12:44:00 公開日:2022-01-17
# (参考訳) ニューラルスコア推定による確率的質量マッピング

Probabilistic Mass Mapping with Neural Score Estimation ( http://arxiv.org/abs/2201.05561v2 )

ライセンス: CC BY 4.0
Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jia Liu, Jean-Luc Starck, Ken Osato, Tim Schrabback(参考訳) 弱レンズの質量マッピングは、天上のダークマターの完全な分布にアクセスするのに有用なツールであるが、固有の銀河楕円体と有限フィールド/欠測データのため、ダークマターマップの復元は難解な逆問題となっている。 本稿では,弱いレンズ質量マップ問題の高次元ベイズ後方を効率的にサンプリングし,非ガウシアン前駆体を定義するためのシミュレーションを応用した新しい手法を提案する。 本手法の精度をシミュレーションで実証し,HST/ACS COSMOSフィールドの大量再構成に適用する。 提案手法はベイズ統計学,解析理論,ニューラルスコアマッチングに基づく近年の深部生成モデルの各要素を組み合わせたものである。 このアプローチによって、次のようなことができます。 1) 解析宇宙論を十分に活用して解の2pt統計量を制限する。 2) 宇宙シミュレーションからこの解析的先行シミュレーションと完全シミュレーションの相違について学ぶ。 3) ロバスト不確実性定量化問題の後段からサンプルを得る。 この手法を$\kappa$tngシミュレーションで示し, 後方平均は, 根-平均二乗誤差とピアソン相関の両方において, 従来の方法(カイザー・スクワイズ, ワイナーフィルタ, スパーシティ優先法)を有意に上回っていることを見出した。 さらに, 後方収束値とSNRとの密接な相関関係を確立することにより, 復元後部の解釈可能性について述べる。 最後に,本手法をHST/ACS COSMOSフィールドの再構成に適用し,このフィールドの最高品質収束マップを生成する。

Weak lensing mass-mapping is a useful tool to access the full distribution of dark matter on the sky, but because of intrinsic galaxy ellipticies and finite fields/missing data, the recovery of dark matter maps constitutes a challenging ill-posed inverse problem. We introduce a novel methodology allowing for efficient sampling of the high-dimensional Bayesian posterior of the weak lensing mass-mapping problem, and relying on simulations for defining a fully non-Gaussian prior. We aim to demonstrate the accuracy of the method on simulations, and then proceed to applying it to the mass reconstruction of the HST/ACS COSMOS field. The proposed methodology combines elements of Bayesian statistics, analytic theory, and a recent class of Deep Generative Models based on Neural Score Matching. This approach allows us to do the following: 1) Make full use of analytic cosmological theory to constrain the 2pt statistics of the solution. 2) Learn from cosmological simulations any differences between this analytic prior and full simulations. 3) Obtain samples from the full Bayesian posterior of the problem for robust Uncertainty Quantification. We demonstrate the method on the $\kappa$TNG simulations and find that the posterior mean significantly outperfoms previous methods (Kaiser-Squires, Wiener filter, Sparsity priors) both on root-mean-square error and in terms of the Pearson correlation. We further illustrate the interpretability of the recovered posterior by establishing a close correlation between posterior convergence values and SNR of clusters artificially introduced into a field. Finally, we apply the method to the reconstruction of the HST/ACS COSMOS field and yield the highest quality convergence map of this field to date.
翻訳日:2022-01-19 12:22:06 公開日:2022-01-17