このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211013となっている論文です。

PDF登録状況(公開日: 20211013)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ディープニューラルネットワークにおけるモジュラリティ検出 [全文訳有]

Detecting Modularity in Deep Neural Networks ( http://arxiv.org/abs/2110.08058v1 )

ライセンス: CC BY 4.0
Shlomi Hod, Stephen Casper, Daniel Filan, Cody Wild, Andrew Critch, Stuart Russell(参考訳) ニューラルネットワークは、その計算グラフ(すなわち構造)の一部が、全体的なタスク(すなわち機能)に関連する理解可能なサブタスクを実行するものとして表現できる程度にモジュラーである。 現代のディープニューラルネットワークはモジュール化されているか? どうやって定量化できるのか? 本稿では,ネットワークのニューロンの分割によって表されるモジュール性を評価する問題を考察する。 本稿では,ニューロンがネットワーク性能にいかに重要かを反映した重要度と,そのニューロンが入力の特徴といかに常に関連しているかを反映したコヒーレンスという2つのプロキシを提案する。 これらのプロキシを測定するために,従来の個々のニューロンの解釈技術に基づく統計手法を開発した。 ネットワークの重み付けやアクティベーションの相関によって決定されるエッジを用いて、ネットワークニューロンのグラフ表現をスペクトル的にクラスタリングして生成されたパーティショニングにプロキシを適用する。 これらの分割は、重みのみに基づくもの(すなわち、非ランタイム分析による厳密に)であっても、重要かつ一貫性のあるニューロン群を明らかにする。 これらの結果は、グラフベースのパーティショニングがモジュラリティを明らかにし、ディープニューラルネットワークがどのように機能するかを理解するのに役立つことを示唆している。

A neural network is modular to the extent that parts of its computational graph (i.e. structure) can be represented as performing some comprehensible subtask relevant to the overall task (i.e. functionality). Are modern deep neural networks modular? How can this be quantified? In this paper, we consider the problem of assessing the modularity exhibited by a partitioning of a network's neurons. We propose two proxies for this: importance, which reflects how crucial sets of neurons are to network performance; and coherence, which reflects how consistently their neurons associate with features of the inputs. To measure these proxies, we develop a set of statistical methods based on techniques conventionally used to interpret individual neurons. We apply the proxies to partitionings generated by spectrally clustering a graph representation of the network's neurons with edges determined either by network weights or correlations of activations. We show that these partitionings, even ones based only on weights (i.e. strictly from non-runtime analysis), reveal groups of neurons that are important and coherent. These results suggest that graph-based partitioning can reveal modularity and help us understand how deep neural networks function.
翻訳日:2021-10-19 13:21:14 公開日:2021-10-13
# 自律走行車両支援のための対向シーン再構成および物体検出システム

Adversarial Scene Reconstruction and Object Detection System for Assisting Autonomous Vehicle ( http://arxiv.org/abs/2110.07716v1 )

ライセンス: Link先を確認
Md Foysal Haque, Hay-Youn Lim, and Dae-Seong Kang(参考訳) 現在のコンピュータビジョン時代において、映像監視システムによるシーンの分類は重要な課題である。 人工知能(AI) ビデオ監視技術は目覚ましい進歩を遂げ、人工知能とディープラーニングはシステムに進化した。 深層学習の視覚分類手法の優れた化合物の採用は、視覚シーンの分類において極めて正確である。 しかし、視覚分類器は、特に夜間の暗視領域のシーンを調べるのに困難に直面している。 また、分類者はシーンのコンテキストを特定するのに困難に直面している。 そこで本研究では,暗く見えるシーンを再現し,昼光のようなシーンをクリアするディープラーニングモデルを提案し,自律走行車両の視覚動作を認識する。 提案モデルは,シーン復元の精度が87.3%,シーン理解と検出タスクが89.2%であった。

In the current computer vision era classifying scenes through video surveillance systems is a crucial task. Artificial Intelligence (AI) Video Surveillance technologies have been advanced remarkably while artificial intelligence and deep learning ascended into the system. Adopting the superior compounds of deep learning visual classification methods achieved enormous accuracy in classifying visual scenes. However, the visual classifiers face difficulties examining the scenes in dark visible areas, especially during the nighttime. Also, the classifiers face difficulties in identifying the contexts of the scenes. This paper proposed a deep learning model that reconstructs dark visual scenes to clear scenes like daylight, and the method recognizes visual actions for the autonomous vehicle. The proposed model achieved 87.3 percent accuracy for scene reconstruction and 89.2 percent in scene understanding and detection tasks.
翻訳日:2021-10-18 15:26:32 公開日:2021-10-13
# データセット間の敵対攻撃

Adversarial Attack across Datasets ( http://arxiv.org/abs/2110.07718v1 )

ライセンス: Link先を確認
Yunxiao Qin, Yuanhao Xiong, Jinfeng Yi, Cho-Jui Hsieh(参考訳) ディープニューラルネットワーク(DNN)は、クエリフリーなブラックボックス設定で攻撃を転送するのに脆弱である。 しかしながら、転送攻撃に関する以前の研究はすべて、攻撃者が所有するホワイトボックスサロゲートモデルとブラックボックスサロゲートモデルが同一データセット上で訓練されていることを前提としており、攻撃者は被害者モデルのラベルセットと入力サイズを暗黙的に知ることになる。 しかし、この仮定は通常非現実的であり、攻撃者は被害者モデルが使用するデータセットを知らないかもしれないし、攻撃者は同じデータセットから発生しない任意のランダムに遭遇した画像を攻撃する必要がある。 そこで,本稿では,攻撃者が異なるデータセット(ラベルセットと画像サイズ)で訓練された一連のサロゲートモデルを持つと仮定し,そのいずれも被害者モデルが使用するデータセットと同等ではないことを仮定した,新たな一般化トランスファブルアタック(gta)問題を定義する。 次に、任意のデータセットから遭遇した画像の分類情報を消去する画像分類消去器(ICE)を提案する。 Cifar-10, Cifar-100, TieredImageNetの大規模実験により, GTA問題に対するICEの有効性が示された。 さらに,既存の転送攻撃手法はGTA問題に対処するために修正可能であるが,ICEと比較して性能は著しく劣っている。

It has been observed that Deep Neural Networks (DNNs) are vulnerable to transfer attacks in the query-free black-box setting. However, all the previous studies on transfer attack assume that the white-box surrogate models possessed by the attacker and the black-box victim models are trained on the same dataset, which means the attacker implicitly knows the label set and the input size of the victim model. However, this assumption is usually unrealistic as the attacker may not know the dataset used by the victim model, and further, the attacker needs to attack any randomly encountered images that may not come from the same dataset. Therefore, in this paper we define a new Generalized Transferable Attack (GTA) problem where we assume the attacker has a set of surrogate models trained on different datasets (with different label sets and image sizes), and none of them is equal to the dataset used by the victim model. We then propose a novel method called Image Classification Eraser (ICE) to erase classification information for any encountered images from arbitrary dataset. Extensive experiments on Cifar-10, Cifar-100, and TieredImageNet demonstrate the effectiveness of the proposed ICE on the GTA problem. Furthermore, we show that existing transfer attack methods can be modified to tackle the GTA problem, but with significantly worse performance compared with ICE.
翻訳日:2021-10-18 13:40:00 公開日:2021-10-13
# (参考訳) 変分オートエンコーダによる複数スタイル転送 [全文訳有]

Multiple Style Transfer via Variational AutoEncoder ( http://arxiv.org/abs/2110.07375v1 )

ライセンス: CC BY 4.0
Zhi-Song Liu and Vicky Kalogeiton and Marie-Paule Cani(参考訳) 現代では、一つの画像からスタイルを転送することに焦点を当てている。 最近、複数のスタイル転送を研究するアプローチもあるが、これらは遅すぎるか、複数のスタイルを混在させることができない。 遅延空間に基づくスタイル転送のための変分自動エンコーダST-VAEを提案する。 非線形スタイルを線形潜在空間に投影することで複数のスタイル転送を行い、新しいスタイルをコンテンツイメージに転送する前に線形補間によりスタイルをマージする。 ST-VAEを評価するために,単一および複数スタイル転送のためのCOCO実験を行った。 また,ST-VAEは他の手法よりも高速で柔軟で,複数スタイル転送のための新しい経路を設定できることを示すケーススタディを示す。

Modern works on style transfer focus on transferring style from a single image. Recently, some approaches study multiple style transfer; these, however, are either too slow or fail to mix multiple styles. We propose ST-VAE, a Variational AutoEncoder for latent space-based style transfer. It performs multiple style transfer by projecting nonlinear styles to a linear latent space, enabling to merge styles via linear interpolation before transferring the new style to the content image. To evaluate ST-VAE, we experiment on COCO for single and multiple style transfer. We also present a case study revealing that ST-VAE outperforms other methods while being faster, flexible, and setting a new path for multiple style transfer.
翻訳日:2021-10-16 12:12:50 公開日:2021-10-13
# (参考訳) 粒子物理における教師なし異常検出の課題 [全文訳有]

Challenges for Unsupervised Anomaly Detection in Particle Physics ( http://arxiv.org/abs/2110.06948v1 )

ライセンス: CC BY 4.0
Katherine Fraser, Samuel Homiller, Rashmish K. Mishra, Bryan Ostdiek, and Matthew D. Schwartz(参考訳) 異常検出は、特定の事象が特定の背景分布の非特性であるかどうかを決定するためにスコアを設計することに依存する。 スコアを定義する方法の1つは、ある種のデータ(背景)を再構築する機能に依存しているオートエンコーダを使用することである。 本稿では,qcd 背景における異常信号 (top および $w$) ジェットの文脈におけるハイパーパラメータやメトリクスへの依存性など,変分オートエンコーダに関連するいくつかの課題について検討する。 パラメータ選択がネットワーク性能に強く影響し,一方の信号に対する最適パラメータが他方の信号に対して最適でないことが判明した。 ネットワークの探索において、平均二乗誤差を用いて訓練された変分オートエンコーダの潜時空間とデータセット内の最適な輸送距離との間の接続を明らかにする。 次に、バックグラウンドデータセット内の代表イベントへの最適な転送距離を、オートエンコーダに匹敵するパフォーマンスで、異常検出に直接使用できることを示す。 オートエンコーダや最適なトランスポート距離を異常検出に利用しても,背景を最もよく表現する選択が信号識別に最適とは限らない。 教師なし異常検出のこれらの課題は、半教師付きまたは代替的なアプローチのさらなる探索を後押しする。

Anomaly detection relies on designing a score to determine whether a particular event is uncharacteristic of a given background distribution. One way to define a score is to use autoencoders, which rely on the ability to reconstruct certain types of data (background) but not others (signals). In this paper, we study some challenges associated with variational autoencoders, such as the dependence on hyperparameters and the metric used, in the context of anomalous signal (top and $W$) jets in a QCD background. We find that the hyperparameter choices strongly affect the network performance and that the optimal parameters for one signal are non-optimal for another. In exploring the networks, we uncover a connection between the latent space of a variational autoencoder trained using mean-squared-error and the optimal transport distances within the dataset. We then show that optimal transport distances to representative events in the background dataset can be used directly for anomaly detection, with performance comparable to the autoencoders. Whether using autoencoders or optimal transport distances for anomaly detection, we find that the choices that best represent the background are not necessarily best for signal identification. These challenges with unsupervised anomaly detection bolster the case for additional exploration of semi-supervised or alternative approaches.
翻訳日:2021-10-16 12:06:01 公開日:2021-10-13
# (参考訳) 審美的品質を予測する学習におけるユーザ合意の検討 [全文訳有]

Considering user agreement in learning to predict the aesthetic quality ( http://arxiv.org/abs/2110.06956v1 )

ライセンス: CC BY 4.0
Suiyi Ling, Andreas Pastor, Junle Wang, Patrick Le Callet(参考訳) 与えられた画像の美的品質をしっかりとランク付けする方法は、長い間不適切なトピックであった。 このような課題は主に、様々なタイプのコンテンツについての様々な観察者の多様な主観的意見に由来する。 平均的な美的意見スコアを予測するのではなく,スコアの標準偏差を考慮してユーザ合意を推定することへの関心が高まっている。 それにもかかわらず、一対のコンテンツを比較する場合、美的スコアの違いにどの程度自信があるかを考える研究はほとんどない。 そこで本稿では,(1)平均評価スコアと標準偏差の両方をエンドツーエンドで予測するための再適応型マルチタスク・アテンションネットワークを提案する。 このような損失により、モデルは、観察者の意見の多様性、すなわちユーザーの不一致に関連するコンテンツの不確実性を学ぶことが奨励される。 広汎な実験により、提案したマルチタスク美学モデルは、AVAとTMGAの2つの異なるタイプの美学データセット上で最先端のパフォーマンスを達成することが示された。

How to robustly rank the aesthetic quality of given images has been a long-standing ill-posed topic. Such challenge stems mainly from the diverse subjective opinions of different observers about the varied types of content. There is a growing interest in estimating the user agreement by considering the standard deviation of the scores, instead of only predicting the mean aesthetic opinion score. Nevertheless, when comparing a pair of contents, few studies consider how confident are we regarding the difference in the aesthetic scores. In this paper, we thus propose (1) a re-adapted multi-task attention network to predict both the mean opinion score and the standard deviation in an end-to-end manner; (2) a brand-new confidence interval ranking loss that encourages the model to focus on image-pairs that are less certain about the difference of their aesthetic scores. With such loss, the model is encouraged to learn the uncertainty of the content that is relevant to the diversity of observers' opinions, i.e., user disagreement. Extensive experiments have demonstrated that the proposed multi-task aesthetic model achieves state-of-the-art performance on two different types of aesthetic datasets, i.e., AVA and TMGA.
翻訳日:2021-10-16 11:38:17 公開日:2021-10-13
# (参考訳) 連続学習のためのブロックコンテキストMDP [全文訳有]

Block Contextual MDPs for Continual Learning ( http://arxiv.org/abs/2110.06972v1 )

ライセンス: CC BY 4.0
Shagun Sodhani, Franziska Meier, Joelle Pineau, Amy Zhang(参考訳) 強化学習(RL)において、マルコフ決定過程(MDP)を定義するとき、環境力学は暗黙的に定常であると仮定される。 この定常性の仮定は単純化されるが、多くのシナリオでは非現実的である。 連続的な強化学習シナリオでは、タスクのシーケンスが非定常性の源である。 本研究では,ブロックコンテキストMDP(BC-MDP)フレームワークを用いて,この連続的な強化学習環境について検討し,定常性の仮定を緩和する。 このフレームワークは、非定常性とリッチな観測設定の両方を扱うrlアルゴリズムに挑戦し、さらに滑らかさプロパティを活用することで、この設定の一般化境界を研究できる。 最後に、適応制御からインスピレーションを得て、このより現実的なBC-MDP設定によってもたらされる課題に対処し、評価時のゼロショット適応を可能にし、複数の非定常環境において高い性能を達成する新しいアルゴリズムを提案する。

In reinforcement learning (RL), when defining a Markov Decision Process (MDP), the environment dynamics is implicitly assumed to be stationary. This assumption of stationarity, while simplifying, can be unrealistic in many scenarios. In the continual reinforcement learning scenario, the sequence of tasks is another source of nonstationarity. In this work, we propose to examine this continual reinforcement learning setting through the block contextual MDP (BC-MDP) framework, which enables us to relax the assumption of stationarity. This framework challenges RL algorithms to handle both nonstationarity and rich observation settings and, by additionally leveraging smoothness properties, enables us to study generalization bounds for this setting. Finally, we take inspiration from adaptive control to propose a novel algorithm that addresses the challenges introduced by this more realistic BC-MDP setting, allows for zero-shot adaptation at evaluation time, and achieves strong performance on several nonstationary environments.
翻訳日:2021-10-16 11:26:56 公開日:2021-10-13
# (参考訳) 表現連続性再考--教師なし連続学習に向けて [全文訳有]

Rethinking the Representational Continuity: Towards Unsupervised Continual Learning ( http://arxiv.org/abs/2110.06976v1 )

ライセンス: CC BY-SA 4.0
Divyam Madaan, Jaehong Yoon, Yuanchun Li, Yunxin Liu, Sung Ju Hwang(参考訳) 連続学習(CL)は、以前獲得した知識を忘れずに一連のタスクを学習することを目的としている。 しかし、最近の連続学習の進歩は教師付き連続学習(scl)のシナリオに限定されている。 結果として、データ分散がバイアスや注釈のない、実世界のアプリケーションにはスケーラビリティがない。 本研究では,非教師なし連続学習(UCL)に注目し,その課題の列で特徴表現を学習し,アノテートされたデータへの依存が連続学習には必要ないことを示す。 我々は,学習した特徴表現を分析し,教師なしの視覚的表現が,破滅的な忘れ方に対して驚くほど頑健であり,一貫して優れた性能を達成し,sclよりも分布外タスクに一般化できることを体系的に研究した。 さらに,学習表現の質的分析と有意義な特徴表現の学習を通じて,uclはより円滑なロスランドスケープを実現することを見出した。 さらに,現在のタスクと以前のタスクのインスタンス間の補間を利用して,教師なし表現に対する破滅的な忘れを緩和する,単純かつ効果的な手法であるlong unsupervised mixup (lump)を提案する。

Continual learning (CL) aims to learn a sequence of tasks without forgetting the previously acquired knowledge. However, recent advances in continual learning are restricted to supervised continual learning (SCL) scenarios. Consequently, they are not scalable to real-world applications where the data distribution is often biased and unannotated. In this work, we focus on unsupervised continual learning (UCL), where we learn the feature representations on an unlabelled sequence of tasks and show that reliance on annotated data is not necessary for continual learning. We conduct a systematic study analyzing the learned feature representations and show that unsupervised visual representations are surprisingly more robust to catastrophic forgetting, consistently achieve better performance, and generalize better to out-of-distribution tasks than SCL. Furthermore, we find that UCL achieves a smoother loss landscape through qualitative analysis of the learned representations and learns meaningful feature representations. Additionally, we propose Lifelong Unsupervised Mixup (LUMP), a simple yet effective technique that leverages the interpolation between the current task and previous tasks' instances to alleviate catastrophic forgetting for unsupervised representations.
翻訳日:2021-10-16 10:49:04 公開日:2021-10-13
# (参考訳) WAFFLE:個人化フェデレーション学習のための平均重み付け [全文訳有]

WAFFLE: Weighted Averaging for Personalized Federated Learning ( http://arxiv.org/abs/2110.06978v1 )

ライセンス: CC BY-SA 4.0
Martin Beaussart, Felix Grimberg, Mary-Anne Hartley, Martin Jaggi(参考訳) 協調学習や連合学習では、モデルパーソナライゼーションは、クライアント間で異種トレーニングデータを扱うための非常に効果的な戦略である。 WAFFLE(Weighted Averaging For Federated LEarning)は、SCAFFOLDをベースとしたパーソナライズされた協調機械学習アルゴリズムである。 SCAFFOLDは、クライアント間のデータやラベルの分布が極めて歪んだタスクであっても、確率的制御変数を使用して、グローバルな最適モデルに近いモデルに収束する。 対照的にwaffleは、クライアントの更新間のユークリッド距離を使用して、個々のコントリビューションを計測し、特定のエージェントに対するパーソナライズされたモデル損失を最小限に抑える。 提案手法を,近年の2つの個人化フェデレーション学習手法である重みエロージョンとAPFL,および2つのグローバル学習手法であるフェデレーション平均化とSCAFFOLDと比較した。 本手法は,mnist と cifar10 の2つのベンチマーク画像データセット上で,非同一のクライアントデータ分布(概念シフトとラベルスキュー)の2つのカテゴリを用いて評価する。 本実験は, WAFFLEを他の手法と比較し, より高速な収束により精度を向上・向上することを示した。

In collaborative or federated learning, model personalization can be a very effective strategy to deal with heterogeneous training data across clients. We introduce WAFFLE (Weighted Averaging For Federated LEarning), a personalized collaborative machine learning algorithm based on SCAFFOLD. SCAFFOLD uses stochastic control variates to converge towards a model close to the globally optimal model even in tasks where the distribution of data and labels across clients is highly skewed. In contrast, WAFFLE uses the Euclidean distance between clients' updates to weigh their individual contributions and thus minimize the trained personalized model loss on the specific agent of interest. Through a series of experiments, we compare our proposed new method to two recent personalized federated learning methods, Weight Erosion and APFL, as well as two global learning methods, federated averaging and SCAFFOLD. We evaluate our method using two categories of non-identical client data distributions (concept shift and label skew) on two benchmark image data sets, MNIST and CIFAR10. Our experiments demonstrate the effectiveness of WAFFLE compared with other methods, as it achieves or improves accuracy with faster convergence.
翻訳日:2021-10-16 10:30:16 公開日:2021-10-13
# (参考訳) FlexiTerm: フレキシブルマルチワード語認識のより効率的な実装 [全文訳有]

FlexiTerm: A more efficient implementation of flexible multi-word term recognition ( http://arxiv.org/abs/2110.06981v1 )

ライセンス: CC BY 4.0
Irena Spasic(参考訳) 用語はドメイン固有の概念の言語記号である。 自由テキストにおけるマルチワード語(MWT)の自動認識はシーケンスラベリングの問題であり、一般に教師付き機械学習手法を用いて対処される。 トレーニングデータの手動アノテーションが必要なため、そのようなメソッドをドメイン間で移植するのは困難である。 一方、FlexiTermはドメイン固有コーパスからのMWT認識のための完全に教師なしの手法である。 元々はjavaで概念実証として実装されていたが、スケールがうまくいかなかったため、ビッグデータのコンテキストにおいて実用的価値はほとんど提供されなかった。 本稿では,Pythonにおける再実装について述べるとともに,これらの2つの実装の性能を比較する。 その結果、効率の面で大きな改善があったため、flexitermは概念実証から製品グレードのアプリケーションへの移行を可能にした。

Terms are linguistic signifiers of domain-specific concepts. Automated recognition of multi-word terms (MWT) in free text is a sequence labelling problem, which is commonly addressed using supervised machine learning methods. Their need for manual annotation of training data makes it difficult to port such methods across domains. FlexiTerm, on the other hand, is a fully unsupervised method for MWT recognition from domain-specific corpora. Originally implemented in Java as a proof of concept, it did not scale well, thus offering little practical value in the context of big data. In this paper, we describe its re-implementation in Python and compare the performance of these two implementations. The results demonstrated major improvements in terms of efficiency, which allow FlexiTerm to transition from the proof of concept to the production-grade application.
翻訳日:2021-10-16 10:18:00 公開日:2021-10-13
# (参考訳) ADMM-DADネット:解析圧縮センシングのための深部展開ネットワーク [全文訳有]

ADMM-DAD net: a deep unfolding network for analysis compressed sensing ( http://arxiv.org/abs/2110.06986v1 )

ライセンス: CC BY 4.0
Vasiliki Kouni, Georgios Paraskevopoulos, Holger Rauhut, George C. Alexandropoulos(参考訳) 本稿では、圧縮センシング解析のためのADMMアルゴリズムに基づく、新しい深層展開ニューラルネットワークを提案する。 提案するネットワークはスパーシフィケーションのための冗長解析演算子を共同で学習し,関心信号の再構成を行う。 提案するネットワークを,直交スペーサを学習する最先端の展開型ISTAデコーダと比較した。 さらに、画像だけでなく、音声データセットもテスト例として検討する。 計算実験により,提案するネットワークは,実世界の画像と音声のデータセットの両方において,最先端のディープ展開ネットワークよりも優れていることが示された。

In this paper, we propose a new deep unfolding neural network based on the ADMM algorithm for analysis Compressed Sensing. The proposed network jointly learns a redundant analysis operator for sparsification and reconstructs the signal of interest. We compare our proposed network with a state-of-the-art unfolded ISTA decoder, that also learns an orthogonal sparsifier. Moreover, we consider not only image, but also speech datasets as test examples. Computational experiments demonstrate that our proposed network outperforms the state-of-the-art deep unfolding networks, consistently for both real-world image and speech datasets.
翻訳日:2021-10-16 10:04:44 公開日:2021-10-13
# (参考訳) 連続的および非侵襲的カフレス血圧推定のためのクラスタリングに基づく新しいアルゴリズム [全文訳有]

A Novel Clustering-Based Algorithm for Continuous and Non-invasive Cuff-Less Blood Pressure Estimation ( http://arxiv.org/abs/2110.06996v1 )

ライセンス: CC0 1.0
Ali Farki, Reza Baradaran Kazemzadeh, and Elham Akhondzadeh Noughabi(参考訳) 連続血圧(bp)測定は、疾患に対する身体反応を反映し、循環器やその他の健康状態の予測因子となる。 現在のカフベースのBP測定法は連続的なBP測定を行うことができないが、侵襲的なBPモニタリング法は患者の不満を生じさせ、感染を引き起こす可能性がある。 本研究では,心電図(ECG)および光胸腺図(PPG)信号および動脈血圧(ABP)データから抽出した特徴に基づいて血圧を推定する方法を開発した。 プリプロセスされたecg信号とppg信号から抽出された特徴ベクトルは、クラスタリングアルゴリズムの入力としてパルス通過時間(ptt)、ppg強度比(pir)、心拍数(hr)を含み、ランダムフォレスト回帰、勾配昇降回帰、各クラスタに対する多層パーセプトロン回帰アルゴリズムなどの別々の回帰モデルを開発する。 クラスタ化手法を適用し, 最適クラスタ数を同定し, 最終的に許容される予測モデルを用いて, モデル作成の精度を最も高く評価, 比較した。 本論文は, このクラスタリングを使わずに得られた結果と比較する。 その結果,提案手法は収縮期血圧 (sbp) と拡張期血圧 (dbp) をより正確に推定するのに役立つことがわかった。 クラスタリング手法を用いることで,データセットの一貫性,分散度,トレンドの多様さを考慮し,推定精度を50~60%向上させることができた。

Continuous blood pressure (BP) measurements can reflect a bodys response to diseases and serve as a predictor of cardiovascular and other health conditions. While current cuff-based BP measurement methods are incapable of providing continuous BP readings, invasive BP monitoring methods also tend to cause patient dissatisfaction and can potentially cause infection. In this research, we developed a method for estimating blood pressure based on the features extracted from Electrocardiogram (ECG) and Photoplethysmogram (PPG) signals and the Arterial Blood Pressure (ABP) data. The vector of features extracted from the preprocessed ECG and PPG signals is used in this approach, which include Pulse Transit Time (PTT), PPG Intensity Ratio (PIR), and Heart Rate (HR), as the input of a clustering algorithm and then developing separate regression models like Random Forest Regression, Gradient Boosting Regression, and Multilayer Perceptron Regression algorithms for each resulting cluster. We evaluated and compared the findings to create the model with the highest accuracy by applying the clustering approach and identifying the optimal number of clusters, and eventually the acceptable prediction model. The paper compares the results obtained with and without this clustering. The results show that the proposed clustering approach helps obtain more accurate estimates of Systolic Blood Pressure (SBP) and Diastolic Blood Pressure (DBP). Given the inconsistency, high dispersion, and multitude of trends in the datasets for different features, using the clustering approach improved the estimation accuracy by 50-60%.
翻訳日:2021-10-16 09:55:32 公開日:2021-10-13
# (参考訳) Bandits don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits [全文訳有]

Bandits Don't Follow Rules: Balancing Multi-Facet Machine Translation with Multi-Armed Bandits ( http://arxiv.org/abs/2110.06997v1 )

ライセンス: CC BY 4.0
Julia Kreutzer, David Vilar, Artem Sokolov(参考訳) 機械翻訳(MT)のトレーニングデータはしばしば、複数のドメインからのコンテンツや異なるレベルの品質や複雑さを含むような、本質的に多面的な多数の大きなコーパスから得られる。 当然、これらのファセットは等しい周波数で発生しないし、テストシナリオでも同様に重要でもない。 本研究では,MTモデルパラメータと協調してこのバランスを最適化し,システム開発者が手動のスケジュール設計から解放することを提案する。 マルチアームのバンディットは、MTシステムにとって最も有益な方法で、ファセットの選択を動的に行うように訓練される。 我々は、翻訳データと自然学習データのバランスをとる3つの異なる多面体アプリケーション、または複数のドメインまたは複数の言語ペアのデータを評価する。 バンディット学習はタスク間の競争的なMTシステムにつながり、分析は学習戦略と基盤となるデータセットに関する洞察を提供する。

Training data for machine translation (MT) is often sourced from a multitude of large corpora that are multi-faceted in nature, e.g. containing contents from multiple domains or different levels of quality or complexity. Naturally, these facets do not occur with equal frequency, nor are they equally important for the test scenario at hand. In this work, we propose to optimize this balance jointly with MT model parameters to relieve system developers from manual schedule design. A multi-armed bandit is trained to dynamically choose between facets in a way that is most beneficial for the MT system. We evaluate it on three different multi-facet applications: balancing translationese and natural training data, or data from multiple domains or multiple language pairs. We find that bandit learning leads to competitive MT systems across tasks, and our analysis provides insights into its learned strategies and the underlying data sets.
翻訳日:2021-10-16 09:44:52 公開日:2021-10-13
# (参考訳) オーディオスペクトログラム変換器における位置符号化手法の検討 [全文訳有]

Study of positional encoding approaches for Audio Spectrogram Transformers ( http://arxiv.org/abs/2110.06999v1 )

ライセンス: CC BY 4.0
Leonardo Pepino and Pablo Riera and Luciana Ferrer(参考訳) トランスフォーマーは、特に自然言語処理の分野で、ディープラーニングの世界に革命をもたらした。 近年,オーディオ・スペクトログラム・トランスフォーマー (AST) が音声分類のために提案され,いくつかのデータセットで結果が得られた。 しかし、ASTがCNNを上回るためには、ImageNetでの事前トレーニングが必要である。 本稿では,ASTの1つのコンポーネントである位置符号化について検討し,ImageNetの事前学習を必要とせず,スクラッチからトレーニングしたASTの性能を改善するためにいくつかの変種を提案する。 条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。

Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.
翻訳日:2021-10-16 09:24:33 公開日:2021-10-13
# (参考訳) Model-based Format-Transforming Encryption を用いたパブリックインターネットプラットフォーム上のカバートメッセージパッシング [全文訳有]

Covert Message Passing over Public Internet Platforms Using Model-Based Format-Transforming Encryption ( http://arxiv.org/abs/2110.07009v1 )

ライセンス: CC BY 4.0
Luke A. Bauer, James K. Howes IV, Sam A. Markelon, Vincent Bindschaedler, Thomas Shrimpton(参考訳) 本稿では,暗号文の形式を機械学習生成モデル内で暗黙的に符号化する新しい形式変換暗号を導入する。 このプリミティブの周りに、大規模なパブリックなインターネットプラットフォーム(例えばTwitter)上での隠蔽メッセージングシステムを構築します。 本システムでは,生成モデルのシードインデックス化トークン分布系から,ランダム暗号ビットをサンプルに符号化する方法を用いて,認証暗号方式を構成する。 デプロイメントのシナリオを修正することで、レシーバ側パーシングの曖昧さや実際のトークン配信能力の低いといった実際の課題に対するシステムレベルとアルゴリズムのソリューションを事前に検討せざるを得なくなりました。 我々はgpt-2を生成モデルとして使用し、暗号的に平文ビット文字列を公開プラットフォームへの投稿に適した自然言語カバーテキストに変換する。 インターネットプラットフォームのコンテンツをフルに見る敵は,当社のシステムを隠蔽メッセージングに使用しているポストを提示することを目的としている。 セキュリティのヒューリスティックな証拠を提供し、運用効率と検出可能性のトレードオフを探るため、一連の実験を行います。

We introduce a new type of format-transforming encryption where the format of ciphertexts is implicitly encoded within a machine-learned generative model. Around this primitive, we build a system for covert messaging over large, public internet platforms (e.g., Twitter). Loosely, our system composes an authenticated encryption scheme, with a method for encoding random ciphertext bits into samples from the generative model's family of seed-indexed token-distributions. By fixing a deployment scenario, we are forced to consider system-level and algorithmic solutions to real challenges -- such as receiver-side parsing ambiguities, and the low information-carrying capacity of actual token-distributions -- that were elided in prior work. We use GPT-2 as our generative model so that our system cryptographically transforms plaintext bitstrings into natural-language covertexts suitable for posting to public platforms. We consider adversaries with full view of the internet platform's content, whose goal is to surface posts that are using our system for covert messaging. We carry out a suite of experiments to provide heuristic evidence of security and to explore tradeoffs between operational efficiency and detectability.
翻訳日:2021-10-16 09:14:06 公開日:2021-10-13
# (参考訳) fg 2021ファミリーのトップ3、野生の血縁確認チャレンジ [全文訳有]

Top 3 in FG 2021 Families In the Wild Kinship Verification Challenge ( http://arxiv.org/abs/2110.07020v1 )

ライセンス: CC BY 4.0
Junyi Huang, Maxwell Benjamin Strome, Ian Jenkins, Parker Williams, Bo Feng, Yaning Wang, Roman Wang, Vaibhav Bagri, Newman Cheng, Iddo Drori(参考訳) 親子、兄弟姉妹、または祖父母と孫の関係が2人の間に存在するかどうかを判断する任務であり、ソーシャルメディアのアプリケーション、法医学的調査、行方不明の子供の発見、家族の再会において重要である。 我々は,この分野で最大の公開データセットを提供するwild challengeにおいて,家族を認識するfg 2021に参加することで,高品質なキンシップ検証を行う。 私たちのアプローチは、コンペティションで上位3位に入っている。 私たちは人の専門家とOpenAI Codexによって書かれたモデルをアンサンブルします。 モデルとコードを公開しています。

Kinship verification is the task of determining whether a parent-child, sibling, or grandparent-grandchi ld relationship exists between two people and is important in social media applications, forensic investigations, finding missing children, and reuniting families. We demonstrate high quality kinship verification by participating in the FG 2021 Recognizing Families in the Wild challenge which provides the largest publicly available dataset in the field. Our approach is among the top 3 winning entries in the competition. We ensemble models written by both human experts and OpenAI Codex. We make our models and code publicly available.
翻訳日:2021-10-16 08:43:43 公開日:2021-10-13
# (参考訳) AIトータル:不完全なデータによるセキュリティMLモデルの解析 [全文訳有]

AI Total: Analyzing Security ML Models with Imperfect Data in Production ( http://arxiv.org/abs/2110.07028v1 )

ライセンス: CC BY 4.0
Awalin Sopan and Konstantin Berlin(参考訳) 新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われ、新しいデータの入ってくるストリームに対して自動的に評価を行う必要がある運用中のモデルのパフォーマンスを評価するのに適さない。 残念ながら、モデルパフォーマンスを監視するための完全な自動パイプラインに完全に依存しているため、観察されたパフォーマンス上の問題がモデルパフォーマンスやパイプラインの問題、新たなデータ分散バイアス、あるいは上記の組み合わせに起因するかどうかを理解するのは難しい。 そこで我々は,Web ベースの可視化システムを開発した。これによりユーザは,基礎となるデータパイプラインが適切に機能していることの信頼性を維持しながら,ヘッドラインのパフォーマンスを迅速に収集できる。 問題が発生した場合の根本原因を,ユーザが即座に監視することも可能だ。 本稿では,データカバレッジイコライザを用いたデータ問題下での性能解析手法を提案する。 私たちは、機械学習(ml)アプリケーションで一般的に追跡される標準評価メトリクスの上に追加した、さまざまな変更と追加のプロット、フィルタ、ドリルダウンを説明し、モデル内イントロスペクションに価値のある実例をいくつか紹介します。

Development of new machine learning models is typically done on manually curated data sets, making them unsuitable for evaluating the models' performance during operations, where the evaluation needs to be performed automatically on incoming streams of new data. Unfortunately, pure reliance on a fully automatic pipeline for monitoring model performance makes it difficult to understand if any observed performance issues are due to model performance, pipeline issues, emerging data distribution biases, or some combination of the above. With this in mind, we developed a web-based visualization system that allows the users to quickly gather headline performance numbers while maintaining confidence that the underlying data pipeline is functioning properly. It also enables the users to immediately observe the root cause of an issue when something goes wrong. We introduce a novel way to analyze performance under data issues using a data coverage equalizer. We describe the various modifications and additional plots, filters, and drill-downs that we added on top of the standard evaluation metrics typically tracked in machine learning (ML) applications, and walk through some real world examples that proved valuable for introspecting our models.
翻訳日:2021-10-16 08:37:45 公開日:2021-10-13
# (参考訳) SHACLによる改良IOロジックのコンプライアンスチェック [全文訳有]

Compliance checking in reified IO logic via SHACL ( http://arxiv.org/abs/2110.07033v1 )

ライセンス: CC BY 4.0
Livio Robaldo and Kolawole J. Adebayo(参考訳) reified input/output (i/o) logic[21]は[11]の論理の観点から実世界のノルムをモデル化するために最近提案されている。 これは改定の概念に大きく根ざしており、既存の法律で発生したような自然言語文の意味をモデル化するよう特別に設計されている。 本稿では,I/O 論理式に対するコンプライアンスチェックを行う手法を提案する。 これらはSHACL(Shapes Constraint Language)形式で翻訳され、最近のW3CではRDFトリプルストアの検証と推論が推奨されている。 次に、これらのSHACL形状に関する状況を記述するRDFグラフを検証することでコンプライアンスチェックを実施する。

Reified Input/Output (I/O) logic[21] has been recently proposed to model real-world norms in terms of the logic in [11]. This is massively grounded on the notion of reification, and it has specifically designed to model meaning of natural language sentences, such as the ones occurring in existing legislation. This paper presents a methodology to carry out compliance checking on reified I/O logic formulae. These are translated in SHACL (Shapes Constraint Language) shapes, a recent W3C recommendation to validate and reason with RDF triplestores. Compliance checking is then enforced by validating RDF graphs describing states of affairs with respect to these SHACL shapes.
翻訳日:2021-10-16 08:28:42 公開日:2021-10-13
# (参考訳) データインキュベーション --手書き認識のための欠落データ合成 [全文訳有]

Data Incubation -- Synthesizing Missing Data for Handwriting Recognition ( http://arxiv.org/abs/2110.07040v1 )

ライセンス: CC BY 4.0
Jen-Hao Rick Chang, Martin Bresler, Youssouf Chherawala, Adrien Delaye, Thomas Deselaers, Ryan Dixon, Oncel Tuzel(参考訳) 本稿では,生成モデルを用いてコンテンツやスタイルを制御し,より優れた認識システムを構築する方法を示す。 トレーニングサンプルのわずかな量からオンライン手書き文字認識器を構築しています。 制御可能な書き起こしシンセサイザーを同じデータでトレーニングすることで、以前は表現されていないコンテンツ(URLやメールアドレスなど)とスタイル(カーシブやスランプなど)で手書きを合成できる。 さらに,実学習データと合成訓練データとを混合して学習した認識器を分析するフレームワークを提案する。 データ合成を最適化するためにこのフレームワークを使用し、実際のデータのみに基づいてトレーニングされたモデルに対して、手書き認識を大幅に改善することを示す。 全体として,文字誤り率の66%削減を達成している。

In this paper, we demonstrate how a generative model can be used to build a better recognizer through the control of content and style. We are building an online handwriting recognizer from a modest amount of training samples. By training our controllable handwriting synthesizer on the same data, we can synthesize handwriting with previously underrepresented content (e.g., URLs and email addresses) and style (e.g., cursive and slanted). Moreover, we propose a framework to analyze a recognizer that is trained with a mixture of real and synthetic training data. We use the framework to optimize data synthesis and demonstrate significant improvement on handwriting recognition over a model trained on real data only. Overall, we achieve a 66% reduction in Character Error Rate.
翻訳日:2021-10-16 08:11:03 公開日:2021-10-13
# (参考訳) CNNのアウト・オブ・ディストリビューション検出がマハラノビスを好まない理由 - 代わりに何を使うべきか [全文訳有]

Why Out-of-distribution Detection in CNNs Does Not Like Mahalanobis -- and What to Use Instead ( http://arxiv.org/abs/2110.07043v1 )

ライセンス: CC BY 4.0
Kamil Szyc, Tomasz Walkowiak, Henryk Maciejewski(参考訳) 実世界の分類タスクに適用される畳み込みニューラルネットワークは、既知のデータやトレーニングデータに対して、遠方あるいは外方(ood)の入力を認識する必要がある。 これを実現するために、多くの方法がクラス条件の後方確率を推定し、後方分布から得られた信頼度スコアを使用する。 近年の研究では、多変量ガウス分布をcnnの異なる層(すなわち低レベルと高レベルの特徴)における後方分布のモデルとして用いることが提案され、マハラノビス距離に基づく信頼度スコアが導かれる。 しかし、この手法では、観測の不十分な数を用いて高次元データの確率密度を推定する(例えば、resnet-101モデルの最後の2層における特徴の次元は2048と1024であり、密度を推定するのにクラスごとにca.1000の観測を用いる)。 この作業では、この問題に対処したい。 高次元データにおける多くのOoD研究において、LOF(Local Outlierness-Factor)法はパラメトリックなマハラノビス距離法よりも優れていた。 これにより、CNNの信頼性スコアを生成する非パラメトリックなLOFベースの手法を提案する。 我々は,CIFAR-10とImageNet(既知のデータ)に基づくResNet-101とEffcientNet-B3と,CIFAR-100,SVHN,Imag eNet2010,Places365,I mageNet-O(外部データ)による実現可能性調査を行った。 非パラメトリックlofに基づく信頼度推定は,現在のマハラノビスベースのsotaを改善したり,より簡単な方法で同様の性能が得られることを示した。

Convolutional neural networks applied for real-world classification tasks need to recognize inputs that are far or out-of-distribution (OoD) with respect to the known or training data. To achieve this, many methods estimate class-conditional posterior probabilities and use confidence scores obtained from the posterior distributions. Recent works propose to use multivariate Gaussian distributions as models of posterior distributions at different layers of the CNN (i.e., for low- and upper-level features), which leads to the confidence scores based on the Mahalanobis distance. However, this procedure involves estimating probability density in high dimensional data using the insufficient number of observations (e.g. the dimensionality of features at the last two layers in the ResNet-101 model are 2048 and 1024, with ca. 1000 observations per class used to estimate density). In this work, we want to address this problem. We show that in many OoD studies in high-dimensional data, LOF-based (Local Outlierness-Factor) methods outperform the parametric, Mahalanobis distance-based methods. This motivates us to propose the nonparametric, LOF-based method of generating the confidence scores for CNNs. We performed several feasibility studies involving ResNet-101 and EffcientNet-B3, based on CIFAR-10 and ImageNet (as known data), and CIFAR-100, SVHN, ImageNet2010, Places365, or ImageNet-O (as outliers). We demonstrated that nonparametric LOF-based confidence estimation can improve current Mahalanobis-based SOTA or obtain similar performance in a simpler way.
翻訳日:2021-10-16 08:00:58 公開日:2021-10-13
# (参考訳) 局所感性角損失を用いた深度学習によるニューラルスパイキング信号の自己補正音源分離 [全文訳有]

Deep Metric Learning with Locality Sensitive Angular Loss for Self-Correcting Source Separation of Neural Spiking Signals ( http://arxiv.org/abs/2110.07046v1 )

ライセンス: CC BY-SA 4.0
Alexander Kenneth Clarke and Dario Farina(参考訳) 筋電図信号や皮質内記録のような神経生理学的時系列は、典型的には多くの個々のスパイク源から成り、その回復は生物学的な関心の体系に関する基本的な洞察を与えるか、人-機械のインタフェースに神経情報を提供する。 このため、ソース分離アルゴリズムは神経科学や神経工学においてますます重要なツールとなっている。 しかし、ノイズや多変量記録では、これらの分解技術は、しばしば大量のエラーを発生させるため、ヒューマン・マシン・インタフェースを劣化させ、スパイク・タイムスタンプの出力ラベルセットを高価な手作業でクリーニングする必要がある。 そこで本研究では,クラス内分散を保ち,ラベルクリーニングと新たなアクティベーションの発見の両方に適したリッチな埋め込み空間を作成する新しい損失関数を用いて,ディープメトリック学習に基づく手法を提案する。 そして,この手法を,音源分離高密度表面筋電図記録に基づく人工劣化ラベルセットを用いて検証し,極度の特徴量やクラス依存ラベルノイズにおいても元のタイムスタンプを復元する。 このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確にデコードできる。

Neurophysiological time series, such as electromyographic signal and intracortical recordings, are typically composed of many individual spiking sources, the recovery of which can give fundamental insights into the biological system of interest or provide neural information for man-machine interfaces. For this reason, source separation algorithms have become an increasingly important tool in neuroscience and neuroengineering. However, in noisy or highly multivariate recordings these decomposition techniques often make a large number of errors, which degrades human-machine interfacing applications and often requires costly post-hoc manual cleaning of the output label set of spike timestamps. To address both the need for automated post-hoc cleaning and robust separation filters we propose a methodology based on deep metric learning, using a novel loss function which maintains intra-class variance, creating a rich embedding space suitable for both label cleaning and the discovery of new activations. We then validate this method with an artificially corrupted label set based on source-separated high-density surface electromyography recordings, recovering the original timestamps even in extreme degrees of feature and class-dependent label noise. This approach enables a neural network to learn to accurately decode neurophysiological time series using any imperfect method of labelling the signal.
翻訳日:2021-10-16 07:49:30 公開日:2021-10-13
# (参考訳) 格子フリーMMIを用いた連続学習による音声認識 [全文訳有]

Continual learning using lattice-free MMI for speech recognition ( http://arxiv.org/abs/2110.07055v1 )

ライセンス: CC BY 4.0
Hossein Hadian and Arseniy Gorin(参考訳) 連続学習(CL)やドメイン拡張(ドメイン拡張)は、初期訓練中に観察されていない音声の種類に頑健に取り組むためには、実用的なシステムが頻繁に更新される必要があるため、近年、自動音声認識(ASR)音響モデリングの話題となっている。 シーケンシャル適応はシステムを新しいドメインにチューニングすることを可能にするが、壊滅的な忘れによって古いドメインのパフォーマンスが低下する可能性がある。 本研究では,格子フリー最大相互情報(LF-MMI)によるニューラルネットワーク音響モデルの正規化に基づくCLについて検討する。 複数のアクセントやスピーキングスタイルを含む、さまざまなパブリックデータセットに音響モデルを段階的に適応させることで、ドメイン拡張をシミュレートする。 モデル重みやネットワーク出力の保存による忘れを少なくすることを目的とした2つのよく知られたCL手法、弾性重み付け(EWC)と学習(LWF)について検討する。 さらに、LF-MMIの分母グラフから後部を活用できるシーケンスレベルのLWF正規化を導入し、さらに忘れを減らした。 実験の結果,提案したシーケンスレベルのLWFは,通常のLWFと比較して,全ドメインの平均単語誤り率を最大9.4%向上できることがわかった。

Continual learning (CL), or domain expansion, recently became a popular topic for automatic speech recognition (ASR) acoustic modeling because practical systems have to be updated frequently in order to work robustly on types of speech not observed during initial training. While sequential adaptation allows tuning a system to a new domain, it may result in performance degradation on the old domains due to catastrophic forgetting. In this work we explore regularization-based CL for neural network acoustic models trained with the lattice-free maximum mutual information (LF-MMI) criterion. We simulate domain expansion by incrementally adapting the acoustic model on different public datasets that include several accents and speaking styles. We investigate two well-known CL techniques, elastic weight consolidation (EWC) and learning without forgetting (LWF), which aim to reduce forgetting by preserving model weights or network outputs. We additionally introduce a sequence-level LWF regularization, which exploits posteriors from the denominator graph of LF-MMI to further reduce forgetting. Empirical results show that the proposed sequence-level LWF can improve the best average word error rate across all domains by up to 9.4% relative compared with using regular LWF.
翻訳日:2021-10-16 07:27:28 公開日:2021-10-13
# (参考訳) より公平でより良い投票システムのためのアルゴリズム

An algorithm for a fairer and better voting system ( http://arxiv.org/abs/2110.07066v1 )

ライセンス: CC BY-SA 4.0
Gabriel-Claudiu Grama(参考訳) 本稿の主要な発見はアンサンブル法であるが、より正確には、投票者を代表する最良の候補を見つけることの問題を解決することを目的とした、より新規で優れた投票システム(およびそれの他のバリエーション)である。 ソースコードはgithubにあり、アルゴリズムのさまざまなバリエーションと、すでに知られている他のアルゴリズムを比較するための人工知能に基づいて、選挙の現実的なシミュレーションを行います。 我々は、我々のアルゴリズムがInstant-Runoff Voting、Preferential Block Voting、Single Transferable Vote、First Past The Postよりも優れているという確証を持っている(ある条件が満たされれば、群衆の知恵をサポートするために)。 また、最善の投票者と比較することで、民主主義(分散システム)は独裁(中央集権的システム)よりも良い選択肢であり、もしその特定の自然条件が満たされるならば、群衆の知恵を実証した。 投票システムは政治に限らず、人工知能のためのアンサンブル手法ですが、この記事のコンテキストは自然知能です。 公正なシステム(例えば、投票における表現の自由)を見つけることが重要であり、特に投票システムの結果が社会的影響を持つ場合、いくつかの投票システムは、同じ2つの主要な候補(デューバーガーの法則)に対して不当な(時間とともに)不当な傾向を持つ。

The major finding, of this article, is an ensemble method, but more exactly, a novel, better ranked voting system (and other variations of it), that aims to solve the problem of finding the best candidate to represent the voters. We have the source code on GitHub, for making realistic simulations of elections, based on artificial intelligence for comparing different variations of the algorithm, and other already known algorithms. We have convincing evidence that our algorithm is better than Instant-Runoff Voting, Preferential Block Voting, Single Transferable Vote, and First Past The Post (if certain, natural conditions are met, to support the wisdom of the crowds). By also comparing with the best voter, we demonstrated the wisdom of the crowds, suggesting that democracy (distributed system) is a better option than dictatorship (centralized system), if those certain, natural conditions are met. Voting systems are not restricted to politics, they are ensemble methods for artificial intelligence, but the context of this article is natural intelligence. It is important to find a system that is fair (e.g. freedom of expression on the ballot exists), especially when the outcome of the voting system has social impact: some voting systems have the unfair inevitability to trend (over time) towards the same two major candidates (Duverger's law).
翻訳日:2021-10-16 07:15:56 公開日:2021-10-13
# (参考訳) CloudPred:単細胞RNA配列から患者の現象を予測する [全文訳有]

CloudPred: Predicting Patient Phenotypes From Single-cell RNA-seq ( http://arxiv.org/abs/2110.07069v1 )

ライセンス: CC BY 4.0
Bryan He, Matthew Thomson, Meena Subramaniam, Richard Perez, Chun Jimmie Ye, James Zou(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、病気の予後と精密な医学を知らせる強力な高解像度のシグネチャを提供する可能性がある。 本稿では,この目標に向けて重要な一歩を踏み出し,解釈可能な機械学習アルゴリズムであるcloudpredを開発し,そのscrna-seqデータから個人の疾患表現型を予測する。 scRNA-seqから表現型を予測することは、標準的な機械学習手法では困難である。 典型的な分析は擬似バルクサンプルを生成し、前のアノテーションに偏り、単一細胞の解像度を失う。 CloudPredは、生物学的に情報を得た細胞モデルの混合と組み合わせた、新しいエンドツーエンドの差別化可能な学習アルゴリズムを通じて、これらの課題に対処する。 CloudPredは、事前アノテーションなしで表現型に忠実な細胞サブポピュレーションを自動的に推論する。 cloudpredと提案する代替手法の性能を評価するためのシステマティックシミュレーションプラットフォームを開発し,いくつかの設定でcloudpredが代替手法を上回ることを見出した。 さらに我々は、142人のループス患者とコントロールの実際のscRNA-seqデータセット上でCloudPredを検証する。 CloudPredはAUROCの0.98を達成し、ループスの存在を示すCD4T細胞の特定のサブ集団を同定する。 cloudpredは、scrna-seqデータから臨床表現型を予測し、関連する細胞を特定する強力な新しいフレームワークである。

Single-cell RNA sequencing (scRNA-seq) has the potential to provide powerful, high-resolution signatures to inform disease prognosis and precision medicine. This paper takes an important first step towards this goal by developing an interpretable machine learning algorithm, CloudPred, to predict individuals' disease phenotypes from their scRNA-seq data. Predicting phenotype from scRNA-seq is challenging for standard machine learning methods -- the number of cells measured can vary by orders of magnitude across individuals and the cell populations are also highly heterogeneous. Typical analysis creates pseudo-bulk samples which are biased toward prior annotations and also lose the single cell resolution. CloudPred addresses these challenges via a novel end-to-end differentiable learning algorithm which is coupled with a biologically informed mixture of cell types model. CloudPred automatically infers the cell subpopulation that are salient for the phenotype without prior annotations. We developed a systematic simulation platform to evaluate the performance of CloudPred and several alternative methods we propose, and find that CloudPred outperforms the alternative methods across several settings. We further validated CloudPred on a real scRNA-seq dataset of 142 lupus patients and controls. CloudPred achieves AUROC of 0.98 while identifying a specific subpopulation of CD4 T cells whose presence is highly indicative of lupus. CloudPred is a powerful new framework to predict clinical phenotypes from scRNA-seq data and to identify relevant cells.
翻訳日:2021-10-16 06:18:10 公開日:2021-10-13
# (参考訳) 協調学習環境における高速手検出 [全文訳有]

Fast Hand Detection in Collaborative Learning Environments ( http://arxiv.org/abs/2110.07070v1 )

ライセンス: CC BY 4.0
Sravani Teeparthi, Venkatesh Jatla, Marios S. Pattichis, Sylvia Celedon Pattichis, Carlos LopezLeiva(参考訳) 長期オブジェクト検出には、フレームベースの結果を数秒以上統合する必要がある。 非変形可能なオブジェクトの場合、長期検出はオブジェクト検出とビデオ追跡を使って対処されることが多い。 残念ながら、トラッキングはフレームからフレームへの外観が劇的に変化するオブジェクトには適用できない。 関連する例として,協調学習環境における長時間映像記録による手検出について検討する。 具体的には,部分閉塞や外見の劇的変化に対処できる長期手検出法を開発した。 提案手法では,オブジェクト検出と時間投影,クラスタリング,小領域削除を併用して,長時間ビデオ上で有効な手検出を実現する。 ハンド検出器は、結合(IoU)の0.5の交差点で平均精度(AP)を72%達成した。 データ拡張に最適化した手法を用いて,検出結果を81%に改善した。 この方法はリアルタイムで4.7倍、APは0.5の交差点で81%である。 IoU比を0.2から0.5に改善し,偽陽性手の検出回数を80%削減した。 全体の手検出システムは4倍のリアルタイムで動作する。

Long-term object detection requires the integration of frame-based results over several seconds. For non-deformable objects, long-term detection is often addressed using object detection followed by video tracking. Unfortunately, tracking is inapplicable to objects that undergo dramatic changes in appearance from frame to frame. As a related example, we study hand detection over long video recordings in collaborative learning environments. More specifically, we develop long-term hand detection methods that can deal with partial occlusions and dramatic changes in appearance. Our approach integrates object-detection, followed by time projections, clustering, and small region removal to provide effective hand detection over long videos. The hand detector achieved average precision (AP) of 72% at 0.5 intersection over union (IoU). The detection results were improved to 81% by using our optimized approach for data augmentation. The method runs at 4.7x the real-time with AP of 81% at 0.5 intersection over the union. Our method reduced the number of false-positive hand detections by 80% by improving IoU ratios from 0.2 to 0.5. The overall hand detection system runs at 4x real-time.
翻訳日:2021-10-16 06:06:01 公開日:2021-10-13
# ディープニューラルネットワークアーキテクチャ設計にモメンタムはどのように役立つのか? ほんの少しのケーススタディ

How Does Momentum Benefit Deep Neural Networks Architecture Design? A Few Case Studies ( http://arxiv.org/abs/2110.07034v1 )

ライセンス: Link先を確認
Bao Wang and Hedi Xia and Tan Nguyen and Stanley Osher(参考訳) 本稿では、運動量によるニューラルネットワークアーキテクチャ設計を改善するためのアルゴリズム的および理論的枠組みを提示、レビューする。 ケーススタディとして、再帰ニューラルネットワーク(rnn)、神経常微分方程式(odes)、トランスフォーマーのアーキテクチャ設計において、運動量がどのように改善できるかを検討する。 ニューラルネットワークアーキテクチャへのモメンタムの統合には,理論上,経験上のメリットがいくつかあることを示す。 1) RNNとニューラルODEへの運動量の統合は、RNNとニューラルODEのトレーニングにおいて消滅する勾配問題を克服し、長期的依存を効果的に学習する。 2)ニューラルODEの運動量は、ODEダイナミクスの剛性を低下させ、トレーニングやテストにおける計算効率を大幅に向上させる。 3) 運動量は変圧器の効率と精度を向上させることができる。

We present and review an algorithmic and theoretical framework for improving neural network architecture design via momentum. As case studies, we consider how momentum can improve the architecture design for recurrent neural networks (RNNs), neural ordinary differential equations (ODEs), and transformers. We show that integrating momentum into neural network architectures has several remarkable theoretical and empirical benefits, including 1) integrating momentum into RNNs and neural ODEs can overcome the vanishing gradient issues in training RNNs and neural ODEs, resulting in effective learning long-term dependencies. 2) momentum in neural ODEs can reduce the stiffness of the ODE dynamics, which significantly enhances the computational efficiency in training and testing. 3) momentum can improve the efficiency and accuracy of transformers.
翻訳日:2021-10-15 15:28:51 公開日:2021-10-13
# 準円、回転、非定常二元ブラックホール融合の数値相対性波形の解釈可能なAI予測

Interpretable AI forecasting for numerical relativity waveforms of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2110.06968v1 )

ライセンス: Link先を確認
Asad Khan, E. A. Huerta, Huihuo Zheng(参考訳) 準円、回転、非必要二項ブラックホールの融合を記述した数値相対性理論波形の遅延・合併・リングダウンを学習・予測できるディープラーニング人工知能モデルを提案する。 nrhybsur3dq8サロゲートモデルを用いて、二進ブラックホールの質量比$q\leq8$と個別スピン$|s^z_{\{1,2\}}| \leq 0.8$のパラメータ空間をカバーする$\ell=|m|=2$波形のトレイン、検証、テストセットを作成した。 これらの波形は時刻範囲 $t\in[-5000\textrm{m}, 130\textrm{m}]$ をカバーし、ここで$t=0m$ は波形振幅の最大値として定義されるマージイベントを示す。 私たちはArgonne Leadership Computing FacilityのThetaGPUスーパーコンピュータを使って、150万の波形のトレーニングセットを使用してAIモデルをトレーニングしました。 16のNVIDIA DGX A100ノードを使用しました。それぞれ8つのNVIDIA A100 Tensor Core GPUと2つのAMD Rome CPUで構成されています。 その結果,人工知能は時間範囲$t\in[-100\textrm{m}, 130\textrm{m}]$の数値相対性波形の動的進化を正確に予測できることがわかった。 190,000波形のテストセットをサンプリングすると、対象波形と予測波形の平均重なりは、考慮中のパラメータ空間全体に対して$\gtrsim99\%$であることが分かる。 また, 数値相対性波形の後半部を正確に予測するために, 科学的可視化と加速度計算を組み合わせることで, 初期および後期の波形進化の知識をモデルがどの成分に取り入れるかを同定した。 この研究は、重力波天体物理学のためのスケーラブルで計算効率が高く解釈可能な人工知能モデルの作成を加速することを目的としている。

We present a deep-learning artificial intelligence model that is capable of learning and forecasting the late-inspiral, merger and ringdown of numerical relativity waveforms that describe quasi-circular, spinning, non-precessing binary black hole mergers. We used the NRHybSur3dq8 surrogate model to produce train, validation and test sets of $\ell=|m|=2$ waveforms that cover the parameter space of binary black hole mergers with mass-ratios $q\leq8$ and individual spins $|s^z_{\{1,2\}}| \leq 0.8$. These waveforms cover the time range $t\in[-5000\textrm{M}, 130\textrm{M}]$, where $t=0M$ marks the merger event, defined as the maximum value of the waveform amplitude. We harnessed the ThetaGPU supercomputer at the Argonne Leadership Computing Facility to train our AI model using a training set of 1.5 million waveforms. We used 16 NVIDIA DGX A100 nodes, each consisting of 8 NVIDIA A100 Tensor Core GPUs and 2 AMD Rome CPUs, to fully train our model within 3.5 hours. Our findings show that artificial intelligence can accurately forecast the dynamical evolution of numerical relativity waveforms in the time range $t\in[-100\textrm{M}, 130\textrm{M}]$. Sampling a test set of 190,000 waveforms, we find that the average overlap between target and predicted waveforms is $\gtrsim99\%$ over the entire parameter space under consideration. We also combined scientific visualization and accelerated computing to identify what components of our model take in knowledge from the early and late-time waveform evolution to accurately forecast the latter part of numerical relativity waveforms. This work aims to accelerate the creation of scalable, computationally efficient and interpretable artificial intelligence models for gravitational wave astrophysics.
翻訳日:2021-10-15 15:12:45 公開日:2021-10-13
# シングルGPU上での学習のグラフ埋め込み

Scalable Graph Embedding LearningOn A Single GPU ( http://arxiv.org/abs/2110.06991v1 )

ライセンス: Link先を確認
Azita Nouri, Philip E. Davis, Pradeep Subedi, Manish Parashar(参考訳) グラフ埋め込み技術は、グラフデータを連続的および低次元空間に変換するため、関心が高まっている。 効果的なグラフ分析は、データの背後にあるものをより深く理解し、さまざまな機械学習タスクに役立つ。 現在の実世界のアプリケーションでは、ほとんどのグラフ解析手法は高い計算と空間コストを被る。 これらの方法とシステムは、数千から数百万のノードからなるネットワークを処理できる。 しかし、大規模ネットワークへのスケーリングは依然として課題である。 グラフ埋め込みシステムのトレーニングの複雑さは、GPUのような既存のアクセラレータを使用する必要がある。 本稿では,大規模グラフの埋め込み学習における課題に対処する,ハイブリッドCPU-GPUフレームワークを提案する。 本手法の性能は,従来のベンチマークシステムと定性的,定量的に比較される。 また,本システムでは,単一マシンの総メモリ容量より桁違いに大きいデータセットにトレーニングをスケールできることも示している。 学習した組込みの有効性は、複数の下流アプリケーションで評価される。 実験の結果,性能と精度の観点から学習埋め込みの有効性が示唆された。

Graph embedding techniques have attracted growing interest since they convert the graph data into continuous and low-dimensional space. Effective graph analytic provides users a deeper understanding of what is behind the data and thus can benefit a variety of machine learning tasks. With the current scale of real-world applications, most graph analytic methods suffer high computation and space costs. These methods and systems can process a network with thousands to a few million nodes. However, scaling to large-scale networks remains a challenge. The complexity of training graph embedding system requires the use of existing accelerators such as GPU. In this paper, we introduce a hybrid CPU-GPU framework that addresses the challenges of learning embedding of large-scale graphs. The performance of our method is compared qualitatively and quantitatively with the existing embedding systems on common benchmarks. We also show that our system can scale training to datasets with an order of magnitude greater than a single machine's total memory capacity. The effectiveness of the learned embedding is evaluated within multiple downstream applications. The experimental results indicate the effectiveness of the learned embedding in terms of performance and accuracy.
翻訳日:2021-10-15 15:11:06 公開日:2021-10-13
# 異種マルチgpuサーバ上でのスパース深層学習のための適応的弾性トレーニング

Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers ( http://arxiv.org/abs/2110.07029v1 )

ライセンス: Link先を確認
Yujing Ma, Florin Rusu, Kesheng Wu, Alexander Sim(参考訳) 極端なマルチラベル分類アプリケーションによって動機付けられ,マルチGPUサーバにおけるスパースデータよりも深層学習モデルを訓練することを検討する。 トレーニングバッチ間の非ゼロ機能数と固有のGPUの不均一性の違いは、精度を制限し、収束時間を増やすために組み合わせられる。 本稿では, 動的スケジューリング, 適応バッチサイズスケーリング, 正規化モデルマージを特徴とする異種マルチGPUに対する適応弾性モデル平均確率勾配勾配アルゴリズムであるAdaptive SGDを提案する。 バッチをGPUに静的に分割する代わりに、バッチは相対的な処理速度に基づいてルーティングされる。 バッチサイズスケーリングは、より高速なGPUにより大きなバッチを割り当て、より遅いGPUに小さなバッチを割り当てる。 正規化されたモデルマージは、割り当てられたバッチに基づいて各GPUの最適な重みを計算する。 実験により、Adaptive SGDは4つの最先端ソリューションを時間と精度で上回り、GPUの数でスケーラブルであることを示す。

Motivated by extreme multi-label classification applications, we consider training deep learning models over sparse data in multi-GPU servers. The variance in the number of non-zero features across training batches and the intrinsic GPU heterogeneity combine to limit accuracy and increase the time to convergence. We address these challenges with Adaptive SGD, an adaptive elastic model averaging stochastic gradient descent algorithm for heterogeneous multi-GPUs that is characterized by dynamic scheduling, adaptive batch size scaling, and normalized model merging. Instead of statically partitioning batches to GPUs, batches are routed based on the relative processing speed. Batch size scaling assigns larger batches to the faster GPUs and smaller batches to the slower ones, with the goal to arrive at a steady state in which all the GPUs perform the same number of model updates. Normalized model merging computes optimal weights for every GPU based on the assigned batches such that the combined model achieves better accuracy. We show experimentally that Adaptive SGD outperforms four state-of-the-art solutions in time-to-accuracy and is scalable with the number of GPUs.
翻訳日:2021-10-15 15:10:53 公開日:2021-10-13
# 学習正規化器を用いたハイパーネットを用いたロバストMIMO検出

Robust MIMO Detection using Hypernetworks with Learned Regularizers ( http://arxiv.org/abs/2110.07053v1 )

ライセンス: Link先を確認
Nicolas Zilberstein, Chris Dick, Rahman Doost-Mohammady, Ashutosh Sabharwal, Santiago Segarra(参考訳) マルチインプット・マルチアウトプット(MIMO)システムにおける最適シンボル検出はNPハード問題として知られている。 近年,計算複雑性を抑えつつ,ニューラルネットワークを用いた最適解に合理的に近づくことへの関心が高まっている。 しかし、ディープラーニングに基づく既存の研究は、様々なチャネルでうまく機能する汎用ネットワークを設計することが難しいことを示している。 本研究では,シンボル誤り率 (ser) の性能とチャネルの一般化のバランスをとろうとする手法を提案する。 提案手法は,特定のチャネル上でうまく動作するニューラルネットワークに基づく検出器のパラメータを生成するハイパーネットワークに基づいている。 本稿では,ハイパーネットワークのトレーニングをチャネル固有法の事前学習インスタンスで規則化する汎用フレームワークを提案する。 数値実験により,提案手法は,特定の分布から引き出された全てのチャネルに対してよく一般化しながら,事前指定したチャネル実現に対して高い性能を示すことを示す。

Optimal symbol detection in multiple-input multiple-output (MIMO) systems is known to be an NP-hard problem. Recently, there has been a growing interest to get reasonably close to the optimal solution using neural networks while keeping the computational complexity in check. However, existing work based on deep learning shows that it is difficult to design a generic network that works well for a variety of channels. In this work, we propose a method that tries to strike a balance between symbol error rate (SER) performance and generality of channels. Our method is based on hypernetworks that generate the parameters of a neural network-based detector that works well on a specific channel. We propose a general framework by regularizing the training of the hypernetwork with some pre-trained instances of the channel-specific method. Through numerical experiments, we show that our proposed method yields high performance for a set of prespecified channel realizations while generalizing well to all channels drawn from a specific distribution.
翻訳日:2021-10-15 15:10:32 公開日:2021-10-13
# 変分因果予測のためのワッサーシュタイン空間の分散最小化

Variance Minimization in the Wasserstein Space for Invariant Causal Prediction ( http://arxiv.org/abs/2110.07064v1 )

ライセンス: Link先を確認
Guillaume Martinet, Alexander Strzalkowski, Barbara E. Engelhardt(参考訳) 結果に対する強力な予測器の選択は、機械学習の基本的なタスクである。 しかしながら、いくつかの質問は、結果に因果的に影響を及ぼす予測者を特定することでのみ答えられる。 この因果推論問題に対する最近のアプローチは、異なる実験環境(Peters et al., 2016; Heinze-Deml et al., 2018)における因果機構の不変性を利用する。 This method, invariant causal prediction (ICP), has a substantial computational defect -- the runtime scales exponentially with the number of possible causal variables. In this work, we show that the approach taken in ICP may be reformulated as a series of nonparametric tests that scales linearly in the number of predictors. Each of these tests relies on the minimization of a novel loss function -- the Wasserstein variance -- that is derived from tools in optimal transport theory and is used to quantify distributional variability across environments. 我々は,本手法が同定可能な直接原因のセットを回復できるという軽度の仮定の下で証明し,他のベンチマーク因果発見アルゴリズムと競合することを実験で実証した。

Selecting powerful predictors for an outcome is a cornerstone task for machine learning. However, some types of questions can only be answered by identifying the predictors that causally affect the outcome. A recent approach to this causal inference problem leverages the invariance property of a causal mechanism across differing experimental environments (Peters et al., 2016; Heinze-Deml et al., 2018). This method, invariant causal prediction (ICP), has a substantial computational defect -- the runtime scales exponentially with the number of possible causal variables. In this work, we show that the approach taken in ICP may be reformulated as a series of nonparametric tests that scales linearly in the number of predictors. Each of these tests relies on the minimization of a novel loss function -- the Wasserstein variance -- that is derived from tools in optimal transport theory and is used to quantify distributional variability across environments. We prove under mild assumptions that our method is able to recover the set of identifiable direct causes, and we demonstrate in our experiments that it is competitive with other benchmark causal discovery algorithms.
翻訳日:2021-10-15 15:09:52 公開日:2021-10-13
# 非IIDデータセットを用いたセル接続型UAVネットワーク上のフェデレーション学習

Federated Learning Over Cellular-Connected UAV Networks with Non-IID Datasets ( http://arxiv.org/abs/2110.07077v1 )

ライセンス: Link先を確認
Di-Chun Liang, Chun-Hung Liu, Rung-Hung Gau, Lu Wei(参考訳) フェデレートラーニング(FL)は、データプライバシの保護とネットワークリソース消費の低減のために、生のデータ転送なしで学習タスクを達成できるため、特に無線学習シナリオに適した、有望な分散学習技術である。 しかし、無線通信におけるflの研究は、ネットワークの干渉とモバイルクライアント間のデータの不均一性によってデータ配信が停止するflの基本的な性能を深く研究していない。 無線通信におけるFLの性能を正確に評価するために,UAVクライアントからサーバへのデータ配信障害とUAVクライアントのデータセット間のデータの均一性を特徴付けるセル接続型無人航空機(UAV)ネットワーク上での新しいFLモデルを提案する。 提案するflモデルの収束性能を評価するためのシミュレーションベースアプローチを考案する。 次に,セル接続型uavネットワークにおけるアップリンク停止確率の抽出可能な解析フレームワークを提案し,データ配信停止とuav展開によって提案されるflモデルがどのように影響を受けるかを明らかにする。 推定性能とシミュレーション性能の整合性を示すため, 大規模数値シミュレーションを行った。

Federated learning (FL) is a promising distributed learning technique particularly suitable for wireless learning scenarios since it can accomplish a learning task without raw data transportation so as to preserve data privacy and lower network resource consumption. However, current works on FL over wireless communication do not profoundly study the fundamental performance of FL that suffers from data delivery outage due to network interference and data heterogeneity among mobile clients. To accurately exploit the performance of FL over wireless communication, this paper proposes a new FL model over a cellular-connected unmanned aerial vehicle (UAV) network, which characterizes data delivery outage from UAV clients to their server and data heterogeneity among the datasets of UAV clients. We devise a simulation-based approach to evaluating the convergence performance of the proposed FL model. We then propose a tractable analytical framework of the uplink outage probability in the cellular-connected UAV network and derive a neat expression of the uplink outage probability, which reveals how the proposed FL model is impacted by data delivery outage and UAV deployment. Extensive numerical simulations are conducted to show the consistency between the estimated and simulated performances.
翻訳日:2021-10-15 15:09:34 公開日:2021-10-13
# ニューラルシミュレーションに基づく銀河中心を$\gamma$-ray過剰に特徴付ける推論手法

A neural simulation-based inference approach for characterizing the Galactic Center $\gamma$-ray excess ( http://arxiv.org/abs/2110.06931v1 )

ライセンス: Link先を確認
Siddharth Mishra-Sharma and Kyle Cranmer(参考訳) フェルミ・ガンマ線銀河中心超過(英語版)(gce)の性質は10年以上にわたって永続的な謎のままである。 過剰な物質は暗黒物質の消滅によって予想される放出と広く相容れないが、ミリ秒パルサーのような未解決の天体物理学的な点源の人口の観点で説明できる。 GCEの起源を明らかにする努力は、特に銀河起源の拡散放出の不完全な理解によって妨げられている。 これは、暗黒物質の起源が予想されるように、滑らかな放出を比較的明るい未解決の点源の集団に期待されるより「乱雑な」放出と頑強に区別するのを難しくする突発的な特徴をもたらす可能性がある。 本稿では,シミュレーションに基づく推論,特に正規化フローを用いた密度推定手法の進歩を利用して,未解決の点源集団を含むモデル成分のGCEへの寄与を特徴づける。 光子数の統計分布に基づく従来の手法と比較して、我々の機械学習に基づく手法は、ギャラクティックセンター放射の所定のモデルに含まれる情報をより多く活用することができ、特にガンマ線地図における画素間空間相関を考慮した後部パラメータ推定を行うことができる。 これにより、特定のモデルの誤特定に対して明らかに耐性が増す。 Fermiデータに適用した場合、従来の手法と比較してGCEフラックスのごく一部を未解決の点源と総称する。 それでも我々は、GCEの非無視的な分数を構成するためのそのような貢献を、考慮されたすべての分析のバリエーションに当てはめ、最低でも38^{+9}_{-19}\%$は、ベースライン解析において未解決の点源に起因する余剰の帰結である。

The nature of the Fermi gamma-ray Galactic Center Excess (GCE) has remained a persistent mystery for over a decade. Although the excess is broadly compatible with emission expected due to dark matter annihilation, an explanation in terms of a population of unresolved astrophysical point sources e.g., millisecond pulsars, remains viable. The effort to uncover the origin of the GCE is hampered in particular by an incomplete understanding of diffuse emission of Galactic origin. This can lead to spurious features that make it difficult to robustly differentiate smooth emission, as expected for a dark matter origin, from more "clumpy" emission expected for a population of relatively bright, unresolved point sources. We use recent advancements in the field of simulation-based inference, in particular density estimation techniques using normalizing flows, in order to characterize the contribution of modeled components, including unresolved point source populations, to the GCE. Compared to traditional techniques based on the statistical distribution of photon counts, our machine learning-based method is able to utilize more of the information contained in a given model of the Galactic Center emission, and in particular can perform posterior parameter estimation while accounting for pixel-to-pixel spatial correlations in the gamma-ray map. This makes the method demonstrably more resilient to certain forms of model misspecification. On application to Fermi data, the method generically attributes a smaller fraction of the GCE flux to unresolved point sources when compared to traditional approaches. We nevertheless infer such a contribution to make up a non-negligible fraction of the GCE across all analysis variations considered, with at least $38^{+9}_{-19}\%$ of the excess attributed to unresolved points sources in our baseline analysis.
翻訳日:2021-10-15 15:05:32 公開日:2021-10-13
# モンテカルロ事象に対するスタイルに基づく量子生成逆ネットワーク

Style-based quantum generative adversarial networks for Monte Carlo events ( http://arxiv.org/abs/2110.06933v1 )

ライセンス: Link先を確認
Carlos Bravo-Prieto, Julien Baglio, Marco C\`e, Anthony Francis, Dorota M. Grabowska, Stefano Carrazza(参考訳) 大型ハドロン衝突型加速器(LHC)における粒子物理過程のシミュレーションに用いるモンテカルロイベント生成のための生成逆学習の文脈における代替量子ジェネレータアーキテクチャの提案と評価を行った。 我々は、既知の分布から生成された人工データに量子ネットワークを実装することにより、この手法を検証する。 ネットワークは、特定のLHC散乱過程のモンテカルロ生成データセットに適用される。 新しい量子ジェネレータアーキテクチャは、浅い深度ネットワークを維持しながら最先端の実装を改善する。 さらに、量子発生器は、小さなトレーニングサンプルセットで訓練しても、基礎となる分布関数をうまく学習する。 我々は,この新しい手法を,トラップイオンと超伝導技術という2つの異なる量子ハードウェアアーキテクチャ上に展開し,ハードウェア非依存の生存性をテストする。

We propose and assess an alternative quantum generator architecture in the context of generative adversarial learning for Monte Carlo event generation, used to simulate particle physics processes at the Large Hadron Collider (LHC). We validate this methodology by implementing the quantum network on artificial data generated from known underlying distributions. The network is then applied to Monte Carlo-generated datasets of specific LHC scattering processes. The new quantum generator architecture leads to an improvement in state-of-the-art implementations while maintaining shallow-depth networks. Moreover, the quantum generator successfully learns the underlying distribution functions even if trained with small training sample sets; this is particularly interesting for data augmentation applications. We deploy this novel methodology on two different quantum hardware architectures, trapped-ion and superconducting technologies, to test its hardware-independent viability.
翻訳日:2021-10-15 15:05:00 公開日:2021-10-13
# 時空間拡張が自己教師付き視聴覚表現学習に及ぼす影響

The Impact of Spatiotemporal Augmentations on Self-Supervised Audiovisual Representation Learning ( http://arxiv.org/abs/2110.07082v1 )

ライセンス: Link先を確認
Haider Al-Tahan and Yalda Mohsenzadeh(参考訳) 聴覚と視覚のコントラスト学習は,個別に検討した結果,極めて成功した。 しかし、両ドメインから学んだ原則を統合して効果的な音声視覚表現を実現するには、依然として大きな疑問がある。 本稿では,ラベルのないビデオから視聴覚表現を学ぶためのコントラストフレームワークを提案する。 自己指導型プレトレーニングにおける強化のタイプと強度は、対照的なフレームワークが十分に機能する上で重要な役割を担っている。 そこで本研究では,映像の時間的一貫性を損なわない時空間変換が最も効果的であることを示す。 さらに,これらの変換の有効性は,より高い時間分解能とより強い変換強度でスケールすることを示した。 サンプリングベース時間拡張のみで事前学習した自己教師モデルと比較して,時間拡張で事前学習した自己教師モデルは,AVEデータセット上での線形分類器の性能が約6.5%向上した。 最後に、単純さにもかかわらず、提案する変換は、自己教師付き学習フレームワーク(simsiam、mocov3など)とベンチマークオーディオビジュアルデータセット(ave)でうまく機能することを示す。

Contrastive learning of auditory and visual perception has been extremely successful when investigated individually. However, there are still major questions on how we could integrate principles learned from both domains to attain effective audiovisual representations. In this paper, we present a contrastive framework to learn audiovisual representations from unlabeled videos. The type and strength of augmentations utilized during self-supervised pre-training play a crucial role for contrastive frameworks to work sufficiently. Hence, we extensively investigate composition of temporal augmentations suitable for learning audiovisual representations; we find lossy spatio-temporal transformations that do not corrupt the temporal coherency of videos are the most effective. Furthermore, we show that the effectiveness of these transformations scales with higher temporal resolution and stronger transformation intensity. Compared to self-supervised models pre-trained on only sampling-based temporal augmentation, self-supervised models pre-trained with our temporal augmentations lead to approximately 6.5% gain on linear classifier performance on AVE dataset. Lastly, we show that despite their simplicity, our proposed transformations work well across self-supervised learning frameworks (SimSiam, MoCoV3, etc), and benchmark audiovisual dataset (AVE).
翻訳日:2021-10-15 14:50:36 公開日:2021-10-13
# 新型コロナウイルスなどの新興ドメインに対するオープンドメイン質問応答

Open-Domain Question-Answering for COVID-19 and Other Emergent Domains ( http://arxiv.org/abs/2110.06962v1 )

ライセンス: Link先を確認
Sharon Levy, Kevin Mo, Wenhan Xiong, William Yang Wang(参考訳) 2019年末以降、covid-19は最新のバイオメディカルドメインとして急速に登場し、新たな情報が急増した。 他の創発的ドメインと同様に、話題を取り巻く議論は急速に変化し、誤った情報の普及につながった。 これにより、ユーザーが質問し、信頼できる科学的回答を受け取るためのパブリックスペースが必要になった。 このニーズを満たすために、我々は、大量の文書から自由テキスト質問に対する回答を効率的に見つけるために、オープンドメイン質問回答のタスクに目を向ける。 本研究では,新型コロナウイルスの緊急ドメインのためのシステムを提案する。 利用可能なデータサイズは小さいものの、大規模なcovid-19科学論文のコーパスから回答を収集するシステムのトレーニングに成功しています。 さらに、文書の多様性や複数の回答スパンなど、効果的な再ランク付けと質問応答手法を取り入れた。 我々のオープンドメイン質問応答システムは、他の発展途上ドメインに適応し、修正できる類似システムの迅速な開発モデルとして機能する。

Since late 2019, COVID-19 has quickly emerged as the newest biomedical domain, resulting in a surge of new information. As with other emergent domains, the discussion surrounding the topic has been rapidly changing, leading to the spread of misinformation. This has created the need for a public space for users to ask questions and receive credible, scientific answers. To fulfill this need, we turn to the task of open-domain question-answering, which we can use to efficiently find answers to free-text questions from a large set of documents. In this work, we present such a system for the emergent domain of COVID-19. Despite the small data size available, we are able to successfully train the system to retrieve answers from a large-scale corpus of published COVID-19 scientific papers. Furthermore, we incorporate effective re-ranking and question-answering techniques, such as document diversity and multiple answer spans. Our open-domain question-answering system can further act as a model for the quick development of similar systems that can be adapted and modified for other developing emergent domains.
翻訳日:2021-10-15 14:46:24 公開日:2021-10-13
# 認識認識型安全システムによるサステナビリティ - 次世代ヒューマンマシンインタラクション

Sustainability Through Cognition Aware Safety Systems -- Next Level Human-Machine-Intera ction ( http://arxiv.org/abs/2110.07003v1 )

ライセンス: Link先を確認
Juergen Mangler, Konrad Diwol, Dieter Etz, Stefanie Rinderle-Ma, Alois Ferscha, Gerald Reiner, Wolfgang Kastner, Sebastien Bougain, Christoph Pollak, Michael Haslgr\"ubler(参考訳) 産業安全は、生産シナリオで相互作用する人間、機械、環境の物理的完全性を扱う。 産業安全は、すべての変更が禁止されるフレキシブルな設定につながる厳格な認証プロセスに従う。 工場のフロアにスマートロボティクスとスマート機械が導入され、熟練労働者の不足が相まって、安全シナリオには人間と機械と環境の境界の柔軟な扱いが組み込まれていることが示唆される。 労働者の幸福感を高め、事故を減らし、異なるスキルセットを補うためには、機械と工場のフロアの設定を動的に適応させ、機能的安全要件を引き続き実施する必要がある。 本稿は,(1)3つのシナリオを整理し,潜在的な事故を低減し,生産性を向上させるために,労働環境の動的変化を通じて産業安全機構がいかに強化されるかについて議論する。 2)認知意識安全システム(CASS)とそのアーキテクチャについて紹介する。 CASSの背景にある考え方は、人間の負荷、ストレス、注意に関するAIベースの推論とAIベースのアクションの選択を統合することで、安全停止のトリガーを回避することである。 (3)最後に,CASSの総合的な(3つのボトムライン)影響評価を可能にする定量的性能測定モデルに必要な性能測定基準について述べる。 さらに、特定のシナリオに対するアプローチの実現可能性を探るために、専門家のインタビューに関する詳細なガイドラインも紹介する。

Industrial Safety deals with the physical integrity of humans, machines and the environment when they interact during production scenarios. Industrial Safety is subject to a rigorous certification process that leads to inflexible settings, in which all changes are forbidden. With the progressing introduction of smart robotics and smart machinery to the factory floor, combined with an increasing shortage of skilled workers, it becomes imperative that safety scenarios incorporate a flexible handling of the boundary between humans, machines and the environment. In order to increase the well-being of workers, reduce accidents, and compensate for different skill sets, the configuration of machines and the factory floor should be dynamically adapted, while still enforcing functional safety requirements. The contribution of this paper is as follows: (1) We present a set of three scenarios, and discuss how industrial safety mechanisms could be augmented through dynamic changes to the work environment in order to decrease potential accidents, and thus increase productivity. (2) We introduce the concept of a Cognition Aware Safety System (CASS) and its architecture. The idea behind CASS is to integrate AI based reasoning about human load, stress, and attention with AI based selection of actions to avoid the triggering of safety stops. (3) And finally, we will describe the required performance measurement dimensions for a quantitative performance measurement model to enable a comprehensive (triple bottom line) impact assessment of CASS. Additionally we introduce a detailed guideline for expert interviews to explore the feasibility of the approach for given scenarios.
翻訳日:2021-10-15 14:44:57 公開日:2021-10-13
# テキスト埋め込み,アンダーサンプリング,ディープラーニングによるボンドデフォルト予測

Bond Default Prediction with Text Embeddings, Undersampling and Deep Learning ( http://arxiv.org/abs/2110.07035v1 )

ライセンス: Link先を確認
Luke Jordan(参考訳) 市債のデフォルト予測の特別で重要な問題は、事前訓練されたトランスフォーマーネットワークからのテキスト埋め込み、完全に接続されたニューラルネットワーク、合成オーバーサンプリングの組み合わせによって解決される。 これらの手法を組み合わせることで、極端に不均衡なデータ上で、人間の推定値、線形モデル、強化アンサンブルモデルよりも性能が大幅に向上する。 市債デフォルトの0.2%未満であるが、本手法は発行時のデフォルト10のうち9つを債券格付けを使わずに、非デフォルト債の0.1%未満での偽陽性のコストで予測している。 その結果、社会に不可欠な地方公共財の資本コストを削減し、従来個人的信用や公益(あるいは国民固定所得)に用いられてきた技術や、次世代の埋め込み技術等を、自国的信用決定に導入できることが約束されている。

The special and important problems of default prediction for municipal bonds are addressed using a combination of text embeddings from a pre-trained transformer network, a fully connected neural network, and synthetic oversampling. The combination of these techniques provides significant improvement in performance over human estimates, linear models, and boosted ensemble models, on data with extreme imbalance. Less than 0.2% of municipal bonds default, but our technique predicts 9 out of 10 defaults at the time of issue, without using bond ratings, at a cost of false positives on less than 0.1% non-defaulting bonds. The results hold the promise of reducing the cost of capital for local public goods, which are vital for society, and bring techniques previously used in personal credit and public equities (or national fixed income), as well as the current generation of embedding techniques, to sub-sovereign credit decisions.
翻訳日:2021-10-15 14:44:32 公開日:2021-10-13
# 音声からテキストへのSVDと分解TDNNのアプローチの比較

Comparison of SVD and factorized TDNN approaches for speech to text ( http://arxiv.org/abs/2110.07027v1 )

ライセンス: Link先を確認
Jeffrey Josanne Michael, Nagendra Kumar Goel, Navneeth K, Jonas Robertson, Shravan Mishra(参考訳) 本研究は,ハイブリッドHMM-DNNのRTFと単語誤り率の低減に重点を置いている。 ベースラインシステムは,TDNN層とLSTM層を用いたアーキテクチャを用いている。 このアーキテクチャは、特に軽量で残響な環境に役立ちます。 しかし、これらのモデルは望ましいよりも多くの計算を必要とする傾向にある。 本研究では,特異値分解(SVD)を用いた代替アーキテクチャをTDNN層に適用し,RTFの低減とLSTMセルのアフィン変換について検討する。 本手法は,SVDが学習前に導入したものと類似したボトルネック層を特定することと比較する。 さらに、デコードグラフの検索スペースを減らし、リアルタイムアプリケーションでの操作に適したものにしました。 対象とする試験分布の1つに適合するため,本データセットの残響バージョンと合わせて,RTFの61.57%,WERの約1%の相対的な減少をFisherデータに基づいてトレーニングしたアーキテクチャに対して報告した。

This work concentrates on reducing the RTF and word error rate of a hybrid HMM-DNN. Our baseline system uses an architecture with TDNN and LSTM layers. We find this architecture particularly useful for lightly reverberated environments. However, these models tend to demand more computation than is desirable. In this work, we explore alternate architectures employing singular value decomposition (SVD) is applied to the TDNN layers to reduce the RTF, as well as to the affine transforms of every LSTM cell. We compare this approach with specifying bottleneck layers similar to those introduced by SVD before training. Additionally, we reduced the search space of the decoding graph to make it a better fit to operate in real-time applications. We report -61.57% relative reduction in RTF and almost 1% relative decrease in WER for our architecture trained on Fisher data along with reverberated versions of this dataset in order to match one of our target test distributions.
翻訳日:2021-10-15 14:40:06 公開日:2021-10-13
# 線虫嚢胞の高スループット表現型

High-throughput Phenotyping of Nematode Cysts ( http://arxiv.org/abs/2110.07057v1 )

ライセンス: Link先を確認
Long Chen, Matthias Daub, Hans-Georg Luigs, Marcus Jansen, Martin Strauch, Dorit Merhof(参考訳) ビートシスト線虫(英: beet cyst nematode、BCN)は、世界規模で作物を害する害虫である。 本稿では,bcn感染を定量化し,表現型による線虫嚢胞を特徴付けるコンピュータビジョンに基づく高スループットシステムを提案する。 標準化された環境で土壌抽出物の顕微鏡画像を記録すると、サンプルセグメンテーションアルゴリズムがこれらのサンプルの線虫嚢胞を検出するのに役立つ。 高速で正確な嚢胞計数を超えて、画像ベースのアプローチは、異なる条件下での嚢胞の密度の定量化と形態学的特徴の表現を可能にし、農業および植物育種研究における高スループット応用の基礎を提供する。

The beet cyst nematode (BCN) Heterodera schachtii is a plant pest responsible for crop loss on a global scale. Here, we introduce a high-throughput system based on computer vision that allows quantifying BCN infestation and characterizing nematode cysts through phenotyping. After recording microscopic images of soil extracts in a standardized setting, an instance segmentation algorithm serves to detect nematode cysts in these samples. Going beyond fast and precise cyst counting, the image-based approach enables quantification of cyst density and phenotyping of morphological features of cysts under different conditions, providing the basis for high-throughput applications in agriculture and plant breeding research.
翻訳日:2021-10-15 14:37:43 公開日:2021-10-13
# esベースのjacobianが2レベル最適化を高速化

ES-Based Jacobian Enables Faster Bilevel Optimization ( http://arxiv.org/abs/2110.07004v1 )

ライセンス: Link先を確認
Daouda Sow, Kaiyi Ji, Yingbin Liang(参考訳) bilevel optimization (bo) は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。 しかし、BOのネスト構造のため、既存の勾配に基づく手法では、ヤコビアンまたはヘシアンベクトル計算による2階微分近似が必要となる。 本研究では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過次性における応答ヤコビ行列を近似し,従って2次計算を完全に除去する。 我々はこのアルゴリズムをESJ(es-based Jacobian methodの略)と呼び、ESJ-Sとして確率的な設定に拡張する。 理論的には,アルゴリズムの収束保証と計算複雑性を特徴付ける。 実験により,提案アルゴリズムの諸問題に対する技術手法の現状と比較し,その優位性を実証した。 特に,数ショットのメタラーニング問題における実験では,ミニイメージネットデータセット上でResNet-12ネットワークの1200万のパラメータをメタラーニングし,ESベースのバイレベルアプローチのスケーラビリティと大規模環境における実現可能性を示す。

Bilevel optimization (BO) has arisen as a powerful tool for solving many modern machine learning problems. However, due to the nested structure of BO, existing gradient-based methods require second-order derivative approximations via Jacobian- or/and Hessian-vector computations, which can be very costly in practice, especially with large neural network models. In this work, we propose a novel BO algorithm, which adopts Evolution Strategies (ES) based method to approximate the response Jacobian matrix in the hypergradient of BO, and hence fully eliminates all second-order computations. We call our algorithm as ESJ (which stands for the ES-based Jacobian method) and further extend it to the stochastic setting as ESJ-S. Theoretically, we characterize the convergence guarantee and computational complexity for our algorithms. Experimentally, we demonstrate the superiority of our proposed algorithms compared to the state of the art methods on various bilevel problems. Particularly, in our experiment in the few-shot meta-learning problem, we meta-learn the twelve millions parameters of a ResNet-12 network over the miniImageNet dataset, which evidently demonstrates the scalability of our ES-based bilevel approach and its feasibility in the large-scale setting.
翻訳日:2021-10-15 14:04:18 公開日:2021-10-13
# 数ショットクラスインクリメンタル学習のための部分空間正規化器

Subspace Regularizers for Few-Shot Class Incremental Learning ( http://arxiv.org/abs/2110.07059v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Ekin Aky\"urek, Derry Wijaya, Jacob Andreas(参考訳) 限定されたラベル付きデータを持つ拡張されたクラス群を識別するために訓練された分類器を更新するという問題は、非定常環境にデプロイされる機械学習システムにとって重要な課題である。 既存のアプローチでは、チューニングや再利用が難しい複雑なモデルアーキテクチャとトレーニング手順に依存しています。 本稿では,ごく少量のインクリメンタル学習に通常のロジスティック回帰分類器を使用できる,極めて単純な手法を提案する。 このアプローチの鍵となるのは、既存のクラスの重みにまたがる部分空間の近くに新しいクラスの重みベクトルを配置する、新しい部分空間正規化スキームの族である。 事前訓練された畳み込み特徴抽出器と組み合わせると、サブスペース正規化で訓練されたロジスティック回帰モデルは、miniimagenetデータセット上で最大22%の最小ショットインクリメンタルな画像分類に対する特別な最先端のアプローチよりも優れている。 その単純さのため、サブスペースの正規化は、新しいクラス(自然言語で指定されたクラス名や記述を含む)に関する追加のバックグラウンド情報を組み込むように簡単に拡張できる。 その結果,クラス表現の単純幾何正規化は連続学習に有効なツールであることがわかった。

Few-shot class incremental learning -- the problem of updating a trained classifier to discriminate among an expanded set of classes with limited labeled data -- is a key challenge for machine learning systems deployed in non-stationary environments. Existing approaches to the problem rely on complex model architectures and training procedures that are difficult to tune and re-use. In this paper, we present an extremely simple approach that enables the use of ordinary logistic regression classifiers for few-shot incremental learning. The key to this approach is a new family of subspace regularization schemes that encourage weight vectors for new classes to lie close to the subspace spanned by the weights of existing classes. When combined with pretrained convolutional feature extractors, logistic regression models trained with subspace regularization outperform specialized, state-of-the-art approaches to few-shot incremental image classification by up to 22% on the miniImageNet dataset. Because of its simplicity, subspace regularization can be straightforwardly extended to incorporate additional background information about the new classes (including class names and descriptions specified in natural language); these further improve accuracy by up to 2%. Our results show that simple geometric regularization of class representations offers an effective tool for continual learning.
翻訳日:2021-10-15 13:27:57 公開日:2021-10-13
# バンドルネットワーク:ファイバーバンドル、局所自明化、多対一写像探索のための生成的アプローチ

Bundle Networks: Fiber Bundles, Local Trivializations, and a Generative Approach to Exploring Many-to-one Maps ( http://arxiv.org/abs/2110.06983v1 )

ライセンス: Link先を確認
Nico Courts and Henry Kvinge(参考訳) 多対一の地図は機械学習においてユビキタスであり、複数の異なる画像を割り当てる画像認識モデルから、"cat"の概念への"cat"から、異なる時系列を単一のスカラー回帰値に割り当てる時系列予測モデルまでである。 このようなモデルの第一の用途は、自然に各入力に正しい出力を関連付けることであるが、多くの問題において、出力空間の固定$y$に対して$f(x) = y$となるような入力値の集合であるモデルのファイバーの探索、理解、サンプリングが可能であることも有用である。 本稿では,一般的なジェネレーティブアーキテクチャがこのようなタスクには適さないことを示す。 そこで本研究では,(微分)トポロジからのファイバーバンドルの概念に基づいて,新たな生成アーキテクチャであるバンドルネットワークを導入する。 BundleNetsは、局所的な自明化の概念を利用して、空間を局所的に製品空間に分解し、マップの多対一の性質をきれいにエンコードする。 この分解を BundleNets で実施し、最先端の非可逆成分を利用することで、ネットワークのファイバの調査が自然になる。

Many-to-one maps are ubiquitous in machine learning, from the image recognition model that assigns a multitude of distinct images to the concept of "cat" to the time series forecasting model which assigns a range of distinct time-series to a single scalar regression value. While the primary use of such models is naturally to associate correct output to each input, in many problems it is also useful to be able to explore, understand, and sample from a model's fibers, which are the set of input values $x$ such that $f(x) = y$, for fixed $y$ in the output space. In this paper we show that popular generative architectures are ill-suited to such tasks. Motivated by this we introduce a novel generative architecture, a Bundle Network, based on the concept of a fiber bundle from (differential) topology. BundleNets exploit the idea of a local trivialization wherein a space can be locally decomposed into a product space that cleanly encodes the many-to-one nature of the map. By enforcing this decomposition in BundleNets and by utilizing state-of-the-art invertible components, investigating a network's fibers becomes natural.
翻訳日:2021-10-15 13:22:17 公開日:2021-10-13
# ディープラーニング圧縮における分散のロバスト性

Out-of-Distribution Robustness in Deep Learning Compression ( http://arxiv.org/abs/2110.07007v1 )

ライセンス: Link先を確認
Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti(参考訳) 近年、ディープニューラルネットワーク(DNN)圧縮システムは、多くの天然資源のソースコードを設計するのに非常に効果的であることが証明されている。 しかし、他の多くの機械学習システムと同様に、これらの圧縮機は分散シフトの脆弱性と、実際のアプリケーションを減らす分散(ood)データに苦しんでいる。 本稿では,OODロバスト圧縮の研究を開始する。 分散ロバスト最適化(DRO)を用いてDNN圧縮機を訓練する手法と、構造化ラテント符号を用いる手法の2つの原理に基づくアルゴリズム的およびアーキテクチャ的枠組みを,両タイプの曖昧性集合(ワッサースタイン球と群シフト)に対して頑健性を考慮して提案する。 以上の結果から,両手法が標準DNN圧縮機と比較して頑健であり,構造コードを用いることでDRO圧縮機よりも優れた性能が得られることが示された。 強靭性と歪みのトレードオフを観察し,これらの知見を理論的に特定の情報源に対して相関させる。

In recent years, deep neural network (DNN) compression systems have proved to be highly effective for designing source codes for many natural sources. However, like many other machine learning systems, these compressors suffer from vulnerabilities to distribution shifts as well as out-of-distribution (OOD) data, which reduces their real-world applications. In this paper, we initiate the study of OOD robust compression. Considering robustness to two types of ambiguity sets (Wasserstein balls and group shifts), we propose algorithmic and architectural frameworks built on two principled methods: one that trains DNN compressors using distributionally-rob ust optimization (DRO), and the other which uses a structured latent code. Our results demonstrate that both methods enforce robustness compared to a standard DNN compressor, and that using a structured code can be superior to the DRO compressor. We observe tradeoffs between robustness and distortion and corroborate these findings theoretically for a specific class of sources.
翻訳日:2021-10-15 13:21:53 公開日:2021-10-13
# 効率的なNLPを目指して:標準評価と強力なベースライン

Towards Efficient NLP: A Standard Evaluation and A Strong Baseline ( http://arxiv.org/abs/2110.07038v1 )

ライセンス: Link先を確認
Xiangyang Liu, Tianxiang Sun, Junliang He, Lingling Wu, Xinyu Zhang, Hao Jiang, Zhao Cao, Xuanjing Huang, Xipeng Qiu(参考訳) 超小型の事前学習言語モデルは、様々なNLPタスクの精度を新しい最先端(SOTA)に押し上げた。 リーチレスSOTAの精度を追求するよりも、効率性などの他の側面の改善を追求する作品が多く、「SOTAパレート」に繋がる。 精度と異なり、効率の指標は異なる研究によって異なり、かなり比較することは困難である。 そこで本研究では, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。 ELUEは、様々な言語理解タスクのためのPareto Frontの描写に特化しており、メソッドがParetoの改善をどの程度達成するかを判断することができる。 ベンチマークに加えて、私たちは強力なベースラインであるelasticbertの事前トレーニングとリリースも行っています。 ElasticBERTは、オンデマンドでモデルレイヤを削減できるという点で静的である。 ElasticBERTは動的で、入力に条件付きモデルレイヤの一部を選択的に実行する。 我々は,ElasticBERTの単純さにもかかわらず,SOTA圧縮および早期出口モデルに匹敵する性能を示した。 ELUEベンチマークはhttp://eluebenchmark .fastnlp.top/で公開されている。

Supersized pre-trained language models have pushed the accuracy of various NLP tasks to a new state-of-the-art (SOTA). Rather than pursuing the reachless SOTA accuracy, most works are pursuing improvement on other dimensions such as efficiency, leading to "Pareto SOTA". Different from accuracy, the metric for efficiency varies across different studies, making them hard to be fairly compared. To that end, this work presents ELUE (Efficient Language Understanding Evaluation), a standard evaluation, and a public leaderboard for efficient NLP models. ELUE is dedicated to depicting the Pareto Front for various language understanding tasks, such that it can tell whether and how much a method achieves Pareto improvement. Along with the benchmark, we also pre-train and release a strong baseline, ElasticBERT, whose elasticity is both static and dynamic. ElasticBERT is static in that it allows reducing model layers on demand. ElasticBERT is dynamic in that it selectively executes parts of model layers conditioned on the input. We demonstrate the ElasticBERT, despite its simplicity, outperforms or performs on par with SOTA compressed and early exiting models. The ELUE benchmark is publicly available at http://eluebenchmark .fastnlp.top/.
翻訳日:2021-10-15 12:59:18 公開日:2021-10-13
# Ego4D:エゴ中心ビデオ3000時間で世界中を回る

Ego4D: Around the World in 3,000 Hours of Egocentric Video ( http://arxiv.org/abs/2110.07058v1 )

ライセンス: Link先を確認
Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu, Eric Zhongcong Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph Feichtenhofer, Adriano Fragomeni, Qichen Fu, Christian Fuegen, Abrham Gebreselasie, Cristina Gonzalez, James Hillis, Xuhua Huang, Yifei Huang, Wenqi Jia, Weslie Khoo, Jachym Kolar, Satwik Kottur, Anurag Kumar, Federico Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola Ruiz Puentes, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu, Takuma Yagi, Yunyi Zhu, Pablo Arbelaez, David Crandall, Dima Damen, Giovanni Maria Farinella, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul Joo, Kris Kitani, Haizhou Li, Richard Newcombe, Aude Oliva, Hyun Soo Park, James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba, Lorenzo Torresani, Mingfei Yan, Jitendra Malik(参考訳) Ego4Dは大規模なビデオデータセットとベンチマークスイートである。 世界の74か国と9か国から855人のユニークなカメラ使用者が撮影した数百のシナリオ(家宅、屋外、職場、レジャーなど)にまたがる、毎日3,025時間の日常活動ビデオを提供する。 収集のアプローチは、厳格なプライバシと倫理基準を守り、参加者の同意と関連する堅固な非識別手順を守ります。 ego4dは、研究コミュニティが公開している多様なエゴセントリックビデオのボリュームを劇的に拡大する。 ビデオの一部には、オーディオ、環境の3dメッシュ、目視、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが伴っている。 さらに,過去における初対人視覚体験(エピソード記憶のクエリ),現在(手動操作,音声-視覚対話,ソーシャルインタラクション),未来(予測活動)の理解を中心に,新たなベンチマーク課題を多数提示する。 この膨大な注釈付きデータセットとベンチマークスイートを公に共有することで、私たちは一人称認識のフロンティアを推し進めることを目指している。 プロジェクトページ: https://ego4d-data.o rg/

We introduce Ego4D, a massive-scale egocentric video dataset and benchmark suite. It offers 3,025 hours of daily-life activity video spanning hundreds of scenarios (household, outdoor, workplace, leisure, etc.) captured by 855 unique camera wearers from 74 worldwide locations and 9 different countries. The approach to collection is designed to uphold rigorous privacy and ethics standards with consenting participants and robust de-identification procedures where relevant. Ego4D dramatically expands the volume of diverse egocentric video footage publicly available to the research community. Portions of the video are accompanied by audio, 3D meshes of the environment, eye gaze, stereo, and/or synchronized videos from multiple egocentric cameras at the same event. Furthermore, we present a host of new benchmark challenges centered around understanding the first-person visual experience in the past (querying an episodic memory), present (analyzing hand-object manipulation, audio-visual conversation, and social interactions), and future (forecasting activities). By publicly sharing this massive annotated dataset and benchmark suite, we aim to push the frontier of first-person perception. Project page: https://ego4d-data.o rg/
翻訳日:2021-10-15 12:55:26 公開日:2021-10-13
# ランクへの学習による言語モデリング

Language Modelling via Learning to Rank ( http://arxiv.org/abs/2110.06961v1 )

ライセンス: Link先を確認
Arvid Frydenlund, Gagandeep Singh, Frank Rudzicz(参考訳) 言語モデリング(LM)は,1つの接頭辞を単に予測することから,与えられた文脈を継続できる単語群をランク付けすることまで,トレーニングを再フレーミングすることで,多ラベル構造予測タスクであると考えている。 GPT-2, BERT, ボルン・アゲインモデルなど, 事前学習したLMを用いて, 上位k$のアノテートを避ける。 これは、ランクベースの知識蒸留(KD)に繋がる。 また,事前に学習したlmを必要とせず,確率的でない教師を作成できる手法を,$n$-grams を用いて開発した。 我々は、lmingをランキングタスクとして扱うことができ、事前訓練されたlmを使わずにできるという仮説を確認した。 ランクベースKDは一般にパープレキシティ(PPL)を向上し,Kulback-LeiblerベースのKDと比較して統計的に有意な傾向を示す。 驚いたことに、この方法の単純さを考えると、$N$-gramsは競争力のある教師として機能し、BERTやボルン・アゲインモデルの教師と同様のパフォーマンスを達成する。 GPT-2 は常に最高の教師として機能し、Wiki-02 の Transformer-XL の学生と併用すると、ランクベースの KD は 65.27 から 55.94 に、KLベースの KD は 56.70 に減少する。

We consider language modelling (LM) as a multi-label structured prediction task by re-framing training from solely predicting a single ground-truth word to ranking a set of words which could continue a given context. To avoid annotating top-$k$ ranks, we generate them using pre-trained LMs: GPT-2, BERT, and Born-Again models. This leads to a rank-based form of knowledge distillation (KD). We also develop a method using $N$-grams to create a non-probabilistic teacher which generates the ranks without the need of a pre-trained LM. We confirm the hypotheses that we can treat LMing as a ranking task and that we can do so without the use of a pre-trained LM. We show that rank-based KD generally improves perplexity (PPL), often with statistical significance, when compared to Kullback-Leibler-bas ed KD. Surprisingly, given the simplicity of the method, $N$-grams act as competitive teachers and achieve similar performance as using either BERT or a Born-Again model teachers. GPT-2 always acts as the best teacher, though, and using it and a Transformer-XL student on Wiki-02, rank-based KD reduces a cross-entropy baseline from 65.27 to 55.94 and against a KL-based KD of 56.70.
翻訳日:2021-10-15 12:54:47 公開日:2021-10-13
# 対話的指導に対するニューロシンボリックアプローチによる物体・指示の変動に対するロバスト性の改善

Improving the Robustness to Variations of Objects and Instructions with a Neuro-Symbolic Approach for Interactive Instruction Following ( http://arxiv.org/abs/2110.07031v1 )

ライセンス: Link先を確認
Kazutoshi Shinoda and Yuki Takezawa and Masahiro Suzuki and Yusuke Iwasawa and Yutaka Matsuo(参考訳) 3次元シミュレーション環境でオブジェクトと対話するアクションのシーケンスに、自然言語命令とファーストパーソンビジョンをマッピングするためのベンチマークとして、対話的命令追従タスクが提案されている。 このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではない。 この問題は、視覚と言語入力の小さな変化に対する神経特徴抽出の高感度によるものであると仮定する。 この問題を軽減するため,我々は,生入力の小さな変化にロバストな高レベルな記号表現に対して推論を行うニューロシンボリックアプローチを提案する。 alfredデータセットを用いた実験では,既存のモデルよりも18点,52点,73点,未認識環境におけるtoggleobject, pickupobject,sliceob jectの各サブタスクの成功率を有意に上回っていた。

An interactive instruction following task has been proposed as a benchmark for learning to map natural language instructions and first-person vision into sequences of actions to interact with objects in a 3D simulated environment. We find that an existing end-to-end neural model for this task is not robust to variations of objects and language instructions. We assume that this problem is due to the high sensitiveness of neural feature extraction to small changes in vision and language inputs. To mitigate this problem, we propose a neuro-symbolic approach that performs reasoning over high-level symbolic representations that are robust to small changes in raw inputs. Our experiments on the ALFRED dataset show that our approach significantly outperforms the existing model by 18, 52, and 73 points in the success rate on the ToggleObject, PickupObject, and SliceObject subtasks in unseen environments respectively.
翻訳日:2021-10-15 12:52:11 公開日:2021-10-13
# 教師なし条件付きテキスト生成のためのバグオブベクタオートエンコーダ

Bag-of-Vectors Autoencoders for Unsupervised Conditional Text Generation ( http://arxiv.org/abs/2110.07002v1 )

ライセンス: Link先を確認
Florian Mai and James Henderson(参考訳) テキストオートエンコーダは、潜在空間にマッピングを適用して所望の値に属性を変更することで、教師なし条件付きテキスト生成によく使用される。 最近 Mai et al. (2020) は、オートエンコーダの埋め込み空間におけるこれらの写像を学習する方法である Emb2Emb を提案した。 しかし、それらの手法は単一ベクトル埋め込みを持つオートエンコーダに限られており、保持できる情報の量を制限する。 この問題に対処するために,本手法を,注意に基づくモデルのように,テキストを可変サイズのベクトルの袋にエンコードするbag-of-vectors autoencoders (bov-aes) に拡張する。 これにより、標準的なオートエンコーダよりも長いテキストをエンコードし、再構築することができる。 従来のオートエンコーダと同様,潜在空間における意味のある操作の学習を容易にする正規化手法を提案する。 最後に,入力バッグを新たな損失関数やニューラルアーキテクチャを含む出力バッグにマッピングする方法を学ぶトレーニングスキームに適応する。 教師なし感情伝達と文要約に関する実験により,本手法は標準オートエンコーダよりもかなり優れた性能を示す。

Text autoencoders are often used for unsupervised conditional text generation by applying mappings in the latent space to change attributes to the desired values. Recently, Mai et al. (2020) proposed Emb2Emb, a method to learn these mappings in the embedding space of an autoencoder. However, their method is restricted to autoencoders with a single-vector embedding, which limits how much information can be retained. We address this issue by extending their method to Bag-of-Vectors Autoencoders (BoV-AEs), which encode the text into a variable-size bag of vectors that grows with the size of the text, as in attention-based models. This allows to encode and reconstruct much longer texts than standard autoencoders. Analogous to conventional autoencoders, we propose regularization techniques that facilitate learning meaningful operations in the latent space. Finally, we adapt for a training scheme that learns to map an input bag to an output bag, including a novel loss function and neural architecture. Our experimental evaluations on unsupervised sentiment transfer and sentence summarization show that our method performs substantially better than a standard autoencoder.
翻訳日:2021-10-15 12:31:21 公開日:2021-10-13
# 多目的ベイズ最適化のための出力空間エントロピー探索フレームワーク

Output Space Entropy Search Framework for Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2110.06980v1 )

ライセンス: Link先を確認
Syrine Belakaria, Aryan Deshwal, Janardhan Rao Doppa(参考訳) ブラックボックス型多目的最適化(MOO)の課題を高価な関数評価(実験とも呼ばれる)を用いて検討し,実験の総リソースコストを最小化し,真のPareto集合を近似することを目的とする。 例えば、ハードウェア設計の最適化では、高価な計算シミュレーションを用いて性能、エネルギー、面積オーバーヘッドをトレードオフする設計を見つける必要がある。 鍵となる課題は、最小限のリソースで高品質なソリューションを明らかにする実験のシーケンスを選択することだ。 本稿では,出力空間エントロピー(ose)探索(output space entropy, 出力空間エントロピー)の原理に基づくmoo問題を解くための一般的な枠組みを提案する。 オース探索の原理を適切にインスタンス化し,以下の4つのmoo問題に対して効率的なアルゴリズムを導出する。 1) 実験が高価で正確である最も基本的なem単一忠実性設定 2) 実験を行わずに評価できないemブラックボックス制約の取扱い 3) 資源の消費量とその評価精度が実験によって異なる離散的多元性設定 4)em連続忠実度設定は、連続関数近似が大きな実験空間をもたらす。 多様な合成および実世界のベンチマーク実験により,moo 解の計算効率と精度の両面で,我々のose 検索に基づくアルゴリズムが最先端手法よりも改善していることが示された。

We consider the problem of black-box multi-objective optimization (MOO) using expensive function evaluations (also referred to as experiments), where the goal is to approximate the true Pareto set of solutions by minimizing the total resource cost of experiments. For example, in hardware design optimization, we need to find the designs that trade-off performance, energy, and area overhead using expensive computational simulations. The key challenge is to select the sequence of experiments to uncover high-quality solutions using minimal resources. In this paper, we propose a general framework for solving MOO problems based on the principle of output space entropy (OSE) search: select the experiment that maximizes the information gained per unit resource cost about the true Pareto front. We appropriately instantiate the principle of OSE search to derive efficient algorithms for the following four MOO problem settings: 1) The most basic em single-fidelity setting, where experiments are expensive and accurate; 2) Handling em black-box constraints} which cannot be evaluated without performing experiments; 3) The discrete multi-fidelity setting, where experiments can vary in the amount of resources consumed and their evaluation accuracy; and 4) The em continuous-fidelity setting, where continuous function approximations result in a huge space of experiments. Experiments on diverse synthetic and real-world benchmarks show that our OSE search based algorithms improve over state-of-the-art methods in terms of both computational-effici ency and accuracy of MOO solutions.
翻訳日:2021-10-15 12:30:17 公開日:2021-10-13
# 事前学習画像分類器のFew-Shot適応のためのスケーリング法則

Scaling Laws for the Few-Shot Adaptation of Pre-trained Image Classifiers ( http://arxiv.org/abs/2110.06990v1 )

ライセンス: Link先を確認
Gabriele Prato, Simon Guiroy, Ethan Caballero, Irina Rish, Sarath Chandar(参考訳) ニューラルスケーリング法則の実証科学は、マシンラーニングの将来において、特にGPT-3、CLIP、DALL-eといった大規模事前学習モデルによって達成された最近のブレークスルーに照らして、急速に成長する領域である。 データ、計算、モデルサイズなどのリソースの増加に伴うニューラルネットワークのパフォーマンスの正確な予測は、固定サイズベンチマーク上の固定サイズモデルの従来のポイントワイド比較とは対照的に、複数のスケールにわたるさまざまなアプローチのより包括的な評価を提供する。 本研究では,画像分類において,特に目標データ分布とソース,トレーニング,データ分布とが異なる場合,訓練中に遭遇しない新たな画像クラスを含むという課題について考察する。 現在の主要な目標は、トレーニング済みデータの量が標準画像分類器の限定的一般化性能にどのように影響するかを調べることです。 このような性能改善は,(1)訓練セットのサイズが大きくなるにつれてパワー法則(線形ログログプロット)によって十分に近似され,(2)訓練データとして同一または異なるドメイン(すなわち新しいクラス)から来るターゲットデータの両方に適用される。 我々の発見は、スケールと一般化の関係に新しい光を当てた。

Empirical science of neural scaling laws is a rapidly growing area of significant importance to the future of machine learning, particularly in the light of recent breakthroughs achieved by large-scale pre-trained models such as GPT-3, CLIP and DALL-e. Accurately predicting the neural network performance with increasing resources such as data, compute and model size provides a more comprehensive evaluation of different approaches across multiple scales, as opposed to traditional point-wise comparisons of fixed-size models on fixed-size benchmarks, and, most importantly, allows for focus on the best-scaling, and thus most promising in the future, approaches. In this work, we consider a challenging problem of few-shot learning in image classification, especially when the target data distribution in the few-shot phase is different from the source, training, data distribution, in a sense that it includes new image classes not encountered during training. Our current main goal is to investigate how the amount of pre-training data affects the few-shot generalization performance of standard image classifiers. Our key observations are that (1) such performance improvements are well-approximated by power laws (linear log-log plots) as the training set size increases, (2) this applies to both cases of target data coming from either the same or from a different domain (i.e., new classes) as the training data, and (3) few-shot performance on new classes converges at a faster rate than the standard classification performance on previously seen classes. Our findings shed new light on the relationship between scale and generalization.
翻訳日:2021-10-15 12:29:53 公開日:2021-10-13
# (参考訳) 政策勾配法による動的システムの安定化

Stabilizing Dynamical Systems via Policy Gradient Methods ( http://arxiv.org/abs/2110.06418v1 )

ライセンス: CC BY 4.0
Juan C. Perdomo and Jack Umenberger and Max Simchowitz(参考訳) 未知の制御システムの安定化は、制御システム工学における最も基本的な問題の1つである。 本稿では,完全に観測された力学系を安定化するシンプルなモデルフリーアルゴリズムを提案する。 モデルフリーな手法は、その単純さと柔軟性から実際に人気が高まっているが、直接ポリシー検索による安定化は驚くほど注目されていない。 我々のアルゴリズムは、割引係数が徐々に増大する一連の割引LQR問題を解くことによって進行する。 本手法は,線形系の安定化制御器と,その平衡近傍の滑らかな非線形系を効率的に回収できることを実証する。 当社のアプローチでは,事前作業の大幅な制限,すなわち,事前の安定化管理ポリシの必要性を克服しています。 我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。

Stabilizing an unknown control system is one of the most fundamental problems in control systems engineering. In this paper, we provide a simple, model-free algorithm for stabilizing fully observed dynamical systems. While model-free methods have become increasingly popular in practice due to their simplicity and flexibility, stabilization via direct policy search has received surprisingly little attention. Our algorithm proceeds by solving a series of discounted LQR problems, where the discount factor is gradually increased. We prove that this method efficiently recovers a stabilizing controller for linear systems, and for smooth, nonlinear systems within a neighborhood of their equilibria. Our approach overcomes a significant limitation of prior work, namely the need for a pre-given stabilizing control policy. We empirically evaluate the effectiveness of our approach on common control benchmarks.
翻訳日:2021-10-15 03:20:07 公開日:2021-10-13
# (参考訳) 個人化対話システムのためのフェデレーション自然言語生成 [全文訳有]

Federated Natural Language Generation for Personalized Dialogue System ( http://arxiv.org/abs/2110.06419v1 )

ライセンス: CC BY 4.0
Yujie Lu, Chao Huang, Huanli Zhan, Yong Zhuang(参考訳) 神経会話モデルは長い間、一貫性の欠如と一貫性の欠如という問題に苦しんできた。 この問題に対処するため、個々の特徴を捉えるペルソナベースのモデルが提案されているが、モデル適応とデータのプライバシーのジレンマに直面している。 このジレンマを解消するために,分散デバイス上で様々なデータセットからパーソナライズされた表現を学習し,効率的かつ安全にパーソナライズされた対話システムを実現する,新しいフェデレーション自然言語生成(fednlg)フレームワークを提案する。 FedNLGはまず、大きな対話コーパス上で標準的な対話モデルのパラメータを事前トレーニングし、その後、特定のデータセットにモデルパラメータとペルソナの埋め込みをフェデレートした方法で微調整する。 これにより、モデルはローカルクライアントにペルソナ埋め込みを同時に学習し、フェデレーションアグリゲーションによって共有モデルパラメータを学習し、精度のプライバシバランスを実現する。 本研究では,コーネル・ムービー・ダイアログ・コーパス上での事前学習モデルと,2つのテレビシリーズデータセット上での微調整によるモデルの有効性を実証する。

Neural conversational models have long suffered from the problem of inconsistency and lacking coherent personality. To address the issue, persona-based models capturing individual characteristics have been proposed, but they still face the dilemma of model adaption and data privacy. To break this dilemma, we propose a novel Federated Natural Language Generation (FedNLG) framework, which learns personalized representations from various dataset on distributed devices, and thus implements the personalized dialogue system efficiently and safely. FedNLG first pre-trains parameters of standard neural conversational model over a large dialogue corpus, and then fine-tune the model parameters and persona embeddings on specific datasets, in a federated manner. Thus, the model could simultaneously learn the persona embeddings in local clients and learn shared model parameters by federated aggregation, which achieves accuracyprivacy balance. By conducting extensive experiments, we demonstrate the effectiveness of our model by pre-training model over Cornell Movie-Dialogs Corpus and fine-tuning the model over two TV series dataset.
翻訳日:2021-10-15 03:19:05 公開日:2021-10-13
# (参考訳) DeepA: 音声と歌のボーコーディングのためのディープニューラルネットワーク [全文訳有]

DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding ( http://arxiv.org/abs/2110.06434v1 )

ライセンス: CC BY 4.0
Sergey Nikonorov, Berrak Sisman, Mingyang Zhang, Haizhou Li(参考訳) 従来のボコーダは、音声合成や音声変換といった下流タスクに解釈可能な機能を提供する分析ツールとして一般的に使用されている。 これらは信号処理原理に従ってある仮定のもとに構築されているため、例えば音声から歌声まで、異なる音声に容易に一般化できない。 本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声からF0と音節/音節のエンコーディングを抽出するディープ・ニューラル・アナライザをDeepAと呼ぶ。 したがって、結果のパラメータは他の潜在神経表現よりも解釈可能である。 同時に、ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成や操作にはより正確であり、音声から歌への一般化が期待できる。 提案するニューラルアナライザは、可変オートエンコーダ(VAE)アーキテクチャに基づいて構築される。 我々はdeepaが従来のvocoder(world)よりもf0推定を改善していることを示す。 我々の知る限り、この研究は学習可能なボコーダのようなパラメータを抽出するニューラルネットワークの開発に向けられた最初の研究である。

Conventional vocoders are commonly used as analysis tools to provide interpretable features for downstream tasks such as speech synthesis and voice conversion. They are built under certain assumptions about the signals following signal processing principle, therefore, not easily generalizable to different audio, for example, from speech to singing. In this paper, we propose a deep neural analyzer, denoted as DeepA - a neural vocoder that extracts F0 and timbre/aperiodicity encoding from the input speech that emulate those defined in conventional vocoders. Therefore, the resulting parameters are more interpretable than other latent neural representations. At the same time, as the deep neural analyzer is learnable, it is expected to be more accurate for signal reconstruction and manipulation, and generalizable from speech to singing. The proposed neural analyzer is built based on a variational autoencoder (VAE) architecture. We show that DeepA improves F0 estimation over the conventional vocoder (WORLD). To our best knowledge, this is the first study dedicated to the development of a neural framework for extracting learnable vocoder-like parameters.
翻訳日:2021-10-15 03:06:54 公開日:2021-10-13
# (参考訳) 衛星画像における変化検出による道路地図の更新 [全文訳有]

Updating Street Maps using Changes Detected in Satellite Imagery ( http://arxiv.org/abs/2110.06456v1 )

ライセンス: CC BY 4.0
Favyen Bastani, Songtao He, Satvat Jagwani, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Sam Madden, Mohammad Amin Sadeghi(参考訳) 正確なデジタル街路地図の維持は労働集約的だ。 この課題に対処するため、GPSや衛星画像などの地理空間データを自動的に処理し、デジタル地図の維持コストを削減した。 エンドツーエンドのマップ更新システムは、まず地理空間データソースを処理して洞察を抽出し、次にこれらの洞察を活用してマップを更新および改善する。 これらのマップ抽出手法は,地空間データソースのスクラッチから道路ネットワークを推定する(実質的に全く新しい地図を作成する)が,この抽出した情報を活用して既存のデジタル地図データを更新する2番目のステップには対処しない。 本稿では,既存の地図を更新する際に,現在の地図抽出技術が低精度である理由を最初に説明する。 次に,衛星画像の進行を経時的に反映し,精度を大幅に向上させる手法を提案する。 提案手法は、まず異なる時刻に撮影した衛星画像を比較し、視覚的に変化した物理道路網の一部を特定し、既存の地図を更新する。 変更に基づくアプローチは,マップ更新エラー率を4倍に削減することを示す。

Accurately maintaining digital street maps is labor-intensive. To address this challenge, much work has studied automatically processing geospatial data sources such as GPS trajectories and satellite images to reduce the cost of maintaining digital maps. An end-to-end map update system would first process geospatial data sources to extract insights, and second leverage those insights to update and improve the map. However, prior work largely focuses on the first step of this pipeline: these map extraction methods infer road networks from scratch given geospatial data sources (in effect creating entirely new maps), but do not address the second step of leveraging this extracted information to update the existing digital map data. In this paper, we first explain why current map extraction techniques yield low accuracy when extended to update existing maps. We then propose a novel method that leverages the progression of satellite imagery over time to substantially improve accuracy. Our approach first compares satellite images captured at different times to identify portions of the physical road network that have visibly changed, and then updates the existing map accordingly. We show that our change-based approach reduces map update error rates four-fold.
翻訳日:2021-10-15 02:53:38 公開日:2021-10-13
# (参考訳) インタラクションに基づくニューラルニュースレコメンデーションのための歴史ニュース記事の選択学習 [全文訳有]

Learning to Select Historical News Articles for Interaction based Neural News Recommendation ( http://arxiv.org/abs/2110.06459v1 )

ライセンス: CC BY 4.0
Peitian Zhang, Zhicheng Dou, Jing Yao(参考訳) パーソナライズされたニュースレコメンデーションの鍵は、ユーザーの興味を候補者のニュースと正確に効率的にマッチさせることである。 既存のアプローチでは、ユーザの興味を表現ベクトルに埋め込むと、候補ニュースベクトルと比較して推奨する。 このようなワークフローでは、きめ細かいマッチング信号が失われることがある。 近年の研究では、候補ニュースと利用者の閲覧するニュース記事間のきめ細かいインタラクションをモデル化することによってこれをカバーしようとしている。 性能改善にもかかわらず、これらのモデルはオンラインでの計算コストがはるかに高い。 したがって、効果的な相互作用を効果的に活用することは難しい問題である。 この問題に対処するため,我々は,学習から選択までのメカニズムを組み込んだSFI(End-to-end Selective Fine-fine Interaction framework)を提案する。 全ての歴史的ニュースを対話に投入する代わりに、SFIは候補者に関する情報的な歴史的ニュースを素早く選択し、他のニュースを次の計算から除外することができる。 私たちは、選択がスパースと自動であることを権限付けし、それぞれ効率と有効性を保証します。 公開データセットMINDの大規模な実験は、最先端の手法よりもSFIの優位性を検証する: 歴史的ニュースが5つだけ選択されたことにより、最先端のインタラクションベースモデルよりもAUCを2.17%向上させることができる。

The key to personalized news recommendation is to match the user's interests with the candidate news precisely and efficiently. Most existing approaches embed user interests into a representation vector then recommend by comparing it with the candidate news vector. In such a workflow, fine-grained matching signals may be lost. Recent studies try to cover that by modeling fine-grained interactions between the candidate news and each browsed news article of the user. Despite the effectiveness improvement, these models suffer from much higher computation costs online. Consequently, it remains a tough issue to take advantage of effective interactions in an efficient way. To address this problem, we proposed an end-to-end Selective Fine-grained Interaction framework (SFI) with a learning-to-select mechanism. Instead of feeding all historical news into interaction, SFI can quickly select informative historical news w.r.t. the candidate and exclude others from following computations. We empower the selection to be both sparse and automatic, which guarantees efficiency and effectiveness respectively. Extensive experiments on the publicly available dataset MIND validates the superiority of SFI over the state-of-the-art methods: with only five historical news selected, it can significantly improve the AUC by 2.17% over the state-of-the-art interaction-based models; at the same time, it is four times faster.
翻訳日:2021-10-15 02:38:52 公開日:2021-10-13
# (参考訳) 医用画像・画像翻訳のジレンマを破る [全文訳有]

Breaking the Dilemma of Medical Image-to-image Translation ( http://arxiv.org/abs/2110.06465v1 )

ライセンス: CC BY 4.0
Lingke Kong, Chenyu Lian, Detian Huang, Zhenjiang Li, Yanle Hu, Qichao Zhou(参考訳) Pix2Pixとunsupervised Cycle-Consistencyは、医用画像と画像の翻訳の分野を支配する2つのモードである。 しかし、どちらのモードも理想的ではない。 Pix2Pixモードには優れたパフォーマンスがある。 しかし、ピクセル順に整列した画像が必要であり、それは常に呼吸運動や、ペア画像が取得される時間の間の解剖学的変化のために実現可能であるとは限らない。 Cycle-Consistencyモードはトレーニングデータに縛られないため、不適切な画像や不一致の画像でもうまく動作する。 しかし、その性能は最適ではないかもしれない。 既存のモードのジレンマを解消するために,医療画像から画像への翻訳のためのRegGANと呼ばれる新しい教師なしモードを提案する。 これは「ロス補正」の理論に基づいている。 RegGANでは、不整合ターゲット画像はノイズラベルと見なされ、生成装置は、不整合ノイズ分布を適応的に適合させるために、追加の登録ネットワークで訓練される。 目標は、画像から画像への変換と登録の両方に共通する最適解を探すことである。 我々はRegGANをいくつかの最新画像変換手法に組み込んで,RegGANをこれらの手法と簡単に組み合わせて性能を向上できることを実証した。 私たちのモードの単純なCycleGANは、ネットワークパラメータが少なくても、最新のNICEGANを超えます。 結果から,regan は pix2pix をアライメントデータで上回り,不アライメントデータやアンペアデータのサイクル一貫性を上回った。 RegGANはノイズに敏感で、幅広いシナリオ、特に画像から画像への変換タスクにおいて、ピクセルワイドなデータが利用できない場合に、より優れた選択をすることができる。

Supervised Pix2Pix and unsupervised Cycle-consistency are two modes that dominate the field of medical image-to-image translation. However, neither modes are ideal. The Pix2Pix mode has excellent performance. But it requires paired and well pixel-wise aligned images, which may not always be achievable due to respiratory motion or anatomy change between times that paired images are acquired. The Cycle-consistency mode is less stringent with training data and works well on unpaired or misaligned images. But its performance may not be optimal. In order to break the dilemma of the existing modes, we propose a new unsupervised mode called RegGAN for medical image-to-image translation. It is based on the theory of "loss-correction" ;. In RegGAN, the misaligned target images are considered as noisy labels and the generator is trained with an additional registration network to fit the misaligned noise distribution adaptively. The goal is to search for the common optimal solution to both image-to-image translation and registration tasks. We incorporated RegGAN into a few state-of-the-art image-to-image translation methods and demonstrated that RegGAN could be easily combined with these methods to improve their performances. Such as a simple CycleGAN in our mode surpasses latest NICEGAN even though using less network parameters. Based on our results, RegGAN outperformed both Pix2Pix on aligned data and Cycle-consistency on misaligned or unpaired data. RegGAN is insensitive to noises which makes it a better choice for a wide range of scenarios, especially for medical image-to-image translation tasks in which well pixel-wise aligned data are not available
翻訳日:2021-10-15 02:20:50 公開日:2021-10-13
# (参考訳) 単チャネル音声強調用デュアルブランチアテンションイン・アテンショントランス [全文訳有]

Dual-branch Attention-In-Attenti on Transformer for single-channel speech enhancement ( http://arxiv.org/abs/2110.06467v1 )

ライセンス: CC BY 4.0
Guochen Yu, Andong Li, Yutian Wang, Yinuo Guo, Hui Wang, Chengshi Zheng(参考訳) カリキュラム学習は、元のスペクトル推定タスクを複数の簡単なサブタスクに分解し、よりよいパフォーマンスを達成する、音声強調領域で成長し始める。 そこで本研究では,DB-AIATと呼ばれる2分岐アテンション・イン・アテンション・トランスフォーマを提案し,スペクトルの粗い領域と細粒領域を並列に処理する。 相補的な観点からは、全体等級スペクトルを粗大に推定する等級マスキング枝を提案し、同時に、欠落したスペクトルの詳細を補うために複雑な精錬枝を精巧に設計し、暗黙的に位相情報を導出する。 各分野において,従来のrnnと時相畳み込みネットワークを置き換え,時間系列モデリングを行うための注意インテンション・イン・アテンション・トランスフォーマティブ・モジュールを提案する。 具体的には,長期間の時間-周波数依存性を捉え,さらにグローバル階層的コンテキスト情報を集約することを目的とした,適応型時間-周波数間注意トランスブロックと適応型階層的注意モジュールから構成される。 Voice Bank + DEMANDの実験結果は、DB-AIATが比較的小さなモデルサイズ(2.81M)の以前の先進的なシステムよりも最先端の性能(例えば3.31 PESQ, 94.7% STOI, 10.79dB SSNR)が得られることを示した。

Curriculum learning begins to thrive in the speech enhancement area, which decouples the original spectrum estimation task into multiple easier sub-tasks to achieve better performance. Motivated by that, we propose a dual-branch attention-in-attenti on transformer dubbed DB-AIAT to handle both coarse- and fine-grained regions of the spectrum in parallel. From a complementary perspective, a magnitude masking branch is proposed to coarsely estimate the overall magnitude spectrum, and simultaneously a complex refining branch is elaborately designed to compensate for the missing spectral details and implicitly derive phase information. Within each branch, we propose a novel attention-in-attenti on transformer-based module to replace the conventional RNNs and temporal convolutional networks for temporal sequence modeling. Specifically, the proposed attention-in-attenti on transformer consists of adaptive temporal-frequency attention transformer blocks and an adaptive hierarchical attention module, aiming to capture long-term temporal-frequency dependencies and further aggregate global hierarchical contextual information. Experimental results on Voice Bank + DEMAND demonstrate that DB-AIAT yields state-of-the-art performance (e.g., 3.31 PESQ, 94.7% STOI and 10.79dB SSNR) over previous advanced systems with a relatively small model size (2.81M).
翻訳日:2021-10-15 02:05:10 公開日:2021-10-13
# (参考訳) ICCV'2021 VALUEチャレンジに勝つ: 視覚概念によるタスク認識のアンサンブルと伝達学習 [全文訳有]

Winning the ICCV'2021 VALUE Challenge: Task-aware Ensemble and Transfer Learning with Visual Concepts ( http://arxiv.org/abs/2110.06476v1 )

ライセンス: CC BY 4.0
Minchul Shin, Jonghwan Mun, Kyoung-Woon On, Woo-Young Kang, Gunsoo Han, Eun-Sol Kim(参考訳) VALUE(Video-And-Lang uage Understanding Evaluation)ベンチマークが新たに導入され、3つのビデオ・言語タスク(Retrieval, QA, Captioning)でマルチモーダル表現学習アルゴリズムの評価と解析が行われた。 VALUEの課題の主な目的は、異なる特徴を持つ様々なタスクに同時に適用可能なタスクに依存しないモデルをトレーニングすることである。 この技術レポートでは、VALUEチャレンジの勝利戦略について述べています。 1)単一モデル最適化。 2)視覚概念を用いた転校学習,及び 3)タスク対応アンサンブル。 第1と第3の戦略は各タスクの異種特性に対処するために設計されており、第2の戦略はリッチできめ細かい視覚情報を活用することである。 実験結果の詳細な分析と総合的な分析を行う。 当社のアプローチに基づいて、競争のVALUEとQAフェーズで1位にランク付けしました。

The VALUE (Video-And-Language Understanding Evaluation) benchmark is newly introduced to evaluate and analyze multi-modal representation learning algorithms on three video-and-language tasks: Retrieval, QA, and Captioning. The main objective of the VALUE challenge is to train a task-agnostic model that is simultaneously applicable for various tasks with different characteristics. This technical report describes our winning strategies for the VALUE challenge: 1) single model optimization, 2) transfer learning with visual concepts, and 3) task-aware ensemble. The first and third strategies are designed to address heterogeneous characteristics of each task, and the second one is to leverage rich and fine-grained visual information. We provide a detailed and comprehensive analysis with extensive experimental results. Based on our approach, we ranked first place on the VALUE and QA phases for the competition.
翻訳日:2021-10-15 01:50:56 公開日:2021-10-13
# (参考訳) ゼロ双対性ギャップを持つパラレルディープニューラルネットワーク

Parallel Deep Neural Networks Have Zero Duality Gap ( http://arxiv.org/abs/2110.06482v1 )

ライセンス: CC BY 4.0
Yifei Wang, Tolga Ergen and Mert Pilanci(参考訳) ディープニューラルネットワークのトレーニングは、よく知られた非凸問題である。 近年の研究では、reluアクティベーションを持つ正規化2層ニューラルネットワークには、凸プログラムによるグローバル最適化を可能にする双対性ギャップが存在しないことが示されている。 ベクトル出力を持つ多層線形ネットワークでは、凸双対問題を定式化し、深さ3および深層ネットワークでは双対ギャップがゼロでないことを示す。 しかし、より強力な並列アーキテクチャにディープネットワークを変更することで、双対性ギャップが全くゼロであることが分かる。 したがって、強い凸双対性を持つので、大域的最適性のためにディープネットワークを訓練できる等価凸プログラムが存在する。 また,パラメータの重み減衰正規化は閉形式表現による低ランク解を明示的に奨励することを示した。 3層非並列reluネットワークでは、rank-1データ行列に対して強い双対性が成立するが、白化データ行列では双対性ギャップは非ゼロである。 同様に、ニューラルネットワークアーキテクチャを対応する並列バージョンに変換することで、双対性ギャップがなくなる。

Training deep neural networks is a well-known highly non-convex problem. In recent works, it is shown that there is no duality gap for regularized two-layer neural networks with ReLU activation, which enables global optimization via convex programs. For multi-layer linear networks with vector outputs, we formulate convex dual problems and demonstrate that the duality gap is non-zero for depth three and deeper networks. However, by modifying the deep networks to more powerful parallel architectures, we show that the duality gap is exactly zero. Therefore, strong convex duality holds, and hence there exist equivalent convex programs that enable training deep networks to global optimality. We also demonstrate that the weight decay regularization in the parameters explicitly encourages low-rank solutions via closed-form expressions. For three-layer non-parallel ReLU networks, we show that strong duality holds for rank-1 data matrices, however, the duality gap is non-zero for whitened data matrices. Similarly, by transforming the neural network architecture into a corresponding parallel version, the duality gap vanishes.
翻訳日:2021-10-15 01:41:58 公開日:2021-10-13
# (参考訳) 芸術からの感情知覚の理解 [全文訳有]

Understanding of Emotion Perception from Art ( http://arxiv.org/abs/2110.06486v1 )

ライセンス: CC BY 4.0
Digbalay Bose, Krishna Somandepalli, Souvik Kundu, Rimita Lahiri, Jonathan Gratch and Shrikanth Narayanan(参考訳) 人間における芸術によって誘発される感情の計算モデリングは、芸術の主観的かつニュアンス的性質と情緒的シグナルのため、難しい問題である。 本稿では,テキストと視覚の両面を用いたアートワークによる視聴者の感情理解の問題について考察する。 具体的には,感情を表現した視聴者から画像と付随するテキストキャプションをマルチモーダル分類タスクとして分析する。 以上の結果から,MMBTやVisualBERTのようなシングルストリームマルチモーダルトランスフォーマーモデルの方が,テキストや画像のモダリティを分離したデュアルストリームマルチモーダルモデルよりも優れた性能を示した。 また、MMBTのような単一ストリームモデルとBERTのようなテキストのみのトランスフォーマーモデルを比較すると、極端な肯定的・否定的な感情クラスの性能向上も観察できる。

Computational modeling of the emotions evoked by art in humans is a challenging problem because of the subjective and nuanced nature of art and affective signals. In this paper, we consider the above-mentioned problem of understanding emotions evoked in viewers by artwork using both text and visual modalities. Specifically, we analyze images and the accompanying text captions from the viewers expressing emotions as a multimodal classification task. Our results show that single-stream multimodal transformer-based models like MMBT and VisualBERT perform better compared to both image-only models and dual-stream multimodal models having separate pathways for text and image modalities. We also observe improvements in performance for extreme positive and negative emotion classes, when a single-stream model like MMBT is compared with a text-only transformer model like BERT.
翻訳日:2021-10-15 01:40:54 公開日:2021-10-13
# (参考訳) バックプロパゲーションの凸幾何学:ニューラルネットワーク勾配流は双対凸プログラムの極点に収束する

The Convex Geometry of Backpropagation: Neural Network Gradient Flows Converge to Extreme Points of the Dual Convex Program ( http://arxiv.org/abs/2110.06488v1 )

ライセンス: CC BY 4.0
Yifei Wang, Mert Pilanci(参考訳) 凸形状と双対性の観点から2層reluニューラルネットワークを訓練するための非凸部分勾配流の研究を行った。 非正規化非凸勾配流の暗黙のバイアスを等価凸モデルの凸正規化として特徴づける。 次に、この凸最適化問題において、非凸下降流の極限点を原始双対対応により同定できることを示す。 さらに、非凸対象の定常点が凸対象のKKT点であることを保証する双対変数上の十分条件を導出することにより、非凸勾配の収束を大域的最適に証明する。 直交分離データのような正規なトレーニングデータ分布のクラスでは、この十分条件が成立することを示す。 したがって、非凸勾配流は実際には凸最適化問題の最適解に収束する。 我々は,非凸下降勾配の理論の予測を検証した数値的な結果を示す。

We study non-convex subgradient flows for training two-layer ReLU neural networks from a convex geometry and duality perspective. We characterize the implicit bias of unregularized non-convex gradient flow as convex regularization of an equivalent convex model. We then show that the limit points of non-convex subgradient flows can be identified via primal-dual correspondence in this convex optimization problem. Moreover, we derive a sufficient condition on the dual variables which ensures that the stationary points of the non-convex objective are the KKT points of the convex objective, thus proving convergence of non-convex gradient flows to the global optimum. For a class of regular training data distributions such as orthogonal separable data, we show that this sufficient condition holds. Therefore, non-convex gradient flows in fact converge to optimal solutions of a convex optimization problem. We present numerical results verifying the predictions of our theory for non-convex subgradient descent.
翻訳日:2021-10-15 01:34:18 公開日:2021-10-13
# (参考訳) Dict-BERT:辞書による言語モデル事前学習の強化 [全文訳有]

Dict-BERT: Enhancing Language Model Pre-training with Dictionary ( http://arxiv.org/abs/2110.06490v1 )

ライセンス: CC BY 4.0
Wenhao Yu, Chenguang Zhu, Yuwei Fang, Donghan Yu, Shuohang Wang, Yichong Xu, Michael Zeng, Meng Jiang(参考訳) 事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍言語表現の学習を目指す。 PLMは異なる文脈で単語の意味をキャプチャするので、単語表現の質は単語の頻度に大きく依存する。 したがって、まれな単語の尾への埋め込みは通常、最適化が不十分である。 本研究では,辞書における希少単語の定義(例えば Wiktionary など)を活用することで,言語モデル事前学習の強化に注力する。 希少な単語定義を入力の一部として組み込むために、その定義を辞書から取り出し、入力テキストシーケンスの最後に付加する。 マスキング言語モデリング目的の学習に加えて,単語の自己教師付き事前学習タスクと,単語列と希少語定義の文レベルのアライメントを提案し,辞書を用いた言語モデリング表現の強化を図る。 言語理解ベンチマークGLUEと8つの専門ドメインベンチマークデータセットに基づいて,提案したDict-BERTモデルを評価する。 拡張実験により,Dict-BERTはレアワードの理解を大幅に改善し,様々なNLP下流タスクにおけるモデル性能を向上させることができることが示された。

Pre-trained language models (PLMs) aim to learn universal language representations by conducting self-supervised training tasks on large-scale corpora. Since PLMs capture word semantics in different contexts, the quality of word representations highly depends on word frequency, which usually follows a heavy-tailed distributions in the pre-training corpus. Therefore, the embeddings of rare words on the tail are usually poorly optimized. In this work, we focus on enhancing language model pre-training by leveraging definitions of the rare words in dictionaries (e.g., Wiktionary). To incorporate a rare word definition as a part of input, we fetch its definition from the dictionary and append it to the end of the input text sequence. In addition to training with the masked language modeling objective, we propose two novel self-supervised pre-training tasks on word and sentence-level alignment between input text sequence and rare word definitions to enhance language modeling representation with dictionary. We evaluate the proposed Dict-BERT model on the language understanding benchmark GLUE and eight specialized domain benchmark datasets. Extensive experiments demonstrate that Dict-BERT can significantly improve the understanding of rare words and boost model performance on various NLP downstream tasks.
翻訳日:2021-10-15 01:32:54 公開日:2021-10-13
# (参考訳) 言語横断型「フェイクニュース」発見 [全文訳有]

Cross-lingual COVID-19 Fake News Detection ( http://arxiv.org/abs/2110.06495v1 )

ライセンス: CC BY 4.0
Jiangshu Du, Yingtong Dou, Congying Xia, Limeng Cui, Jing Ma, Philip S. Yu(参考訳) 新型コロナウイルスのパンデミックは世界の公衆衛生に大きな脅威をもたらす。 一方、根拠のない、あるいは科学的でない主張を主張するパンデミックに関連する大量の誤報がある。 新型コロナウイルス(COVID-19)の誤報は英語で報告されているが、一部の未修正の誤報は依然として他の言語で流布しており、移民社会や発展途上国の低インフォームの人々の健康を脅かしている。 本稿は,高リソース言語(英語)で事実チェックされたニュースのみを用いて,低リソース言語(中国語)における新型コロナウイルスの誤情報を初めて検出する試みである。 まずは、既存の事実チェック情報に基づいて、中国のリアル&フェイクニュースデータセットをキュレートする。 そこで我々はCrossFakeという深層学習フレームワークを提案する。 実験結果は,CorssFakeが言語間設定で有効であることを示し,また,モノリンガルおよびクロスリンガルの偽ニュース検知器よりも優れていた。 データセットはhttps://github.com/y ingtongdou/crossfake で入手できる。

The COVID-19 pandemic poses a great threat to global public health. Meanwhile, there is massive misinformation associated with the pandemic which advocates unfounded or unscientific claims. Even major social media and news outlets have made an extra effort in debunking COVID-19 misinformation, most of the fact-checking information is in English, whereas some unmoderated COVID-19 misinformation is still circulating in other languages, threatening the health of less-informed people in immigrant communities and developing countries. In this paper, we make the first attempt to detect COVID-19 misinformation in a low-resource language (Chinese) only using the fact-checked news in a high-resource language (English). We start by curating a Chinese real&fake news dataset according to existing fact-checking information. Then, we propose a deep learning framework named CrossFake to jointly encode the cross-lingual news body texts and capture the news content as much as possible. Empirical results on our dataset demonstrate the effectiveness of CorssFake under the cross-lingual setting and it also outperforms several monolingual and cross-lingual fake news detectors. The dataset is available at https://github.com/Y ingtongDou/CrossFake .
翻訳日:2021-10-15 01:16:41 公開日:2021-10-13
# (参考訳) プロンプトチューニングを用いたasrシステムにおける言語モデルの効率的なドメイン適応 [全文訳有]

Efficient domain adaptation of language models in ASR systems using Prompt-tuning ( http://arxiv.org/abs/2110.06502v1 )

ライセンス: CC BY 4.0
Saket Dingliwal, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff(参考訳) 自動音声認識(ASR)システムは、非常に多様な分野の多くの産業用途で使われている。 ドメイン固有のシステムはドメイン内評価において一般的なシステムよりもパフォーマンスが良いので、メモリと計算効率の良いドメイン適応の必要性は明らかです。 特に、ASR仮説の再構成に使用されるパラメータ重変換言語モデルの適用は困難である。 本研究では,少数のドメイントークン埋め込みパラメータをトレーニングし,トランスフォーマーベースのLMを特定のドメインにプライマリ化する手法であるプロンプトチューニングを用いてこの問題を克服する。 ドメインあたりのパラメータをわずかに増やせば、未適応のLMを使用するベースラインよりもはるかに複雑なスコアが得られる。 パラメータ効率は高いが、これらの改善は数億のパラメータを持つ完全な調整モデルに匹敵する。 本研究は,ドメイン固有のASRシステムにおいて,単語誤り率(Word Error Rate)に再現する。

Automatic Speech Recognition (ASR) systems have found their use in numerous industrial applications in very diverse domains. Since domain-specific systems perform better than their generic counterparts on in-domain evaluation, the need for memory and compute-efficient domain adaptation is obvious. Particularly, adapting parameter-heavy transformer-based language models used for rescoring ASR hypothesis is challenging. In this work, we overcome the problem using prompt-tuning, a methodology that trains a small number of domain token embedding parameters to prime a transformer-based LM to a particular domain. With just a handful of extra parameters per domain, we achieve much better perplexity scores over the baseline of using an unadapted LM. Despite being parameter-efficient, these improvements are comparable to those of fully-fine-tuned models with hundreds of millions of parameters. We replicate our findings in perplexity numbers to Word Error Rate in a domain-specific ASR system for one such domain.
翻訳日:2021-10-15 01:07:53 公開日:2021-10-13
# (参考訳) 知覚ポイント:バイリンガルネットワークにおける音声における臨界学習期間の同定 [全文訳有]

Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks ( http://arxiv.org/abs/2110.06507v1 )

ライセンス: CC BY 4.0
Anuj Saraswat, Mehar Bhatia, Yaman Kumar Singla, Changyou Chen, Rajiv Ratn Shah(参考訳) 音声知覚に関する最近の研究は、言語学における認知心理学、音韻学、音韻学の分野と密接に関連している。 両言語・モノリンガルの幼児において, 音素の識別が最良である場合に, 重度かつ敏感な発達軌跡について検討した。 本稿では,深部神経に基づく視覚的唇読解モデルにおける認知的側面を比較し,同定する。 英語とマンダリンの2つの公的な視覚音声認識データセットについて実験を行った。 実験の結果から,認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係が認められた。 これらの計算モデルが、音声知覚と獲得における類似のフェーズをどのように発展させるかを調べる。

Recent studies in speech perception have been closely linked to fields of cognitive psychology, phonology, and phonetics in linguistics. During perceptual attunement, a critical and sensitive developmental trajectory has been examined in bilingual and monolingual infants where they can best discriminate common phonemes. In this paper, we compare and identify these cognitive aspects on deep neural-based visual lip-reading models. We conduct experiments on the two most extensive public visual speech recognition datasets for English and Mandarin. Through our experimental results, we observe a strong correlation between these theories in cognitive psychology and our unique modeling. We inspect how these computational models develop similar phases in speech perception and acquisitions.
翻訳日:2021-10-15 01:04:08 公開日:2021-10-13
# (参考訳) 安定したkoopman埋め込みを学ぶ [全文訳有]

Learning Stable Koopman Embeddings ( http://arxiv.org/abs/2110.06509v1 )

ライセンス: CC BY 4.0
Fletcher Fan, Bowen Yi, David Rye, Guodong Shi, Ian R. Manchester(参考訳) 本稿では,非線形システムの安定モデル学習のための新しいデータ駆動手法を提案する。 我々のモデルは、クープマン埋め込みを用いて元の状態空間を高次元線型多様体に持ち上げる。 興味深いことに、全ての離散時間非線形縮約モデルは、我々のフレームワークで学習できることを証明します。 提案手法のもう1つの大きな利点は、安定線形系の直接パラメータ化を通じてモデルの安定性を保ちながら、クープマン埋め込みと演算子を協調的に非拘束で最適化できる点である。 本手法をシミュレーションシステム上で検証し,パラメータ化の利点を代替手法と比較した。

In this paper, we present a new data-driven method for learning stable models of nonlinear systems. Our model lifts the original state space to a higher-dimensional linear manifold using Koopman embeddings. Interestingly, we prove that every discrete-time nonlinear contracting model can be learnt in our framework. Another significant merit of the proposed approach is that it allows for unconstrained optimization over the Koopman embedding and operator jointly while enforcing stability of the model, via a direct parameterization of stable linear systems, greatly simplifying the computations involved. We validate our method on a simulated system and analyze the advantages of our parameterization compared to alternatives.
翻訳日:2021-10-15 00:56:23 公開日:2021-10-13
# (参考訳) 量子自然言語処理の夜明け [全文訳有]

The Dawn of Quantum Natural Language Processing ( http://arxiv.org/abs/2110.06510v1 )

ライセンス: CC BY 4.0
Riccardo Di Sipio, Jia-Hong Huang, Samuel Yen-Chi Chen, Stefano Mangini, Marcel Worring(参考訳) 本稿では、量子コンピューティングを用いたディープラーニングモデルに基づく人間の言語理解を促進するための最初の試みについて論じる。 我々は,量子エンハンス長短期記憶ネットワークの学習に成功し,数値シミュレーションを応用した。 さらに,既存のデータセットに基づく感情分析を行うために,量子エンハンストランスを提案する。

In this paper, we discuss the initial attempts at boosting understanding human language based on deep-learning models with quantum computing. We successfully train a quantum-enhanced Long Short-Term Memory network to perform the parts-of-speech tagging task via numerical simulations. Moreover, a quantum-enhanced Transformer is proposed to perform the sentiment analysis based on the existing dataset.
翻訳日:2021-10-15 00:39:34 公開日:2021-10-13
# (参考訳) MedNet:医療画像タスクのための事前訓練型畳み込みニューラルネットワークモデル [全文訳有]

MedNet: Pre-trained Convolutional Neural Network Model for the Medical Imaging Tasks ( http://arxiv.org/abs/2110.06512v1 )

ライセンス: CC BY 4.0
Laith Alzubaidi, J. Santamar\'ia, Mohamed Manoufali, Beadaa Mohammed, Mohammed A. Fadhel, Jinglan Zhang, Ali H.Al-Timemy, Omran Al-Shamma, and Ye Duan(参考訳) ディープラーニング(DL)は、品質を提供するために大量のトレーニングデータを必要とします。 しかし、医療画像は臨床専門家による手作業によるラベル付けを必要とするため、適切なdlモデルの訓練に十分なデータが不足しているため、このプロセスは時間がかかり、費用がかかり、エラーが発生しやすい。 近年,前タスクの知識を転送し,比較的小さなデータセットを用いて結果を微調整することで,アノテーション手続きの必要性を低減すべく,トランスファーラーニング(tl)が導入された。 近年、医用画像からの複数の分類法では、自然画像(imagenet)から得られた特徴と医療画像、特にx線などの医用グレー画像とのミスマッチにより有効ではないことが証明されたimagenetなどの汎用事前学習モデルからのtlが使用されている。 ImageNetにはMRI、CT、X線のようなグレースケールの画像がない。 本稿では,mednetと呼ばれる医用画像の分類課題に対処するための新しいdlモデルを提案する。 そのため、我々はMedNetの2つのバージョンを発行することを目指している。 ひとつはGray-MedNetで、MRI、CT、X線、超音波、PETなどの3Mの医用画像でトレーニングされる。 2番目のバージョンはColor-MedNetで、病理、撮影画像など3Mの公開カラー医療画像でトレーニングされる。 MedNetの有効性を検証するために、両方のバージョンは、より縮小された医療画像のターゲットタスクをトレーニングするために微調整される。 MedNetは、医療画像から現実のアプリケーションに取り組むための事前訓練モデルとして機能し、例えば分類などの医療画像処理に必要な一般化レベルを達成する。 MedNetは将来の研究のベースラインとして研究コミュニティに貢献する。

Deep Learning (DL) requires a large amount of training data to provide quality outcomes. However, the field of medical imaging suffers from the lack of sufficient data for properly training DL models because medical images require manual labelling carried out by clinical experts thus the process is time-consuming, expensive, and error-prone. Recently, transfer learning (TL) was introduced to reduce the need for the annotation procedure by means of transferring the knowledge performed by a previous task and then fine-tuning the result using a relatively small dataset. Nowadays, multiple classification methods from medical imaging make use of TL from general-purpose pre-trained models, e.g., ImageNet, which has been proven to be ineffective due to the mismatch between the features learned from natural images (ImageNet) and those more specific from medical images especially medical gray images such as X-rays. ImageNet does not have grayscale images such as MRI, CT, and X-ray. In this paper, we propose a novel DL model to be used for addressing classification tasks of medical imaging, called MedNet. To do so, we aim to issue two versions of MedNet. The first one is Gray-MedNet which will be trained on 3M publicly available gray-scale medical images including MRI, CT, X-ray, ultrasound, and PET. The second version is Color-MedNet which will be trained on 3M publicly available color medical images including histopathology, taken images, and many others. To validate the effectiveness MedNet, both versions will be fine-tuned to train on the target tasks of a more reduced set of medical images. MedNet performs as the pre-trained model to tackle any real-world application from medical imaging and achieve the level of generalization needed for dealing with medical imaging tasks, e.g. classification. MedNet would serve the research community as a baseline for future research.
翻訳日:2021-10-15 00:20:31 公開日:2021-10-13
# (参考訳) パターン認識におけるデータ選択訓練のためのサブセッティングアルゴリズム [全文訳有]

Sub-Setting Algorithm for Training Data Selection in Pattern Recognition ( http://arxiv.org/abs/2110.06527v1 )

ライセンス: CC BY 4.0
AGaurav Arwade and Sigurdur Olafsson(参考訳) 現代のパターン認識タスクでは、大規模なデータセットを活用する複雑なアルゴリズムを使用して、決定木やk-nearest-neighborといった従来のアルゴリズムよりも正確な予測を行う。 精度の向上はしばしば重要であるが、複雑さの低減にも価値がある。 本稿では,複数のサブセットを単純な構造で識別するトレーニングデータ選択アルゴリズムを提案する。 このようなサブセットで訓練された学習アルゴリズムは、従来の学習アルゴリズムよりも精度良くサブセットに属するインスタンスを分類することができる。 言い換えれば、既存のパターン認識アルゴリズムは、データセット全体を表現するためのグローバルマッピング関数を学習しようとするが、単純な局所パターンの集合がデータをよりよく記述するかもしれない。 したがって、サブセットアルゴリズムは、インスタンスの近傍で類似したインスタンスを識別することで、単純な局所パターンを持つ複数のサブセットを識別する。 この動機は勾配強化木に似ているが、傾斜強化木に欠けているモデルの説明可能性に焦点を当てている。 提案アルゴリズムは,少数のサブセットを単純な構造で識別することで,精度と説明可能な機械学習のバランスをとる。 提案アルゴリズムを国際脳卒中データセットに適用し,生存確率の予測を行った。 我々のボトムアップサブセットアルゴリズムは、データセット全体から学んだトップダウン決定木よりも平均15%良い結果を得た。 識別されたサブセットで学習された異なる決定ツリーは、データセット決定ツリー全体によってこれまで使われていなかったいくつかの特徴を使用し、各サブセットは異なるデータの集団を表す。

Modern pattern recognition tasks use complex algorithms that take advantage of large datasets to make more accurate predictions than traditional algorithms such as decision trees or k-nearest-neighbor better suited to describe simple structures. While increased accuracy is often crucial, less complexity also has value. This paper proposes a training data selection algorithm that identifies multiple subsets with simple structures. A learning algorithm trained on such a subset can classify an instance belonging to the subset with better accuracy than the traditional learning algorithms. In other words, while existing pattern recognition algorithms attempt to learn a global mapping function to represent the entire dataset, we argue that an ensemble of simple local patterns may better describe the data. Hence the sub-setting algorithm identifies multiple subsets with simple local patterns by identifying similar instances in the neighborhood of an instance. This motivation has similarities to that of gradient boosted trees but focuses on the explainability of the model that is missing for boosted trees. The proposed algorithm thus balances accuracy and explainable machine learning by identifying a limited number of subsets with simple structures. We applied the proposed algorithm to the international stroke dataset to predict the probability of survival. Our bottom-up sub-setting algorithm performed on an average 15% better than the top-down decision tree learned on the entire dataset. The different decision trees learned on the identified subsets use some of the previously unused features by the whole dataset decision tree, and each subset represents a distinct population of data.
翻訳日:2021-10-15 00:13:51 公開日:2021-10-13
# (参考訳) neurips 2021 コンペティション iglu: 協調環境における対話型基底言語理解

NeurIPS 2021 Competition IGLU: Interactive Grounded Language Understanding in a Collaborative Environment ( http://arxiv.org/abs/2110.06536v1 )

ライセンス: CC BY 4.0
Julia Kiseleva, Ziming Li, Mohammad Aliannejadi, Shrestha Mohanty, Maartje ter Hoeve, Mikhail Burtsev, Alexey Skrynnik, Artem Zholus, Aleksandr Panov, Kavya Srinet, Arthur Szlam, Yuxuan Sun, Katja Hofmann, Michel Galley, Ahmed Awadallah(参考訳) 人間の知性は、新しいタスクや環境に迅速に適応する能力を持っている。 非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。 この方向の研究を容易にするために, 協調環境における対話型基底言語理解について提案する。 このコンペの主なゴールは、協調環境で基礎的な自然言語命令を提供しながら、タスクの解決を学ぶ対話的なエージェントを構築する方法の課題にアプローチすることである。 課題の複雑さを理解するために、それをサブタスクに分割して、参加者に実現できるようにしました。 この研究課題は、自然言語理解と生成(NLU/G)と強化学習(RL)という、NeurIPSコミュニティに深く関係している2つの分野に自然に関連している。 したがって、提案された課題は、AIにおける重要な課題の1つにアプローチするために、2つのコミュニティをまとめることができる。 この課題のもう1つの重要な側面は、競争者が開発するエージェントの最終的な評価として、人間によるループ評価を行うことである。

Human intelligence has the remarkable ability to quickly adapt to new tasks and environments. Starting from a very young age, humans acquire new skills and learn how to solve new tasks either by imitating the behavior of others or by following provided natural language instructions. To facilitate research in this direction, we propose \emph{IGLU: Interactive Grounded Language Understanding in a Collaborative Environment}. The primary goal of the competition is to approach the problem of how to build interactive agents that learn to solve a task while provided with grounded natural language instructions in a collaborative environment. Understanding the complexity of the challenge, we split it into sub-tasks to make it feasible for participants. This research challenge is naturally related, but not limited, to two fields of study that are highly relevant to the NeurIPS community: Natural Language Understanding and Generation (NLU/G) and Reinforcement Learning (RL). Therefore, the suggested challenge can bring two communities together to approach one of the important challenges in AI. Another important aspect of the challenge is the dedication to perform a human-in-the-loop evaluation as a final evaluation for the agents developed by contestants.
翻訳日:2021-10-14 23:55:33 公開日:2021-10-13
# (参考訳) 歌声合成のためのメロディ・アンスーパービジョンモデル [全文訳有]

A Melody-Unsupervision Model for Singing Voice Synthesis ( http://arxiv.org/abs/2110.06546v1 )

ライセンス: CC BY 4.0
Soonbeom Choi and Juhan Nam(参考訳) 歌唱音声合成の最近の研究は、ディープニューラルネットワークに基づく音声合成モデルの進歩を生かした高品質な結果を得た。 歌声合成モデルの訓練における主な問題の一つは、メロディと歌詞のラベルを音声データと時間的に一致させる必要があることである。 時間的アライメントは、トレーニングデータの準備において、タイムアウトのマニュアルワークである。 そこで本研究では,学習時間に時間的アライメントを要せず,推定時間内にメロディと歌詞入力が与えられた歌唱音声を生成するメロディ・アンスーパービジョンモデルを提案する。 提案モデルでは,音素分類器と歌唱音声生成器をエンドツーエンドで共同で訓練する。 このモデルは、時間調整されたメロディラベルで監督の量を調整することで微調整することができる。 メロディアンスーパービジョン設定と半スーパービジョン設定の実験を通じて,合成歌唱音声の音響品質を比較する。 また,提案モデルでは音声音声とテキストラベルを訓練できるが,推定時間内に歌唱音声を生成することができることを示す。

Recent studies in singing voice synthesis have achieved high-quality results leveraging advances in text-to-speech models based on deep neural networks. One of the main issues in training singing voice synthesis models is that they require melody and lyric labels to be temporally aligned with audio data. The temporal alignment is a time-exhausting manual work in preparing for the training data. To address the issue, we propose a melody-unsupervision model that requires only audio-and-lyrics pairs without temporal alignment in training time but generates singing voice audio given a melody and lyrics input in inference time. The proposed model is composed of a phoneme classifier and a singing voice generator jointly trained in an end-to-end manner. The model can be fine-tuned by adjusting the amount of supervision with temporally aligned melody labels. Through experiments in melody-unsupervision and semi-supervision settings, we compare the audio quality of synthesized singing voice. We also show that the proposed model is capable of being trained with speech audio and text labels but can generate singing voice in inference time.
翻訳日:2021-10-14 23:54:30 公開日:2021-10-13
# (参考訳) 非線形回帰のためのコミュニケーション効率の高いオンライン連合学習フレームワーク [全文訳有]

Communication-Effici ent Online Federated Learning Framework for Nonlinear Regression ( http://arxiv.org/abs/2110.06556v1 )

ライセンス: CC BY 4.0
Vinay Chakravarthi Gogineni, Stefan Werner, Yih-Fang Huang, Anthony Kuh(参考訳) フェデレーション学習(fl)の文献では、一般的に各クライアントが一定の量のデータを持っていると仮定している。 いくつかの最近の研究は、クライアントがストリーミングデータ上でモデル学習を実行し、そのモデルをサーバに通信するオンラインFL(Online-Fed)のフレームワークを導入している。 そこで本論文では,クライアントが連続ストリーミングデータを用いてローカルモデルを更新し,更新されたモデルの一部をサーバと共有することのできる,部分共有ベースのオンラインフェデレーション学習フレームワーク(PSO-Fed)を提案する。 pso-fedのグローバルイテレーションの間、非参加のクライアントはローカルモデルを新しいデータで更新する特権を持つ。 ここでは,クライアントがランダムなフーリエ機能に基づくカーネルlmsをローカル学習に使用する,カーネル回帰のグローバルタスクについて検討する。 カーネル回帰に対するPSO-Fedの平均収束性を検討した。 実験の結果,PSO-Fed は Online-Fed よりも通信オーバーヘッドが著しく低い競争性能を達成できることがわかった。

Federated learning (FL) literature typically assumes that each client has a fixed amount of data, which is unrealistic in many practical applications. Some recent works introduced a framework for online FL (Online-Fed) wherein clients perform model learning on streaming data and communicate the model to the server; however, they do not address the associated communication overhead. As a solution, this paper presents a partial-sharing-base d online federated learning framework (PSO-Fed) that enables clients to update their local models using continuous streaming data and share only portions of those updated models with the server. During a global iteration of PSO-Fed, non-participant clients have the privilege to update their local models with new data. Here, we consider a global task of kernel regression, where clients use a random Fourier features-based kernel LMS on their data for local learning. We examine the mean convergence of the PSO-Fed for kernel regression. Experimental results show that PSO-Fed can achieve competitive performance with a significantly lower communication overhead than Online-Fed.
翻訳日:2021-10-14 23:45:00 公開日:2021-10-13
# (参考訳) 1対複数マッピングデュアルラーニング:1つの混合信号から複数のソースを学習する [全文訳有]

One to Multiple Mapping Dual Learning: Learning Multiple Sources from One Mixed Signal ( http://arxiv.org/abs/2110.06568v1 )

ライセンス: CC BY 4.0
Ting Liu, Wenwu Wang, Xiaofei Zhang, Zhenyin Gong, and Yina Guo(参考訳) 単一チャネルブラインドソース分離(SCBSS)は、単一センサによって収集された混合信号から複数のソースを分離することを指す。 SCBSSの既存の手法は主に2つのソースの分離に重点を置いており、一般化性能は弱い。 これらの問題に対処するために、混合と対応する複数のソースの関係を構築できる並列二重生成逆数ネットワーク(PDualGAN)を設計し、1対複数のクロスドメインマッピングを実現することで、複数のソースを混合から分離するアルゴリズムを提案する。 このアルゴリズムは線形瞬時混合モデルや畳み込み混合モデルといった任意の混合モデルに適用することができる。 さらに、この研究のための混合物と対応するソースを含む1対複数データセットを作成する。 実験は4つの異なるデータセットで行われ、異なる比率の信号でテストされた。 実験結果から,提案アルゴリズムはピーク信号対雑音比(PSNR)と相関性において高い性能を達成でき,最先端のアルゴリズムよりも優れていることがわかった。

Single channel blind source separation (SCBSS) refers to separate multiple sources from a mixed signal collected by a single sensor. The existing methods for SCBSS mainly focus on separating two sources and have weak generalization performance. To address these problems, an algorithm is proposed in this paper to separate multiple sources from a mixture by designing a parallel dual generative adversarial Network (PDualGAN) that can build the relationship between a mixture and the corresponding multiple sources to realize one-to-multiple cross-domain mapping. This algorithm can be applied to any mixed model such as linear instantaneous mixed model and convolutional mixed model. Besides, one-to-multiple datasets are created which including the mixtures and corresponding sources for this study. The experiment was carried out on four different datasets and tested with signals mixed in different proportions. Experimental results show that the proposed algorithm can achieve high performance in peak signal-to-noise ratio (PSNR) and correlation, which outperforms state-of-the-art algorithms.
翻訳日:2021-10-14 23:33:35 公開日:2021-10-13
# (参考訳) クラスタリングによるDeep ReLUネットワークの解釈 [全文訳有]

Clustering-Based Interpretation of Deep ReLU Network ( http://arxiv.org/abs/2110.06593v1 )

ライセンス: CC BY 4.0
Nicola Picchiotti, Marco Gori(参考訳) 中でも、ReLU(Rectified Linear Units)の採用は、ディープラーニングの成功の材料のひとつとされている。 ReLUの活性化は、消失する勾配問題を緩和し、学習パラメータのスパーシリティを促進し、効率的なバックプロパゲーションを可能にすることが示されている。 本稿では,活動ニューロンのパターンを考慮した場合,ReLU関数の非線形挙動が自然なクラスタリングを引き起こすことを認識した。 この観察は、ネットワークの学習メカニズムの深化に寄与する。実際には、各クラスタ内で、ネットワークがアフィンマップとして完全に表現できることを実証する。 その結果、ネットワークがクラスタに属するインスタンスに対して行う予測に対して、機能の重要性という形で、説明を復元することが可能になったのです。 そこで,本提案手法では,ネットワーク構造を変化させることなく,モデルの適合相から下流の完全連結フィードフォワードreluニューラルネットワークの解釈可能性を高めることができる。 タイタニックデータセットに対するシミュレーション研究と経験的応用により、ブラックボックスディープリルーネットワークのアルゴリズム最適化と人間の理解可能性との間のギャップを橋渡しする手法の能力を示す。

Amongst others, the adoption of Rectified Linear Units (ReLUs) is regarded as one of the ingredients of the success of deep learning. ReLU activation has been shown to mitigate the vanishing gradient issue, to encourage sparsity in the learned parameters, and to allow for efficient backpropagation. In this paper, we recognize that the non-linear behavior of the ReLU function gives rise to a natural clustering when the pattern of active neurons is considered. This observation helps to deepen the learning mechanism of the network; in fact, we demonstrate that, within each cluster, the network can be fully represented as an affine map. The consequence is that we are able to recover an explanation, in the form of feature importance, for the predictions done by the network to the instances belonging to the cluster. Therefore, the methodology we propose is able to increase the level of interpretability of a fully connected feedforward ReLU neural network, downstream from the fitting phase of the model, without altering the structure of the network. A simulation study and the empirical application to the Titanic dataset, show the capability of the method to bridge the gap between the algorithm optimization and the human understandability of the black box deep ReLU networks.
翻訳日:2021-10-14 23:19:26 公開日:2021-10-13
# (参考訳) 機能の重要性に対する論理制約 [全文訳有]

Logic Constraints to Feature Importances ( http://arxiv.org/abs/2110.06596v1 )

ライセンス: CC BY 4.0
Nicola Picchiotti, Marco Gori(参考訳) 近年、人工知能(AI)アルゴリズムは、予測可能性の観点から、特に大量のデータが利用可能であった場合、従来の統計手法より優れていることが証明されている。 それでも、AIモデルの“ブラックボックス”の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。 近年の研究では、適切なレベルの解釈性が、より一般的なモデルの信頼性という概念を強制できることが示されている。 本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。 この種の"重み付き"AIは、経験的損失を、所定の制約に従うことの重要性を奨励する正規化用語で拡張することで得られる。 この手順は、最適化すべきモデルの重み付けと機能重要度に関するユーザ定義の制約とのリンクであるLRP、LIMEなどの特徴重要度計算のローカルメソッドに依存している。 フェアネス領域では,成人データセットに対して有望な実験結果が得られた。 このモデルに依存しない理論フレームワークの他の多くの応用が述べられている。

In recent years, Artificial Intelligence (AI) algorithms have been proven to outperform traditional statistical methods in terms of predictivity, especially when a large amount of data was available. Nevertheless, the "black box" nature of AI models is often a limit for a reliable application in high-stakes fields like diagnostic techniques, autonomous guide, etc. Recent works have shown that an adequate level of interpretability could enforce the more general concept of model trustworthiness. The basic idea of this paper is to exploit the human prior knowledge of the features' importance for a specific task, in order to coherently aid the phase of the model's fitting. This sort of "weighted" AI is obtained by extending the empirical loss with a regularization term encouraging the importance of the features to follow predetermined constraints. This procedure relies on local methods for the feature importance computation, e.g. LRP, LIME, etc. that are the link between the model weights to be optimized and the user-defined constraints on feature importance. In the fairness area, promising experimental results have been obtained for the Adult dataset. Many other possible applications of this model agnostic theoretical framework are described.
翻訳日:2021-10-14 23:12:31 公開日:2021-10-13
# (参考訳) 深層学習を組み込んだ振動に基づく条件モニタリング [全文訳有]

Vibration-Based Condition Monitoring By Ensemble Deep Learning ( http://arxiv.org/abs/2110.06601v1 )

ライセンス: CC BY-SA 4.0
Vahid Yaghoubi, Liangliang Cheng, Wim Van Paepegem, Mathias Keremans(参考訳) 振動に基づく手法は、最も一般的な状態監視手法である。 コンピュータの進歩に伴い、これらのアプローチも改良され、近年では深層学習法とともに研究者の間で注目されている。 これは主に、特徴抽出、特徴選択、分類ステップを1つの自動化ステップに統合することにより、監視手順を容易にするディープラーニングメソッドの性質によるものだ。 しかし、これは深層学習者のアーキテクチャ設計の課題を犠牲にして、ハイパーパラメータをチューニングすることで達成することができる。 さらに、時には一般化能力も低い。 これらの問題を解決するため,本研究では,アンサンブル深層学習手法に基づく枠組みを提案する。 このフレームワークは、畳み込みニューラルネットワーク(cnn)のプールを作成することから始まった。 CNNに多様性をもたらすために、それらは異なる機能を通過する周波数応答によって供給される。 次のステップとして、融合に使用する情報基準に基づいて適切なCNNを選択する。 融合は改良されたデンプスター・シェーファー理論によって実行される。 提案手法は, 複雑な形状を有する等軸多結晶ニッケル合金第一段タービンブレードから収集した実試験データに適用できる。

Vibration-based techniques are among the most common condition monitoring approaches. With the advancement of computers, these approaches have also been improved such that recently, these approaches in conjunction with deep learning methods attract attention among researchers. This is mostly due to the nature of the deep learning method that could facilitate the monitoring procedure by integrating the feature extraction, feature selection, and classification steps into one automated step. However, this can be achieved at the expense of challenges in designing the architecture of a deep learner, tuning its hyper-parameters. Moreover, it sometimes gives low generalization capability. As a remedy to these problems, this study proposes a framework based on ensemble deep learning methodology. The framework was initiated by creating a pool of Convolutional neural networks (CNN). To create diversity to the CNNs, they are fed by frequency responses which are passed through different functions. As the next step, proper CNNs are selected based on an information criterion to be used for fusion. The fusion is then carried out by improved Dempster-Shafer theory. The proposed framework is applied to real test data collected from Equiax Polycrystalline Nickel alloy first-stage turbine blades with complex geometry.
翻訳日:2021-10-14 23:03:01 公開日:2021-10-13
# (参考訳) msp: 事前学習された言語モデルをより良くするマルチステージプロンプト [全文訳有]

MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators ( http://arxiv.org/abs/2110.06609v1 )

ライセンス: CC BY 4.0
Zhixing Tan, Xiangwen Zhang, Shuo Wang, Yang Liu(参考訳) 事前学習された言語モデルは、プロンプトによる微調整なしに翻訳ができることが最近示されている。 これらの知見に触発されて,ニューラルネットワーク翻訳モデルの訓練が現在のデファクトアプローチである翻訳タスクにおける事前学習言語モデルの性能向上について検討した。 本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。 プリトレーニングされた言語モデルをより優れた翻訳者にするために、プリトレーニングされた言語モデルによる翻訳プロセスを、エンコードステージ、再エンコードステージ、デコードステージの3つの異なる段階に分割する。 各段階において、事前学習された言語モデルを翻訳タスクに適応させるために、個別に異なる連続プロンプトを適用する。 低、中、高リソースの翻訳タスクに関する広範な実験を行う。 実験により,事前学習した言語モデルの翻訳性能が大幅に向上することを示す。

Pre-trained language models have recently been shown to be able to perform translation without finetuning via prompting. Inspired by these findings, we study improving the performance of pre-trained language models on translation tasks, where training neural machine translation models is the current de facto approach. We present Multi-Stage Prompting, a simple and lightweight approach for better adapting pre-trained language models to translation tasks. To make pre-trained language models better translators, we divide the translation process via pre-trained language models into three separate stages: the encoding stage, the re-encoding stage, and the decoding stage. During each stage, we independently apply different continuous prompts for allowing pre-trained language models better adapting to translation tasks. We conduct extensive experiments on low-, medium-, and high-resource translation tasks. Experiments show that our method can significantly improve the translation performance of pre-trained language models.
翻訳日:2021-10-14 22:57:28 公開日:2021-10-13
# (参考訳) 対話応答選択のためのDense Retrievalの探索 [全文訳有]

Exploring Dense Retrieval for Dialogue Response Selection ( http://arxiv.org/abs/2110.06612v1 )

ライセンス: CC BY 4.0
Tian Lan, Deng Cai, Yan Wang, Yixuan Su, Xian-Ling Mao, Heyan Huang(参考訳) 対話応答選択に関する最近の研究は、主に洗練されたニューラルモデルを用いて、予め定義された少数の候補から適切な応答を選択することに焦点を当てている。 計算オーバーヘッドが大きいため、大きな候補プールから応答を選択することができない。 本研究では,非ペア文のみからなるコーパスや非並列コーパスからの適切な応答を,密検索モデルを用いて直接選択する手法を提案する。 提案手法を2つの実験環境で広範囲にテストした。 i) 事前定義された少数の候補をランク付けすることを目的とした再ランク実験 (ii) 数百万の候補を含む可能性のある完全な候補プールから直接適切な応答を選択することを目標とするフルランク実験。 再ランク設定の場合、単純さを考えると、その優位性はかなり驚きます。 フルランクの設定では、このような評価を最初に行うことを強調することができる。 さらに, 非並列コーパスのサイズを増大させることで, 我々のソースコード, モデルおよび関連リソースは, \url{https://github.com/g mftbyGMFTBY/SimpleRe Dial-v1}で公開されている。

Recent research on dialogue response selection has been mainly focused on selecting a proper response from a pre-defined small set of candidates using sophisticated neural models. Due to their heavy computational overhead, they are unable to select responses from a large candidate pool. In this study, we present a solution to directly select proper responses from a large corpus or even a nonparallel corpus that only consists of unpaired sentences, using a dense retrieval model. We extensively test our proposed approach under two experiment settings: (i) re-rank experiment that aims to rank a small set of pre-defined candidates; (ii) full-rank experiment where the target is to directly select proper responses from a full candidate pool that may contain millions of candidates. For re-rank setting, the superiority is quite surprising given its simplicity. For full-rank setting, we can emphasize that we are the first to do such evaluation. Moreover, human evaluation results show that increasing the size of nonparallel corpus leads to further improvement of our model performance\footnote {All our source codes, models and other related resources are publically available at \url{https://github.com/g mftbyGMFTBY/SimpleRe Dial-v1}.
翻訳日:2021-10-14 22:45:55 公開日:2021-10-13
# (参考訳) clip4caption: ビデオキャプションのためのクリップ [全文訳有]

CLIP4Caption: CLIP for Video Caption ( http://arxiv.org/abs/2110.06615v1 )

ライセンス: CC BY 4.0
Mingkang Tang, Zhanyu Wang, Zhenhua Liu, Fengyun Rao, Dian Li, Xiu Li(参考訳) ビデオキャプションは、様々な多様で複雑なビデオを記述する文を生成する必要があるため、難しい課題である。 既存のビデオキャプションモデルは、ビデオとテキストのギャップを無視するため、十分な視覚表現が欠けている。 本稿では,このギャップを埋めるために,CLIPを拡張したビデオテキストマッチングネットワーク(VTM)に基づく映像キャプションを改善するCLIP4Captionフレームワークを提案する。 このフレームワークは、視覚と言語からの情報を最大限に活用し、テキスト生成のための強固なテキスト関連ビデオ機能を学ぶためにモデルを強制している。 また、LSTMやGRUを文デコーダとして使用する既存のモデルとは異なり、Transformer構造型デコーダネットワークを採用し、長期の視覚的および言語的依存を効果的に学習する。 さらに,字幕処理のための新しいアンサンブル戦略を提案する。 実験により,2つのデータセットに対する本手法の有効性が示された。 1) msr-vttデータセット上では,ciderにおいて最大10%の利得率で新たな最先端結果を得た。 2) プライベートテストデータでは,ACM MM マルチメディア・グランドチャレンジ 2021: ビデオ理解チャレンジの事前学習において2位にランクインした。 我々のモデルは MSR-VTT データセットでのみ訓練されている。

Video captioning is a challenging task since it requires generating sentences describing various diverse and complex videos. Existing video captioning models lack adequate visual representation due to the neglect of the existence of gaps between videos and texts. To bridge this gap, in this paper, we propose a CLIP4Caption framework that improves video captioning based on a CLIP-enhanced video-text matching network (VTM). This framework is taking full advantage of the information from both vision and language and enforcing the model to learn strongly text-correlated video features for text generation. Besides, unlike most existing models using LSTM or GRU as the sentence decoder, we adopt a Transformer structured decoder network to effectively learn the long-range visual and language dependency. Additionally, we introduce a novel ensemble strategy for captioning tasks. Experimental results demonstrate the effectiveness of our method on two datasets: 1) on MSR-VTT dataset, our method achieved a new state-of-the-art result with a significant gain of up to 10% in CIDEr; 2) on the private test data, our method ranking 2nd place in the ACM MM multimedia grand challenge 2021: Pre-training for Video Understanding Challenge. It is noted that our model is only trained on the MSR-VTT dataset.
翻訳日:2021-10-14 22:28:07 公開日:2021-10-13
# (参考訳) SSSNET: 半スーパービジョンのネットワーククラスタリング [全文訳有]

SSSNET: Semi-Supervised Signed Network Clustering ( http://arxiv.org/abs/2110.06623v1 )

ライセンス: CC BY 4.0
Yixuan He, Gesine Reinert, Songchao Wang, Mihai Cucuringu(参考訳) ノードの埋め込みはネットワーク分析において強力なツールであるが、ノードクラスタリングの重要なタスクに対するその潜在能力は、十分に活用されていない。 特に、署名されたネットワークのノード埋め込みを生成する最先端のほとんどのメソッドはリンクサイン予測に焦点を当てており、ノードクラスタリングに関連するものはグラフニューラルネットワーク(GNN)の手法ではない。 本稿では、SSSNETと呼ばれる半教師付きネットワーククラスタリングのためのGNNフレームワークにおいて、トレーニングノードに対する確率的バランスの取れた正規化カット損失を提案する。 この方法は、中間ステップなしで生成とクラスタリングを結合するエンドツーエンドであり、ネットワークで発生する分極効果に重点を置いたノードクラスタリングが中心である。 提案手法の主な新規性は,署名されたネットワーク埋め込みにおけるソーシャルバランス理論の新たな役割である。 埋め込みの基準を正当化する標準的なヒューリスティックは、「敵の敵は友人である」という仮定にかかっている。 ここでは、敵の敵が友人であるか否かについて中立的な姿勢をとる。 合成確率ブロックモデル, 偏極バージョン, 実世界の様々なスケールのデータなど, 様々なデータ集合に対する実験結果から, SSSNETは, スペクトルクラスタリング法と同等あるいは優れた結果が得られることを示した。 SSSNETは、ノードレベルの機能やラベルの形で、異種情報を含む可能性を通じて、既存のメソッドを補完する。

Node embeddings are a powerful tool in the analysis of networks; yet, their full potential for the important task of node clustering has not been fully exploited. In particular, most state-of-the-art methods generating node embeddings of signed networks focus on link sign prediction, and those that pertain to node clustering are usually not graph neural network (GNN) methods. Here, we introduce a novel probabilistic balanced normalized cut loss for training nodes in a GNN framework for semi-supervised signed network clustering, called SSSNET. The method is end-to-end in combining embedding generation and clustering without an intermediate step; it has node clustering as main focus, with an emphasis on polarization effects arising in networks. The main novelty of our approach is a new take on the role of social balance theory for signed network embeddings. The standard heuristic for justifying the criteria for the embeddings hinges on the assumption that "an enemy's enemy is a friend". Here, instead, a neutral stance is assumed on whether or not the enemy of an enemy is a friend. Experimental results on various data sets, including a synthetic signed stochastic block model, a polarized version of it, and real-world data at different scales, demonstrate that SSSNET can achieve comparable or better results than state-of-the-art spectral clustering methods, for a wide range of noise and sparsity levels. SSSNET complements existing methods through the possibility of including exogenous information, in the form of node-level features or labels.
翻訳日:2021-10-14 22:18:15 公開日:2021-10-13
# (参考訳) スペクトル磁気偏光性テンソルシグネチャを用いた金属物体の同定:物体分類

Identification of Metallic Objects using Spectral Magnetic Polarizability Tensor Signatures: Object Classification ( http://arxiv.org/abs/2110.06624v1 )

ライセンス: CC BY 4.0
B.A. Wilson, P.D. Ledger and W.R.B. Lionheart(参考訳) 銃やナイフなどのテロ脅威の早期発見は、金属探知の改善を通じて、攻撃の数を減らし、公衆の安全と安全を改善する可能性を秘めている。 これを実現するために、金属検出器がフィールドの摂動の中に隠れているため、異なる形状と異なる金属を区別するためにフィールドを応用して測定する可能性はかなりある。 磁気偏光性テンソル(MPT)は、金属オブジェクトの経済的特徴付けを提供し、そのスペクトルシグネチャは追加の物体特徴付け情報を提供する。 MPTスペクトルシグネチャは、隠蔽対象の金属シグネチャにおけるレンジ周波数上の誘導電圧の測定から決定することができる。 分類を念頭に置いて、異なる脅威と非脅威オブジェクトに対して事前に計算することもできる。 本稿では,計算されたMPTスペクトルシグネチャの辞書を用いて学習した確率的および非確率的機械学習アルゴリズムの性能を評価し,金属検出のためのオブジェクトを分類する。 本稿では, 適切な特徴量の利用の重要性を議論し, 解決される分類問題に応じて適切なアルゴリズムを選択するとともに, 実効的金属検出分類問題に対する数値計算結果を提案する。

The early detection of terrorist threat objects, such as guns and knives, through improved metal detection, has the potential to reduce the number of attacks and improve public safety and security. To achieve this, there is considerable potential to use the fields applied and measured by a metal detector to discriminate between different shapes and different metals since, hidden within the field perturbation, is object characterisation information. The magnetic polarizability tensor (MPT) offers an economical characterisation of metallic objects and its spectral signature provides additional object characterisation information. The MPT spectral signature can be determined from measurements of the induced voltage over a range frequencies in a metal signature for a hidden object. With classification in mind, it can also be computed in advance for different threat and non-threat objects. In the article, we evaluate the performance of probabilistic and non-probabilistic machine learning algorithms, trained using a dictionary of computed MPT spectral signatures, to classify objects for metal detection. We discuss the importances of using appropriate features and selecting an appropriate algorithm depending on the classification problem being solved and we present numerical results for a range of practically motivated metal detection classification problems.
翻訳日:2021-10-14 21:35:09 公開日:2021-10-13
# (参考訳) 二重二重生成対数ネットワークを用いた音声への人間の神経活動のエンドツーエンド翻訳 [全文訳有]

End-to-end translation of human neural activity to speech with a dual-dual generative adversarial network ( http://arxiv.org/abs/2110.06634v1 )

ライセンス: CC BY 4.0
Yina Guo, Xiaofei Zhang, Zhenying Gong, Anhong Wang and Wenwu Wang(参考訳) 聴覚誘発電位(aep)に基づく脳-コンピュータインタフェース(bci)に関する最近の研究で、エンコーダ-デコーダフレームワークを用いて、人間の神経活動を音声(t-cas)に翻訳できることが示されている。 しかし、現在のエンコーダデコーダベースの手法は、しばしば2段階の方法でT-CASを達成し、エンコーダとデコーダの間で情報を共有次元還元ベクトルで伝達し、情報が失われる可能性がある。 この問題に対する潜在的アプローチは,2次生成逆数ネットワーク(DualGAN)を2次元化せずに設計することであるが,1対1の信号-信号-信号変換は実現できない(図1参照)。 (a)及び (b)。 本稿では、人間の神経活動を直接音声に変換するエンド・ツー・エンドモデルを提案し、参加者の注意を検知するデバイスを設計し、参加者の注意を引くための新しい脳波(EEG)データセットを作成し、二重二重生成対向ネットワーク(Dual-DualGAN)を導入する(図1参照)。 (c)および (d) 脳波信号と音声信号をグループラベルし、トランジションドメインを挿入し、クロスドメインマッピングを実現することで、人間の神経活動から音声へのエンドツーエンド翻訳(ET-CAS)問題に対処する。 遷移領域では、遷移信号は対応する脳波と音声信号によって一定の割合でカスケードされ、対応する特徴のない脳波と音声信号のブリッジを構築し、1対1のクロスドメイン脳波音声変換を実現する。 提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。 提案手法が聴覚刺激の単語と文の両方において最先端の手法を著しく上回っていることを示す実験的検討を行った。

In a recent study of auditory evoked potential (AEP) based brain-computer interface (BCI), it was shown that, with an encoder-decoder framework, it is possible to translate human neural activity to speech (T-CAS). However, current encoder-decoder-base d methods achieve T-CAS often with a two-step method where the information is passed between the encoder and decoder with a shared dimension reduction vector, which may result in a loss of information. A potential approach to this problem is to design an end-to-end method by using a dual generative adversarial network (DualGAN) without dimension reduction of passing information, but it cannot realize one-to-one signal-to-signal translation (see Fig.1 (a) and (b)). In this paper, we propose an end-to-end model to translate human neural activity to speech directly, create a new electroencephalogram (EEG) datasets for participants with good attention by design a device to detect participants' attention, and introduce a dual-dual generative adversarial network (Dual-DualGAN) (see Fig. 1 (c) and (d)) to address an end-to-end translation of human neural activity to speech (ET-CAS) problem by group labelling EEG signals and speech signals, inserting a transition domain to realize cross-domain mapping. In the transition domain, the transition signals are cascaded by the corresponding EEG and speech signals in a certain proportion, which can build bridges for EEG and speech signals without corresponding features, and realize one-to-one cross-domain EEG-to-speech translation. The proposed method can translate word-length and sentence-length sequences of neural activity to speech. Experimental evaluation has been conducted to show that the proposed method significantly outperforms state-of-the-art methods on both words and sentences of auditory stimulus.
翻訳日:2021-10-14 21:32:43 公開日:2021-10-13
# (参考訳) ADOP: 近似微分可能なワンピクセルポイントレンダリング [全文訳有]

ADOP: Approximate Differentiable One-Pixel Point Rendering ( http://arxiv.org/abs/2110.06635v1 )

ライセンス: CC BY 4.0
Darius R\"uckert, Linus Franke, Marc Stamminger(参考訳) 本稿では,シーンリファインメントと新しいビュー合成のための,ポイントベースで微分可能なニューラルレンダリングパイプラインを提案する。 入力は、ポイントクラウドとカメラパラメータの初期推定である。 出力は任意のカメラポーズから合成される。 ポイントクラウドレンダリングは、多解像度1画素点ラスタ化を用いて、微分可能なレンダラにより実行される。 離散ラスター化の空間勾配は、ゴースト幾何学の新しい概念によって近似される。 レンダリング後、ニューラルネットワークピラミッドは、シェーディング計算と穴埋めのためにディープニューラルネットワークを通過する。 物理的に微分可能なトーンマッパーは、中間出力をターゲット画像に変換する。 パイプラインのすべてのステージは微分可能であるため、カメラモデル、カメラポーズ、ポイント位置、ポイントカラー、環境マップ、ネットワーク重みのレンダリング、ナビネット、カメラ応答機能、画像の露出毎、画像ごとのホワイトバランスなど、シーンのパラメータをすべて最適化します。 本システムでは,トレーニング中に初期再構成が洗練されるため,既存のアプローチよりもシャープで一貫した新しいビューを合成できることが示されている。 効率的な1ピクセルのポイントラスター化により、任意のカメラモデルを使い、1億ポイント以上のシーンをリアルタイムで表示できます。

We present a novel point-based, differentiable neural rendering pipeline for scene refinement and novel view synthesis. The input are an initial estimate of the point cloud and the camera parameters. The output are synthesized images from arbitrary camera poses. The point cloud rendering is performed by a differentiable renderer using multi-resolution one-pixel point rasterization. Spatial gradients of the discrete rasterization are approximated by the novel concept of ghost geometry. After rendering, the neural image pyramid is passed through a deep neural network for shading calculations and hole-filling. A differentiable, physically-based tonemapper then converts the intermediate output to the target image. Since all stages of the pipeline are differentiable, we optimize all of the scene's parameters i.e. camera model, camera pose, point position, point color, environment map, rendering network weights, vignetting, camera response function, per image exposure, and per image white balance. We show that our system is able to synthesize sharper and more consistent novel views than existing approaches because the initial reconstruction is refined during training. The efficient one-pixel point rasterization allows us to use arbitrary camera models and display scenes with well over 100M points in real time.
翻訳日:2021-10-14 21:10:37 公開日:2021-10-13
# (参考訳) 接点上で塩分が切れると:非線形塩分写像を用いた深層ニューラルネットワークの解釈 [全文訳有]

When saliency goes off on a tangent: Interpreting Deep Neural Networks with nonlinear saliency maps ( http://arxiv.org/abs/2110.06639v1 )

ライセンス: CC BY 4.0
Jan Rosenzweig, Zoran Cvetkovic, Ivana Rosenzweig(参考訳) 重要なアプリケーションのために複雑な機械学習システムを利用する際の根本的なボトルネックは、彼らがなぜ何をしているのかを知らず、重要な安全プロトコルの開発を妨げている。 これまでのところ、ニューラルネットワークの決定プロセスの粒度の完全な洞察を提供する方法は存在しない。 かつては、サラジェンシーマップは感度計算を通じてこの問題を解こうとした初期の試みであり、システムの出力がどれだけ敏感であるかに基づいてデータポイントの寸法を選択する。 しかし、サラマンシーマップの成功は、主に、基礎となる学習システムを線形近似によって解釈するという事実から、極めて限定的であった。 本稿では,基礎となる学習システムの非線形性を完全に考慮した非線形サリエンシマップ生成手法を提案する。 線形正則写像が正しいような単純な問題に対する線形正則写像に一致するが、非線形性がより顕著な複素例において、より具体的な分類のドライバを特定する。 この新たな手法は、ディープニューラルネットワークと関連する機械学習システムの解釈可能性を大幅に向上させる。 重要なのは,‘なぜ’が‘何’として同じように重要である,真剣なアプリケーションにおいて,より広範な利用の出発点を提供することだ。

A fundamental bottleneck in utilising complex machine learning systems for critical applications has been not knowing why they do and what they do, thus preventing the development of any crucial safety protocols. To date, no method exist that can provide full insight into the granularity of the neural network's decision process. In the past, saliency maps were an early attempt at resolving this problem through sensitivity calculations, whereby dimensions of a data point are selected based on how sensitive the output of the system is to them. However, the success of saliency maps has been at best limited, mainly due to the fact that they interpret the underlying learning system through a linear approximation. We present a novel class of methods for generating nonlinear saliency maps which fully account for the nonlinearity of the underlying learning system. While agreeing with linear saliency maps on simple problems where linear saliency maps are correct, they clearly identify more specific drivers of classification on complex examples where nonlinearities are more pronounced. This new class of methods significantly aids interpretability of deep neural networks and related machine learning systems. Crucially, they provide a starting point for their more broad use in serious applications, where 'why' is equally important as 'what'.
翻訳日:2021-10-14 20:41:38 公開日:2021-10-13
# (参考訳) 深部生成デコーダ:MAPによる表現の推定 [全文訳有]

The deep generative decoder: Using MAP estimates of representations ( http://arxiv.org/abs/2110.06672v1 )

ライセンス: CC BY 4.0
Viktoria Schuster and Anders Krogh(参考訳) 深層生成モデルは、表現空間とその分布と、その表現を特徴空間内のベクトル上の分布にマッピングするニューラルネットワークによって特徴づけられる。 変分オートエンコーダ(vaes)のような一般的な方法は、ニューラルネットワークのトレーニングに変分推論を適用するが、これらのモデルの最適化は、しばしば非自明である。 エンコーダはモデルの複雑さを増すとともに、償却ギャップを導入し、変分近似の品質は通常不明である。 さらに、目的関数の損失項のバランスは、性能に大きな影響を及ぼす。 したがって,バックプロパゲーションによるモデル可能性の最大化により表現とその分布を求める,より単純な近似を検討すべきである。 このアプローチでは、エンコーダがないため、これをDeep Generative Decoder (DGD)と呼ぶ。 CIFAR10データセットを用いて、DGDはVAEよりも簡単かつ高速に最適化でき、テストデータのより一貫性の低い再構成誤差を達成でき、再構成と分散損失項のバランスをとる問題を軽減する。 簡素な形状のモデルは最先端画像生成手法と競合できないが、cifar10データにおける変分法よりも優れた画像生成スコアが得られる。 mnistデータでは,ガウス混合とプリエントを併用することで2次元表現空間におけるクラスを明確に分離できることを示すとともに,dgdをラベルと併用して教師付き表現を得る方法を示す。

A deep generative model is characterized by a representation space, its distribution, and a neural network mapping the representation to a distribution over vectors in feature space. Common methods such as variational autoencoders (VAEs) apply variational inference for training the neural network, but optimizing these models is often non-trivial. The encoder adds to the complexity of the model and introduces an amortization gap and the quality of the variational approximation is usually unknown. Additionally, the balance of the loss terms of the objective function heavily influences performance. Therefore, we argue that it is worthwhile to investigate a much simpler approximation which finds representations and their distribution by maximizing the model likelihood via back-propagation. In this approach, there is no encoder, and we therefore call it a Deep Generative Decoder (DGD). Using the CIFAR10 data set, we show that the DGD is easier and faster to optimize than the VAE, achieves more consistent low reconstruction errors of test data, and alleviates the problem of balancing the reconstruction and distribution loss terms. Although the model in its simple form cannot compete with state-of-the-art image generation approaches, it obtains better image generation scores than the variational approach on the CIFAR10 data. We demonstrate on MNIST data how the use of a Gaussian mixture with priors can lead to a clear separation of classes in a 2D representation space, and how the DGD can be used with labels to obtain a supervised representation.
翻訳日:2021-10-14 20:32:58 公開日:2021-10-13
# (参考訳) ファッション・アート・デザインのためのカラーカウント [全文訳有]

Color Counting for Fashion, Art, and Design ( http://arxiv.org/abs/2110.06682v1 )

ライセンス: CC BY 4.0
Mohammed Al-Rawi(参考訳) カラーモデリングと抽出は、ファッション、芸術、デザインにおいて重要なトピックである。 レコメンダシステム、色に基づく検索、装飾、ファッションデザインは、色抽出ツールの恩恵を受けることができる。 色を自動的に分析したり、抽出したりするために色をモデル化することは困難である。 機械とは異なり、色知覚は非常に主観的だが、人間にとってずっと単純である。 とは言っても、カラーモデリングの最初のステップは、アイテム/オブジェクトの色数を見積もることです。 これは、例えば色抽出をより決定論的にするために、色モデルはより優れたモデリングの種として色数を利用することができるためである。 この研究の目的は、服の色やその他のアイテムの数をカウントできるモデルを開発し、テストすることです。 本稿では,他の手法で際立っている累積カラーヒストグラムに基づく新しい色計数法を提案する。 本稿では,Gaussian Mixture Models (GMMs) とK-Means (K-Means) を最適な色数を評価するためのベースとして用いたカラーサーチと,ディープラーニングモデルに依存する他の方法との比較を行った。 残念なことに、GMM、K-Means、Deep Learningの各モデルはすべて、色数を正確に捉えていない。 提案手法は、aiベースのファッションアプリケーションで使用できるカラーベースラインを提供し、他の分野、例えばインテリアデザインでアプリケーションを見つけることができる。 私たちの知る限りでは、カラーカウンティングマシンの問題に対処するのは、この研究が初めてです。

Color modelling and extraction is an important topic in fashion, art, and design. Recommender systems, color-based retrieval, decorating, and fashion design can benefit from color extraction tools. Research has shown that modeling color so that it can be automatically analyzed and / or extracted is a difficult task. Unlike machines, color perception, although very subjective, is much simpler for humans. That being said, the first step in color modeling is to estimate the number of colors in the item / object. This is because color models can take advantage of the number of colors as the seed for better modelling, e.g., to make color extraction further deterministic. We aim in this work to develop and test models that can count the number of colors of clothing and other items. We propose a novel color counting method based on cumulative color histogram, which stands out among other methods. We compare the method we propose with other methods that utilize exhaustive color search that uses Gaussian Mixture Models (GMMs) and K-Means as bases for scoring the optimal number of colors, in addition to another method that relies on deep learning models. Unfortunately, the GMM, K-Means, and Deep Learning models all fail to accurately capture the number of colors. Our proposed method can provide the color baseline that can be used in AI-based fashion applications, and can also find applications in other areas, for example, interior design. To the best of our knowledge, this work is the first of its kind that addresses the problem of color-counting machine.
翻訳日:2021-10-14 20:14:51 公開日:2021-10-13
# (参考訳) セマンティック画像融合 [全文訳有]

Semantic Image Fusion ( http://arxiv.org/abs/2110.06697v1 )

ライセンス: CC BY 4.0
P.R. Hill, D.R. Bull(参考訳) 画像融合法と評価基準は従来,ピクセルベースや低レベルの特徴を用いた。 しかし、多くのアプリケーションにおいて、画像融合の目的は、入力画像の意味内容を効果的に組み合わせることである。 本稿では,事前学習したCNNネットワークアーキテクチャを用いた視覚コンテンツの意味結合システムを提案する。 提案するセマンティクス融合は,上層特徴マップ出力(各入力画像に対する)と,融合画像入力の勾配更新(いわゆる画像最適化)の融合によって開始される。 単純な "choose maximum" と "local majority" フィルタベースの融合ルールがフィーチャーマップの融合に利用される。 これにより、レイヤー出力を結合する簡単な方法が提供され、分類のために事前訓練された分解内で単一のチャネルとカラーイメージを融合するユニークなフレームワークを提供する。 さらに、各入力画像のクラスアクティベーションマッピングを使用して、より高いレベルで意味情報を結合する。 開発した手法は,複数の画像から意味情報を合成するユニークなアーキテクチャを提供しながら,同等の低レベル融合性能を最先端の手法に与えることができる。

Image fusion methods and metrics for their evaluation have conventionally used pixel-based or low-level features. However, for many applications, the aim of image fusion is to effectively combine the semantic content of the input images. This paper proposes a novel system for the semantic combination of visual content using pre-trained CNN network architectures. Our proposed semantic fusion is initiated through the fusion of the top layer feature map outputs (for each input image)through gradient updating of the fused image input (so-called image optimisation). Simple "choose maximum" and "local majority" filter based fusion rules are utilised for feature map fusion. This provides a simple method to combine layer outputs and thus a unique framework to fuse single-channel and colour images within a decomposition pre-trained for classification and therefore aligned with semantic fusion. Furthermore, class activation mappings of each input image are used to combine semantic information at a higher level. The developed methods are able to give equivalent low-level fusion performance to state of the art methods while providing a unique architecture to combine semantic information from multiple images.
翻訳日:2021-10-14 20:08:39 公開日:2021-10-13
# (参考訳) インスタンスレベルの制約によるエキスパート駆動トレースクラスタリング [全文訳有]

Expert-driven Trace Clustering with Instance-level Constraints ( http://arxiv.org/abs/2110.06703v1 )

ライセンス: CC BY 4.0
Pieter De Koninck and Klaas Nelissen and Seppe vanden Broucke and Bart Baesens and Monique Snoeck and Jochen De Weerdt(参考訳) プロセスマイニングの分野では、トレースやプロセスインスタンスを同様のグループに分割するために、いくつかの異なるトレースクラスタリングアプローチが存在する。 通常、この分割は、トレース間の特定のパターンや類似性に基づいており、あるいは各クラスタに対するプロセスモデルの発見によって駆動される。 しかし、これらのテクニックの主な欠点は、彼らのソリューションが一般的にドメインの専門家によって評価や正当化が難しいことである。 本稿では,インスタンスレベルの制約という形で専門家の知識を活用できる2つの制約付きトレースクラスタリング手法を提案する。 2つの実生活データセットを用いた広範囲な実験評価において,我々の新しい手法は,その品質に重大な悪影響を与えることなく,より正当なクラスタリングソリューションを生成できることを実証した。

Within the field of process mining, several different trace clustering approaches exist for partitioning traces or process instances into similar groups. Typically, this partitioning is based on certain patterns or similarity between the traces, or driven by the discovery of a process model for each cluster. The main drawback of these techniques, however, is that their solutions are usually hard to evaluate or justify by domain experts. In this paper, we present two constrained trace clustering techniques that are capable to leverage expert knowledge in the form of instance-level constraints. In an extensive experimental evaluation using two real-life datasets, we show that our novel techniques are indeed capable of producing clustering solutions that are more justifiable without a substantial negative impact on their quality.
翻訳日:2021-10-14 19:56:47 公開日:2021-10-13
# (参考訳) 変換とビットストリーム領域画像分類 [全文訳有]

Transform and Bitstream Domain Image Classification ( http://arxiv.org/abs/2110.06740v1 )

ライセンス: CC BY 4.0
P.R. Hill, D.R. Bull(参考訳) 圧縮領域内の画像の分類は大きな利点をもたらす。 これらの利点には、メモリの削減と分類システムの計算要件が含まれる。 本稿では、概念実証法として、jpeg画像変換ドメイン(すなわちdct変換データ)内に分類する手法と、jpeg圧縮されたバイナリビットストリームを直接分類する手法を提案する。 これらの2つの手法は、Residual Network CNNと適応型Vision Transformerを用いて実装されている。 Caltech C101データベースを分類すると、それぞれ70%と60%のTop-1精度が得られた。 これらの結果は、このデータベースの分類技術(約95%)にかなり遅れているが、直接ビットストリーム画像分類が達成された最初の例である。 この研究は、直接ビットストリーム画像の分類が可能であり、生のビットストリーム(有線または無線ネットワーク内)の第一パスデータベーススクリーニングや、計算、メモリ、帯域幅の要件が厳しく制限された場合に使用できることを確認している。

Classification of images within the compressed domain offers significant benefits. These benefits include reduced memory and computational requirements of a classification system. This paper proposes two such methods as a proof of concept: The first classifies within the JPEG image transform domain (i.e. DCT transform data); the second classifies the JPEG compressed binary bitstream directly. These two methods are implemented using Residual Network CNNs and an adapted Vision Transformer. Top-1 accuracy of approximately 70% and 60% were achieved using these methods respectively when classifying the Caltech C101 database. Although these results are significantly behind the state of the art for classification for this database (~95%), it illustrates the first time direct bitstream image classification has been achieved. This work confirms that direct bitstream image classification is possible and could be utilised in a first pass database screening of a raw bitstream (within a wired or wireless network) or where computational, memory and bandwidth requirements are severely restricted.
翻訳日:2021-10-14 19:34:22 公開日:2021-10-13
# (参考訳) Masader: アラビア文字と音声データリソースのためのメタデータソーシング [全文訳有]

Masader: Metadata Sourcing for Arabic Text and Speech Data Resources ( http://arxiv.org/abs/2110.06744v1 )

ライセンス: CC BY 4.0
Zaid Alyafeai, Maraim Masoud, Mustafa Ghaleb and Maged S. Al-shaibani(参考訳) NLPパイプラインはここ数年で劇的に進化した。 パイプラインの最初のステップは、解決しようとしているタスクを評価するのに適切な注釈付きデータセットを見つけることです。 残念ながら、公開されたデータセットのほとんどは、属性を記述するメタデータアノテーションを欠いている。 言うまでもなく、特定のリージョンや言語に関連するすべての公開データセットをインデックスする公開カタログが存在しない。 例えば、低リソースの方言言語を考えると、この問題はより顕著になる。 本稿では,25の属性で注釈付けされた200のデータセットからなるアラビアNLPデータセットの公開カタログとして,最大である \textit{Masader} を作成する。 さらに,他の言語にも拡張可能なメタデータアノテーション戦略を開発した。 また、アラビア語のNLPデータセットの現状に関するいくつかの問題を取り上げ、対処するための推奨事項を提示する。

The NLP pipeline has evolved dramatically in the last few years. The first step in the pipeline is to find suitable annotated datasets to evaluate the tasks we are trying to solve. Unfortunately, most of the published datasets lack metadata annotations that describe their attributes. Not to mention, the absence of a public catalogue that indexes all the publicly available datasets related to specific regions or languages. When we consider low-resource dialectical languages, for example, this issue becomes more prominent. In this paper we create \textit{Masader}, the largest public catalogue for Arabic NLP datasets, which consists of 200 datasets annotated with 25 attributes. Furthermore, We develop a metadata annotation strategy that could be extended to other languages. We also make remarks and highlight some issues about the current status of Arabic NLP datasets and suggest recommendations to address them.
翻訳日:2021-10-14 19:12:35 公開日:2021-10-13
# (参考訳) 強化学習によるニューラルネットワーク探索のサンプル効率の向上

Improving the sample-efficiency of neural architecture search with reinforcement learning ( http://arxiv.org/abs/2110.06751v1 )

ライセンス: CC BY 4.0
Attila Nagy, \'Abel Boros(参考訳) 複雑なアーキテクチャを設計することは、過去10年間に深層学習がもたらした革命に不可欠なコグホイールである。 データ駆動方式で難しい問題を解決する場合、よく検討されたアプローチは、有名なディープラーニング科学者が発見したアーキテクチャを基礎(例えばインセプション)として、特定の問題に適用しようとすることである。 これは十分かもしれませんが、現在、複雑な、あるいは未解決のタスクで非常に高い精度を達成するには、高度に訓練されたディープラーニング専門家の知識が必要です。 本研究では,ニューラルトポロジを自動設計することで,より広い範囲の社会で深層学習手法を利用可能にすることを目的とした,Automated Machine Learning(AutoML)分野,特にNeural Architecture Search(NAS)にコントリビュートしたい。 いくつかの異なるアプローチ(例えば勾配に基づくアルゴリズムや進化的アルゴリズム)が存在するが、我々の焦点は強化学習という最も有望な研究方向の1つである。 このシナリオでは、リカレントニューラルネットワーク(コントローラ)をトレーニングして、問題固有のニューラルネットワークアーキテクチャ(子)を作成する。 児童ネットワークの検証精度は、強化学習でコントローラを訓練するための報奨信号として機能する。 提案した研究の基盤は、子ネットワーク間でパラメータ共有が適用されるEfficient Neural Architecture Search (ENAS)である。 ENASは、他の多くのRLベースのアルゴリズムと同様に、子ネットワークの学習を強調する。 コントローラーはもともとREINFORCEで訓練された。 本研究では, より現代的で複雑なアルゴリズムであるPPOに修正することを提案する。 そして,その結果について簡単に議論し,評価する。

Designing complex architectures has been an essential cogwheel in the revolution deep learning has brought about in the past decade. When solving difficult problems in a datadriven manner, a well-tried approach is to take an architecture discovered by renowned deep learning scientists as a basis (e.g. Inception) and try to apply it to a specific problem. This might be sufficient, but as of now, achieving very high accuracy on a complex or yet unsolved task requires the knowledge of highly-trained deep learning experts. In this work, we would like to contribute to the area of Automated Machine Learning (AutoML), specifically Neural Architecture Search (NAS), which intends to make deep learning methods available for a wider range of society by designing neural topologies automatically. Although several different approaches exist (e.g. gradient-based or evolutionary algorithms), our focus is on one of the most promising research directions, reinforcement learning. In this scenario, a recurrent neural network (controller) is trained to create problem-specific neural network architectures (child). The validation accuracies of the child networks serve as a reward signal for training the controller with reinforcement learning. The basis of our proposed work is Efficient Neural Architecture Search (ENAS), where parameter sharing is applied among the child networks. ENAS, like many other RL-based algorithms, emphasize the learning of child networks as increasing their convergence result in a denser reward signal for the controller, therefore significantly reducing training times. The controller was originally trained with REINFORCE. In our research, we propose to modify this to a more modern and complex algorithm, PPO, which has demonstrated to be faster and more stable in other environments. Then, we briefly discuss and evaluate our results.
翻訳日:2021-10-14 19:00:39 公開日:2021-10-13
# (参考訳) NPIVモデルの効率的な推定:様々なニューラルネットワークに基づく推定器の比較

Efficient Estimation in NPIV Models: A Comparison of Various Neural Networks-Based Estimators ( http://arxiv.org/abs/2110.06763v1 )

ライセンス: CC BY 4.0
Jiafeng Che, Xiaohong Chen, Elie Tamer(参考訳) 経済学における経験的研究に関連する高次元共変量の半非パラメトリックインストゥルメンタル変数(npiv)モデルにおける人工ニューラルネットワーク(anns)の計算性能について検討する。 我々は,期待関数(重み付き平均微分など)の効率的な推定と推定に焦点をあて,最適基準に基づく手順(最小距離またはSMD)と新しいスコアベース手順(ES)を用いる。 どちらの手順もアンを使って未知の関数を近似する。 次に,これら2種類の推定器を実装するための詳細な実践者のレシピを提供する。 これには、未知の関数(条件付き期待を含む)のチューニングパラメータの選択と、smdにおける最適重みの推定の選択と、es推定器で使用されるriesz表現器の両方が含まれる。 最後に、大規模な回帰器(最大13個の連続)と、様々な基礎となる非線形性と共変量相関を含む複雑な設計における有限サンプル性能を比較するモンテカルロ実験を行う。 結果から得られたいくつかの内容は以下のとおりである。 1) チューニングと最適化は特に非凸であるため微妙である。 2) ANNの様々なアーキテクチャは、私たちが考慮し、適切なチューニングを与えられた設計では重要でないように思われる。 3) ANN推定器では安定な推測がより困難である。 4) SMDに基づく最適推定器は、適切に動作する。 5) 実装理論と近似理論の間にはギャップがあるようである。 最後に、ANN NPIVを用いて、平均価格弾力性と平均デリバティブを2つの需要例で推定する。

We investigate the computational performance of Artificial Neural Networks (ANNs) in semi-nonparametric instrumental variables (NPIV) models of high dimensional covariates that are relevant to empirical work in economics. We focus on efficient estimation of and inference on expectation functionals (such as weighted average derivatives) and use optimal criterion-based procedures (sieve minimum distance or SMD) and novel efficient score-based procedures (ES). Both these procedures use ANN to approximate the unknown function. Then, we provide a detailed practitioner's recipe for implementing these two classes of estimators. This involves the choice of tuning parameters both for the unknown functions (that include conditional expectations) but also for the choice of estimation of the optimal weights in SMD and the Riesz representers used with the ES estimators. Finally, we conduct a large set of Monte Carlo experiments that compares the finite-sample performance in complicated designs that involve a large set of regressors (up to 13 continuous), and various underlying nonlinearities and covariate correlations. Some of the takeaways from our results include: 1) tuning and optimization are delicate especially as the problem is nonconvex; 2) various architectures of the ANNs do not seem to matter for the designs we consider and given proper tuning, ANN methods perform well; 3) stable inferences are more difficult to achieve with ANN estimators; 4) optimal SMD based estimators perform adequately; 5) there seems to be a gap between implementation and approximation theory. Finally, we apply ANN NPIV to estimate average price elasticity and average derivatives in two demand examples.
翻訳日:2021-10-14 18:59:08 公開日:2021-10-13
# (参考訳) 能動物体分類のための深層強化学習に基づく次回のベストビュー推定 [全文訳有]

Next-Best-View Estimation based on Deep Reinforcement Learning for Active Object Classification ( http://arxiv.org/abs/2110.06766v1 )

ライセンス: CC BY 4.0
Christian Korbach, Markus D. Solbach, Raphael Memmesheimer, Dietrich Paulus, John K. Tsotsos(参考訳) 一つの視点からの画像データの提示と分析は、しばしばタスクを解くのに不十分である。 より多くの情報を得るためにはいくつかの視点が必要である。 問題である$\textit{next-best-view}$は、基礎となるタスクに対して最大の情報を得る最適な視点を見つけようとします。 本研究では,ロボットアームが対象物をエンドエフェクタに保持し,その対象を明確に識別する次回のベストビューのシーケンスを検索する。 我々は、深層強化学習の手法であるSoft Actor-Critic (SAC) を用いて、特定の対象に対する次のベストビューを学習する。 評価は、エージェントがロボットアームがオブジェクトを動かすべきポーズを決定することを学習できることを示しています。 これにより、そのようなオブジェクトと他のオブジェクトをよりよく区別するより正確な予測を提供する視点が導かれる。 私たちはこのコードを科学コミュニティ向けに公開し、$\href{https://github.com/c korbach/nbv_rl}{\text{this https link}}$で再現可能にします。

The presentation and analysis of image data from a single viewpoint are often not sufficient to solve a task. Several viewpoints are necessary to obtain more information. The $\textit{next-best-view}$ problem attempts to find the optimal viewpoint with the greatest information gain for the underlying task. In this work, a robot arm holds an object in its end-effector and searches for a sequence of next-best-view to explicitly identify the object. We use Soft Actor-Critic (SAC), a method of deep reinforcement learning, to learn these next-best-views for a specific set of objects. The evaluation shows that an agent can learn to determine an object pose to which the robot arm should move an object. This leads to a viewpoint that provides a more accurate prediction to distinguish such an object from other objects better. We make the code publicly available for the scientific community and for reproducibility under $\href{https://github.com/c korbach/nbv_rl}{\text{this https link}}$.
翻訳日:2021-10-14 18:57:58 公開日:2021-10-13
# (参考訳) 増分アンサンブルガウス過程 [全文訳有]

Incremental Ensemble Gaussian Processes ( http://arxiv.org/abs/2110.06777v1 )

ライセンス: CC BY 4.0
Qin Lu, Georgios V. Karanikolas, and Georgios B. Giannakis(参考訳) ベイズ非パラメトリックスに属する、ガウス過程(gp)に基づくアプローチは、リッチな非線形関数のクラスを学習するだけでなく、関連する不確かさを定量化する上でも十分に文書化されている。 しかし、ほとんどのgpメソッドは、事前選択された単一のカーネル関数に依存しており、時間クリティカルなアプリケーションで順次到着するデータサンプルを特徴付けるのに不足する可能性がある。 そこで本研究では,egpメタリアナーがgp学習者の「itアンサンブル」を採用し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ,インクリメンタルアンサンブル(ie-)gpフレームワークを提唱する。 各gpエキスパートは、ランダムな特徴に基づく近似を利用してオンラインの予測とモデル更新を {\it scalability} で行い、egpメタリーナーはデータ適応重みに乗じて専門家一人当たりの予測を合成する。 さらに、新しいIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。 オンライン凸最適化における標準として,IE-GPとその動的変種の性能を,モデリング仮定に反する逆条件で評価するために,後悔の概念を用いて厳密な性能解析を行った。 最後に,新しいIE-GPフレームワークの下で,次元削減のためのオンライン教師なし学習について検討した。 合成および実データテストは,提案手法の有効性を示す。

Belonging to the family of Bayesian nonparametrics, Gaussian process (GP) based approaches have well-documented merits not only in learning over a rich class of nonlinear functions, but also in quantifying the associated uncertainty. However, most GP methods rely on a single preselected kernel function, which may fall short in characterizing data samples that arrive sequentially in time-critical applications. To enable {\it online} kernel adaptation, the present work advocates an incremental ensemble (IE-) GP framework, where an EGP meta-learner employs an {\it ensemble} of GP learners, each having a unique kernel belonging to a prescribed kernel dictionary. With each GP expert leveraging the random feature-based approximation to perform online prediction and model update with {\it scalability}, the EGP meta-learner capitalizes on data-adaptive weights to synthesize the per-expert predictions. Further, the novel IE-GP is generalized to accommodate time-varying functions by modeling structured dynamics at the EGP meta-learner and within each GP learner. To benchmark the performance of IE-GP and its dynamic variant in the adversarial setting where the modeling assumptions are violated, rigorous performance analysis has been conducted via the notion of regret, as the norm in online convex optimization. Last but not the least, online unsupervised learning for dimensionality reduction is explored under the novel IE-GP framework. Synthetic and real data tests demonstrate the effectiveness of the proposed schemes.
翻訳日:2021-10-14 18:44:07 公開日:2021-10-13
# (参考訳) 空間時間ビデオ超解像のための光フロー再生型双方向リカレントネットワーク [全文訳有]

Optical-Flow-Reuse-B ased Bidirectional Recurrent Network for Space-Time Video Super-Resolution ( http://arxiv.org/abs/2110.06786v1 )

ライセンス: CC BY 4.0
Yuantong Zhang, Huairui Wang, Zhenzhong Chen(参考訳) 本稿では,空間解像度とフレームレートを同時に向上させる時空間ビデオ超解像(ST-VSR)の課題について考察する。 しかし、既存の手法は、多くの隣接するフレームからの情報を効率的に活用する方法や、変形可能なConvLSTM戦略を用いて推論の速度劣化を避けることの難しさに悩まされる。 % LSTMを用いたST-VSR法は有望な結果を得た。 本稿では,既存の手法の課題を解決するために,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗い双方向リカレントニューラルネットワークを提案する。 具体的には,まず2方向の光フローを用いて隠れ状態の更新を行い,次に特徴リファインメントモジュール(FRM)を用いて結果を改良する。 広域のフレームを十分に活用できるため,局所的およびグローバル的な情報をより効果的に活用できる。 さらに,隣接するフレームの中間フローを再利用可能な光フロー再利用方式を提案し,既存のLSTM設計と比較してフレームアライメントの計算負担を大幅に削減する。 広汎な実験により,我々のOFR-BRNは精度と効率の両面において最先端の手法よりも優れていることが示された。

In this paper, we consider the task of space-time video super-resolution (ST-VSR), which simultaneously increases the spatial resolution and frame rate for a given video. However, existing methods typically suffer from difficulties in how to efficiently leverage information from a large range of neighboring frames or avoiding the speed degradation in the inference using deformable ConvLSTM strategies for alignment. % Some recent LSTM-based ST-VSR methods have achieved promising results. To solve the above problem of the existing methods, we propose a coarse-to-fine bidirectional recurrent neural network instead of using ConvLSTM to leverage knowledge between adjacent frames. Specifically, we first use bi-directional optical flow to update the hidden state and then employ a Feature Refinement Module (FRM) to refine the result. Since we could fully utilize a large range of neighboring frames, our method leverages local and global information more effectively. In addition, we propose an optical flow-reuse strategy that can reuse the intermediate flow of adjacent frames, which considerably reduces the computation burden of frame alignment compared with existing LSTM-based designs. Extensive experiments demonstrate that our optical-flow-reuse-b ased bidirectional recurrent network(OFR-BRN) is superior to the state-of-the-art methods both in terms of accuracy and efficiency.
翻訳日:2021-10-14 17:59:00 公開日:2021-10-13
# (参考訳) 敵事例における攻撃特性の同定 [全文訳有]

Identification of Attack-Specific Signatures in Adversarial Examples ( http://arxiv.org/abs/2110.06802v1 )

ライセンス: CC BY 4.0
Hossein Souri, Pirazh Khorramshahi, Chun Pong Lau, Micah Goldblum, Rama Chellappa(参考訳) adversarial attack literatureには、ニューラルネットワークの病的行動をもたらす摂動を作るための無数のアルゴリズムが含まれている。 多くの場合、複数のアルゴリズムが同じタスクをターゲットにし、同じ制約を課す。 本研究では,異なる攻撃アルゴリズムが,その効果だけでなく,被害者の質的影響についても異なる敵例を生成することを示す。 まず、敵の例を作った攻撃アルゴリズムを判定できることを実証することから始める。 次に,パラメータ空間サルリエンシーマップの最近の進歩を利用して,視覚的および定量的に,攻撃アルゴリズムが対象とするネットワークと画像のどの部分で異なるかを示す。 以上の結果から, 攻撃は, 騙しモデルの成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。

The adversarial attack literature contains a myriad of algorithms for crafting perturbations which yield pathological behavior in neural networks. In many cases, multiple algorithms target the same tasks and even enforce the same constraints. In this work, we show that different attack algorithms produce adversarial examples which are distinct not only in their effectiveness but also in how they qualitatively affect their victims. We begin by demonstrating that one can determine the attack algorithm that crafted an adversarial example. Then, we leverage recent advances in parameter-space saliency maps to show, both visually and quantitatively, that adversarial attack algorithms differ in which parts of the network and image they target. Our findings suggest that prospective adversarial attacks should be compared not only via their success rates at fooling models but also via deeper downstream effects they have on victims.
翻訳日:2021-10-14 17:39:30 公開日:2021-10-13
# (参考訳) Wasserstein Adversarial Robustness の検証のためのフレームワーク [全文訳有]

A Framework for Verification of Wasserstein Adversarial Robustness ( http://arxiv.org/abs/2110.06816v1 )

ライセンス: CC BY 4.0
Tobias Wegel, Felix Assion, David Mickisch, Florens Gre{\ss}ner(参考訳) 機械学習画像分類器は、逆境や汚職の摂動に影響を受けやすい。 イメージに不可避なノイズを加えると、機械学習モデルの深刻な分類ミスにつながる可能性がある。 雑音の大きさを測定するために$l_p$-ノルムを使うことは、人間の類似性知覚を捉えることに失敗する。 ワッサーシュタイン計量を用いて分類器の堅牢性を検証することは、敵対例(認証)の欠如を証明したり、その存在を証明(攻撃)することで達成できる。 本稿では,Levine と Feizi による研究に基づいて,凸ポリトープや$L_1$-balls の既存の認証手法を Wasserstein の脅威モデルに転送するフレームワークを提案する。 得られた認証は、凸多面体か$l_1$-ballsが選択されたかによっては完全か不完全である。 さらに, 勾配降下を想定し, 既存の攻撃手法と比較して計算量を大幅に削減した新たなワッサースタイン逆攻撃を提案する。

Machine learning image classifiers are susceptible to adversarial and corruption perturbations. Adding imperceptible noise to images can lead to severe misclassifications of the machine learning model. Using $L_p$-norms for measuring the size of the noise fails to capture human similarity perception, which is why optimal transport based distance measures like the Wasserstein metric are increasingly being used in the field of adversarial robustness. Verifying the robustness of classifiers using the Wasserstein metric can be achieved by proving the absence of adversarial examples (certification) or proving their presence (attack). In this work we present a framework based on the work by Levine and Feizi, which allows us to transfer existing certification methods for convex polytopes or $L_1$-balls to the Wasserstein threat model. The resulting certification can be complete or incomplete, depending on whether convex polytopes or $L_1$-balls were chosen. Additionally, we present a new Wasserstein adversarial attack that is projected gradient descent based and which has a significantly reduced computational burden compared to existing attack approaches.
翻訳日:2021-10-14 17:23:42 公開日:2021-10-13
# (参考訳) 19世紀の古典的注釈書における光学的文字認識の現状 [全文訳有]

Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs ( http://arxiv.org/abs/2110.06817v1 )

ライセンス: CC BY-SA 4.0
Matteo Romanello, Sven Najem-Meyer and Bruce Robertson(参考訳) 批評版や翻訳版とともに、コメンテーリーは文学やテキストの学問における出版の主要なジャンルの1つであり、世紀にわたる伝統がある。 しかし、数千のデジタル化された歴史的注釈の活用は、特にギリシア語のテキストに対する注釈において、光学的文字認識(ocr)の質の低さによって妨げられた。 本稿では,歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。 その結果、クラケン + ciaconna の文字誤り率 (cer) は、多調ギリシア語テキストの密度が高い注釈区間では tesseract/ocr-d よりもかなり低い(平均は cer 7% 対 13%)のに対し、tesseract/ocr-d は、主にラテン文字で書かれたテキスト区間では kraken + ciaconna よりも若干正確である(平均 cer 8.2% 対 8.4%)。 我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。

Together with critical editions and translations, commentaries are one of the main genres of publication in literary and textual scholarship, and have a century-long tradition. Yet, the exploitation of thousands of digitized historical commentaries was hitherto hindered by the poor quality of Optical Character Recognition (OCR), especially on commentaries to Greek texts. In this paper, we evaluate the performances of two pipelines suitable for the OCR of historical classical commentaries. Our results show that Kraken + Ciaconna reaches a substantially lower character error rate (CER) than Tesseract/OCR-D on commentary sections with high density of polytonic Greek text (average CER 7% vs. 13%), while Tesseract/OCR-D is slightly more accurate than Kraken + Ciaconna on text sections written predominantly in Latin script (average CER 8.2% vs. 8.4%). As part of this paper, we also release GT4HistComment, a small dataset with OCR ground truth for 19th classical commentaries and Pogretra, a large collection of training data and pre-trained models for a wide variety of ancient Greek typefaces.
翻訳日:2021-10-14 17:10:16 公開日:2021-10-13
# (参考訳) 係り受け解析における構成一般化 [全文訳有]

Compositional Generalization in Dependency Parsing ( http://arxiv.org/abs/2110.06843v1 )

ライセンス: CC BY 4.0
Emily Goodwin, Siva Reddy, Timothy J. O'Donnell, Dzmitry Bahdanau(参考訳) 合成性、あるいは単語のような親しみやすい単位を新しいフレーズや文に結合する能力は、近年人工知能への強い関心の焦点となっている。 意味解析における合成一般化をテストするため、Keysers et al. (2020) はコンポジションフリーベースクエリ (CFQ) を導入した。 このデータセットは、単語のような原始的な単位に対するテストと列車の分布の類似性を最大化するとともに、複合的な分岐を最大化する。 しかし、依存関係解析には合成一般化ベンチマークがない。 本稿では,cfqデータセット上の最先端技術依存構文解析器(qi et al., 2020)の挙動解析のために,cfqのための金標準依存構文解析セットを提案する。 複合分散の増大は依存性解析性能を低下させるが、意味解析性能ほど劇的ではない。 さらに, 依存関係解析器の性能は, 複合分散に対して均一に低下せず, 同一の複合分散を伴う異なる分割に対して異なる性能を示す。 依存関係解析性能の非一様劣化の原因となる多くの仮説を考察し、最も困難な分割に対して依存性解析器の低性能を駆動する多くの構文構造を同定する。

Compositionality, or the ability to combine familiar units like words into novel phrases and sentences, has been the focus of intense interest in artificial intelligence in recent years. To test compositional generalization in semantic parsing, Keysers et al. (2020) introduced Compositional Freebase Queries (CFQ). This dataset maximizes the similarity between the test and train distributions over primitive units, like words, while maximizing the compound divergence: the dissimilarity between test and train distributions over larger structures, like phrases. Dependency parsing, however, lacks a compositional generalization benchmark. In this work, we introduce a gold-standard set of dependency parses for CFQ, and use this to analyze the behavior of a state-of-the art dependency parser (Qi et al., 2020) on the CFQ dataset. We find that increasing compound divergence degrades dependency parsing performance, although not as dramatically as semantic parsing performance. Additionally, we find the performance of the dependency parser does not uniformly degrade relative to compound divergence, and the parser performs differently on different splits with the same compound divergence. We explore a number of hypotheses for what causes the non-uniform degradation in dependency parsing performance, and identify a number of syntactic structures that drive the dependency parser's lower performance on the most challenging splits.
翻訳日:2021-10-14 16:58:42 公開日:2021-10-13
# (参考訳) オンライン校正のためのベイズロジスティック回帰と性能保証付きリスク予測モデルの改訂

Bayesian logistic regression for online recalibration and revision of risk prediction models with performance guarantees ( http://arxiv.org/abs/2110.06866v1 )

ライセンス: CC BY 4.0
Jean Feng, Alexej Gossmann, Berkman Sahiner, Romain Pirracchio(参考訳) 臨床予測モデルをデプロイした後、収集したデータは予測を微調整し、時間シフトに適応するために使用できる。 モデル更新にはオーバーアップ/フィッティングのリスクが伴うため,オンライン手法を性能保証で検討する。 ベイジアンロジスティック回帰 (BLR) とマルコフ変法 (MarBLR) の2つの方法を紹介し, 分布シフト (MarBLR) を明示的にモデル化した。 シミュレーションを用いて実証評価を行い, COPDリスクを予測する実世界の研究を行った。 我々は「I型とII型」の遺残境界を導出する。これは、手順が静的モデルに非劣等であり、平均損失の点でオラクルロジスティックリバイザと競合することを保証している。 どちらの手順も静的モデルや他のオンラインロジスティックリビジョンメソッドを一貫して上回っている。 シミュレーションでは、原モデルの平均キャリブレーション指数(aECI)は0.828(95%CI 0.818-0.938)であった。 BLRとMarBLRによるオンライン再校正により、aECIは0.265 (95%CI 0.230-0.300) と0.241 (95%CI 0.216-0.266) に改善された。 より広範なロジスティックなモデル修正を行うと、BLRとMarBLRは平均的なAUC(aAUC)を0.767(95%CI 0.765-0.769)から0.800(95%CI 0.798-0.802)に引き上げた。 COPD研究において、BLRとMarBLRは、元のモデルと継続的に改良された勾配木を動的に組み合わせて、 0.924 (95%CI 0.913-0.935) と 0.925 (95%CI 0.914-0.935) の aAUC (95%CI 0.992-0.916) を達成した。 その単純さにもかかわらず、BLRはMarBLRと非常に競合している。 marblrは、以前のデータがよりよく反映されるとblrを上回る。 BLRとMarBLRは臨床予測モデルの輸送性を改善し、時間とともにその性能を維持することができる。

After deploying a clinical prediction model, subsequently collected data can be used to fine-tune its predictions and adapt to temporal shifts. Because model updating carries risks of over-updating/fittin g, we study online methods with performance guarantees. We introduce two procedures for continual recalibration or revision of an underlying prediction model: Bayesian logistic regression (BLR) and a Markov variant that explicitly models distribution shifts (MarBLR). We perform empirical evaluation via simulations and a real-world study predicting COPD risk. We derive "Type I and II" regret bounds, which guarantee the procedures are non-inferior to a static model and competitive with an oracle logistic reviser in terms of the average loss. Both procedures consistently outperformed the static model and other online logistic revision methods. In simulations, the average estimated calibration index (aECI) of the original model was 0.828 (95%CI 0.818-0.938). Online recalibration using BLR and MarBLR improved the aECI, attaining 0.265 (95%CI 0.230-0.300) and 0.241 (95%CI 0.216-0.266), respectively. When performing more extensive logistic model revisions, BLR and MarBLR increased the average AUC (aAUC) from 0.767 (95%CI 0.765-0.769) to 0.800 (95%CI 0.798-0.802) and 0.799 (95%CI 0.797-0.801), respectively, in stationary settings and protected against substantial model decay. In the COPD study, BLR and MarBLR dynamically combined the original model with a continually-refitted gradient boosted tree to achieve aAUCs of 0.924 (95%CI 0.913-0.935) and 0.925 (95%CI 0.914-0.935), compared to the static model's aAUC of 0.904 (95%CI 0.892-0.916). Despite its simplicity, BLR is highly competitive with MarBLR. MarBLR outperforms BLR when its prior better reflects the data. BLR and MarBLR can improve the transportability of clinical prediction models and maintain their performance over time.
翻訳日:2021-10-14 16:47:08 公開日:2021-10-13
# (参考訳) 変圧器モデルを用いた自動評価 [全文訳有]

Automated Essay Scoring Using Transformer Models ( http://arxiv.org/abs/2110.06874v1 )

ライセンス: CC BY-SA 4.0
Sabrina Ludwig, Christian Mayer, Christopher Hansen, Kerstin Eilers, and Steffen Brandt(参考訳) 自動エッセイスコアリング(AES)は、手動スコアリングの負担を大幅に軽減し、学習者へのアドホックフィードバックを可能にするため、教育分野で注目を集めている。 機械学習に基づく自然言語処理はテキスト分類やAESに特に適していることが示されている。 AESの機械学習アプローチの多くは、まだback-of-words(BOW)アプローチに依存しているが、本論文ではトランスフォーマーベースのアプローチを検討し、その性能をBOWアプローチに基づくロジスティック回帰モデルと比較し、それらの違いについて議論する。 分析は、丁寧さの観点で手動でラベル付けされた問題解決タスクに対する2,088通のeメール応答に基づいている。 この分析で考慮された両トランスモデルは、回帰ベースモデルにハイパーパラメータをチューニングせずに性能が向上した。 丁寧な分類のようなAESタスクではトランスフォーマーベースのアプローチには大きな利点があるが、BOWアプローチでは単語の順序を考慮せず、語幹を減らしている。 さらに,このようなモデルが人力センサの精度向上にどのように役立つかを示すとともに,トランスフォーマーモデルの実装方法についての詳細な指導を行う。

Automated essay scoring (AES) is gaining increasing attention in the education sector as it significantly reduces the burden of manual scoring and allows ad hoc feedback for learners. Natural language processing based on machine learning has been shown to be particularly suitable for text classification and AES. While many machine-learning approaches for AES still rely on a bag-of-words (BOW) approach, we consider a transformer-based approach in this paper, compare its performance to a logistic regression model based on the BOW approach and discuss their differences. The analysis is based on 2,088 email responses to a problem-solving task, that were manually labeled in terms of politeness. Both transformer models considered in that analysis outperformed without any hyper-parameter tuning the regression-based model. We argue that for AES tasks such as politeness classification, the transformer-based approach has significant advantages, while a BOW approach suffers from not taking word order into account and reducing the words to their stem. Further, we show how such models can help increase the accuracy of human raters, and we provide a detailed instruction on how to implement transformer-based models for one's own purpose.
翻訳日:2021-10-14 16:45:26 公開日:2021-10-13
# 音響効果の異なる自動DJ遷移と生成逆ネットワーク

Automatic DJ Transitions with Differentiable Audio Effects and Generative Adversarial Networks ( http://arxiv.org/abs/2110.06525v1 )

ライセンス: Link先を確認
Bo-Yu Chen, Wei-Han Hsu, Wei-Hsiang Liao, Marco A. Mart\'inez Ram\'irez, Yuki Mitsufuji and Yi-Hsuan Yang(参考訳) ディスクジョッキー(DJ)の中心的なタスクは、隣接するトラック間のシームレスな遷移を伴うミューシックのミックスセットを作成することである。 本稿では,実世界のDJミキシングから学習することで,生成的敵対ネットワークを用いて楽曲遷移を生成するデータ駆動アプローチについて検討する。 特に、モデルのジェネレータは、2つの異なるデジタル信号処理コンポーネント、等化器(EQ)とフェイダーを使用して、データ生成パイプラインによって選択された2つのトラックを混合する。 生成器はeqsとfaderのパラメータを、判定器が判断するようにhumandjが生成した実混合に類似するように設定する必要がある。 リスニングテストの結果、モデルが多くのベースラインと比較して競争力のある結果が得られることがわかった。

A central task of a Disc Jockey (DJ) is to create a mixset of mu-sic with seamless transitions between adjacent tracks. In this paper, we explore a data-driven approach that uses a generative adversarial network to create the song transition by learning from real-world DJ mixes. In particular, the generator of the model uses two differentiable digital signal processing components, an equalizer (EQ) and a fader, to mix two tracks selected by a data generation pipeline. The generator has to set the parameters of the EQs and fader in such away that the resulting mix resembles real mixes created by humanDJ, as judged by the discriminator counterpart. Result of a listening test shows that the model can achieve competitive results compared with a number of baselines.
翻訳日:2021-10-14 16:21:44 公開日:2021-10-13
# EIHW-MTG DiCOVA 2021 チャレンジシステム報告

EIHW-MTG DiCOVA 2021 Challenge System Report ( http://arxiv.org/abs/2110.06543v1 )

ライセンス: Link先を確認
Adria Mallol-Ragolta and Helena Cuesta and Emilia G\'omez and Bj\"orn W. Schuller(参考訳) 本研究の目的は、うずまに埋め込まれた音響情報を分析することで、COVID-19患者を自動的に検出することである。 新型コロナウイルス(COVID-19)は呼吸器系に影響を及ぼし、その結果、呼吸器関連信号が手元にあるタスクの健全な情報を含む可能性がある。 我々は、新型コロナウイルスがこれらの信号の周波数内容を変化させるかどうかを調べる目的で、cowingサンプルのスペクトログラム表現の分析に焦点をあてている。 さらに、この研究は、COVID-19の自動検出における性別の影響も評価している。 スペクトルの深層学習表現を抽出するために,コー固有回路とResnet18事前学習畳み込みニューラルネットワーク(CNN)の性能を比較した。 さらに,cnnが抽出した深層学習の特徴をモデルが強調することができるように,文脈的注意の活用も検討した。 我々は,DiCOVA 2021 ChallengeのCough Sound Trackのデータセットについて実験を行った。 resnet18で事前訓練されたcnnを文脈に配慮してテストセットの最適性能を求め、曲線(auc)の下の領域を80%の感度で70.91点とした。

This paper aims to automatically detect COVID-19 patients by analysing the acoustic information embedded in coughs. COVID-19 affects the respiratory system, and, consequently, respiratory-related signals have the potential to contain salient information for the task at hand. We focus on analysing the spectrogram representations of coughing samples with the aim to investigate whether COVID-19 alters the frequency content of these signals. Furthermore, this work also assesses the impact of gender in the automatic detection of COVID-19. To extract deep learnt representations of the spectrograms, we compare the performance of a cough-specific, and a Resnet18 pre-trained Convolutional Neural Network (CNN). Additionally, our approach explores the use of contextual attention, so the model can learn to highlight the most relevant deep learnt features extracted by the CNN. We conduct our experiments on the dataset released for the Cough Sound Track of the DiCOVA 2021 Challenge. The best performance on the test set is obtained using the Resnet18 pre-trained CNN with contextual attention, which scored an Area Under the Curve (AUC) of 70.91 at 80% sensitivity.
翻訳日:2021-10-14 16:21:28 公開日:2021-10-13
# 低プライバシーレジームにおける無限可除ノイズ

Infinitely Divisible Noise in the Low Privacy Regime ( http://arxiv.org/abs/2110.06559v1 )

ライセンス: Link先を確認
Rasmus Pagh, Nina Mesing Stausholm(参考訳) ユーザ間でデータを分散して共有しないフェデレーション学習は、プライバシ保護機械学習に対する一般的なアプローチとして現れている。 セキュアアグリゲーションのような暗号化技術は、すべてのユーザからのコントリビューションを集約するために使用される。 このような集合を区別的にプライベートにするロバストな手法は、ラプラス分布の無限分割可能性、すなわち、ラプラス分布をガンマ分布からのi.i.d.ノイズ共有の和として表現でき、各ユーザが1つの共有を追加できる。 しかし、ラプラスノイズは、$\varepsilon$-differ ential privacyの低プライバシー制度において、$\varepsilon > 1$が大きな定数であるような最適の誤りを持つことが知られている。 本稿では,実数値データに対する最初の無限分割可能なノイズ分布を,$\varepsilon$-diffe rential privacy を実現し,$\varepsilon$で指数関数的に減少するエラーを期待する。

Federated learning, in which training data is distributed among users and never shared, has emerged as a popular approach to privacy-preserving machine learning. Cryptographic techniques such as secure aggregation are used to aggregate contributions, like a model update, from all users. A robust technique for making such aggregates differentially private is to exploit infinite divisibility of the Laplace distribution, namely, that a Laplace distribution can be expressed as a sum of i.i.d. noise shares from a Gamma distribution, one share added by each user. However, Laplace noise is known to have suboptimal error in the low privacy regime for $\varepsilon$-differ ential privacy, where $\varepsilon > 1$ is a large constant. In this paper we present the first infinitely divisible noise distribution for real-valued data that achieves $\varepsilon$-differ ential privacy and has expected error that decreases exponentially with $\varepsilon$.
翻訳日:2021-10-14 16:21:09 公開日:2021-10-13
# スパイクニューラルネットワークの学習のための時間符号化手法

A Time Encoding approach to training Spiking Neural Networks ( http://arxiv.org/abs/2110.06735v1 )

ライセンス: Link先を確認
Karen Adam(参考訳) スパイキングニューラルネットワーク (SNN) が人気を集めているが, トレーニングに使用されるアルゴリズムは, 古典的ニューラルネットワーク (ANN) が取り組んだものと同じ課題を解くのに十分ではないようだ。 本稿では、時間エンコーディングの分野からの理論を用いて、snsの理解と訓練を支援する追加のツールを提案する。 time encoding machine (tems) は統合・発射ニューロンをモデル化し、よく理解された再構成特性を持つ。 TEMの分野からインスピレーションを得て、SNNのスパイクタイムをSNNの重み行列の制約として解釈する方法について検討する。 具体的には、線形制約の集合を解くことによって一層SNNを訓練する方法と、SNNが発するスパイクのオール・オー・ノー・非同期特性を利用して二層SNNを訓練する方法を検討する。 これらのスパイクの性質はバックプロパゲーションの代替となり、古典的なANNのようにアクティベーションとグレードの同時アクティベーションでは不可能である。

While Spiking Neural Networks (SNNs) have been gaining in popularity, it seems that the algorithms used to train them are not powerful enough to solve the same tasks as those tackled by classical Artificial Neural Networks (ANNs). In this paper, we provide an extra tool to help us understand and train SNNs by using theory from the field of time encoding. Time encoding machines (TEMs) can be used to model integrate-and-fire neurons and have well-understood reconstruction properties. We will see how one can take inspiration from the field of TEMs to interpret the spike times of SNNs as constraints on the SNNs' weight matrices. More specifically, we study how to train one-layer SNNs by solving a set of linear constraints, and how to train two-layer SNNs by leveraging the all-or-none and asynchronous properties of the spikes emitted by SNNs. These properties of spikes result in an alternative to backpropagation which is not possible in the case of simultaneous and graded activations as in classical ANNs.
翻訳日:2021-10-14 16:20:49 公開日:2021-10-13
# (参考訳) トランスファービリティのメトリクス、その特異性、安定性、パフォーマンスを再考する [全文訳有]

Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance ( http://arxiv.org/abs/2110.06893v1 )

ライセンス: CC BY 4.0
Shibal Ibrahim, Natalia Ponomareva, Rahul Mazumder(参考訳) 小さなカスタマイズデータセット上での大規模な事前学習画像と言語モデルの微調整は、限られたリソースの予測と効率的な使用を改善するために、ますます人気が高まっている。 微調整には、転送可能性の定量化と転送可能性から最良のモデルの識別が必要であり、全ての候補モデル/タスクペアで高価な再トレーニングが防止される。 共分散推定の統計的問題は,Hスコア[Bao et al., 2019](新しいメトリクスの共通基盤である)の性能の低下を招き,縮小に基づく推定器を提案する。 その結果,Hスコア相関性能は最大80%向上し,Youらによる最先端のLogME指標と競合する結果となった。 [2021]. 縮小ベースのh-scoreはlogmeに比べて計算速度が3-55倍速い。 さらに、ターゲットの(ソースではなく)タスク選択の一般的でない設定についても検討します。 本研究では, ラベル数, クラス不均衡率などの異なる設定において, LEEP (Nguyen et al., 2020) などの最近の指標について, 従来見過ごされていた問題を, 主要な指標として誤って表現した。 このような状況下での相関性能と相対精度の相関を補正して評価することを推奨する。 また,教師付き(h-scoreなど)と教師なし測度(例えば,最大平均不一致(long et al., 2015])の両方を,特徴埋め込み次元の異なるソースモデル/レイヤ間で比較することの難しさを概説する。 次元性低減法によって,モデル間の有意義な比較が可能となり,これらの測定値の性能が向上した。 我々は14の異なる教師付きメトリクスと教師なしメトリクスのパフォーマンスを調査し、教師なしメトリクスでさえドメイン適応の主要なモデルを識別できることを実証します。 約65,000(微調整試験)の実験を実施。

Fine-tuning of large pre-trained image and language models on small customized datasets has become increasingly popular for improved prediction and efficient use of limited resources. Fine-tuning requires identification of best models to transfer-learn from and quantifying transferability prevents expensive re-training on all of the candidate models/tasks pairs. We show that the statistical problems with covariance estimation drive the poor performance of H-score [Bao et al., 2019] -- a common baseline for newer metrics -- and propose shrinkage-based estimator. This results in up to 80% absolute gain in H-score correlation performance, making it competitive with the state-of-the-art LogME measure by You et al. [2021]. Our shrinkage-based H-score is 3-55 times faster to compute compared to LogME. Additionally, we look into a less common setting of target (as opposed to source) task selection. We identify previously overlooked problems in such settings with different number of labels, class-imbalance ratios etc. for some recent metrics e.g., LEEP [Nguyen et al., 2020] that resulted in them being misrepresented as leading measures. We propose a correction and recommend measuring correlation performance against relative accuracy in such settings. We also outline the difficulties of comparing feature-dependent metrics, both supervised (e.g. H-score) and unsupervised measures (e.g., Maximum Mean Discrepancy [Long et al., 2015]), across source models/layers with different feature embedding dimension. We show that dimensionality reduction methods allow for meaningful comparison across models and improved performance of some of these measures. We investigate performance of 14 different supervised and unsupervised metrics and demonstrate that even unsupervised metrics can identify the leading models for domain adaptation. We support our findings with ~65,000 (fine-tuning trials) experiments.
翻訳日:2021-10-14 16:17:49 公開日:2021-10-13
# (参考訳) 楕円型PDEのための機械学習:高速一般化境界、ニューラルスケーリング法則、最小最適性

Machine Learning For Elliptic PDEs: Fast Rate Generalization Bound, Neural Scaling Law and Minimax Optimality ( http://arxiv.org/abs/2110.06897v1 )

ライセンス: CC BY 4.0
Yiping Lu, Haoxuan Chen, Jianfeng Lu, Lexing Ying, Jose Blanchet(参考訳) 本稿では,Deep Ritz Method (DRM) と Physics-Informed Neural Networks (PINN) を用いたランダムサンプルから楕円偏微分方程式(PDE)を解くためのディープラーニング手法の統計的限界について検討する。 この問題を単純化するために、量子力学系に広く応用されているディリクレ境界条件がゼロのハイパーキューブ上のシュル・オーディンガー方程式(英語版)という楕円型PDEの試作に焦点をあてる。 両手法の上限値と下限値を確立し,高速な一般化バウンダリを用いて並列に開発した上限値を改善する。 現在のDeep Ritz Methodsが準最適であることを発見し、その修正版を提案する。 また、PINNとDRMの修正版は、ソボレフ空間上の最小限の最適境界を達成できることを示す。 実験的な結果として, 深部モデル精度は, パワー則によるトレーニングセットの増大とともに向上することを示した最近の研究に続いて, 深部PDE解法における次元依存パワー則の類似した挙動を示す計算実験を行った。

In this paper, we study the statistical limits of deep learning techniques for solving elliptic partial differential equations (PDEs) from random samples using the Deep Ritz Method (DRM) and Physics-Informed Neural Networks (PINNs). To simplify the problem, we focus on a prototype elliptic PDE: the Schr\"odinger equation on a hypercube with zero Dirichlet boundary condition, which has wide application in the quantum-mechanical systems. We establish upper and lower bounds for both methods, which improves upon concurrently developed upper bounds for this problem via a fast rate generalization bound. We discover that the current Deep Ritz Methods is sub-optimal and propose a modified version of it. We also prove that PINN and the modified version of DRM can achieve minimax optimal bounds over Sobolev spaces. Empirically, following recent work which has shown that the deep model accuracy will improve with growing training sets according to a power law, we supply computational experiments to show a similar behavior of dimension dependent power law for deep PDE solvers.
翻訳日:2021-10-14 15:52:16 公開日:2021-10-13
# Convex Update (ROMD) を用いた辞書学習

Dictionary Learning with Convex Update (ROMD) ( http://arxiv.org/abs/2110.06641v1 )

ライセンス: Link先を確認
Cheng Cheng and Wei Dai(参考訳) 辞書学習は、訓練データを疎に表現できる辞書を見つけることを目的としており、通常、スパースコーディングと辞書更新の2段階を反復的に適用することで達成される。 辞書更新の典型的な方法は、スパース符号化段階から得られたスパースパターンを用いて辞書原子とその対応するスパース係数の精製に焦点を当て、非凸双線形逆問題である。 本稿では,これら2変数を一組のランク1行列に分解することにより,この問題を凸問題に再キャストするROMDアルゴリズムを提案する。 文献の方法と異なり、ROMDは凸プログラミングを用いて辞書全体を一度に更新する。 したがって、辞書更新の収束保証と辞書学習全体の高速収束の両方が利点である。 ROMDの性能は他のベンチマーク辞書学習アルゴリズムと比較する。 以上の結果から,特に高頻度で観測データが少ない場合におけるROMDの回復精度の向上が示唆された。

Dictionary learning aims to find a dictionary under which the training data can be sparsely represented, and it is usually achieved by iteratively applying two stages: sparse coding and dictionary update. Typical methods for dictionary update focuses on refining both dictionary atoms and their corresponding sparse coefficients by using the sparsity patterns obtained from sparse coding stage, and hence it is a non-convex bilinear inverse problem. In this paper, we propose a Rank-One Matrix Decomposition (ROMD) algorithm to recast this challenge into a convex problem by resolving these two variables into a set of rank-one matrices. Different from methods in the literature, ROMD updates the whole dictionary at a time using convex programming. The advantages hence include both convergence guarantees for dictionary update and faster convergence of the whole dictionary learning. The performance of ROMD is compared with other benchmark dictionary learning algorithms. The results show the improvement of ROMD in recovery accuracy, especially in the cases of high sparsity level and fewer observation data.
翻訳日:2021-10-14 15:49:32 公開日:2021-10-13
# 人間の活動認識のための深層学習のチュートリアル

Tutorial on Deep Learning for Human Activity Recognition ( http://arxiv.org/abs/2110.06663v1 )

ライセンス: Link先を確認
Marius Bock, Alexander Hoelzemann, Michael Moeller, Kristof Van Laerhoven(参考訳) ウェアラブル慣性センサーから人間のアクティビティを推定できるアクティビティ認識システムは、過去数十年で長い道のりを歩んできた。 最先端の手法が機能エンジニアリングから離れ、エンドツーエンドのディープラーニングアプローチが完全に採用されているだけでなく、実験のセットアップやデータセットの作成、アクティビティ認識アプローチの検証も同じように進化しています。 このチュートリアルは2021年のACM International Symposium on Wearable Computers (ISWC'21)とInternational Joint Conference on Pervasive and Ubiquitous Computing (UbiComp'21)で初めて開催された。 チュートリアルは、アクティビティ認識の研究分野の短い紹介の後、人間のアクティビティのディープラーニングのためのデータパイプラインにおける最も重要なステップのハンズオンとインタラクティブなウォークスルーを提供する。 チュートリアル中に表示されるすべてのプレゼンテーションスライドには、すべてのコードエクササイズへのリンクや、チュートリアルのgithubページへのリンクが含まれている。 https://mariusbock.g ithub.io/dl-for-har. com を参照してください。

Activity recognition systems that are capable of estimating human activities from wearable inertial sensors have come a long way in the past decades. Not only have state-of-the-art methods moved away from feature engineering and have fully adopted end-to-end deep learning approaches, best practices for setting up experiments, preparing datasets, and validating activity recognition approaches have similarly evolved. This tutorial was first held at the 2021 ACM International Symposium on Wearable Computers (ISWC'21) and International Joint Conference on Pervasive and Ubiquitous Computing (UbiComp'21). The tutorial, after a short introduction in the research field of activity recognition, provides a hands-on and interactive walk-through of the most important steps in the data pipeline for the deep learning of human activities. All presentation slides shown during the tutorial, which also contain links to all code exercises, as well as the link of the GitHub page of the tutorial can be found on: https://mariusbock.g ithub.io/dl-for-har
翻訳日:2021-10-14 15:49:16 公開日:2021-10-13
# 重要なパラメータ結合とそうでないパラメータ結合について

On the Parameter Combinations That Matter and on Those That do Not ( http://arxiv.org/abs/2110.06717v1 )

ライセンス: Link先を確認
Nikolaos Evangelou, Noah J. Wichrowski, George A. Kevrekidis, Felix Dietrich, Mahdi Kooshkbaghi, Sarah McFann, Ioannis G. Kevrekidis(参考訳) 本稿では,モデルパラメータの非識別性を特徴付けるデータ駆動手法を提案し,動的運動モデルを用いてそれを説明する。 Diffusion Mapsとその拡張を利用することで、動的出力の振る舞いを特徴づけるために必要なパラメータの最小の組み合わせを見つける:モデルに有効なパラメータのセット。 さらに,共形オートエンコーダニューラルネットワークとカーネルに基づく協調型スムース関数手法を用いて,出力動作に影響を与えない冗長なパラメータの組み合わせを分離する。 本稿では,データ駆動型有効パラメータの解釈可能性について論じ,行動予測とパラメータ推定の両方にアプローチの有用性を示す。 後者のタスクでは、特定の出力挙動と整合したパラメータ空間のレベルセットを記述することが重要である。 提案手法は, 有効パラメータ, 物理パラメータの非線形結合を削減した多サイトリン酸化モデルに対して, 従来より解析的に確立されてきたものである。

We present a data-driven approach to characterizing nonidentifiability of a model's parameters and illustrate it through dynamic kinetic models. By employing Diffusion Maps and their extensions, we discover the minimal combinations of parameters required to characterize the dynamic output behavior: a set of effective parameters for the model. Furthermore, we use Conformal Autoencoder Neural Networks, as well as a kernel-based Jointly Smooth Function technique, to disentangle the redundant parameter combinations that do not affect the output behavior from the ones that do. We discuss the interpretability of our data-driven effective parameters and demonstrate the utility of the approach both for behavior prediction and parameter estimation. In the latter task, it becomes important to describe level sets in parameter space that are consistent with a particular output behavior. We validate our approach on a model of multisite phosphorylation, where a reduced set of effective parameters, nonlinear combinations of the physical ones, has previously been established analytically.
翻訳日:2021-10-14 15:48:57 公開日:2021-10-13
# (参考訳) PER-ETD:高能率強調時間差学習法

PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning Method ( http://arxiv.org/abs/2110.06906v1 )

ライセンス: CC BY 4.0
Ziwei Guan, Tengyu Xu, Yingbin Liang(参考訳) emphatic temporal difference (etd) learning (sutton et al., 2016) は、関数近似を用いたオフポリシー値関数評価を成功させる手法である。 ETDは漸近的に望ましい値関数に収束することが示されているが、ETDがしばしば大きな分散に遭遇し、そのサンプルの複雑さが反復数で指数関数的に増加することが知られている。 本研究では,評価パラメータの反復毎に有限期間のみ追跡トレースを再開・更新する,per-etd(周期的再起動etd)と呼ばれる新しいetd法を提案する。 さらに、各etdは、再スタート期間の対数増加とイテレーション数の設計を特徴とし、分散とバイアスの最良のトレードオフを保証し、両者をサブリニアに消滅させる。 PER-ETD は ETD と同じ所望の固定点に収束するが,多項式となる ETD の指数的サンプル複雑性は向上する。 実験はetd毎の優れた性能とetdに対するアドバンテージを検証する。

Emphatic temporal difference (ETD) learning (Sutton et al., 2016) is a successful method to conduct the off-policy value function evaluation with function approximation. Although ETD has been shown to converge asymptotically to a desirable value function, it is well-known that ETD often encounters a large variance so that its sample complexity can increase exponentially fast with the number of iterations. In this work, we propose a new ETD method, called PER-ETD (i.e., PEriodically Restarted-ETD), which restarts and updates the follow-on trace only for a finite period for each iteration of the evaluation parameter. Further, PER-ETD features a design of the logarithmical increase of the restart period with the number of iterations, which guarantees the best trade-off between the variance and bias and keeps both vanishing sublinearly. We show that PER-ETD converges to the same desirable fixed point as ETD, but improves the exponential sample complexity of ETD to be polynomials. Our experiments validate the superior performance of PER-ETD and its advantage over ETD.
翻訳日:2021-10-14 15:47:48 公開日:2021-10-13
# 水中環境のハイパースペクトル3次元マッピング

Hyperspectral 3D Mapping of Underwater Environments ( http://arxiv.org/abs/2110.06571v1 )

ライセンス: Link先を確認
Maxime Ferrera, Aur\'elien Arnaubec, Klemen Istenic, Nuno Gracias, Touria Bajjouk (IFREMER)(参考訳) ハイパースペクトルイメージングは、過去数年間、水中調査の用途に利用されてきた。 多くのハイパースペクトルカメラはプッシュスコープとして機能するので、通常は平坦な表面近似に基づくフォトモザイクの作成や、デッドリクッキングナビゲーションからカメラのポーズを補間することに限られる。 しかし, 航法上のドリフトや, ほぼ間違った平面仮定のため, 得られたモザイクの質が低すぎて適切な解析ができない場合が多く, 本論文では, 水中環境の高スペクトル3次元再構成を行うための初期手法を提案する。 従来のrgbカメラ,慣性ナビゲーションシステム,ハイパースペクトルプッシュbroomカメラで収集したデータを用いて,超スペクトルテクスチャを用いた高精度な3次元再構成手法を提案する。 そこで本研究では, 局所化とマッピング, 構造移動と3次元再構成を同時に組み合わせ, ハイパースペクトルテクスチャを用いた3次元モデルの作成を有利に行い, 平面の仮定とデッドレコンディングナビゲーションの古典的制限を克服する手法を提案する。

Hyperspectral imaging has been increasingly used for underwater survey applications over the past years. As many hyperspectral cameras work as push-broom scanners, their use is usually limited to the creation of photo-mosaics based on a flat surface approximation and by interpolating the camera pose from dead-reckoning navigation. Yet, because of drift in the navigation and the mostly wrong flat surface assumption, the quality of the obtained photo-mosaics is often too low to support adequate analysis.In this paper we present an initial method for creating hyperspectral 3D reconstructions of underwater environments. By fusing the data gathered by a classical RGB camera, an inertial navigation system and a hyperspectral push-broom camera, we show that the proposed method creates highly accurate 3D reconstructions with hyperspectral textures. We propose to combine techniques from simultaneous localization and mapping, structure-from-motio n and 3D reconstruction and advantageously use them to create 3D models with hyperspectral texture, allowing us to overcome the flat surface assumption and the classical limitation of dead-reckoning navigation.
翻訳日:2021-10-14 15:44:47 公開日:2021-10-13
# thOMAS:学習したマルチエージェントサンプリングによる軌道熱マップ出力

THOMAS: Trajectory Heatmap Output with learned Multi-Agent Sampling ( http://arxiv.org/abs/2110.06607v1 )

ライセンス: Link先を確認
Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou, Bogdan Stanciulescu, Fabien Moutarde(参考訳) 本稿では,マルチエージェント・マルチモーダルトラジェクタの効率的かつ一貫した予測を可能にする統合マルチエージェント軌道予測フレームワークであるthomasを提案する。 階層的およびスパース画像生成を利用した高速かつ同時エージェントの将来の熱マップ推定のための統一モデルアーキテクチャを提案する。 熱マップ出力は、バニラマルチモーダル軌道回帰よりも予測された軌道の高レベルな制御を可能にし、より厳密なサンプリングや衝突のない予測を決定論的に追加の制約を組み込むことができることを示した。 しかし、シーン一貫性のある予測の生成は、衝突のない軌道の生成に留まらないことも強調する。 そこで我々は,学習可能な軌道再結合モデルを提案し,各エージェントに対して予測された軌道のセットを入力し,その一貫した再順序付け再結合を出力する。 我々は、対話型マルチエージェント予測チャレンジの結果を報告し、オンラインテストリーダーボードに1,^{st}$をランク付けする。

In this paper, we propose THOMAS, a joint multi-agent trajectory prediction framework allowing for efficient and consistent prediction of multi-agent multi-modal trajectories. We present a unified model architecture for fast and simultaneous agent future heatmap estimation leveraging hierarchical and sparse image generation. We demonstrate that heatmap output enables a higher level of control on the predicted trajectories compared to vanilla multi-modal trajectory regression, allowing to incorporate additional constraints for tighter sampling or collision-free predictions in a deterministic way. However, we also highlight that generating scene-consistent predictions goes beyond the mere generation of collision-free trajectories. We therefore propose a learnable trajectory recombination model that takes as input a set of predicted trajectories for each agent and outputs its consistent reordered recombination. We report our results on the Interaction multi-agent prediction challenge and rank $1^{st}$ on the online test leaderboard.
翻訳日:2021-10-14 15:44:28 公開日:2021-10-13
# 3Dポイントクラウドデータの教師なし表現学習

Unsupervised Representation Learning for 3D Point Cloud Data ( http://arxiv.org/abs/2110.06632v1 )

ライセンス: Link先を確認
Jincen Jiang, Xuequan Lu, Wanli Ouyang, and Meili Wang(参考訳) 無秩序な点を扱うために多くのポイントクラウド学習法が提案されているが、そのほとんどは教師付きであり、トレーニングのためにラベルを必要とする。 対照的に、ポイントクラウドデータの教師なしの学習は、これまでずっと注目を集めていない。 本稿では,教師なしのポイントクラウド学習のための,シンプルで効果的なアプローチを提案する。 特に、元の点雲の良質な対比バージョンを生成する非常に有用な変換を特定する。 彼らはペアを作ります。 共有エンコーダと共有ヘッドネットワークを経由した後、コントラスト損失の2つの変種を導入して出力表現間の一貫性を最大化し、下流分類とセグメンテーションを容易にする。 提案手法の有効性を示すために,3次元オブジェクト分類(ModelNet40とModelNet10),形状部分分割(ShapeNet Partデータセット),シーン分割(S3DIS)の3つの下流タスクについて実験を行った。 総合的な結果は、教師なしのコントラスト表現学習は、オブジェクト分類とセマンティックセグメンテーションにおいて印象的な結果をもたらすことを示している。 一般に現在の教師なしメソッドよりも優れており、教師なしメソッドと同等のパフォーマンスを達成している。 ソースコードは公開される予定だ。

Though a number of point cloud learning methods have been proposed to handle unordered points, most of them are supervised and require labels for training. By contrast, unsupervised learning of point cloud data has received much less attention to date. In this paper, we propose a simple yet effective approach for unsupervised point cloud learning. In particular, we identify a very useful transformation which generates a good contrastive version of an original point cloud. They make up a pair. After going through a shared encoder and a shared head network, the consistency between the output representations are maximized with introducing two variants of contrastive losses to respectively facilitate downstream classification and segmentation. To demonstrate the efficacy of our method, we conduct experiments on three downstream tasks which are 3D object classification (on ModelNet40 and ModelNet10), shape part segmentation (on ShapeNet Part dataset) as well as scene segmentation (on S3DIS). Comprehensive results show that our unsupervised contrastive representation learning enables impressive outcomes in object classification and semantic segmentation. It generally outperforms current unsupervised methods, and even achieves comparable performance to supervised methods. Our source codes will be made publicly available.
翻訳日:2021-10-14 15:44:14 公開日:2021-10-13
# DeepVecFont: デュアルモダリティ学習による高品質ベクトルフォントの合成

DeepVecFont: Synthesizing High-quality Vector Fonts via Dual-modality Learning ( http://arxiv.org/abs/2110.06688v1 )

ライセンス: Link先を確認
Yizhi Wang and Zhouhui Lian(参考訳) ディープラーニングに基づく自動フォント生成は、過去10年間、多くの関心を集めてきた。 しかし、最近報告されたいくつかのアプローチだけが直接ベクトルグリフを生成することができ、その結果はまだ十分ではない。 本稿では,この問題を効果的に解決するための新しい手法であるDeepVecFontを提案する。 この方法を用いることで、品質とコンパクト性が共に人間の設計に匹敵する視覚的に満足するベクトルグリフを自動生成することができる。 deepvecfontの重要なアイデアは、画像合成、シーケンスモデリング、微分可能なラスタ化の技術を採用し、ベクターフォントのデュアルモダリティ情報(すなわちラスタイメージとベクトルアウトライン)を徹底的に活用することです。 この論文のハイライトは3倍です。 まず、フォントのイメージ・アスペクトとシーケンス・アスペクトの両特徴を利用してベクトルグリフを合成する双対モダリティ学習戦略を設計する。 第2に,非構造化データ(例えばベクトルグリフ)をランダムにサンプリングして処理し,生成された構造化データ(例えばグリフ画像)の指導の下でさらに洗練された最適なデータを得るための新しい生成パラダイムを提案する。 最後に,公開データセット上での質的,定量的な実験により,ベクトルフォント生成と補間の応用において高品質な合成結果が得られることを示し,その性能を著しく上回っている。

Automatic font generation based on deep learning has aroused a lot of interest in the last decade. However, only a few recently-reported approaches are capable of directly generating vector glyphs and their results are still far from satisfactory. In this paper, we propose a novel method, DeepVecFont, to effectively resolve this problem. Using our method, for the first time, visually-pleasing vector glyphs whose quality and compactness are both comparable to human-designed ones can be automatically generated. The key idea of our DeepVecFont is to adopt the techniques of image synthesis, sequence modeling and differentiable rasterization to exhaustively exploit the dual-modality information (i.e., raster images and vector outlines) of vector fonts. The highlights of this paper are threefold. First, we design a dual-modality learning strategy which utilizes both image-aspect and sequence-aspect features of fonts to synthesize vector glyphs. Second, we provide a new generative paradigm to handle unstructured data (e.g., vector glyphs) by randomly sampling plausible synthesis results to get the optimal one which is further refined under the guidance of generated structured data (e.g., glyph images). Finally, qualitative and quantitative experiments conducted on a publicly-available dataset demonstrate that our method obtains high-quality synthesis results in the applications of vector font generation and interpolation, significantly outperforming the state of the art.
翻訳日:2021-10-14 15:43:52 公開日:2021-10-13
# フェイスアンチスプーフィングのための学習メタパターン

Learning Meta Pattern for Face Anti-Spoofing ( http://arxiv.org/abs/2110.06753v1 )

ライセンス: Link先を確認
Rizhao Cai, Zhi Li, Renjie Wan, Haoliang Li, Yongjian Hu, Alex Chichung Kot(参考訳) 顔認識システムにはFAS(Face Anti-Spoofing)が不可欠であり,近年広く研究されている。 FASタスクのためのディープニューラルネットワーク(DNN)は、トレーニングデータとテストデータの同様の分布を持つデータセット内実験で有望な結果を得たが、DNNの一般化能力は、トレーニングデータとテストデータの分布が異なるクロスドメインシナリオ下で制限されている。 一般化能力を向上させるため,近年,DNNの入力の識別情報としてタスク対応手作り特徴(ローカルバイナリパターンなど)を抽出する手法が研究されている。 しかし、手作りの特徴抽出は専門家のドメイン知識に依存しており、適切な手作り特徴の選択方法が未検討である。 そこで我々は,学習から学習までのフレームワークでメタパターン(MP)を抽出する学習可能なネットワークを提案する。 手作りの機能をMPに置き換えることで、MPからの識別情報はより一般化されたモデルを学ぶことができる。 さらに,提案する階層型融合モジュール(hfm)を用いて,入力rgb画像と抽出したmp画像とを階層的に融合する2ストリームネットワークを考案する。 我々は包括的な実験を行い、MPが比較した手作り機能より優れていることを示す。 また, HFM と MP を用いた提案手法は, 2 つの異なる領域一般化評価ベンチマークにおいて最先端の性能を実現することができる。

Face Anti-Spoofing (FAS) is essential to secure face recognition systems and has been extensively studied in recent years. Although deep neural networks (DNNs) for the FAS task have achieved promising results in intra-dataset experiments with similar distributions of training and testing data, the DNNs' generalization ability is limited under the cross-domain scenarios with different distributions of training and testing data. To improve the generalization ability, recent hybrid methods have been explored to extract task-aware handcrafted features (e.g., Local Binary Pattern) as discriminative information for the input of DNNs. However, the handcrafted feature extraction relies on experts' domain knowledge, and how to choose appropriate handcrafted features is underexplored. To this end, we propose a learnable network to extract Meta Pattern (MP) in our learning-to-learn framework. By replacing handcrafted features with the MP, the discriminative information from MP is capable of learning a more generalized model. Moreover, we devise a two-stream network to hierarchically fuse the input RGB image and the extracted MP by using our proposed Hierarchical Fusion Module (HFM). We conduct comprehensive experiments and show that our MP outperforms the compared handcrafted features. Also, our proposed method with HFM and the MP can achieve state-of-the-art performance on two different domain generalization evaluation benchmarks.
翻訳日:2021-10-14 15:43:26 公開日:2021-10-13
# 観光スポットを推薦するユーザエクスペリエンス

User Experiences Oriented Sightseeing Spot Recommendation ( http://arxiv.org/abs/2110.06523v1 )

ライセンス: Link先を確認
Kun Yi, Ryu Yamagishi, Taishan Li, Zhengyang Bai, Qiang Ma(参考訳) POIレコメンデーションは観光情報システムにおいて重要な課題である。 しかし、従来のPOIレコメンデーションシステムとは対照的に、利用できるデータは極めて少なく、観光客の多くは一度に数カ所の観光地を訪れ、これらのほとんどは新規観光客からのチェックインデータを持っていない。 従来のシステムのほとんどは、その人気、評判、およびユーザーの好みとカテゴリーに基づく類似度に基づいて観光スポットをランク付けしている。 これらの場所でユーザーが体験できるものを明確にしないため、多様な観光需要を満たすことは困難である。 そこで本研究では,観光客にPOIを推奨するメカニズムを提案する。 1つは観光におけるユーザ行動を明らかにする確率モデルであり、もう1つはPOIsレコメンデーションにおけるコールドスタート問題を扱うための擬似評価メカニズムである。 Flickrから収集した2つのデータセットを用いて広範な実験を行った。 その結果,提案手法は推奨性能(精度,リコール,F測定)と公正性の両方において最先端の手法よりも優れていることがわかった。 実験結果は,提案手法のロバスト性,すなわちデータスパーシティの問題を十分に処理できることを示す。

POI recommendation is a key task in tourism information systems. However, in contrast to conventional point of interest (POI) recommender systems, the available data is extremely sparse; most tourist visit a few sightseeing spots once and most of these spots have no check-in data from new tourists. Most conventional systems rank sightseeing spots based on their popularity, reputations, and category-based similarities with users' preferences. They do not clarify what users can experience in these spots, which makes it difficult to meet diverse tourism needs. To this end, in this work, we propose a mechanism to recommend POIs to tourists. Our mechanism include two components: one is a probabilistic model that reveals the user behaviors in tourism; the other is a pseudo rating mechanism to handle the cold-start issue in POIs recommendations. We carried out extensive experiments with two datasets collected from Flickr. The experimental results demonstrate that our methods are superior to the state-of-the-art methods in both the recommendation performances (precision, recall and F-measure) and fairness. The experimental results also validate the robustness of the proposed methods, i.e., our methods can handle well the issue of data sparsity.
翻訳日:2021-10-14 15:40:55 公開日:2021-10-13
# HEDP:ヒューマンエラーメカニズムに基づくソフトウェア欠陥の早期予測手法

HEDP: A Method for Early Forecasting Software Defects based on Human Error Mechanisms ( http://arxiv.org/abs/2110.06758v1 )

ライセンス: Link先を確認
Fuqun Huang and Lorenzo Strigini(参考訳) ソフトウェア欠陥の主な原因として、人間のエラーが理解の鍵であり、おそらく予測と回避の鍵である。 原因となる認知的誤りに基づいて欠陥を予測するための研究はほとんど行われていない。 本稿では,ヒューマンエラーの認知メカニズムに関する知識を通じて,ソフトウェア欠陥の予測手法を提案する。 私たちの理論では、ソフトウェア欠陥の背後にある主なプロセスは、エラーを起こしやすいシナリオがヒューマンエラーモードを引き起こすことです。 ソフトウェア欠陥はこのようなシナリオを特定し、典型的なエラーモードの知識によって予測される。 提案されたアイデアは、潜在的な欠陥の正確な位置と形を予測することを強調する。 このアプローチを実証し、検証するために、2つのケーススタディを行い、55人のプログラマがプログラミングコンペティションに参加し、5人のアナリストがそのアプローチのユーザを務めました。 このアプローチが、要求フェーズにおいて、コードで見つかった22(31.8%)の特定のタイプの欠陥のうち、7つの正確な位置と形を予測できたことは印象的なものでした。 予測された欠陥は一般的な欠陥であり、55のプログラムにおける欠陥の総数の75.7%を占め、それぞれが少なくとも2人が導入した。 予測されたプログラマが導入した欠陥のごく一部は、平均75%(全プログラマ以上)であった。 さらに、これらの予測された欠陥はデバッグプロセスを通じて非常に永続的であった。 もしこの予測がこれらの欠陥をうまく防げたなら、46.2%のデバッグイテレーションを節約できただろう。 ソフトウェア開発の初期段階で起こりうる欠陥の正確な位置と形態を予測できるこの優れた能力は、欠陥の予防と早期発見にかなりの利益をもたらすことを推奨している。

As the primary cause of software defects, human error is the key to understanding, and perhaps to predicting and avoiding them. Little research has been done to predict defects on the basis of the cognitive errors that cause them. This paper proposes an approach to predicting software defects through knowledge about the cognitive mechanisms of human errors. Our theory is that the main process behind a software defect is that an error-prone scenario triggers human error modes, which psychologists have observed to recur across diverse activities. Software defects can then be predicted by identifying such scenarios, guided by this knowledge of typical error modes. The proposed idea emphasizes predicting the exact location and form of a possible defect. We conducted two case studies to demonstrate and validate this approach, with 55 programmers in a programming competition and 5 analysts serving as the users of the approach. We found it impressive that the approach was able to predict, at the requirement phase, the exact locations and forms of 7 out of the 22 (31.8%) specific types of defects that were found in the code. The defects predicted tended to be common defects: their occurrences constituted 75.7% of the total number of defects in the 55 developed programs; each of them was introduced by at least two persons. The fraction of the defects introduced by a programmer that were predicted was on average (over all programmers) 75%. Furthermore, these predicted defects were highly persistent through the debugging process. If the prediction had been used to successfully prevent these defects, this could have saved 46.2% of the debugging iterations. This excellent capability of forecasting the exact locations and forms of possible defects at the early phases of software development recommends the approach for substantial benefits to defect prevention and early detection.
翻訳日:2021-10-14 15:40:36 公開日:2021-10-13
# SMS: モデル再利用のための効率的なソースモデル選択フレームワーク

SMS: An Efficient Source Model Selection Framework for Model Reuse ( http://arxiv.org/abs/2110.06532v1 )

ライセンス: Link先を確認
Minjun Zhao, Lu Chen, Keyu Yang, Yuntao Du, Yunjun Gao(参考訳) ビッグデータの爆発的な増加に伴い、機械学習(ML)モデルのトレーニングは計算集約的なワークロードとなり、数日や数週間を要することになる。 このように、モデル再利用は、伝達学習と呼ばれるMLコミュニティで注目を集めている。 転送学習は、ソースタスクからターゲットタスクに知識を移すことで、新しいモデルをゼロからトレーニングすることを避ける。 既存の転送学習方法は、主に特定のソースモデルを通してターゲットタスクのパフォーマンスを改善する方法に焦点を当てているが、ソースモデルが与えられると仮定する。 多くのソースモデルが利用可能であるため、データサイエンティストがターゲットタスクの最適なソースモデルを手動で選択することは困難である。 したがって、モデル再利用に適したソースモデルを効率的に選択する方法はまだ未解決の問題である。 本稿では、効率的で効率的で柔軟なソースモデル選択フレームワークであるsmsを提案する。 smsは、ソースとターゲットのデータセットが著しく異なるデータラベルを持っていたとしても有効であり、いかなる種類の構造でもソースモデルをサポートするのに柔軟であり、トレーニングプロセスを避けるのに効率的である。 各ソースモデルに対して、smsはまず、対象データセットのサンプルを対象データセットに直接適用することでソフトラベルにベクトル化し、その後、ソフトラベルのクラスタに適合するためにガウス分布を使用し、最終的にガウス混合ベースのメトリクスを使用して識別能力を測定する。 さらに,sms(i-sms)を改良し,ソースモデルの出力数を削減した。 i-smsはsmsの選択性能を維持しつつ、選択時間を大幅に削減することができる。 実用的モデル再利用ワークロードの広範囲な実験により、smsの有効性と効率が証明された。

With the explosive increase of big data, training a Machine Learning (ML) model becomes a computation-intensiv e workload, which would take days or even weeks. Thus, model reuse has received attention in the ML community, where it is called transfer learning. Transfer learning avoids training a new model from scratch by transferring knowledge from a source task to a target task. Existing transfer learning methods mostly focus on how to improve the performance of the target task through a specific source model, but assume that the source model is given. As many source models are available, it is difficult for data scientists to select the best source model for the target task manually. Hence, how to efficiently select a suitable source model for model reuse is still an unsolved problem. In this paper, we propose SMS, an effective, efficient and flexible source model selection framework. SMS is effective even when source and target datasets have significantly different data labels, is flexible to support source models with any type of structure, and is efficient to avoid any training process. For each source model, SMS first vectorizes the samples in the target dataset into soft labels by directly applying this model to the target dataset, then uses Gaussian distributions to fit the clusters of soft labels, and finally measures its distinguishing ability using Gaussian mixture-based metric. Moreover, we present an improved SMS (I-SMS), which decreases the output number of source model. I-SMS can significantly reduce the selection time while retaining the selection performance of SMS. Extensive experiments on a range of practical model reuse workloads demonstrate the effectiveness and efficiency of SMS.
翻訳日:2021-10-14 15:39:41 公開日:2021-10-13
# (参考訳) 標準設計のための強化学習 [全文訳有]

Reinforcement Learning for Standards Design ( http://arxiv.org/abs/2110.06909v1 )

ライセンス: CC BY 4.0
Shahrukh Khan Kasi, Sayandev Mukherjee, Lin Cheng, Bernardo A. Huberman(参考訳) コミュニケーション標準は、合意に達するまで数ヶ月、あるいは数年にわたって、繰り返し会議を行う人間の委員会によって設計される。 これには、エアインターフェース上でサポートされる変調およびコーディングスキームに関する決定が含まれる。 本稿では,与えられたairインターフェース上でサポートすべき変調方式と符号化方式の選択を"自動"して,標準設計プロセスと標準の拡張を合理化し,新たな高レベルアプリケーションやサービスに適用可能な新しい変調方式をサポートする方法を提案する。 提案手法では、機械学習を用いて、コンストラクタエンティティが提案をエキュレータエンティティに送信し、提案のスコアを返します。 コンストラクタは、要求される設計基準(インターフェース上の伝送性能指標を含む)を満たすために、コンストラクタとエミュレータの両方によって以前に合意されたスコアが達成されるまで、提案する提案を反復的に繰り返して強化学習する。

Communications standards are designed via committees of humans holding repeated meetings over months or even years until consensus is achieved. This includes decisions regarding the modulation and coding schemes to be supported over an air interface. We propose a way to "automate" the selection of the set of modulation and coding schemes to be supported over a given air interface and thereby streamline both the standards design process and the ease of extending the standard to support new modulation schemes applicable to new higher-level applications and services. Our scheme involves machine learning, whereby a constructor entity submits proposals to an evaluator entity, which returns a score for the proposal. The constructor employs reinforcement learning to iterate on its submitted proposals until a score is achieved that was previously agreed upon by both constructor and evaluator to be indicative of satisfying the required design criteria (including performance metrics for transmissions over the interface).
翻訳日:2021-10-14 15:37:58 公開日:2021-10-13
# 定量的評価枠組みによる潜在空間補間の再検討

Revisiting Latent-Space Interpolation via a Quantitative Evaluation Framework ( http://arxiv.org/abs/2110.06421v1 )

ライセンス: Link先を確認
Lu Mi, Tianxing He, Core Francisco Park, Hao Wang, Yue Wang, Nir Shavit(参考訳) 潜時空間補間は、深い潜時変数モデルの一般化能力を示すために一般的に用いられる。 潜在空間における2つのエンコーディング間の最善の軌跡を計算するために、様々なアルゴリズムが提案されている。 本研究では,意味的連続属性でラベル付けされたデータを用いて,変分オートエンコーダの潜在空間補間アルゴリズムの定量的評価を行う方法を示す。 我々のフレームワークは、標準的な定性比較を補完するために使用することができ、また視覚化が難しい領域(グラフなど)の評価も可能である。 興味深いことに、この実験により補間アルゴリズムの優位性はドメイン依存であることが判明した。 正規化補間は画像領域で最適であるが、球状線形補間はグラフ領域で最高の性能を達成する。 次に,エンコーダのボトルネック構造を介し,遅延空間の制限を簡易に行う手法を提案する。 この研究で評価された全ての補間アルゴリズムは、この制限の恩恵を受けることができる。 最後に,ラベル付き属性を用いた補間アウェアトレーニングを行い,この明示的な監督により補間性能が向上することを示す。

Latent-space interpolation is commonly used to demonstrate the generalization ability of deep latent variable models. Various algorithms have been proposed to calculate the best trajectory between two encodings in the latent space. In this work, we show how data labeled with semantically continuous attributes can be utilized to conduct a quantitative evaluation of latent-space interpolation algorithms, for variational autoencoders. Our framework can be used to complement the standard qualitative comparison, and also enables evaluation for domains (such as graph) in which the visualization is difficult. Interestingly, our experiments reveal that the superiority of interpolation algorithms could be domain-dependent. While normalised interpolation works best for the image domain, spherical linear interpolation achieves the best performance in the graph domain. Next, we propose a simple-yet-effective method to restrict the latent space via a bottleneck structure in the encoder. We find that all interpolation algorithms evaluated in this work can benefit from this restriction. Finally, we conduct interpolation-aware training with the labeled attributes, and show that this explicit supervision can improve the interpolation performance.
翻訳日:2021-10-14 15:26:15 公開日:2021-10-13
# ニューロン活性化強度を用いたドロップアウト予測変動の推定

Dropout Prediction Variation Estimation Using Neuron Activation Strength ( http://arxiv.org/abs/2110.06435v1 )

ライセンス: Link先を確認
Haichao Yu, Zhe Chen, Dong Lin, Gil Shamir, Jie Han(参考訳) DNNは、同じモデル構成とトレーニングデータセットであっても、異なる予測結果を生成することはよく知られている。 その結果、ニューラルネットワークモデルにおいて、与えられた入力例における予測のばらつきなど、予測のばらつきを研究することがますます重要になる。 ドロップアウトは様々なアプリケーションで予測のバリエーションを定量化するためによく使われてきた。 しかし、実際にドロップアウトを使用することは、予測のばらつきを見積もるために何度もドロップアウト推論を実行する必要があるため、高価である。 本稿では,資源効率のよい方法で降雨予測変動を推定する方法を検討する。 特に,3つの大規模データセット,MovieLens,Criteo,EM NISTを用いて,異なるドロップアウト条件下でのドロップアウト予測変動を推定するために,ニューロン活性化強度を利用することを実証した。 提案手法は,主予測モデルが提供された場合の損失予測変動を補助タスクとして推定する推論・オンス代替手段を提供する。 さらに,ニューラルネットワークレイヤのサブセットからのアクティベーション強度特性を用いることで,すべてのレイヤのアクティベーション特性と比較して,同様の変動推定性能が得られることを示す。 これにより、さらなる資源削減が可能となる。

It is well-known DNNs would generate different prediction results even given the same model configuration and training dataset. As a result, it becomes more and more important to study prediction variation, i.e. the variation of the predictions on a given input example, in neural network models. Dropout has been commonly used in various applications to quantify prediction variations. However, using dropout in practice can be expensive as it requires running dropout inference many times to estimate prediction variation. In this paper, we study how to estimate dropout prediction variation in a resource-efficient manner. In particular, we demonstrate that we can use neuron activation strength to estimate dropout prediction variation under different dropout settings and on a variety of tasks using three large datasets, MovieLens, Criteo, and EMNIST. Our approach provides an inference-once alternative to estimate dropout prediction variation as an auxiliary task when the main prediction model is served. Moreover, we show that using activation strength features from a subset of neural network layers can be sufficient to achieve similar variation estimation performance compared to using activation features from all layers. This can provide further resource reduction for variation estimation.
翻訳日:2021-10-14 15:25:59 公開日:2021-10-13
# graph-fraudster: グラフニューラルネットワークに基づく垂直フェデレーション学習における逆攻撃

Graph-Fraudster: Adversarial Attacks on Graph Neural Network Based Vertical Federated Learning ( http://arxiv.org/abs/2110.06468v1 )

ライセンス: Link先を確認
Jinyin Chen, Guohan Huang, Shanqing Yu, Wenrong Jiang, Chen Cui(参考訳) グラフニューラルネットワーク(GNN)モデルは,グラフ表現学習において大きな成功を収めている。 ユーザ側からの大規模なプライベートデータ収集によって、GNNモデルは、豊富な機能と完全な隣接関係なしに、優れたパフォーマンスを反映できない可能性がある。 この問題に対処するため,グローバルモデルを協調的にトレーニングすることで,局所的なデータ保護を実現するために,垂直連合学習(VFL)を提案する。 したがって、グラフ構造データに対して、GNNモデルを用いてVFLフレームワークを構築することは自然な考えである。 しかし、GNNモデルは敵の攻撃に弱いことが証明されている。 脆弱性がVFLに持ち込まれるかどうかはまだ研究されていない。 本稿では,GNNベースのVFL(GVFL)のセキュリティ問題,すなわち敵攻撃に対する堅牢性について検討する。 さらに,Graph-Fraudsterという逆攻撃手法を提案する。 GVFLのプライバシーリークによるノイズ付加グローバルノード埋め込みと、ペアワイズノードの勾配に基づいて、逆方向の摂動を生成する。 まず、グローバルノードの埋め込みを盗み、攻撃生成のためのシャドーサーバモデルを設定する。 次に、ノード埋め込みにノイズを追加してシャドウサーバモデルを混乱させる。 最後に、ペアワイズノードの勾配は、ノイズ付加ノード埋め込みのガイダンスで攻撃を生成するために使用される。 我々の知る限りでは、これがGVFLに対する敵攻撃の最初の研究である。 5つのベンチマークデータセットに関する広範な実験は、Graph-FraudsterがGVFLで可能な3つのベースラインよりも優れたパフォーマンスを示している。 さらに、2つの防御機構が適用されたとしても、Graph-FraudsterはGVFLに対する脅威となる。 本稿では,GVFLが,集中型GNNモデルと同様の敵攻撃に対して脆弱であることを明らかにする。

Graph neural network (GNN) models have achieved great success on graph representation learning. Challenged by large scale private data collection from user-side, GNN models may not be able to reflect the excellent performance, without rich features and complete adjacent relationships. Addressing to the problem, vertical federated learning (VFL) is proposed to implement local data protection through training a global model collaboratively. Consequently, for graph-structured data, it is natural idea to construct VFL framework with GNN models. However, GNN models are proven to be vulnerable to adversarial attacks. Whether the vulnerability will be brought into the VFL has not been studied. In this paper, we devote to study the security issues of GNN based VFL (GVFL), i.e., robustness against adversarial attacks. Further, we propose an adversarial attack method, named Graph-Fraudster. It generates adversarial perturbations based on the noise-added global node embeddings via GVFL's privacy leakage, and the gradient of pairwise node. First, it steals the global node embeddings and sets up a shadow server model for attack generator. Second, noises are added into node embeddings to confuse the shadow server model. At last, the gradient of pairwise node is used to generate attacks with the guidance of noise-added node embeddings. To the best of our knowledge, this is the first study of adversarial attacks on GVFL. The extensive experiments on five benchmark datasets demonstrate that Graph-Fraudster performs better than three possible baselines in GVFL. Furthermore, Graph-Fraudster can remain a threat to GVFL even if two possible defense mechanisms are applied. This paper reveals that GVFL is vulnerable to adversarial attack similar to centralized GNN models.
翻訳日:2021-10-14 15:25:38 公開日:2021-10-13
# 音声感情認識のための畳み込み層の多段言語条件付け

Multistage linguistic conditioning of convolutional layers for speech emotion recognition ( http://arxiv.org/abs/2110.06650v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Uwe Reichel, Shuo Liu, Stephan Huber, Florian Eyben, Bj\"orn W. Schuller(参考訳) 本研究では,テキストと音声の深い融合によるカテゴリー的・次元的感情認識(ser)の有効性について検討する。 本稿では,2つの情報ストリームをディープニューラルネットワーク(dnn)の複数の層に統合し,単一の点にストリームをマージする単一ステージと対比する,新しい多段階融合手法を提案する。 どちらの手法も、事前訓練されたBERTモデルから要約言語埋め込みを抽出し、対数メル分光器で動作する畳み込みモデルの1つ以上の中間表現を条件にしている。 広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は、定量的性能と定性的挙動の両面において、浅い(後期)核融合基線とその一様成分よりも明らかに優れていることが示された。 分析の結果,単調と双モーダルのサー上での対話行動の非探索的役割が明らかにされ,異なる行動に偏りのある行動を示すモデルが提示された。 全体として、我々の多段階融合は、多くの評価において、全ての代替品よりも優れた量的性能を示す。 このことは、テキストとオーディオ情報を同化する多段階融合の可能性を示している。

In this contribution, we investigate the effectiveness of deep fusion of text and audio features for categorical and dimensional speech emotion recognition (SER). We propose a novel, multistage fusion method where the two information streams are integrated in several layers of a deep neural network (DNN), and contrast it with a single-stage one where the streams are merged in a single point. Both methods depend on extracting summary linguistic embeddings from a pre-trained BERT model, and conditioning one or more intermediate representations of a convolutional model operating on log-Mel spectrograms. Experiments on the widely used IEMOCAP and MSP-Podcast databases demonstrate that the two fusion methods clearly outperform a shallow (late) fusion baseline and their unimodal constituents, both in terms of quantitative performance and qualitative behaviour. Our accompanying analysis further reveals a hitherto unexplored role of the underlying dialogue acts on unimodal and bimodal SER, with different models showing a biased behaviour across different acts. Overall, our multistage fusion shows better quantitative performance, surpassing all alternatives on most of our evaluations. This illustrates the potential of multistage fusion in better assimilating text and audio information.
翻訳日:2021-10-14 15:25:13 公開日:2021-10-13
# 多目的強化学習ベンチマークとしての深海宝問題の再検討

A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark ( http://arxiv.org/abs/2110.06742v1 )

ライセンス: Link先を確認
Thomas Cassimon, Reinout Eyckerman, Siegfried Mercelis, Steven Latr\'e, Peter Hellinckx(参考訳) 本稿では,Vamplewらによって提案された深海宝(DST)問題について考察する。 著者らは、多くの証明を通じて、元のDST問題は非常に基本的なものであり、実用的な多目的最適化問題を常に表しているわけではないことを示した。 理論を実践に近づけるために、著者らはDST問題の代替として改良されたバージョンを提案し、元のDST問題を単純化するいくつかの性質がもはや成り立たないことを証明した。 著者らはまた、リファレンス実装を提供し、彼らの実装と他の既存のオープンソース実装との比較を行う。 最後に、著者らは新しいDST問題に対して完全なPareto-frontを提供する。

In this paper, the authors investigate the Deep Sea Treasure (DST) problem as proposed by Vamplew et al. Through a number of proofs, the authors show the original DST problem to be quite basic, and not always representative of practical Multi-Objective Optimization problems. In an attempt to bring theory closer to practice, the authors propose an alternative, improved version of the DST problem, and prove that some of the properties that simplify the original DST problem no longer hold. The authors also provide a reference implementation and perform a comparison between their implementation, and other existing open-source implementations of the problem. Finally, the authors also provide a complete Pareto-front for their new DST problem.
翻訳日:2021-10-14 15:24:16 公開日:2021-10-13
# 分離したコントラスト学習

Decoupled Contrastive Learning ( http://arxiv.org/abs/2110.06848v1 )

ライセンス: Link先を確認
Chun-Hsiao Yeh, Cheng-Yao Hong, Yen-Chi Hsu, Tyng-Luh Liu, Yubei Chen and Yann LeCun(参考訳) コントラスト学習(CL)は、自己教師あり学習(SSL)において最も成功したパラダイムの1つである。 原則として、同じイメージの2つの拡張された ``views'' は、近づいたらポジティブで、他のすべての画像は、さらに遠ざけられるように、ネガティブに考える。 しかしながら、CLベースのテクニックが驚くべき成功を収めた背景には、大規模なサンプルバッチや広範なトレーニングエポックなど、重い計算設定に依存することが多い。 ですから私たちは,これらの問題に取り組み,シンプルで効率的かつ競争力のあるコントラスト学習のベースラインを確立することを目指しています。 具体的には、理論的および実証的研究から、広く使用されているクロスエントロピー(InfoNCE)損失における顕著な負陽性結合(NPC)効果を同定し、バッチサイズに関して不適切な学習効率をもたらす。 実際、この現象は、小さなバッチでinfoNCE損失を最適化することが、SSLタスクの容易な解決に有効であるという点で無視される傾向にある。 NPC効果を適切に処理することにより、非結合型コントラスト学習(DCL)目標関数に到達し、SSL効率を大幅に改善する。 DCLは、SimCLRにおける大きなバッチ、MoCoにおけるモーメントエンコーディング、あるいは大規模なエポックを必要とせず、競争的なパフォーマンスを達成することができる。 様々なベンチマークでDCLの有用性を示す一方で、その頑健さは極小パラメーターに対する感度がはるかに低いことを示す。 特に、私たちのアプローチは、200エポック以内のバッチサイズ256を使用した6.9\%$ imagenet top-1精度を達成し、ベースラインsimclrを5.1\%$で上回っています。 さらに最適化されたハイパーパラメータにより、DCLは精度を68.2\%$に改善することができる。 私たちは、DCLが将来の対照的な学習ベースのSSL研究に価値あるベースラインを提供すると信じています。

Contrastive learning (CL) is one of the most successful paradigms for self-supervised learning (SSL). In a principled way, it considers two augmented ``views'' of the same image as positive to be pulled closer, and all other images negative to be pushed further apart. However, behind the impressive success of CL-based techniques, their formulation often relies on heavy-computation settings, including large sample batches, extensive training epochs, etc. We are thus motivated to tackle these issues and aim at establishing a simple, efficient, and yet competitive baseline of contrastive learning. Specifically, we identify, from theoretical and empirical studies, a noticeable negative-positive-co upling (NPC) effect in the widely used cross-entropy (InfoNCE) loss, leading to unsuitable learning efficiency with respect to the batch size. Indeed the phenomenon tends to be neglected in that optimizing infoNCE loss with a small-size batch is effective in solving easier SSL tasks. By properly addressing the NPC effect, we reach a decoupled contrastive learning (DCL) objective function, significantly improving SSL efficiency. DCL can achieve competitive performance, requiring neither large batches in SimCLR, momentum encoding in MoCo, or large epochs. We demonstrate the usefulness of DCL in various benchmarks, while manifesting its robustness being much less sensitive to suboptimal hyperparameters. Notably, our approach achieves $66.9\%$ ImageNet top-1 accuracy using batch size 256 within 200 epochs pre-training, outperforming its baseline SimCLR by $5.1\%$. With further optimized hyperparameters, DCL can improve the accuracy to $68.2\%$. We believe DCL provides a valuable baseline for future contrastive learning-based SSL studies.
翻訳日:2021-10-14 15:24:06 公開日:2021-10-13
# ベイズアクティブラーニングによる心臓電気生理学的モデルパラメータの高速後方推定

Fast Posterior Estimation of Cardiac Electrophysiological Model Parameters via Bayesian Active Learning ( http://arxiv.org/abs/2110.06851v1 )

ライセンス: Link先を確認
Md Shakil Zaman, Jwala Dhamala, Pradeep Bajracharya, John L. Sapp, B. Milan Horacek, Katherine C. Wu, Natalia A. Trayanova, Linwei Wang(参考訳) 心臓電気生理学的モデルパラメータの確率的推定は、モデルパーソナライズと不確かな定量化への重要なステップとなる。 しかし、これらのモデルシミュレーションに関連する高価な計算は、モデルパラメータの後方確率密度関数 (pdf) の直接的マルコフ連鎖モンテカルロ (mcmc) サンプリングを計算集約的に行う。 一方,シミュレーションモデルから計算効率のよいサロゲートへの置き換えによる近似後pdfは,精度が制限されている。 本稿では,心臓モデルパラメータの後方pdf関数を直接近似するベイズ能動学習法を提案し,少数のサンプルを用いて後方pdfを学習するために,トレーニングポイントをインテリジェントに選択し,シミュレーションモデルをクエリする。 生成モデルをベイズ能動学習に統合し,高次元モデルパラメータの後方pdfを心メッシュの分解能で近似できるようにする。 さらに,背後pdfのモードではなく,形状を近似するトレーニングポイントの選択に焦点をあてた新たな取得機能を導入する。 本研究では,3次元心電気生理学的モデルを用いて組織興奮度を推定する手法について検討した。 正規取得関数を用いたベイズアクティブラーニングと比較し,後進pdfを近似する精度が向上し,既存の標準や高速化mcmcサンプリングに比べて計算コストが大幅に低減した。

Probabilistic estimation of cardiac electrophysiological model parameters serves an important step towards model personalization and uncertain quantification. The expensive computation associated with these model simulations, however, makes direct Markov Chain Monte Carlo (MCMC) sampling of the posterior probability density function (pdf) of model parameters computationally intensive. Approximated posterior pdfs resulting from replacing the simulation model with a computationally efficient surrogate, on the other hand, have seen limited accuracy. In this paper, we present a Bayesian active learning method to directly approximate the posterior pdf function of cardiac model parameters, in which we intelligently select training points to query the simulation model in order to learn the posterior pdf using a small number of samples. We integrate a generative model into Bayesian active learning to allow approximating posterior pdf of high-dimensional model parameters at the resolution of the cardiac mesh. We further introduce new acquisition functions to focus the selection of training points on better approximating the shape rather than the modes of the posterior pdf of interest. We evaluated the presented method in estimating tissue excitability in a 3D cardiac electrophysiological model in a range of synthetic and real-data experiments. We demonstrated its improved accuracy in approximating the posterior pdf compared to Bayesian active learning using regular acquisition functions, and substantially reduced computational cost in comparison to existing standard or accelerated MCMC sampling.
翻訳日:2021-10-14 15:23:32 公開日:2021-10-13
# データから動的モデルを抽出する

Extracting Dynamical Models from Data ( http://arxiv.org/abs/2110.06917v1 )

ライセンス: Link先を確認
Michael F. Zimmer(参考訳) FJetアプローチは、力学系の基盤モデルを決定するために導入された。 これは微分方程式 (des) や数値積分 (runge-kutta) に適用されるリー対称性の分野からアイデアを借用する。 この手法は、機械学習(ML)を用いて数値積分スキームを導出する方法とみなすことができる。 この手法は「抽出問題」を自然に克服し、MLが元のトレーニングデータの時間範囲を超えたモデルの外挿に使用される。 これは、時間領域ではなく、システムのフェーズスペースでモデリングを行うことによって実現されます。 回帰スキームのタイプでモデル化された場合、パラメータの依存関係とともに基盤となるDEを正確に決定できる。 通常のDESに適用されるリー対称性の分野からのアイデアは、減衰系や駆動系の運動定数を決定するために用いられる。 これらの記述は、減衰調和振動子、減衰振子、減衰駆動非線形振動子(ダフィング振動子)の3つの例で示される。 ダッフィング発振器のモデルでは、グリーン関数のアプローチを思い起こさせる方法で外部力を扱うことができる。 また、損傷のない高調波発振器の場合、FJet法は4次ランゲ・クッタの約10^9$の時間で安定である。

The FJet approach is introduced for determining the underlying model of a dynamical system. It borrows ideas from the fields of Lie symmetries as applied to differential equations (DEs), and numerical integration (such as Runge-Kutta). The technique can be considered as a way to use machine learning (ML) to derive a numerical integration scheme. The technique naturally overcomes the "extrapolation problem", which is when ML is used to extrapolate a model beyond the time range of the original training data. It does this by doing the modeling in the phase space of the system, rather than over the time domain. When modeled with a type of regression scheme, it's possible to accurately determine the underlying DE, along with parameter dependencies. Ideas from the field of Lie symmetries applied to ordinary DEs are used to determine constants of motion, even for damped and driven systems. These statements are demonstrated on three examples: a damped harmonic oscillator, a damped pendulum, and a damped, driven nonlinear oscillator (Duffing oscillator). In the model for the Duffing oscillator, it's possible to treat the external force in a manner reminiscent of a Green's function approach. Also, in the case of the undamped harmonic oscillator, the FJet approach remains stable approximately $10^9$ times longer than $4$th-order Runge-Kutta.
翻訳日:2021-10-14 15:23:09 公開日:2021-10-13
# 会話レコメンダシステムのための知識グラフ強調サンプリング

Knowledge Graph-enhanced Sampling for Conversational Recommender System ( http://arxiv.org/abs/2110.06637v1 )

ライセンス: Link先を確認
Mengyuan Zhao, Xiaowen Huang, Lixi Zhu, Jitao Sang, Jian Yu(参考訳) 従来のレコメンデーションシステムは、主にオフラインユーザデータを使用してオフラインモデルをトレーニングし、オンラインユーザのためにアイテムを推奨する。 Conversational Recommendation System (CRS)は従来のレコメンデーションシステムの本質的な問題を解決するために対話システムの対話形式を使用する。 しかし、文脈情報モデリングの欠如により、既存のCRSモデルは、エクスプロイトと探索(E&E)の問題にうまく対応できないため、ユーザにとって重荷となる。 上記の問題に対処するため、この研究は知識グラフ強化サンプリング(KGenSam)と呼ばれるCRSに適した文脈情報拡張モデルを提案する。 kgensamは、ユーザインタラクションデータの動的グラフと外部知識を、コンテキスト情報環境として1つの異種知識グラフ(kg)に統合する。 次に,ユーザの嗜好を得るための不確実性の高いファジィサンプルと,レコメンダ更新のための信頼性の高い負サンプルをサンプリングして,ユーザの嗜好の効率的な獲得とモデル更新を実現することにより,crsがe&e問題に対処するための強力なソリューションを提供する。 2つの実世界のデータセットの実験結果は、最先端のメソッドよりも大幅に改善されたkgensamの優位を示している。

The traditional recommendation systems mainly use offline user data to train offline models, and then recommend items for online users, thus suffering from the unreliable estimation of user preferences based on sparse and noisy historical data. Conversational Recommendation System (CRS) uses the interactive form of the dialogue systems to solve the intrinsic problems of traditional recommendation systems. However, due to the lack of contextual information modeling, the existing CRS models are unable to deal with the exploitation and exploration (E&E) problem well, resulting in the heavy burden on users. To address the aforementioned issue, this work proposes a contextual information enhancement model tailored for CRS, called Knowledge Graph-enhanced Sampling (KGenSam). KGenSam integrates the dynamic graph of user interaction data with the external knowledge into one heterogeneous Knowledge Graph (KG) as the contextual information environment. Then, two samplers are designed to enhance knowledge by sampling fuzzy samples with high uncertainty for obtaining user preferences and reliable negative samples for updating recommender to achieve efficient acquisition of user preferences and model updating, and thus provide a powerful solution for CRS to deal with E&E problem. Experimental results on two real-world datasets demonstrate the superiority of KGenSam with significant improvements over state-of-the-art methods.
翻訳日:2021-10-14 15:20:42 公開日:2021-10-13
# 専門家ガイドによる安全運転の最適化

Safe Driving via Expert Guided Policy Optimization ( http://arxiv.org/abs/2110.06831v1 )

ライセンス: Link先を確認
Zhenghao Peng, Quanyi Li, Chunxiao Liu, Bolei Zhou(参考訳) 運転のような一般的なスキルを学ぶとき、初心者は通常、学習プロセスの安全性を確保するためにドメインの専門家が待機する。 本稿では,学習エージェントの探索を保護するために保護者を導入するループ強化学習において,そのような学習方法を定式化する。 不確実な環境で十分な探索を可能にする一方で、保護者は危険な状況に介入し、潜在的な事故を避けるための正しい行動を示す。 したがって、ERLは2つのトレーニングソースとして、探査と専門家の部分的なデモンストレーションの両方を可能にする。 このような設定に続き、強化学習のループに保護者を統合する新しい専門家誘導政策最適化(EGPO)手法を開発した。 ガーディアンは、デモを生成する専門家ポリシーと、いつ介入するかを決定するスイッチ機能から構成される。 特に、制約付き最適化技術は、エージェントが故意に危険に振る舞って専門家を騙して引き継ぐという自明な解決策に取り組むために用いられる。 オフラインRL技術は、専門家によって生成された部分的なデモンストレーションから学ぶためにさらに使われる。 安全運転実験は,本手法が優れたトレーニングとテスト時間安全を実現し,サンプル効率のかなりのマージンでベースラインを上回り,テスト時間内に見えない環境に保たれることを示す。 デモビデオとソースコードは、 https://decisionforc e.github.io/EGPO/で入手できる。

When learning common skills like driving, beginners usually have domain experts standing by to ensure the safety of the learning process. We formulate such learning scheme under the Expert-in-the-loop Reinforcement Learning where a guardian is introduced to safeguard the exploration of the learning agent. While allowing the sufficient exploration in the uncertain environment, the guardian intervenes under dangerous situations and demonstrates the correct actions to avoid potential accidents. Thus ERL enables both exploration and expert's partial demonstration as two training sources. Following such a setting, we develop a novel Expert Guided Policy Optimization (EGPO) method which integrates the guardian in the loop of reinforcement learning. The guardian is composed of an expert policy to generate demonstration and a switch function to decide when to intervene. Particularly, a constrained optimization technique is used to tackle the trivial solution that the agent deliberately behaves dangerously to deceive the expert into taking over. Offline RL technique is further used to learn from the partial demonstration generated by the expert. Safe driving experiments show that our method achieves superior training and test-time safety, outperforms baselines with a substantial margin in sample efficiency, and preserves the generalizabiliy to unseen environments in test-time. Demo video and source code are available at: https://decisionforc e.github.io/EGPO/
翻訳日:2021-10-14 15:20:17 公開日:2021-10-13
# 代数的ZX計算による行列の表現

Representing Matrices Using Algebraic ZX-calculus ( http://arxiv.org/abs/2110.06898v1 )

ライセンス: Link先を確認
Quanlong Wang(参考訳) 初等行列は線型代数応用において重要な役割を果たす。 本稿では、代数的ZX計算を用いて、大きさ2^m\times 2^mのすべての基本行列を表す。 次に,zx計算の書き換え規則を用いて逆数の性質を示し,転置する。 その結果,2^m\times 2^n の大きさの行列を,[Wang 2020] に示すような図形の正規形式を使わずに,文字列図で表現することができる。 そうすることで、特に機械学習でaiにデプロイされる重要なマトリックス技術である文字列ダイアグラムによる視覚化への道を開くのです。

Elementary matrices play an important role in linear algebra applications. In this paper, we represent all the elementary matrices of size 2^m\times 2^m using algebraic ZX-calculus. Then we show their properties on inverses and transpose using rewriting rules of ZX-calculus. As a consequence, we are able to depict any matrices of size 2^m\times 2^n by string diagrams without resort to a diagrammatic normal form for matrices as shown in [Wang 2020]. By doing so we pave the way towards visualising by string diagrams important matrix technologies deployed in AI especially machine learning.
翻訳日:2021-10-14 15:19:55 公開日:2021-10-13
# ニューラルネットワークにおけるデータポジショニング攻撃の追跡

Traceback of Data Poisoning Attacks in Neural Networks ( http://arxiv.org/abs/2110.06904v1 )

ライセンス: Link先を確認
Shawn Shan, Arjun Nitin Bhagoji, Haitao Zheng, Ben Y. Zhao(参考訳) 敵対的機械学習では、深層学習システムに対する攻撃に対する新たな防御が、より強力な攻撃によって解放された直後に定期的に破られる。 この文脈では、法医学的なツールは、その根本原因への攻撃の成功を追及し、将来同様な攻撃を防ぐための緩和の道筋を提供することによって、既存の防御の貴重な補完を提供することができる。 本稿では,深層ニューラルネットワークに対する毒性攻撃のための法医学的トレースバックツールの開発について述べる。 我々は,新しい反復的クラスタリングとプルーニングソリューションを提案する。このソリューションは,攻撃に責任のある有毒なデータのセットが残るまで,トレーニングサンプルをトリムする。 提案手法は,モデルパラメータへの影響に基づいてサンプルをトレーニングし,効率的なデータアンラーニング手法を用いて無実のクラスタを探索する。 我々は,コンピュータビジョンとマルウェア分類の領域にまたがる3種類の汚れラベル(バックドア)毒物攻撃と3種類のクリーンラベル毒物攻撃に対するシステムの有効性を実証的に実証した。 全攻撃で98.4%以上の精度と96.8%のリコールを達成した。 また,本システムは,攻撃用に特別に設計された4つの対策に対して頑健であることを示す。

In adversarial machine learning, new defenses against attacks on deep learning systems are routinely broken soon after their release by more powerful attacks. In this context, forensic tools can offer a valuable complement to existing defenses, by tracing back a successful attack to its root cause, and offering a path forward for mitigation to prevent similar attacks in the future. In this paper, we describe our efforts in developing a forensic traceback tool for poison attacks on deep neural networks. We propose a novel iterative clustering and pruning solution that trims "innocent" training samples, until all that remains is the set of poisoned data responsible for the attack. Our method clusters training samples based on their impact on model parameters, then uses an efficient data unlearning method to prune innocent clusters. We empirically demonstrate the efficacy of our system on three types of dirty-label (backdoor) poison attacks and three types of clean-label poison attacks, across domains of computer vision and malware classification. Our system achieves over 98.4% precision and 96.8% recall across all attacks. We also show that our system is robust against four anti-forensics measures specifically designed to attack it.
翻訳日:2021-10-14 15:19:46 公開日:2021-10-13
# Ousiometrics and Telegnomics:意味の本質は、安全バイアスを示す多種多様なコーパスを持つ2次元強力弱危険安全フレームワークに適合する

Ousiometrics and Telegnomics: The essence of meaning conforms to a two-dimensional powerful-weak and dangerous-safe framework with diverse corpora presenting a safety bias ( http://arxiv.org/abs/2110.06847v1 )

ライセンス: Link先を確認
P. S. Dodds, T. Alshaabi, M. I. Fudolig, J. W. Zimmerman, J. Lovato, S. Beaulieu, J. R. Minot, M. V. Arnold, A. J. Reagan, and C. M. Danforth(参考訳) 我々は,有意義な信号が伝達される状況において,意味的な意味の研究と,遠隔で知覚された知識の研究と定義する。 20世紀半ばに出現した仕事から、意味の本質は評価、力、活性化の3つの直交次元(epa)によってよく捉えられるものとして一般に受け入れられている。 最初の型と次に英語のトークンを再検討し、自動アノテートされたヒストグラム(`ousiograms')を使用することで、次のようになる。 1.言葉によって伝えられる意味の本質は、代わりにコンパスのようなパワーダンガー(PD)フレームワークによって最もよく説明され、 2. 大規模英語コーパス(文学,ニュース,ウィキペディア,トークラジオ,ソーシャルメディア)の異種コレクションの分析は,自然言語が安全で低危険な単語に対する体系的なバイアスを示すことを示している。 両極形容積対による観測された等尺的次元の表現を正当化するために,同義語の「synousionyms」と「antousionyms」を導入するとともに,同義語の「ousiometric dimensions of synonyms」と「antonyms」を探索する。 さらに、PDフレームワークは、より一般的な精神状態モデルとして、感情の概略モデルを改訂することを示す。 最後に, 時間的コーパスの時間時系列を計測する遠隔計測装置である'ousiometer' を試作し, 試作した。 我々は, エントロピーに基づく計測の補完として, 生体・人工生命における多様なコミュニケーションの研究に有用であると主張している。

We define `ousiometrics' to be the study of essential meaning in whatever context that meaningful signals are communicated, and `telegnomics' as the study of remotely sensed knowledge. From work emerging through the middle of the 20th century, the essence of meaning has become generally accepted as being well captured by the three orthogonal dimensions of evaluation, potency, and activation (EPA). By re-examining first types and then tokens for the English language, and through the use of automatically annotated histograms -- `ousiograms' -- we find here that: 1. The essence of meaning conveyed by words is instead best described by a compass-like power-danger (PD) framework, and 2. Analysis of a disparate collection of large-scale English language corpora -- literature, news, Wikipedia, talk radio, and social media -- shows that natural language exhibits a systematic bias toward safe, low danger words -- a reinterpretation of the Pollyanna principle's positivity bias for written expression. To help justify our choice of dimension names and to help address the problems with representing observed ousiometric dimensions by bipolar adjective pairs, we introduce and explore `synousionyms' and `antousionyms' -- ousiometric counterparts of synonyms and antonyms. We further show that the PD framework revises the circumplex model of affect as a more general model of state of mind. Finally, we use our findings to construct and test a prototype `ousiometer', a telegnomic instrument that measures ousiometric time series for temporal corpora. We contend that our power-danger ousiometric framework provides a complement for entropy-based measurements, and may be of value for the study of a wide variety of communication across biological and artificial life.
翻訳日:2021-10-14 15:19:26 公開日:2021-10-13
# (参考訳) セマンティクス・アウェア・アウェア・アテンションによるニューラルマシン翻訳の改善 [全文訳有]

Semantics-aware Attention Improves Neural Machine Translation ( http://arxiv.org/abs/2110.06920v1 )

ライセンス: CC BY 4.0
Aviv Slobodkin, Leshem Choshen, Omri Abend(参考訳) 構文構造を Transformer 機械翻訳に統合することは肯定的な結果を示したが、我々の知る限り、意味構造でそれを行おうとする試みは行われていない。 本研究では,意味情報をトランスフォーマーに注入する2つの新しいパラメータフリー手法を提案する。 そのような方法の1つはエンコーダ上でSASA(Scene-Aware Self-Attention)ヘッドを介して動作する。 もうひとつのデコーダは,Scene-Aware Cross-Attention (SACrA) ヘッダによるものだ。 4つの言語ペアに対して,バニラトランスフォーマーと構文認識モデルに対して一貫した改善を示す。 セマンティック構造と構文構造の両方をいくつかの言語対で用いた場合、さらなる利得を示す。

The integration of syntactic structures into Transformer machine translation has shown positive results, but to our knowledge, no work has attempted to do so with semantic structures. In this work we propose two novel parameter-free methods for injecting semantic information into Transformers, both rely on semantics-aware masking of (some of) the attention heads. One such method operates on the encoder, through a Scene-Aware Self-Attention (SASA) head. Another on the decoder, through a Scene-Aware Cross-Attention (SACrA) head. We show a consistent improvement over the vanilla Transformer and syntax-aware models for four language pairs. We further show an additional gain when using both semantic and syntactic structures in some language pairs.
翻訳日:2021-10-14 15:17:35 公開日:2021-10-13
# 学生-教師共同学習による音声映像変換器による映像シーン認識対話と推論

Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual Transformers with Joint Student-Teacher Learning ( http://arxiv.org/abs/2110.06894v1 )

ライセンス: Link先を確認
Ankit P. Shah, Shijie Geng, Peng Gao, Anoop Cherian, Takaaki Hori, Tim K. Marks, Jonathan Le Roux, Chiori Hori(参考訳) これまでの研究では,AVSD(Audio-Visual Scene-Aware Dialog)タスクを提案し,AVSDデータセットを収集し,AVSD技術を開発し,第7回および第8回Dialog System Technology Challenges (DSTC7,DSTC8) でAVSDチャレンジトラックを開催した。 これらの課題において、最高のパフォーマンスシステムは、データセットで利用できたが現実世界のアプリケーションでは利用できないビデオコンテンツの人為的な記述に大きく依存していた。 実世界のアプリケーションにさらなる進歩をもたらすため、DSTC10で第3のAVSDチャレンジを提案しました。 1) 推論時に人為的記述が利用できないこと,及び 2) システムは,各回答を支持するビデオから証拠を見つけることにより,時間的推論を示さなければならない。 本稿では、時間的推論と、人為的な時間的推論データを収集するDSTC10のためのAVSDデータセットの新たな拡張を含む新しいタスクを紹介する。 また、AV変換器を用いて構築したベースラインシステムを導入し、新しいデータセットとともにリリースした。 最後に,dstc7,dstc8,dstc10のavsdデータセット上での最先端性能を実現するために,注目のマルチモーダル融合,学生・教師合同学習(jstl),モデル組み合わせ技術を用いてベースラインシステムを拡張した新しいシステムを提案する。 また,avsdに対する時間的推論手法として,アテンションベースと時間領域提案ネットワークに基づく方法を提案する。

In previous work, we have proposed the Audio-Visual Scene-Aware Dialog (AVSD) task, collected an AVSD dataset, developed AVSD technologies, and hosted an AVSD challenge track at both the 7th and 8th Dialog System Technology Challenges (DSTC7, DSTC8). In these challenges, the best-performing systems relied heavily on human-generated descriptions of the video content, which were available in the datasets but would be unavailable in real-world applications. To promote further advancements for real-world applications, we proposed a third AVSD challenge, at DSTC10, with two modifications: 1) the human-created description is unavailable at inference time, and 2) systems must demonstrate temporal reasoning by finding evidence from the video to support each answer. This paper introduces the new task that includes temporal reasoning and our new extension of the AVSD dataset for DSTC10, for which we collected human-generated temporal reasoning data. We also introduce a baseline system built using an AV-transformer, which we released along with the new dataset. Finally, this paper introduces a new system that extends our baseline system with attentional multimodal fusion, joint student-teacher learning (JSTL), and model combination techniques, achieving state-of-the-art performances on the AVSD datasets for DSTC7, DSTC8, and DSTC10. We also propose two temporal reasoning methods for AVSD: one attention-based, and one based on a time-domain region proposal network.
翻訳日:2021-10-14 15:01:41 公開日:2021-10-13
# 新しいAPIを教える:タスク指向対話のためのドメインに依存しないシミュレータ

Teaching Models new APIs: Domain-Agnostic Simulators for Task Oriented Dialogue ( http://arxiv.org/abs/2110.06905v1 )

ライセンス: Link先を確認
Moya Chen, Paul A. Crook, Stephen Roller(参考訳) 大規模言語モデルでは,タスク指向の対話を新たなドメインでシミュレートすることが可能であり,apiの実装と目標リストのみを提供する。 これらのシミュレーションは、人間の評価とよく相関するオンライン自動メトリクスを定式化することができる。 さらに,ユーザの目標が満たされているかどうかを確認することにより,シミュレーションを用いて繰り返しトレーニングデータを生成し,シミュレーション自体の品質を向上させることができる。 人間の介入やドメイン固有のトレーニングデータがないため、シミュレーションでは、これまで見られなかったドメインで37 %のエラー削減を実現したエンドツーエンドモデルをブートストラップする。 32のドメイン固有の会話を含むことで、ブートストラップされたモデルは、完全な教師付きモデルのパフォーマンスと10ドル以上のデータとを一致させることができる。 私たちの知る限りでは、ドメイン固有のトレーニングデータ、ルールエンジニアリング、ループ内の人間を明示的に必要とせずに、モデルのブートストラップに効果的なシミュレーションが示されているのはこれが初めてです。

We demonstrate that large language models are able to simulate Task Oriented Dialogues in novel domains, provided only with an API implementation and a list of goals. We show these simulations can formulate online, automatic metrics that correlate well with human evaluations. Furthermore, by checking for whether the User's goals are met, we can use simulation to repeatedly generate training data and improve the quality of simulations themselves. With no human intervention or domain-specific training data, our simulations bootstrap end-to-end models which achieve a 37\% error reduction in previously unseen domains. By including as few as 32 domain-specific conversations, bootstrapped models can match the performance of a fully-supervised model with $10\times$ more data. To our knowledge, this is the first time simulations have been shown to be effective at bootstrapping models without explicitly requiring any domain-specific training data, rule-engineering, or humans-in-the-loop.
翻訳日:2021-10-14 15:01:09 公開日:2021-10-13
# マニュアル読み上げによる偽強化学習

Feudal Reinforcement Learning by Reading Manuals ( http://arxiv.org/abs/2110.06477v1 )

ライセンス: Link先を確認
Kai Wang, Zhonghao Wang, Mo Yu, Humphrey Shi(参考訳) 行動への読み出しは一般的だが挑戦的なタスクであり、簡潔な指示から推論する能力を必要とする。 しかし、以前の研究は低レベルの行動と高レベルの言語記述のセマンティックなミスマッチに直面しており、人間設計のカリキュラムを適切に動作させる必要がある。 本稿では,管理エージェントと作業エージェントからなるフェーダル強化学習(FRL)モデルを提案する。 管理者エージェントは、高レベルの抽象情報を扱っ、一連のサブゴールを後方方向に生成するマルチホッププランジェネレータである。 労働者エージェントは、低レベルの知覚と行動を扱っ、サブゴールを1つずつ達成する。 比較として,本モデルでは,テキストレベルの推論と低レベルの認識と動作のミスマッチを効果的に軽減し,様々な環境,指示,マニュアルに汎用的に対応し,マルチホップ計画生成器は,テキストの多段階推論が指示された目標の解決に不可欠であるような課題に対して,大きな効果を発揮することができる。 我々は,RTFM(Read to Fight Monsters)とMessengerの2つの課題において,人間設計のカリキュラム学習を使わずに,競争力のあるパフォーマンスを実現する方法を紹介した。

Reading to act is a prevalent but challenging task which requires the ability to reason from a concise instruction. However, previous works face the semantic mismatch between the low-level actions and the high-level language descriptions and require the human-designed curriculum to work properly. In this paper, we present a Feudal Reinforcement Learning (FRL) model consisting of a manager agent and a worker agent. The manager agent is a multi-hop plan generator dealing with high-level abstract information and generating a series of sub-goals in a backward manner. The worker agent deals with the low-level perceptions and actions to achieve the sub-goals one by one. In comparison, our FRL model effectively alleviate the mismatching between text-level inference and low-level perceptions and actions; and is general to various forms of environments, instructions and manuals; and our multi-hop plan generator can significantly boost for challenging tasks where multi-step reasoning form the texts is critical to resolve the instructed goals. We showcase our approach achieves competitive performance on two challenging tasks, Read to Fight Monsters (RTFM) and Messenger, without human-designed curriculum learning.
翻訳日:2021-10-14 15:00:53 公開日:2021-10-13
# 多視点ステレオのための非局所再帰正規化ネットワーク

Non-local Recurrent Regularization Networks for Multi-view Stereo ( http://arxiv.org/abs/2110.06436v1 )

ライセンス: Link先を確認
Qingshan Xu, Martin R. Oswald, Wenbing Tao, Marc Pollefeys, Zhaopeng Cui(参考訳) ディープマルチビューステレオネットワークでは、正確な深度推定を達成するためにコストの正規化が不可欠である。 3dコストボリュームフィルタリングは通常メモリ消費であるため、最近は2dコストマップの正則化が盛んになり、異なるスケールの3dモデルを再構築する大きな可能性を秘めている。 しかし、既存のリカレントメソッドは、深度領域の局所的な依存関係のみをモデル化し、深さ次元に沿ってグローバルなシーンコンテキストをキャプチャする能力を大幅に制限する。 そこで本研究では,nr2-netというマルチビューステレオのための非局所再帰正規化ネットワークを提案する。 具体的には、スライディング深度ブロック内の非局所深度相互作用をキャプチャするための深度注意モジュールを設計する。 そして、異なるブロック間のグローバルシーンコンテキストをゲートリカレントな方法でモデル化する。 これにより、深さ次元に沿った長距離依存性がキャプチャされ、コストの正規化が容易になる。 さらに,アルゴリズムの堅牢性を改善するために,動的深度マップ融合戦略を設計する。 本手法は,dtuとタンクとテンプルのデータセット上で,最先端の再構築結果を得る。

In deep multi-view stereo networks, cost regularization is crucial to achieve accurate depth estimation. Since 3D cost volume filtering is usually memory-consuming, recurrent 2D cost map regularization has recently become popular and has shown great potential in reconstructing 3D models of different scales. However, existing recurrent methods only model the local dependencies in the depth domain, which greatly limits the capability of capturing the global scene context along the depth dimension. To tackle this limitation, we propose a novel non-local recurrent regularization network for multi-view stereo, named NR2-Net. Specifically, we design a depth attention module to capture non-local depth interactions within a sliding depth block. Then, the global scene context between different blocks is modeled in a gated recurrent manner. This way, the long-range dependencies along the depth dimension are captured to facilitate the cost regularization. Moreover, we design a dynamic depth map fusion strategy to improve the algorithm robustness. Our method achieves state-of-the-art reconstruction results on both DTU and Tanks and Temples datasets.
翻訳日:2021-10-14 15:00:03 公開日:2021-10-13
# クロスドメインアライメントにおけるミラーサンプルによる共変量シフトの低減

Reducing the Covariate Shift by Mirror Samples in Cross Domain Alignment ( http://arxiv.org/abs/2110.06448v1 )

ライセンス: Link先を確認
Yin Zhao, Minquan Wang, Longjun Cai(参考訳) コバリアイトシフトクロスドメインの除去は、視覚的教師なしドメイン適応におけるドメインシフトの問題に対処する一般的な方法の1つである。 しかし、現在のアライメント法、特にプロトタイプベースまたはサンプルレベルベース法は、基礎となる分布の構造的特性を無視し、共変量シフトの条件を破る。 制限と矛盾を緩和するために、別の領域における等価なサンプルを表す(仮想)ミラーという新しい概念を導入する。 ミラー対と呼ばれる等価サンプル対は、経験分布の自然な対応を反映している。 次に、ミラー対のクロスドメインを整列するミラー損失を構築し、ドメインのアライメントを強化する。 提案手法は,基礎となる分布の内部構造を歪めない。 また, ミラー試料とミラー損失が, ドメインシフトの低減に優れた漸近特性を有することの理論的証明も提供する。 仮想ミラーとミラーロスを一般教師なしドメイン適応モデルに適用することにより、いくつかの主要なベンチマークにおいて一貫した優れた性能を実現した。

Eliminating the covariate shift cross domains is one of the common methods to deal with the issue of domain shift in visual unsupervised domain adaptation. However, current alignment methods, especially the prototype based or sample-level based methods neglect the structural properties of the underlying distribution and even break the condition of covariate shift. To relieve the limitations and conflicts, we introduce a novel concept named (virtual) mirror, which represents the equivalent sample in another domain. The equivalent sample pairs, named mirror pairs reflect the natural correspondence of the empirical distributions. Then a mirror loss, which aligns the mirror pairs cross domains, is constructed to enhance the alignment of the domains. The proposed method does not distort the internal structure of the underlying distribution. We also provide theoretical proof that the mirror samples and mirror loss have better asymptotic properties in reducing the domain shift. By applying the virtual mirror and mirror loss to the generic unsupervised domain adaptation model, we achieved consistent superior performance on several mainstream benchmarks.
翻訳日:2021-10-14 14:59:48 公開日:2021-10-13
# ソースデータのないドメイン適応セマンティックセマンティックセグメンテーション

Domain Adaptive Semantic Segmentation without Source Data ( http://arxiv.org/abs/2110.06484v1 )

ライセンス: Link先を確認
Fuming You, Jingjing Li, Lei Zhu, Ke Lu, Zhi Chen, Zi Huang(参考訳) ドメイン適応セマンティックセグメンテーションは、自動パイロットのような現実世界の多くのアプリケーションにおいて、ラベル付きソースドメインとラベル付きターゲットドメイン間のドメインシフトを軽減するための有望な手法として認識されている。 しかし、大量のソースドメインデータがストレージとトレーニングの大幅なコストを伴い、時にはプライバシポリシのためにソースデータがアクセスできないことがある。 これらの問題に対処するために,モデルがソース領域で事前学習されていることを前提に,ソースデータにアクセスせずに対象領域に適応する,ソースデータなしのドメイン適応意味セマンティクスセグメンテーションを検討する。 ソースドメインデータからの監督がないため、多くの自己学習手法は ``winner-takes-all 7;'' というジレンマに陥りがちであり、そこでは {\it majority} クラスは完全にセグメンテーションネットワークを支配し、ネットワークは {\it minor} クラスを分類できない。 その結果,肯定的学習と否定的学習という2つの要素によるこの問題に対する効果的な枠組みを提案する。 正の学習では、クラスバランスの擬似ラベル付き画素をクラス内閾値で選択し、負の学習では、各画素について、提案したヒューリスティック補完ラベル選択に属さないカテゴリを調査する。 特に、我々のフレームワークは、パフォーマンスをさらに向上するために、他のメソッドと簡単に実装、統合できます。 広く使われている2つの総合的なベンチマーク実験は、我々の主張とフレームワークの有効性を示している。 コードは \url{https://github.com/f umyou13/LDBE} で入手できる。

Domain adaptive semantic segmentation is recognized as a promising technique to alleviate the domain shift between the labeled source domain and the unlabeled target domain in many real-world applications, such as automatic pilot. However, large amounts of source domain data often introduce significant costs in storage and training, and sometimes the source data is inaccessible due to privacy policies. To address these problems, we investigate domain adaptive semantic segmentation without source data, which assumes that the model is pre-trained on the source domain, and then adapting to the target domain without accessing source data anymore. Since there is no supervision from the source domain data, many self-training methods tend to fall into the ``winner-takes-all 7;' dilemma, where the {\it majority} classes totally dominate the segmentation networks and the networks fail to classify the {\it minority} classes. Consequently, we propose an effective framework for this challenging problem with two components: positive learning and negative learning. In positive learning, we select the class-balanced pseudo-labeled pixels with intra-class threshold, while in negative learning, for each pixel, we investigate which category the pixel does not belong to with the proposed heuristic complementary label selection. Notably, our framework can be easily implemented and incorporated with other methods to further enhance the performance. Extensive experiments on two widely-used synthetic-to-real benchmarks demonstrate our claims and the effectiveness of our framework, which outperforms the baseline with a large margin. Code is available at \url{https://github.com/f umyou13/LDBE}.
翻訳日:2021-10-14 14:58:35 公開日:2021-10-13
# 汚職に対する時空間モデルのロバスト性評価

Benchmarking the Robustness of Spatial-Temporal Models Against Corruptions ( http://arxiv.org/abs/2110.06513v1 )

ライセンス: Link先を確認
Chenyu Yi, SIYUAN YANG, Haoliang Li, Yap-peng Tan, Alex Kot(参考訳) 最先端のディープニューラルネットワークは、一般的な腐敗(例えば、入力データの劣化、歪み、天候変化、システムエラー、処理など)に対して脆弱である。 画像理解におけるモデルのロバスト性の分析と改善には多くの進歩があるが、ビデオ理解のロバスト性はほとんど未解明である。 本稿では,画像の空間的腐敗を超えた時間的腐敗を考えるmini kinetics-cとmini ssv2-cについて述べる。 確立されたcnnおよびトランスフォーマによる時空間モデルにおける汚損のロバスト性に関する徹底的な研究を初めて行おうとする。 この研究は、堅牢なモデル設計とトレーニングに関するガイダンスを提供している: トランスフォーマーベースのモデルは、汚職の堅牢性に関するCNNベースのモデルよりも優れている; 空間的時間的モデルの一般化能力は、時間的腐敗に対する堅牢性を意味する; モデル腐敗の堅牢性(特に時間的領域における堅牢性)は、計算コストとモデルのキャパシティを増大させる。 さらに,画像関連タスク(例えば,ノイズを伴うトレーニングモデル)に対するロバスト性介入は,時空間モデルではうまく機能しないと考えられる。

The state-of-the-art deep neural networks are vulnerable to common corruptions (e.g., input data degradations, distortions, and disturbances caused by weather changes, system error, and processing). While much progress has been made in analyzing and improving the robustness of models in image understanding, the robustness in video understanding is largely unexplored. In this paper, we establish a corruption robustness benchmark, Mini Kinetics-C and Mini SSV2-C, which considers temporal corruptions beyond spatial corruptions in images. We make the first attempt to conduct an exhaustive study on the corruption robustness of established CNN-based and Transformer-based spatial-temporal models. The study provides some guidance on robust model design and training: Transformer-based model performs better than CNN-based models on corruption robustness; the generalization ability of spatial-temporal models implies robustness against temporal corruptions; model corruption robustness (especially robustness in the temporal domain) enhances with computational cost and model capacity, which may contradict the current trend of improving the computational efficiency of models. Moreover, we find the robustness intervention for image-related tasks (e.g., training models with noise) may not work for spatial-temporal models.
翻訳日:2021-10-14 14:58:04 公開日:2021-10-13
# グローバルコンテキスト拡張特徴融合とエッジ重み付き損失による塩分検出

Saliency Detection via Global Context Enhanced Feature Fusion and Edge Weighted Loss ( http://arxiv.org/abs/2110.06550v1 )

ライセンス: Link先を確認
Chaewon Park, Minhyeok Lee, MyeongAh Cho, Sangyoun Lee(参考訳) UNetベースの手法は、正当性オブジェクト検出(SOD)において優れた性能を示しているが、2つの側面で問題がある。 1) 複数オブジェクトの空間情報を含むエンコーダ特徴と,当該サリアントオブジェクトのグローバル情報を含むデコーダ特徴とを独立に統合することにより,非サリアントオブジェクトの不要な詳細をデコーダに伝達し,サリアント検出を妨げる可能性がある。 2)曖昧なオブジェクト境界に対処し、正確なサリエンシーマップを生成するには、エッジリコンストラクションのような追加のブランチが必要であるため、計算コストが増加する。 この問題に対処するために,コンテキスト融合デコーダネットワーク(cfdn)とニアエッジ重み付き損失(newloss)関数を提案する。 CFDNは、グローバルコンテキスト情報を統合し、不要な空間情報の影響を抑えることにより、正確な唾液マップを作成する。 NEWLossは、オブジェクト境界上の重み写像を生成することで、追加モジュールなしで曖昧な境界の学習を加速する。 提案手法は4つのベンチマークで評価し,最先端の性能を実現する。 提案手法の有効性を比較実験により検証した。

UNet-based methods have shown outstanding performance in salient object detection (SOD), but are problematic in two aspects. 1) Indiscriminately integrating the encoder feature, which contains spatial information for multiple objects, and the decoder feature, which contains global information of the salient object, is likely to convey unnecessary details of non-salient objects to the decoder, hindering saliency detection. 2) To deal with ambiguous object boundaries and generate accurate saliency maps, the model needs additional branches, such as edge reconstructions, which leads to increasing computational cost. To address the problems, we propose a context fusion decoder network (CFDN) and near edge weighted loss (NEWLoss) function. The CFDN creates an accurate saliency map by integrating global context information and thus suppressing the influence of the unnecessary spatial information. NEWLoss accelerates learning of obscure boundaries without additional modules by generating weight maps on object boundaries. Our method is evaluated on four benchmarks and achieves state-of-the-art performance. We prove the effectiveness of the proposed method through comparative experiments.
翻訳日:2021-10-14 14:57:35 公開日:2021-10-13
# 制約付き最適化によるニューラルネットワークの混合精度量子化に向けて

Towards Mixed-Precision Quantization of Neural Networks via Constrained Optimization ( http://arxiv.org/abs/2110.06554v1 )

ライセンス: Link先を確認
Weihan Chen, Peisong Wang, Jian Cheng(参考訳) 量子化はディープニューラルネットワークの圧縮と高速化に広く用いられている技術である。 しかし、従来の量子化法では、全ての層(またはほとんどの層)に同じビット幅を使用するため、超低精度のシステムでは精度が著しく低下し、創発的ハードウェアアクセラレータが混合精度計算をサポートし始めるという事実を無視することが多い。 そこで本論文では,混合精度量子化問題を解くための新しい原理的枠組みを提案する。 簡単に言えば、まず混合精度量子化を離散制約最適化問題として定式化する。 そこで,最適化を抽出可能にするために,目的関数を2階テイラー展開と近似し,ヘッセン行列の効率的な計算法を提案する。 最後に,上記の単純化に基づき,mckp問題(multiple-choice knapsack problem)として元の問題を再構成し,効率的に解くための欲望探索アルゴリズムを提案する。 従来の混合精度量子化法と比較すると,本手法は原理的に導出され,より計算効率がよい。 さらに、ImageNetデータセットと各種ネットワークアーキテクチャに対して行われた広範な実験は、既存の均一および混合精度量子化アプローチよりも優れていることを示す。

Quantization is a widely used technique to compress and accelerate deep neural networks. However, conventional quantization methods use the same bit-width for all (or most of) the layers, which often suffer significant accuracy degradation in the ultra-low precision regime and ignore the fact that emergent hardware accelerators begin to support mixed-precision computation. Consequently, we present a novel and principled framework to solve the mixed-precision quantization problem in this paper. Briefly speaking, we first formulate the mixed-precision quantization as a discrete constrained optimization problem. Then, to make the optimization tractable, we approximate the objective function with second-order Taylor expansion and propose an efficient approach to compute its Hessian matrix. Finally, based on the above simplification, we show that the original problem can be reformulated as a Multiple-Choice Knapsack Problem (MCKP) and propose a greedy search algorithm to solve it efficiently. Compared with existing mixed-precision quantization works, our method is derived in a principled way and much more computationally efficient. Moreover, extensive experiments conducted on the ImageNet dataset and various kinds of network architectures also demonstrate its superiority over existing uniform and mixed-precision quantization approaches.
翻訳日:2021-10-14 14:57:15 公開日:2021-10-13
# 高解像度衛星画像における微細物体認識のための配向配向

Oriented Feature Alignment for Fine-grained Object Recognition in High-Resolution Satellite Imagery ( http://arxiv.org/abs/2110.06628v1 )

ライセンス: Link先を確認
Qi Ming, Junjie Song, Zhiqiang Zhou(参考訳) 近年,リモートセンシング画像における指向性物体検出が大きな進歩を遂げている。 しかし、現在の手法のほとんどはターゲット検出のみに焦点を当てており、複雑なシーンでは細粒度オブジェクトをうまく区別できない。 本稿では,光リモートセンシング画像において,細粒度物体認識の重要な問題を分析し,指向型特徴アライメントネットワーク(ofa-net)を用いて高精度な細粒度物体認識を実現する。 OFA-Netは、回転したバウンディングボックスリファインメントモジュールを通じて正確なオブジェクトローカライズを実現する。 そこで, 境界制約付き回転特性アライメントモジュールを適用し, 局所的特徴抽出を実現し, 細粒度オブジェクト分類に有用である。 提案手法はGaoFenコンペティションにおいて46.51\%のmAPを達成し, ISPRSベンチマークでは43.73\%のmAPで3位となった。

Oriented object detection in remote sensing images has made great progress in recent years. However, most of the current methods only focus on detecting targets, and cannot distinguish fine-grained objects well in complex scenes. In this technical report, we analyzed the key issues of fine-grained object recognition, and use an oriented feature alignment network (OFA-Net) to achieve high-performance fine-grained oriented object recognition in optical remote sensing images. OFA-Net achieves accurate object localization through a rotated bounding boxes refinement module. On this basis, the boundary-constrained rotation feature alignment module is applied to achieve local feature extraction, which is beneficial to fine-grained object classification. The single model of our method achieved mAP of 46.51\% in the GaoFen competition and won 3rd place in the ISPRS benchmark with the mAP of 43.73\%.
翻訳日:2021-10-14 14:56:56 公開日:2021-10-13
# EditVAE: 制御不能な3Dポイントクラウド形状生成

EditVAE: Unsupervised Part-Aware Controllable 3D Point Cloud Shape Generation ( http://arxiv.org/abs/2110.06679v1 )

ライセンス: Link先を確認
Shidi Li, Miaomiao Liu, Christian Walder(参考訳) 本稿では,部品認識ポイントクラウド生成の問題に取り組む。 ポイントクラウドを優先部分に分割する必要がある既存の作業とは異なり、パートアウェアな編集と生成は教師なしの方法で実行される。 本研究では, 形状プリミティブの組合せとして, 点雲自体の結合モデルとそれの図式表現を合成する変分オートエンコーダを簡単な修正で実現した。 特に、点雲の潜在表現を導入することで、形状の各部分に対して不連続な表現に分解することができる。 これらの部分はその後、標準座標系への標準変換とともに、形状プリミティブと点雲表現の両方に切り離される。 標準化変換間の依存関係は、意味のある部分認識ポイントクラウドの生成と形状編集を可能にする方法で、部品間の空間的依存関係を保存する。 歪んだ表現によって得られる柔軟性に加えて、我々のジョイントモデリングアプローチによって導入された帰納バイアスは、ShapeNetデータセットの最先端の実験結果をもたらす。

This paper tackles the problem of parts-aware point cloud generation. Unlike existing works which require the point cloud to be segmented into parts a priori, our parts-aware editing and generation is performed in an unsupervised manner. We achieve this with a simple modification of the Variational Auto-Encoder which yields a joint model of the point cloud itself along with a schematic representation of it as a combination of shape primitives. In particular, we introduce a latent representation of the point cloud which can be decomposed into a disentangled representation for each part of the shape. These parts are in turn disentangled into both a shape primitive and a point cloud representation, along with a standardising transformation to a canonical coordinate system. The dependencies between our standardising transformations preserve the spatial dependencies between the parts in a manner which allows meaningful parts-aware point cloud generation and shape editing. In addition to the flexibility afforded by our disentangled representation, the inductive bias introduced by our joint modelling approach yields the state-of-the-art experimental results on the ShapeNet dataset.
翻訳日:2021-10-14 14:56:41 公開日:2021-10-13
# セマンティクスセグメンテーションのための教師なし領域適応への自己教師付き単眼深度の挿入

Plugging Self-Supervised Monocular Depth into Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2110.06685v1 )

ライセンス: Link先を確認
Adriano Cardace, Luca De Luigi, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) 最近のセマンティックセグメンテーション手法は目覚ましい進歩を遂げているが、それでも大量の注釈付きトレーニングデータに依存している。 従来、Unsupervised Domain Adaptation (UDA)では、合成画像上のネットワークをトレーニングし、モデルを実際のものに適用すると同時に、2つのドメイン間の差異を最小限に抑える。 しかし、これらの手法は、他のタスクから得られる追加情報を考慮していない。 セマンティックセグメンテーションのためのUDAを改善するために, 自己教師付き単眼深度推定手法を提案する。 一方,既存のUDA法に相補的な幾何学的手がかりを注入できるプラグインコンポーネントを実現するために,深さをデプロイする。 さらに、最終モデルを自己学習するために、大きくて多様なサンプルセットを生成するために深さに依存します。 我々の提案では,GTA5->CSベンチマークで最先端性能(58.8 mIoU)を達成することができる。 コードはhttps://github.com/C VLAB-Unibo/d4-dbst.c omで入手できる。

Although recent semantic segmentation methods have made remarkable progress, they still rely on large amounts of annotated training data, which are often infeasible to collect in the autonomous driving scenario. Previous works usually tackle this issue with Unsupervised Domain Adaptation (UDA), which entails training a network on synthetic images and applying the model to real ones while minimizing the discrepancy between the two domains. Yet, these techniques do not consider additional information that may be obtained from other tasks. Differently, we propose to exploit self-supervised monocular depth estimation to improve UDA for semantic segmentation. On one hand, we deploy depth to realize a plug-in component which can inject complementary geometric cues into any existing UDA method. We further rely on depth to generate a large and varied set of samples to Self-Train the final model. Our whole proposal allows for achieving state-of-the-art performance (58.8 mIoU) in the GTA5->CS benchmark benchmark. Code is available at https://github.com/C VLAB-Unibo/d4-dbst.
翻訳日:2021-10-14 14:55:09 公開日:2021-10-13
# 相関器:空中画像における物体検出のための関係表現ネットワーク

RelationRS: Relationship Representation Network for Object Detection in Aerial Images ( http://arxiv.org/abs/2110.06730v1 )

ライセンス: Link先を確認
Zhiming Liu, Xuefei Zhang, Chongyang Liu, Hao Wang, Chao Sun, Bin Li, Weifeng Sun, Pu Huang, Qingjun Li, Yu Liu, Haipeng Kuang, Jihong Xiu(参考訳) 物体検出は航空画像処理の分野では基本かつ重要な課題であり、コンピュータビジョンにおいて多くの注目を集めている。 しかし,従来の空中物体検出手法では,大規模空中画像の異なる領域間でのシーン意味情報の活用は不十分であった。 さらに、複雑なバックグラウンドとスケールの変更により、検出精度の向上が困難になる。 そこで本研究では,空中画像における物体検出のための関係表現ネットワークを提案する。 1) マルチスケール機能は条件付き畳み込みを伴うデュアルリレーショナルモジュール(DRM)によって融合・拡張される。 デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学び、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。 さらに、デュアルリレーションモジュールは、マルチスケール特徴の融合を導くパラメータを動的に生成する。 2) 複雑な背景を持つ画像の物体検出効果を改善するため, BVR (Bridging visual representations Module) が空中画像のフィールドに導入された。 空中画像のための公開オブジェクト検出データセットを用いた実験により,提案したリレーショナルRSが最先端の検知性能を達成することを示す。

Object detection is a basic and important task in the field of aerial image processing and has gained much attention in computer vision. However, previous aerial image object detection approaches have insufficient use of scene semantic information between different regions of large-scale aerial images. In addition, complex background and scale changes make it difficult to improve detection accuracy. To address these issues, we propose a relationship representation network for object detection in aerial images (RelationRS): 1) Firstly, multi-scale features are fused and enhanced by a dual relationship module (DRM) with conditional convolution. The dual relationship module learns the potential relationship between features of different scales and learns the relationship between different scenes from different patches in a same iteration. In addition, the dual relationship module dynamically generates parameters to guide the fusion of multi-scale features. 2) Secondly, The bridging visual representations module (BVR) is introduced into the field of aerial images to improve the object detection effect in images with complex backgrounds. Experiments with a publicly available object detection dataset for aerial images demonstrate that the proposed RelationRS achieves a state-of-the-art detection performance.
翻訳日:2021-10-14 14:54:51 公開日:2021-10-13
# 分離領域一般化のための協調的意味集合と校正

Collaborative Semantic Aggregation and Calibration for Separated Domain Generalization ( http://arxiv.org/abs/2110.06736v1 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Defang Chen, Kun Kuang, Fei Wu, Lanfen Lin(参考訳) ドメイン一般化(DG)は、未知のターゲットドメインに適切に一般化できるモデルとして、複数の既知のソースドメインから学習することを目的としている。 既存のDGメソッドは通常、一般化可能なモデルトレーニングのために共有マルチソースデータフュージョンに依存している。 しかし、今や膨大なデータは、プライバシーポリシーのために共有できない多くの場所、特に金融や医療といった重要な分野に分散している。 これにより、現実世界のデータプライバシ保護と共有データとの同時マルチソースセマンティックラーニングの間にジレンマが発生する。 本稿では,ローカルでのみ使用可能な分離ソースデータセットを用いた分離ドメイン一般化タスクについて検討し,実世界のプライバシー保護に不可欠である。 本稿では,CSAC(Collaborative Semantic Aggregation and Calibration)と呼ばれる新しい手法を提案する。 安全でないデータ融合を回避しながら、マルチソースのセマンティック情報を完全吸収するために、まず、分離されたドメイン層でトレーニングされたモデルを層ごとに融合してデータフリーなセマンティックアグリゲーションを行う。 ドメインシフトによって引き起こされる意味的転位に対処するため、各意味レベルを調整し、ドメイン不変性を高めるための注意機構を備えたクロスレイヤー意味校正を更に設計する。 我々は,複数ソースのセマンティクス学習とアライメントを協調的に統合し,セマンティクス集約とキャリブレーションを交互に繰り返し,各データセットのローカライズを保ち,プライバシを慎重に保護する。 大規模な実験により,この課題に対処する上で,本手法の有意義な性能が示され,共有データを用いた従来のDG手法と同等である。

Domain generalization (DG) aims to learn from multiple known source domains a model that can generalize well to unknown target domains. The existing DG methods usually rely on shared multi-source data fusion for generalizable model training. However, tremendous data is distributed across lots of places nowadays that can not be shared due to privacy policies, especially in some crucial areas like finance and medical care. A dilemma is thus raised between real-world data privacy protection and simultaneous multi-source semantic learning with the shared data. In this paper, we investigate a separated domain generalization task with separated source datasets that can only be used locally, which is vital for real-world privacy protection. We propose a novel solution called Collaborative Semantic Aggregation and Calibration (CSAC) to enable this challenging task. To fully absorb multi-source semantic information while avoiding unsafe data fusion, we first conduct data-free semantic aggregation by fusing the models trained on the separated domains layer-by-layer. To address semantic dislocation caused by domain shift, we further design cross-layer semantic calibration with an attention mechanism to align each semantic level and enhance domain invariance. We unify multi-source semantic learning and alignment in a collaborative way by repeating the semantic aggregation and calibration alternately, keeping each dataset localized, and privacy is thus carefully protected. Extensive experiments show the significant performance of our method in addressing this challenging task, which is even comparable to the previous DG methods with shared data.
翻訳日:2021-10-14 14:54:34 公開日:2021-10-13
# Ignoreに学ぶ:マルチサイトMRI解析のためのドメイン適応

Learn to Ignore: Domain Adaptation for Multi-Site MRI Analysis ( http://arxiv.org/abs/2110.06803v1 )

ライセンス: Link先を確認
Julia Wolleb, Robin Sandk\"uhler, Muhamed Barakovic, Athina Papadopoulou, Nouchine Hadjikhani, \"Ozg\"ur Yaldizli, Jens Kuhle, Cristina Granziera, Philippe C. Cattin(参考訳) 医学における正確で一般化可能な機械学習手法の開発において、大規模な画像データセットの限られた可用性が大きな問題である。 データ量の制限は、主に異なる取得プロトコル、異なるハードウェア、データプライバシの使用によるものである。 同時に、小さなデータセットで分類モデルをトレーニングすると、モデルの一般化品質が低下する。 この問題を克服するために、様々な特徴を持つ様々な画像データセットの組み合わせが頻繁に使用される。 しかし、追加のデータセットがタスクのすべてのクラスを含んでいない場合、分類モデルの学習は、デバイスまたは取得場所に対してバイアスを負うことができる。 これは特に磁気共鳴(mr)画像の場合であり、異なるmrスキャナーがモデルの性能を制限するバイアスをもたらす。 本稿では,画像に含まれるスキャナ関連特徴を無視し,分類課題に関連する特徴を学習する新しい手法を提案する。 私たちは、小さなデータセットだけがすべてのクラスのイメージを提供する現実のシナリオに焦点を当てています。 我々は,この状況を利用して潜在空間に具体的な制約を導入することで,スキャナ特有の機能ではなく疾患関連に焦点をあてる。 本手法は,多発性硬化症患者と健常者との分類作業において,多地点MRIデータセットにおける最先端領域適応法より優れる。

Limited availability of large image datasets is a major issue in the development of accurate and generalizable machine learning methods in medicine. The limitations in the amount of data are mainly due to the use of different acquisition protocols, different hardware, and data privacy. At the same time, training a classification model on a small dataset leads to a poor generalization quality of the model. To overcome this issue, a combination of various image datasets of different provenance is often used, e.g., multi-site studies. However, if an additional dataset does not include all classes of the task, the learning of the classification model can be biased to the device or place of acquisition. This is especially the case for Magnetic Resonance (MR) images, where different MR scanners introduce a bias that limits the performance of the model. In this paper, we present a novel method that learns to ignore the scanner-related features present in the images, while learning features relevant for the classification task. We focus on a real-world scenario, where only a small dataset provides images of all classes. We exploit this circumstance by introducing specific additional constraints on the latent space, which lead the focus on disease-related rather than scanner-specific features. Our method Learn to Ignore outperforms state-of-the-art domain adaptation methods on a multi-site MRI dataset on a classification task between Multiple Sclerosis patients and healthy subjects.
翻訳日:2021-10-14 14:54:06 公開日:2021-10-13
# ByteTrack:すべての検出ボックスに関連付けるマルチオブジェクトトラッキング

ByteTrack: Multi-Object Tracking by Associating Every Detection Box ( http://arxiv.org/abs/2110.06864v1 )

ライセンス: Link先を確認
Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang(参考訳) マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。 ほとんどの方法は、スコアが閾値より高い検出ボックスを関連付けることで同一性を得る。 検出スコアの低いオブジェクト(例えばoccluded object)は、単に捨てられるだけで、不要な真のオブジェクトが欠落し、断片化されたトラジェクタになる。 そこで本研究では,高得点のみでなく,すべての検出ボックスを関連付けて追跡する,単純で効果的で汎用的な連想法であるbyteを提案する。 低スコア検出ボックスでは、トラックレットとの類似性を利用して真のオブジェクトを復元し、バックグラウンド検出をフィルタリングする。 BYTEを9種類の最先端トラッカーに適用し、1点から10点までのIDF1スコアを一貫した改善を実現した。 MOTの最先端性能を推し進めるため,我々はByteTrackというシンプルで強力なトラッカーを設計した。 1つのv100 gpu上で30fpsの速度を持つmot17のテストセットで、初めて80.3 mota、77.3 idf1、63.1 hotaを達成しました。 ソースコード、バージョンをデプロイした事前トレーニングされたモデル、他のトラッカーに適用するチュートリアルは、 \url{https://github.com/i fzhang/bytetrack}でリリースされる。

Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods obtain identities by associating detection boxes whose scores are higher than a threshold. The objects with low detection scores, e.g. occluded objects, are simply thrown away, which brings non-negligible true object missing and fragmented trajectories. To solve this problem, we present a simple, effective and generic association method, called BYTE, tracking BY associaTing Every detection box instead of only the high score ones. For the low score detection boxes, we utilize their similarities with tracklets to recover true objects and filter out the background detections. We apply BYTE to 9 different state-of-the-art trackers and achieve consistent improvement on IDF1 score ranging from 1 to 10 points. To put forwards the state-of-the-art performance of MOT, we design a simple and strong tracker, named ByteTrack. For the first time, we achieve 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU. The source code, pre-trained models with deploy versions and tutorials of applying to other trackers are released at \url{https://github.com/i fzhang/ByteTrack}.
翻訳日:2021-10-14 14:53:46 公開日:2021-10-13
# 人間の姿勢推定に関する考察

A Review on Human Pose Estimation ( http://arxiv.org/abs/2110.06877v1 )

ライセンス: Link先を確認
Rohit Josyula, Sarah Ostadabbas(参考訳) HPE(Human Pose Estimation)は、特にコンピュータビジョンにおいて長年にわたって研究されてきた問題である。 でも いったい何なの? これに答えるためには、まずポーズの概念を理解する必要がある。 ポーズは、特定の方法で人間の関節の配置と定義できる。 そこで,人間の視点推定の問題は,画像やビデオにおける人間の関節の局所化や,予め定義されたランドマークとして定義することができる。 姿勢推定には、身体、顔、手などいくつかの種類があり、それには多くの側面がある。 本稿では、HPEの古典的なアプローチからディープラーニングベースのモデルまで、それらをカバーする。

The phenomenon of Human Pose Estimation (HPE) is a problem that has been explored over the years, particularly in computer vision. But what exactly is it? To answer this, the concept of a pose must first be understood. Pose can be defined as the arrangement of human joints in a specific manner. Therefore, we can define the problem of Human Pose Estimation as the localization of human joints or predefined landmarks in images and videos. There are several types of pose estimation, including body, face, and hand, as well as many aspects to it. This paper will cover them, starting with the classical approaches to HPE to the Deep Learning based models.
翻訳日:2021-10-14 14:53:21 公開日:2021-10-13
# 対象領域ビデオトランスフォーマ

Object-Region Video Transformers ( http://arxiv.org/abs/2110.06915v1 )

ライセンス: Link先を確認
Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson(参考訳) 認知心理学の証拠は、時空間と物体の相互作用とダイナミクスを理解することが複雑なビデオの動作を認識する上で不可欠であることを示唆している。 したがって、アクション認識モデルは、その出現、相互作用、ダイナミクスを含むオブジェクトの明示的なモデリングの恩恵を受けることが期待される。 近年,ビデオトランスフォーマーはCNNのパフォーマンスを上回る映像理解において大きな成功を収めている。 しかし、既存のビデオトランスフォーマーモデルはオブジェクトを明示的にモデル化していない。 本稿では,オブジェクト表現を直接組み込んだブロックでビデオトランスフォーマー層を拡張する, \emph{object-centric} アプローチである Object-Region Video Transformers (ORViT) を提案する。 重要なアイデアは、オブジェクト中心の時空間表現を複数のトランスフォーマー層に融合することだ。 ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。 外観ストリームでは、 ``Object-Region Attention'' 要素がパッチと \emph{object region} に自己アテンションを適用する。 このようにして、視覚オブジェクト領域は均一なパッチトークンと相互作用し、それらをコンテキスト化されたオブジェクト情報で強化する。 我々はさらに、軌跡相互作用をキャプチャする別々の ``Object-Dynamics Module'' を通じてオブジェクトのダイナミクスをモデル化し、2つのストリームを統合する方法を示す。 本研究では,Something V2の標準動作認識,Epic-Kitchen100およびDiving48の標準動作認識,AVAの時空間動作検出について検討した。 オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンスを強く向上させる。 コードと事前トレーニングされたモデルについては、https://roeiherz.git hub.io/orvit/のプロジェクトページを参照してください。

Evidence from cognitive psychology suggests that understanding spatio-temporal object interactions and dynamics can be essential for recognizing actions in complex videos. Therefore, action recognition models are expected to benefit from explicit modeling of objects, including their appearance, interaction, and dynamics. Recently, video transformers have shown great success in video understanding, exceeding CNN performance. Yet, existing video transformer models do not explicitly model objects. In this work, we present Object-Region Video Transformers (ORViT), an \emph{object-centric} approach that extends video transformer layers with a block that directly incorporates object representations. The key idea is to fuse object-centric spatio-temporal representations throughout multiple transformer layers. Our ORViT block consists of two object-level streams: appearance and dynamics. In the appearance stream, an ``Object-Region Attention'' element applies self-attention over the patches and \emph{object regions}. In this way, visual object regions interact with uniform patch tokens and enrich them with contextualized object information. We further model object dynamics via a separate ``Object-Dynamics Module'', which captures trajectory interactions, and show how to integrate the two streams. We evaluate our model on standard and compositional action recognition on Something-Something V2, standard action recognition on Epic-Kitchen100 and Diving48, and spatio-temporal action detection on AVA. We show strong improvement in performance across all tasks and datasets considered, demonstrating the value of a model that incorporates object representations into a transformer architecture. For code and pretrained models, visit the project page at https://roeiherz.git hub.io/ORViT/.
翻訳日:2021-10-14 14:53:11 公開日:2021-10-13
# RNNトランスデューサを用いた音声認識のための言語モデル統合について

On Language Model Integration for RNN Transducer based Speech Recognition ( http://arxiv.org/abs/2110.06841v1 )

ライセンス: Link先を確認
Wei Zhou, Zuoyun Zheng, Ralf Schl\"uter, Hermann Ney(参考訳) RNN-Transducer(RNN-T )の外部言語モデル(LM)と暗黙的に学習された内部LM(ILM)とのミスマッチは、単純な浅い融合のようなLM統合の性能を制限することができる。 ベイズ解釈は、ILM補正に先立ってこのシーケンスを削除することを示唆している。 本研究では,共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM統合手法について検討する。 ilm補正による性能改善の2つの主な理由について復号化解釈を行い,詳細な解析によりさらに検証した。 また,他のILM手法の理論的正当化を可能にするハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。 librispeechとted-lium release 2 corporaのin-domainとcross-domainの比較を行った。 提案する完全ilm訓練は,最良のilm法をさらに改善することができる。

The mismatch between an external language model (LM) and the implicitly learned internal LM (ILM) of RNN-Transducer (RNN-T) can limit the performance of LM integration such as simple shallow fusion. A Bayesian interpretation suggests to remove this sequence prior as ILM correction. In this work, we study various ILM correction-based LM integration methods formulated in a common RNN-T framework. We provide a decoding interpretation on two major reasons for performance improvement with ILM correction, which is further experimentally verified with detailed analysis. We also propose an exact-ILM training framework by extending the proof given in the hybrid autoregressive transducer, which enables a theoretical justification for other ILM approaches. Systematic comparison is conducted for both in-domain and cross-domain evaluation on the Librispeech and TED-LIUM Release 2 corpora, respectively. Our proposed exact-ILM training can further improve the best ILM method.
翻訳日:2021-10-14 14:52:28 公開日:2021-10-13
# (参考訳) OPEn:タスクなし学習のためのオープンな物理環境 [全文訳有]

OPEn: An Open-ended Physics Environment for Learning Without a Task ( http://arxiv.org/abs/2110.06912v1 )

ライセンス: CC BY 4.0
Chuang Gan, Abhishek Bhandwaldar, Antonio Torralba, Joshua B. Tenenbaum, Phillip Isola(参考訳) 人間には、物理的な世界で計画、実験、理性を可能にするメンタルモデルがある。 インテリジェントエージェントは、このようなモデルを学ぶにはどうすればよいのか? 本稿では,オープンエンドの物理環境において,特定のタスクを伴わずに学習した世界のモデルが下流の物理推論タスクに再利用できるかどうかを考察する。 そこで我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現を明示的にテストするためのタスクを設計する。 この設定は、実際のエージェント(すなわちローリングロボット)が、新しい種類の環境に置かれ、この環境がどのように機能するかを教師が伝えることなく適応しなければならない状況を反映している。 この設定は、モデル構築と表現学習の問題に加えて、探索問題を解決する必要があるため、難しい。 このベンチマークで既存のrlベースの探索手法をテストした結果,教師なしのコントラスト学習を表現学習に,インパクト駆動学習を探索に用いたエージェントが最善の結果を得た。 しかし、全てのモデルはまだ下流タスクに移行する際にサンプル効率が不足している。 OPEnは、多くのタスクを円滑に進める世界の再利用可能なメンタルモデルを構築することのできる、新しい転がりロボットエージェントの開発を促進することを期待する。

Humans have mental models that allow them to plan, experiment, and reason in the physical world. How should an intelligent agent go about learning such models? In this paper, we will study if models of the world learned in an open-ended physics environment, without any specific tasks, can be reused for downstream physics reasoning tasks. To this end, we build a benchmark Open-ended Physics ENvironment (OPEn) and also design several tasks to test learning representations in this environment explicitly. This setting reflects the conditions in which real agents (i.e. rolling robots) find themselves, where they may be placed in a new kind of environment and must adapt without any teacher to tell them how this environment works. This setting is challenging because it requires solving an exploration problem in addition to a model building and representation learning problem. We test several existing RL-based exploration methods on this benchmark and find that an agent using unsupervised contrastive learning for representation learning, and impact-driven learning for exploration, achieved the best results. However, all models still fall short in sample efficiency when transferring to the downstream tasks. We expect that OPEn will encourage the development of novel rolling robot agents that can build reusable mental models of the world that facilitate many tasks.
翻訳日:2021-10-14 14:51:46 公開日:2021-10-13
# 完全RL型市場シミュレータの実現に向けて

Towards a fully RL-based Market Simulator ( http://arxiv.org/abs/2110.06829v1 )

ライセンス: Link先を確認
Leo Ardon, Nelson Vadori, Thomas Spooner, Mengda Xu, Jared Vann, Sumitra Ganesh(参考訳) 本稿では,流動性プロバイダと流動性タッカーを代表するRLエージェントの2つのファミリーが同時に学習し,その目的を満たすための新たな金融枠組みを提案する。 パラメータ化された報酬の定式化とdeep rlの使用により、各グループは、さまざまな行動の一般化と補間が可能な共有ポリシーを学習する。 これは、様々なシナリオの下で金融市場のダイナミクスを研究するのに特に適した複雑な市場条件を再現する、完全なRLベースの市場シミュレータへのステップである。

We present a new financial framework where two families of RL-based agents representing the Liquidity Providers and Liquidity Takers learn simultaneously to satisfy their objective. Thanks to a parametrized reward formulation and the use of Deep RL, each group learns a shared policy able to generalize and interpolate over a wide range of behaviors. This is a step towards a fully RL-based market simulator replicating complex market conditions particularly suited to study the dynamics of the financial market under various scenarios.
翻訳日:2021-10-14 14:38:09 公開日:2021-10-13
# NoisyActions2M: ノイズラベルからの映像理解のためのマルチメディアデータセット

NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy Labels ( http://arxiv.org/abs/2110.06827v1 )

ライセンス: Link先を確認
Mohit Sharma, Raj Patra, Harshal Desai, Shruti Vyas, Yogesh Rawat and Rajiv Ratn Shah(参考訳) ディープラーニングは幅広い問題において顕著な進歩を見せている。 しかし、そのようなモデルの効率的なトレーニングには大規模なデータセットが必要である。 本研究では,ビデオ理解のためのWebビデオからのユーザ生成自由なラベルの利用について検討する。 ユーザ生成アノテーションやその他のメタ情報を含む約200万のビデオからなるベンチマークデータセットを作成します。 収集したデータセットをアクション分類に利用し、既存の小規模注釈付きデータセットであるUCF101とHMDB51で有用性を示す。 損失関数と2つの事前学習戦略、単純学習と自己学習について検討する。 また,提案するデータセット上で事前トレーニングされたネットワークが,下流データセットにおけるビデオ破損やラベルノイズに対してどのように役立つかを示す。 ビデオ理解のためのノイズ学習におけるベンチマークデータセットとして提示する。 データセット、コード、トレーニングされたモデルは、将来の研究のために公開されている。

Deep learning has shown remarkable progress in a wide range of problems. However, efficient training of such models requires large-scale datasets, and getting annotations for such datasets can be challenging and costly. In this work, we explore the use of user-generated freely available labels from web videos for video understanding. We create a benchmark dataset consisting of around 2 million videos with associated user-generated annotations and other meta information. We utilize the collected dataset for action classification and demonstrate its usefulness with existing small-scale annotated datasets, UCF101 and HMDB51. We study different loss functions and two pretraining strategies, simple and self-supervised learning. We also show how a network pretrained on the proposed dataset can help against video corruption and label noise in downstream datasets. We present this as a benchmark dataset in noisy learning for video understanding. The dataset, code, and trained models will be publicly available for future research.
翻訳日:2021-10-14 14:37:22 公開日:2021-10-13
# 関節奥行き・運動場推定のための注意・コントラスト学習

Attentive and Contrastive Learning for Joint Depth and Motion Field Estimation ( http://arxiv.org/abs/2110.06853v1 )

ライセンス: Link先を確認
Seokju Lee, Francois Rameau, Fei Pan, In So Kweon(参考訳) 単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは、しばしばいわゆるシーン剛性仮定に依存する複雑なタスクである。 ダイナミックな環境を観察する場合、この仮定は破られ、カメラのエゴモーションと物体の動きとのあいまいさが生じる。 そこで本研究では,単眼映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。 私たちの貢献は2倍です。 まず,2段階のプロジェクションパイプラインを提案し,カメラの自走動作と物体の動きを動的アテンションモジュール(DAM)で明示的に切り離す。 具体的には、第1および第2のワープ段階におけるカメラと物体の動きをそれぞれ、共有モーションエンコーダを介してアテンションモジュールによって制御する統合モーションモデルの設計を行う。 第2に, 物体検出器からのバウンディングボックス) と幾何学的制約(各物体は剛体運動モデルを尊重する) を生かして, CSACと呼ばれる対照的なサンプルコンセンサスによる物体運動場推定を提案する。 KITTI,Cityscapes,Way mo Open Datasetの実験は,本手法の有効性を実証し,自己教師付き単眼深度推定,物体運動のセグメンテーション,モノクロシーンフロー推定,視覚計測などのタスクに対して,最先端のアルゴリズムより優れていることを示す。

Estimating the motion of the camera together with the 3D structure of the scene from a monocular vision system is a complex task that often relies on the so-called scene rigidity assumption. When observing a dynamic environment, this assumption is violated which leads to an ambiguity between the ego-motion of the camera and the motion of the objects. To solve this problem, we present a self-supervised learning framework for 3D object motion field estimation from monocular videos. Our contributions are two-fold. First, we propose a two-stage projection pipeline to explicitly disentangle the camera ego-motion and the object motions with dynamics attention module, called DAM. Specifically, we design an integrated motion model that estimates the motion of the camera and object in the first and second warping stages, respectively, controlled by the attention module through a shared motion encoder. Second, we propose an object motion field estimation through contrastive sample consensus, called CSAC, taking advantage of weak semantic prior (bounding box from an object detector) and geometric constraints (each object respects the rigid body motion model). Experiments on KITTI, Cityscapes, and Waymo Open Dataset demonstrate the relevance of our approach and show that our method outperforms state-of-the-art algorithms for the tasks of self-supervised monocular depth estimation, object motion segmentation, monocular scene flow estimation, and visual odometry.
翻訳日:2021-10-14 14:37:09 公開日:2021-10-13
# 逐次予測によるグラフに基づく文順序付けの改善

Improving Graph-based Sentence Ordering with Iteratively Predicted Pairwise Orderings ( http://arxiv.org/abs/2110.06446v1 )

ライセンス: Link先を確認
Shaopeng Lai, Ante Wang, Fandong Meng, Jie Zhou, Yubin Ge, Jiali Zeng, Junfeng Yao, Degen Huang and Jinsong Su(参考訳) 支配的文順序モデルは、ペアワイズ順序モデルとセットツーシーケンスモデルに分類することができる。 しかし、これらの2種類のモデルを組み合わせる試みはほとんどなく、補性的な優位性を持っている。 本稿では,2つの分類器を導入し,グラフに基づく文順序付けのためのペア順序付けを改善する新しい文順序付けフレームワークを提案する。 特に、最初の文-エンティティグラフを与えられた場合、まず、連結文間のペアワイズ順序を予測するグラフベースの分類器を導入する。 そして、予め予測された高い信頼度を持つ対数順序付けによって更新されたグラフに基づいて反復的に別の分類器を使用して、残りの不確定な対数順序を予測する。 最終的に、最終グラフに基づいて、GRNに基づく文順序付けモデルを適用する。 5つの一般的なデータセットに関する実験は、モデルの有効性と汎用性を示している。 特にBERTとFHDecoderを装着した場合,本モデルは最先端の性能を実現する。

Dominant sentence ordering models can be classified into pairwise ordering models and set-to-sequence models. However, there is little attempt to combine these two types of models, which inituitively possess complementary advantages. In this paper, we propose a novel sentence ordering framework which introduces two classifiers to make better use of pairwise orderings for graph-based sentence ordering. Specially, given an initial sentence-entity graph, we first introduce a graph-based classifier to predict pairwise orderings between linked sentences. Then, in an iterative manner, based on the graph updated by previously predicted high-confident pairwise orderings, another classifier is used to predict the remaining uncertain pairwise orderings. At last, we adapt a GRN-based sentence ordering model on the basis of final graph. Experiments on five commonly-used datasets demonstrate the effectiveness and generality of our model. Particularly, when equipped with BERT and FHDecoder, our model achieves state-of-the-art performance.
翻訳日:2021-10-14 14:33:43 公開日:2021-10-13
# EventBERT: イベント相関推論のための事前トレーニングモデル

EventBERT: A Pre-Trained Model for Event Correlation Reasoning ( http://arxiv.org/abs/2110.06533v1 )

ライセンス: Link先を確認
Yucheng Zhou, Xiubo Geng, Tao Shen, Guodong Long, Daxin Jiang(参考訳) 事象相関推論は、複数の事象を含む自然言語段落が人間の常識に合致するかどうかを推論する。 例えば、「アンドリューはとても眠かったので、長い昼寝をしていて、今はとても警戒している」というのは健全で合理的である。 対照的に「アンドリューは非常に眠かったので、彼は長い間そこにいたが、今ではとても警戒している」と人間の常識に従わなかった。 このような推論機能は、スクリプト推論、帰納的推論、物語の不整合、ストーリークローゼテストなど、多くの下流タスクに必須である。 しかし、多種多様なイベントベース知識の不足や複数のイベント間の相関を捉えることが困難であることから、イベント相関推論を行うことは困難である。 本稿では,未ラベルテキストから結果整合性知識をカプセル化するための事前学習モデルであるEventBERTを提案する。 具体的には,複数の関連した事象を記述した自然言語段落を同定し,さらに教師なしの方法でイベントスパンを抽出することで,多数のトレーニング例を収集する。 次に,新たに作成した学習コーパス上で,イベント相関モデルを事前学習するための3つの学習目標を提案する。 実証的な結果から、EventBERTは4つの下流タスクで強いベースラインを上回り、ほとんどのタスクでSoTA結果を達成する。 さらに、既存の事前学習モデル(例えば6.5~23%)よりも、これらのタスクをゼロショットで学習できる。

Event correlation reasoning infers whether a natural language paragraph containing multiple events conforms to human common sense. For example, "Andrew was very drowsy, so he took a long nap, and now he is very alert" is sound and reasonable. In contrast, "Andrew was very drowsy, so he stayed up a long time, now he is very alert" does not comply with human common sense. Such reasoning capability is essential for many downstream tasks, such as script reasoning, abductive reasoning, narrative incoherence, story cloze test, etc. However, conducting event correlation reasoning is challenging due to a lack of large amounts of diverse event-based knowledge and difficulty in capturing correlation among multiple events. In this paper, we propose EventBERT, a pre-trained model to encapsulate eventuality knowledge from unlabeled text. Specifically, we collect a large volume of training examples by identifying natural language paragraphs that describe multiple correlated events and further extracting event spans in an unsupervised manner. We then propose three novel event- and correlation-based learning objectives to pre-train an event correlation model on our created training corpus. Empirical results show EventBERT outperforms strong baselines on four downstream tasks, and achieves SoTA results on most of them. Besides, it outperforms existing pre-trained models by a large margin, e.g., 6.5~23%, in zero-shot learning of these tasks.
翻訳日:2021-10-14 14:31:46 公開日:2021-10-13
# シンプルか複雑か? ソフトテンプレートによる複雑制御可能な質問生成とエキスパートモデルの深部混合

Simple or Complex? Complexity-Controlla ble Question Generation with Soft Templates and Deep Mixture of Experts Model ( http://arxiv.org/abs/2110.06560v1 )

ライセンス: Link先を確認
Sheng Bi and Xiya Cheng and Yuan-Fang Li and Lizhen Qu and Shirong Shen and Guilin Qi and Lu Pan and Yinlin Jiang(参考訳) 複雑性レベルが制御された自然言語質問を生成する能力は、質問生成の適用性をさらに拡大する上で非常に望ましい。 本稿では,ソフトテンプレートのセレクタとして専門家(MoE)が混在し,複雑性制御の精度と生成した質問の品質が向上する,エンドツーエンドのニューラル複雑性制御可能な質問生成モデルを提案する。 ソフトテンプレートは、実際のテンプレートの高価な構築を避けながら、質問の類似性をキャプチャする。 提案手法では,問答の通路,問答,問答,問答の相互作用を考慮し,問答の複雑性を評価するための新しいクロスドメイン複雑性推定器を導入する。 2つのベンチマークQAデータセットの実験結果は、我々のQGモデルは、自動評価と手動評価の両方において最先端の手法よりも優れていることを示している。 さらに、当社の複雑性推定器は、ドメイン内およびドメイン外設定のベースラインよりもはるかに正確です。

The ability to generate natural-language questions with controlled complexity levels is highly desirable as it further expands the applicability of question generation. In this paper, we propose an end-to-end neural complexity-controlla ble question generation model, which incorporates a mixture of experts (MoE) as the selector of soft templates to improve the accuracy of complexity control and the quality of generated questions. The soft templates capture question similarity while avoiding the expensive construction of actual templates. Our method introduces a novel, cross-domain complexity estimator to assess the complexity of a question, taking into account the passage, the question, the answer and their interactions. The experimental results on two benchmark QA datasets demonstrate that our QG model is superior to state-of-the-art methods in both automatic and manual evaluation. Moreover, our complexity estimator is significantly more accurate than the baselines in both in-domain and out-domain settings.
翻訳日:2021-10-14 14:31:24 公開日:2021-10-13
# 世界の言語における言語技術性能の体系的不平等

Systematic Inequalities in Language Technology Performance across the World's Languages ( http://arxiv.org/abs/2110.06733v1 )

ライセンス: Link先を確認
Dami\'an Blasi, Antonios Anastasopoulos, Graham Neubig(参考訳) 自然言語処理(NLP)システムは、コミュニケーション、教育、医学、人工知能、その他多くの研究・開発分野において中心的な技術となっている。 nlpメソッドのパフォーマンスは過去10年間で大きく向上しているが、この進歩は世界の6,500の言語の小さなサブセットに限定されている。 我々は,NLPの最近の出版物の包括的スナップショットで明らかになったように,言語技術のグローバルユーティリティを推定するためのフレームワークを紹介する。 分析対象は大規模だが,ユーザ向け技術(機械翻訳,言語理解,質問応答,テキスト音声合成)と,言語的NLPタスク(依存性解析,形態的インフレクション)の両面で,より深く研究されている。 本プロセスでは,(1)NLP研究の現状における格差の定量化,(2)関連する社会的・学術的要因の解明,(3)よりグローバルで公平な言語技術を促進することを目的としたエビデンスベースの政策立案のための適切なレコメンデーションを作成する。

Natural language processing (NLP) systems have become a central technology in communication, education, medicine, artificial intelligence, and many other domains of research and development. While the performance of NLP methods has grown enormously over the last decade, this progress has been restricted to a minuscule subset of the world's 6,500 languages. We introduce a framework for estimating the global utility of language technologies as revealed in a comprehensive snapshot of recent publications in NLP. Our analyses involve the field at large, but also more in-depth studies on both user-facing technologies (machine translation, language understanding, question answering, text-to-speech synthesis) as well as more linguistic NLP tasks (dependency parsing, morphological inflection). In the process, we (1) quantify disparities in the current state of NLP research, (2) explore some of its associated societal and academic factors, and (3) produce tailored recommendations for evidence-based policy making aimed at promoting more global and equitable language technologies.
翻訳日:2021-10-14 14:31:10 公開日:2021-10-13
# SGD-X:スキーマ誘導対話システムにおけるロバスト一般化のためのベンチマーク

SGD-X: A Benchmark for Robust Generalization in Schema-Guided Dialogue Systems ( http://arxiv.org/abs/2110.06800v1 )

ライセンス: Link先を確認
Harrison Lee and Raghav Gupta and Abhinav Rastogi and Yuan Cao and Bin Zhang and Yonghui Wu(参考訳) ゼロ/フェウショットのサービスへの転送は、タスク指向の対話研究において重要な課題である。 schema-guided dialogue(sgd)データセットは、モデルが追加のデータ収集やスキーマの使用による再トレーニングなしに無制限のサービスをサポートするためのパラダイムを導入した。 スキーマは自然言語でサービスAPIを記述する。 しかし、これらのスキーマにおける言語の選択がモデルパフォーマンスに与える影響は未定である。 SGD-Xは,スキーマの言語的変化に対する対話システムの堅牢性を評価するベンチマークである。 SGD-XはSGDデータセットを拡張し、すべてのスキーマに対してクラウドソーシングされた変種で、変種はセマンティックに類似しているがスタイリスティックに多様である。 2つの対話状態追跡モデルをsgd-x上で評価し,共同目標精度で測定したスキーマのばらつきと,スキーマの感度を測定するための新しい指標について検討した。 さらに,スキーマの堅牢性やゼロショットの一般化を改善するため,単純なモデルに依存しないデータ拡張手法を提案する。

Zero/few-shot transfer to unseen services is a critical challenge in task-oriented dialogue research. The Schema-Guided Dialogue (SGD) dataset introduced a paradigm for enabling models to support an unlimited number of services without additional data collection or re-training through the use of schemas. Schemas describe service APIs in natural language, which models consume to understand the services they need to support. However, the impact of the choice of language in these schemas on model performance remains unexplored. We address this by releasing SGD-X, a benchmark for measuring the robustness of dialogue systems to linguistic variations in schemas. SGD-X extends the SGD dataset with crowdsourced variants for every schema, where variants are semantically similar yet stylistically diverse. We evaluate two dialogue state tracking models on SGD-X and observe that neither generalizes well across schema variations, measured by joint goal accuracy and a novel metric for measuring schema sensitivity. Furthermore, we present a simple model-agnostic data augmentation method to improve schema robustness and zero-shot generalization to unseen services.
翻訳日:2021-10-14 14:30:46 公開日:2021-10-13
# アラビア語とその方言に対する事前学習言語モデルを用いたモルフォシンタクティックタグ

Morphosyntactic Tagging with Pre-trained Language Models for Arabic and its Dialects ( http://arxiv.org/abs/2110.06852v1 )

ライセンス: Link先を確認
Go Inoue, Salam Khalifa, Nizar Habash(参考訳) 本稿では,微調整された事前学習されたトランスフォーマー言語モデルを用いて,アラビア語の異なる種類にまたがるモルフォシンタクティングに関する最新の結果について述べる。 我々のモデルは、現代標準アラビア語の既存のシステムと、我々が研究しているすべてのアラビア方言を一貫して上回り、近代標準アラビア語の最先端の2.6%、湾岸の2.8%、エジプトの1.6%、レバンタインの7.0%を絶対的に改善した。 学習データサイズ,外部言語資源の利用,低リソースシナリオにおける他の方言からの注釈付きデータの利用など,事前学習されたトランスフォーマー言語モデルの微調整のためのトレーニングセットアップについて検討する。 その結果,他の高資源方言のデータセットを用いた戦略的微調整は低リソース方言にとって有益であることがわかった。 さらに,外部言語資源としての高品質な形態解析器は,特に低リソース環境において有用であることを示す。

We present state-of-the-art results on morphosyntactic tagging across different varieties of Arabic using fine-tuned pre-trained transformer language models. Our models consistently outperform existing systems in Modern Standard Arabic and all the Arabic dialects we study, achieving 2.6% absolute improvement over the previous state-of-the-art in Modern Standard Arabic, 2.8% in Gulf, 1.6% in Egyptian, and 7.0% in Levantine. We explore different training setups for fine-tuning pre-trained transformer language models, including training data size, the use of external linguistic resources, and the use of annotated data from other dialects in a low-resource scenario. Our results show that strategic fine-tuning using datasets from other high-resource dialects is beneficial for a low-resource dialect. Additionally, we show that high-quality morphological analyzers as external linguistic resources are beneficial especially in low-resource settings.
翻訳日:2021-10-14 14:30:26 公開日:2021-10-13
# 依存性解析としてのセマンティクスロールラベリング:引数内の潜在木構造を探る

Semantic Role Labeling as Dependency Parsing: Exploring Latent Tree Structures Inside Arguments ( http://arxiv.org/abs/2110.06865v1 )

ライセンス: Link先を確認
Yu Zhang, Qingrong Xia, Shilin Zhou, Yong Jiang, Zhenghua Li, Guohong Fu, Min Zhang(参考訳) セマンティック・ロール・ラベリングはNLPコミュニティの基本的な課題である。 SRLの最近の研究は、主に2つの線に分かれている。 2)スパンベース。 有効性にもかかわらず、内部引数構造を明示的に考慮しないという本質的な欠点を共有しており、モデルの表現性を妨げる可能性がある。 これを解決するために、SRLを依存解析タスクに還元し、平坦な引数を潜在サブツリーとみなす。 特に,木構造をスパンアウェアにするために,スパン制約付きツリーCRFモデルを用いて定式化を行い,さらに2階に拡張する。 conll05 と conll12 ベンチマーク実験の結果は,これまでのすべての成果を上回っており,最先端の成果が得られている。

Semantic role labeling is a fundamental yet challenging task in the NLP community. Recent works of SRL mainly fall into two lines:1) BIO-based and 2) span-based. Despite effectiveness, they share some intrinsic drawbacks of not explicitly considering internal argument structures, which may potentially hinder the model's expressiveness. To remedy this, we propose to reduce SRL to a dependency parsing task and regard the flat argument spans as latent subtrees. In particular, we equip our formulation with a novel span-constrained TreeCRF model to make tree structures span-aware, and further extend it to the second-order case. Experiments on CoNLL05 and CoNLL12 benchmarks reveal that the results of our methods outperform all previous works and achieve the state-of-the-art.
翻訳日:2021-10-14 14:30:09 公開日:2021-10-13
# (参考訳) detr3d: 3d-to-2dクエリによるマルチビュー画像からの3次元オブジェクト検出 [全文訳有]

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries ( http://arxiv.org/abs/2110.06922v1 )

ライセンス: CC BY 4.0
Yue Wang and Vitor Guizilini and Tianyuan Zhang and Yilun Wang and Hang Zhao and Justin Solomon(参考訳) マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。 単眼画像から直接3dバウンディングボックスを推定したり、2d情報から3dオブジェクト検出のための入力を生成するために深度予測ネットワークを使用する既存の研究とは対照的に、3d空間で直接予測を操作する。 このアーキテクチャでは、複数のカメラ画像から2D特徴を抽出し、3Dオブジェクトクエリのスパースセットを用いてこれらの2D特徴をインデクシングし、カメラ変換行列を用いて3D位置をマルチビュー画像にリンクする。 最後に、本モデルでは、対象クエリ毎にバウンディングボックスの予測を行い、セット・ツー・セットの損失を用いて、基底と予測との間の不一致を計測する。 このトップダウンアプローチは、深度予測モデルによって引き起こされる複合誤差を伴わないため、オブジェクト境界ボックス予測がピクセル単位の深さ推定に従うボトムアップ方式よりも優れている。 さらに, 最大化抑制などの後処理を必要とせず, 推定速度を劇的に改善した。 我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。

We introduce a framework for multi-camera 3D object detection. In contrast to existing works, which estimate 3D bounding boxes directly from monocular images or use depth prediction networks to generate input for 3D object detection from 2D information, our method manipulates predictions directly in 3D space. Our architecture extracts 2D features from multiple camera images and then uses a sparse set of 3D object queries to index into these 2D features, linking 3D positions to multi-view images using camera transformation matrices. Finally, our model makes a bounding box prediction per object query, using a set-to-set loss to measure the discrepancy between the ground-truth and the prediction. This top-down approach outperforms its bottom-up counterpart in which object bounding box prediction follows per-pixel depth estimation, since it does not suffer from the compounding error introduced by a depth prediction model. Moreover, our method does not require post-processing such as non-maximum suppression, dramatically improving inference speed. We achieve state-of-the-art performance on the nuScenes autonomous driving benchmark.
翻訳日:2021-10-14 14:28:28 公開日:2021-10-13
# sgdを用いたランダム特徴モデルの二重降下について

On the Double Descent of Random Features Models Trained with SGD ( http://arxiv.org/abs/2110.06910v1 )

ライセンス: Link先を確認
Fanghui Liu, Johan A.K. Suykens, Volkan Cevher(参考訳) 確率勾配勾配(SGD)により最適化された高次元におけるランダム特徴(RF)回帰の一般化特性について検討した。 本研究では, 定常・適応的なステップサイズSGD設定下でのRF回帰の非漸近誤差境界を正確に導出し, 理論的・実験的に二重降下現象を観察する。 本研究では,閉形式解をもたない初期化,ラベルノイズ,データサンプリング(確率勾配)の複数のランダム性源に対する対処法を示し,一般のガウス/球面データの仮定を超越した。 理論的には, sgdトレーニングでは, rf回帰は補間学習に適しており, 分散の単様性と偏りの単調な減少によって, 二重降下挙動を特徴付けることができる。 また,SGDを実際に使用する理論的正当性として,一定のステップサイズSGDの設定は,最小限の補間器と比較して収束率を損なわないことも証明した。

We study generalization properties of random features (RF) regression in high dimensions optimized by stochastic gradient descent (SGD). In this regime, we derive precise non-asymptotic error bounds of RF regression under both constant and adaptive step-size SGD setting, and observe the double descent phenomenon both theoretically and empirically. Our analysis shows how to cope with multiple randomness sources of initialization, label noise, and data sampling (as well as stochastic gradients) with no closed-form solution, and also goes beyond the commonly-used Gaussian/spherical data assumption. Our theoretical results demonstrate that, with SGD training, RF regression still generalizes well for interpolation learning, and is able to characterize the double descent behavior by the unimodality of variance and monotonic decrease of bias. Besides, we also prove that the constant step-size SGD setting incurs no loss in convergence rate when compared to the exact minimal-norm interpolator, as a theoretical justification of using SGD in practice.
翻訳日:2021-10-14 14:12:07 公開日:2021-10-13
# SGD、ゼロ・ロスの後に何が起こるのか? --数学的枠組み

What Happens after SGD Reaches Zero Loss? --A Mathematical Framework ( http://arxiv.org/abs/2110.06914v1 )

ライセンス: Link先を確認
Zhiyuan Li, Tianhao Wang, Sanjeev Arora(参考訳) 確率的勾配降下 (sgd) の暗黙的バイアスを理解することは、特に超パラメータモデルにおいて、損失関数 $l$ の局所最小値が多様体を形成するための重要な課題の1つである。 直感的には、sgdは十分に小さな学習率($\eta$)で勾配降下(gd)を追跡し、勾配ノイズがさらなる収束を妨げるような多様体に近づく。 このような状況下で、ブランら (2020) はラベルノイズのあるsgdが局所的に正規化子のような項を減少させ、損失の鋭さを減少させることを証明した。 本論文は,katzenberger (1991) のアイデアを応用した解析の汎用的枠組みを提案する。 原理上、sgd のそのような多様体周りの正則化効果(すなわち「単純バイアス」)に対する完全なキャラクタリゼーションを、損失関数とノイズ共変性によって共同で決定されるパラメータの制限ダイナミクスを記述する確率微分方程式 (sde) を用いて得ることができる。 これはいくつかの新しい結果をもたらす: (1)$\eta^{-2}$ステップで有効な暗黙のバイアスのグローバル分析、(2020)$\eta^{-1.6}$ステップでのみ有効なbucket et al.(英語版)の局所分析、および(2)任意のノイズ共分散を可能にする。 アプリケーションとして、任意の大きな初期化を行えば、ラベルノイズSGDは常にカーネル体制から逃れることができ、$O(\kappa\ln d)$サンプルしか必要とせず、$\kappa$-sparse overparametrized linear model in $\mathbb{R}^d$ (Woodworth et al., 2020) を学ぶために$O(\kappa$-sparse overparametrized linear model を学ぶことはできない。 この上限はミニマックス最適であり、以前の$\tilde{o}(\kappa^2)$ upper bound (haochen et al., 2020) を改善する。

Understanding the implicit bias of Stochastic Gradient Descent (SGD) is one of the key challenges in deep learning, especially for overparametrized models, where the local minimizers of the loss function $L$ can form a manifold. Intuitively, with a sufficiently small learning rate $\eta$, SGD tracks Gradient Descent (GD) until it gets close to such manifold, where the gradient noise prevents further convergence. In such a regime, Blanc et al. (2020) proved that SGD with label noise locally decreases a regularizer-like term, the sharpness of loss, $\mathrm{tr}[\nabla^2 L]$. The current paper gives a general framework for such analysis by adapting ideas from Katzenberger (1991). It allows in principle a complete characterization for the regularization effect of SGD around such manifold -- i.e., the "implicit bias" -- using a stochastic differential equation (SDE) describing the limiting dynamics of the parameters, which is determined jointly by the loss function and the noise covariance. This yields some new results: (1) a global analysis of the implicit bias valid for $\eta^{-2}$ steps, in contrast to the local analysis of Blanc et al. (2020) that is only valid for $\eta^{-1.6}$ steps and (2) allowing arbitrary noise covariance. As an application, we show with arbitrary large initialization, label noise SGD can always escape the kernel regime and only requires $O(\kappa\ln d)$ samples for learning an $\kappa$-sparse overparametrized linear model in $\mathbb{R}^d$ (Woodworth et al., 2020), while GD initialized in the kernel regime requires $\Omega(d)$ samples. This upper bound is minimax optimal and improves the previous $\tilde{O}(\kappa^2)$ upper bound (HaoChen et al., 2020).
翻訳日:2021-10-14 14:11:49 公開日:2021-10-13
# MMIU:マルチモーダルアシスタントにおける視覚インテント理解のためのデータセット

MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants ( http://arxiv.org/abs/2110.06416v1 )

ライセンス: Link先を確認
Alkesh Patel, Joel Ruben Antony Moniz, Roman Nguyen, Nick Tzou, Hadas Kotek, Vincent Renkens(参考訳) 視覚が入力モダリティの1つであるマルチモーダルアシスタントでは、視覚入力が結果に影響を与えるため、ユーザの意図の識別が困難なタスクとなる。 現在のデジタルアシスタントは音声入力を受け取り、会話やデバイスコンテキストからユーザの意図を判断しようとする。 したがって、マルチモーダルアシスタントのユースケースを対象とした視覚的な入力(例えば、対応する質問の画像やビデオ)を含むデータセットは、簡単には利用できない。 視覚的質問応答(VQA)と視覚的質問生成(VQG)の研究は大きな前進である。 しかし、視覚障害者がマルチモーダルアシスタントに尋ねるような質問は受け付けていない。 さらに、質問は外部知識から情報を求めないことが多い。 本稿では、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む新しいデータセットMMIU(MultiModal Intent Understanding)を提案する。 次に、マルチモーダルデジタルアシスタントの意図分類タスクにこのデータセットを使用します。 また,画像検索ペアを14の意図に分類するためのマルチモーダルトランスフォーマーなど,視覚と言語の特徴を組み合わせるための様々なアプローチも実験した。 ベンチマーク結果を提供し,データセット上のインテント分類タスクにおける視覚機能とテキスト機能の役割について考察する。

In multimodal assistant, where vision is also one of the input modalities, the identification of user intent becomes a challenging task as visual input can influence the outcome. Current digital assistants take spoken input and try to determine the user intent from conversational or device context. So, a dataset, which includes visual input (i.e. images or videos for the corresponding questions targeted for multimodal assistant use cases, is not readily available. The research in visual question answering (VQA) and visual question generation (VQG) is a great step forward. However, they do not capture questions that a visually-abled person would ask multimodal assistants. Moreover, many times questions do not seek information from external knowledge. In this paper, we provide a new dataset, MMIU (MultiModal Intent Understanding), that contains questions and corresponding intents provided by human annotators while looking at images. We, then, use this dataset for intent classification task in multimodal digital assistant. We also experiment with various approaches for combining vision and language features including the use of multimodal transformer for classification of image-question pairs into 14 intents. We provide the benchmark results and discuss the role of visual and text features for the intent classification task on our dataset.
翻訳日:2021-10-14 14:11:05 公開日:2021-10-13
# 密度不確かさ推定

Dense Uncertainty Estimation ( http://arxiv.org/abs/2110.06427v1 )

ライセンス: Link先を確認
Jing Zhang, Yuchao Dai, Mochu Xiang, Deng-Ping Fan, Peyman Moghadam, Mingyi He, Christian Walder, Kaihao Zhang, Mehrtash Harandi, Nick Barnes(参考訳) ディープニューラルネットワークは、決定論的ニューラルネットワークと確率論的ニューラルネットワークに大まかに分けることができ、前者は、通常、重量の最大推定によって入力空間から出力空間へのマッピングを達成するために訓練される。 このようにして、特定の重み集合は、適切な重み空間で起こる不確実性を無視しながら推定される。 後者は、モデルパラメータ(すなわちベイズニューラルネットワーク)に対する事前の分布を仮定するか、またはモデル予測に対する潜伏変数の寄与を探索するために潜伏変数(すなわち生成モデル)を含むことにより、テスト中の確率的予測をもたらす、フレームワークにランダム性を導入する。 点推定を行う前者とは異なり、後者は予測分布を推定し、その予測に関するモデル無知を表す不確実性を推定することを目的としている。 従来の決定論的ニューラルネットワークに基づく高密度予測タスクは、過度に適合する傾向があり、過度に信頼された予測につながる、と我々は主張する。 本稿では,確率的ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。 具体的には,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらを完全/半弱監視フレームワークで使用しながら,それらの長所と短所を説明する。 また,不確実性推定とモデルキャリブレーションの密接な関係から,深いモデルキャリブレーションにおいて不確実性推定をどのように活用し,密なモデルキャリブレーションを実現するかを紹介する。 コードとデータはhttps://github.com/j ingzhang617/uncertai ntyestimationで入手できる。

Deep neural networks can be roughly divided into deterministic neural networks and stochastic neural networks.The former is usually trained to achieve a mapping from input space to output space via maximum likelihood estimation for the weights, which leads to deterministic predictions during testing. In this way, a specific weights set is estimated while ignoring any uncertainty that may occur in the proper weight space. The latter introduces randomness into the framework, either by assuming a prior distribution over model parameters (i.e. Bayesian Neural Networks) or including latent variables (i.e. generative models) to explore the contribution of latent variables for model predictions, leading to stochastic predictions during testing. Different from the former that achieves point estimation, the latter aims to estimate the prediction distribution, making it possible to estimate uncertainty, representing model ignorance about its predictions. We claim that conventional deterministic neural network based dense prediction tasks are prone to overfitting, leading to over-confident predictions, which is undesirable for decision making. In this paper, we investigate stochastic neural networks and uncertainty estimation techniques to achieve both accurate deterministic prediction and reliable uncertainty estimation. Specifically, we work on two types of uncertainty estimations solutions, namely ensemble based methods and generative model based methods, and explain their pros and cons while using them in fully/semi/weakly-su pervised framework. Due to the close connection between uncertainty estimation and model calibration, we also introduce how uncertainty estimation can be used for deep model calibration to achieve well-calibrated models, namely dense model calibration. Code and data are available at https://github.com/J ingZhang617/Uncertai ntyEstimation.
翻訳日:2021-10-14 14:10:48 公開日:2021-10-13
# 弱教師付きセマンティックセグメンテーションのための情報基盤の削減

Reducing Information Bottleneck for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2110.06530v1 )

ライセンス: Link先を確認
Jungbeom Lee, Jooyoung Choi, Jisoo Mok, Sungroh Yoon(参考訳) 弱教師付きセマンティックセグメンテーションは、クラスラベルからピクセルレベルのローカライゼーションを生成するが、そのようなラベルで訓練された分類器は、ターゲットオブジェクトの小さな識別領域に焦点を当てる可能性が高い。 我々は、この現象を情報ボトルネック原理を用いて解釈する: 深層ニューラルネットワークの最終層は、シグモノイドまたはソフトマックス活性化関数によって活性化され、情報ボトルネックを引き起こし、その結果、タスク関連情報のサブセットのみが出力に渡される。 まず,この議論を模擬玩具実験を通じて支援し,最後にアクティベーション関数を除去して情報ボトルネックを低減する手法を提案する。 さらに,非識別領域から分類への情報伝達をさらに促進する新たなプーリング手法を提案する。 実験により,本手法はPASCAL VOC 2012とMS COCO 2014データセットのローカライゼーションマップの品質を著しく向上させ,弱教師付きセマンティックセマンティックセグメンテーションのための新しい最先端性能を示すことを示した。 コードは、https://github.com/j beomlee93/RIB.comで入手できる。

Weakly supervised semantic segmentation produces pixel-level localization from class labels; however, a classifier trained on such labels is likely to focus on a small discriminative region of the target object. We interpret this phenomenon using the information bottleneck principle: the final layer of a deep neural network, activated by the sigmoid or softmax activation functions, causes an information bottleneck, and as a result, only a subset of the task-relevant information is passed on to the output. We first support this argument through a simulated toy experiment and then propose a method to reduce the information bottleneck by removing the last activation function. In addition, we introduce a new pooling method that further encourages the transmission of information from non-discriminative regions to the classification. Our experimental evaluations demonstrate that this simple modification significantly improves the quality of localization maps on both the PASCAL VOC 2012 and MS COCO 2014 datasets, exhibiting a new state-of-the-art performance for weakly supervised semantic segmentation. The code is available at: https://github.com/j beomlee93/RIB.
翻訳日:2021-10-14 14:07:51 公開日:2021-10-13
# ブラインド画像品質評価のためのディープスーパーピクセルベースネットワーク

Deep Superpixel-based Network for Blind Image Quality Assessment ( http://arxiv.org/abs/2110.06564v1 )

ライセンス: Link先を確認
Guangyi Yang, Yang Zhan. and Yuxuan Wang(参考訳) 盲眼画像品質評価(biqa)モデルの目標は、人間の目による画像の評価過程をシミュレートし、画像の品質を正確に評価することである。 多くのアプローチは劣化を効果的に識別するが、画像の意味的内容を完全に考慮していない。 このギャップを埋めるため,マルチスケールおよびスーパーピクセルセグメンテーションに基づく画像の品質評価を行うために,DSN-IQAという適応型スーパーピクセルネットワークを提案する。 DSN-IQAは、任意のスケール画像を入力画像として適応的に受け入れ、人間の知覚に類似した評価プロセスを作成する。 このネットワークは2つのモデルを用いて、マルチスケールのセマンティックな特徴を抽出し、スーパーピクセルの隣接マップを生成する。 これら2つの要素は機能融合によって結合され、画質を正確に予測する。 異なるベンチマークデータベースを用いた実験結果から,本アルゴリズムは他の手法と高い競争力を持つことを示す。 また,適応的な深部画素ネットワークにより,人間の目と同様の複雑な歪みで画像を正確に評価する。

The goal in a blind image quality assessment (BIQA) model is to simulate the process of evaluating images by human eyes and accurately assess the quality of the image. Although many approaches effectively identify degradation, they do not fully consider the semantic content in images resulting in distortion. In order to fill this gap, we propose a deep adaptive superpixel-based network, namely DSN-IQA, to assess the quality of image based on multi-scale and superpixel segmentation. The DSN-IQA can adaptively accept arbitrary scale images as input images, making the assessment process similar to human perception. The network uses two models to extract multi-scale semantic features and generate a superpixel adjacency map. These two elements are united together via feature fusion to accurately predict image quality. Experimental results on different benchmark databases demonstrate that our algorithm is highly competitive with other approaches when assessing challenging authentic image databases. Also, due to adaptive deep superpixel-based network, our model accurately assesses images with complicated distortion, much like the human eye.
翻訳日:2021-10-14 14:07:29 公開日:2021-10-13
# 深層畳み込みニューラルネットワークによるスラグ生成の検出

Detecting Slag Formations with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2110.06640v1 )

ライセンス: Link先を確認
Christian von Koch, William Anz\'en, Max Fischer, Raazesh Sainudiin(参考訳) 2つの深い畳み込みニューラルネットワークを用いたgrate-kilnシステム炉内から画像中のスラグ生成を検出する能力について検討した。 炉内の条件は、時々カメラビューの障害を引き起こす。 本稿では,畳み込みニューラルネットワークにconvLSTM層を導入することでこの問題に対処することを提案する。 以上の結果から,産業運用環境におけるタイムリー対策決定の自動化に十分な性能を達成できることが示唆された。 さらに、convLSTM層の追加により、画像時系列における検出スラグの分画の流出予測が小さくなり、より少ないランニング分散が得られる。

We investigate the ability to detect slag formations in images from inside a Grate-Kiln system furnace with two deep convolutional neural networks. The conditions inside the furnace cause occasional obstructions of the camera view. Our approach suggests dealing with this problem by introducing a convLSTM-layer in the deep convolutional neural network. The results show that it is possible to achieve sufficient performance to automate the decision of timely countermeasures in the industrial operational setting. Furthermore, the addition of the convLSTM-layer results in fewer outlying predictions and a lower running variance of the fraction of detected slag in the image time series.
翻訳日:2021-10-14 14:07:12 公開日:2021-10-13
# 携帯電話の波形を用いた手のマイクロモーションのコンピュータによる分類

The Computerized Classification of Micro-Motions in the Hand using Waveforms from Mobile Phone ( http://arxiv.org/abs/2110.06723v1 )

ライセンス: Link先を確認
Ranjani Ramesh(参考訳) 私たちの手は、血圧、運動制御を示す震動、Essential TremorやParkinson病などの神経変性疾患を決定するのに役立つ静脈の脈拍などの重要な情報を明らかにします。 携帯電話ビデオからの波形を用いた手内マイクロモーションのコンピュータによる分類は、ユーレリアの映像拡大、スケルトン化、ヒートマッピング、およびkn機械学習モデルを用いて、人の手内のマイクロモーションを検出し、波形を合成し、分類する新しい手法である。 この前処理は、eulerian video magnification, skeletonization, and heat-mappingを用いて、マイクロモーション、手の本質的特徴、および運動の程度を決定する。 事前処理後、可視運動は、特定のラベルを正確に表現する画素を適切にグループ化して手動でラベル付けされる。 これらのラベル付き画素の動きを波形に変換する。 最後に、これらの波形は、手または指の動き、静脈の動き、背景の動き、およびkNNモデルによる呼吸による身体の他の動きの4つのカテゴリに分類される。 最終的な精度は92%だった。

Our hands reveal important information such as the pulsing of our veins which help us determine the blood pressure, tremors indicative of motor control, or neurodegenerative disorders such as Essential Tremor or Parkinson's disease. The Computerized Classification of Micro-Motions in the hand using waveforms from mobile phone videos is a novel method that uses Eulerian Video Magnification, Skeletonization, Heatmapping, and the kNN machine learning model to detect the micro-motions in the human hand, synthesize their waveforms, and classify these. The pre-processing is achieved by using Eulerian Video Magnification, Skeletonization, and Heat-mapping to magnify the micro-motions, landmark essential features of the hand, and determine the extent of motion, respectively. Following pre-processing, the visible motions are manually labeled by appropriately grouping pixels to represent a particular label correctly. These labeled motions of the pixels are converted into waveforms. Finally, these waveforms are classified into four categories - hand or finger movements, vein movement, background motion, and movement of the rest of the body due to respiration using the kNN model. The final accuracy obtained was around 92 percent.
翻訳日:2021-10-14 14:07:03 公開日:2021-10-13
# 7Tにおける頚髄の灰白質分画の2次元マルチクラスモデル

2D Multi-Class Model for Gray and White Matter Segmentation of the Cervical Spinal Cord at 7T ( http://arxiv.org/abs/2110.06516v1 )

ライセンス: Link先を確認
Nilser J. Laines Medina, Charley Gros, Julien Cohen-Adad, Virginie Callot, Arnaud Le Troter(参考訳) 脳と末梢神経系の間の情報を伝達する脊髄(SC)は、多発性硬化症(MS)や筋萎縮性側索硬化症(ALS)などの様々な神経疾患において重要な役割を果たす。 WM/GMセグメンテーションの自動化手法が広く利用できるようになったが、従来のシステム(3T以下)で開発されたこれらの技術は、細部やコントラスト、異なるアーティファクトや信号のドロップアウトといった7T MRIデータで必ずしもうまく機能しない。 本研究の目的は,超高分解能7t t2*-w mr画像に基づくロバストなsc/gmマルチクラスセグメンテーションを可能にする新しいディープラーニングモデルを提案することである。 第2の目的は、特定のデータ拡張(DA)戦略を実装することの関連性を強調し、特に7Tのマルチセンター研究に使用できる汎用モデルを生成することである。

The spinal cord (SC), which conveys information between the brain and the peripheral nervous system, plays a key role in various neurological disorders such as multiple sclerosis (MS) and amyotrophic lateral sclerosis (ALS), in which both gray matter (GM) and white matter (WM) may be impaired. While automated methods for WM/GM segmentation are now largely available, these techniques, developed for conventional systems (3T or lower) do not necessarily perform well on 7T MRI data, which feature finer details, contrasts, but also different artifacts or signal dropout. The primary goal of this study is thus to propose a new deep learning model that allows robust SC/GM multi-class segmentation based on ultra-high resolution 7T T2*-w MR images. The second objective is to highlight the relevance of implementing a specific data augmentation (DA) strategy, in particular to generate a generic model that could be used for multi-center studies at 7T.
翻訳日:2021-10-14 14:06:43 公開日:2021-10-13
# 注意方向の対物編集によるユーザのメンタルモデルの改善

Improving Users' Mental Model with Attention-directed Counterfactual Edits ( http://arxiv.org/abs/2110.06863v1 )

ライセンス: Link先を確認
Kamran Alipour, Arijit Ray, Xiao Lin, Michael Cogswell, Jurgen P. Schulze, Yi Yao, Giedrius T. Burachas(参考訳) VQA(Visual Question Answering)の分野では、VQAシステムのユーザのメンタルモデルの改善が示され、これらのシステムがある種の画像クエスト(IQ)ペアにどのように答えるかの例が明らかになった。 本研究では,制御された対実画像探索例の表示が,ランダムな例に比べて,ユーザのメンタルモデルの改善に有効であることを示す。 生成的アプローチと検索に基づくアプローチを比較して,実例を示す。 近年,gans (generative adversarial network) の進歩により,画像に対する特定の関心領域を削除・塗りつぶしして偽画像を生成するようになった。 次に、変更画像に対するVQAシステムの回答の変更にユーザを公開します。 本研究では,VQAシステムのアテンション値を用いたアテンションマップと完全自動手法の両方を用いて,インペイントの関心領域を選択する。 最後に,テストの反事実画像上でモデルのパフォーマンスを予測して,ユーザのメンタルモデルをテストする。 反実的な説明を示すと,回答の精度が向上し,回答の変化を予測することに留意する。 現実的に回収された反事実は明らかに精神モデルを改善する上で最も効果的であるが、生成的アプローチも同じように効果的であることを示す。

In the domain of Visual Question Answering (VQA), studies have shown improvement in users' mental model of the VQA system when they are exposed to examples of how these systems answer certain Image-Question (IQ) pairs. In this work, we show that showing controlled counterfactual image-question examples are more effective at improving the mental model of users as compared to simply showing random examples. We compare a generative approach and a retrieval-based approach to show counterfactual examples. We use recent advances in generative adversarial networks (GANs) to generate counterfactual images by deleting and inpainting certain regions of interest in the image. We then expose users to changes in the VQA system's answer on those altered images. To select the region of interest for inpainting, we experiment with using both human-annotated attention maps and a fully automatic method that uses the VQA system's attention values. Finally, we test the user's mental model by asking them to predict the model's performance on a test counterfactual image. We note an overall improvement in users' accuracy to predict answer change when shown counterfactual explanations. While realistic retrieved counterfactuals obviously are the most effective at improving the mental model, we show that a generative approach can also be equally effective.
翻訳日:2021-10-14 14:06:23 公開日:2021-10-13
# 教師なしコード変換に自動ユニットテストを活用する

Leveraging Automated Unit Tests for Unsupervised Code Translation ( http://arxiv.org/abs/2110.06773v1 )

ライセンス: Link先を確認
Baptiste Roziere, Jie M. Zhang, Francois Charton, Mark Harman, Gabriel Synnaeve, Guillaume Lample(参考訳) プログラミング言語の並列データはほとんどないため、教師なしのメソッドはソースコードの翻訳に適している。 しかし、教師なし機械翻訳のアプローチの大半は、自然言語翻訳の文脈で開発された手法であるバック翻訳に依存しており、本質的にノイズの多い入力の訓練を伴っている。 残念なことに、ソースコードは小さな変更に対して非常に敏感であり、小さな不正確さが文の意味を変えない自然言語とは異なり、単一のトークンはコンパイルの失敗や誤ったプログラムをもたらす可能性がある。 この問題に対処するために, 自動ユニットテストシステムを利用して不正翻訳をフィルタリングし, 完全な並列コーパスを作成することを提案する。 このフィルタ付きデータセットで教師なしモデルの微調整を行うことで、生成した翻訳のノイズが大幅に低減され、研究された言語ペアの最先端を快適に上回ることが判明した。 特に、java $\to$ pythonとpython $\to$ c++では、以前の最良のメソッドをそれぞれ16%以上、24%以上上回り、エラー率を35%以上削減しています。

With little to no parallel data available for programming languages, unsupervised methods are well-suited to source code translation. However, the majority of unsupervised machine translation approaches rely on back-translation, a method developed in the context of natural language translation and one that inherently involves training on noisy inputs. Unfortunately, source code is highly sensitive to small changes; a single token can result in compilation failures or erroneous programs, unlike natural languages where small inaccuracies may not change the meaning of a sentence. To address this issue, we propose to leverage an automated unit-testing system to filter out invalid translations, thereby creating a fully tested parallel corpus. We found that fine-tuning an unsupervised model with this filtered data set significantly reduces the noise in the translations so-generated, comfortably outperforming the state-of-the-art for all language pairs studied. In particular, for Java $\to$ Python and Python $\to$ C++ we outperform the best previous methods by more than 16% and 24% respectively, reducing the error rate by more than 35%.
翻訳日:2021-10-14 14:04:20 公開日:2021-10-13
# 密集した検索を意識した敬語句: 密集した検索者はまばらな検索を模倣できるか?

Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One? ( http://arxiv.org/abs/2110.06918v1 )

ライセンス: Link先を確認
Xilun Chen, Kushal Lakhotia, Barlas O\u{g}uz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih(参考訳) 最近の人気とよく知られたアドバンテージにもかかわらず、高濃度なレトリバーはbm25のようなスパースなメソッドに遅れをとっており、クエリーで敬遠したフレーズとレアなエンティティと確実にマッチする能力を持っている。 これは密集したモデルに固有の制限であるという主張がある。 スパースモデルの語彙マッチング能力を持つ高密度検索器であるSPAR(Salient Phrase Aware Retriever)を導入することで,この主張を否定する。 特に高密度レトリバー {\Lambda} がスパースを模倣するように訓練できることを示し、SPARは標準密度レトリバーを {\Lambda} で増強することによって構築される。 5つのオープンドメイン質問応答データセットとMS MARCOパス検索タスクで評価すると、SPARは、密でスパースなレトリバーのための新しい技術状態を設定し、より複雑な疎いハイブリッドシステムの性能を一致または超えることができる。

Despite their recent popularity and well known advantages, dense retrievers still lag behind sparse methods such as BM25 in their ability to reliably match salient phrases and rare entities in the query. It has been argued that this is an inherent limitation of dense models. We disprove this claim by introducing the Salient Phrase Aware Retriever (SPAR), a dense retriever with the lexical matching capacity of a sparse model. In particular, we show that a dense retriever {\Lambda} can be trained to imitate a sparse one, and SPAR is built by augmenting a standard dense retriever with {\Lambda}. When evaluated on five open-domain question answering datasets and the MS MARCO passage retrieval task, SPAR sets a new state of the art for dense and sparse retrievers and can match or exceed the performance of more complicated dense-sparse hybrid systems.
翻訳日:2021-10-14 14:04:00 公開日:2021-10-13
# SAR-Net:何百もの旅行シナリオにおけるパーソナライズされたFairレコメンデーションのためのシナリオ対応ランキングネットワーク

SAR-Net: A Scenario-Aware Ranking Network for PersonalizedFair Recommendation in Hundreds of Travel Scenarios ( http://arxiv.org/abs/2110.06475v1 )

ライセンス: Link先を確認
Qijie Shen, Wanjie Tao, Jing Zhang, Hong Wen, Zulong Chen, Quan Lu(参考訳) alibabaの旅行マーケティングプラットフォームは、fliggy、taobao、alipayアプリなど、数百の異なる旅行シナリオにおいて必須の役割を担っている。 異なるシナリオを訪れるユーザにパーソナライズされたレコメンデーションサービスを提供するには、慎重に対処すべき2つの重要な課題がある。 まず、異なるシナリオのトラフィック特性から、すべてのシナリオに対応する統一モデルをトレーニングするのは非常に困難です。 第2に、プロモーション期間中に、手動による介入によって特定の項目の露出が再重み付けされ、バイアスログが発生し、バイアスデータを使用してトレーニングされたランキングモデルが劣化する。 本稿では,これらの問題に対処するための新しいシナリオアウェアランキングネットワーク(sar-net)を提案する。 SAR-Netは、2つの特定のアテンションモジュールを通じて、ユーザ間の関心事を学ぶことで、さまざまなシナリオから豊富なデータを収集する。 次に、前のモジュールのエンコードされた特徴を入力として、シナリオ固有の線形変換層を採用してシナリオ特有の特徴をさらに抽出し、デビアス専門家ネットワーク、すなわちシナリオ固有の専門家とシナリオ共有の専門家の2つのグループをフォローする。 彼らは単独で中間結果を出力し、さらにマルチシナリオゲーティングモジュールによって最終結果に融合する。 また,手動介入によるデータ公平性の問題を軽減するために,個人標本の重要性を計測し,それを用いてデビアスの専門家ネットワークの予測を再検討するフェアネス係数(FC)の概念を提案する。 8000万人以上のユーザと155万の旅行アイテムをカバーするオフラインデータセットの実験と、オンラインA/Bテストは、私たちのSAR-Netの有効性と最先端メソッドに対するその優位性を実証する。

The travel marketing platform of Alibaba serves an indispensable role for hundreds of different travel scenarios from Fliggy, Taobao, Alipay apps, etc. To provide personalized recommendation service for users visiting different scenarios, there are two critical issues to be carefully addressed. First, since the traffic characteristics of different scenarios, it is very challenging to train a unified model to serve all. Second, during the promotion period, the exposure of some specific items will be re-weighted due to manual intervention, resulting in biased logs, which will degrade the ranking model trained using these biased data. In this paper, we propose a novel Scenario-Aware Ranking Network (SAR-Net) to address these issues. SAR-Net harvests the abundant data from different scenarios by learning users' cross-scenario interests via two specific attention modules, which leverage the scenario features and item features to modulate the user behavior features, respectively. Then, taking the encoded features of previous module as input, a scenario-specific linear transformation layer is adopted to further extract scenario-specific features, followed by two groups of debias expert networks, i.e., scenario-specific experts and scenario-shared experts. They output intermediate results independently, which are further fused into the final result by a multi-scenario gating module. In addition, to mitigate the data fairness issue caused by manual intervention, we propose the concept of Fairness Coefficient (FC) to measures the importance of individual sample and use it to reweigh the prediction in the debias expert networks. Experiments on an offline dataset covering over 80 million users and 1.55 million travel items and an online A/B test demonstrate the effectiveness of our SAR-Net and its superiority over state-of-the-art methods.
翻訳日:2021-10-14 14:03:41 公開日:2021-10-13
# 模倣・強化学習における潜在共同創設者の共変量シフトについて

On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning ( http://arxiv.org/abs/2110.06539v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Assaf Hallak, Gal Dalal, Shie Mannor, Gal Chechik, Uri Shalit(参考訳) 模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。 まず,統合された専門家データから文脈的MDP設定で学習する問題を定義する。 このようなデータからの学習の限界を外部報酬の有無に関わらず分析し,この設定に適合する標準模倣学習アルゴリズムの調整を提案する。 次に、専門家データとオンライン環境との間の分散シフトの問題について議論する。 共変量の任意の分布シフト下での模倣学習の可能性と不可能性を示す。 追加の外部報酬が提供されると、未知のシフトに対処し、最適解への収束を証明するサンプリング手順を提案する。 最後に,支援医療とレコメンデーションシステムシミュレーションの課題に対して,我々の主張を実証的に検証する。

We consider the problem of using expert data with unobserved confounders for imitation and reinforcement learning. We begin by defining the problem of learning from confounded expert data in a contextual MDP setup. We analyze the limitations of learning from such data with and without external reward, and propose an adjustment of standard imitation learning algorithms to fit this setup. We then discuss the problem of distribution shift between the expert data and the online environment when the data is only partially observable. We prove possibility and impossibility results for imitation learning under arbitrary distribution shift of the missing covariates. When additional external reward is provided, we propose a sampling procedure that addresses the unknown shift and prove convergence to an optimal solution. Finally, we validate our claims empirically on challenging assistive healthcare and recommender system simulation tasks.
翻訳日:2021-10-14 14:03:09 公開日:2021-10-13
# 線形時相論理における数式学習のためのスケーラブルな時間アルゴリズム

Scalable Anytime Algorithms for Learning Formulas in Linear Temporal Logic ( http://arxiv.org/abs/2110.06726v1 )

ライセンス: Link先を確認
Ritam Raha, Rajarshi Roy, Nathana\"el Fijalkow, Daniel Neider(参考訳) 線形時間論理(LTL)は、プログラム検証、ロボット工学における動作計画、プロセスマイニング、その他多くの分野で広く使われている有限列(トレースと呼ばれる)の仕様言語である。 研究コミュニティの関心が高まっているにもかかわらず、既存のソリューションには2つの制限がある: それらは小さな公式を超えてスケールせず、結果を返すことなく計算資源を消費する。 我々のアルゴリズムは、以前の方法よりも桁違いに大きい式を構築できるため、ほとんどの場合、最小限ではなく、式を出力できる。 公開ベンチマークに対するオープンソース実装を用いて,提案アルゴリズムの性能評価を行った。

Linear temporal logic (LTL) is a specification language for finite sequences (called traces) widely used in program verification, motion planning in robotics, process mining, and many other areas. We consider the problem of learning LTL formulas for classifying traces; despite a growing interest of the research community, existing solutions suffer from two limitations: they do not scale beyond small formulas, and they may exhaust computational resources without returning any result. We introduce a new algorithm addressing both issues: our algorithm is able to construct formulas an order of magnitude larger than previous methods, and it is anytime, meaning that it in most cases successfully outputs a formula, albeit possibly not of minimal size. We evaluate the performances of our algorithm using an open source implementation against publicly available benchmarks.
翻訳日:2021-10-14 14:02:57 公開日:2021-10-13
# 動的leo-b5gシステムへの適応:メタ批判学習に基づく効率的な資源スケジューリング

Adapting to Dynamic LEO-B5G Systems: Meta-Critic Learning Based Efficient Resource Scheduling ( http://arxiv.org/abs/2110.06787v1 )

ライセンス: Link先を確認
Yaxiong Yuan, Lei lei, Thang X. Vu, Zheng Chang, Symeon Chatzinotas, Sumei Sun(参考訳) 低地球軌道(LEO)衛星による通信は、5Gシステムを超える重要な要素の1つと考えられており、広い範囲と費用効率のよいデータサービスを提供している。 このような動的空間-地上トポロジーは、ネットワーク管理の自由度を指数関数的に増加させる。 本稿では,過負荷leo-地球系における2つの実用的課題について述べる。 最初の課題は、大量の接続されたユーザに対して、より多くのデータやユーザを配信/提供できるように、リソースを効率的にスケジュールする方法です。 第2の課題は、動的無線環境に適応するアルゴリズムソリューションをよりレジリエントなものにする方法であり、その対策として、まず、オフラインベンチマークを提供するための反復的部分最適化アルゴリズムを提案する。 そこで本研究では,パラメータ化のためのハイブリッドニューラルネットワークと,アクションマッピングのためのwolpertingerポリシーをemclで設計した,メタクリティック学習アルゴリズム(emcl)を提案する。 その結果, 過負荷システムにおけるEMCLの有効性と迅速な応答能力, 動的環境への適応性を示す。

Low earth orbit (LEO) satellite-assisted communications have been considered as one of key elements in beyond 5G systems to provide wide coverage and cost-efficient data services. Such dynamic space-terrestrial topologies impose exponential increase in the degrees of freedom in network management. In this paper, we address two practical issues for an over-loaded LEO-terrestrial system. The first challenge is how to efficiently schedule resources to serve the massive number of connected users, such that more data and users can be delivered/served. The second challenge is how to make the algorithmic solution more resilient in adapting to dynamic wireless environments.To address them, we first propose an iterative suboptimal algorithm to provide an offline benchmark. To adapt to unforeseen variations, we propose an enhanced meta-critic learning algorithm (EMCL), where a hybrid neural network for parameterization and the Wolpertinger policy for action mapping are designed in EMCL. The results demonstrate EMCL's effectiveness and fast-response capabilities in over-loaded systems and in adapting to dynamic environments compare to previous actor-critic and meta-learning methods.
翻訳日:2021-10-14 14:02:42 公開日:2021-10-13
# (参考訳) DGCNN:動的グラフを用いた3次元物体検出 [全文訳有]

Object DGCNN: 3D Object Detection using Dynamic Graphs ( http://arxiv.org/abs/2110.06923v1 )

ライセンス: CC BY 4.0
Yue Wang and Justin Solomon(参考訳) 3Dオブジェクト検出には複雑なトレーニングとテストパイプラインが伴うことが多く、個々のデータセットに関するドメイン知識が必要になります。 近年,非最大抑圧型2次元物体検出モデルに着想を得て,点雲上の3次元物体検出アーキテクチャを提案する。 本手法は動的グラフ上のメッセージパッシングとして3次元物体検出をモデル化し, dgcnnフレームワークを一般化してオブジェクト群を予測する。 提案手法では,オブジェクト信頼度集計や非最大抑圧による後処理の必要性を除去する。 また, スパース点雲からの物体検出を容易にするため, 3次元検出にカスタマイズしたセット・ツー・セット蒸留手法を提案する。 この手法は教師モデルと学生モデルの出力を変分不変の方法で調整し、3次元検出タスクの知識蒸留を大幅に単純化する。 本手法は自動運転ベンチマークにおいて最先端性能を実現する。 また,検出モデルと蒸留フレームワークの豊富な解析を行った。

3D object detection often involves complicated training and testing pipelines, which require substantial domain knowledge about individual datasets. Inspired by recent non-maximum suppression-free 2D object detection models, we propose a 3D object detection architecture on point clouds. Our method models 3D object detection as message passing on a dynamic graph, generalizing the DGCNN framework to predict a set of objects. In our construction, we remove the necessity of post-processing via object confidence aggregation or non-maximum suppression. To facilitate object detection from sparse point clouds, we also propose a set-to-set distillation approach customized to 3D detection. This approach aligns the outputs of the teacher model and the student model in a permutation-invarian t fashion, significantly simplifying knowledge distillation for the 3D detection task. Our method achieves state-of-the-art performance on autonomous driving benchmarks. We also provide abundant analysis of the detection model and distillation framework.
翻訳日:2021-10-14 14:01:18 公開日:2021-10-13
# mderank:unsupervised keyphrase抽出のためのマスク付き文書埋め込みランクアプローチ

MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction ( http://arxiv.org/abs/2110.06651v1 )

ライセンス: Link先を確認
Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Shiliang Zhang, Bing Li, Wei Wang, Xin Cao(参考訳) キーワードは、コアコンテンツの簡潔な要約を提供するドキュメントのフレーズで、読者が記事が少しで何を言っているのかを理解するのに役立つ。 しかし、既存の教師なしの作品は、比較のためのシーケンス長のミスマッチのため、様々な種類の文書を扱うのに十分ではない。 本稿では,bertモデルを用いてマス戦略を用いた候補キーフレーズの選択とランク付けを行う,教師なしキーワード抽出手法を提案する。 さらに、互換性のある自己教師型タスクを設計し、コントラスト学習を行うことにより、KPEBERT(Keyphrases extract BERT)と呼ばれるモデルをさらに強化する。 提案手法の優越性と頑健性およびkpebertの有効性を実証するために,広範な実験評価を行った。

Keyphrases are phrases in a document providing a concise summary of core content, helping readers to understand what the article is talking about in a minute. However, existing unsupervised works are not robust enough to handle various types of documents owing to the mismatch of sequence length for comparison. In this paper, we propose a novel unsupervised keyword extraction method by leveraging the BERT-based model to select and rank candidate keyphrases with a MASK strategy. In addition, we further enhance the model, denoted as Keyphrases Extraction BERT (KPEBERT), via designing a compatible self-supervised task and conducting a contrast learning. We conducted extensive experimental evaluation to demonstrate the superiority and robustness of the proposed method as well as the effectiveness of KPEBERT.
翻訳日:2021-10-14 13:43:22 公開日:2021-10-13
# Mengzi:中国向けの軽量で独創的な事前訓練モデルを目指して

Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese ( http://arxiv.org/abs/2110.06696v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hanqing Zhang, Keming Chen, Yuhang Guo, Jingyun Hua, Yulong Wang, Ming Zhou(参考訳) プレトレーニングモデル(PLM)は、幅広いNLPタスクにおいて顕著に改善されているが、時間と資源の面では高価である。 これにより、より効率的なモデルをより少ない計算で訓練するが、それでも優れた性能を保証できる。 大規模を追求する代わりに、同等あるいは少ない計算で訓練された軽量でより強力なモデルの開発を約束しています。 この技術レポートは、差別的、生成的、ドメイン固有、マルチモーダルな事前訓練されたモデルのファミリーで、幅広い言語とビジョンタスクをこなせる、Mengziと呼ばれる事前訓練済みモデルをリリースします。 公共の中国のplmと比較すると、mengziはシンプルだが強力だ。 当社の軽量モデルは,事前トレーニングと微調整の最適化によって,広く使用されている手掛かりベンチマークで新たな最先端結果を達成しました。 モデルアーキテクチャを変更することなく、我々のモデルは既存のPLMの代替として簡単に利用できる。 ソースはhttps://github.com/l angboat/mengzi.comから入手できます。

Although pre-trained models (PLMs) have achieved remarkable improvements in a wide range of NLP tasks, they are expensive in terms of time and resources. This calls for the study of training more efficient models with less computation but still ensures impressive performance. Instead of pursuing a larger scale, we are committed to developing lightweight yet more powerful models trained with equal or less computation and friendly to rapid deployment. This technical report releases our pre-trained model called Mengzi, which stands for a family of discriminative, generative, domain-specific, and multimodal pre-trained model variants, capable of a wide range of language and vision tasks. Compared with public Chinese PLMs, Mengzi is simple but more powerful. Our lightweight model has achieved new state-of-the-art results on the widely-used CLUE benchmark with our optimized pre-training and fine-tuning techniques. Without modifying the model architecture, our model can be easily employed as an alternative to existing PLMs. Our sources are available at https://github.com/L angboat/Mengzi.
翻訳日:2021-10-14 13:43:07 公開日:2021-10-13
# マルチターン対話コヒーレンス向上のための話者認識学習フレームワーク

A Speaker-Aware Learning Framework for Improving Multi-turn Dialogue Coherence ( http://arxiv.org/abs/2110.06823v1 )

ライセンス: Link先を確認
Zihao Wang, Ming Jiang, Junli Wang(参考訳) 本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成フレームワークを提案する。 会話履歴の内容にのみ依存して応答を生成する先行研究から、発話間の相対的社会的関係(つまり、同じ話者または異なる人物によって生成される)の獲得は、会話履歴からきめ細かなコンテキスト情報を捕捉し、生成した応答におけるコンテキストコヒーレンスを改善するマシンの利点であると主張している。 そこで我々は,並列階層型注意エンコーダデコーダ(phad)と呼ばれる話者認識フレームワークを提案する。 具体的には、2人の話者による会話において、ある話者からの発話を応答として、もう一方の話者からの発話をクエリとして考慮する。 インナークエリとインタークエリによるクエリをエンコーダで理解した後、デコーダは以前に生成された応答の隠された状態を再利用して新しい応答を生成する。 実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。 さらに, 話者トークンを用いた対話モデルでは, 会話コンテキストに関する非コヒーレントな応答を生成する可能性が一般的に低下することを示した。

This paper presents a novel open-domain dialogue generation framework emphasizing the differentiation of speakers in multi-turn conversations. Differing from prior work that solely relies on the content of conversation history to generate a response, we argue that capturing relative social relations among utterances (i.e., generated by either the same speaker or different persons) benefits the machine capturing fine-grained context information from a conversation history to improve context coherence in the generated response. Given that, we propose a speaker-aware framework, named Parallel Hierarchical Attentive Encoder-Decoder (PHAED), that aims to model each utterance with the awareness of its speaker and contextual associations with the same speaker's previous messages. Specifically, in a conversation involving two speakers, we regard the utterances from one speaker as responses and those from the other as queries. After understanding queries via our encoder with inner-query and inter-query encodings, our decoder reuses the hidden states of previously generated responses to generate a new response. Our empirical results show that PHAED outperforms the state-of-the-art in both automatic and human evaluations. Furthermore, our ablation study shows that dialogue models with speaker tokens can generally decrease the possibility of generating non-coherent responses regarding the conversation context.
翻訳日:2021-10-14 13:42:49 公開日:2021-10-13
# conditionalqa: 条件付き回答を持つ複雑な読み理解データセット

ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers ( http://arxiv.org/abs/2110.06884v1 )

ライセンス: Link先を確認
Haitian Sun, William W. Cohen, Ruslan Salakhutdinov(参考訳) 条件付き回答を伴う複雑な質問を含む質問応答(qa)データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 条件付き回答に加えて,(1)論理的に複雑な情報を持つ長いコンテキスト文書,(2)構成的論理的推論を必要とするマルチホップ質問,(3)抽出された質問,イエス/ノー質問,複数の回答を伴う質問,および未解決質問の組み合わせ,(4)回答を知らずに質問する質問,などが特徴である。 ConditionalQAは既存のQAモデルの多く、特に回答条件の選択において困難であることを示す。 このデータセットは、長いドキュメントに関する複雑な質問に答えるためのさらなる研究の動機になると考えています。 data と leaderboard は \url{https://github.com/h aitian-sun/condition alqa} で公開されている。

We describe a Question Answering (QA) dataset that contains complex questions with conditional answers, i.e. the answers are only applicable when certain conditions apply. We call this dataset ConditionalQA. In addition to conditional answers, the dataset also features: (1) long context documents with information that is related in logically complex ways; (2) multi-hop questions that require compositional logical reasoning; (3) a combination of extractive questions, yes/no questions, questions with multiple answers, and not-answerable questions; (4) questions asked without knowing the answers. We show that ConditionalQA is challenging for many of the existing QA models, especially in selecting answer conditions. We believe that this dataset will motivate further research in answering complex questions over long documents. Data and leaderboard are publicly available at \url{https://github.com/h aitian-sun/Condition alQA}.
翻訳日:2021-10-14 13:42:26 公開日:2021-10-13
# 画像翻訳改善のためのコンディショニング・センタリウムの調和

Harnessing the Conditioning Sensorium for Improved Image Translation ( http://arxiv.org/abs/2110.06443v1 )

ライセンス: Link先を確認
Cooper Nederhood and Nicholas Kolkin and Deqing Fu and Jason Salavon(参考訳) マルチモーダル・ドメイン・トランスフォーメーション(英: multi-modal domain translation)とは、ある局所的な属性を「レイアウト、セマンティクス、幾何学」の画像から継承し、他のもの(テクスチャ、照明、時にはセマンティクス)を「スタイル」画像から継承する新しいイメージをいう。 このタスクの主要なアプローチは、切り離された'コンテンツ'と'スタイル'の表現をゼロから学ぼうとするものである。 しかし、翻訳中に保存したいものが目的によって異なるため、これは困難であるだけでなく、不適切である。 このような曖昧さを動機として,既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。 次に、再構成対象のセットを簡単に最適化して、スタイル抽出器とイメージデコーダを訓練する。 高品質な事前学習モデルが多種多様で、簡単なトレーニング手順によって、我々のアプローチは、多くのドメインと'コンテンツ'の定義に簡単に適用できます。 さらに、「コンテンツ」のどの側面がドメインにまたがって保存されるのかを直感的に制御できる。 本手法は,celeba-hq のような従来型のデータセット上で評価し,より複雑なシーンで評価するための2つの新しいデータセット, classictv と ffhq-wild を提案する。 当社のアプローチであるsensoriumは,より複雑なシーンに対して,高品質なドメイン変換を可能にします。

Multi-modal domain translation typically refers to synthesizing a novel image that inherits certain localized attributes from a 'content' image (e.g. layout, semantics, or geometry), and inherits everything else (e.g. texture, lighting, sometimes even semantics) from a 'style' image. The dominant approach to this task is attempting to learn disentangled 'content' and 'style' representations from scratch. However, this is not only challenging, but ill-posed, as what users wish to preserve during translation varies depending on their goals. Motivated by this inherent ambiguity, we define 'content' based on conditioning information extracted by off-the-shelf pre-trained models. We then train our style extractor and image decoder with an easy to optimize set of reconstruction objectives. The wide variety of high-quality pre-trained models available and simple training procedure makes our approach straightforward to apply across numerous domains and definitions of 'content'. Additionally it offers intuitive control over which aspects of 'content' are preserved across domains. We evaluate our method on traditional, well-aligned, datasets such as CelebA-HQ, and propose two novel datasets for evaluation on more complex scenes: ClassicTV and FFHQ-Wild. Our approach, Sensorium, enables higher quality domain translation for more complex scenes.
翻訳日:2021-10-14 13:42:09 公開日:2021-10-13
# 人生は白黒ではない -- 半監督学習とファジィラベルを組み合わせる

Life is not black and white -- Combining Semi-Supervised Learning with fuzzy labels ( http://arxiv.org/abs/2110.06592v1 )

ライセンス: Link先を確認
Lars Schmarje and Reinhard Koch(参考訳) ラベル付きデータの必要な量は、ディープラーニングの最大の問題のひとつです。 半教師付き学習は、ラベルなしのデータを追加することでこの問題を解決できる。 しかし、多くのデータセットはアノテーションの可変性に苦しむ。 これらのアノテーションからの集約されたラベルは、異なるアノテーション間で一貫性がなく、ファジィであると考えられる。 これらのファジィラベルは、しばしば半教師付き学習では考慮されない。 これにより、パフォーマンスが低下するか、マシンラーニング開発サイクル全体の初期アノテーションコストが上昇する。 我々は,ファジィラベルを半監督学習に組み込むことを想定し,潜在的なコスト削減と開発サイクルの整合性の実証を行う。 私たちのコンセプトでは、現在の限界、将来の研究機会、潜在的に幅広い影響について話し合っています。

The required amount of labeled data is one of the biggest issues in deep learning. Semi-Supervised Learning can potentially solve this issue by using additional unlabeled data. However, many datasets suffer from variability in the annotations. The aggregated labels from these annotation are not consistent between different annotators and thus are considered fuzzy. These fuzzy labels are often not considered by Semi-Supervised Learning. This leads either to an inferior performance or to higher initial annotation costs in the complete machine learning development cycle. We envision the incorporation of fuzzy labels into Semi-Supervised Learning and give a proof-of-concept of the potential lower costs and higher consistency in the complete development cycle. As part of our concept, we discuss current limitations, futures research opportunities and potential broad impacts.
翻訳日:2021-10-14 13:41:43 公開日:2021-10-13
# ファジィオーバークラスタリング:オーバークラスタリングと逆エントロピーによるファジィラベルの半スーパービジョン分類

Fuzzy Overclustering: Semi-Supervised Classification of Fuzzy Labels with Overclustering and Inverse Cross-Entropy ( http://arxiv.org/abs/2110.06630v1 )

ライセンス: Link先を確認
Lars Schmarje and Johannes Br\"unger and Monty Santarossa and Simon-Martin Schr\"oder and Rainer Kiko and Reinhard Koch(参考訳) 深層学習は水中課題を含む多くの分類問題に適用されている。 しかし、ディープラーニングの長年の課題は、大規模で一貫性のあるラベル付きデータセットの必要性である。 半教師付き学習における現在のアプローチは、注釈付きデータの必要な量を10以上削減することができるが、この研究の行は依然として異なるクラスを使っている。 水中の分類や、一般に未解決の現実世界のデータセットでは、画像内の限られた情報内容と描写されたオブジェクトの遷移段階のため、クリーンなクラス境界が与えられないことが多い。 これは異なる意見を持つ専門家を招き、曖昧さや相違があると考えられるファジィなラベルを生み出す。 ファジィラベルの半教師付き分類を扱うための新しい枠組みを提案する。 これらのファジィラベルのサブ構造を検出するために、オーバークラスタリング(overclustering)という考え方に基づいている。 我々は、フレームワークのオーバークラスタ機能を改善するための新しい損失を提案し、ファジィラベルのオーバークラスタの利点を示す。 本稿では,ファジィラベルを用いた実世界のプランクトンデータに適用した場合,従来の半教師付き手法よりも優れたフレームワークを示す。 さらに,下位構造のより一貫性のある予測を5~10\%獲得する。

Deep learning has been successfully applied to many classification problems including underwater challenges. However, a long-standing issue with deep learning is the need for large and consistently labeled datasets. Although current approaches in semi-supervised learning can decrease the required amount of annotated data by a factor of 10 or even more, this line of research still uses distinct classes. For underwater classification, and uncurated real-world datasets in general, clean class boundaries can often not be given due to a limited information content in the images and transitional stages of the depicted objects. This leads to different experts having different opinions and thus producing fuzzy labels which could also be considered ambiguous or divergent. We propose a novel framework for handling semi-supervised classifications of such fuzzy labels. It is based on the idea of overclustering to detect substructures in these fuzzy labels. We propose a novel loss to improve the overclustering capability of our framework and show the benefit of overclustering for fuzzy labels. We show that our framework is superior to previous state-of-the-art semi-supervised methods when applied to real-world plankton data with fuzzy labels. Moreover, we acquire 5 to 10\% more consistent predictions of substructures.
翻訳日:2021-10-14 13:41:31 公開日:2021-10-13
# CONetV2: CNNの効率的なオートチャネルサイズ最適化

CONetV2: Efficient Auto-Channel Size Optimization for CNNs ( http://arxiv.org/abs/2110.06830v1 )

ライセンス: Link先を確認
Yi Ru Wang, Samir Khaki, Weihang Zheng, Mahdi S. Hosseini, Konstantinos N. Plataniotis(参考訳) ニューラルアーキテクチャサーチ(NAS)は、畳み込みニューラルネットワーク(CNN)の最適なネットワーク構成を見つける上で重要である。 グローバルな検索空間の観点からNASを探索する手法は多くあるが、最適化手法は一般に重い計算資源を必要とする。 本研究は,チャネルサイズのマイクロサーチ空間を調べることにより,計算制約のある環境において効率的な手法を提案する。 チャネルサイズの最適化に取り組むために,ネットワークの異なる層間の依存関係を抽出する自動アルゴリズムを設計した。 さらに,訓練された重量の保存を可能にする知識蒸留,チャネルサイズが変化しているアドミストトライアルを導入する。 さらに,標準的な性能指標(精度,損失)が個々のネットワークコンポーネントの性能を捉えることができず(全体のネットワーク評価を提供する),テスト精度と高い相関性を持ち,個々のネットワーク層を解析できる新しい指標を導入する。 依存抽出,メトリクス,知識蒸留を組み合わせることで,アニーリングをインスパイアした確率性をシミュレートした効率的な探索アルゴリズムを導入し,ベースラインを大きなマージンで上回る最適なアーキテクチャを見つけるための効果を実証する。

Neural Architecture Search (NAS) has been pivotal in finding optimal network configurations for Convolution Neural Networks (CNNs). While many methods explore NAS from a global search-space perspective, the employed optimization schemes typically require heavy computational resources. This work introduces a method that is efficient in computationally constrained environments by examining the micro-search space of channel size. In tackling channel-size optimization, we design an automated algorithm to extract the dependencies within different connected layers of the network. In addition, we introduce the idea of knowledge distillation, which enables preservation of trained weights, admist trials where the channel sizes are changing. Further, since the standard performance indicators (accuracy, loss) fail to capture the performance of individual network components (providing an overall network evaluation), we introduce a novel metric that highly correlates with test accuracy and enables analysis of individual network layers. Combining dependency extraction, metrics, and knowledge distillation, we introduce an efficient searching algorithm, with simulated annealing inspired stochasticity, and demonstrate its effectiveness in finding optimal architectures that outperform baselines by a large margin.
翻訳日:2021-10-14 13:40:24 公開日:2021-10-13
# 学習表現のための言語モデル事前学習の最大化

Maximizing Efficiency of Language Model Pre-training for Learning Representation ( http://arxiv.org/abs/2110.06620v1 )

ライセンス: Link先を確認
Junmo Kang, Suwon Shin, Jeonghwan Kim, Jaeyoung Jo, Sung-Hyon Myaeng(参考訳) 過去数年間の事前訓練された言語モデルでは、モデルパラメータと計算時間の増加が指数関数的に見られた。 ELECTRAは、置換トークン検出(RTD)タスクでサンプル不効率問題に対処することで、マスク付き言語モデリング(MLM)に基づく事前訓練された言語モデル(例えばBERT)の計算効率を改善するための新しいアプローチである。 本研究は,事前学習プロセスの効率を最大化するための適応型早期終了戦略を提案する。 さらに,ELECTRA のジェネレータモジュールの必要性を徹底的に検討することにより,計算効率を向上しつつ,モデルの精度維持に成功しなかった問題に対する初期的アプローチを評価する。

Pre-trained language models in the past years have shown exponential growth in model parameters and compute time. ELECTRA is a novel approach for improving the compute efficiency of pre-trained language models (e.g. BERT) based on masked language modeling (MLM) by addressing the sample inefficiency problem with the replaced token detection (RTD) task. Our work proposes adaptive early exit strategy to maximize the efficiency of the pre-training process by relieving the model's subsequent layers of the need to process latent features by leveraging earlier layer representations. Moreover, we evaluate an initial approach to the problem that has not succeeded in maintaining the accuracy of the model while showing a promising compute efficiency by thoroughly investigating the necessity of the generator module of ELECTRA.
翻訳日:2021-10-14 13:40:02 公開日:2021-10-13
# 真実のAI:嘘をつかないAIを開発し、管理する

Truthful AI: Developing and governing AI that does not lie ( http://arxiv.org/abs/2110.06674v1 )

ライセンス: Link先を確認
Owain Evans, Owen Cotton-Barratt, Lukas Finnveden, Adam Bales, Avital Balwit, Peter Wills, Luca Righetti, William Saunders(参考訳) 多くの文脈で、嘘 ― 欺くために言葉の偽りを使う ― は有害である。 嘘は伝統的に人間関係だったが、洗練された口頭弁論を行うAIシステムがますます普及しつつある。 このことは、AIが生み出す害(すなわち積極的に選択される虚偽)をどのように制限すべきかという疑問を提起する。 人間の真理は社会規範と法(名誉喪失、偽証、詐欺など)によって支配される。 AIと人間の違いは、AIに対してより正確な真理性の標準を持ち、これらの標準が時間とともに上昇する機会を与える。 これにより、公衆の疫学や経済に多大な利益をもたらし、最悪のAIの未来に対するリスクを軽減することができる。 AIの真理性の規範や法則の確立には,(1)明確な真理性基準の特定,(2)それらの基準の遵守を判断できる制度の構築,(3)堅牢な真理性を持つAIシステムの開発など,重要な作業が必要である。 最初の提案は,(1)「否定的虚偽」の回避基準(評価し易い嘘の一般化),(2)実世界の展開前後のAIシステム評価機関,(3)キュレートされたデータセットと人間のインタラクションを通じてAIシステムに真正性を持たせるよう明示的にトレーニングすることである。 政治的利益によって、最終的な真実性基準の評価メカニズムが捉えられる可能性があり、有害な検閲やプロパガンダに繋がる可能性がある。 これを避けるには注意が必要だ。 そして、AIのスピーチ行為の規模は今後数十年で劇的に拡大する可能性があるため、初期の真理性基準は、彼らが設定した前例のために特に重要であるかもしれない。

In many contexts, lying -- the use of verbal falsehoods to deceive -- is harmful. While lying has traditionally been a human affair, AI systems that make sophisticated verbal statements are becoming increasingly prevalent. This raises the question of how we should limit the harm caused by AI "lies" (i.e. falsehoods that are actively selected for). Human truthfulness is governed by social norms and by laws (against defamation, perjury, and fraud). Differences between AI and humans present an opportunity to have more precise standards of truthfulness for AI, and to have these standards rise over time. This could provide significant benefits to public epistemics and the economy, and mitigate risks of worst-case AI futures. Establishing norms or laws of AI truthfulness will require significant work to: (1) identify clear truthfulness standards; (2) create institutions that can judge adherence to those standards; and (3) develop AI systems that are robustly truthful. Our initial proposals for these areas include: (1) a standard of avoiding "negligent falsehoods" (a generalisation of lies that is easier to assess); (2) institutions to evaluate AI systems before and after real-world deployment; and (3) explicitly training AI systems to be truthful via curated datasets and human interaction. A concerning possibility is that evaluation mechanisms for eventual truthfulness standards could be captured by political interests, leading to harmful censorship and propaganda. Avoiding this might take careful attention. And since the scale of AI speech acts might grow dramatically over the coming decades, early truthfulness standards might be particularly important because of the precedents they set.
翻訳日:2021-10-14 13:39:35 公開日:2021-10-13
# 強化学習における自己反射計測環境の拡張

Extending Environments To Measure Self-Reflection In Reinforcement Learning ( http://arxiv.org/abs/2110.06890v1 )

ライセンス: Link先を確認
Samuel Allen Alexander, Michael Castaneda, Kevin Compher, Oscar Martinez(参考訳) 本研究では,環境がエージェントをシミュレートし,エージェントの仮説的行動に基づく出力をベースとする強化学習の概念について考察する。 優れたパフォーマンスには、通常、環境のアウトプットがどんなものでも注意を払う必要があるため、エージェントがこのような拡張環境において平均的な優れたパフォーマンスを達成するためには、エージェントが自己参照する必要があると論じる。 これにより、拡張環境の電池を介してエージェントを実行することにより、エージェントの自己反射能力を数値的に推定することができる。 このテクニックの実証となる拡張環境のオープンソースライブラリを同時にリリースしています。 ライブラリは第一種であるため、最適化の難しい問題を回避しています。 代わりに、興味深い特性を持つ環境を選択しました。 パラドックス的に見えるものもあれば、興味深い思考実験に繋がるものもあるし、自然の中で自己回帰がどのように進化したのかを示唆するものもある。 実例を示し,自己回帰を実験的に高める単純な変換を導入する。

We consider an extended notion of reinforcement learning in which the environment can simulate the agent and base its outputs on the agent's hypothetical behavior. Since good performance usually requires paying attention to whatever things the environment's outputs are based on, we argue that for an agent to achieve on-average good performance across many such extended environments, it is necessary for the agent to self-reflect. Thus, an agent's self-reflection ability can be numerically estimated by running the agent through a battery of extended environments. We are simultaneously releasing an open-source library of extended environments to serve as proof-of-concept of this technique. As the library is first-of-kind, we have avoided the difficult problem of optimizing it. Instead we have chosen environments with interesting properties. Some seem paradoxical, some lead to interesting thought experiments, some are even suggestive of how self-reflection might have evolved in nature. We give examples and introduce a simple transformation which experimentally seems to increase self-reflection.
翻訳日:2021-10-14 13:38:47 公開日:2021-10-13
# TAG:コンセプトグラフによるソーシャルメディアコンテンツタグの精度向上を目指して

TAG: Toward Accurate Social Media Content Tagging with a Concept Graph ( http://arxiv.org/abs/2110.06892v1 )

ライセンス: Link先を確認
Jiuding Yang, Weidong Guo, Bang Liu, Yakun Yu, Chaoyue Wang, Jinwen Luo, Linglong Kong, Di Niu, Zhen Wen(参考訳) 概念化は意味論や知識表現において広く研究されてきたが、急速に成長するソーシャルメディア上でテキストスニペットの主観を特徴づける最も正確な概念句を見つけることは依然として困難である。 これは、ほとんどの知識基盤が、定義力を持たない、あるいはソーシャルメディアアプリユーザーに十分な興味を示さない木や車といった、世界の一般的な用語を含んでいるという事実の一部に起因している。 もう一つの理由として、自然言語の複雑さは、時制、否定、文法を用いて言語の論理や強調を変更できるため、全く異なる意味を持つ。 本稿では,オープンドメインのソーシャルメディアから抽出した1万組の細粒度概念とwebスタイルの自然言語文からなる,高品質なコンセプトマッチングデータセットであるtagを提案する。 私たちが考えるコンセプトは、オンラインユーザーのトレンド関心を表している。 tagは、構造的なコンテキスト情報を提供するために、これらのきめ細かい概念とエンティティの概念グラフである。 我々は,多種多様なニューラルテキストマッチングモデルとタグを用いた事前学習された言語モデルを評価し,ソーシャルメディアコンテンツを最も適切な概念でタグ付けする能力の欠如を指摘する。 さらに,概念グラフの構造的文脈と構文的係り受け解析による文の意味単位間の論理的相互作用の両立により,優れた抽象化と一般化性能を示す新しいグラフマッチング手法を提案する。 我々は,TAGデータセットと提案手法の両方をオープンソース化し,さらなる研究を促進する。

Although conceptualization has been widely studied in semantics and knowledge representation, it is still challenging to find the most accurate concept phrases to characterize the main idea of a text snippet on the fast-growing social media. This is partly attributed to the fact that most knowledge bases contain general terms of the world, such as trees and cars, which do not have the defining power or are not interesting enough to social media app users. Another reason is that the intricacy of natural language allows the use of tense, negation and grammar to change the logic or emphasis of language, thus conveying completely different meanings. In this paper, we present TAG, a high-quality concept matching dataset consisting of 10,000 labeled pairs of fine-grained concepts and web-styled natural language sentences, mined from the open-domain social media. The concepts we consider represent the trending interests of online users. Associated with TAG is a concept graph of these fine-grained concepts and entities to provide the structural context information. We evaluate a wide range of popular neural text matching models as well as pre-trained language models on TAG, and point out their insufficiency to tag social media content with the most appropriate concept. We further propose a novel graph-graph matching method that demonstrates superior abstraction and generalization performance by better utilizing both the structural context in the concept graph and logic interactions between semantic units in the sentence via syntactic dependency parsing. We open-source both the TAG dataset and the proposed methods to facilitate further research.
翻訳日:2021-10-14 13:38:32 公開日:2021-10-13
# シミュレーションに基づく推論における危機回避

Averting A Crisis In Simulation-Based Inference ( http://arxiv.org/abs/2110.06581v1 )

ライセンス: Link先を確認
Joeri Hermans, Arnaud Delaunoy, Fran\c{c}ois Rozet, Antoine Wehenkel, Gilles Louppe(参考訳) 本研究では,現在のベイズシミュレーションに基づく推論アルゴリズムが,科学的探究のファルシフィシズム手法に不十分であることを示す広範な実証的証拠を示す。 数ヵ月間の実験計算の結果から,すべてのベンチマークアルゴリズム – (s)npe, (s)nre, snl および abc の変種 – が,自信過剰な後方近似を生成する可能性があることが判明した。 この問題に対処できないことは、シミュレーションベースの推論において、十分に確立された信頼危機につながると考えています。 このため,保存的近似推論アルゴリズムの理論的・方法論的展開を考察し,研究の方向性を述べるべきである。 この点に関して、アンサンブルは一貫してより信頼できるという実証的な証拠を示す。

We present extensive empirical evidence showing that current Bayesian simulation-based inference algorithms are inadequate for the falsificationist methodology of scientific inquiry. Our results collected through months of experimental computations show that all benchmarked algorithms -- (S)NPE, (S)NRE, SNL and variants of ABC -- may produce overconfident posterior approximations, which makes them demonstrably unreliable and dangerous if one's scientific goal is to constrain parameters of interest. We believe that failing to address this issue will lead to a well-founded trust crisis in simulation-based inference. For this reason, we argue that research efforts should now consider theoretical and methodological developments of conservative approximate inference algorithms and present research directions towards this objective. In this regard, we show empirical evidence that ensembles are consistently more reliable.
翻訳日:2021-10-14 13:36:29 公開日:2021-10-13
# メタパラメトリックニューラルネットワークによる生存分析

Metaparametric Neural Networks for Survival Analysis ( http://arxiv.org/abs/2110.06610v1 )

ライセンス: Link先を確認
Fabio Luis de Mello, J Mark Wilkinson and Visakan Kadirkamanathan(参考訳) サバイバル分析は、がん診断後の平均寿命や複雑な機械の最適維持スケジュールなど、イベントデータのモデリングにとって重要なツールである。 しかし、現在のニューラルネットワークモデルは、目標確率分布の形状を制限するか、事前決定された時間に推定を制限するため、生存分析に不完全な解決策を提供する。 その結果、現在のサバイバルニューラルネットワークは、その構造を事前に知ることなく、汎用関数を推定する能力が欠けている。 本稿では,既存の生存分析手法を包含するメタパラメトリックニューラルネットワークフレームワークについて述べる。 この枠組みにより、サバイバルニューラルネットワークは、それらの回帰と分類に対応する基盤となるデータ構造から、ジェネリック関数推定の独立性を満足することができる。 さらに,シミュレーションおよび大規模実世界のデータセットを用いたメタパラメトリックフレームワークの適用例を示し,現状の手法よりも優れていることを示す。 (i)非線形性を取り込むこと、 (2)時間的パターンを同定し、基礎となる関数構造に制約を課すことなく、より正確な全体推定を行う。

Survival analysis is a critical tool for the modelling of time-to-event data, such as life expectancy after a cancer diagnosis or optimal maintenance scheduling for complex machinery. However, current neural network models provide an imperfect solution for survival analysis as they either restrict the shape of the target probability distribution or restrict the estimation to pre-determined times. As a consequence, current survival neural networks lack the ability to estimate a generic function without prior knowledge of its structure. In this article, we present the metaparametric neural network framework that encompasses existing survival analysis methods and enables their extension to solve the aforementioned issues. This framework allows survival neural networks to satisfy the same independence of generic function estimation from the underlying data structure that characterizes their regression and classification counterparts. Further, we demonstrate the application of the metaparametric framework using both simulated and large real-world datasets and show that it outperforms the current state-of-the-art methods in (i) capturing nonlinearities, and (ii) identifying temporal patterns, leading to more accurate overall estimations whilst placing no restrictions on the underlying function structure.
翻訳日:2021-10-14 13:36:14 公開日:2021-10-13
# 時系列モデリングのための動的wasserstein barycenters

Dynamical Wasserstein Barycenters for Time-series Modeling ( http://arxiv.org/abs/2110.06741v1 )

ライセンス: Link先を確認
Kevin C. Cheng, Shuchin Aeron, Michael C. Hughes, Eric L. Miller(参考訳) 多くの時系列は、人間の活動アプリケーションでの動作や歩行など、ハイレベルな離散状態を表すセグメントのシーケンスとしてモデル化することができる。 フレキシブルモデルでは、静止した「純粋状態」期間のシステム状態と観察、およびランニングとウォーキングの段階的な減速のような隣接するセグメント間の遷移期間を記述する必要がある。 しかし、ほとんどの先行研究は純粋離散状態間の瞬時遷移を仮定している。 本稿では,システム状態の経時的推定と,無教師法で純粋状態のデータ生成分布を推定する動的wasserstein barycentric (dwb)モデルを提案する。 本モデルでは,各純状態が多変量正規分布からデータを生成することを仮定し,wasserstein barycenterによって指定された変位補間による状態間の遷移を特徴付ける。 系状態はバリ中心の重みベクトルで表され、単純体上のランダムウォークを通して時間とともに進化する。 パラメータ学習は、ガウス分布の自然リーマン幾何学をワッサーシュタイン距離の下で活用し、収束速度を改善する。 複数のヒューマンアクティビティデータセットを用いた実験により,提案するdwbモデルは,一般的な線形補間混合モデルと比較して遷移周期の状態推定を改善しつつ,純粋状態の生成分布を正確に学習できることが示されている。

Many time series can be modeled as a sequence of segments representing high-level discrete states, such as running and walking in a human activity application. Flexible models should describe the system state and observations in stationary ``pure-state'' periods as well as transition periods between adjacent segments, such as a gradual slowdown between running and walking. However, most prior work assumes instantaneous transitions between pure discrete states. We propose a dynamical Wasserstein barycentric (DWB) model that estimates the system state over time as well as the data-generating distributions of pure states in an unsupervised manner. Our model assumes each pure state generates data from a multivariate normal distribution, and characterizes transitions between states via displacement-interpo lation specified by the Wasserstein barycenter. The system state is represented by a barycentric weight vector which evolves over time via a random walk on the simplex. Parameter learning leverages the natural Riemannian geometry of Gaussian distributions under the Wasserstein distance, which leads to improved convergence speeds. Experiments on several human activity datasets show that our proposed DWB model accurately learns the generating distribution of pure states while improving state estimation for transition periods compared to the commonly used linear interpolation mixture models.
翻訳日:2021-10-14 13:35:58 公開日:2021-10-13
# (参考訳) よく分類された例はディープニューラルネットワークを用いた分類において過小評価される [全文訳有]

Well-classified Examples are Underestimated in Classification with Deep Neural Networks ( http://arxiv.org/abs/2110.06537v1 )

ライセンス: CC BY 4.0
Guangxiang Zhao, Wenkai Yang, Xuancheng Ren, Lei Li, Xu Sun(参考訳) 深層分類モデルの学習の背景にある従来の知恵は、悪い分類例に焦点を合わせ、決定境界から遠く離れたよく分類された例を無視することである。 例えば、クロスエントロピー損失のトレーニングでは、確率の高い例(例えば、よく分類された例)は、バックプロパゲーションの勾配を小さくする。 しかし、この慣習が表現学習、エネルギー最適化、マージンの成長を妨げることを理論的に示している。 この不足に対処するために,学習への貢献を復活させるために,分類された例に付加ボーナスを付与することを提案する。 この反例は理論的にこれら3つの問題に対処する。 画像分類, グラフ分類, 機械翻訳など, さまざまなタスクに対して, 理論結果を直接検証し, あるいは, 大幅な性能改善を行うことで, この主張を実証的に支持する。 さらに,本論文では,これらの3つの課題を解決できるため,不均衡な分類やOOD検出,敵攻撃時の応用など,複雑なシナリオに対処できることを示す。

The conventional wisdom behind learning deep classification models is to focus on bad-classified examples and ignore well-classified examples that are far from the decision boundary. For instance, when training with cross-entropy loss, examples with higher likelihoods (i.e., well-classified examples) contribute smaller gradients in back-propagation. However, we theoretically show that this common practice hinders representation learning, energy optimization, and the growth of margin. To counteract this deficiency, we propose to reward well-classified examples with additive bonuses to revive their contribution to learning. This counterexample theoretically addresses these three issues. We empirically support this claim by directly verify the theoretical results or through the significant performance improvement with our counterexample on diverse tasks, including image classification, graph classification, and machine translation. Furthermore, this paper shows that because our idea can solve these three issues, we can deal with complex scenarios, such as imbalanced classification, OOD detection, and applications under adversarial attacks.
翻訳日:2021-10-14 13:33:49 公開日:2021-10-13
# 皮質ニューロンのような軟XOR操作を学習する2関節活性化機能

Two-argument activation functions learn soft XOR operations like cortical neurons ( http://arxiv.org/abs/2110.06871v1 )

ライセンス: Link先を確認
Kijung Yoon, Emin Orhan, Juhyun Kim, Xaq Pitkow(参考訳) 脳内のニューロンは、非線形に相互作用する異なる機能的コンパートメントを持つ複雑な機械である。 対照的に、ニューラルネットワークのニューロンはこの複雑さを抽象化し、通常、重み付けされた入力の合計のスカラーアクティベーション関数に分解する。 ここでは、2つの入力引数で正準活性化関数を学習することで、より生物学的に現実的なニューロンをエミュレートする。 各ニューロンは2つの入力と1つの出力を持つ多層パーセプトロンとしてモデル化されるネットワーク・イン・ネットワークアーキテクチャを用いる。 この内部パーセプトロンは、外部ネットワーク内の全てのユニットによって共有される。 顕著なことに、結果として生じる非線形性は、ヒト大脳皮質ニューロンの入力間の相互作用に関する最近の実験結果と一致する、ソフトなXOR関数を確実に生成する。 ハイパーパラメータが最適化されると、これらの非線形性を持つネットワークは、パラメータ数が一致する従来のrelu非線形よりも高速に学習し、より優れた性能を発揮する。

Neurons in the brain are complex machines with distinct functional compartments that interact nonlinearly. In contrast, neurons in artificial neural networks abstract away this complexity, typically down to a scalar activation function of a weighted sum of inputs. Here we emulate more biologically realistic neurons by learning canonical activation functions with two input arguments, analogous to basal and apical dendrites. We use a network-in-network architecture where each neuron is modeled as a multilayer perceptron with two inputs and a single output. This inner perceptron is shared by all units in the outer network. Remarkably, the resultant nonlinearities reliably produce soft XOR functions, consistent with recent experimental observations about interactions between inputs in human cortical neurons. When hyperparameters are optimized, networks with these nonlinearities learn faster and perform better than conventional ReLU nonlinearities with matched parameter counts, and they are more robust to natural and adversarial perturbations.
翻訳日:2021-10-14 13:03:58 公開日:2021-10-13
# LENS:NeRF合成による局在増強

LENS: Localization enhanced by NeRF synthesis ( http://arxiv.org/abs/2110.06558v1 )

ライセンス: Link先を確認
Arthur Moreau, Nathan Piasco, Dzmitry Tsishkou, Bogdan Stanciulescu, Arnaud de La Fortelle(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は近年,新しいビュー合成の課題に対して,フォトリアリスティックな結果を示した。 本稿では,ロボット再局在問題に新しいビュー合成を適用し,NeRFクラスによる合成データセットの付加によるカメラポーズ回帰の改善を実証する。 無関係な場所での斬新なビューの発生を避けるため、シーンの3次元幾何学のNeRF内部表現から仮想カメラの位置を選択した。 さらに,訓練中のデータ増補として合成されたリアル画像と幾何画像を用いたポーズレグレッシャの位置推定精度の向上を行った。 出版時点では,cambridge landmarks と 7-scenes データセットの誤差が60%低減し,最先端技術の改善が図られた。 したがって、結果として得られる精度は、アーキテクチャの変更やドメイン適応の制約なしに、構造ベースのメソッドに匹敵する。 提案手法は,ほぼ無限のトレーニングデータを可能にするため,公開ベンチマークのトレーニングに使用されるデータのサイズや分布に応じてカメラのポーズ回帰の制限を検討した。 ポジショニングの精度は,ポジショニング課題を解決するためのポジショニング回帰モデルのキャパシティではなく,比較的小さく偏りのあるデータセットに大半は制限されていると結論づけた。

Neural Radiance Fields (NeRF) have recently demonstrated photo-realistic results for the task of novel view synthesis. In this paper, we propose to apply novel view synthesis to the robot relocalization problem: we demonstrate improvement of camera pose regression thanks to an additional synthetic dataset rendered by the NeRF class of algorithm. To avoid spawning novel views in irrelevant places we selected virtual camera locations from NeRF internal representation of the 3D geometry of the scene. We further improved localization accuracy of pose regressors using synthesized realistic and geometry consistent images as data augmentation during training. At the time of publication, our approach improved state of the art with a 60% lower error on Cambridge Landmarks and 7-scenes datasets. Hence, the resulting accuracy becomes comparable to structure-based methods, without any architecture modification or domain adaptation constraints. Since our method allows almost infinite generation of training data, we investigated limitations of camera pose regression depending on size and distribution of data used for training on public benchmarks. We concluded that pose regression accuracy is mostly bounded by relatively small and biased datasets rather than capacity of the pose regression model to solve the localization task.
翻訳日:2021-10-14 13:03:40 公開日:2021-10-13
# Common Fateによる教師なしオブジェクト学習

Unsupervised Object Learning via Common Fate ( http://arxiv.org/abs/2110.06562v1 )

ライセンス: Link先を確認
Matthias Tangemann, Steffen Schneider, Julius von K\"ugelgen, Francesco Locatello, Peter Gehler, Thomas Brox, Matthias K\"ummerer, Matthias Bethge, Bernhard Sch\"olkopf(参考訳) ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。 この問題を3つの簡単なサブタスクに分解し、それぞれに候補ソリューションを提供します。 ゲシュタルト心理学の共通の運命原理に触発され、まず、教師なしの運動分節によって動く物体の(ノイズの多い)マスクを抽出する。 第2に、生成モデルは、それぞれ背景のマスクと移動対象のマスクで訓練される。 第3に、背景モデルと前景モデルが条件付き「死葉」シーンモデルに組み合わされ、閉塞層と深さ層が自然に発生する新しいシーン構成をサンプリングする。 個々のステージを評価するために、複雑な実世界のシーンと単純なオブジェクトの共通のオブジェクト中心ベンチマークの間に位置するfishbowlデータセットを紹介する。 提案手法は,入力ビデオに含まれるオクルージョンを超えて一般化された生成モデルを学習し,トレーニングセットにないオブジェクト数や密度を許容することにより,トレーニング配信外の可視シーンをサンプリングするモジュール方式でシーンを表現可能であることを示す。

Learning generative object models from unlabelled videos is a long standing problem and required for causal scene modeling. We decompose this problem into three easier subtasks, and provide candidate solutions for each of them. Inspired by the Common Fate Principle of Gestalt Psychology, we first extract (noisy) masks of moving objects via unsupervised motion segmentation. Second, generative models are trained on the masks of the background and the moving objects, respectively. Third, background and foreground models are combined in a conditional "dead leaves" scene model to sample novel scene configurations where occlusions and depth layering arise naturally. To evaluate the individual stages, we introduce the Fishbowl dataset positioned between complex real-world scenes and common object-centric benchmarks of simplistic objects. We show that our approach allows learning generative models that generalize beyond the occlusions present in the input videos, and represent scenes in a modular fashion that allows sampling plausible scenes outside the training distribution by permitting, for instance, object numbers or densities not observed in the training set.
翻訳日:2021-10-14 13:03:17 公開日:2021-10-13
# ActiveEA: ニューラルエンティティアライメントのためのアクティブラーニング

ActiveEA: Active Learning for Neural Entity Alignment ( http://arxiv.org/abs/2110.06474v1 )

ライセンス: Link先を確認
Bing Liu, Harrisen Scells, Guido Zuccon, Wen Hua, Genghong Zhao(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)間で同等のエンティティをマッチングすることを目的としており、KG融合の重要なステップである。 現在の主流の手法 -- ニューラルeaモデル -- はシードアライメントによるトレーニング、すなわちアノテーションに非常に費用がかかる事前アライメントエンティティペアに依存しています。 本稿では、より効果的なEAモデルを得るために、高情報性の高いシードアライメントを構築することを目的とした、ニューラルEAのための新しいアクティブラーニング(AL)フレームワークを考案する。 当社のフレームワークは, ALをEAに適用する際の2つの大きな課題に対処する。 ほとんどのal戦略では、サンプルするデータインスタンスは独立して分散していると仮定している。 しかし、KGsの実体は関連している。 この課題に対処するため,KGにおける各エンティティの不確実性だけでなく,近隣エンティティへの影響も測定できる構造対応型不確実性サンプリング戦略を提案する。 2)一方のKGに現れるが他方のKGには存在しない実体(すなわち、学士)をどう認識するか。 独身者を特定することは、アノテーションの予算を節約するだろう。 この課題に対処するために、サンプリングバイアスの効果を緩和するために注意を払う独身認識器を考案する。 実験結果から,提案したAL戦略は,異なるデータセット,EAモデル,ベキラー量にまたがって,サンプリング品質を向上できることが示された。

Entity Alignment (EA) aims to match equivalent entities across different Knowledge Graphs (KGs) and is an essential step of KG fusion. Current mainstream methods -- neural EA models -- rely on training with seed alignment, i.e., a set of pre-aligned entity pairs which are very costly to annotate. In this paper, we devise a novel Active Learning (AL) framework for neural EA, aiming to create highly informative seed alignment to obtain more effective EA models with less annotation cost. Our framework tackles two main challenges encountered when applying AL to EA: (1) How to exploit dependencies between entities within the AL strategy. Most AL strategies assume that the data instances to sample are independent and identically distributed. However, entities in KGs are related. To address this challenge, we propose a structure-aware uncertainty sampling strategy that can measure the uncertainty of each entity as well as its impact on its neighbour entities in the KG. (2) How to recognise entities that appear in one KG but not in the other KG (i.e., bachelors). Identifying bachelors would likely save annotation budget. To address this challenge, we devise a bachelor recognizer paying attention to alleviate the effect of sampling bias. Empirical results show that our proposed AL strategy can significantly improve sampling quality with good generality across different datasets, EA models and amount of bachelors.
翻訳日:2021-10-14 13:02:56 公開日:2021-10-13
# L-無限距離ネットの認証ロバスト性向上

Boosting the Certified Robustness of L-infinity Distance Nets ( http://arxiv.org/abs/2110.06850v1 )

ライセンス: Link先を確認
Bohang Zhang, Du Jiang, Di He, Liwei Wang(参考訳) Zhang et al. (2021)は、$\ell_\infty$-distan ce関数に基づく新しいニューラルネットワークアーキテクチャを開発した。 優れた理論的特性にもかかわらず、これまでのモデルでは従来のネットワークと同等の性能しか達成できない。 本稿では,そのトレーニングプロセスの注意深い解析により,$\ell_\infty$-dista nce netの信頼性を著しく向上する。 特に、モデルの非滑らかさを克服する重要な方法である$\ell_p$-relaxationが、初期のトレーニング段階で予期せぬ大きなリプシッツ定数をもたらすことを示している。 これにより、ヒンジ損失による最適化が不十分になり、準最適解が生成される。 そこで本研究では, スケールドクロスエントロピー損失とクリップングヒンジ損失を組み合わせた新しい目的関数を用いて, 上記の問題に対処するための簡易な手法を提案する。 実験では,提案手法を用いて,cifar-10 (\epsilon=8/255$) の認証精度を33.30%から40.06%まで劇的に向上させることができた。 このような結果は、証明された堅牢性に対する$\ell_\infty$-distan ce netの有効性と可能性を明確に示している。

Recently, Zhang et al. (2021) developed a new neural network architecture based on $\ell_\infty$-distan ce functions, which naturally possesses certified robustness by its construction. Despite the excellent theoretical properties, the model so far can only achieve comparable performance to conventional networks. In this paper, we significantly boost the certified robustness of $\ell_\infty$-distan ce nets through a careful analysis of its training process. In particular, we show the $\ell_p$-relaxation, a crucial way to overcome the non-smoothness of the model, leads to an unexpected large Lipschitz constant at the early training stage. This makes the optimization insufficient using hinge loss and produces sub-optimal solutions. Given these findings, we propose a simple approach to address the issues above by using a novel objective function that combines a scaled cross-entropy loss with clipped hinge loss. Our experiments show that using the proposed training strategy, the certified accuracy of $\ell_\infty$-distan ce net can be dramatically improved from 33.30% to 40.06% on CIFAR-10 ($\epsilon=8/255$), meanwhile significantly outperforming other approaches in this area. Such a result clearly demonstrates the effectiveness and potential of $\ell_\infty$-distan ce net for certified robustness.
翻訳日:2021-10-14 12:55:59 公開日:2021-10-13
# 深層学習を用いたスペイン語のフェイクニュース検出

Fake News Detection in Spanish Using Deep Learning Techniques ( http://arxiv.org/abs/2110.06461v1 )

ライセンス: Link先を確認
Kevin Mart\'inez-Gallego, Andr\'es M. \'Alvarez-Ortiz, Juli\'an D. Arias-Londo\~no(参考訳) 本稿では,機械学習を用いたスペイン語における偽ニュース検出の問題に対処する。 基本的には英語に当てはまるのと同じ問題であるが、英語で提案されているような機械学習モデルを効果的に訓練するために、スペイン語で公開され、適切にラベル付けされたフェイクニュースは多くはない。 そこで本研究では,この領域におけるさらなる研究の基盤となるトレーニング戦略とアーキテクチャについて検討する。 4つのデータセットが使用されており、2つは英語、2つはスペイン語で、2つはスペイン語で、2つの実験的なスキームがテストされた。 残りの計画には、訓練された(あるいは微調整された)最先端のディープラーニングモデルが含まれ、英語で検証され、スペイン語で訓練、検証され、英語で適合し、自動翻訳されたスペイン語文で検証される。 Deep Learningアーキテクチャは、GloVe、ELMo、BERT、BETO(スペイン語で大規模コーパスでトレーニングされたBERTバージョン)など、事前訓練済みのWord Embedding表現の上に構築された。 その結果,事前学習したBETOモデルとLSTM層に基づくリカレントニューラルネットワークを組み合わせることで,最大80%の精度が得られるが,ランダムフォレスト推定器を用いたベースラインモデルも同様の結果を得た。 さらに、翻訳戦略は伝播誤差のために許容できる結果を得られなかったが、英語やスペイン語で訓練された場合、主に各言語で利用可能なサンプルの数に起因するモデル性能に有意な差が見られた。

This paper addresses the problem of fake news detection in Spanish using Machine Learning techniques. It is fundamentally the same problem tackled for the English language; however, there is not a significant amount of publicly available and adequately labeled fake news in Spanish to effectively train a Machine Learning model, similarly to those proposed for the English language. Therefore, this work explores different training strategies and architectures to establish a baseline for further research in this area. Four datasets were used, two in English and two in Spanish, and four experimental schemes were tested, including a baseline with classical Machine Learning models, trained and validated using a small dataset in Spanish. The remaining schemes include state-of-the-art Deep Learning models trained (or fine-tuned) and validated in English, trained and validated in Spanish, and fitted in English and validated with automatic translated Spanish sentences. The Deep Learning architectures were built on top of different pre-trained Word Embedding representations, including GloVe, ELMo, BERT, and BETO (a BERT version trained on a large corpus in Spanish). According to the results, the best strategy was a combination of a pre-trained BETO model and a Recurrent Neural Network based on LSTM layers, yielding an accuracy of up to 80%; nonetheless, a baseline model using a Random Forest estimator obtained similar outcomes. Additionally, the translation strategy did not yield acceptable results because of the propagation error; there was also observed a significant difference in models performance when trained in English or Spanish, mainly attributable to the number of samples available for each language.
翻訳日:2021-10-14 12:55:23 公開日:2021-10-13
# 言語モデルの個人差分微調整

Differentially Private Fine-tuning of Language Models ( http://arxiv.org/abs/2110.06500v1 )

ライセンス: Link先を確認
Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A. Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang(参考訳) 多くの標準NLPタスクにおいて、最先端のプライバシ対ユーティリティトレードオフを実現するため、大規模事前訓練言語モデルのより単純で、スペーサーで、より高速なアルゴリズムを提供する。 本稿では,近年のパラメータ効率の高い微調整手法の成功に触発された,この問題に対するメタフレームワークを提案する。 実験の結果,これらの手法は,実用性,プライバシ,プライベートトレーニングの計算コスト,メモリコストという3つの重要な次元において,従来のプライベートアルゴリズムを上回っていることがわかった。 多くのよく研究されているデータセットにおいて、プライベートモデルの有用性は非プライベートモデルにアプローチする。 例えば、MNLIデータセットでは、RoBERTa-Largeを使用すると87.8\%、RoBERTa-Baseを使用すると83.5\%、プライバシー予算が$\epsilon = 6.7$となる。 一方、プライバシーの制約がないため、RoBERTa-Largeの精度は90.2\%である。 私たちの発見は自然言語生成タスクに似ています。 DART、GPT-2-Small、GPT-2-Medium、GPT-2-Large、GPT-2-XLはそれぞれ38.5、42.0、43.1、43.8(民間予算は$\epsilon = 6.8,\delta=$ 1e-5)のBLEUスコアを得る。 当社の実験はすべて、大きなモデルの方がプライベートな微調整に適していることを示唆しています。

We give simpler, sparser, and faster algorithms for differentially private fine-tuning of large-scale pre-trained language models, which achieve the state-of-the-art privacy versus utility tradeoffs on many standard NLP tasks. We propose a meta-framework for this problem, inspired by the recent success of highly parameter-efficient methods for fine-tuning. Our experiments show that differentially private adaptations of these approaches outperform previous private algorithms in three important dimensions: utility, privacy, and the computational and memory cost of private training. On many commonly studied datasets, the utility of private models approaches that of non-private models. For example, on the MNLI dataset we achieve an accuracy of $87.8\%$ using RoBERTa-Large and $83.5\%$ using RoBERTa-Base with a privacy budget of $\epsilon = 6.7$. In comparison, absent privacy constraints, RoBERTa-Large achieves an accuracy of $90.2\%$. Our findings are similar for natural language generation tasks. Privately fine-tuning with DART, GPT-2-Small, GPT-2-Medium, GPT-2-Large, and GPT-2-XL achieve BLEU scores of 38.5, 42.0, 43.1, and 43.8 respectively (privacy budget of $\epsilon = 6.8,\delta=$ 1e-5) whereas the non-private baseline is $48.1$. All our experiments suggest that larger models are better suited for private fine-tuning: while they are well known to achieve superior accuracy non-privately, we find that they also better maintain their accuracy when privacy is introduced.
翻訳日:2021-10-14 12:54:55 公開日:2021-10-13
# 再利用変圧器における冗長性活用

Leveraging redundancy in attention with Reuse Transformers ( http://arxiv.org/abs/2110.06821v1 )

ライセンス: Link先を確認
Srinadh Bhojanapalli, Ayan Chakrabarti, Andreas Veit, Michal Lukasik, Himanshu Jain, Frederick Liu, Yin-Wen Chang, Sanjiv Kumar(参考訳) ペアワイズドット製品ベースの注意は、トランスフォーマーが入力に依存した方法でトークン間の情報交換を可能にし、言語とビジョンのさまざまなアプリケーションでの成功の鍵となる。 しかし、典型的なトランスフォーマーモデルでは、複数のレイヤの複数のヘッドにおいて、同じシーケンスに対して繰り返しペアワイズアテンションスコアを計算する。 我々はこれらのスコアの頭や層間の経験的類似性を体系的に分析し、それらがかなり冗長であることを示す。 そこで本研究では,複数の層で計算された注意点を再利用する新しいアーキテクチャを提案する。 多くの標準ベンチマークの実験では、注意の再利用は標準的なトランスフォーマーと同等以上のパフォーマンスを提供すると同時に、計算とメモリ使用量の削減を図っている。

Pairwise dot product-based attention allows Transformers to exchange information between tokens in an input-dependent way, and is key to their success across diverse applications in language and vision. However, a typical Transformer model computes such pairwise attention scores repeatedly for the same sequence, in multiple heads in multiple layers. We systematically analyze the empirical similarity of these scores across heads and layers and find them to be considerably redundant, especially adjacent layers showing high similarity. Motivated by these findings, we propose a novel architecture that reuses attention scores computed in one layer in multiple subsequent layers. Experiments on a number of standard benchmarks show that reusing attention delivers performance equivalent to or better than standard transformers, while reducing both compute and memory usage.
翻訳日:2021-10-14 12:54:25 公開日:2021-10-13
# (参考訳) SEPP: 逆文の保存・検出のための予測確率の類似性推定 [全文訳有]

SEPP: Similarity Estimation of Predicted Probabilities for Defending and Detecting Adversarial Text ( http://arxiv.org/abs/2110.05748v2 )

ライセンス: CC BY 4.0
Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto(参考訳) 分類器が入力テキストをどのように処理するか、すなわち誤分類と正しい分類の2つのケースがある。 誤分類されたテキストの観点では、分類器は不正な予測と敵対的なテキストの両方でテキストを扱い、分類器を騙すために生成される。 どちらのタイプも被害者によって誤解されているが、他の分類器でも認識できる。 これにより、被害者と他の分類器の間の予測確率に大きなギャップが生じる。 対照的に、被害者によって正しく分類されたテキストは、しばしば他人によって予測され、小さなギャップを生じさせる。 本稿では,予測確率の類似度推定(sepp)に基づくアンサンブルモデルを提案する。 SEPPは、誤分類されたテキストの誤った予測を修正する。 各種の被害者分類器、分類タスク、敵攻撃による敵対的テキストの保護・検出におけるSEPPのレジリエンスを実証する。

There are two cases describing how a classifier processes input text, namely, misclassification and correct classification. In terms of misclassified texts, a classifier handles the texts with both incorrect predictions and adversarial texts, which are generated to fool the classifier, which is called a victim. Both types are misunderstood by the victim, but they can still be recognized by other classifiers. This induces large gaps in predicted probabilities between the victim and the other classifiers. In contrast, text correctly classified by the victim is often successfully predicted by the others and induces small gaps. In this paper, we propose an ensemble model based on similarity estimation of predicted probabilities (SEPP) to exploit the large gaps in the misclassified predictions in contrast to small gaps in the correct classification. SEPP then corrects the incorrect predictions of the misclassified texts. We demonstrate the resilience of SEPP in defending and detecting adversarial texts through different types of victim classifiers, classification tasks, and adversarial attacks.
翻訳日:2021-10-14 11:47:16 公開日:2021-10-13
# (参考訳) CTC-Prefixesを用いたテキスト行認識のための系列列列モデル [全文訳有]

Rescoring Sequence-to-Sequence Models for Text Line Recognition with CTC-Prefixes ( http://arxiv.org/abs/2110.05909v2 )

ライセンス: CC BY 4.0
Christoph Wick and Jochen Z\"ollner and Tobias Gr\"uning(参考訳) 接続主義時相分類(ctc)のアプローチとは対照的に、手書きテキスト認識(htr)のためのsequence-to-sequence (s2s)モデルは、シーケンスの最後にしばしば発生するスキップや繰り返しといったエラーに苦しむ。 本稿では,S2S復号時にCTC-Prefix-Scoreを用いることを提案する。 これにより、ビーム探索中に、CTC信頼行列に従って無効となるパスがペナルティ化される。 我々のネットワークアーキテクチャは、視覚バックボーンとしての畳み込みニューラルネットワーク(CNN)、エンコーダとしての双方向長短メモリセル(LSTM)、相互注意層を挿入したトランスフォーマーであるデコーダで構成される。 CTC信頼度はエンコーダ上で計算され、トランスフォーマーは文字単位のS2Sデコードにのみ使用される。 IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。 IAMでは、合成データに基づく事前学習を行い、現代英語の文字ベース言語モデルを含む場合、2.95%の競合的文字誤り率(CER)を達成する。 他の最先端手法と比較して、我々のモデルはパラメーターを10~20倍少なくする必要がある。 GitHubへのこのリンクを通じて、共有実装にアクセスしてください。

In contrast to Connectionist Temporal Classification (CTC) approaches, Sequence-To-Sequence (S2S) models for Handwritten Text Recognition (HTR) suffer from errors such as skipped or repeated words which often occur at the end of a sequence. In this paper, to combine the best of both approaches, we propose to use the CTC-Prefix-Score during S2S decoding. Hereby, during beam search, paths that are invalid according to the CTC confidence matrix are penalised. Our network architecture is composed of a Convolutional Neural Network (CNN) as visual backbone, bidirectional Long-Short-Term-Memo ry-Cells (LSTMs) as encoder, and a decoder which is a Transformer with inserted mutual attention layers. The CTC confidences are computed on the encoder while the Transformer is only used for character-wise S2S decoding. We evaluate this setup on three HTR data sets: IAM, Rimes, and StAZH. On IAM, we achieve a competitive Character Error Rate (CER) of 2.95% when pretraining our model on synthetic data and including a character-based language model for contemporary English. Compared to other state-of-the-art approaches, our model requires about 10-20 times less parameters. Access our shared implementations via this link to GitHub: https://github.com/P lanet-AI-GmbH/tfaip- hybrid-ctc-s2s.
翻訳日:2021-10-14 11:35:26 公開日:2021-10-13
# (参考訳) CLIP4Caption ++: ビデオキャプチャ用のマルチCLIP [全文訳有]

CLIP4Caption ++: Multi-CLIP for Video Caption ( http://arxiv.org/abs/2110.05204v2 )

ライセンス: CC BY 4.0
Mingkang Tang, Zhanyu Wang, Zhaoyang Zeng, Fengyun Rao, Dian Li(参考訳) 本報告では,キャプションタスクにおけるVALUE Challenge 2021に対するソリューションについて述べる。 私たちのソリューションはCLIP4Caption++と呼ばれ、エンコーダデコーダアーキテクチャを備えた高度なモデルであるX-Linear/X-Transform er上に構築されています。 提案する clip4caption++ では,次のような改善がなされています。 先進的なエンコーダ-デコーダモデルアーキテクチャ x-transformer をメインフレームワークとして採用し,次のような改善を行っています。 1) 3つの強化されたCLIPモデルを用いて,テキスト関連視覚特徴を抽出する。 2)データ強化にはTSNサンプリング戦略を採用する。 3)よりリッチな意味情報を提供するために,ビデオ字幕情報を含む。 3) 視覚的特徴と融合した字幕情報を導入する。 4)単語レベルおよび文レベルのアンサンブル戦略を設計する。 提案手法は,VATEX,YC2C,TVCの各データセットに対して,86.5,148.4,64.5 CIDErスコアを達成し,提案したCLIP4Caption++の3つのデータセットに対して,優れた性能を示す。

This report describes our solution to the VALUE Challenge 2021 in the captioning task. Our solution, named CLIP4Caption++, is built on X-Linear/X-Transform er, which is an advanced model with encoder-decoder architecture. We make the following improvements on the proposed CLIP4Caption++: We employ an advanced encoder-decoder model architecture X-Transformer as our main framework and make the following improvements: 1) we utilize three strong pre-trained CLIP models to extract the text-related appearance visual features. 2) we adopt the TSN sampling strategy for data enhancement. 3) we involve the video subtitle information to provide richer semantic information. 3) we introduce the subtitle information, which fuses with the visual features as guidance. 4) we design word-level and sentence-level ensemble strategies. Our proposed method achieves 86.5, 148.4, 64.5 CIDEr scores on VATEX, YC2C, and TVC datasets, respectively, which shows the superior performance of our proposed CLIP4Caption++ on all three datasets.
翻訳日:2021-10-14 11:21:57 公開日:2021-10-13
# LaoPLM: Laoの事前トレーニング言語モデル

LaoPLM: Pre-trained Language Models for Lao ( http://arxiv.org/abs/2110.05896v2 )

ライセンス: Link先を確認
Nankai Lin and Yingwen Fu and Chuwei Chen and Ziyu Yang and Shengyi Jiang(参考訳) 大規模なコーパスで訓練されたプレトレーニング言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。 複数の下流自然言語処理(NLP)タスクの恩恵を受けることができる。 PTMは、ほとんどのNLPアプリケーション、特に英語などの高リソース言語で広く使われているが、Lao NLP研究ではあまり使われていない。 laoの以前の作業は、注釈付きデータセットの欠如と言語リソースのスパースによって妨げられている。 本研究では,lao言語の資源管理状況を軽減するために,テキスト分類データセットを構築する。 さらに, BERT-small, BERT-base, ELECTRA-small, ELECTRA-baseの4つのバージョンを持つLao用のトランスフォーマーベースのPTMを提示し, 音声タグ付けとテキスト分類という2つの下流タスクで評価する。 実験はlaoモデルの有効性を示す。 私たちは、Lao NLPアプリケーションの今後の開発を促進するために、モデルとデータセットをコミュニティにリリースします。

Trained on the large corpus, pre-trained language models (PLMs) can capture different levels of concepts in context and hence generate universal language representations. They can benefit multiple downstream natural language processing (NLP) tasks. Although PTMs have been widely used in most NLP applications, especially for high-resource languages such as English, it is under-represented in Lao NLP research. Previous work on Lao has been hampered by the lack of annotated datasets and the sparsity of language resources. In this work, we construct a text classification dataset to alleviate the resource-scare situation of the Lao language. We additionally present the first transformer-based PTMs for Lao with four versions: BERT-small, BERT-base, ELECTRA-small and ELECTRA-base, and evaluate it over two downstream tasks: part-of-speech tagging and text classification. Experiments demonstrate the effectiveness of our Lao models. We will release our models and datasets to the community, hoping to facilitate the future development of Lao NLP applications.
翻訳日:2021-10-14 11:16:32 公開日:2021-10-13
# KBQAにおける意味解析のためのプログラム転送とオントロジー

Program Transfer and Ontology Awareness for Semantic Parsing in KBQA ( http://arxiv.org/abs/2110.05743v2 )

ライセンス: Link先を確認
Shulin Cao, Jiaxin Shi, Zijun Yao, Lei Hou, Juanzi Li, Jinghui Xiao(参考訳) KBQAの意味解析は、自然言語の質問を論理形式に解析することを目的としており、知識ベースに対する実行は答えを生み出す。 質問と回答のペアからセマンティックパーサーを学習するには、答えに整合した論理形式の巨大な空間を探索する必要がある。 現在の手法では、検索空間を減らすために様々な事前知識やエンティティレベルのkb制約を利用する。 本稿では,外部論理形アノテーションとオントロジレベルの制約から,初めて事前知識を検討する。 プログラム転送のための階層的アーキテクチャを設計し,探索空間を削減するためのオントロジー誘導プルーニングアルゴリズムを提案する。 コンプレックス・ウェブ・クエスト(complexwebquestion) の実験により、この手法は最先端のf1スコアを44.0%から58.7%に改善し、絶対的なゲインは14.7%となり、プログラムの転送とオントロジーの認識の有効性が示された。

Semantic parsing in KBQA aims to parse natural language questions into logical forms, whose execution against a knowledge base produces answers. Learning semantic parsers from question-answer pairs requires searching over a huge space of logical forms for ones consistent with answers. Current methods utilize various prior knowlege or entity-level KB constraints to reduce the search space. In this paper, we investigate for the first time prior knowledge from external logical form annotations and ontology-level constraints. We design a hierarchical architecture for program transfer, and propose an ontology-guided pruning algorithm to reduce the search space. The experiments on ComplexWebQuestions show that our method improves the state-of-the-art F1 score from 44.0% to 58.7%, with an absolute gain of 14.7%, which demonstrates the effectiveness of program transfer and ontology awareness.
翻訳日:2021-10-14 11:16:11 公開日:2021-10-13
# 半自己回帰画像キャプション

Semi-Autoregressive Image Captioning ( http://arxiv.org/abs/2110.05342v2 )

ライセンス: Link先を確認
Xu Yan, Zhengcong Fei, Zekang Li, Shuhui Wang, Qingming Huang, Qi Tian(参考訳) 画像キャプションに関する現在の最先端のアプローチでは、一般的には自己回帰的な方法、すなわち単語毎の記述を生成する方法が採用されている。 文生成のシーケンシャルな依存を排除し、連続的な反復洗練を伴う非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。 それでも、十分に設計された実験に基づいて、言語デコーダに十分な事前知識を提供することで、繰り返し時間を効果的に削減できることを実証的に証明した。 そこで我々は,SAIC(Semi-Autoregre ssive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案し,性能と速度のトレードオフを改善する。 提案するsaicモデルは自己回帰特性をグローバルに維持するが,局所的に緩和する。 特に、saicモデルは、最初に自制的な方法で断続的なシーケンスを生成し、すなわち、各単語群における最初の単語を順番に予測する。 そして、部分決定論的事前情報と画像特徴の助けを借りて、SAICモデルはスキップされたすべての単語を1回で非自己回帰的に満たす。 MS COCOベンチマークによる実験結果から,SAICモデルは先行する非自己回帰画像キャプションモデルより優れ,競争速度は向上した。 コードはhttps://github.com/f eizc/SAICで入手できる。

Current state-of-the-art approaches for image captioning typically adopt an autoregressive manner, i.e., generating descriptions word by word, which suffers from slow decoding issue and becomes a bottleneck in real-time applications. Non-autoregressive image captioning with continuous iterative refinement, which eliminates the sequential dependence in a sentence generation, can achieve comparable performance to the autoregressive counterparts with a considerable acceleration. Nevertheless, based on a well-designed experiment, we empirically proved that iteration times can be effectively reduced when providing sufficient prior knowledge for the language decoder. Towards that end, we propose a novel two-stage framework, referred to as Semi-Autoregressive Image Captioning (SAIC), to make a better trade-off between performance and speed. The proposed SAIC model maintains autoregressive property in global but relieves it in local. Specifically, SAIC model first jumpily generates an intermittent sequence in an autoregressive manner, that is, it predicts the first word in every word group in order. Then, with the help of the partially deterministic prior information and image features, SAIC model non-autoregressively fills all the skipped words with one iteration. Experimental results on the MS COCO benchmark demonstrate that our SAIC model outperforms the preceding non-autoregressive image captioning models while obtaining a competitive inference speedup. Code is available at https://github.com/f eizc/SAIC.
翻訳日:2021-10-14 11:15:55 公開日:2021-10-13
# カーネル拡散を用いた密度ベースクラスタリング

Density-Based Clustering with Kernel Diffusion ( http://arxiv.org/abs/2110.05096v2 )

ライセンス: Link先を確認
Chao Zheng, Yingjie Chen, Chong Chen, Jianqiang Huang, Xian-Sheng Hua(参考訳) DBSCANやDPCのような密度に基づくクラスタリングアルゴリズムには,適切な密度関数の探索が不可欠である。 これらのアルゴリズムでは、単位 $d$-次元ユークリッド球の表示関数に対応するナイーブ密度が一般的に用いられる。 このような密度は、複雑なデータセットの局所的な特徴を捉えるのに苦しむ。 そこで本研究では,局所分布特性と滑らかさの異なるデータに適応した新しい核拡散密度関数を提案する。 さらに,線形時間と空間で効率的に計算できるサロゲートを開発し,核拡散密度関数に漸近同値であることを証明した。 ベンチマークおよび大規模顔画像データセットに関する広範囲な実験により、提案手法は従来の密度ベースのクラスタリングアルゴリズムよりも大幅に改善されるだけでなく、最先端の顔クラスタリング手法を大きなマージンで上回っていることが示された。

Finding a suitable density function is essential for density-based clustering algorithms such as DBSCAN and DPC. A naive density corresponding to the indicator function of a unit $d$-dimensional Euclidean ball is commonly used in these algorithms. Such density suffers from capturing local features in complex datasets. To tackle this issue, we propose a new kernel diffusion density function, which is adaptive to data of varying local distributional characteristics and smoothness. Furthermore, we develop a surrogate that can be efficiently computed in linear time and space and prove that it is asymptotically equivalent to the kernel diffusion density function. Extensive empirical experiments on benchmark and large-scale face image datasets show that the proposed approach not only achieves a significant improvement over classic density-based clustering algorithms but also outperforms the state-of-the-art face clustering methods by a large margin.
翻訳日:2021-10-14 11:15:30 公開日:2021-10-13
# Robust Glare Detection: レビュー、分析、データセットのリリース

Robust Glare Detection: Review, Analysis, and Dataset Release ( http://arxiv.org/abs/2110.06006v2 )

ライセンス: Link先を確認
Mahdi Abolfazli Esfahani, Han Wang(参考訳) 太陽の輝きは、屋外環境での無人地上と航空機で撮影された画像に広く存在する。 画像にそのようなアーティファクトが存在することは、誤った特徴抽出と自律システムの失敗をもたらす。 人間は(特に運転中に)輝きを観測すると自分の見解を適応させようとし、この行動は次世代の自動運転車にとって必須の要件である。 日光源は太陽に限らず、夜の間に撮影された画像や屋内環境では、異なる光源が存在するため、月光が見え、反射面はそのような人工物の生成にも影響を及ぼす。 グラアの視覚特性は様々なカメラで撮影された画像によって異なり、カメラのシャッター速度や露出レベルといったいくつかの要因に依存する。 したがって、様々な撮像画像でうまく機能するグラア検出のための汎用的、ロバストで正確なアルゴリズムを導入することは困難である。 本研究は,異なるカメラで撮影された画像を含む,グラア検出のための最初のデータセットの導入を目的としている。 さらに,提案したディープネットワークアーキテクチャを用いて,複数の画像表現とその組み合わせがグラア検出に与える影響について検討した。 リリースされたデータセットはhttps://github.com/m aesfahani/glaredetec tionで利用可能である。

Sun Glare widely exists in the images captured by unmanned ground and aerial vehicles performing in outdoor environments. The existence of such artifacts in images will result in wrong feature extraction and failure of autonomous systems. Humans will try to adapt their view once they observe a glare (especially when driving), and this behavior is an essential requirement for the next generation of autonomous vehicles. The source of glare is not limited to the sun, and glare can be seen in the images captured during the nighttime and in indoor environments, which is due to the presence of different light sources; reflective surfaces also influence the generation of such artifacts. The glare's visual characteristics are different on images captured by various cameras and depend on several factors such as the camera's shutter speed and exposure level. Hence, it is challenging to introduce a general - robust and accurate - algorithm for glare detection that can perform well in various captured images. This research aims to introduce the first dataset for glare detection, which includes images captured by different cameras. Besides, the effect of multiple image representations and their combination in glare detection is examined using the proposed deep network architecture. The released dataset is available at https://github.com/m aesfahani/glaredetec tion
翻訳日:2021-10-14 11:15:16 公開日:2021-10-13