このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220205となっている論文です。

PDF登録状況(公開日: 20220205)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 双極性障害における自動マニア評価のための音声分析 [全文訳有]

Speech Analysis for Automatic Mania Assessment in Bipolar Disorder ( http://arxiv.org/abs/2202.06766v1 )

ライセンス: CC BY 4.0
P{\i}nar Baki, Heysem Kaya, Elvan \c{C}ift\c{c}i, H\"useyin G\"ule\c{c}, Albert Ali Salah(参考訳) 双極性障害 (bipolar disorder) は、うつ病やうつ病を発症する精神疾患である。 本研究は,7つのタスクを含む双極性障害コーパスからの録音を,音声特徴のみを用いて,低マニア,マニア,リミッションクラスに分類する。 面接から分割した課題について実験を行う。 6番目のタスクと7番目のタスクで訓練されたモデルで得られた最良の結果は、コーパスのベースライン結果よりも高い0.53 UAR結果を与える。

Bipolar disorder is a mental disorder that causes periods of manic and depressive episodes. In this work, we classify recordings from Bipolar Disorder corpus that contain 7 different tasks, into hypomania, mania, and remission classes using only speech features. We perform our experiments on splitted tasks from the interviews. Best results achieved on the model trained with 6th and 7th tasks together gives 0.53 UAR (unweighted average recall) result which is higher than the baseline results of the corpus.
翻訳日:2022-02-20 17:38:41 公開日:2022-02-05
# (参考訳) Q-Network表現を用いた行動空間の伝達強化学習 [全文訳有]

Transfer Reinforcement Learning for Differing Action Spaces via Q-Network Representations ( http://arxiv.org/abs/2202.02442v1 )

ライセンス: CC BY 4.0
Nathan Beck, Abhiramon Rajasekharan, Trung Hieu Tran(参考訳) 強化学習における伝達学習のアプローチは、類似のソースドメインで訓練された他のエージェントから学んだ知識を活用することで、ターゲットドメインを学習するエージェントを支援することを目的としている。 例えば、この分野における最近の研究は、トランジッションダイナミクスと報酬関数が異なるタスク間の知識転送に置かれているが、異なるアクション空間を持つタスク間の知識転送にはほとんど焦点が当てられていない。 本稿では,行動空間が異なる領域間での伝達学習の課題にアプローチする。 本稿では,離散空間と連続作用空間の両方を持つ領域に適用可能なソース埋め込み類似性に基づく報酬整形法を提案する。 本手法の有効性はacrobot-v1ドメインとpendulum-v0ドメイン(brockman et al. 2016)の制限された動作空間への移動において評価される。 2つのベースラインとの比較により、本手法は、これらの連続的なアクション空間においてこれらのベースラインを上回らないが、これらの離散的なアクション空間の改善を示す。 我々はこの研究の今後の方向性で分析を終える。

Transfer learning approaches in reinforcement learning aim to assist agents in learning their target domains by leveraging the knowledge learned from other agents that have been trained on similar source domains. For example, recent research focus within this space has been placed on knowledge transfer between tasks that have different transition dynamics and reward functions; however, little focus has been placed on knowledge transfer between tasks that have different action spaces. In this paper, we approach the task of transfer learning between domains that differ in action spaces. We present a reward shaping method based on source embedding similarity that is applicable to domains with both discrete and continuous action spaces. The efficacy of our approach is evaluated on transfer to restricted action spaces in the Acrobot-v1 and Pendulum-v0 domains (Brockman et al. 2016). A comparison with two baselines shows that our method does not outperform these baselines in these continuous action spaces but does show an improvement in these discrete action spaces. We conclude our analysis with future directions for this work.
翻訳日:2022-02-13 17:25:04 公開日:2022-02-05
# (参考訳) 網膜モデルの機能評価のための機械学習手法 [全文訳有]

Machine Learning Method for Functional Assessment of Retinal Models ( http://arxiv.org/abs/2202.02443v1 )

ライセンス: CC BY 4.0
Nikolas Papadopoulos, Nikos Melanitis, Antonio Lozano, Cristina Soto-Sanchez, Eduardo Fernandez, Konstantina S Nikita(参考訳) 網膜補綴の分野における課題は、網膜ガングリオン細胞(RGC)の反応を正確にシミュレートする網膜モデルの開発を動機付けている。 網膜補綴の目標は、視覚障害者が複雑な実際の視覚タスクを解決できるようにすることである。 本稿では,視覚的理解タスクにおいて網膜モデルの性能を評価する概念である網膜モデルの機能評価(FA)について述べる。 我々は、従来の機械学習分類器に網膜モデルによって生成されたRCC応答を供給し、オブジェクトおよびデジタル認識タスク(CIFAR-10, MNIST, Fashion MNIST, Imagenette)を解決する。 FAの性能がタスクにどのように依存するか、分類器にRGC応答を最適に供給する方法、出力ニューロン数がモデルの精度とどのように相関するかなど、FAの重要な側面について検討した。 出力ニューロンの数を増やすために,網膜モデルに分割して供給することで,入力画像の操作を行い,画像分割がモデルの精度を著しく向上しないことがわかった。 また,データセットの構造の違いにより,網膜モデルの性能が大きく異なっていた(mnist と fashion mnist は80%以上,cifar-10 と imagenette は40%)。 さらに、標準評価において、より正確にRGC応答を予測し、FAでもより良い性能を発揮する網膜モデルも実現している。 しかし、標準的な評価とは異なり、FAの結果は視覚知覚の質を比較する文脈で直接解釈することができる。

Challenges in the field of retinal prostheses motivate the development of retinal models to accurately simulate Retinal Ganglion Cells (RGCs) responses. The goal of retinal prostheses is to enable blind individuals to solve complex, reallife visual tasks. In this paper, we introduce the functional assessment (FA) of retinal models, which describes the concept of evaluating the performance of retinal models on visual understanding tasks. We present a machine learning method for FA: we feed traditional machine learning classifiers with RGC responses generated by retinal models, to solve object and digit recognition tasks (CIFAR-10, MNIST, Fashion MNIST, Imagenette). We examined critical FA aspects, including how the performance of FA depends on the task, how to optimally feed RGC responses to the classifiers and how the number of output neurons correlates with the model's accuracy. To increase the number of output neurons, we manipulated input images - by splitting and then feeding them to the retinal model and we found that image splitting does not significantly improve the model's accuracy. We also show that differences in the structure of datasets result in largely divergent performance of the retinal model (MNIST and Fashion MNIST exceeded 80% accuracy, while CIFAR-10 and Imagenette achieved ~40%). Furthermore, retinal models which perform better in standard evaluation, i.e. more accurately predict RGC response, perform better in FA as well. However, unlike standard evaluation, FA results can be straightforwardly interpreted in the context of comparing the quality of visual perception.
翻訳日:2022-02-13 17:18:13 公開日:2022-02-05
# (参考訳) ASHA:ヒューマン・イン・ザ・ループ強化学習による補助的遠隔操作 [全文訳有]

ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement Learning ( http://arxiv.org/abs/2202.02465v1 )

ライセンス: CC BY 4.0
Sean Chen, Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan, Sergey Levine(参考訳) ロボットを制御するための補助インタフェースの構築は、特に自然な「デフォルト」インターフェースがない場合、特にユーザーが望む動作を推測する場合、任意で高次元のノイズ入力(例えば、視線のウェブカメラ画像)によって難しい。 オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策を示し、インターフェースを個々のユーザに適用できるようにする。 しかしこのアプローチでは,特にフィードバックが不足している場合には,ループ内トレーニングデータを大量に必要とします。 そこで,我々はオフラインの事前学習を用いて,有益でハイレベルなロボット行動の潜在埋め込み空間を取得できる階層的ソリューションを提案し,それによってシステムでは,オンラインユーザフィードバックの利用に集中して,ユーザの入力から所望のハイレベル行動へのマッピングを学ぶことができる。 重要な洞察は、事前訓練されたポリシーへのアクセスにより、システムはna\"ive RLアルゴリズムよりもスパース報酬からより多くを学ぶことができるということだ。 本手法は,ウェブカメラと視線を用いた3つのロボット操作領域のタスクを行う12人の被験者によるユーザスタディにより評価された。 その結果,ウェブカメラの入力,タスク,環境の分布変化に適応しつつ,異なる視線戦略を利用するユーザをシームレスに支援し,オンライントレーニングの10分以内のスパース報酬から7次元関節トルクに128次元視線特徴をマッピングすることに成功した。

Building assistive interfaces for controlling robots through arbitrary, high-dimensional, noisy inputs (e.g., webcam images of eye gaze) can be challenging, especially when it involves inferring the user's desired action in the absence of a natural 'default' interface. Reinforcement learning from online user feedback on the system's performance presents a natural solution to this problem, and enables the interface to adapt to individual users. However, this approach tends to require a large amount of human-in-the-loop training data, especially when feedback is sparse. We propose a hierarchical solution that learns efficiently from sparse user feedback: we use offline pre-training to acquire a latent embedding space of useful, high-level robot behaviors, which, in turn, enables the system to focus on using online user feedback to learn a mapping from user inputs to desired high-level behaviors. The key insight is that access to a pre-trained policy enables the system to learn more from sparse rewards than a na\"ive RL algorithm: using the pre-trained policy, the system can make use of successful task executions to relabel, in hindsight, what the user actually meant to do during unsuccessful executions. We evaluate our method primarily through a user study with 12 participants who perform tasks in three simulated robotic manipulation domains using a webcam and their eye gaze: flipping light switches, opening a shelf door to reach objects inside, and rotating a valve. The results show that our method successfully learns to map 128-dimensional gaze features to 7-dimensional joint torques from sparse rewards in under 10 minutes of online training, and seamlessly helps users who employ different gaze strategies, while adapting to distributional shift in webcam inputs, tasks, and environments.
翻訳日:2022-02-13 17:09:33 公開日:2022-02-05
# (参考訳) グラフ上の分布シフトを扱う:不変性の観点から

Handling Distribution Shifts on Graphs: An Invariance Perspective ( http://arxiv.org/abs/2202.02466v1 )

ライセンス: CC BY 4.0
Qitian Wu, Hengrui Zhang, Junchi Yan, David Wipf(参考訳) 分布シフトに対するニューラルネットワークの感受性を示す証拠が増えており、アウト・オブ・ディストリビューション(ood)一般化の研究が注目を浴びている。 それでも、現在の取り組みは主にユークリッドのデータに焦点を当てており、グラフ構造化データの定式化は明確ではなく、2つの根本的な課題を考えれば、未調査のままである。 1)同一環境下でも非IIDデータポイントの発生を誘導する1つのグラフ内のノード間の相互接続 2)入力グラフの構造情報は,予測にも有用である。 本稿では,グラフ上のノードレベルの予測のためのOOD問題を定式化し,GNNが予測に不変なグラフ機能を利用するのを容易にする探索・拡張リスク最小化という新しいドメイン不変学習手法を開発する。 既存の不変モデルとの大きな違いは、複数の仮想環境からのリスクの分散を最大化するために、敵対的に訓練された複数のコンテキストエクスプローラーを設計することである。 このような設計により、ノードレベルの予測の一般的なケースである単一の観測環境からモデルを外挿することができる。 提案手法の有効性は,有効なOODソリューションの保証を理論的に示すことによって証明し,さらに,人工的なスプリアス特徴やクロスドメイン転送,動的グラフの進化といった分布シフトを扱うための実世界のデータセットにその能力を示す。

There is increasing evidence suggesting neural networks' sensitivity to distribution shifts, so that research on out-of-distribution (OOD) generalization comes into the spotlight. Nonetheless, current endeavors mostly focus on Euclidean data, and its formulation for graph-structured data is not clear and remains under-explored, given the two-fold fundamental challenges: 1) the inter-connection among nodes in one graph, which induces non-IID generation of data points even under the same environment, and 2) the structural information in the input graph, which is also informative for prediction. In this paper, we formulate the OOD problem for node-level prediction on graphs and develop a new domain-invariant learning approach, named Explore-to-Extrapola te Risk Minimization, that facilitates GNNs to leverage invariant graph features for prediction. The key difference to existing invariant models is that we design multiple context explorers (specified as graph editers in our case) that are adversarially trained to maximize the variance of risks from multiple virtual environments. Such a design enables the model to extrapolate from a single observed environment which is the common case for node-level prediction. We prove the validity of our method by theoretically showing its guarantee of a valid OOD solution and further demonstrate its power on various real-world datasets for handling distribution shifts from artificial spurious features, cross-domain transfers and dynamic graph evolution.
翻訳日:2022-02-13 16:36:05 公開日:2022-02-05
# (参考訳) ValueDiceを再考する: パフォーマンスは本当に改善されるか? [全文訳有]

Rethinking ValueDice: Does It Really Improve Performance? ( http://arxiv.org/abs/2202.02468v1 )

ライセンス: CC BY 4.0
Ziniu Li, Tian Xu, Yang Yu, Zhi-Quan Luo(参考訳) GAILの導入以来、敵対的模倣学習(AIL)手法は多くの研究の関心を集めている。 これらの方法の中で、ValueDiceは、オフライン環境での古典的アプローチである振舞いクローン(BC)を破り、オンライン環境でのGAILよりも少ないインタラクションを必要としている。 これらの改善は、より高度なアルゴリズム設計の恩恵を受けるだろうか? 我々は以下の結論でこの質問に答える。 まず、オフライン設定でValueDiceをBCに還元できることを示します。 第2に、オーバーフィッティングの存在と正規化が重要であることを検証する。 特に、重量が減ると、BCは、ValueDiceのように専門家のパフォーマンスとほぼ一致します。 最初の2つの主張は、ValueDiceの優れたオフラインパフォーマンスを説明するものである。 第3に、専門家の軌道がサブサンプル化されている場合、ValueDiceが全く機能しないことを確認します。 その代わり、前述の成功は、専門家の軌道が完了した時に起こり、そこではValueDiceは、前述のようにうまく機能するBCと密接に関連している。 最後に,本研究がValueDiceを超えた模倣学習研究にもたらす意味について論じる。

Since the introduction of GAIL, adversarial imitation learning (AIL) methods attract lots of research interests. Among these methods, ValueDice has achieved significant improvements: it beats the classical approach Behavioral Cloning (BC) under the offline setting, and it requires fewer interactions than GAIL under the online setting. Are these improvements benefited from more advanced algorithm designs? We answer this question with the following conclusions. First, we show that ValueDice could reduce to BC under the offline setting. Second, we verify that overfitting exists and regularization matters. Specifically, we demonstrate that with weight decay, BC also nearly matches the expert performance as ValueDice does. The first two claims explain the superior offline performance of ValueDice. Third, we establish that ValueDice does not work at all when the expert trajectory is subsampled. Instead, the mentioned success holds when the expert trajectory is complete, in which ValueDice is closely related to BC that performs well as mentioned. Finally, we discuss the implications of our research for imitation learning studies beyond ValueDice.
翻訳日:2022-02-13 16:34:32 公開日:2022-02-05
# (参考訳) MarkovGNN: Markov拡散に基づくグラフニューラルネットワーク [全文訳有]

MarkovGNN: Graph Neural Networks on Markov Diffusion ( http://arxiv.org/abs/2202.02470v1 )

ライセンス: CC BY 4.0
Md. Khaledur Rahman, Abhigya Agrawal, Ariful Azad(参考訳) ほとんどの現実世界のネットワークは、ノードがコミュニティ内部で密に接続される、明確に定義されたコミュニティ構造を含んでいる。 これらのネットワークから学習するために,コミュニティの形成と進化を異なる畳み込み層で直接捉えるMarkovGNNを開発した。 各層で静的グラフを考えるほとんどのグラフニューラルネットワーク(gnn)とは異なり、markovgnnはマルコフ過程を用いて異なる確率行列を生成し、それらの群集を異なる層で用いる。 MarkovGNNは、既存のほとんどのGNNで使用できる一般的なアプローチである。 我々は,MarkovGNNがクラスタリング,ノード分類,可視化タスクにおいて,他のGNNよりも優れていることを示す。 MarkovGNN のソースコードは \url{https://github.com/H ipGraph/MarkovGNN} で公開されている。

Most real-world networks contain well-defined community structures where nodes are densely connected internally within communities. To learn from these networks, we develop MarkovGNN that captures the formation and evolution of communities directly in different convolutional layers. Unlike most Graph Neural Networks (GNNs) that consider a static graph at every layer, MarkovGNN generates different stochastic matrices using a Markov process and then uses these community-capturing matrices in different layers. MarkovGNN is a general approach that could be used with most existing GNNs. We experimentally show that MarkovGNN outperforms other GNNs for clustering, node classification, and visualization tasks. The source code of MarkovGNN is publicly available at \url{https://github.com/H ipGraph/MarkovGNN}.
翻訳日:2022-02-13 16:15:25 公開日:2022-02-05
# (参考訳) カーネルベイズのルールにおける重み付け手法 [全文訳有]

Importance Weighting Approach in Kernel Bayes' Rule ( http://arxiv.org/abs/2202.02474v1 )

ライセンス: CC BY 4.0
Liyuan Xu, Yutian Chen, Arnaud Doucet, Arthur Gretton(参考訳) 本研究では,先行特徴の期待値が更新され,観測のカーネルやニューラルネットの特徴の回帰に基づいて後続特徴が期待されるベイズ計算に対する非パラメトリックなアプローチについて検討する。 ベイズ更新に関わるすべての量は観測データから学習され、完全にモデルフリーとなる。 結果として得られるアルゴリズムは、カーネルベイズの規則(KBR)の新たな例である。 提案手法は重み付けに基づいており,演算子の逆転を必要とするKBRに対する既存手法よりも数値安定性が優れている。 無限ノルムにおける重み付け推定器の重要性に関する新しい一貫性解析を用いて推定器の収束を示す。 我々は,高次元画像観察を伴う状態空間モデルを用いたフィルタリング問題を含む,難解な合成ベンチマークにおけるkbrの評価を行った。 提案手法は既存のKBRよりも均一に実験性能が向上し,他の競合手法との競合性能が向上する。

We study a nonparametric approach to Bayesian computation via feature means, where the expectation of prior features is updated to yield expected posterior features, based on regression from kernel or neural net features of the observations. All quantities involved in the Bayesian update are learned from observed data, making the method entirely model-free. The resulting algorithm is a novel instance of a kernel Bayes' rule (KBR). Our approach is based on importance weighting, which results in superior numerical stability to the existing approach to KBR, which requires operator inversion. We show the convergence of the estimator using a novel consistency analysis on the importance weighting estimator in the infinity norm. We evaluate our KBR on challenging synthetic benchmarks, including a filtering problem with a state-space model involving high dimensional image observations. The proposed method yields uniformly better empirical performance than the existing KBR, and competitive performance with other competing methods.
翻訳日:2022-02-13 15:55:03 公開日:2022-02-05
# (参考訳) 訓練プロセスの分離によるバックドア防御 [全文訳有]

Backdoor Defense via Decoupling the Training Process ( http://arxiv.org/abs/2202.03423v1 )

ライセンス: CC BY 4.0
Kunzhe Huang, Yiming Li, Baoyuan Wu, Zhan Qin, Kui Ren(参考訳) 近年の研究により、ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であることが判明し、攻撃者はいくつかのトレーニングサンプルを毒殺することで、dnnモデルに隠れたバックドアを埋め込む。 攻撃されたモデルは正常に良質なサンプル上で振る舞うが、バックドアがアクティベートされると予測が悪質に変わる。 有害なサンプルは攻撃されたDNNモデルの特徴空間に集結する傾向にあり、これは主にエンドツーエンドの教師あり訓練パラダイムによるものである。 そこで本研究では,従来のエンドツーエンドトレーニングプロセスを3段階に分割して,新たなバックドアディフェンスを提案する。 具体的には、まずラベルのないトレーニングサンプルに基づいて、emph{self-supervised learning}を介してDNNモデルのバックボーンを学習する。 学習したバックボーンは、同じ地平線ラベルのサンプルを特徴空間内の同様の場所にマッピングする。 そして、学習したバックボーンのパラメータを凍結し、すべての(ラベル付き)トレーニングサンプルで標準トレーニングを通じて、残りの完全接続層をトレーニングします。 最後に,第2段階における有毒試料の副作用をさらに緩和するため,学習モデルに基づいて決定される「信頼性の低い」試料のラベルを除去し,モデル全体の<emph{semi-supervised fine-tuning}を行う。 複数のベンチマークデータセットとDNNモデルに対する大規模な実験により、提案された防御が、良性サンプルの予測に高い精度を保ちながら、バックドア脅威を減らすのに有効であることを検証した。 私たちのコードは \url{https://github.com/S CLBD/DBD} で利用可能です。

Recent studies have revealed that deep neural networks (DNNs) are vulnerable to backdoor attacks, where attackers embed hidden backdoors in the DNN model by poisoning a few training samples. The attacked model behaves normally on benign samples, whereas its prediction will be maliciously changed when the backdoor is activated. We reveal that poisoned samples tend to cluster together in the feature space of the attacked DNN model, which is mostly due to the end-to-end supervised training paradigm. Inspired by this observation, we propose a novel backdoor defense via decoupling the original end-to-end training process into three stages. Specifically, we first learn the backbone of a DNN model via \emph{self-supervised learning} based on training samples without their labels. The learned backbone will map samples with the same ground-truth label to similar locations in the feature space. Then, we freeze the parameters of the learned backbone and train the remaining fully connected layers via standard training with all (labeled) training samples. Lastly, to further alleviate side-effects of poisoned samples in the second stage, we remove labels of some `low-credible' samples determined based on the learned model and conduct a \emph{semi-supervised fine-tuning} of the whole model. Extensive experiments on multiple benchmark datasets and DNN models verify that the proposed defense is effective in reducing backdoor threats while preserving high accuracy in predicting benign samples. Our code is available at \url{https://github.com/S CLBD/DBD}.
翻訳日:2022-02-13 15:23:26 公開日:2022-02-05
# (参考訳) lotrec: 都市の空き地転用を推奨する [全文訳有]

LotRec: A Recommender for Urban Vacant Lot Conversion ( http://arxiv.org/abs/2202.02481v1 )

ライセンス: CC BY 4.0
Md Towhidul A Chowdhury, Naveen Sharma(参考訳) バカント・ロットは、環境の危険と地域社会の生活水準の低さにつながる都市で無視された財産である。 したがって、多くの都市では空き地を再生して生産的に活用することが重要である。 多くの空き地と変換のためのリソース制約を考えると、ある都市にとって重要な質問は、(1)空き地を変換するか、(2)空き地を変換すべきかである。 我々はこれらの質問に答えるために計算支援を提供しようとしている。 この目的のために、空き地変換の行列式を特定し、それらの行列式に基づいてレコメンデータを構築する。 我々は,フィラデルフィア,PA,ボルチモア,MDの各都市における実世界の空き地データのモデルを評価する。 その結果,1つの都市で空き地を変換すべきか否かを予測する場合,1つの都市で空き地を変換すべきか否かを予測する場合,2つの都市で空き地を変換すべきか否かを予測する場合,91%,3つの都市で空き地を変換すべきか否かを予測する場合,95%のF値が得られた。

Vacant lots are neglected properties in a city that lead to environmental hazards and poor standard of living for the community. Thus, reclaiming vacant lots and putting them to productive use is an important consideration for many cities. Given a large number of vacant lots and resource constraints for conversion, two key questions for a city are (1) whether to convert a vacant lot or not; and (2) what to convert a vacant lot as. We seek to provide computational support to answer these questions. To this end, we identify the determinants of a vacant lot conversion and build a recommender based on those determinants. We evaluate our models on real-world vacant lot datasets from the US cities of Philadelphia,PA and Baltimore, MD. Our results indicate that our recommender yields mean F-measures of (1) 90% in predicting whether a vacant lot should be converted or not within a single city, (2) 91% in predicting what a vacant lot should be converted to, within a single city and, (3) 85% in predicting whether a vacant lot should be converted or not across two cities.
翻訳日:2022-02-13 14:51:37 公開日:2022-02-05
# (参考訳) 空中画像における物体検出におけるクラス不均衡とスケール変動の課題の検討 [全文訳有]

Investigating the Challenges of Class Imbalance and Scale Variation in Object Detection in Aerial Images ( http://arxiv.org/abs/2202.02489v1 )

ライセンス: CC BY 4.0
Ahmed Elhagry, Mohamed Saeed(参考訳) 物体検出はコンピュータビジョンでは一般的な問題であるが、航空衛星画像を扱う場合にはさらに困難である。 オブジェクトのスケールや向きの多様性は、識別を困難にします。 さらに、自動車のような密集した小さな物体も大量に存在する。 本稿では,Faster-RCNNアーキテクチャに対するいくつかの変更を提案する。 まず、より良い特徴を抽出するために異なるバックボーンを実験する。 また、小さなオブジェクトをよりうまく扱うために、データ拡張や領域提案のためのアンカーサイズも変更しました。 最後に、異なる損失関数の効果について検討する。 提案設計では,ResNet-101 FPNバックボーン付きバニラファストR-CNNを用いたベースラインの4.7mAPの改善を実現している。

While object detection is a common problem in computer vision, it is even more challenging when dealing with aerial satellite images. The variety in object scales and orientations can make them difficult to identify. In addition, there can be large amounts of densely packed small objects such as cars. In this project, we propose a few changes to the Faster-RCNN architecture. First, we experiment with different backbones to extract better features. We also modify the data augmentations and generated anchor sizes for region proposals in order to better handle small objects. Finally, we investigate the effects of different loss functions. Our proposed design achieves an improvement of 4.7 mAP over the baseline which used a vanilla Faster R-CNN with a ResNet-101 FPN backbone.
翻訳日:2022-02-13 14:36:35 公開日:2022-02-05
# (参考訳) sparsified gradient differenceを用いた分散学習 [全文訳有]

Distributed Learning With Sparsified Gradient Differences ( http://arxiv.org/abs/2202.02491v1 )

ライセンス: CC BY 4.0
Yicheng Chen, Rick S. Blum, Martin Takac, and Brian M. Sadler(参考訳) 分散学習タスクを解くには、非常に多くの通信が必要であり、無線通信アプリケーションにおけるスケーラビリティと収束速度を著しく制限する。 本稿では,sparsification and error correction (gd-sec) を用いた勾配降下法を考案し,一般的なワーカーサーバアーキテクチャにおける通信効率を向上させる。 様々な無線通信学習シナリオによって動機づけられたGD-SECは、収束率の順に劣化することなく、ワーカーからサーバへの通信当たりのビット数を削減している。 これにより、収束や精度を犠牲にすることなく、大規模モデル学習が可能になる。 gd-secの各イテレーションでは、勾配ベクトル全体を直接送信する代わりに、各ワーカーは現在の勾配と以前に送信された勾配の線形結合の差を計算し、スパース化された勾配差をサーバに送信する。 GD-SECの重要な特徴は、勾配差ベクトルの任意の成分がその大きさが十分大きくなければ伝達されないことである。 スパシフィケーションによるエラーを補うために、各作業者にエラー補正技術が使用される。 GD-SEC は,GD と同じ収束率で強い凸,凸,非凸最適化問題に対して収束することが保証されている。 さらに、目的関数が強凸であれば、GD-SECは高速な線形収束率を持つ。 数値結果はgd-secの収束率を検証するだけでなく、通信ビットの節約についても検証する。 ターゲットの精度を考えると、gd-secは最適化プロセスを遅くすることなく、既存のアルゴリズムと比較して通信負荷を大幅に削減できる。

A very large number of communications are typically required to solve distributed learning tasks, and this critically limits scalability and convergence speed in wireless communications applications. In this paper, we devise a Gradient Descent method with Sparsification and Error Correction (GD-SEC) to improve the communications efficiency in a general worker-server architecture. Motivated by a variety of wireless communications learning scenarios, GD-SEC reduces the number of bits per communication from worker to server with no degradation in the order of the convergence rate. This enables larger-scale model learning without sacrificing convergence or accuracy. At each iteration of GD-SEC, instead of directly transmitting the entire gradient vector, each worker computes the difference between its current gradient and a linear combination of its previously transmitted gradients, and then transmits the sparsified gradient difference to the server. A key feature of GD-SEC is that any given component of the gradient difference vector will not be transmitted if its magnitude is not sufficiently large. An error correction technique is used at each worker to compensate for the error resulting from sparsification. We prove that GD-SEC is guaranteed to converge for strongly convex, convex, and nonconvex optimization problems with the same order of convergence rate as GD. Furthermore, if the objective function is strongly convex, GD-SEC has a fast linear convergence rate. Numerical results not only validate the convergence rate of GD-SEC but also explore the communication bit savings it provides. Given a target accuracy, GD-SEC can significantly reduce the communications load compared to the best existing algorithms without slowing down the optimization process.
翻訳日:2022-02-11 12:56:02 公開日:2022-02-05
# (参考訳) GraphEye: グラフアテンションネットワークに基づく脆弱性関数検出のための新しいソリューション [全文訳有]

GraphEye: A Novel Solution for Detecting Vulnerable Functions Based on Graph Attention Network ( http://arxiv.org/abs/2202.02501v1 )

ライセンス: CC BY 4.0
Li Zhou, Minhuan Huang, Yujun Li, Yuanping Nie, Jin Li, Yiwei Liu(参考訳) 産業用インターネットの継続的な拡張により、ソフトウェア脆弱性によるサイバーインシデントが近年増加している。 しかし、ソフトウェア脆弱性の検出は専門家によるコードレビューに大きく依存しており、ソフトウェアの脆弱性を自動的に検出する方法は、これまでのところオープンな問題である。 本稿では,C/C++コードの機能に脆弱性があるかどうかを判定し,コード監査者の負担を軽減するための新しいソリューションGraphEyeを提案する。 GraphEyeは、非脆弱性関数のコードプロパティグラフが、同じ機能を持つ脆弱関数のコードプロパティグラフと自然に異なるという観察から生まれたものだ。 したがって、グラフ分類問題により脆弱な関数の検出が可能となり、GraphEyeはVecCPGとGcGATから構成される。 VecCPGは、コードプロパティグラフのベクトル化であり、対応するソースコードの重要な構文と意味的特徴を特徴付けるために提案されている。 GcGAT はグラフ注意グラフに基づく深層学習モデルであり,VecCPG によるグラフ分類問題の解法を提案する。 最後に、GraphEyeはSARD StackベースのBuffer Overflow、Divide-Zero、Null Pointer Deference、Buffer Error、Resource Errorデータセットによって検証され、対応するF1スコアは95.6%、95.6%、96.1%、92.6%、96.1%であり、提案されたソリューションの有効性を検証する。

With the continuous extension of the Industrial Internet, cyber incidents caused by software vulnerabilities have been increasing in recent years. However, software vulnerabilities detection is still heavily relying on code review done by experts, and how to automatedly detect software vulnerabilities is an open problem so far. In this paper, we propose a novel solution named GraphEye to identify whether a function of C/C++ code has vulnerabilities, which can greatly alleviate the burden of code auditors. GraphEye is originated from the observation that the code property graph of a non-vulnerable function naturally differs from the code property graph of a vulnerable function with the same functionality. Hence, detecting vulnerable functions is attributed to the graph classification problem.GraphEye is comprised of VecCPG and GcGAT. VecCPG is a vectorization for the code property graph, which is proposed to characterize the key syntax and semantic features of the corresponding source code. GcGAT is a deep learning model based on the graph attention graph, which is proposed to solve the graph classification problem according to VecCPG. Finally, GraphEye is verified by the SARD Stack-based Buffer Overflow, Divide-Zero, Null Pointer Deference, Buffer Error, and Resource Error datasets, the corresponding F1 scores are 95.6%, 95.6%,96.1%,92.6%, and 96.1% respectively, which validate the effectiveness of the proposed solution.
翻訳日:2022-02-11 12:04:33 公開日:2022-02-05
# (参考訳) 教師付き機械学習に対する中毒攻撃に関する調査研究 [全文訳有]

A Survey on Poisoning Attacks Against Supervised Machine Learning ( http://arxiv.org/abs/2202.02510v1 )

ライセンス: CC BY 4.0
Wenjun Qiu(参考訳) 現代のコンピューティングにおける人工知能と機械学習の台頭により、そのような技術に関する大きな懸念の1つは、敵に対するプライバシーとセキュリティを提供することである。 本稿では,教師付き機械学習モデルに対する中毒攻撃に関する最も代表的な論文を紹介する。 まず,既存の研究を分類し,選択した論文の詳細な要約を示す。 既存の文献の方法論と限界を要約し比較する。 本論文は,監視されたモデルに対する毒殺攻撃のさらなる利用と防止のために,改善の可能性と今後の方向性について述べる。 今後の研究を奨励し、刺激するために、未回答の研究課題をいくつか提案する。

With the rise of artificial intelligence and machine learning in modern computing, one of the major concerns regarding such techniques is to provide privacy and security against adversaries. We present this survey paper to cover the most representative papers in poisoning attacks against supervised machine learning models. We first provide a taxonomy to categorize existing studies and then present detailed summaries for selected papers. We summarize and compare the methodology and limitations of existing literature. We conclude this paper with potential improvements and future directions to further exploit and prevent poisoning attacks on supervised models. We propose several unanswered research questions to encourage and inspire researchers for future work.
翻訳日:2022-02-11 11:37:04 公開日:2022-02-05
# (参考訳) ヘイトスピーチと攻撃的コンテンツ識別のための単純言語非依存かつ非常に強力なベースラインシステム [全文訳有]

A simple language-agnostic yet very strong baseline system for hate speech and offensive content identification ( http://arxiv.org/abs/2202.02511v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) ツイート中のヘイトスピーチと攻撃的コンテンツを自動的に識別するために、従来の教師付きアルゴリズムに基づくシステムは文字n-gramのみを供給し、したがって完全に言語に依存しない。 機能の重み付けと分類パラメータの最適化によって、多言語hasoc 2021チャレンジでは、英語の中間パフォーマンスレベルである、多くの外部言語リソースに依存するディープラーニングアプローチの開発が容易な言語、ヒンディー語とマラティ語という2つの少ない言語に対して、はるかに優れたレベルに達した。 パフォーマンスがこれらの言語で3つのタスクに平均され、多くのディープラーニングアプローチを上回って初めて終わる。 これらのパフォーマンスは、ディープラーニングのようなより複雑なアプローチや補完的リソースを考慮に入れることのメリットを評価するのに、興味深い参照レベルであることを示唆している。

For automatically identifying hate speech and offensive content in tweets, a system based on a classical supervised algorithm only fed with character n-grams, and thus completely language-agnostic, is proposed by the SATLab team. After its optimization in terms of the feature weighting and the classifier parameters, it reached, in the multilingual HASOC 2021 challenge, a medium performance level in English, the language for which it is easy to develop deep learning approaches relying on many external linguistic resources, but a far better level for the two less resourced language, Hindi and Marathi. It ends even first when performances are averaged over the three tasks in these languages, outperforming many deep learning approaches. These performances suggest that it is an interesting reference level to evaluate the benefits of using more complex approaches such as deep learning or taking into account complementary resources.
翻訳日:2022-02-11 11:24:25 公開日:2022-02-05
# (参考訳) Twitterにおけるサルカズムの自動検出に関する調査

A Survey on Automated Sarcasm Detection on Twitter ( http://arxiv.org/abs/2202.02516v1 )

ライセンス: CC BY 4.0
Bleau Moores, Vijay Mago(参考訳) 自動皮肉検出はコンピュータ科学における成長分野である。 短いテキストメッセージは、特にTwitterのようなソーシャルメディアプラットフォーム上でのコミュニケーションにますます利用されている。 文脈が不十分または欠落しているため、これらのメッセージの未確認文字は文の意味を逆転させ、混乱と通信の失敗を引き起こす。 本稿では,コンテキストによる検出,投稿履歴,機械学習モデルなど,サーカズム検出に用いられている様々な手法について述べる。 さらに、ディープラーニングの方法へのシフトは観測可能であり、トランスフォーマの革新と組み合わせた離散的な特徴の代わりに誘導されたモデルを使用することの利点があると考えられる。

Automatic sarcasm detection is a growing field in computer science. Short text messages are increasingly used for communication, especially over social media platforms such as Twitter. Due to insufficient or missing context, unidentified sarcasm in these messages can invert the meaning of a statement, leading to confusion and communication failures. This paper covers a variety of current methods used for sarcasm detection, including detection by context, posting history and machine learning models. Additionally, a shift towards deep learning methods is observable, likely due to the benefit of using a model with induced instead of discrete features combined with the innovation of transformers.
翻訳日:2022-02-11 11:14:46 公開日:2022-02-05
# (参考訳) LiDARデータとセンサ融合技術に基づく3次元物体検出フレームワークの比較研究 [全文訳有]

Comparative study of 3D object detection frameworks based on LiDAR data and sensor fusion techniques ( http://arxiv.org/abs/2202.02521v1 )

ライセンス: CC BY-SA 4.0
Sreenivasa Hikkal Venugopala(参考訳) 車両の周囲を推定し、理解することが、自動運転車の基本的かつ重要なステップとなる。 知覚システムは、車両の環境をリアルタイムで正確に解釈する上で重要な役割を果たす。 一般に、認識システムは、局所化、障害物(静的および動的)検出、回避、マッピングシステムなど、様々なサブシステムを含んでいる。 環境を感知するために、これらの車両は、特定のカメラ、レーダー、ライダーなど、さまざまな過敏な(受動的かつアクティブな)センサーを備えている。 これらのシステムは、センサーから大量のデータを、物体検出および位置決めタスクを行う意味情報に変換するディープラーニング技術を備えている。 多くの運転タスクにおいて、正確な結果を得るためには、特定の物体の位置と深さ情報が必要である。 3Dオブジェクト検出法は、LiDARやステレオカメラなどのセンサーから追加のポーズデータを利用することで、オブジェクトのサイズと位置に関する情報を提供する。 近年の研究では,LiDARデータとセンサ融合技術を用いてオブジェクト検出と位置決めを行う3Dオブジェクト検出フレームワークの性能が大幅に向上した。 本研究では,LiDARデータを用いた物体検出フレームワークとセンサフュージョン技術による性能向上効果の比較研究を行った。 両方のケースで様々な最先端の手法について議論し、実験分析を行い、今後の研究方向性を提供する。

Estimating and understanding the surroundings of the vehicle precisely forms the basic and crucial step for the autonomous vehicle. The perception system plays a significant role in providing an accurate interpretation of a vehicle's environment in real-time. Generally, the perception system involves various subsystems such as localization, obstacle (static and dynamic) detection, and avoidance, mapping systems, and others. For perceiving the environment, these vehicles will be equipped with various exteroceptive (both passive and active) sensors in particular cameras, Radars, LiDARs, and others. These systems are equipped with deep learning techniques that transform the huge amount of data from the sensors into semantic information on which the object detection and localization tasks are performed. For numerous driving tasks, to provide accurate results, the location and depth information of a particular object is necessary. 3D object detection methods, by utilizing the additional pose data from the sensors such as LiDARs, stereo cameras, provides information on the size and location of the object. Based on recent research, 3D object detection frameworks performing object detection and localization on LiDAR data and sensor fusion techniques show significant improvement in their performance. In this work, a comparative study of the effect of using LiDAR data for object detection frameworks and the performance improvement seen by using sensor fusion techniques are performed. Along with discussing various state-of-the-art methods in both the cases, performing experimental analysis, and providing future research directions.
翻訳日:2022-02-11 11:13:44 公開日:2022-02-05
# (参考訳) EDUレベルの注意によるアスペクトベース感性分析 [全文訳有]

Aspect-based Sentiment Analysis through EDU-level Attentions ( http://arxiv.org/abs/2202.02535v1 )

ライセンス: CC BY 4.0
Ting Lin and Aixin Sun and Yequan Wang(参考訳) 文は複数の側面について感情を表現することができる。 これらの側面が異なる感情極性と関連づけられる場合、モデルの精度はしばしば悪影響を受ける。 このような硬文の複数の側面は、主に複数の節、または正式には初等談話単位(英語版)(EDU)によって表現され、一方のEDUは、その側面に対して一意的な感情を持った一つの側面を表現する傾向にある。 本稿では,文モデルにおけるEDU境界について考察し,単語レベルとEDUレベルに注目する。 具体的には,EDUにおける感傷的単語を単語単位のスパース・アテンションによって強調する。 次に,EDUレベルでは,EDUレベルのスパースアテンションと直交正則化を用いて,正しい面の適切なEDUへの参加を強制する。 3つのベンチマークデータセットの実験から、私たちの単純なEDU-Attentionモデルは最先端のベースラインよりも優れています。 EDUを高い精度で自動的にセグメント化できるので、手動のEDU境界アノテーションを必要とせずに、我々のモデルは文に直接適用することができる。

A sentence may express sentiments on multiple aspects. When these aspects are associated with different sentiment polarities, a model's accuracy is often adversely affected. We observe that multiple aspects in such hard sentences are mostly expressed through multiple clauses, or formally known as elementary discourse units (EDUs), and one EDU tends to express a single aspect with unitary sentiment towards that aspect. In this paper, we propose to consider EDU boundaries in sentence modeling, with attentions at both word and EDU levels. Specifically, we highlight sentiment-bearing words in EDU through word-level sparse attention. Then at EDU level, we force the model to attend to the right EDU for the right aspect, by using EDU-level sparse attention and orthogonal regularization. Experiments on three benchmark datasets show that our simple EDU-Attention model outperforms state-of-the-art baselines. Because EDU can be automatically segmented with high accuracy, our model can be applied to sentences directly without the need of manual EDU boundary annotation.
翻訳日:2022-02-11 11:01:37 公開日:2022-02-05
# (参考訳) 戦略的展望のための多次元サイバーセキュリティフレームワーク

Multidimensional Cybersecurity Framework for Strategic Foresight ( http://arxiv.org/abs/2202.02537v1 )

ライセンス: CC BY 4.0
Cyril Onwubiko and Karim Ouazzane(参考訳) サイバーセキュリティは現在、ほとんどの組織的デジタルトランスフォーメーションと国家経済、社会的、政治的プログラムの最前線にある。 したがって、社会への影響はもはや1次元とは見なされない。 国家サイバーセキュリティ法と規制の台頭は、国家にとって重要視されていることを示す良い指標である。 そして最近の社会における社会的および倫理的な透明性の覚醒と持続可能性の問題との相まって、サイバーセキュリティの談話が今どのように起こるかというパラダイムシフトの必要性が示されている。 この変化に応えて、状況認識を基盤とした戦略的監視のための多次元サイバーセキュリティフレームワークを提案する。 物理・文化・経済・社会・政治・サイバーの6分野からなる概念サイバーセキュリティフレームワークについて論じる。 フレームワークを支えるガイドの原則は概説され、その後、ビジネス、運用、技術、およびヒューマン(両方の)要因とそのサイバーセキュリティの戦略的展望に関する深い考察がなされている。

Cybersecurity is now at the forefront of most organisational digital transformative agendas and National economic, social and political programmes. Hence its impact to society can no longer be seen to be one dimensional. The rise in National cybersecurity laws and regulations is a good indicator of its perceived importance to nations. And the recent awakening for social and ethical transparency in society and coupled with sustainability issues demonstrate the need for a paradigm shift in how cybersecurity discourses can now happen. In response to this shift, a multidimensional cybersecurity framework for strategic foresight underpinned on situational awareness is proposed. The conceptual cybersecurity framework comprising six domains such as Physical, Cultural, Economic, Social, Political and Cyber, is discussed. The guiding principles underpinning the framework are outlined, followed by in-depth reflection on the Business, Operational, Technological and Human (BOTH) factors and their implications for strategic foresight for cybersecurity.
翻訳日:2022-02-11 10:50:05 公開日:2022-02-05
# (参考訳) 成功と悪の必要条件としての相互運用に直面する科学 [全文訳有]

Science Facing Interoperability as a Necessary Condition of Success and Evil ( http://arxiv.org/abs/2202.02540v1 )

ライセンス: CC BY 4.0
Remy Demichelis(参考訳) 機械学習アルゴリズムのような人工知能(AI)システムによって、科学者やマーケッター、政府は、これまで見えなかった相関関係に光を当てることができた。 それまでは、新しい知識が多すぎるか、ばらばらすぎるか、検出されないかを想像するために接続しなければならなかった点でした。 時には、情報は同じデータレイクやフォーマットに格納されず、通信することができなかった。 しかし、AIを使った新しいブリッジを作成する際には、バイアスの再現、不公平な推論、大量監視といった多くの問題が現れた。 私たちの目標は、AIの深い倫理的問題は、システム相互運用性によって可能になったこれらの新しい接続に本質的に関係していることを示すことです。 新しい相互作用は、球体から別の球体への社会的財の支配を創り出すため、私たちの人生の球体を繋ぐ際に、これらのシステムは、それぞれに特別な正義の概念を損なう。 したがって、これらのシステムは球体を相互に透過可能とし、そうすることで、彼らは専制だけでなく進歩にも開放する。 しかし、他方では、前もって優先順位の不一致だったものをつなぐ行為は、知識と科学的進歩の必要な動きであると強調したい。

Artificial intelligence (AI) systems, such as machine learning algorithms, have allowed scientists, marketers and governments to shed light on correlations that remained invisible until now. Beforehand, the dots that we had to connect in order to imagine a new knowledge were either too numerous, too sparse or not even detected. Sometimes, the information was not stored in the same data lake or format and was not able to communicate. But in creating new bridges with AI, many problems appeared such as bias reproduction, unfair inferences or mass surveillance. Our aim is to show that, on one hand, the AI's deep ethical problem lays essentially in these new connections made possible by systems interoperability. In connecting the spheres of our life, these systems undermine the notion of justice particular to each of them, because the new interactions create dominances of social goods from a sphere to another. These systems make therefore spheres permeable to one another and, in doing so, they open to progress as well as to tyranny. On another hand, however, we would like to emphasize that the act to connect what used to seem a priori disjoint is a necessary move of knowledge and scientific progress.
翻訳日:2022-02-11 10:48:51 公開日:2022-02-05
# (参考訳) 実時間ウェーブレットに基づく音声明瞭度向上アルゴリズムの最適化 [全文訳有]

Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech Intelligibility ( http://arxiv.org/abs/2202.02545v1 )

ライセンス: CC BY 4.0
Tianqu Kang, Anh-Dung Dinh, Binghong Wang, Tianyuan Du, Yijia Chen, and Kevin Chau (Hong Kong University of Science and Technology)(参考訳) ウェーブレットに基づく音声明瞭度向上アルゴリズムの最適化について報告する。 離散時間音声信号は、マルチレベル離散ウェーブレット変換により周波数サブバンドに分割される。 様々なゲインがサブバンド信号に適用され、それらが再結合されて音声の修正版を形成する。 信号全体のエネルギーを一定に保ち、サブバンドゲインを調整し、Google Speech-to-Text転写を用いて、様々な背景干渉および模擬聴力損失条件下での音声の可聴性を高め、客観的に定量的に評価する。 英語と中国語のノイズフリー音声では、全体的な理解性が向上し、中周波サブバンドに向けてスペクトルエネルギーを再配置することにより、80ポイントの精度向上が可能となり、共振・母音強度比が効果的に向上する。 これは、子音が比較的弱く、短い時間であるため、背景雑音や高周波難聴の有無で区別できない可能性が最も高いため、合理的である。 音声はノイズで劣化しており、知性の向上は難しいが、まだ実現不可能だ。 提案アルゴリズムはリアルタイム信号処理のために実装可能であり,従来のアルゴリズムよりも比較的単純である。 潜在的な用途としては、音声強調、補聴器、機械の聴き取り、音声の理解度の向上などがある。

The optimization of a wavelet-based algorithm to improve speech intelligibility is reported. The discrete-time speech signal is split into frequency sub-bands via a multi-level discrete wavelet transform. Various gains are applied to the sub-band signals before they are recombined to form a modified version of the speech. The sub-band gains are adjusted while keeping the overall signal energy unchanged, and the speech intelligibility under various background interference and simulated hearing loss conditions is enhanced and evaluated objectively and quantitatively using Google Speech-to-Text transcription. For English and Chinese noise-free speech, overall intelligibility is improved, and the transcription accuracy can be increased by as much as 80 percentage points by reallocating the spectral energy toward the mid-frequency sub-bands, effectively increasing the consonant-vowel intensity ratio. This is reasonable since the consonants are relatively weak and of short duration, which are therefore the most likely to become indistinguishable in the presence of background noise or high-frequency hearing impairment. For speech already corrupted by noise, improving intelligibility is challenging but still realizable. The proposed algorithm is implementable for real-time signal processing and comparatively simpler than previous algorithms. Potential applications include speech enhancement, hearing aids, machine listening, and a better understanding of speech intelligibility.
翻訳日:2022-02-11 10:43:42 公開日:2022-02-05
# (参考訳) 対称ボリュームマップ [全文訳有]

Symmetric Volume Maps ( http://arxiv.org/abs/2202.02568v1 )

ライセンス: CC BY 4.0
S. Mazdak Abulnaga, Oded Stein, Polina Golland, Justin Solomon(参考訳) 形状対応は幾何処理における中心的な問題であるが、ほとんどの手法は二次元曲面にのみ適用される。 音量対応の無視課題は、シミュレーション、医用画像、音量レンダリング、さらには境界表現の表面地図の改善から抽出された形状に関連する自然な拡張であり、二次元の場合には現れない独特の課題を呈する。 本研究では,四面体メッシュとして表されるボリューム間のマッピング手法を提案する。 この定式化は、ソース領域とターゲット領域の順序に依存することなく対称的に写像を抽出するように設計された歪エネルギーを最小化する。 我々はこの対称性の仮定の結果を説明する理論的議論を伴い,等尺対応を好む対称性のアラップエネルギーを選択する。 我々の最終定式化は境界を整えながら近距離測定に最適化する。 本手法を多種多様な幾何学的データセット上で実証し, 境界に整合した低歪みマッチングを生成する。

Although shape correspondence is a central problem in geometry processing, most methods for this task apply only to two-dimensional surfaces. The neglected task of volumetric correspondence--a natural extension relevant to shapes extracted from simulation, medical imaging, volume rendering, and even improving surface maps of boundary representations--pre sents unique challenges that do not appear in the two-dimensional case. In this work, we propose a method for mapping between volumes represented as tetrahedral meshes. Our formulation minimizes a distortion energy designed to extract maps symmetrically, i.e., without dependence on the ordering of the source and target domains. We accompany our method with theoretical discussion describing the consequences of this symmetry assumption, leading us to select a symmetrized ARAP energy that favors isometric correspondences. Our final formulation optimizes for near-isometry while matching the boundary. We demonstrate our method on a diverse geometric dataset, producing low-distortion matchings that align to the boundary.
翻訳日:2022-02-11 10:32:30 公開日:2022-02-05
# (参考訳) GNNを用いた差分グラフ分類 [全文訳有]

Differentially Private Graph Classification with GNNs ( http://arxiv.org/abs/2202.02575v1 )

ライセンス: CC BY 4.0
Tamara T. Mueller, Johannes C. Paetzold, Chinmay Prabhakar, Dmitrii Usynin, Daniel Rueckert, and Georgios Kaissis(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、タンパク質相互作用、分子の解析など、多くの機械学習アプリケーションのための最先端のモデルとして確立されている。 これらのデータセットのいくつかは、プライバシーに敏感なデータを含んでいる。 差分プライバシーを持つ機械学習は、プライバシー保護の正式な保証を提供しながら、機密データから洞察を導き出すための有望なテクニックである。 しかし、グラフの固有の構造接続がもたらす課題のため、GNNの差分プライベートトレーニングはいまだに未探索のままである。 本稿では,グラフ上の機械学習の重要な応用の一つであるグラフレベルの分類に微分プライバシーを導入する。 本手法は,多グラフデータセットの深層学習に適用可能であり,dp-sgd ( differentially private stochasticgradient descent) に依存する。 各種合成および公開データセットの結果を示し、異なるGNNアーキテクチャの影響を評価し、微分プライベートグラフ分類のためのモデル性能に対するハイパーパラメータの訓練を行う。 最後に,類似表現がプライベートおよび非プライベートな設定で学習されているかを評価するために説明可能性手法を適用し,この分野における今後の作業のための堅牢なベースラインを確立する。

Graph Neural Networks (GNNs) have established themselves as the state-of-the-art models for many machine learning applications such as the analysis of social networks, protein interactions and molecules. Several among these datasets contain privacy-sensitive data. Machine learning with differential privacy is a promising technique to allow deriving insight from sensitive data while offering formal guarantees of privacy protection. However, the differentially private training of GNNs has so far remained under-explored due to the challenges presented by the intrinsic structural connectivity of graphs. In this work, we introduce differential privacy for graph-level classification, one of the key applications of machine learning on graphs. Our method is applicable to deep learning on multi-graph datasets and relies on differentially private stochastic gradient descent (DP-SGD). We show results on a variety of synthetic and public datasets and evaluate the impact of different GNN architectures and training hyperparameters on model performance for differentially private graph classification. Finally, we apply explainability techniques to assess whether similar representations are learned in the private and non-private settings and establish robust baselines for future work in this area.
翻訳日:2022-02-11 09:27:25 公開日:2022-02-05
# (参考訳) 意味論的インテント学習における因果解離 [全文訳有]

Causal Disentanglement for Semantics-Aware Intent Learning in Recommendation ( http://arxiv.org/abs/2202.02576v1 )

ライセンス: CC BY 4.0
Xiangmeng Wang, Qian Li, Dianer Yu, Peng Cui, Zhichao Wang, Guandong Xu(参考訳) 観察的インタラクションデータに基づいてトレーニングされた従来のレコメンデーションモデルは、幅広いアプリケーションで大きな影響を与え、ユーザの真意をカバーするバイアス問題に直面し、レコメンデーションの有効性を低下させる。 既存の手法では、トレーニングサンプルの再重み付けや不連続表現の学習など、ロバストな推奨に対するバイアスを排除することでこの問題を追跡している。 不整合表現法は、バイアス発生の因果効果を明らかにすることによってバイアスを除去する。 しかし、ユーザの真の意図を意味論的に認識し、曖昧に表現する方法はほとんど探索されていない。 このギャップを埋めるために,我々は,cadsi(causal disentanglement for semantics-aware intent learning)と呼ばれる,偏りのない意味論的不一致学習を因果的視点から提案する。 特に、cadsiは推奨タスクの背後にある因果関係を明示的にモデル化し、特定のアイテムコンテキストを意識した真の意図をユーザから切り離して意味認識表現を生成する。 さらに、因果的介入機構は、文脈情報から生じる偏りを解消し、意味論的認識表現をユーザの真の意図と一致させるように設計されている。 広範な実験とケーススタディにより,提案モデルのロバスト性と解釈性が検証された。

Traditional recommendation models trained on observational interaction data have generated large impacts in a wide range of applications, it faces bias problems that cover users' true intent and thus deteriorate the recommendation effectiveness. Existing methods tracks this problem as eliminating bias for the robust recommendation, e.g., by re-weighting training samples or learning disentangled representation. The disentangled representation methods as the state-of-the-art eliminate bias through revealing cause-effect of the bias generation. However, how to design the semantics-aware and unbiased representation for users true intents is largely unexplored. To bridge the gap, we are the first to propose an unbiased and semantics-aware disentanglement learning called CaDSI (Causal Disentanglement for Semantics-Aware Intent Learning) from a causal perspective. Particularly, CaDSI explicitly models the causal relations underlying recommendation task, and thus produces semantics-aware representations via disentangling users true intents aware of specific item context. Moreover, the causal intervention mechanism is designed to eliminate confounding bias stemmed from context information, which further to align the semantics-aware representation with users true intent. Extensive experiments and case studies both validate the robustness and interpretability of our proposed model.
翻訳日:2022-02-11 08:54:23 公開日:2022-02-05
# (参考訳) 完全分散環境における順序付きADMMによる効果的なフェデレーション学習 [全文訳有]

Communication Efficient Federated Learning via Ordered ADMM in a Fully Decentralized Setting ( http://arxiv.org/abs/2202.02580v1 )

ライセンス: CC BY 4.0
Yicheng Chen, Rick S. Blum, and Brian M. Sadler(参考訳) 近年,通信効率のよい分散最適化の課題が注目されている。 本稿では、作業者が隣人とのみメッセージを交換できる一般的な完全分散ネットワーク設定において、順序に基づく乗算器の交互方向法(oadmm)と呼ばれる通信効率のよいアルゴリズムを考案する。 従来のADMMと比較して、OADMMの重要な特徴は、最も情報性の高いデータを持つ労働者がそのローカル変数を最初に隣人にブロードキャストし、まだ送信していない隣人が受信した送信に基づいてローカル変数を更新できるように、各イテレーションでワーカー間で送信が順序付けられていることである。 OADMMでは、現在のローカル変数が以前送信された値と十分に変わらない場合、ワーカーの送信を禁止します。 OADMMの変種はSOADMMと呼ばれ、送信を順序付けするが、各ノードごとに送信が停止されることは決してない。 数値計算の結果,OADMMはADMMを含む既存のアルゴリズムと比較して通信回数を大幅に削減できることがわかった。 また,従来のADMMと比較して,SOADMMが収束を加速し,通信の節約につながることを示す。

The challenge of communication-effici ent distributed optimization has attracted attention in recent years. In this paper, a communication efficient algorithm, called ordering-based alternating direction method of multipliers (OADMM) is devised in a general fully decentralized network setting where a worker can only exchange messages with neighbors. Compared to the classical ADMM, a key feature of OADMM is that transmissions are ordered among workers at each iteration such that a worker with the most informative data broadcasts its local variable to neighbors first, and neighbors who have not transmitted yet can update their local variables based on that received transmission. In OADMM, we prohibit workers from transmitting if their current local variables are not sufficiently different from their previously transmitted value. A variant of OADMM, called SOADMM, is proposed where transmissions are ordered but transmissions are never stopped for each node at each iteration. Numerical results demonstrate that given a targeted accuracy, OADMM can significantly reduce the number of communications compared to existing algorithms including ADMM. We also show numerically that SOADMM can accelerate convergence, resulting in communication savings compared to the classical ADMM.
翻訳日:2022-02-11 08:21:58 公開日:2022-02-05
# (参考訳) ROMNet: 古い思い出をリノベート [全文訳有]

ROMNet: Renovate the Old Memories ( http://arxiv.org/abs/2202.02606v1 )

ライセンス: CC BY 4.0
Runsheng Xu, Zhengzhong Tu, Yuanqi Du, Xiaoyu Dong, Jinlong Li, Zibo Meng, Jiaqi Ma, Hongkai YU(参考訳) 古い写真における記憶の再構築は、コンピュータビジョン分野における興味深い研究トピックである。 これらのレガシ画像は、ひび割れ、ノイズ、カラーフェーディングなどの重度の劣化に悩まされることが多いが、大規模なペアの古い写真データセットがないため、この復元作業は非常に困難である。 本研究では,劣化したレガシー画像の修復とカラー化が可能な,新しい参照ベースのエンドツーエンド学習フレームワークを提案する。 具体的には、劣化回復のための復元サブネットワーク、色ヒストグラムマッチングと転送のための類似サブネットワーク、色調基準信号で条件付けられた画像の彩色要素を予測することを学ぶ着色サブネットの3つのモジュールからなる。 システム全体は、与えられた参照画像のカラーヒストグラムプリエントを利用しており、大規模なトレーニングデータへの依存を大幅に削減している。 また,提案手法とは別に,PhotoShopの専門家が手作業で復元したプリズム画像と,古い写真復元モデルを評価するための,最初の公開と実世界の古い写真データセットを作成する。 総合データと実世界データの両方で行った広範な実験により,本手法が定量的および定性的に最先端データを大幅に上回ることを示した。

Renovating the memories in old photos is an intriguing research topic in computer vision fields. These legacy images often suffer from severe and commingled degradations such as cracks, noise, and color-fading, while lack of large-scale paired old photo datasets makes this restoration task very challenging. In this work, we present a novel reference-based end-to-end learning framework that can jointly repair and colorize the degraded legacy pictures. Specifically, the proposed framework consists of three modules: a restoration sub-network for degradation restoration, a similarity sub-network for color histogram matching and transfer, and a colorization subnet that learns to predict the chroma elements of the images conditioned on chromatic reference signals. The whole system takes advantage of the color histogram priors in a given reference image, which vastly reduces the dependency on large-scale training data. Apart from the proposed method, we also create, to our knowledge, the first public and real-world old photo dataset with paired ground truth for evaluating old photo restoration models, wherein each old photo is paired with a manually restored pristine image by PhotoShop experts. Our extensive experiments conducted on both synthetic and real-world datasets demonstrate that our method significantly outperforms state-of-the-arts both quantitatively and qualitatively.
翻訳日:2022-02-11 08:12:02 公開日:2022-02-05
# (参考訳) DSSIM:浮動小数点データのための構造類似度指標 [全文訳有]

DSSIM: a structural similarity index for floating-point data ( http://arxiv.org/abs/2202.02616v1 )

ライセンス: CC BY 4.0
Allison H. Baker and Alexander Pinard and Dorit M. Hammerling(参考訳) データビジュアライゼーションは、大規模なモデルシミュレーションコードから浮動小数点出力データと相互作用する上で重要なコンポーネントである。 実際、シミュレーションデータに対する後処理分析ワークフローは、多くの場合、生データから大量の画像を生成し、それらの多くは、互いに比較されるか、特定の参照画像に対して生成される。 この画像比較シナリオでは、画像品質評価(IQA)は極めて有用であり、構造類似度指数(SSIM)は引き続き一般的な選択肢である。 しかし、大量の画像を生成するにはコストがかかり、プロット固有の(データに依存しない)選択はSSIM値に影響を与える可能性がある。 自然な疑問は、SSIMを浮動小数点シミュレーションデータに直接適用し、そのデータの違いが視覚的評価に影響を及ぼす可能性が示唆され、データから特定の画像群を効果的に回避できるかどうかである。 そこで本研究では,データSSIM(Data SSIM)と呼ばれる浮動小数点データに直接適用可能な,一般的なSSIMの代替案を提案する。 一般的な気候モデルを用いた大規模シミュレーションデータに対する圧縮損失による差の評価においてdssimの有用性を示す一方で,シミュレーションや画像データを含む多くのアプリケーションにおいてdssimが有用であることを示す。

Data visualization is a critical component in terms of interacting with floating-point output data from large model simulation codes. Indeed, postprocessing analysis workflows on simulation data often generate a large number of images from the raw data, many of which are then compared to each other or to specified reference images. In this image-comparison scenario, image quality assessment (IQA) measures are quite useful, and the Structural Similarity Index (SSIM) continues to be a popular choice. However, generating large numbers of images can be costly, and plot-specific (but data independent) choices can affect the SSIM value. A natural question is whether we can apply the SSIM directly to the floating-point simulation data and obtain an indication of whether differences in the data are likely to impact a visual assessment, effectively bypassing the creation of a specific set of images from the data. To this end, we propose an alternative to the popular SSIM that can be applied directly to the floating point data, which we refer to as the Data SSIM (DSSIM). While we demonstrate the usefulness of the DSSIM in the context of evaluating differences due to lossy compression on large volumes of simulation data from a popular climate model, the DSSIM may prove useful for many other applications involving simulation or image data.
翻訳日:2022-02-10 14:17:02 公開日:2022-02-05
# (参考訳) 名前付きエンティティ認識のための変換器ベース言語モデルの適応的微調整 [全文訳有]

Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition ( http://arxiv.org/abs/2202.02617v1 )

ライセンス: CC BY 4.0
Felix Stollenwerk(参考訳) 微調整変換言語モデルに対する現在の標準的なアプローチは、一定数の訓練エポックと線形学習率スケジュールを含む。 与えられた下流タスクの近似最適モデルを得るためには、最適化ハイパーパラメータ空間の探索が通常必要となる。 特に、トレーニングエポックの数はデータセットのサイズに合わせて調整する必要があります。 本稿では,早期停止とカスタム学習率スケジュールを用いて,データセットサイズに動的にトレーニングエポック数を調整する手法であるadaptive fine-tuningを提案する。 名前付きエンティティ認識(named entity recognition)の例では、トレーニング期間の冗長性に関してハイパーパラメータ検索を行うだけでなく、パフォーマンス、安定性、効率性の観点から結果が向上することを示す。 これは特に、最先端の微調整メソッドを大きなマージンで上回る小さなデータセットでは当てはまります。

The current standard approach for fine-tuning transformer-based language models includes a fixed number of training epochs and a linear learning rate schedule. In order to obtain a near-optimal model for the given downstream task, a search in optimization hyperparameter space is usually required. In particular, the number of training epochs needs to be adjusted to the dataset size. In this paper, we introduce adaptive fine-tuning, which is an alternative approach that uses early stopping and a custom learning rate schedule to dynamically adjust the number of training epochs to the dataset size. For the example use case of named entity recognition, we show that our approach not only makes hyperparameter search with respect to the number of training epochs redundant, but also leads to improved results in terms of performance, stability and efficiency. This holds true especially for small datasets, where we outperform the state-of-the-art fine-tuning method by a large margin.
翻訳日:2022-02-10 12:39:48 公開日:2022-02-05
# (参考訳) 層状サステナビリティ解析(LSA)フレームワークを用いた層状正規化逆行訓練 [全文訳有]

Layer-wise Regularized Adversarial Training using Layers Sustainability Analysis (LSA) framework ( http://arxiv.org/abs/2202.02626v1 )

ライセンス: CC BY-SA 4.0
Mohammad Khalooei, Mohammad Mehdi Homayounpour, Maryam Amirmazlaghani(参考訳) ディープニューラルネットワークモデルは、今日では人工知能の様々な応用で使われており、敵の攻撃に直面して強化することが特に重要である。 敵の攻撃に対する適切な解決策は、強固さと一般化の間のトレードオフに達する敵の訓練である。 本稿では,ニューラルネットワークの層脆弱性を敵攻撃のシナリオで解析するための新しいフレームワーク(Layer Sustainability Analysis (LSA))を提案する。 LSAは、ディープニューラルネットワークを評価し、層監視と分析を通じてモデルレイヤの持続可能性を改善するための敵のトレーニングアプローチを拡張するための有用なツールキットである。 LSAフレームワークは、与えられたネットワークの最も脆弱性のあるレイヤ(MVLリスト)のリストを特定する。 相対誤差は、比較尺度として、敵の攻撃入力に対する各層の表現持続性を評価するために用いられる。 敵の攻撃を阻止する堅牢なニューラルネットワークを得るための提案手法は、敵の訓練(AT)、すなわちAT-LR手順のためのLSA提案に対する層ワイド正規化(LR)に基づいている。 AT-LRは、ネットワーク層の脆弱性を減らし、従来の逆行訓練アプローチを改善するために、あらゆるベンチマーク逆行攻撃で使用できる。 提案手法は,最先端多層パーセプトロンと畳み込みニューラルネットワークアーキテクチャに対して,理論的に実験的によく機能する。 AT-LRとそれに対応するベース対逆訓練と比較して、より重要な摂動の分類精度は、それぞれAT-LRとそれに対応するベース対逆訓練と比較して、月、MNIST、CIFAR-10ベンチマークデータセットで16.35%、21.79%、そして10.730%向上した。 LSAフレームワークはhttps://github.com/k halooei/LSAで公開されている。

Deep neural network models are used today in various applications of artificial intelligence, the strengthening of which, in the face of adversarial attacks is of particular importance. An appropriate solution to adversarial attacks is adversarial training, which reaches a trade-off between robustness and generalization. This paper introduces a novel framework (Layer Sustainability Analysis (LSA)) for the analysis of layer vulnerability in a given neural network in the scenario of adversarial attacks. LSA can be a helpful toolkit to assess deep neural networks and to extend the adversarial training approaches towards improving the sustainability of model layers via layer monitoring and analysis. The LSA framework identifies a list of Most Vulnerable Layers (MVL list) of a given network. The relative error, as a comparison measure, is used to evaluate representation sustainability of each layer against adversarial attack inputs. The proposed approach for obtaining robust neural networks to fend off adversarial attacks is based on a layer-wise regularization (LR) over LSA proposal(s) for adversarial training (AT); i.e. the AT-LR procedure. AT-LR could be used with any benchmark adversarial attack to reduce the vulnerability of network layers and to improve conventional adversarial training approaches. The proposed idea performs well theoretically and experimentally for state-of-the-art multilayer perceptron and convolutional neural network architectures. Compared with the AT-LR and its corresponding base adversarial training, the classification accuracy of more significant perturbations increased by 16.35%, 21.79%, and 10.730% on Moon, MNIST, and CIFAR-10 benchmark datasets in comparison with the AT-LR and its corresponding base adversarial training, respectively. The LSA framework is available and published at https://github.com/k halooei/LSA.
翻訳日:2022-02-10 12:12:56 公開日:2022-02-05
# (参考訳) 変形型クロスエントロピー損失を用いた多言語ヘイトスピーチと攻撃的コンテンツ検出 [全文訳有]

Multilingual Hate Speech and Offensive Content Detection using Modified Cross-entropy Loss ( http://arxiv.org/abs/2202.02635v1 )

ライセンス: CC BY 4.0
Arka Mitra, Priyanshu Sankhala(参考訳) ソーシャルメディア利用者の増加は、このプラットフォームを悪用して悪質なコンテンツを広め、ヘイトスピーチを使う人が多くなっている。 大量のポストを手動で追跡するのは現実的ではないため、それらを素早く識別する自動化手法を考案する必要がある。 大規模な言語モデルは、多くのデータに基づいてトレーニングされ、コンテキスト埋め込みも利用できる。 タスクを支援するために、大きな言語モデルを微調整します。 データのバランスも悪く、修正されたクロスエントロピー損失を使ってこの問題に対処しました。 ヒンディー語コーパスで微調整されたモデルを用いることで,より優れた性能が得られた。 我々のチーム(HNLP)は、それぞれ英語サブタスクAと英語サブタスクBで0.808、0.639のマクロF1スコアを達成した。 Hindi Subtask A, Hindi Subtask Bでは, HASOC 2021でそれぞれ0.737, 0.443のマクロF1スコアを達成した。

The number of increased social media users has led to a lot of people misusing these platforms to spread offensive content and use hate speech. Manual tracking the vast amount of posts is impractical so it is necessary to devise automated methods to identify them quickly. Large language models are trained on a lot of data and they also make use of contextual embeddings. We fine-tune the large language models to help in our task. The data is also quite unbalanced; so we used a modified cross-entropy loss to tackle the issue. We observed that using a model which is fine-tuned in hindi corpora performs better. Our team (HNLP) achieved the macro F1-scores of 0.808, 0.639 in English Subtask A and English Subtask B respectively. For Hindi Subtask A, Hindi Subtask B our team achieved macro F1-scores of 0.737, 0.443 respectively in HASOC 2021.
翻訳日:2022-02-10 11:53:12 公開日:2022-02-05
# (参考訳) 法的支援のための文埋め込みの分類 [全文訳有]

Classification on Sentence Embeddings for Legal Assistance ( http://arxiv.org/abs/2202.02639v1 )

ライセンス: CC BY 4.0
Arka Mitra(参考訳) 法的手続きには多くの時間と費用がかかります。 弁護士は、前例と法令の異なる部分を特定するために、多くの仕事をしなければならない。 本論文は,fire2021 (forum for information retrieval evaluation) で実施される aila2021 (artificial intelligence for legal assistance) における最初の課題を解決することを試みる。 タスクは、文書を7つの事前定義されたラベルまたは「修辞的役割」のうちの1つに意味的に分割することである。 本論文は、BERTを用いて文から文章埋め込みを取得し、次いで線形分類器を用いて最終予測を出力する。 実験により,高い頻度のクラスにより多くの重み付けが割り当てられた場合,より低い頻度のクラスにより多くの重み付けが与えられる場合よりも結果が良いことが示された。 第1タスクでは、NLPはF1得点の0.22を得た。

Legal proceedings take plenty of time and also cost a lot. The lawyers have to do a lot of work in order to identify the different sections of prior cases and statutes. The paper tries to solve the first tasks in AILA2021 (Artificial Intelligence for Legal Assistance) that will be held in FIRE2021 (Forum for Information Retrieval Evaluation). The task is to semantically segment the document into different assigned one of the 7 predefined labels or "rhetorical roles." The paper uses BERT to obtain the sentence embeddings from a sentence, and then a linear classifier is used to output the final prediction. The experiments show that when more weightage is assigned to the class with the highest frequency, the results are better than those when more weightage is given to the class with a lower frequency. In task 1, the team legalNLP obtained a F1 score of 0.22.
翻訳日:2022-02-10 11:43:03 公開日:2022-02-05
# (参考訳) Emblaze: 埋め込み空間の相互比較による機械学習表現のイルミネーション [全文訳有]

Emblaze: Illuminating Machine Learning Representations through Interactive Comparison of Embedding Spaces ( http://arxiv.org/abs/2202.02641v1 )

ライセンス: CC BY 4.0
Venkatesh Sivaraman, Yiwei Wu, Adam Perer(参考訳) 現代の機械学習技術は一般的に、データの基盤構造を捉え性能を向上させるために複雑な高次元の埋め込み表現に依存している。 モデル欠陥を特徴付け、望ましい表現を選択するためには、モデルビルダーは複数の埋め込みスペースをまたいで比較する必要がある。 最初に、さまざまな分野の9人の組込み専門家にインタビューを行い、組込み空間の分析に使用するさまざまな課題とテクニックについて話を聞いた。 これらの観点から,計算ノート環境に埋め込み空間比較を統合するEmblazeという新しいシステムを開発した。 Emblazeは、アニメーションでインタラクティブな散乱プロットと、新しいスタートレイル拡張を使って視覚的比較を可能にする。 また、空間間の興味深い変化を伴う点群を動的に提案するために、新しい近傍解析とクラスタリング手順も採用している。 MLの専門家による一連のケーススタディを通じて、Emblazeとのインタラクティブな比較が、埋め込み空間構造に対する新たな洞察を得る上で、いかに役立つかを実証する。

Modern machine learning techniques commonly rely on complex, high-dimensional embedding representations to capture underlying structure in the data and improve performance. In order to characterize model flaws and choose a desirable representation, model builders often need to compare across multiple embedding spaces, a challenging analytical task supported by few existing tools. We first interviewed nine embedding experts in a variety of fields to characterize the diverse challenges they face and techniques they use when analyzing embedding spaces. Informed by these perspectives, we developed a novel system called Emblaze that integrates embedding space comparison within a computational notebook environment. Emblaze uses an animated, interactive scatter plot with a novel Star Trail augmentation to enable visual comparison. It also employs novel neighborhood analysis and clustering procedures to dynamically suggest groups of points with interesting changes between spaces. Through a series of case studies with ML experts, we demonstrate how interactive comparison with Emblaze can help gain new insights into embedding space structure.
翻訳日:2022-02-10 11:36:40 公開日:2022-02-05
# (参考訳) RerrFact: 科学的クレーム検証のための証拠検索表現の削減 [全文訳有]

RerrFact: Reduced Evidence Retrieval Representations for Scientific Claim Verification ( http://arxiv.org/abs/2202.02646v1 )

ライセンス: CC BY 4.0
Ashish Rana, Deepanshu Khanna, Muskaan Singh, Tirthankar Ghosal, Harpreet Singh and Prashant Singh Rana(参考訳) デジタル情報メディアの指数的な成長と出版競争により、科学的な誤報がこれまで以上に広まりつつある。 しかし、ある科学的主張を事実検証する仕事は研究者にとっても単純ではない。 科学的クレームの検証は、信頼できる科学的情報源からの証拠の支持と反論を実証するために、ドメインの専門家からの深い知識と多大な労力を必要とする。 scifactデータセットおよび対応するタスクは、ソース抽象から関連する証拠を抽出および同化することにより、自動的に科学クレーム検証システムを開発するためのベンチマークリーダーボードをコミュニティに提供する。 本稿では,scifact leaderboardのように,予測サブタスク毎にバイナリ分類を逐次実行するモジュール方式を提案する。 我々の単純な分類器ベースのアプローチは、抽象表現を減らして関連する抽象情報を検索する。 これらは関連する合理的選択モデルをトレーニングするためにさらに使用される。 最後に,2段階の姿勢予測を行い,まず非関係性理論を区別し,その後に与えられた主張に対する支持あるいは反論の根拠を同定する。 実験では,本システムでは,微調整や簡単な設計,モデルパラメータのごく一部を伴わずに,大規模,モジュラー,ジョイントモデリングのアプローチに対して,リーダボード上で競争的に公平に設計する。 コードベースはhttps://github.com/a shishrana160796/rerr factで利用可能です。

Exponential growth in digital information outlets and the race to publish has made scientific misinformation more prevalent than ever. However, the task to fact-verify a given scientific claim is not straightforward even for researchers. Scientific claim verification requires in-depth knowledge and great labor from domain experts to substantiate supporting and refuting evidence from credible scientific sources. The SciFact dataset and corresponding task provide a benchmarking leaderboard to the community to develop automatic scientific claim verification systems via extracting and assimilating relevant evidence rationales from source abstracts. In this work, we propose a modular approach that sequentially carries out binary classification for every prediction subtask as in the SciFact leaderboard. Our simple classifier-based approach uses reduced abstract representations to retrieve relevant abstracts. These are further used to train the relevant rationale-selection model. Finally, we carry out two-step stance predictions that first differentiate non-relevant rationales and then identify supporting or refuting rationales for a given claim. Experimentally, our system RerrFact with no fine-tuning, simple design, and a fraction of model parameters fairs competitively on the leaderboard against large-scale, modular, and joint modeling approaches. We make our codebase available at https://github.com/a shishrana160796/Rerr Fact.
翻訳日:2022-02-10 11:12:28 公開日:2022-02-05
# (参考訳) 決定木のためのバックトラックティーブレーキング:デオデータ予測器について [全文訳有]

Backtrack Tie-Breaking for Decision Trees: A Note on Deodata Predictors ( http://arxiv.org/abs/2202.03865v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) 決定木において予測されたクラスまたは結果を選択するためのタイブレーキング手法を提案する。 この方法は、デオデータ予測器に使用される同様の手法の適応である。

A tie-breaking method is proposed for choosing the predicted class, or outcome, in a decision tree. The method is an adaptation of a similar technique used for deodata predictors.
翻訳日:2022-02-10 11:03:56 公開日:2022-02-05
# (参考訳) 一般化Gated Linear NetworkにおけるグラディエントDescentのインプリシトバイアス [全文訳有]

The Implicit Bias of Gradient Descent on Generalized Gated Linear Networks ( http://arxiv.org/abs/2202.02649v1 )

ライセンス: CC BY 4.0
Samuel Lippl, L. F. Abbott, SueYeon Chung(参考訳) 深層ニューラルネットワークの漸近的学習の漸近的挙動を理解することは,帰納的バイアスの解明とネットワーク性能の向上に不可欠である。 我々は、数学的に扱いやすいディープ非線形ニューラルネットワークのクラスであるgated linear networks(glns)の無限時間トレーニング限界を導出し、それらの結果を一般の等質多項式によって記述されたゲートネットワークに一般化する。 結果の意義について検討し,まず2層glnに着目した。 次に、MNISTで訓練されたGLNに理論予測を適用し、アーキテクチャ制約と勾配降下の暗黙バイアスがパフォーマンスにどのように影響するかを示す。 最後に,本理論がreluネットワークの帰納的バイアスのかなりの部分を捉えていることを示す。 帰納的バイアスを明確にすることで、我々のフレームワークはより効率的で生物学的に妥当で堅牢な学習アルゴリズムの開発を知らせる。

Understanding the asymptotic behavior of gradient-descent training of deep neural networks is essential for revealing inductive biases and improving network performance. We derive the infinite-time training limit of a mathematically tractable class of deep nonlinear neural networks, gated linear networks (GLNs), and generalize these results to gated networks described by general homogeneous polynomials. We study the implications of our results, focusing first on two-layer GLNs. We then apply our theoretical predictions to GLNs trained on MNIST and show how architectural constraints and the implicit bias of gradient descent affect performance. Finally, we show that our theory captures a substantial portion of the inductive bias of ReLU networks. By making the inductive bias explicit, our framework is poised to inform the development of more efficient, biologically plausible, and robust learning algorithms.
翻訳日:2022-02-10 11:02:01 公開日:2022-02-05
# (参考訳) MLモデルにおける繰り返し説明のゲーム理論的理解 [全文訳有]

A Game-theoretic Understanding of Repeated Explanations in ML Models ( http://arxiv.org/abs/2202.02659v1 )

ライセンス: CC BY 4.0
Kavita Kumari (1), Murtuza Jadliwala (1), Sumit Kumar Jha (1), Anindya Maiti (2) ((1) University of Texas, San Antonio, (2) University of Oklahoma)(参考訳) 本稿では,機械学習(ml)モデルと関連する説明法からなるシステムと,ゲーム理論を用いて予測・ラベルと問合せ/入力の説明を求めるエンドユーザとの戦略的反復インタラクションを形式的にモデル化する。 このゲームでは、悪意のあるエンドユーザは、いつクエリを停止し、システムの妥協を試みるのかを戦略的に決定しなければならないが、システムでは、エンドユーザーと(騒がしい説明の形で)共有すべき情報量と、いつ共有を停止すべきかを戦略的に決定しなければならない。 本稿では,連続時間確率的シグナリングゲームフレームワークを用いて,このトレードオフを形式的にモデル化し,マルコフ完全平衡状態の特徴付けを行う。

This paper formally models the strategic repeated interactions between a system, comprising of a machine learning (ML) model and associated explanation method, and an end-user who is seeking a prediction/label and its explanation for a query/input, by means of game theory. In this game, a malicious end-user must strategically decide when to stop querying and attempt to compromise the system, while the system must strategically decide how much information (in the form of noisy explanations) it should share with the end-user and when to stop sharing, all without knowing the type (honest/malicious) of the end-user. This paper formally models this trade-off using a continuous-time stochastic Signaling game framework and characterizes the Markov perfect equilibrium state within such a framework.
翻訳日:2022-02-10 10:30:13 公開日:2022-02-05
# パズル型記憶システムにおける複数項目検索のための強化学習

Reinforcement learning for multi-item retrieval in the puzzle-based storage system ( http://arxiv.org/abs/2202.03424v1 )

ライセンス: Link先を確認
Jing He, Xinglu Liu, Qiyao Duan, Wai Kin Victor Chan, Mingyao Qi(参考訳) 今日では、高速配送サービスが高密度倉庫の必要性を生み出している。 パズルベースの記憶システムは,検索プロセスの困難に直面しながら,記憶密度を高めるための実用的な方法である。 本研究では,複数の所望アイテム,エスコート,I/Oポイントをランダムに配置するシステムにおいて,多項目検索問題を解決するために,深層強化学習アルゴリズム,特にDouble&Dueling Deep Q Networkを開発した。 さらに,解の質を評価するための汎用コンパクト整数プログラミングモデルを提案する。 広範な数値実験により、強化学習アプローチは高品質な解を生み出し、関連する3つの最先端ヒューリスティックアルゴリズムを上回ることが示されている。 さらに,同時移動と大規模インスタンスを処理するために,変換アルゴリズムと分解フレームワークを提案し,pbsシステムの適用性が向上した。

Nowadays, fast delivery services have created the need for high-density warehouses. The puzzle-based storage system is a practical way to enhance the storage density, however, facing difficulties in the retrieval process. In this work, a deep reinforcement learning algorithm, specifically the Double&Dueling Deep Q Network, is developed to solve the multi-item retrieval problem in the system with general settings, where multiple desired items, escorts, and I/O points are placed randomly. Additionally, we propose a general compact integer programming model to evaluate the solution quality. Extensive numerical experiments demonstrate that the reinforcement learning approach can yield high-quality solutions and outperforms three related state-of-the-art heuristic algorithms. Furthermore, a conversion algorithm and a decomposition framework are proposed to handle simultaneous movement and large-scale instances respectively, thus improving the applicability of the PBS system.
翻訳日:2022-02-09 15:01:42 公開日:2022-02-05
# 深層学習関数が画像から学習する特徴空間における決定境界と凸殻

Decision boundaries and convex hulls in the feature space that deep learning functions learn from images ( http://arxiv.org/abs/2202.04052v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 画像分類と学習におけるディープニューラルネットワークの成功は、画像から抽出した特徴によるものである。 しばしば、モデルが画像から抽出し学習する低次元多様体の性質について推測される。 しかし、この低次元空間についての理論や経験的証拠に基づく十分な理解がない。 画像分類モデルでは、最後に隠されたレイヤは、各クラスのイメージが他のクラスから分離され、最小限の機能を持つ層である。 ここでは,任意のモデルの特徴空間を研究するための手法と定式化について述べる。 我々は,特徴空間における領域分割を研究し,特定の分類を保証された領域を特定し,その画素空間に対する影響について検討する。 特徴空間における決定境界の幾何学的配置は画素空間とは大きく異なり、対角的脆弱性、画像の変形、外挿、分類のあいまいさ、画像分類モデルの数学的理解に関する洞察を提供する。

The success of deep neural networks in image classification and learning can be partly attributed to the features they extract from images. It is often speculated about the properties of a low-dimensional manifold that models extract and learn from images. However, there is not sufficient understanding about this low-dimensional space based on theory or empirical evidence. For image classification models, their last hidden layer is the one where images of each class is separated from other classes and it also has the least number of features. Here, we develop methods and formulations to study that feature space for any model. We study the partitioning of the domain in feature space, identify regions guaranteed to have certain classifications, and investigate its implications for the pixel space. We observe that geometric arrangements of decision boundaries in feature space is significantly different compared to pixel space, providing insights about adversarial vulnerabilities, image morphing, extrapolation, ambiguity in classification, and the mathematical understanding of image classification models.
翻訳日:2022-02-09 13:51:23 公開日:2022-02-05
# less is more: 不確実性を考慮した予測分析による可逆性ステガノグラフィ

Less is More: Reversible Steganography with Uncertainty-Aware Predictive Analytics ( http://arxiv.org/abs/2202.02518v1 )

ライセンス: Link先を確認
Ching-Chun Chang, Xu Wang, Sisheng Chen and Isao Echizen(参考訳) 人工ニューラルネットワークは、可逆性ステガノグラフィーのフロンティアを進歩させた。 ニューラルネットワークの中核となる強みは、さまざまなデータに対して正確な予測を行う能力である。 残差変調はデジタル画像の最も先進的な可逆ステガノグラフィーアルゴリズムとして認識され、そのピボットは予測モジュールである。 このモジュールの機能は、ピクセル毎のコンテキスト情報からピクセル強度を予測することである。 このタスクは低レベルの視覚問題として認識することができ、同様の問題に対処するニューラルネットワークをデプロイすることができる。 本稿では,先行技術に基づいて予測不確実性を解析し,高いレベルの不確実性に遭遇した場合に,予測モジュールを停止するオプションを付与する。 不確実性解析は画素レベルのバイナリ分類問題として定式化することができ、教師なし学習と教師なし学習の両方によって取り組まれる。 手作りの統計分析とは対照的に、学習ベースの分析はいくつかの一般的な統計原則に従うことを学び、同時に特定の予測器に適応することができる。 実験の結果, 学習に基づく不確実性解析器を用いて予測不能領域を適応的にフィルタリングすることにより, ステガノグラフィーの性能が著しく向上することがわかった。

Artificial neural networks have advanced the frontiers of reversible steganography. The core strength of neural networks is the ability to render accurate predictions for a bewildering variety of data. Residual modulation is recognised as the most advanced reversible steganographic algorithm for digital images and the pivot of which is the predictive module. The function of this module is to predict pixel intensity given some pixel-wise contextual information. This task can be perceived as a low-level vision problem and hence neural networks for addressing a similar class of problems can be deployed. On top of the prior art, this paper analyses the predictive uncertainty and endows the predictive module with the option to abstain when encountering a high level of uncertainty. Uncertainty analysis can be formulated as a pixel-level binary classification problem and tackled by both supervised and unsupervised learning. In contrast to handcrafted statistical analytics, learning-based analytics can learn to follow some general statistical principles and simultaneously adapt to a specific predictor. Experimental results show that steganographic performance can be remarkably improved by adaptively filtering out the unpredictable regions with the learning-based uncertainty analysers.
翻訳日:2022-02-08 18:50:23 公開日:2022-02-05
# SEED:証拠不確実性による音事象早期検出

SEED: Sound Event Early Detection via Evidential Uncertainty ( http://arxiv.org/abs/2202.02441v1 )

ライセンス: Link先を確認
Xujiang Zhao, Xuchao Zhang, Wei Cheng, Wenchao Yu, Yuncong Chen, Haifeng Chen, Feng Chen(参考訳) 音響イベント早期検出(seed)は,音響環境と音環境を認識する上で重要な課題である。 しかし、既存の手法のほとんどは、初期イベント検出の過信問題に悩まされ、通常は信頼性の低い結果をもたらすオフライン音声イベント検出に焦点を当てている。 この問題を解決するために,ベータ分布を伴うクラス確率の明らかな不確かさをモデル化する新しいポリフォニック・エビデンシャルニューラルネットワーク(PENet)を提案する。 具体的には, クラス確率分布のモデル化にベータ分布を用い, 不確かさは, 信頼性の高い予測において中心的な役割を果たすエビデンス情報を含む不確実性表現を豊かにする。 イベント検出性能をさらに向上するため,現在進行中のイベントの前方および後方の音声特徴を利用したバックトラック推定手法の設計を行う。 desedデータベースを用いた実験により,提案手法は13.0\%と3.8\%の時間遅延と検出f1スコアを同時に改善できることがわかった。

Sound Event Early Detection (SEED) is an essential task in recognizing the acoustic environments and soundscapes. However, most of the existing methods focus on the offline sound event detection, which suffers from the over-confidence issue of early-stage event detection and usually yield unreliable results. To solve the problem, we propose a novel Polyphonic Evidential Neural Network (PENet) to model the evidential uncertainty of the class probability with Beta distribution. Specifically, we use a Beta distribution to model the distribution of class probabilities, and the evidential uncertainty enriches uncertainty representation with evidence information, which plays a central role in reliable prediction. To further improve the event detection performance, we design the backtrack inference method that utilizes both the forward and backward audio features of an ongoing event. Experiments on the DESED database show that the proposed method can simultaneously improve 13.0\% and 3.8\% in time delay and detection F1 score compared to the state-of-the-art methods.
翻訳日:2022-02-08 18:48:58 公開日:2022-02-05
# Deep-HyROMnet:非線形パラメトリックPDEの超減算のためのディープラーニングに基づく演算子近似

Deep-HyROMnet: A deep learning-based operator approximation for hyper-reduction of nonlinear parametrized PDEs ( http://arxiv.org/abs/2202.02658v1 )

ライセンス: Link先を確認
Ludovica Cicci, Stefania Fresca, Andrea Manzoni(参考訳) パラメータ化微分問題の解を高速化するために、リダクションベースROM(reduce-basis(RB) 法、ディープラーニングベースのROM、機械学習アプローチによるサロゲートモデルなど、何年もの間、リダクションモデル(ROM)が開発されてきた。 物理に基づく構造により、フルオーダーモデル(FOM)のガレルキン射影(英語版)を線形低次元部分空間に使用することで、RB法は、手元の物理問題を満たす近似を導出する。 しかし、FOM次元に依存しないROMを組み立てるためには、離散的経験補間法(DEIM)のような侵入的かつ高価な超減算段階が必要であり、この戦略は(高次多項式や非ポリノミカル)非線形性によって特徴づけられる問題に対して実現不可能である。 このボトルネックを克服するために,ディープニューラルネットワーク(DNN)を用いた非線形ROM演算子学習手法を提案する。 ディープニューラルネットワークによって強化された超縮小次数モデル(deep-hyromnet)は、後に物理ベースのモデルとなり、まだrb法に依拠しているが、ガレルキン射影が実行されると、dnnアーキテクチャを用いて残差ベクトルとヤコビ行列を近似する。 非線形構造力学における高速シミュレーションの数値計算結果から,Deep-HyROMnet はPOD-Galerkin-DEIM ROM よりも桁違いに高速であり,精度は同等であった。

To speed-up the solution to parametrized differential problems, reduced order models (ROMs) have been developed over the years, including projection-based ROMs such as the reduced-basis (RB) method, deep learning-based ROMs, as well as surrogate models obtained via a machine learning approach. Thanks to its physics-based structure, ensured by the use of a Galerkin projection of the full order model (FOM) onto a linear low-dimensional subspace, RB methods yield approximations that fulfill the physical problem at hand. However, to make the assembling of a ROM independent of the FOM dimension, intrusive and expensive hyper-reduction stages are usually required, such as the discrete empirical interpolation method (DEIM), thus making this strategy less feasible for problems characterized by (high-order polynomial or nonpolynomial) nonlinearities. To overcome this bottleneck, we propose a novel strategy for learning nonlinear ROM operators using deep neural networks (DNNs). The resulting hyper-reduced order model enhanced by deep neural networks, to which we refer to as Deep-HyROMnet, is then a physics-based model, still relying on the RB method approach, however employing a DNN architecture to approximate reduced residual vectors and Jacobian matrices once a Galerkin projection has been performed. Numerical results dealing with fast simulations in nonlinear structural mechanics show that Deep-HyROMnets are orders of magnitude faster than POD-Galerkin-DEIM ROMs, keeping the same level of accuracy.
翻訳日:2022-02-08 18:48:42 公開日:2022-02-05
# 最小限の回帰と分類に必要なのは一番近い検索

One-Nearest-Neighbor Search is All You Need for Minimax Optimal Regression and Classification ( http://arxiv.org/abs/2202.02464v1 )

ライセンス: Link先を確認
J. Jon Ryu and Young-Han Kim(参考訳) 近年,Qiao,Duan,Cheng~(20 19) は,大規模データセットを小さなグループに分割し,それぞれが$k$-nearest-neighbor 分類器で処理し,最終クラスラベルをこれらのグループワイドクラスラベルの多数投票によって予測する分散近傍分類法を提案した。 本稿では,ある正規性条件下での乗算対数係数までの最小誤差率を,回帰問題と分類問題の両方に対して,十分な数のグループに対して$k=1$の分散アルゴリズムが達成可能であることを示す。 大まかに言えば、分散1-nearest-neighborルールは$m$グループで、標準の$\theta(m)$-nearest- neighborルールに匹敵するパフォーマンスを持つ。 分析では, 改良された集約法による代替ルールを提案し, 最適な最小値が得られることを示した。

Recently, Qiao, Duan, and Cheng~(2019) proposed a distributed nearest-neighbor classification method, in which a massive dataset is split into smaller groups, each processed with a $k$-nearest-neighbor classifier, and the final class label is predicted by a majority vote among these groupwise class labels. This paper shows that the distributed algorithm with $k=1$ over a sufficiently large number of groups attains a minimax optimal error rate up to a multiplicative logarithmic factor under some regularity conditions, for both regression and classification problems. Roughly speaking, distributed 1-nearest-neighbor rules with $M$ groups has a performance comparable to standard $\Theta(M)$-nearest- neighbor rules. In the analysis, alternative rules with a refined aggregation method are proposed and shown to attain exact minimax optimal rates.
翻訳日:2022-02-08 18:41:47 公開日:2022-02-05
# セキュアなマルチパーティ計算による個人モデルの訓練

Training Differentially Private Models with Secure Multiparty Computation ( http://arxiv.org/abs/2202.02625v1 )

ライセンス: Link先を確認
Sikha Pentyala, Davis Railsback, Ricardo Maia, Rafael Dowsley, David Melanson, Anderson Nascimento, Martine De Cock(参考訳) 本稿では,複数のデータ所有者を起源とするトレーニングデータから,各所有者のデータ保護に関する形式的プライバシー保証を提供しながら,機械学習モデルを学ぶ問題に対処する。 ディファレンシャルプライバシ(dp)に基づく既存のソリューションは、精度の低下を犠牲にしてこれを達成する。 Secure Multiparty Computation (MPC) に基づくソリューションは、そのような精度の損失を生じさせるのではなく、トレーニングされたモデルが公開されているときにリーク情報をもたらす。 DPモデルのトレーニングのためのMPCソリューションを提案する。 提案手法は,モデルトレーニングのためのMPCプロトコルと,学習したモデル係数をLaplaceノイズでプライバシー保護的に摂動するMPCプロトコルに依存している。 結果として得られるMPC+DPアプローチは、同じ正式なプライバシー保証を提供しながら、純粋なDPアプローチよりも高い精度を達成する。 我々の研究は、セキュアゲノム解析のための機密コンピューティングに関するidash2021トラックiiiコンペティションで1位を獲得した。

We address the problem of learning a machine learning model from training data that originates at multiple data owners while providing formal privacy guarantees regarding the protection of each owner's data. Existing solutions based on Differential Privacy (DP) achieve this at the cost of a drop in accuracy. Solutions based on Secure Multiparty Computation (MPC) do not incur such accuracy loss but leak information when the trained model is made publicly available. We propose an MPC solution for training DP models. Our solution relies on an MPC protocol for model training, and an MPC protocol for perturbing the trained model coefficients with Laplace noise in a privacy-preserving manner. The resulting MPC+DP approach achieves higher accuracy than a pure DP approach while providing the same formal privacy guarantees. Our work obtained first place in the iDASH2021 Track III competition on confidential computing for secure genome analysis.
翻訳日:2022-02-08 18:21:29 公開日:2022-02-05
# Weisfeiler-Lehman、Gromov-Wassersteinと出会う

Weisfeiler-Lehman meets Gromov-Wasserstein ( http://arxiv.org/abs/2202.02495v1 )

ライセンス: Link先を確認
Samantha Chen, Sunhyuk Lim, Facundo M\'emoli, Zhengchao Wan, Yusu Wang(参考訳) weisfeiler-lehman (wl) テストはグラフ同型テストの古典的な手順である。 wlテストはまた、グラフカーネルの設計とグラフニューラルネットワークの解析の両方に広く使われている。 本稿では,ラベル付きグラフが特別な場合であるラベル付き測度マルコフ鎖(lmmcs)間の距離の概念であるweisfeiler-lehman(wl )距離を提案する。 WL 距離は多項式時間計算可能であり、前者が正であることと WL テストが関連する2つのグラフを区別できる場合に限り、WL テストと互換性がある。 wl距離は基礎となるlmmcの微妙な構造を捉えて比較し、その結果、最先端のwasserstein weisfeiler-lehmanグラフカーネルを定義するのに使用されるグラフ間の距離よりも識別性が高い。 WL距離の構造に着想を得て、WL距離が与えられたすべてのLMMC(全グラフを含む)の空間上で定義される普遍的なw.r.t.連続関数である、LMMC上のニューラルネットワークアーキテクチャを同定する。 最後に、WL 距離は安定であることが判明し、Gromov-Wasserstein (GW) 距離の自然な変種は、私たちが同定した計量マルコフ連鎖を比較するためのものである。 したがって、WL 距離は一般の NP-ハードである GW 距離の多項式時間下界として解釈することもできる。

The Weisfeiler-Lehman (WL) test is a classical procedure for graph isomorphism testing. The WL test has also been widely used both for designing graph kernels and for analyzing graph neural networks. In this paper, we propose the Weisfeiler-Lehman (WL) distance, a notion of distance between labeled measure Markov chains (LMMCs), of which labeled graphs are special cases. The WL distance is polynomial time computable and is also compatible with the WL test in the sense that the former is positive if and only if the WL test can distinguish the two involved graphs. The WL distance captures and compares subtle structures of the underlying LMMCs and, as a consequence of this, it is more discriminating than the distance between graphs used for defining the state-of-the-art Wasserstein Weisfeiler-Lehman graph kernel. Inspired by the structure of the WL distance we identify a neural network architecture on LMMCs which turns out to be universal w.r.t. continuous functions defined on the space of all LMMCs (which includes all graphs) endowed with the WL distance. Finally, the WL distance turns out to be stable w.r.t. a natural variant of the Gromov-Wasserstein (GW) distance for comparing metric Markov chains that we identify. Hence, the WL distance can also be construed as a polynomial time lower bound for the GW distance which is in general NP-hard to compute.
翻訳日:2022-02-08 17:47:00 公開日:2022-02-05
# アクティブラーニングによるテキスト分類における確率モデルの改善

Improving Probabilistic Models in Text Classification via Active Learning ( http://arxiv.org/abs/2202.02629v1 )

ライセンス: Link先を確認
Mitchell Bosley, Saki Kuzushima, Ted Enamorado, Yuki Shiraito(参考訳) テキストデータを使用する場合、社会科学者はしばしば文書を分類し、その結果の文書ラベルを結果または予測子として使用する。 大量の文書を手動でラベル付けすることは、非常にコストがかかるため、自動テキスト分類が標準ツールとなっている。 しかし, テキスト分類における現在のアプローチは, 処理時のすべてのデータを活用するものではない。 本稿では,ラベル付きデータとラベルなしデータの両方からの情報をアクティブな学習コンポーネントと組み合わせた,テキスト分類のための高速な新しいモデルを提案する。 ウィキペディアの議論ページ、BBCニュース記事、米国最高裁判所の歴史的意見、人権侵害疑惑のテキストデータを用いて、未ラベルデータの構造に関する情報を導入し、不確実な文書を反復的にラベル付けすることで、我々のモデルは分類器と比較してパフォーマンスを向上させる。 (a)ラベル付きデータからの情報のみを使用する b) 少数の文書を手動でラベル付けするコストで、どの文書をラベル付けするかをランダムに決定する。

When using text data, social scientists often classify documents in order to use the resulting document labels as an outcome or predictor. Since it is prohibitively costly to label a large number of documents manually, automated text classification has become a standard tool. However, current approaches for text classification do not take advantage of all the data at one's disposal. We propose a fast new model for text classification that combines information from both labeled and unlabeled data with an active learning component, where a human iteratively labels documents that the algorithm is least certain about. Using text data from Wikipedia discussion pages, BBC News articles, historical US Supreme Court opinions, and human rights abuse allegations, we show that by introducing information about the structure of unlabeled data and iteratively labeling uncertain documents, our model improves performance relative to classifiers that (a) only use information from labeled data and (b) randomly decide which documents to label at the cost of manually labelling a small number of documents.
翻訳日:2022-02-08 17:30:49 公開日:2022-02-05
# PrivPAS: リアルタイムプライバシ保護AIシステムと倫理の適用

PrivPAS: A real time Privacy-Preserving AI System and applied ethics ( http://arxiv.org/abs/2202.02524v1 )

ライセンス: Link先を確認
Harichandana B S S, Vibhav Agarwal, Sourav Ghosh, Gopi Ramena, Sumit Kumar andd Barath Raj Kandur Raja(参考訳) 2021年には全世界で38億人のソーシャルメディアユーザーがいて(人口の48%)、毎日30億近い画像が共有されている。 同時に、スマートフォンのカメラが一貫した進化を遂げたことにより、写真の爆発が起こり、新しい写真の85%がスマートフォンで撮影された。 しかし、近年、撮影されている人物が撮影されている写真に気づいていない場合や、共有されている写真について予約している場合、プライバシーに関する懸念が高まりつつある。 こうしたプライバシー侵害は、障害を抱えている人々に対して増幅され、たとえ認識していたとしても、不満を抱くことが難しいと感じるかもしれない。 このような不正なイメージキャプチャは、第三者組織による同情を得るために誤用される可能性があり、プライバシー侵害につながる。 障害を持つ人々に対するプライバシは、これまで、AIコミュニティから比較的少ない注目を集めてきた。 これは、スマートフォンユーザーのviewfinderコンテンツのあらゆる感度に対する意識を高めるために、プライバシーに配慮したヒントを生み出すためのソリューションに取り組みたいというモチベーションを与えます。 この目的のために、センシティブなコンテンツを識別する新しいフレームワークであるPrivPAS(リアルタイムプライバシ保存AIシステム)を導入する。 さらに、アクセシビリティマーカーを特定してローカライズするためにデータセットをキュレートし、アノテートし、障害のある被写体にイメージが敏感かどうかを分類する。 提案する軽量アーキテクチャは,メモリフットプリントがわずか8.49mbで,リソース制約のあるデバイス上で89.52%の高マップを実現する。 さらに、顔匿名化データに基づいてトレーニングされたパイプラインは、f1-scoreを73.1%で達成する。

With 3.78 billion social media users worldwide in 2021 (48% of the human population), almost 3 billion images are shared daily. At the same time, a consistent evolution of smartphone cameras has led to a photography explosion with 85% of all new pictures being captured using smartphones. However, lately, there has been an increased discussion of privacy concerns when a person being photographed is unaware of the picture being taken or has reservations about the same being shared. These privacy violations are amplified for people with disabilities, who may find it challenging to raise dissent even if they are aware. Such unauthorized image captures may also be misused to gain sympathy by third-party organizations, leading to a privacy breach. Privacy for people with disabilities has so far received comparatively less attention from the AI community. This motivates us to work towards a solution to generate privacy-conscious cues for raising awareness in smartphone users of any sensitivity in their viewfinder content. To this end, we introduce PrivPAS (A real time Privacy-Preserving AI System) a novel framework to identify sensitive content. Additionally, we curate and annotate a dataset to identify and localize accessibility markers and classify whether an image is sensitive to a featured subject with a disability. We demonstrate that the proposed lightweight architecture, with a memory footprint of a mere 8.49MB, achieves a high mAP of 89.52% on resource-constrained devices. Furthermore, our pipeline, trained on face anonymized data, achieves an F1-score of 73.1%.
翻訳日:2022-02-08 17:30:10 公開日:2022-02-05
# DEVO: 密閉条件下での深度カメラ画像オドメトリー

DEVO: Depth-Event Camera Visual Odometry in Challenging Conditions ( http://arxiv.org/abs/2202.02556v1 )

ライセンス: Link先を確認
Yi-Fan Zuo, Jiaqi Yang, Jiaben Chen, Xia Wang, Yifu Wang, Laurent Kneip(参考訳) 本稿では,深度・高解像度イベントカメラのステレオセットアップのための新しいリアルタイムビジュアルオドメトリーフレームワークを提案する。 本フレームワークは, 計算効率に対する精度と堅牢性を, 挑戦シナリオにおける高い性能にバランスさせる。 イベントストリームから得られる時間面マップに対して,従来のエッジベース半深度視覚計測を拡張した。 外部校正深度カメラの対応する深度値をワープして半深度マップを生成する。 トラッキングモジュールは、効率的で幾何学的な3D-2Dエッジアライメントを通じてカメラのポーズを更新する。 提案手法は,各種条件下で収集したパブリックデータセットとセルフコレクションデータセットの両方で検証される。 提案手法は通常の条件下では最先端のrgb-dカメラに匹敵する性能を示し,高ダイナミック性や低照度といった困難な条件下では性能が優れることを示した。

We present a novel real-time visual odometry framework for a stereo setup of a depth and high-resolution event camera. Our framework balances accuracy and robustness against computational efficiency towards strong performance in challenging scenarios. We extend conventional edge-based semi-dense visual odometry towards time-surface maps obtained from event streams. Semi-dense depth maps are generated by warping the corresponding depth values of the extrinsically calibrated depth camera. The tracking module updates the camera pose through efficient, geometric semi-dense 3D-2D edge alignment. Our approach is validated on both public and self-collected datasets captured under various conditions. We show that the proposed method performs comparable to state-of-the-art RGB-D camera-based alternatives in regular conditions, and eventually outperforms in challenging conditions such as high dynamics or low illumination.
翻訳日:2022-02-08 17:29:46 公開日:2022-02-05
# オフライン強化学習のための逆学習アクター批判

Adversarially Trained Actor Critic for Offline Reinforcement Learning ( http://arxiv.org/abs/2202.02446v1 )

ライセンス: Link先を確認
Ching-An Cheng, Tengyang Xie, Nan Jiang, Alekh Agarwal(参考訳) 我々は,オフラインrlの2人のプレイヤーによるstackelbergゲームに基づく,データカバレッジが不十分なオフライン強化学習のためのモデルフリーな新アルゴリズムであるadversarially training actor critic (atac)を提案する。 我々は、俳優が2人プレイのゲームで後悔を得られない場合、atacを実行することは確実にポリシーを生み出すことを証明します。 1)広範囲のハイパーパラメータに対して行動方針を上回っていること、及び 2) 適切に選択されたハイパーパラメータによるデータでカバーされる最善のポリシーと競合する。 既存の研究と比較して、我々のフレームワークは一般的な関数近似の理論的保証と、複雑な環境や大規模なデータセットにスケーラブルな深いRL実装の両方を提供している。 D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて最先端のオフラインRLアルゴリズムより一貫して優れている。

We propose Adversarially Trained Actor Critic (ATAC), a new model-free algorithm for offline reinforcement learning under insufficient data coverage, based on a two-player Stackelberg game framing of offline RL: A policy actor competes against an adversarially trained value critic, who finds data-consistent scenarios where the actor is inferior to the data-collection behavior policy. We prove that, when the actor attains no regret in the two-player game, running ATAC produces a policy that provably 1) outperforms the behavior policy over a wide range of hyperparameters, and 2) competes with the best policy covered by data with appropriately chosen hyperparameters. Compared with existing works, notably our framework offers both theoretical guarantees for general function approximation and a deep RL implementation scalable to complex environments and large datasets. In the D4RL benchmark, ATAC consistently outperforms state-of-the-art offline RL algorithms on a range of continuous control tasks
翻訳日:2022-02-08 17:04:18 公開日:2022-02-05
# 確率微分方程式系によるグラフのスコアベース生成モデル

Score-based Generative Modeling of Graphs via the System of Stochastic Differential Equations ( http://arxiv.org/abs/2202.02514v1 )

ライセンス: Link先を確認
Jaehyeong Jo, Seul Lee, Sung Ju Hwang(参考訳) グラフ構造化データを生成するには、基礎となるグラフの分布を学ぶ必要がある。 しかし、これは難しい問題であり、以前のグラフ生成法はグラフの置換不変性を捉えることに失敗したり、ノードとエッジの間の複雑な依存性を十分にモデル化できなかったりする。 このような制約を克服するために,連続時間フレームワークを用いたグラフのスコアベース生成モデルを提案する。 具体的には、確率微分方程式系(SDE)を用いて、ノードとエッジの結合分布をモデル化する新しいグラフ拡散過程を提案する。 次に,提案した拡散過程に適した新しいスコアマッチング目標を導出し,各成分に対する関節対数密度の勾配を推定し,逆拡散過程から効率的にサンプリングするSDEシステムのための新しい解法を提案する。 グラフ生成手法を多種多様なデータセット上で検証し、ベースラインに対して大幅に優れているか競争的な性能を達成する。 さらに,本手法は, トレーニング分布に近い分子を生成できるが, 化学価規則に違反しないことを示すとともに, ノードエッジ関係のモデル化におけるSDEシステムの有効性を示す。

Generating graph-structured data requires learning the underlying distribution of graphs. Yet, this is a challenging problem, and the previous graph generative methods either fail to capture the permutation-invarian ce property of graphs or cannot sufficiently model the complex dependency between nodes and edges, which is crucial for generating real-world graphs such as molecules. To overcome such limitations, we propose a novel score-based generative model for graphs with a continuous-time framework. Specifically, we propose a new graph diffusion process that models the joint distribution of the nodes and edges through a system of stochastic differential equations (SDEs). Then, we derive novel score matching objectives tailored for the proposed diffusion process to estimate the gradient of the joint log-density with respect to each component, and introduce a new solver for the system of SDEs to efficiently sample from the reverse diffusion process. We validate our graph generation method on diverse datasets, on which it either achieves significantly superior or competitive performance to the baselines. Further analysis shows that our method is able to generate molecules that lie close to the training distribution yet do not violate the chemical valency rule, demonstrating the effectiveness of the system of SDEs in modeling the node-edge relationships.
翻訳日:2022-02-08 17:02:30 公開日:2022-02-05
# Few-Shot Class Incremental Learning を用いた卓越したコントラスト学習

Exemplar-Based Contrastive Self-Supervised Learning with Few-Shot Class Incremental Learning ( http://arxiv.org/abs/2202.02601v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 人間は少数の(ラベル付きの)例から、段階的かつ継続的に新しい概念を学ぶことができる。 これは、先例者と、前例者と他の大量のデータ(ラベル付きおよびラベル付き)の間で区別できるコンテキスト内で発生します。 これは、人間の学習において、前例に基づく概念の教師付き学習は、ラベルなしおよびラベル付きデータに基づくコントラスト付き自己教師付き学習(CSSL)のより大きなコンテキスト内で行われることを示唆している。 本報告では,cssl(1)を例示とデータ拡張のみに基づいて拡張すること,(2)ラベル付きデータ(一般には大量に利用可能)とラベル付きデータの両方に適用することについて論じる(少数の例示は有意義な教師付き知識で得られる)。 拡張の大きなメリットは、教師付き微調整を備えた模範ベースのCSSLが、数ショットクラスのインクリメンタルラーニング(CIL)をサポートすることだ。 具体的には、隣り合うCSSL、教師付き事前訓練付き近隣CSSL、教師付き微調整付き類似CSSLについて論じる。 さらに、事例ベースのCSSLを用いて、数発の学習、特に数発のCILについて論じる。

Humans are capable of learning new concepts from only a few (labeled) exemplars, incrementally and continually. This happens within the context that we can differentiate among the exemplars, and between the exemplars and large amounts of other data (unlabeled and labeled). This suggests, in human learning, supervised learning of concepts based on exemplars takes place within the larger context of contrastive self-supervised learning (CSSL) based on unlabeled and labeled data. We discuss extending CSSL (1) to be based mainly on exemplars and only secondly on data augmentation, and (2) to apply to both unlabeled data (a large amount is available in general) and labeled data (a few exemplars can be obtained with valuable supervised knowledge). A major benefit of the extensions is that exemplar-based CSSL, with supervised finetuning, supports few-shot class incremental learning (CIL). Specifically, we discuss exemplar-based CSSL including: nearest-neighbor CSSL, neighborhood CSSL with supervised pretraining, and exemplar CSSL with supervised finetuning. We further discuss using exemplar-based CSSL to facilitate few-shot learning and, in particular, few-shot CIL.
翻訳日:2022-02-08 17:02:07 公開日:2022-02-05
# CGL(Covert Geo-Locations)検出のための新しいタスク

Catch Me if You Can: A Novel Task for Detection of Covert Geo-Locations (CGL) ( http://arxiv.org/abs/2202.02567v1 )

ライセンス: Link先を確認
Binoy Saha and Sukhendu Das(参考訳) コンピュータビジョンの分野におけるほとんどの視覚シーン理解タスクは、シーンに存在するオブジェクトの識別を伴う。 シーンの隠れ家、ターン、その他の不明瞭な領域などの画像領域も、特定の監視タスクのために重要な情報を含んでいる。 本稿では,画像中のそのような位置を識別するための知的視覚補助装置の設計について述べる。敵から差し迫った脅威を発生させる可能性や,さらなる調査を必要とする対象領域として現れる可能性について述べる。 対象物の後ろに隠れるカバー場所(CGL)を3D位置を隠蔽し、視点(カメラ)から検出できない。 したがって、occludingオブジェクトの外側境界の投影の周りの特定の画像領域を、潜在的な隠れ場所の周りでアクセス可能な場所として記述する。 CGL検出は、探索ロボットの経路計画による軍事的対緊急作戦、監視に応用される。 RGB画像が与えられた場合、ゴールは2Dシーン内のすべてのCGLを特定することである。 そのような地域を特定するには、周囲の地域に関する空間的位置(ピラー、家具)の3次元境界に関する知識が必要となる。 本研究では,CGL(Covert Geo-Location)検出と呼ばれる新しいタスクを提案する。 画像の任意の領域を(隠蔽を隠蔽する隠蔽対象の境界部分として)CGLとして分類するには、隠蔽対象の境界とそれらの近傍と周囲の境界の間の3D関係を調べる必要がある。 提案手法は,1枚のRGB画像から関連する深度特徴を抽出し,CGL検出に適応・訓練された既存の物体検出およびセグメント化モデルに対して,定量的に有意な改善をもたらす。 また,実験用の1.5k実世界画像を含む手書きのcgl検出データセットも紹介する。

Most visual scene understanding tasks in the field of computer vision involve identification of the objects present in the scene. Image regions like hideouts, turns, & other obscured regions of the scene also contain crucial information, for specific surveillance tasks. Task proposed in this paper involves the design of an intelligent visual aid for identification of such locations in an image, which has either the potential to create an imminent threat from an adversary or appear as the target zones needing further investigation. Covert places (CGL) for hiding behind an occluding object are concealed 3D locations, not detectable from the viewpoint (camera). Hence this involves delineating specific image regions around the projections of outer boundary of the occluding objects, as places to be accessed around the potential hideouts. CGL detection finds applications in military counter-insurgency operations, surveillance with path planning for an exploratory robot. Given an RGB image, the goal is to identify all CGLs in the 2D scene. Identification of such regions would require knowledge about the 3D boundaries of obscuring items (pillars, furniture), their spatial location with respect to the neighboring regions of the scene. We propose this as a novel task, termed Covert Geo-Location (CGL) Detection. Classification of any region of an image as a CGL (as boundary sub-segments of an occluding object that conceals the hideout) requires examining the 3D relation between boundaries of occluding objects and their neighborhoods & surroundings. Our method successfully extracts relevant depth features from a single RGB image and quantitatively yields significant improvement over existing object detection and segmentation models adapted and trained for CGL detection. We also introduce a novel hand-annotated CGL detection dataset containing 1.5K real-world images for experimentation.
翻訳日:2022-02-08 16:42:44 公開日:2022-02-05
# leapmood: 遺伝的アルゴリズム駆動ハイパーパラメータチューニングによるムード予測のための軽量かつ効率的なアーキテクチャ

LEAPMood: Light and Efficient Architecture to Predict Mood with Genetic Algorithm driven Hyperparameter Tuning ( http://arxiv.org/abs/2202.02522v1 )

ライセンス: Link先を確認
Harichandana B S S and Sumit Kumar(参考訳) 気分の正確な自動検出は、ユーザプロファイリングのようなユースケースのためのビルディングブロックとして機能し、それによって広告やレコメンデーションシステムなどのアプリケーションに電力を供給する。 個人の気分を示す主要な情報源は、テキストデータである。 感情認識に関する研究は盛んに行われているが、気分予測の分野ではほとんど研究されていない。 さらに、オンデバイス参照の分野では、ユーザのプライバシーの観点から非常に重要な作業がほとんど行われていません。 本稿では,テキストデータであるleapmoodから気分を予測するための,デバイス上でのディープラーニングアプローチを初めて提案する。 遺伝的アルゴリズム(ga)に基づくハイパーパラメータチューニングのための,新しいオンデバイス配置指向目的関数を用いて,性能とサイズに関するパラメータを最適化する。 LEAPMood は、最初のビルディングブロックとして Emotion Recognition in Conversion (ERC) で構成され、その後 K-means クラスタリングを用いて気分予測を行う。 本研究では, 文字埋め込み, 音声ハッシュ, 注意の組み合わせと条件付きランダムフィールド(CRF)を併用することにより, モデルサイズ(以上90%)の大幅な削減を図り, 現状の状態-Of-the-Artに匹敵する性能が得られることを示す。 DailyDialogデータセット上のわずか1.67MBのメモリフットプリントで、マイクロF1スコアが62.05%に達する。 さらに、LEAPMoodを用いて、マクロF1スコア72.12%の気分予測を行うためのデータセットをキュレートする。

Accurate and automatic detection of mood serves as a building block for use cases like user profiling which in turn power applications such as advertising, recommendation systems, and many more. One primary source indicative of an individual's mood is textual data. While there has been extensive research on emotion recognition, the field of mood prediction has been barely explored. In addition, very little work is done in the area of on-device inferencing, which is highly important from the user privacy point of view. In this paper, we propose for the first time, an on-device deep learning approach for mood prediction from textual data, LEAPMood. We use a novel on-device deployment-focused objective function for hyperparameter tuning based on the Genetic Algorithm (GA) and optimize the parameters concerning both performance and size. LEAPMood consists of Emotion Recognition in Conversion (ERC) as the first building block followed by mood prediction using K-means clustering. We show that using a combination of character embedding, phonetic hashing, and attention along with Conditional Random Fields (CRF), results in a performance closely comparable to that of the current State-Of-the-Art with a significant reduction in model size (> 90%) for the task of ERC. We achieve a Micro F1 score of 62.05% with a memory footprint of a mere 1.67MB on the DailyDialog dataset. Furthermore, we curate a dataset for the task of mood prediction achieving a Macro F1-score of 72.12% with LEAPMood.
翻訳日:2022-02-08 16:09:15 公開日:2022-02-05
# LST:Few-Shotテキスト分類のためのLexicon-Guided Self-Training

LST: Lexicon-Guided Self-Training for Few-Shot Text Classification ( http://arxiv.org/abs/2202.02566v1 )

ライセンス: Link先を確認
Hazel Kim, Jaeman Son, Yo-Sub Han(参考訳) 自己学習は、非常に少ない量のラベル付きデータを使用してラベルなしデータのための擬似ラベルを作成する効果的な手段を提供する。 多くの最先端の自己学習アプローチは、オーバーフィッティングを防止し一般化を改善するために異なる正規化手法にかかっている。 しかし、当初は限定ラベル付きデータを擬似ラベルとしてトレーニングした予測に大きく依存しており、最初の予測によっては誤ったクラスに過信なラベルの信条を課す可能性がある。 テキスト分類においてこの問題に取り組むために,レキシコンを用いて擬似ラベル機構を言語的に豊かに導くシンプルな自己学習法lstを提案する。 未確認データの信頼性を予測し、トレーニングイテレーションにおいて擬似ラベルをより良く教えることで、一貫して語彙を洗練します。 この単純で巧妙な語彙知識は、現在の最先端のアプローチよりも5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して1.0-2.0%の性能を達成することを実証した。

Self-training provides an effective means of using an extremely small amount of labeled data to create pseudo-labels for unlabeled data. Many state-of-the-art self-training approaches hinge on different regularization methods to prevent overfitting and improve generalization. Yet they still rely heavily on predictions initially trained with the limited labeled data as pseudo-labels and are likely to put overconfident label belief on erroneous classes depending on the first prediction. To tackle this issue in text classification, we introduce LST, a simple self-training method that uses a lexicon to guide the pseudo-labeling mechanism in a linguistically-enric hed manner. We consistently refine the lexicon by predicting confidence of the unseen data to teach pseudo-labels better in the training iterations. We demonstrate that this simple yet well-crafted lexical knowledge achieves 1.0-2.0% better performance on 30 labeled samples per class for five benchmark datasets than the current state-of-the-art approaches.
翻訳日:2022-02-08 16:08:51 公開日:2022-02-05
# 逐次推薦のためのインテントコントラスト学習

Intent Contrastive Learning for Sequential Recommendation ( http://arxiv.org/abs/2202.02519v1 )

ライセンス: Link先を確認
Yongjun Chen, Zhiwei Liu, Jia Li, Julian McAuley, Caiming Xiong(参考訳) 利用者と商品とのインタラクションは、様々な意図(例えば、休日のギフトの準備、漁具の買い物など)によって駆動される。 しかしながら、ユーザの基本となる意図は、しばしば観測されていない/遅延であり、Sequentialrecommenda tion(SR)の潜伏意図を活用することは困難である。 潜在意図変数をsrに活用した汎用学習パラダイムであるintentcontrastive learning(icl)を提案する。 中心となる考え方は、未ラベルのユーザ行動シーケンスからユーザの意図分布関数を学習し、レコメンデーションを改善するための学習意図を考慮して、対照的な自己教師付き学習(SSL)でSRモデルを最適化することである。 具体的には,ユーザの意図を表す潜在変数を導入し,クラスタリングによって潜在変数の分布関数を学習する。 我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。 トレーニングは、汎用期待最大化(EM)フレームワーク内の意図表現学習とSRモデル最適化ステップの間で交互に行われる。 ユーザ意図情報をSRに融合することで、モデルの堅牢性も向上する。 4つの実世界のデータセットで実施された実験は、データ疎結合性やノイズの多い相互作用問題に対する性能、堅牢性を改善する学習パラダイムの優位性を示す。

Users' interactions with items are driven by various intents (e.g., preparing for holiday gifts, shopping for fishing equipment, etc.).However, users' underlying intents are often unobserved/latent, making it challenging to leverage such latent intents forSequentialrecomme ndation(SR). To investigate the benefits of latent intents and leverage them effectively for recommendation, we proposeIntentContras tiveLearning(ICL), a general learning paradigm that leverages a latent intent variable into SR. The core idea is to learn users' intent distribution functions from unlabeled user behavior sequences and optimize SR models with contrastive self-supervised learning (SSL) by considering the learned intents to improve recommendation. Specifically, we introduce a latent variable to represent users' intents and learn the distribution function of the latent variable via clustering. We propose to leverage the learned intents into SR models via contrastive SSL, which maximizes the agreement between a view of sequence and its corresponding intent. The training is alternated between intent representation learning and the SR model optimization steps within the generalized expectation-maximiza tion (EM) framework. Fusing user intent information into SR also improves model robustness. Experiments conducted on four real-world datasets demonstrate the superiority of the proposed learning paradigm, which improves performance, and robustness against data sparsity and noisy interaction issues.
翻訳日:2022-02-08 16:05:01 公開日:2022-02-05
# マルチモデル細粒度非線形融合に基づく意味的類似性計算モデル

Semantic Similarity Computing Model Based on Multi Model Fine-Grained Nonlinear Fusion ( http://arxiv.org/abs/2202.02476v1 )

ライセンス: Link先を確認
Peiying Zhang, Xingzhe Huang, Yaqi Wang, Chunxiao Jiang, Shuqing He, Haifeng Wang(参考訳) 自然言語処理(NLP)タスクは,意味理解や自動要約,画像認識など,多くの分野で優れたパフォーマンスを実現している。 しかし、nlpのニューラルネットワークモデルのほとんどは、テキストをきめ細かな方法で抽出するが、これは、テキストの意味をグローバルな視点から把握するものではない。 この問題を軽減するため,従来の統計手法とディープラーニングモデルの組み合わせと,マルチモデル非線形融合に基づく新しいモデルを提案する。 このモデルは、音声の一部に基づくジャカード係数、TF-IDF(Term Frequency-Inverse Document Frequency)およびWord2vec-CNNアルゴリズムを用いて、文の類似度をそれぞれ測定する。 各モデルの計算精度に応じて、正規化重量係数を求め、計算結果を比較する。 重み付きベクトルは、最終分類結果を与えるために、完全に接続されたニューラルネットワークに入力される。 その結果、統計的文類似度評価アルゴリズムは特徴抽出の粒度を低減し、文の特徴をグローバルに把握することができる。 実験の結果,複数モデルの非線形融合に基づく文類似度計算手法のマッチングは84%,モデルのF1値は75%であった。

Natural language processing (NLP) task has achieved excellent performance in many fields, including semantic understanding, automatic summarization, image recognition and so on. However, most of the neural network models for NLP extract the text in a fine-grained way, which is not conducive to grasp the meaning of the text from a global perspective. To alleviate the problem, the combination of the traditional statistical method and deep learning model as well as a novel model based on multi model nonlinear fusion are proposed in this paper. The model uses the Jaccard coefficient based on part of speech, Term Frequency-Inverse Document Frequency (TF-IDF) and word2vec-CNN algorithm to measure the similarity of sentences respectively. According to the calculation accuracy of each model, the normalized weight coefficient is obtained and the calculation results are compared. The weighted vector is input into the fully connected neural network to give the final classification results. As a result, the statistical sentence similarity evaluation algorithm reduces the granularity of feature extraction, so it can grasp the sentence features globally. Experimental results show that the matching of sentence similarity calculation method based on multi model nonlinear fusion is 84%, and the F1 value of the model is 75%.
翻訳日:2022-02-08 15:44:17 公開日:2022-02-05
# 局所微分プライバシーを持つ線形モデル

Linear Model with Local Differential Privacy ( http://arxiv.org/abs/2202.02448v1 )

ライセンス: Link先を確認
Guanhong Miao, A. Adam Ding, Samuel S. Wu(参考訳) 科学的なコラボレーションは、分散ソースの協調学習の恩恵を受けるが、データがセンシティブであれば達成が難しい。 近年、機密情報を保護しながら異なる機関間で分散データを分析するプライバシ保護技術が広く研究されている。 セキュアなマルチパーティ計算は、高いプライバシレベルでは高い計算コストを持つプライバシ保護のために広く研究されてきた。 また、開示リスクを減らすために部分データユーティリティを犠牲にするセキュリティ技術もある。 大きな課題は、高い計算効率を維持しながら、データユーティリティと開示リスクのバランスをとることである。 本稿では, マスマスキング手法を用いて, 悪質な敵に対するセキュアなスキームを暗号化し, ローカルな差分プライバシーを実現する。 提案手法は線形モデル向けに設計され, 垂直および水平のパーティショニングシナリオに実装可能である。 さらに, 通信コストを増加させることなく, オーバーフィッティングや最適パラメータの選択を防止し, クロス検証を行った。 シミュレーション結果は,数百万レコードと高次元データ(n<<p>)を用いたデータセット解析手法の有効性を示す。

Scientific collaborations benefit from collaborative learning of distributed sources, but remain difficult to achieve when data are sensitive. In recent years, privacy preserving techniques have been widely studied to analyze distributed data across different agencies while protecting sensitive information. Secure multiparty computation has been widely studied for privacy protection with high privacy level but intense computation cost. There are also other security techniques sacrificing partial data utility to reduce disclosure risk. A major challenge is to balance data utility and disclosure risk while maintaining high computation efficiency. In this paper, matrix masking technique is applied to encrypt data such that the secure schemes are against malicious adversaries while achieving local differential privacy. The proposed schemes are designed for linear models and can be implemented for both vertical and horizontal partitioning scenarios. Moreover, cross validation is studied to prevent overfitting and select optimal parameters without additional communication cost. Simulation results present the efficiency of proposed schemes to analyze dataset with millions of records and high-dimensional data (n << p).
翻訳日:2022-02-08 15:40:21 公開日:2022-02-05
# データ中毒に対する(決定論的)ファイナントアグリゲーションによる認証防御の改善

Improved Certified Defenses against Data Poisoning with (Deterministic) Finite Aggregation ( http://arxiv.org/abs/2202.02628v1 )

ライセンス: Link先を確認
Wenxiao Wang, Alexander Levine, Soheil Feizi(参考訳) データ中毒攻撃は、トレーニングデータを歪ませることでモデル行動を操作することを目的としている。 以前は、この脅威を軽減するために、アグリゲーションベースの認証防御であるディープパーティショニングアグリゲーション(dpa)が提案されていた。 dpaはデータの非結合サブセットでトレーニングされたベース分類器の集約を通じて予測するので、データセットの歪みに対する感度が制限される。 本研究は,一般的な中毒攻撃,すなわち有限凝集に対する認証防御の改善を提案する。 トレーニングセットを直接非結合部分集合に分割するDPAとは対照的に、我々の手法はまず、トレーニングセットを小さな非結合部分集合に分割し、その重複を組み合わせて、トレーニングベース分類器のためのより大きな(しかし非結合でない)サブセットを構築する。 これにより、毒物サンプルの最悪の影響が減少し、認定された堅牢性の境界が改善される。 さらに, 決定論的および確率的アグリゲーションに基づく認証防御の設計を橋渡しし, 提案手法の代替案を提案する。 MNIST, CIFAR-10, GTSRBの認証を一貫して改善し, それぞれ3.05%, 3.87%, 4.77%まで向上し, DPAと同じ清潔な精度を維持しながら, データ中毒に対する(点検的に)確固たる正当性の確立を実現した。

Data poisoning attacks aim at manipulating model behaviors through distorting training data. Previously, an aggregation-based certified defense, Deep Partition Aggregation (DPA), was proposed to mitigate this threat. DPA predicts through an aggregation of base classifiers trained on disjoint subsets of data, thus restricting its sensitivity to dataset distortions. In this work, we propose an improved certified defense against general poisoning attacks, namely Finite Aggregation. In contrast to DPA, which directly splits the training set into disjoint subsets, our method first splits the training set into smaller disjoint subsets and then combines duplicates of them to build larger (but not disjoint) subsets for training base classifiers. This reduces the worst-case impacts of poison samples and thus improves certified robustness bounds. In addition, we offer an alternative view of our method, bridging the designs of deterministic and stochastic aggregation-based certified defenses. Empirically, our proposed Finite Aggregation consistently improves certificates on MNIST, CIFAR-10, and GTSRB, boosting certified fractions by up to 3.05%, 3.87% and 4.77%, respectively, while keeping the same clean accuracies as DPA's, effectively establishing a new state of the art in (pointwise) certified robustness against data poisoning.
翻訳日:2022-02-08 15:40:05 公開日:2022-02-05
# 局所微分プライバシーを用いた効率的なロジスティック回帰

Efficient Logistic Regression with Local Differential Privacy ( http://arxiv.org/abs/2202.02650v1 )

ライセンス: Link先を確認
Guanhong Miao(参考訳) モノのインターネットデバイスは急速に拡大し、膨大なデータを生み出している。 これらのデバイスから収集したデータを探索する必要性が高まっている。 コラボレーション学習は、モノのインターネット(Internet of Things)設定に戦略的ソリューションを提供すると同時に、データのプライバシに関する一般の懸念も引き起こす。 近年,ディファレンシャルプライバシとセキュアなマルチパーティ計算に基づいて,大量のプライバシ保護技術が開発されている。 協調学習の大きな課題は、高い計算効率を維持しながら、開示リスクとデータユーティリティのバランスをとることである。 本稿では,行列暗号を用いたプライバシ保存ロジスティック回帰モデルを提案する。 セキュアなスキームは、局所的な差分プライバシーを実現し、垂直および水平のパーティショニングシナリオに実装することができる。 さらに,通信コストを増大させることなく,ロバストなモデル結果を生成するためにクロスバリデーションを検討した。 シミュレーションは、数百万レコードのデータセットを解析するための提案スキームの高効率を示す。 実験により、プライバシー保護を達成しつつ高いモデル精度を示す。

Internet of Things devices are expanding rapidly and generating huge amount of data. There is an increasing need to explore data collected from these devices. Collaborative learning provides a strategic solution for the Internet of Things settings but also raises public concern over data privacy. In recent years, large amount of privacy preserving techniques have been developed based on differential privacy and secure multi-party computation. A major challenge of collaborative learning is to balance disclosure risk and data utility while maintaining high computation efficiency. In this paper, we proposed privacy preserving logistic regression model using matrix encryption approach. The secure scheme achieves local differential privacy and can be implemented for both vertical and horizontal partitioning scenarios. Moreover, cross validation is investigated to generate robust model results without increasing the communication cost. Simulation illustrates the high efficiency of proposed scheme to analyze dataset with millions of records. Experimental evaluations further demonstrate high model accuracy while achieving privacy protection.
翻訳日:2022-02-08 15:39:38 公開日:2022-02-05
# ブラックボックス密度を超えて:逸脱したコンポーネントのパラメータ学習

Beyond Black Box Densities: Parameter Learning for the Deviated Components ( http://arxiv.org/abs/2202.02651v1 )

ライセンス: Link先を確認
Dat Do and Nhat Ho and XuanLong Nguyen(参考訳) 既知密度関数推定が以前にブラックボックス法で得られていた可能性があるデータ集団から追加のサンプルを集めると、データセットの複雑さが増大すると、既知推定値から混合分布によって真の密度が逸脱する可能性がある。 この現象をモデル化するために、 \emph{deviating mix model} $(1-\lambda^{*})h_0 + \lambda^{*} (\sum_{i = 1}^{k} p_{i}^{*} f(x|\theta_{i}^{*})$, where $h_0$ is a known density function, while the deviated proportion $\lambda^{*}$ and latent mix measure $G_{*} = \sum_{i = 1}^{k} p_{i}^{*} \delta_{\theta_i^{*}}$.} ここで、混合分布に付随する可逆混合度は未知である。 既知の密度 $h_{0}$ と逸脱混合分布の区別可能性の新しい概念により、ワッサーシュタイン計量の下での最大確率推定値 $\lambda^{*}$ と $g^{*}$ の収束率を確立する。 その理論を説明するためにシミュレーション研究が行われた。

As we collect additional samples from a data population for which a known density function estimate may have been previously obtained by a black box method, the increased complexity of the data set may result in the true density being deviated from the known estimate by a mixture distribution. To model this phenomenon, we consider the \emph{deviating mixture model} $(1-\lambda^{*})h_0 + \lambda^{*} (\sum_{i = 1}^{k} p_{i}^{*} f(x|\theta_{i}^{*}))$, where $h_0$ is a known density function, while the deviated proportion $\lambda^{*}$ and latent mixing measure $G_{*} = \sum_{i = 1}^{k} p_{i}^{*} \delta_{\theta_i^{*}}$ associated with the mixture distribution are unknown. Via a novel notion of distinguishability between the known density $h_{0}$ and the deviated mixture distribution, we establish rates of convergence for the maximum likelihood estimates of $\lambda^{*}$ and $G^{*}$ under Wasserstein metric. Simulation studies are carried out to illustrate the theory.
翻訳日:2022-02-08 15:39:24 公開日:2022-02-05
# Tensor-CSPNet: 運動画像分類のための新しい幾何学的ディープラーニングフレームワーク

Tensor-CSPNet: A Novel Geometric Deep Learning Framework for Motor Imagery Classification ( http://arxiv.org/abs/2202.02472v1 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 深層学習(DL)は、脳波(EEG)ベースの脳-コンピュータインターフェース(BCI)において、特に過去5年間の運動画像(MI)分類の分野で広く研究されている。 MI-EEG分類のための主流のDL手法は、特に視覚画像において成功した畳み込みニューラルネットワーク(CNN)を用いて脳波信号の時間空間パターンを利用する。 しかし、視覚画像の統計的特徴は脳波信号に寄与しない可能性があるため、CNNがMI-EEG分類の特徴を抽出するために、代替のネットワークアーキテクチャが存在するかどうかが自然に疑問視される。 そこで本研究では,対称正定値(SPD)多様体上での脳波信号を特徴付け,SPD多様体上での深層ニューラルネットワークを用いた時間-空間-周波数パターンを活用するための,Tensor-CSPNetと呼ばれる新しい幾何学的ディープラーニング(GDL)フレームワークを提案する。 一方、成功したMI-EEG分類器の多くの経験は、より効率的にするためにTensor-CSPNetフレームワークに統合されている。 実験では、2つのMI-EEGデータセットのクロスバリデーションとホールドアウトシナリオにおいて、Tensor-CSPNetが現在の最先端のパフォーマンスを達成またはわずかに上回っている。 可視化と解釈可能性分析はMI-EEG分類の妥当性を示す。 結論として、SPD多様体上の従来のDL方法論を一般化することにより、MI-EEG分類のためのGDL手法から特定のクラスの開始を示すことができる。

Deep learning (DL) has been widely investigated in a vast majority of applications in electroencephalograp hy (EEG)-based brain-computer interfaces (BCIs), especially for motor imagery (MI) classification in the past five years. The mainstream DL methodology for the MI-EEG classification exploits the temporospatial patterns of EEG signals using convolutional neural networks (CNNs), which have been particularly successful in visual images. However, since the statistical characteristics of visual images may not benefit EEG signals, a natural question that arises is whether there exists an alternative network architecture despite CNNs to extract features for the MI-EEG classification. To address this question, we propose a novel geometric deep learning (GDL) framework called Tensor-CSPNet to characterize EEG signals on symmetric positive definite (SPD) manifolds and exploit the temporo-spatio-frequ ential patterns using deep neural networks on SPD manifolds. Meanwhile, many experiences of successful MI-EEG classifiers have been integrated into the Tensor-CSPNet framework to make it more efficient. In the experiments, Tensor-CSPNet attains or slightly outperforms the current state-of-the-art performance on the cross-validation and holdout scenarios of two MI-EEG datasets. The visualization and interpretability analyses also exhibit its validity for the MI-EEG classification. To conclude, we provide a feasible answer to the question by generalizing the previous DL methodologies on SPD manifolds, which indicates the start of a specific class from the GDL methodology for the MI-EEG classification.
翻訳日:2022-02-08 15:34:03 公開日:2022-02-05
# VIS-iTrack: 低コストWebカメラによる視線追跡による視覚的注意

VIS-iTrack: Visual Intention through Gaze Tracking using Low-Cost Webcam ( http://arxiv.org/abs/2202.02587v1 )

ライセンス: Link先を確認
Shahed Anzarus Sabab (1, 2, 3, 4, and 5), Mohammad Ridwan Kabir (1, 2, and 3), Sayed Rizban Hussain (1, 2, and 3), Hasan Mahmud (1, 2, and 3), Md. Kamrul Hasan (1, 2, and 3), Husne Ara Rubaiyeat (6) ((1) Systems and Software Lab (SSL), (2) Department of Computer Science and Engineering, (3) Islamic University of Technology (IUT), Gazipur, Bangladesh, (4) Department of Computer Science, (5) University of Manitoba, Winnipeg, Canada, (6) National University, Bangladesh.)(参考訳) 人間の意図は、望ましい情報を得るための内的、精神的特徴である。 テキスト情報またはグラフィカル情報を含む対話型インタフェースから、所望の情報を知覚する意図は主観的であり、目視と強く結びついている。 本研究では、リアルタイム視線データを低コストのレギュラーウェブカメラで分析することにより、そのような意図を決定する。 被験者31名の視線データから特徴量(固定数,眼球運動率など)を抽出し,TEXTまたは画像としてラベル付けされたテキスト情報や図形情報を知覚するための視覚意図のサンプル124点を含むデータセットを作成し,48.39%,51.61%の分布を示した。 このデータセットを用いて、サポートベクトルマシン(SVM)を含む5つの分類器(精度92.19%)を分析した。 学習したSVMを用いて,3年齢層に分布する30人の被験者の視覚意図の変化を調べたところ,若年者の方がグラフィカルな内容に傾倒しているのに対して,高齢者はテキスト的内容に強い関心を抱いていることがわかった。 この発見は、リアルタイム視線データが視覚的意図を識別し、人間の認知を促進するために、意図を意識した対話的インタフェースを設計・開発できるかを分析するための潜在的情報源になり得ることを示唆している。

Human intention is an internal, mental characterization for acquiring desired information. From interactive interfaces containing either textual or graphical information, intention to perceive desired information is subjective and strongly connected with eye gaze. In this work, we determine such intention by analyzing real-time eye gaze data with a low-cost regular webcam. We extracted unique features (e.g., Fixation Count, Eye Movement Ratio) from the eye gaze data of 31 participants to generate a dataset containing 124 samples of visual intention for perceiving textual or graphical information, labeled as either TEXT or IMAGE, having 48.39% and 51.61% distribution, respectively. Using this dataset, we analyzed 5 classifiers, including Support Vector Machine (SVM) (Accuracy: 92.19%). Using the trained SVM, we investigated the variation of visual intention among 30 participants, distributed in 3 age groups, and found out that young users were more leaned towards graphical contents whereas older adults felt more interested in textual ones. This finding suggests that real-time eye gaze data can be a potential source of identifying visual intention, analyzing which intention aware interactive interfaces can be designed and developed to facilitate human cognition.
翻訳日:2022-02-08 15:33:32 公開日:2022-02-05
# ディープスペルカンキング:一般的なニューラルインシデントサーフェスに対する保証されたクエリ

Spelunking the Deep: Guaranteed Queries for General Neural Implicit Surfaces ( http://arxiv.org/abs/2202.02444v1 )

ライセンス: Link先を確認
Nicholas Sharp, Alec Jacobson(参考訳) 空間座標に適用されたニューラルネットワークのレベルセットとして表面を符号化するニューラル暗黙表現は、3次元幾何学の最適化、圧縮、生成に極めて効果的であることが証明されている。 これらの表現は適合しやすいが、光線と交差したり、最も近い点を見つけるなど、形状の幾何学的クエリを適切に評価する方法は明確ではない。 主なアプローチは、ネットワークに署名された距離特性を持つことを促すことである。 しかし、この性質は典型的にはおよそしか持たず、堅牢性の問題を引き起こし、トレーニングの終了時にのみ保持し、損失関数におけるクエリの使用を阻害する。 代わりに、本研究では、広範囲の既存のアーキテクチャに対して、一般的な神経暗黙関数に直接クエリを実行する新しいアプローチを提案する。 我々のキーとなるツールは、ニューラルネットワークに対する範囲解析の応用であり、各領域にネットワークの出力を束縛する自動演算規則を用いて、ニューラルネットワークにおける範囲解析の研究を行い、非常に有効であるアフィン演算の変種を同定する。 得られた境界を用いて,レイキャスティング,交差点テスト,空間階層の構築,高速メッシュ抽出,最接近点評価,バルク特性評価など,幾何学的クエリを開発する。 クエリはgpu上で効率的に評価でき、ランダムに初期化されたネットワークでも具体的な精度を保証することができる。 また,逆レンダリングへの予備的応用を示す。

Neural implicit representations, which encode a surface as the level set of a neural network applied to spatial coordinates, have proven to be remarkably effective for optimizing, compressing, and generating 3D geometry. Although these representations are easy to fit, it is not clear how to best evaluate geometric queries on the shape, such as intersecting against a ray or finding a closest point. The predominant approach is to encourage the network to have a signed distance property. However, this property typically holds only approximately, leading to robustness issues, and holds only at the conclusion of training, inhibiting the use of queries in loss functions. Instead, this work presents a new approach to perform queries directly on general neural implicit functions for a wide range of existing architectures. Our key tool is the application of range analysis to neural networks, using automatic arithmetic rules to bound the output of a network over a region; we conduct a study of range analysis on neural networks, and identify variants of affine arithmetic which are highly effective. We use the resulting bounds to develop geometric queries including ray casting, intersection testing, constructing spatial hierarchies, fast mesh extraction, closest-point evaluation, evaluating bulk properties, and more. Our queries can be efficiently evaluated on GPUs, and offer concrete accuracy guarantees even on randomly-initialized networks, enabling their use in training objectives and beyond. We also show a preliminary application to inverse rendering.
翻訳日:2022-02-08 15:15:14 公開日:2022-02-05
# クラスター誘起ボロノイ図としてのショット学習 : 幾何学的アプローチ

Few-shot Learning as Cluster-induced Voronoi Diagrams: A Geometric Approach ( http://arxiv.org/abs/2202.02471v1 )

ライセンス: Link先を確認
Chunwei Ma, Ziyun Huang, Mingchen Gao and Jinhui Xu(参考訳) FSL(Few-shot Learning)は、豊富なベースサンプルから不十分な新規サンプルへの迅速な一般化プロセスである。 近年の広範な研究にもかかわらず、FSLはまだ幅広い現実世界のアプリケーションに対して満足できるソリューションを生成できない。 本論文では, この課題に対処するために, 幾何学的観点からFSL問題を考察する。 1つの観察は、広く採用されているProtoNetモデルは本質的に、機能空間におけるVoronoi Diagram(VD)であるということである。 本稿では,CIVD (Cluster-induced Voronoi Diagram) と呼ばれる最近の計算幾何学の進歩を活用して再現する。 最寄りの最も単純なモデルから始まり、civdはfslの複数の段階における正確性と堅牢性を改善するために使われるスペースサブディビジョンのために、徐々にクラスタ間およびクラスタ間関係を組み込んでいる。 具体的には, CIVD (1) を用いてパラメトリックおよび非パラメトリックな小ショット分類器, (2) 特徴表現と代理表現の組み合わせ, (3) 特徴レベル, 変換レベル, 幾何レベルの異質性を活用することにより, より良いアンサンブルを実現する。 当社のCIVDベースのワークフローは、Mini-ImageNet、CUB、および階層化されたImagenNetデータセット上で、次のベストで${\sim}2\%{-}5\%$の改善を達成できます。 要約すると、CIVDは数学的にエレガントで幾何学的に解釈可能なフレームワークを提供し、極端なデータ不足を補い、過度な適合を防ぎ、何千もの個々のVDに対して高速な幾何学的アンサンブルを可能にする。 これによりFSLが強化される。

Few-shot learning (FSL) is the process of rapid generalization from abundant base samples to inadequate novel samples. Despite extensive research in recent years, FSL is still not yet able to generate satisfactory solutions for a wide range of real-world applications. To confront this challenge, we study the FSL problem from a geometric point of view in this paper. One observation is that the widely embraced ProtoNet model is essentially a Voronoi Diagram (VD) in the feature space. We retrofit it by making use of a recent advance in computational geometry called Cluster-induced Voronoi Diagram (CIVD). Starting from the simplest nearest neighbor model, CIVD gradually incorporates cluster-to-point and then cluster-to-cluster relationships for space subdivision, which is used to improve the accuracy and robustness at multiple stages of FSL. Specifically, we use CIVD (1) to integrate parametric and nonparametric few-shot classifiers; (2) to combine feature representation and surrogate representation; (3) and to leverage feature-level, transformation-level , and geometry-level heterogeneities for a better ensemble. Our CIVD-based workflow enables us to achieve new state-of-the-art results on mini-ImageNet, CUB, and tiered-ImagenNet datasets, with ${\sim}2\%{-}5\%$ improvements upon the next best. To summarize, CIVD provides a mathematically elegant and geometrically interpretable framework that compensates for extreme data insufficiency, prevents overfitting, and allows for fast geometric ensemble for thousands of individual VD. These together make FSL stronger.
翻訳日:2022-02-08 15:14:49 公開日:2022-02-05
# ロバスト分類器付き逆検出器

Adversarial Detector with Robust Classifier ( http://arxiv.org/abs/2202.02503v1 )

ライセンス: Link先を確認
Takayuki Osakabe and Maungmaung Aprilpyone and Sayaka Shiota and Hitoshi Kiya(参考訳) ディープニューラルネットワーク(dnn)モデルは、小さな摂動を持つ入力画像を用いて予測結果を誤分類することがよく知られており、逆例と呼ばれる。 本稿では,ロバストな分類器とプレーンな検出器から構成される新しい逆検出器を提案する。 提案する対向検出器は, 原器およびロバスト分類器のロジットに応じて行われる。 実験では,提案する検出器がロバストな分類器を使わずに最先端の検出器を上回ることを実証した。

Deep neural network (DNN) models are wellknown to easily misclassify prediction results by using input images with small perturbations, called adversarial examples. In this paper, we propose a novel adversarial detector, which consists of a robust classifier and a plain one, to highly detect adversarial examples. The proposed adversarial detector is carried out in accordance with the logits of plain and robust classifiers. In an experiment, the proposed detector is demonstrated to outperform a state-of-the-art detector without any robust classifier.
翻訳日:2022-02-08 15:14:14 公開日:2022-02-05
# メモリ防御:メモリマスキングオートエンコーダによるよりロバストな分類

Memory Defense: More Robust Classification via a Memory-Masking Autoencoder ( http://arxiv.org/abs/2202.02595v1 )

ライセンス: Link先を確認
Eashan Adhikarla (1), Dan Luo (1), Brian D. Davison (1) ((1) Lehigh University)(参考訳) 多くのディープニューラルネットワークは、誤分類を引き起こすために慎重に製作された画像の微小摂動に影響を受けやすい。 理想的には、堅牢な分類器は入力画像の小さなバリエーションに免疫を持ち、結果として多くの防御的アプローチが作成されている。 1つの方法は、入力の小さな変更を無視できる潜在表現を識別することである。 しかし、クラス間に強い類似性がある場合、典型的なオートエンコーダはクラス間潜在表現を容易に混合し、デコーダが元の高次元空間に画像を正確に投影することを難しくする。 この課題に対処するために,メモリマスキングオートエンコーダを備えた拡張型分類器であるメモリディフェンスを提案する。 他のクラスをマスキングすることで、autoencoderはクラス固有の独立した潜在表現を学習する。 我々は、広く使われている4つの攻撃に対して、モデルの堅牢性をテストする。 Fashion-MNIST と CIFAR-10 データセットの実験は、我々のモデルの優位性を実証している。 私たちはGitHubリポジトリでソースコードを公開しています。

Many deep neural networks are susceptible to minute perturbations of images that have been carefully crafted to cause misclassification. Ideally, a robust classifier would be immune to small variations in input images, and a number of defensive approaches have been created as a result. One method would be to discern a latent representation which could ignore small changes to the input. However, typical autoencoders easily mingle inter-class latent representations when there are strong similarities between classes, making it harder for a decoder to accurately project the image back to the original high-dimensional space. We propose a novel framework, Memory Defense, an augmented classifier with a memory-masking autoencoder to counter this challenge. By masking other classes, the autoencoder learns class-specific independent latent representations. We test the model's robustness against four widely used attacks. Experiments on the Fashion-MNIST & CIFAR-10 datasets demonstrate the superiority of our model. We make available our source code at GitHub repository: https://github.com/e ashanadhikarla/MemDe fense
翻訳日:2022-02-08 15:14:05 公開日:2022-02-05
# クラスタリングとコントラストによる3次元点雲上の教師なし学習

Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting ( http://arxiv.org/abs/2202.02543v1 )

ライセンス: Link先を確認
Guofeng Mei and Litao Yu and Qiang Wu and Jian Zhang(参考訳) ラベルなしまたは部分的にラベル付けされたデータから学び、人間のラベル付けを緩和することは、3Dモデリングにおいて難しい研究課題である。 この線に沿って、教師なし表現学習は人間の介入なしに特徴を自動抽出するための有望な方向である。 本稿では,ポイントレベルのクラスタリングとインスタンスレベルのコントラストを併用することで,ポイント毎およびグローバル特徴の学習を行うための,一般的な教師なし手法である \textbf{conclu} を提案する。 具体的には,最適な移動量に基づいて局所的な特徴を抽出する,ソフトクラスタリングアルゴリズムのような期待最大化(EM)を設計する。 この基準は、標準のクロスエントロピー最小化を最適輸送問題に拡張し、シンクホーン・ノックアルゴリズムの高速変種を用いて効率よく解く。 別の例として,一つの点雲の2つの拡張の類似性を最大化することにより,大域的な幾何学を学ぶためのインスタンスレベルのコントラスト手法を提案する。 3Dオブジェクトの分類やセマンティックセグメンテーションといった下流のアプリケーションに対する実験的評価は、我々のフレームワークの有効性を示し、最先端技術より優れていることを示す。

Learning from unlabeled or partially labeled data to alleviate human labeling remains a challenging research topic in 3D modeling. Along this line, unsupervised representation learning is a promising direction to auto-extract features without human intervention. This paper proposes a general unsupervised approach, named \textbf{ConClu}, to perform the learning of point-wise and global features by jointly leveraging point-level clustering and instance-level contrasting. Specifically, for one thing, we design an Expectation-Maximiza tion (EM) like soft clustering algorithm that provides local supervision to extract discriminating local features based on optimal transport. We show that this criterion extends standard cross-entropy minimization to an optimal transport problem, which we solve efficiently using a fast variant of the Sinkhorn-Knopp algorithm. For another, we provide an instance-level contrasting method to learn the global geometry, which is formulated by maximizing the similarity between two augmentations of one point cloud. Experimental evaluations on downstream applications such as 3D object classification and semantic segmentation demonstrate the effectiveness of our framework and show that it can outperform state-of-the-art techniques.
翻訳日:2022-02-08 15:11:43 公開日:2022-02-05
# 個人化フェデレーション学習のための協調形成ゲームアプローチ

A Coalition Formation Game Approach for Personalized Federated Learning ( http://arxiv.org/abs/2202.02502v1 )

ライセンス: Link先を確認
Leijie Wu(参考訳) クライアントのローカルデータ配信における統計的多様性の課題に直面する中、パーソナライズド・フェデレーション・ラーニング(PFL)は研究ホットスポットになりつつある。 モデル類似性に基づくペアワイズコラボレーションによる最先端の手法は有望なパフォーマンスを達成したが、モデル集約は基本的に、クライアント間で複雑なマルチワイズの影響が生じる連立内のコラボレーションプロセスであるという事実を無視している。 本稿では,まず連立ゲーム理論のShapley値(SV)をPFLシナリオに適用する。 パーソナライズされた学習性能に関するクライアントグループ間の多面的なコラボレーションを測定するため,SVは最終結果に対する限界貢献を指標として捉えた。 我々は,新しいパーソナライズされたアルゴリズム,pFedSVを提案する。 1 各クライアントの最適なコラボレータ連立を識別し、 2. SVに基づくパーソナライズされたモデルアグリゲーションを行う。 各種データセット(MNIST, Fashion-MNIST, CIFAR-10)の多種多様な非IIDデータ設定(Pathological, Dirichlet)を用いて実験を行った。 その結果、pFedSVは最先端のベンチマークと比較すると、各クライアントのパーソナライズ精度が優れていることがわかった。

Facing the challenge of statistical diversity in client local data distribution, personalized federated learning (PFL) has become a growing research hotspot. Although the state-of-the-art methods with model similarity-based pairwise collaboration have achieved promising performance, they neglect the fact that model aggregation is essentially a collaboration process within the coalition, where the complex multiwise influences take place among clients. In this paper, we first apply Shapley value (SV) from coalition game theory into the PFL scenario. To measure the multiwise collaboration among a group of clients on the personalized learning performance, SV takes their marginal contribution to the final result as a metric. We propose a novel personalized algorithm: pFedSV, which can 1. identify each client's optimal collaborator coalition and 2. perform personalized model aggregation based on SV. Extensive experiments on various datasets (MNIST, Fashion-MNIST, and CIFAR-10) are conducted with different Non-IID data settings (Pathological and Dirichlet). The results show that pFedSV can achieve superior personalized accuracy for each client, compared to the state-of-the-art benchmarks.
翻訳日:2022-02-08 15:09:58 公開日:2022-02-05
# TorchMD-NET:ニューラルネットワークに基づく分子ポテンシャルの等価変換器

TorchMD-NET: Equivariant Transformers for Neural Network based Molecular Potentials ( http://arxiv.org/abs/2202.02541v1 )

ライセンス: Link先を確認
Philipp Th\"olke and Gianni De Fabritiis(参考訳) 量子力学特性の予測は歴史的に精度と速度のトレードオフによって苦しめられた。 機械学習のポテンシャルはこの領域で大きく成功し、古典的な力場に匹敵する計算効率を維持しながら、ますます精度が向上している。 本稿では,md17,ani-1,および多くのqm9ターゲットにおいて,精度と計算効率の両方において最先端を上回っている,新しい等価トランスフォーマー(et)アーキテクチャであるtorchmd-netを提案する。 広範に注目する重み解析により,ブラックボックス予測器について貴重な知見を得て,分子動力学や正常モードから採取したコンフォメーションとコンフォメーションの学習表現の違いを示す。 さらに,分子ポテンシャル評価のための非平衡コンフォーメーションを含むデータセットの重要性を強調した。

The prediction of quantum mechanical properties is historically plagued by a trade-off between accuracy and speed. Machine learning potentials have previously shown great success in this domain, reaching increasingly better accuracy while maintaining computational efficiency comparable with classical force fields. In this work we propose TorchMD-NET, a novel equivariant transformer (ET) architecture, outperforming state-of-the-art on MD17, ANI-1, and many QM9 targets in both accuracy and computational efficiency. Through an extensive attention weight analysis, we gain valuable insights into the black box predictor and show differences in the learned representation of conformers versus conformations sampled from molecular dynamics or normal modes. Furthermore, we highlight the importance of datasets including off-equilibrium conformations for the evaluation of molecular potentials.
翻訳日:2022-02-08 15:09:36 公開日:2022-02-05
# 半教師付きフェデレーション学習によるプライバシー保護音声感情認識

Privacy-preserving Speech Emotion Recognition through Semi-Supervised Federated Learning ( http://arxiv.org/abs/2202.02611v1 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Tanir Ozcelebi, Nirvana Meratnia(参考訳) 音声感情認識(英語: speech emotion recognition、ser)は、人間の感情を自然言語から認識することを指す。 正しく実行できれば、人間中心のコンテキスト対応インテリジェントシステムを構築する上で、多くのメリットが期待できる。 既存のSERアプローチは、ユーザのプライバシを考慮せずに、主に集中している。 Federated Learning(FL)は、プライバシに敏感な個人情報の分散化を扱う分散機械学習パラダイムである。 本稿では,flの概念を生かして,プライバシ保護とデータ効率のよいser手法を提案する。 私たちの知る限りでは、これは最初のフェデレーションserアプローチであり、自己学習とフェデレーション学習を併用して、ラベル付きデータとラベル付きオンデバイスデータの両方を利用する。 IEMOCAPデータセットを用いた実験結果から,データラベルの低可用性や非次元分布下でも,フェデレートされたアプローチで一般化可能なSERモデルを学習できることが示唆された。 提案手法では,ラベル付きデータが10%未満であれば,完全に管理されたフェデレーションに比べて,認識率を8.67%向上させることができる。

Speech Emotion Recognition (SER) refers to the recognition of human emotions from natural speech. If done accurately, it can offer a number of benefits in building human-centered context-aware intelligent systems. Existing SER approaches are largely centralized, without considering users' privacy. Federated Learning (FL) is a distributed machine learning paradigm dealing with decentralization of privacy-sensitive personal data. In this paper, we present a privacy-preserving and data-efficient SER approach by utilizing the concept of FL. To the best of our knowledge, this is the first federated SER approach, which utilizes self-training learning in conjunction with federated learning to exploit both labeled and unlabeled on-device data. Our experimental evaluations on the IEMOCAP dataset shows that our federated approach can learn generalizable SER models even under low availability of data labels and highly non-i.i.d. distributions. We show that our approach with as few as 10% labeled data, on average, can improve the recognition rate by 8.67% compared to the fully-supervised federated counterparts.
翻訳日:2022-02-08 15:08:38 公開日:2022-02-05
# グリッドベースシミュレーションのためのグラフニューラルネットワークフレームワーク

A Graph Neural Network Framework for Grid-Based Simulation ( http://arxiv.org/abs/2202.02652v1 )

ライセンス: Link先を確認
Haoyu Tang, Wennan Long(参考訳) 貯留層シミュレーションは、井戸制御と井戸配置最適化において計算コストがかかる。 一般に、最適な井戸位置を達成するために、多数のシミュレーション実行(実現)が必要である。 本稿では,シミュレーションの実行を置き換え,最適化プロセスを高速化するサロゲートフィードフォワードモデルを構築するためのグラフニューラルネットワーク(GNN)フレームワークを提案する。 我々のGNNフレームワークは、シミュレーション生データから設計および生成した処理グラフデータから入力を受信するエンコーダ、プロセス、デコーダを含む。 6000のサンプル(40の井戸構成に相当する)でGNNモデルをトレーニングし、それぞれが前のステップ状態変数と次のステップ状態変数を含む。 6000個のサンプルを用いてGNNモデルをテストし、モデルチューニング後、一段階予測とロールアウト予測の両方がシミュレーション結果と密に一致した。 我々のGNNフレームワークは、石油やガス、炭素捕獲隔離(CCS)など、よく関連する地下最適化の応用に大きな可能性を示している。

Reservoir simulations are computationally expensive in the well control and well placement optimization. Generally, numerous simulation runs (realizations) are needed in order to achieve the optimal well locations. In this paper, we propose a graph neural network (GNN) framework to build a surrogate feed-forward model which replaces simulation runs to accelerate the optimization process. Our GNN framework includes an encoder, a process, and a decoder which takes input from the processed graph data designed and generated from the simulation raw data. We train the GNN model with 6000 samples (equivalent to 40 well configurations) with each containing the previous step state variable and the next step state variable. We test the GNN model with another 6000 samples and after model tuning, both one-step prediction and rollout prediction achieve a close match with the simulation results. Our GNN framework shows great potential in the application of well-related subsurface optimization including oil and gas as well as carbon capture sequestration (CCS).
翻訳日:2022-02-08 15:08:22 公開日:2022-02-05
# 人間とロボットのコラボレーションで間違ったことをしないで正しいことをする

Doing Right by Not Doing Wrong in Human-Robot Collaboration ( http://arxiv.org/abs/2202.02654v1 )

ライセンス: Link先を確認
Laura Londo\~no, Adrian R\"ofer, Tim Welschehold, Abhinav Valada(参考訳) ロボットシステムは、日常生活の中で人間を助ける能力がますます高まるにつれて、これらの人工エージェントが人間の協力者を危険にさらしたり、不公平に扱う機会を考えなければならない。 ロボットは、人間に物理的危害を与える反社会的行動や、不公平な行動の再現、さらには人間に有害な歴史的、社会的な偏見を増幅する。 本稿では,社会的なロボット操作と公平なロボット意思決定を考慮したこれらの課題について論じる。 本研究では,ポジティブ行動の再現ではなく,ネガティブ行動の回避によって,公平で社会的行動を学ぶための新しいアプローチを提案する。 本研究では,ロボット操作にソシエタビリティを取り入れることの重要性と,人間とロボットのインタラクションにおいて公平性を検討する必要性を強調する。

As robotic systems become more and more capable of assisting humans in their everyday lives, we must consider the opportunities for these artificial agents to make their human collaborators feel unsafe or to treat them unfairly. Robots can exhibit antisocial behavior causing physical harm to people or reproduce unfair behavior replicating and even amplifying historical and societal biases which are detrimental to humans they interact with. In this paper, we discuss these issues considering sociable robotic manipulation and fair robotic decision making. We propose a novel approach to learning fair and sociable behavior, not by reproducing positive behavior, but rather by avoiding negative behavior. In this study, we highlight the importance of incorporating sociability in robot manipulation, as well as the need to consider fairness in human-robot interactions.
翻訳日:2022-02-08 15:08:08 公開日:2022-02-05
# LyaNet: ニューラルネットワークをトレーニングするためのLyapunovフレームワーク

LyaNet: A Lyapunov Framework for Training Neural ODEs ( http://arxiv.org/abs/2202.02526v1 )

ライセンス: Link先を確認
Ivan Dario Jimenez Rodriguez, Aaron D. Ames, Yisong Yue(参考訳) 安定のための制御理論ライプノフ条件を用いた常微分方程式の学習法を提案する。 我々のアプローチはLyaNetと呼ばれ、推論ダイナミクスを正しい予測に迅速に収束させる新しいLyapunov損失定式化に基づいている。 理論的には、リアプノフ損失の最小化は正しい解への指数収束を保証し、新しい堅牢性を保証する。 また, 解法や随伴法を用いて解法をバックプロパゲーションするコストを回避するアルゴリズムなど, 実用的なアルゴリズムを提供する。 従来のニューラルODEトレーニングと比較して、LyaNetは予測性能の向上、推論ダイナミクスの収束の高速化、対向ロバスト性の向上を実証的に実現している。 私たちのコードはhttps://github.com/i vandariojr/lyapunovl earningで利用可能です。

We propose a method for training ordinary differential equations by using a control-theoretic Lyapunov condition for stability. Our approach, called LyaNet, is based on a novel Lyapunov loss formulation that encourages the inference dynamics to converge quickly to the correct prediction. Theoretically, we show that minimizing Lyapunov loss guarantees exponential convergence to the correct solution and enables a novel robustness guarantee. We also provide practical algorithms, including one that avoids the cost of backpropagating through a solver or using the adjoint method. Relative to standard Neural ODE training, we empirically find that LyaNet can offer improved prediction performance, faster convergence of inference dynamics, and improved adversarial robustness. Our code available at https://github.com/i vandariojr/LyapunovL earning .
翻訳日:2022-02-08 14:17:12 公開日:2022-02-05
# 不均衡ノード分類のためのカリキュラム学習付きグラフニューラルネットワーク

Graph Neural Network with Curriculum Learning for Imbalanced Node Classification ( http://arxiv.org/abs/2202.02529v1 )

ライセンス: Link先を確認
Xiaohe Li, Lijie Wen, Yawen Deng, Fuli Feng, Xuming Hu, Lei Wang, Zide Fan(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類などのグラフベースの学習タスクの新興技術である。 本研究では,ノードラベルの不均衡に対するGNNの脆弱性を明らかにする。 不均衡分類(例:再サンプリング)の伝統的な解は、グラフ構造を考慮せずにノード分類では有効ではない。 さらに悪いことに、十分な事前知識が不足しているため、過剰フィッティングや不適合結果をもたらすこともある。 そこで本研究では,2つのモジュールからなるカリキュラム学習(gnn-cl)を用いたグラフニューラルネットワークフレームワークを提案する。 ひとつは、滑らかさとホモフィリーに基づいた新しいグラフに基づくオーバーサンプリングを通じて、信頼できる補間ノードとエッジを取得することである。 グラフ分類損失とメートル法学習損失を組み合わせ、特徴空間における少数クラスに関連付けられた異なるノード間の距離を調整する。 カリキュラム学習に触発されて,学習過程の異なるモジュールの重みを動的に調整し,一般化と識別の能力を向上させる。 提案フレームワークは,いくつかのグラフデータセットを用いて評価され,提案手法が既存の最先端手法を一貫して上回っていることを示す。

Graph Neural Network (GNN) is an emerging technique for graph-based learning tasks such as node classification. In this work, we reveal the vulnerability of GNN to the imbalance of node labels. Traditional solutions for imbalanced classification (e.g. resampling) are ineffective in node classification without considering the graph structure. Worse still, they may even bring overfitting or underfitting results due to lack of sufficient prior knowledge. To solve these problems, we propose a novel graph neural network framework with curriculum learning (GNN-CL) consisting of two modules. For one thing, we hope to acquire certain reliable interpolation nodes and edges through the novel graph-based oversampling based on smoothness and homophily. For another, we combine graph classification loss and metric learning loss which adjust the distance between different nodes associated with minority class in feature space. Inspired by curriculum learning, we dynamically adjust the weights of different modules during training process to achieve better ability of generalization and discrimination. The proposed framework is evaluated via several widely used graph datasets, showing that our proposed model consistently outperforms the existing state-of-the-art methods.
翻訳日:2022-02-08 14:16:57 公開日:2022-02-05
# 倫理、エンゲージメントのルール、AI:大規模変換言語モデルを用いたニューラルナラティブマッピング

Ethics, Rules of Engagement, and AI: Neural Narrative Mapping Using Large Transformer Language Models ( http://arxiv.org/abs/2202.02647v1 )

ライセンス: Link先を確認
Philip Feldman, Aaron Dant, David Rosenbluth(参考訳) 軍事部隊が秩序を正しく理解し、適切に実行しているかどうかを判断する問題は、歴史上の軍事プランナーを苦しめている問題である。 OpenAIのGPTシリーズのような先進言語モデルの出現は、この問題に対処する新たな可能性をもたらす。 本稿では,大規模言語モデルのナラティブ出力を利用して,GPT-3のようなモデルの重み付けに潜む関係の図表や「マップ」を作成するメカニズムを提案する。 結果として得られる「ニューラル・ナララティブ・マップ」(NNM)は、物理的距離の文脈において意図と反応を理解する手段を提供する、情報、意見、モデルの信念の組織化に関する洞察を提供することを目的としている。 本稿では,一般に情報空間をマッピングする問題について論じるとともに,この概念の具体的実装をOpenAIのGPT-3言語モデルを用いて,高リスク状況における指揮官の意図に従属しているかどうかを判断する。 NNM内の部下の位置は、指揮官に対する部下の意図を評価する新しい能力を与える。 物語空間に近接しているかどうかを判断できるだけでなく、どのように指向されているか、どの「軌道」にいるかを判断できることを示す。 提案手法は高品質な地図を作成できることを示すとともに,より一般的に意図を評価する新しい方法を示す。

The problem of determining if a military unit has correctly understood an order and is properly executing on it is one that has bedeviled military planners throughout history. The advent of advanced language models such as OpenAI's GPT-series offers new possibilities for addressing this problem. This paper presents a mechanism to harness the narrative output of large language models and produce diagrams or "maps" of the relationships that are latent in the weights of such models as the GPT-3. The resulting "Neural Narrative Maps" (NNMs), are intended to provide insight into the organization of information, opinion, and belief in the model, which in turn provide means to understand intent and response in the context of physical distance. This paper discusses the problem of mapping information spaces in general, and then presents a concrete implementation of this concept in the context of OpenAI's GPT-3 language model for determining if a subordinate is following a commander's intent in a high-risk situation. The subordinate's locations within the NNM allow a novel capability to evaluate the intent of the subordinate with respect to the commander. We show that is is possible not only to determine if they are nearby in narrative space, but also how they are oriented, and what "trajectory" they are on. Our results show that our method is able to produce high-quality maps, and demonstrate new ways of evaluating intent more generally.
翻訳日:2022-02-08 14:11:07 公開日:2022-02-05
# ゼロエクスペリエンスが必要: セマンティックビジュアルナビゲーションのためのプラグアンドプレイモジュール転送学習

Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation ( http://arxiv.org/abs/2202.02440v1 )

ライセンス: Link先を確認
Ziad Al-Halah, Santhosh K. Ramakrishnan, Kristen Grauman(参考訳) 視覚ナビゲーションのための強化学習では、新しいタスクごとにモデルを開発し、3D環境におけるタスク固有のインタラクションをスクラッチからトレーニングすることが一般的である。 しかし、このプロセスは高価であり、モデルの一般化には大量の相互作用が必要である。 さらに、タスクタイプやゴールのモダリティが変更されると、このプロセスが繰り返されます。 新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。 私たちのモデルは、1つのソースタスクからの経験を効果的に活用し、様々な目標(画像、スケッチ、オーディオ、ラベルなど)を持つ複数のターゲットタスク(ObjectNav、RoomNav、ViewNavなど)に適用できます。 さらに,このモデルはゼロショット体験学習を可能にし,タスク固有のインタラクティブなトレーニングを受けずに対象タスクを解決できる。 複数のフォトリアリスティックなデータセットと挑戦的なタスクに関する実験は、我々のアプローチがより速く学習し、より一般化し、somaモデルを大きく上回ることを示している。

In reinforcement learning for visual navigation, it is common to develop a model for each new task, and train that model from scratch with task-specific interactions in 3D environments. However, this process is expensive; massive amounts of interactions are needed for the model to generalize well. Moreover, this process is repeated whenever there is a change in the task type or the goal modality. We present a unified approach to visual navigation using a novel modular transfer learning model. Our model can effectively leverage its experience from one source task and apply it to multiple target tasks (e.g., ObjectNav, RoomNav, ViewNav) with various goal modalities (e.g., image, sketch, audio, label). Furthermore, our model enables zero-shot experience learning, whereby it can solve the target tasks without receiving any task-specific interactive training. Our experiments on multiple photorealistic datasets and challenging tasks show that our approach learns faster, generalizes better, and outperforms SoTA models by a significant margin.
翻訳日:2022-02-08 13:42:10 公開日:2022-02-05
# ランダムプルーニングの理不尽な有効性--スパーストレーニングにおける最もナイーブなベースラインの返却

The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training ( http://arxiv.org/abs/2202.02643v1 )

ライセンス: Link先を確認
Shiwei Liu, Tianlong Chen, Xiaohan Chen, Li Shen, Decebal Constantin Mocanu, Zhangyang Wang, Mykola Pechenizkiy(参考訳) ランダムな刈り取りは、おそらくニューラルネットワークのスパース性を達成するための最もナイーブな方法であるが、トレーニング後の刈り取りやスパーストレーニングでは競合的ではないとみなされている。 本稿では,最近のニューラルネットワークのスパーストレーニングにおいて,初期化時のランダムなプルーニングが極めて強力であることを示す,おそらく直観に反する発見を強調する。 微妙な刈り取り基準や注意深く追求されたスパルシティ構造がなければ、スクラッチからランダムに刈り取られたネットワークをまばらに訓練することで、その密集した同等のパフォーマンスにマッチできることを実証的に実証する。 この復興に寄与する要因は2つある。 (i)ネットワークのサイズは重要であり、元の高密度ネットワークがより広く深まるにつれて、ランダムに刈り取られたスパースネットワークの訓練性能は、高いスパース率でも、その密集した等価ネットワークのそれとすぐに一致するようになる。 (II) スパーストレーニングでは, 適切な層幅比をプレチョンとし, また重要な性能向上効果を示す。 一見すると、Wide ResNet-50のランダムに刈り取られたサブネットワークは、ImageNet上で高密度のWide ResNet-50を上回るようにわずかに訓練することができる。 また, ランダムに切断されたネットワークは, 分布外検出, 不確実性推定, 対向ロバスト性など, その他の有利な面で高い性能を示した。 全体として,本研究の結果は,大規模でスパーストレーニングを行う余地が予想以上に大きいことを強く示唆しており,スパルサリティの利点は,慎重に設計した刈り取りよりも普遍的である可能性がある。 ソースコードはhttps://github.com/V ITA-Group/Random_Pru ning.orgにある。

Random pruning is arguably the most naive way to attain sparsity in neural networks, but has been deemed uncompetitive by either post-training pruning or sparse training. In this paper, we focus on sparse training and highlight a perhaps counter-intuitive finding, that random pruning at initialization can be quite powerful for the sparse training of modern neural networks. Without any delicate pruning criteria or carefully pursued sparsity structures, we empirically demonstrate that sparsely training a randomly pruned network from scratch can match the performance of its dense equivalent. There are two key factors that contribute to this revival: (i) the network sizes matter: as the original dense networks grow wider and deeper, the performance of training a randomly pruned sparse network will quickly grow to matching that of its dense equivalent, even at high sparsity ratios; (ii) appropriate layer-wise sparsity ratios can be pre-chosen for sparse training, which shows to be another important performance booster. Simple as it looks, a randomly pruned subnetwork of Wide ResNet-50 can be sparsely trained to outperforming a dense Wide ResNet-50, on ImageNet. We also observed such randomly pruned networks outperform dense counterparts in other favorable aspects, such as out-of-distribution detection, uncertainty estimation, and adversarial robustness. Overall, our results strongly suggest there is larger-than-expected room for sparse training at scale, and the benefits of sparsity might be more universal beyond carefully designed pruning. Our source code can be found at https://github.com/V ITA-Group/Random_Pru ning.
翻訳日:2022-02-08 13:41:51 公開日:2022-02-05
# 人間のポーズ推定のためのトップダウンアプローチの検討

A survey of top-down approaches for human pose estimation ( http://arxiv.org/abs/2202.02656v1 )

ライセンス: Link先を確認
Thong Duy Nguyen, Milan Kresovic(参考訳) 2次元画像における人間のポーズ推定は、行動認識、モーションキャプチャーと拡張現実、トレーニングロボット、運動追跡など、人間の生活を改善するための膨大な利点と潜在的な応用のために、コンピュータビジョン問題において近年ホットな話題となっている。 Deep Learningで実装された最先端の多くの手法は、いくつかの課題に対処し、人間のポーズ推定の分野で驚くべき結果をもたらした。 アプローチは2段階のフレームワーク(トップダウンのアプローチ)と部分ベースのフレームワーク(ボットトムアップのアプローチ)に分類される。 2段階のフレームワークは、まず、人物検出器を組み込んで、各ボックス内のポーズを独立に推定するが、画像中のすべてのボディ部分を検出し、個別の人物に属する部品を関連づける。 本稿は,2016年以降,トップダウンアプローチのみに着目した,深層学習手法に基づく2次元画像の認識に関する広範なレビューを新参者に提供することを目的とする。 本稿では, 数学的背景, 課題と限界, ベンチマークデータセット, 評価指標, 方法の比較に依存する重要な検出器と推定器について述べる。

Human pose estimation in two-dimensional images videos has been a hot topic in the computer vision problem recently due to its vast benefits and potential applications for improving human life, such as behaviors recognition, motion capture and augmented reality, training robots, and movement tracking. Many state-of-the-art methods implemented with Deep Learning have addressed several challenges and brought tremendous remarkable results in the field of human pose estimation. Approaches are classified into two kinds: the two-step framework (top-down approach) and the part-based framework (bottom-up approach). While the two-step framework first incorporates a person detector and then estimates the pose within each box independently, detecting all body parts in the image and associating parts belonging to distinct persons is conducted in the part-based framework. This paper aims to provide newcomers with an extensive review of deep learning methods-based 2D images for recognizing the pose of people, which only focuses on top-down approaches since 2016. The discussion through this paper presents significant detectors and estimators depending on mathematical background, the challenges and limitations, benchmark datasets, evaluation metrics, and comparison between methods.
翻訳日:2022-02-08 13:41:17 公開日:2022-02-05