このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211218となっている論文です。

PDF登録状況(公開日: 20211218)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 深層学習による地震予報 [全文訳有]

Earthquake Nowcasting with Deep Learning ( http://arxiv.org/abs/2201.01869v1 )

ライセンス: CC BY 4.0
Geoffrey Fox, John Rundle, Andrea Donnellan, Bo Feng(参考訳) 本稿では,過去の地震の予測手法を概観し,ニューラルネットワークとトランスフォーマーに基づく3つの異なるモデルを用いた深層学習に基づく新しいアプローチを提案する。 我々は、1950年から2020年まで南カリフォルニアの地域において、有望な初期結果を示す観測可能性と手段の異なる選択について論じる。 地震活動は2週間から4年間の期間で0.1度空間ビンの機能として予測される。 全体の品質は, ナッシュサトクリフ効率によって測定され, ガムキャストの偏差と各空間領域の時間的変動を比較した。 このソフトウェアはUSGSの事前処理データとともにオープンソースとして利用可能である。

We review previous approaches to nowcasting earthquakes and introduce new approaches based on deep learning using three distinct models based on recurrent neural networks and transformers. We discuss different choices for observables and measures presenting promising initial results for a region of Southern California from 1950-2020. Earthquake activity is predicted as a function of 0.1-degree spatial bins for time periods varying from two weeks to four years. The overall quality is measured by the Nash Sutcliffe Efficiency comparing the deviation of nowcast and observation with the variance over time in each spatial region. The software is available as open-source together with the preprocessed data from the USGS.
翻訳日:2022-01-09 16:55:18 公開日:2021-12-18
# (参考訳) CoLU Activationによるより深い学習 [全文訳有]

Deeper Learning with CoLU Activation ( http://arxiv.org/abs/2112.12078v1 )

ライセンス: CC BY 4.0
Advait Vagerwal(参考訳) ニューラルネットワークでは、非線型性はアクティベーション関数によって導入される。 一般的に用いられるアクティベーション機能はRectified Linear Unit (ReLU)である。 ReLUはアクティベーションとして人気があるが、欠点がある。 swishやmishといった最先端の関数は、他のアクティベーション関数によって提示される多くの欠陥と戦うため、よりよい選択肢として注目を集めています。 CoLUは、プロパティにおいてSwishやMishに似たアクティベーション機能である。 f(x)=x/(1-xe^-(x+e^x) と定義される。 滑らかで連続的に微分可能で、上述の非有界、下界、非飽和、非単調である。 異なるアクティベーション関数を持つcoluの実験に基づいて、coluはより深いニューラルネットワークの他の機能よりもパフォーマンスが良いことが観察された。 MNIST上で異なるニューラルネットワークをトレーニングする一方で、CoLUはより多くのレイヤに対して高い精度を維持した。 8層の畳み込み層を持つ小さなネットワークでは、CoLUが平均精度が最も高く、ReLUがそれに近かった。 Fashion-MNISTで訓練されたVGG-13では、CoLUはMishより4.20%、ReLUより3.31%高い精度であった。 Cifar-10で訓練されたResNet-9では、CoLUはSwishより0.05%高い精度、Mishより0.09%高い精度、ReLUより0.29%高い精度であった。 活性化関数は、層数、層の種類、パラメータの数、学習率、オプティマイザなど、さまざまな要因に基づいて、他の活性化関数よりも振舞うことが観察された。 これらの因子と活性化関数についてさらなる研究が行われ、より最適な活性化機能とそれらの行動に関するさらなる知識が得られた。

In neural networks, non-linearity is introduced by activation functions. One commonly used activation function is Rectified Linear Unit (ReLU). ReLU has been a popular choice as an activation but has flaws. State-of-the-art functions like Swish and Mish are now gaining attention as a better choice as they combat many flaws presented by other activation functions. CoLU is an activation function similar to Swish and Mish in properties. It is defined as f(x)=x/(1-xe^-(x+e^x)). It is smooth, continuously differentiable, unbounded above, bounded below, non-saturating, and non-monotonic. Based on experiments done with CoLU with different activation functions, it is observed that CoLU usually performs better than other functions on deeper neural networks. While training different neural networks on MNIST on an incrementally increasing number of convolutional layers, CoLU retained the highest accuracy for more layers. On a smaller network with 8 convolutional layers, CoLU had the highest mean accuracy, closely followed by ReLU. On VGG-13 trained on Fashion-MNIST, CoLU had a 4.20% higher accuracy than Mish and 3.31% higher accuracy than ReLU. On ResNet-9 trained on Cifar-10, CoLU had 0.05% higher accuracy than Swish, 0.09% higher accuracy than Mish, and 0.29% higher accuracy than ReLU. It is observed that activation functions may behave better than other activation functions based on different factors including the number of layers, types of layers, number of parameters, learning rate, optimizer, etc. Further research can be done on these factors and activation functions for more optimal activation functions and more knowledge on their behavior.
翻訳日:2021-12-24 02:51:14 公開日:2021-12-18
# (参考訳) グラフファウショットセミ教師あり学習のためのメタプロパゲーションネットワーク [全文訳有]

Meta Propagation Networks for Graph Few-shot Semi-supervised Learning ( http://arxiv.org/abs/2112.09810v1 )

ライセンス: CC BY 4.0
Kaize Ding, Jianling Wang, James Caverlee and Huan Liu(参考訳) ディープラーニングの広範な成功にインスパイアされたグラフニューラルネットワーク(GNN)は,表現力のあるノード表現を学習し,様々なグラフ学習タスクにおいて有望な性能を示した。 しかし、既存の取り組みは、比較的豊富な金色ノードが設けられる従来の半教師付き設定に重点を置いている。 データラベリングは耐え難い労力と集中的なドメイン知識を必要とするため、グラフ構造化データの多様性を考慮すると、しばしば非現実的である。 数発の半教師付き設定の下では、既存のGNNのほとんどのパフォーマンスは、ラベル付きデータが不足しているため、過度な適合と過度にスムースな問題によって必然的に損なわれている。 本稿では,この問題を解決するために,新しいメタ学習アルゴリズムを備えた分散ネットワークアーキテクチャを提案する。 基本的に、メタpnフレームワークは、メタリールラベル伝播戦略を介してラベルなしノード上の高品質の擬似ラベルを推論し、トレーニング中に大きな受容フィールドを可能にしながら、不足したラベル付きデータを効果的に強化する。 広範な実験により、ベンチマークデータセットの既存の技術と比較して、我々のアプローチは簡単かつ実質的なパフォーマンス向上をもたらすことが示されました。

Inspired by the extensive success of deep learning, graph neural networks (GNNs) have been proposed to learn expressive node representations and demonstrated promising performance in various graph learning tasks. However, existing endeavors predominately focus on the conventional semi-supervised setting where relatively abundant gold-labeled nodes are provided. While it is often impractical due to the fact that data labeling is unbearably laborious and requires intensive domain knowledge, especially when considering the heterogeneity of graph-structured data. Under the few-shot semi-supervised setting, the performance of most of the existing GNNs is inevitably undermined by the overfitting and oversmoothing issues, largely owing to the shortage of labeled data. In this paper, we propose a decoupled network architecture equipped with a novel meta-learning algorithm to solve this problem. In essence, our framework Meta-PN infers high-quality pseudo labels on unlabeled nodes via a meta-learned label propagation strategy, which effectively augments the scarce labeled data while enabling large receptive fields during training. Extensive experiments demonstrate that our approach offers easy and substantial performance gains compared to existing techniques on various benchmark datasets.
翻訳日:2021-12-23 04:53:53 公開日:2021-12-18
# (参考訳) ニューラルネットワークを解釈するためのフレームワークgpex

GPEX, A Framework For Interpreting Artificial Neural Networks ( http://arxiv.org/abs/2112.09820v1 )

ライセンス: CC BY 4.0
Amir Akbarnejad, Gilbert Bigras, Nilanjan Ray(参考訳) 機械学習の研究者は、解釈可能性と予測性能のトレードオフを長い間指摘してきた。 一方、伝統的なモデルはしばしば人間に解釈できるが、高い予測性能を達成できない。 スペクトルの反対側では、深いモデルは多くのタスクで最先端のパフォーマンスを達成できます。 しかし、深層モデルの予測は人間には解釈できないことが知られている。 本稿では,上記の2つの手法群間のギャップを短縮する枠組みを提案する。 人工ニューラルネットワーク(ANN)を用いて,予測がANNとほぼ一致するガウス過程(GP)を求める。 GPは高度に解釈可能であるため、トレーニングされたGPを用いてANNの決定を説明する。 我々は,この手法を用いて,M may データセットに関する ANN の決定を説明する。 これらの説明は、ANNの意思決定に関する興味深い洞察を提供する。 我々の知る限りでは、GPに対する推論の定式化は、ANNと同様の振る舞いを持つガウス過程が自然に現れる最初のものである。 さらに, ANN が GP で解釈可能な理論条件についても検討した。 これらの理論的条件のいくつかは、近代建築には制限的すぎる。 しかし、これらの理論条件のサブセットのみが十分であると仮定する。 最後に、GPEXと呼ばれる公開ツールとしてフレームワークを実装します。 ピトルチフィードフォワードモジュールが与えられた場合、GPEXはユーザーが推論アルゴリズムに関わらなくても、モジュールのANNサブコンポーネントを自由に解釈できる。 GPEXはオンラインで公開されている。www.github.com/Nilan jan-Ray/gpex

Machine learning researchers have long noted a trade-off between interpretability and prediction performance. On the one hand, traditional models are often interpretable to humans but they cannot achieve high prediction performances. At the opposite end of the spectrum, deep models can achieve state-of-the-art performances in many tasks. However, deep models' predictions are known to be uninterpretable to humans. In this paper we present a framework that shortens the gap between the two aforementioned groups of methods. Given an artificial neural network (ANN), our method finds a Gaussian process (GP) whose predictions almost match those of the ANN. As GPs are highly interpretable, we use the trained GP to explain the ANN's decisions. We use our method to explain ANNs' decisions on may datasets. The explanations provide intriguing insights about the ANNs' decisions. With the best of our knowledge, our inference formulation for GPs is the first one in which an ANN and a similarly behaving Gaussian process naturally appear. Furthermore, we examine some of the known theoretical conditions under which an ANN is interpretable by GPs. Some of those theoretical conditions are too restrictive for modern architectures. However, we hypothesize that only a subset of those theoretical conditions are sufficient. Finally, we implement our framework as a publicly available tool called GPEX. Given any pytorch feed-forward module, GPEX allows users to interpret any ANN subcomponent of the module effortlessly and without having to be involved in the inference algorithm. GPEX is publicly available online:www.github.co m/Nilanjan-Ray/gpex
翻訳日:2021-12-23 04:34:08 公開日:2021-12-18
# (参考訳) マルチ測定生成モデル

Multimeasurement Generative Models ( http://arxiv.org/abs/2112.09822v1 )

ライセンス: CC BY 4.0
Saeed Saremi, Rupesh Kumar Srivastava(参考訳) 我々は、密度$p_X$ in $\mathbb{R}^d$ の未知分布からのサンプリング問題を学習とサンプリングの問題にマッピングし、$p_\mathbf{Y}$ in $\mathbb{R}^{Md}$ を固定因子核と結合させることにより得られる: $p_\mathbf{Y}$ を M-密度、因子核をマルチモーメントノイズモデル(MMM)と呼ぶ。 m-密度は$p_x$よりも滑らかで、学習しやすく、サンプルも容易であるが、大きな$m$の場合、2つの問題は数学的に等価である:$x$は、ベイズ推定器$\widehat{x}(\mathbf{y})=\mathbb{e}[x\vert\mathbf{y}=\mathbf{y}]$を用いて正確に$\mathbf{y}=\mathbf{y}$を与えられるので、数学的に同値である。 この問題を定式化するために、poisson と gaussian mnms に対して $\widehat{x}(\mathbf{y})$ を非正規化 $p_\mathbf{y}$ として導出する。 これはパラメトリックエネルギーの学習とスコア関数の単純な最小二乗の目的に繋がる。 本稿では,ガウス的m-密度の研究がマルチデノイジングオートエンコーダに直結するなど,様々な関心のパラメトリゼーションスキームを提案する。 p_X$のサンプルはウォークジャンプサンプリング(Saremi & Hyvarinen, 2019)で、アンダーダムのLangevin MCMC(ウォーク)から$p_\mathbf{Y}$のサンプルと、X$(ジャンプ)のマルチ測定ベイズ推定によって得られる。 MNIST, CIFAR-10, FFHQ-256 データセット上での置換不変ガウス M-密度について検討し, 高速混合安定マルコフ連鎖を高次元で実現するためのフレームワークの有効性を実証する。

We formally map the problem of sampling from an unknown distribution with density $p_X$ in $\mathbb{R}^d$ to the problem of learning and sampling $p_\mathbf{Y}$ in $\mathbb{R}^{Md}$ obtained by convolving $p_X$ with a fixed factorial kernel: $p_\mathbf{Y}$ is referred to as M-density and the factorial kernel as multimeasurement noise model (MNM). The M-density is smoother than $p_X$, easier to learn and sample from, yet for large $M$ the two problems are mathematically equivalent since $X$ can be estimated exactly given $\mathbf{Y}=\mathbf{y}$ using the Bayes estimator $\widehat{x}(\mathbf{y})=\mathbb{E}[X\vert\mathbf{Y}=\mathbf{y}]$. To formulate the problem, we derive $\widehat{x}(\mathbf{y})$ for Poisson and Gaussian MNMs expressed in closed form in terms of unnormalized $p_\mathbf{Y}$. This leads to a simple least-squares objective for learning parametric energy and score functions. We present various parametrization schemes of interest, including one in which studying Gaussian M-densities directly leads to multidenoising autoencoders--this is the first theoretical connection made between denoising autoencoders and empirical Bayes in the literature. Samples from $p_X$ are obtained by walk-jump sampling (Saremi & Hyvarinen, 2019) via underdamped Langevin MCMC (walk) to sample from $p_\mathbf{Y}$ and the multimeasurement Bayes estimation of $X$ (jump). We study permutation invariant Gaussian M-densities on MNIST, CIFAR-10, and FFHQ-256 datasets, and demonstrate the effectiveness of this framework for realizing fast-mixing stable Markov chains in high dimensions.
翻訳日:2021-12-23 04:32:13 公開日:2021-12-18
# (参考訳) 分離正規化と適応的非正規化に基づく顔脱毛 [全文訳有]

Face Deblurring Based on Separable Normalization and Adaptive Denormalization ( http://arxiv.org/abs/2112.09833v1 )

ライセンス: CC BY 4.0
Xian Zhang, Hao Zhang, Jiancheng Lv, Xiaojie Li(参考訳) face deblurlingは、より明確な構造と顔の詳細で、ぼやけた入力画像から明快な顔画像を復元することを目的としている。 しかし、従来の画像や顔の劣化は、特殊な顔部分のテクスチャを考慮せずに生成した画像の解像度全体に焦点を合わせ、一般的には不十分な詳細を生成する。 本研究では,顔と背景が分布情報が異なることを考慮し,分離正規化と適応的非正規化(snadnet)に基づく効果的な顔デブラリングネットワークを設計した。 まず、顔解析ネットワークを微調整して、正確な顔構造を得る。 次に,顔解析機能を前景と背景に分けた。 さらに,補助の条件として相構造を正則化し,より調和的で不規則な顔構造を生成するための新しい特徴適応的非正規化法を構築した。 さらに,生成した顔テクスチャ情報を強化するために,テクスチャ抽出器とマルチパッチ識別器を提案する。 CelebAとCelebA-HQの両方のデータセットによる実験結果から,提案した顔劣化ネットワークは顔の細部をより詳細に復元し,構造化類似度指数法(SSIM),ピーク信号-雑音比(PSNR),Frechet開始距離(FID),L1,定性比較の観点から,最先端の手法に好適に対応していることが示された。

Face deblurring aims to restore a clear face image from a blurred input image with more explicit structure and facial details. However, most conventional image and face deblurring methods focus on the whole generated image resolution without consideration of special face part texture and generally produce unsufficient details. Considering that faces and backgrounds have different distribution information, in this study, we designed an effective face deblurring network based on separable normalization and adaptive denormalization (SNADNet). First, We fine-tuned the face parsing network to obtain an accurate face structure. Then, we divided the face parsing feature into face foreground and background. Moreover, we constructed a new feature adaptive denormalization to regularize fafcial structures as a condition of the auxiliary to generate more harmonious and undistorted face structure. In addition, we proposed a texture extractor and multi-patch discriminator to enhance the generated facial texture information. Experimental results on both CelebA and CelebA-HQ datasets demonstrate that the proposed face deblurring network restores face structure with more facial details and performs favorably against state-of-the-art methods in terms of structured similarity indexing method (SSIM), peak signal-to-noise ratio (PSNR), Frechet inception distance (FID) and L1, and qualitative comparisons.
翻訳日:2021-12-23 04:27:45 公開日:2021-12-18
# (参考訳) ミニバッチによるデータストリーム用袋詰めアンサンブルの性能向上

Improving the performance of bagging ensembles for data streams through mini-batching ( http://arxiv.org/abs/2112.09834v1 )

ライセンス: CC BY 4.0
Guilherme Cassales, Heitor Gomes, Albert Bifet, Bernhard Pfahringer, Hermes Senger(参考訳) 多くの場合、機械学習アプリケーションは、データが無限の長さと一時的な振る舞いを持つ連続データストリーム形式で収集される動的環境に対処する必要がある。 従来の(バッチ)データマイニングと比較して、ストリーム処理アルゴリズムには計算リソースとデータ進化への適応性に関する追加の要件がある。 データの連続フローは複数のパスに対してデータの保存を禁止するため、インスタンスをインクリメンタルに処理しなければならない。 アンサンブル学習はこのシナリオで顕著な予測性能を達成した。 個別分類器の集合として実装され、アンサンブルはタスク並列性に対して自然に修正可能である。 しかし、概念のドリフトを捉えるために使われる漸進的な学習と動的データ構造はキャッシュミスを増やし、並列性の利点を阻害する。 本稿では,マルチコア環境におけるストリームマイニングのためのメモリアクセスローカリティとアンサンブルアルゴリズムの性能を向上させるためのミニバッチ戦略を提案する。 形式的フレームワークの助けを借りて,ミニバッチが再利用距離(およびキャッシュミス数)を大幅に削減できることを実証する。 異なる特性を持つ4つのベンチマークデータセットを適用した6種類の最先端アンサンブルアルゴリズムの実験は、8コアプロセッサ上で最大5倍のスピードアップを示す。 これらの利点は、予測性能の低下を犠牲にしている。

Often, machine learning applications have to cope with dynamic environments where data are collected in the form of continuous data streams with potentially infinite length and transient behavior. Compared to traditional (batch) data mining, stream processing algorithms have additional requirements regarding computational resources and adaptability to data evolution. They must process instances incrementally because the data's continuous flow prohibits storing data for multiple passes. Ensemble learning achieved remarkable predictive performance in this scenario. Implemented as a set of (several) individual classifiers, ensembles are naturally amendable for task parallelism. However, the incremental learning and dynamic data structures used to capture the concept drift increase the cache misses and hinder the benefit of parallelism. This paper proposes a mini-batching strategy that can improve memory access locality and performance of several ensemble algorithms for stream mining in multi-core environments. With the aid of a formal framework, we demonstrate that mini-batching can significantly decrease the reuse distance (and the number of cache misses). Experiments on six different state-of-the-art ensemble algorithms applying four benchmark datasets with varied characteristics show speedups of up to 5X on 8-core processors. These benefits come at the expense of a small reduction in predictive performance.
翻訳日:2021-12-23 04:05:08 公開日:2021-12-18
# (参考訳) AIの創造性: 深層強化学習を支援するシンボリックオプションの自動発見 [全文訳有]

Creativity of AI: Automatic Symbolic Option Discovery for Facilitating Deep Reinforcement Learning ( http://arxiv.org/abs/2112.09836v1 )

ライセンス: CC BY-SA 4.0
Mu Jin, Zhihao Ma, Kebing Jin, Hankz Hankui Zhuo, Chen Chen, Chao Yu(参考訳) 実生活で大きな成功を収めたにもかかわらず、深層強化学習(DRL)は、データ効率、解釈可能性の欠如、伝達可能性の欠如という3つの重要な問題に依然として苦しんでいる。 近年の研究では、DRLに記号的知識を組み込むことがこれらの課題に対処する上で有望であることが示されている。 そこで本研究では,シンボリックオプションを用いた新しい深層強化学習フレームワークを提案する。 本フレームワークは,対話的軌道から学習した行動モデルとシンボルオプションを用いて計画することで,政策改善の指導を可能にするループトレーニング手順を特徴とする。 学習された象徴的オプションは、専門家のドメイン知識の密接な要求を緩和し、ポリシーの固有の解釈可能性を提供する。 さらに、アクションモデルによる計画により、転送性とデータ効率をさらに向上させることができる。 この枠組みの有効性を検証するため,モンテズマの復讐とオフィスワールドという2つのドメインで実験を行った。 その結果,同等の性能,データ効率の向上,解釈性,転送性が示された。

Despite of achieving great success in real life, Deep Reinforcement Learning (DRL) is still suffering from three critical issues, which are data efficiency, lack of the interpretability and transferability. Recent research shows that embedding symbolic knowledge into DRL is promising in addressing those challenges. Inspired by this, we introduce a novel deep reinforcement learning framework with symbolic options. This framework features a loop training procedure, which enables guiding the improvement of policy by planning with action models and symbolic options learned from interactive trajectories automatically. The learned symbolic options alleviate the dense requirement of expert domain knowledge and provide inherent interpretability of policies. Moreover, the transferability and data efficiency can be further improved by planning with the action models. To validate the effectiveness of this framework, we conduct experiments on two domains, Montezuma's Revenge and Office World, respectively. The results demonstrate the comparable performance, improved data efficiency, interpretability and transferability.
翻訳日:2021-12-23 04:04:06 公開日:2021-12-18
# (参考訳) イメージからのカロリー認知型自動食事キット生成 [全文訳有]

Calorie Aware Automatic Meal Kit Generation from an Image ( http://arxiv.org/abs/2112.09839v1 )

ライセンス: CC BY 4.0
Ahmad Babaeian Jelodar and Yu Sun(参考訳) 近年、カロリーと栄養の研究が注目されている。 しかし、問題の複雑さのために、この分野の文献は、材料や料理の種類や単純な畳み込みニューラルネットワークや従来の機械学習の限られたサブセットに焦点を当てている。 同時に、成分部分の推定は、所定の画像からカロリー推定と食事の再現を改善するのに役立つ。 本稿では,単一調理イメージを付与し,食事の異なる食事に対するカロリー推定と食事再生産のためのパイプラインを提案する。 パイプラインには2つのステージがあります。 第1段階では、所定の画像における食事に関連する成分のセットを予測する。 第2段階では, 深部変圧器モデルを用いて, 画像の特徴と成分, 成分の一部と総食カロリーを同時に推定する。 モデルに導入された部分推定は、カロリー推定を改善するのに役立ち、異なるサービスサイズでの食事の再生産にも有用である。 パイプラインの利点を実証するために、モデルは食材キットの生成に使用することができる。 パイプラインを評価するには、大規模なデータセットRecipe1Mを使用する。 実験に先立ち、Recipe1Mデータセットは解析され、具体的部分で明示的に注釈付けされる。 実験により,成分とその部分の使用はカロリー推定を著しく改善することが示された。 また、ユーザーがパイプラインと対話して正確なカロリー推定を行い、調理目的の食器キットを生成することができるビジュアルインターフェースを作成する。

Calorie and nutrition research has attained increased interest in recent years. But, due to the complexity of the problem, literature in this area focuses on a limited subset of ingredients or dish types and simple convolutional neural networks or traditional machine learning. Simultaneously, estimation of ingredient portions can help improve calorie estimation and meal re-production from a given image. In this paper, given a single cooking image, a pipeline for calorie estimation and meal re-production for different servings of the meal is proposed. The pipeline contains two stages. In the first stage, a set of ingredients associated with the meal in the given image are predicted. In the second stage, given image features and ingredients, portions of the ingredients and finally the total meal calorie are simultaneously estimated using a deep transformer-based model. Portion estimation introduced in the model helps improve calorie estimation and is also beneficial for meal re-production in different serving sizes. To demonstrate the benefits of the pipeline, the model can be used for meal kits generation. To evaluate the pipeline, the large scale dataset Recipe1M is used. Prior to experiments, the Recipe1M dataset is parsed and explicitly annotated with portions of ingredients. Experiments show that using ingredients and their portions significantly improves calorie estimation. Also, a visual interface is created in which a user can interact with the pipeline to reach accurate calorie estimations and generate a meal kit for cooking purposes.
翻訳日:2021-12-23 03:49:02 公開日:2021-12-18
# (参考訳) 英語ヒンディー語における後編集作業の評価 [全文訳有]

Assessing Post-editing Effort in the English-Hindi Direction ( http://arxiv.org/abs/2112.09841v1 )

ライセンス: CC BY 4.0
Arafat Ahsan, Vandan Mujadia and Dipti Misra Sharma(参考訳) 本研究は,複数の作業指標に沿った英ヒンディー方向における,最初の詳細な編集後作業推定結果から得られた知見である。 我々は、スクラッチと後処理条件からの翻訳において、割り当てられたタスクを交互に完了するプロの翻訳者による制御実験を行う。 ポスト編集は翻訳時間(63%)を削減し、キーストローク(59%)を少なくし、スクラッチから翻訳するよりもポーズ数(63%)を減少させることがわかった。 さらに, 識別可能な品質差を検出できない人間評価タスクによって生成された翻訳品質の検証を行う。

We present findings from a first in-depth post-editing effort estimation study in the English-Hindi direction along multiple effort indicators. We conduct a controlled experiment involving professional translators, who complete assigned tasks alternately, in a translation from scratch and a post-edit condition. We find that post-editing reduces translation time (by 63%), utilizes fewer keystrokes (by 59%), and decreases the number of pauses (by 63%) when compared to translating from scratch. We further verify the quality of translations thus produced via a human evaluation task in which we do not detect any discernible quality differences.
翻訳日:2021-12-23 03:35:58 公開日:2021-12-18
# (参考訳) データ駆動力学を組み込んだマニフォールド

Manifold embedding data-driven mechanics ( http://arxiv.org/abs/2112.09842v1 )

ライセンス: CC BY 4.0
Bahador Bahmani and WaiChing Sun(参考訳) 本稿では,可逆ニューラルネットワークが生成する多様体埋め込みを利用して,制約データを用いた構成則フリーシミュレーションのロバスト性,効率性,正確性を向上させる新しいデータ駆動手法を提案する。 本研究では,深層ニューラルネットワークを訓練し,構成多様体から低次元ユークリッドベクトル空間へデータを大域的にマッピングする。 このようにして、写像されたユークリッドベクトル空間のノルムと多様体の計量との関係を確立し、物質データに対するより物理的に一貫性のある距離の概念へと導く。 この処理によって高価な組合せ最適化を回避でき、データ豊富で高次元のモデルフリーシミュレーションを著しく高速化することができる。 一方、埋め込みの学習は、データが不均一にパラメトリック空間に分散される場合のアルゴリズムの堅牢性も向上する。 異なる条件下での多様体埋め込み手法の性能を実証・測定するために数値実験を行った。 提案手法と古典的エネルギーノルムを用いた結果を比較した。

This article introduces a new data-driven approach that leverages a manifold embedding generated by the invertible neural network to improve the robustness, efficiency, and accuracy of the constitutive-law-fre e simulations with limited data. We achieve this by training a deep neural network to globally map data from the constitutive manifold onto a lower-dimensional Euclidean vector space. As such, we establish the relation between the norm of the mapped Euclidean vector space and the metric of the manifold and lead to a more physically consistent notion of distance for the material data. This treatment in return allows us to bypass the expensive combinatorial optimization, which may significantly speed up the model-free simulations when data are abundant and of high dimensions. Meanwhile, the learning of embedding also improves the robustness of the algorithm when the data is sparse or distributed unevenly in the parametric space. Numerical experiments are provided to demonstrate and measure the performance of the manifold embedding technique under different circumstances. Results obtained from the proposed method and those obtained via the classical energy norms are compared.
翻訳日:2021-12-23 03:24:44 公開日:2021-12-18
# (参考訳) 超解像によるフロアプランにおける物体検出の強化 [全文訳有]

Enhanced Object Detection in Floor-plan through Super Resolution ( http://arxiv.org/abs/2112.09844v1 )

ライセンス: CC BY 4.0
Dev Khare, N S Kamal, Barathi Ganesh HB, V Sowmya, V V Sajith Variyar(参考訳) 情報モデリング(BIM)ソフトウェアの構築は、スケーラブルなベクトルフォーマットを使用して、業界におけるフロアプランの柔軟な設計を可能にする。 アーキテクチャ領域のフロアプランは、スケーラブルなベクターフォーマットであるかもしれないし、そうでないかもしれない多くのソースから得ることができる。 フロアプラン画像から完全にアノテートされたベクトル画像への変換は、コンピュータビジョンによって実現可能なプロセスである。 この分野での新しいデータセットは、オブジェクト検出のための畳み込みニューラルネットワーク(CNN)アーキテクチャのトレーニングに使用されている。 Super-Resolution (SR)による画像強調はコンピュータビジョンにおいて確立されたCNNベースのネットワークであり、低解像度画像から高解像度画像への変換に用いられる。 この研究は、フロアプランオブジェクト検出モデル上にSRモデルを積み重ねるマルチコンポーネントモジュールの作成に焦点を当てている。 提案するスタックモデルでは,対応するバニラ物体検出モデルよりも高い性能を示す。 最良の場合、SRが組み込まれたことにより、バニラネットワーク上での物体検出は39.47%改善した。 データとコードはhttps://github.com/r bg-research/Floor-Pl an-Detectionで公開されている。

Building Information Modelling (BIM) software use scalable vector formats to enable flexible designing of floor plans in the industry. Floor plans in the architectural domain can come from many sources that may or may not be in scalable vector format. The conversion of floor plan images to fully annotated vector images is a process that can now be realized by computer vision. Novel datasets in this field have been used to train Convolutional Neural Network (CNN) architectures for object detection. Image enhancement through Super-Resolution (SR) is also an established CNN based network in computer vision that is used for converting low resolution images to high resolution ones. This work focuses on creating a multi-component module that stacks a SR model on a floor plan object detection model. The proposed stacked model shows greater performance than the corresponding vanilla object detection model. For the best case, the the inclusion of SR showed an improvement of 39.47% in object detection over the vanilla network. Data and code are made publicly available at https://github.com/r bg-research/Floor-Pl an-Detection.
翻訳日:2021-12-23 03:23:44 公開日:2021-12-18
# (参考訳) 時間変動状態と制御制約を考慮したモデルベース安全強化学習:知的車両への適用 [全文訳有]

Model-Based Safe Reinforcement Learning with Time-Varying State and Control Constraints: An Application to Intelligent Vehicles ( http://arxiv.org/abs/2112.11217v1 )

ライセンス: CC BY 4.0
Xinglong Zhang, Yaoqian Peng, Biao Luo, Wei Pan, Xin Xu, and Haibin Xie(参考訳) 近年,連続制御タスクのためのアクター批判構造を持つバリア機能に基づく安全強化学習(RL)が注目されている。 安全と収束の保証を備えた準最適制御政策を学ぶことは依然として困難である。 また、安全性に制約のある安全RLアルゴリズムの設計に対処する研究はほとんどない。 本稿では,時間的制約のある非線形システムの最適制御のためのモデルベース安全なRLアルゴリズムを提案する。 提案手法では,制御安全を保証できる新たなバリアベースの制御ポリシ構造を構築する。 政策の安全上の制約下での安全リスクを予測し、政策を安全に更新するための多段階政策評価機構を提案する。 安定性と堅牢性に関する理論的結果が証明されている。 また、アクター批判学習アルゴリズムの収束性も分析する。 提案アルゴリズムの性能は,安全体育館シミュレーション環境において,最先端のrlアルゴリズムを上回っている。 さらに,実世界の2台の知的車両の経路追従・衝突回避問題にもアプローチを適用した。 差動駆動車とアッカーマン駆動車を用いて、オフライン配置性能とオンライン学習性能をそれぞれ検証する。 提案手法は,この実験において印象的なsim-to-real転送機能と良好なオンライン制御性能を示す。

Recently, barrier function-based safe reinforcement learning (RL) with the actor-critic structure for continuous control tasks has received increasing attention. It is still challenging to learn a near-optimal control policy with safety and convergence guarantees. Also, few works have addressed the safe RL algorithm design under time-varying safety constraints. This paper proposes a model-based safe RL algorithm for optimal control of nonlinear systems with time-varying state and control constraints. In the proposed approach, we construct a novel barrier-based control policy structure that can guarantee control safety. A multi-step policy evaluation mechanism is proposed to predict the policy's safety risk under time-varying safety constraints and guide the policy to update safely. Theoretical results on stability and robustness are proven. Also, the convergence of the actor-critic learning algorithm is analyzed. The performance of the proposed algorithm outperforms several state-of-the-art RL algorithms in the simulated Safety Gym environment. Furthermore, the approach is applied to the integrated path following and collision avoidance problem for two real-world intelligent vehicles. A differential-drive vehicle and an Ackermann-drive one are used to verify the offline deployment performance and the online learning performance, respectively. Our approach shows an impressive sim-to-real transfer capability and a satisfactory online control performance in the experiment.
翻訳日:2021-12-23 03:15:25 公開日:2021-12-18
# (参考訳) ファインチューニングによる学習と遅延のアルゴリズムの改善 [全文訳有]

Improving Learning-to-Defer Algorithms Through Fine-Tuning ( http://arxiv.org/abs/2112.10768v1 )

ライセンス: CC BY 4.0
Naveen Raman, Michael Yee(参考訳) ユビキタスなAIは、人間とAIが一緒に働く状況につながり、AIと人間のタスクを分割する方法を決定するアルゴリズムを学習する必要性を生み出します。 2つの微調整アルゴリズムを組み込んで、合成データと画像データセットの両方を用いて有効性をテストすることにより、特定の個人とペアリングした場合の学習・防御アルゴリズムの改善に取り組んでいる。 私たちは、微調整は単純な人間のスキルパターンを拾い上げることができるが、ニュアンスに苦しむことを見出し、学習を改善するためにロバストな半教師付き(semi-supervised)を使った将来の仕事を提案する。

The ubiquity of AI leads to situations where humans and AI work together, creating the need for learning-to-defer algorithms that determine how to partition tasks between AI and humans. We work to improve learning-to-defer algorithms when paired with specific individuals by incorporating two fine-tuning algorithms and testing their efficacy using both synthetic and image datasets. We find that fine-tuning can pick up on simple human skill patterns, but struggles with nuance, and we suggest future work that uses robust semi-supervised to improve learning.
翻訳日:2021-12-23 02:44:19 公開日:2021-12-18
# LSTMに基づく多重時系列融合 : 脳波を用いたCAPA位相分類への応用

Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase Classification Using EEG ( http://arxiv.org/abs/2112.11218v1 )

ライセンス: Link先を確認
F\'abio Mendon\c{c}a, Sheikh Shanawaz Mostafa, Diogo Freitas, Fernando Morgado-Dias, and Antonio G. Ravelo-Garc\'ia(参考訳) 生体医学的な決定には、異なるセンサーや異なるチャネルからの複数の信号処理が含まれる。 どちらの場合も、情報融合は重要な役割を果たす。 本研究は、脳波循環交互パターンaの位相分類において、深層学習に基づく脳波チャネルの特徴レベル融合を行う。 チャネル選択,融合,分類手順は遺伝的アルゴリズムと粒子群最適化という2つの最適化アルゴリズムによって最適化された。 本手法は, 夜間前頭葉てんかん患者と神経疾患を伴わない患者に対して, 複数の脳波チャンネルからの情報を融合することにより評価した。 その結果,2つの最適化アルゴリズムは,CAPプロトコルと一致した3つの脳波チャンネルから構成され,CAP検出のための複数のチャネルの覚醒を確実にするための類似した特徴レベル融合構造を選択した。 さらに、最適化された2つのモデルは、受信者の動作特性曲線の0.82の範囲に到達し、平均精度は77%から79%であり、専門的合意の範囲内である。 提案されたアプローチは、難しいデータセットにもかかわらず、いまだに最先端の芸術作品の範囲内にあり、手動の手順を必要とせずに、完全な自動分析を提供する利点がある。 最終的に、モデルには耐雑音性があり、複数のチャネル損失に対して耐性があることが判明した。

Biomedical decision making involves multiple signal processing, either from different sensors or from different channels. In both cases, information fusion plays a significant role. A deep learning based electroencephalogram channels' feature level fusion is carried out in this work for the electroencephalogram cyclic alternating pattern A phase classification. Channel selection, fusion, and classification procedures were optimized by two optimization algorithms, namely, Genetic Algorithm and Particle Swarm Optimization. The developed methodologies were evaluated by fusing the information from multiple electroencephalogram channels for patients with nocturnal frontal lobe epilepsy and patients without any neurological disorder, which was significantly more challenging when compared to other state of the art works. Results showed that both optimization algorithms selected a comparable structure with similar feature level fusion, consisting of three electroencephalogram channels, which is in line with the CAP protocol to ensure multiple channels' arousals for CAP detection. Moreover, the two optimized models reached an area under the receiver operating characteristic curve of 0.82, with average accuracy ranging from 77% to 79%, a result which is in the upper range of the specialist agreement. The proposed approach is still in the upper range of the best state of the art works despite a difficult dataset, and has the advantage of providing a fully automatic analysis without requiring any manual procedure. Ultimately, the models revealed to be noise resistant and resilient to multiple channel loss.
翻訳日:2021-12-22 15:32:37 公開日:2021-12-18
# GCN-Geo: グラフ畳み込みネットワークに基づくきめ細かいIPジオロケーションフレームワーク

GCN-Geo: A Graph Convolution Network-based Fine-grained IP Geolocation Framework ( http://arxiv.org/abs/2112.10767v1 )

ライセンス: Link先を確認
Shichang Ding, Fan Zhang, Xiangyang Luo, Fenlin Liu(参考訳) 古典的な測定に基づくIP測位アルゴリズムは、しばしば特定の線形遅延距離規則に依存する。 これは、遅延距離関係が非線形である実際のネットワーク環境において、信頼性の低い位置決め結果をもたらす可能性がある。 近年,学習に基づくIP位置情報アルゴリズムに注目が集まっている。 これらのデータ駆動アルゴリズムはマルチ層パーセプトロン(MLP)を利用してネットワーク環境をモデル化する。 彼らは線形遅延距離則について強い事前仮定を必要とせず、非線形関係を学べる。 理論的には、異なるネットワークにおけるIP位置情報の一般化能力を改善する必要がある。 しかし、ネットワークは基本的にグラフとして表現される。 MLPはグラフとして構造化された情報をモデル化するのにはあまり適していない。 MLPベースのIP位置情報手法は、ターゲットIPアドレスを独立したデータインスタンスとして扱い、ターゲット間の接続情報を無視する。 これにより、準最適表現となり、位置情報性能が制限される。 グラフ畳み込みネットワーク(GCN)は,グラフデータ提示のための深層学習手法である。 本稿では,GCNを用いた細粒度IP位置情報のためのコンピュータネットワークのモデル化について検討する。 まず,IP位置情報タスクを属性付きグラフノード回帰問題として定式化する。 次に,GCNベースのIP位置情報フレームワークであるGCN-Geoを提案し,各IPアドレスの位置を予測する。 最後に、実世界の3つのデータセット(ニューヨーク、香港、上海)の実験結果から、提案したGCN-Geoフレームワークは、平均誤差距離、中央値誤差距離、最大誤差距離において、最先端のルールベースおよび学習ベースラインよりも明らかに優れていることが示された。 これにより、粒度の細かいIP位置情報におけるGCNの可能性を検証する。

Classical fine-grained measurement-based IP geolocation algorithms often rely on some specific linear delay-distance rules. This could cause unreliable geolocation results in actual network environments where the delay-distance relationship is non-linear. Recently, researchers begin to pay attention to learning-based IP geolocation algorithms. These data-driven algorithms leverage multi-layer perceptron (MLP) to model the network environments. They do not need strong pre-assumptions about the linear delay-distance rule and are capable to learn non-linear relationships. In theory, they should improve the generalization ability of IP geolocation in different networks. However, networks are fundamentally represented as graphs. MLP is not well suited to model information structured as graphs. MLP-based IP geolocation methods treat target IP addresses as isolated data instances and ignore the connection information between targets. This would lead to suboptimal representations and limit the geolocation performance. Graph convolutional network (GCN) is an emerging deep learning method for graph data presentation. In this work, we research how to model computer networks for fine-grained IP geolocation with GCN. First, we formulate the IP geolocation task as an attributed graph node regression problem. Then, a GCN-based IP geolocation framework named GCN-Geo is proposed to predict the location of each IP address. Finally, the experimental results in three real-world datasets (New York State, Hong Kong, and Shanghai) show that the proposed GCN-Geo framework clearly outperforms the state-of-art rule-based and learning-based baselines on average error distance, median error distance and max error distance. This verifies the potential of GCN in fine-grained IP geolocation.
翻訳日:2021-12-22 14:54:28 公開日:2021-12-18
# (参考訳) 時間的グラフネットワークにおける近傍サンプリング [全文訳有]

Time-Aware Neighbor Sampling for Temporal Graph Networks ( http://arxiv.org/abs/2112.09845v1 )

ライセンス: CC BY 4.0
Yiwei Wang, Yujun Cai, Yuxuan Liang, Henghui Ding, Changhu Wang, Bryan Hooi(参考訳) 時間グラフに隣接した新しいサンプリング手法を提案する。 時間グラフでは、異なるノードの時間変化特性を予測するには、様々な時間スケールの受容的近傍が必要となる。 そこで本研究では,tnsが時間情報から学習し,任意のノード毎に適応的なレセプティブ近傍を提供するtns(time-aware neighbor sampling)手法を提案する。 時間順の隣接インデックスは離散的であり、微分可能ではないので、近傍のサンプルの方法を学ぶことは自明ではない。 この課題に対処するため、隣人のメッセージを補間することにより、隣人の指標を離散値から連続指標に変換する。 tnsは、時間的複雑さを増すことなく、その効果を改善するために、一般的なテンポラルグラフネットワークに柔軟に組み込むことができる。 TNSはエンドツーエンドでトレーニングすることができる。 余分な監視は不要で、予測に最も有益である隣人のサンプルを自動的に暗黙的に案内される。 複数の標準データセットに対する実験結果から、TNSはエッジ予測とノード分類において大きな利益をもたらすことが示された。

We present a new neighbor sampling method on temporal graphs. In a temporal graph, predicting different nodes' time-varying properties can require the receptive neighborhood of various temporal scales. In this work, we propose the TNS (Time-aware Neighbor Sampling) method: TNS learns from temporal information to provide an adaptive receptive neighborhood for every node at any time. Learning how to sample neighbors is non-trivial, since the neighbor indices in time order are discrete and not differentiable. To address this challenge, we transform neighbor indices from discrete values to continuous ones by interpolating the neighbors' messages. TNS can be flexibly incorporated into popular temporal graph networks to improve their effectiveness without increasing their time complexity. TNS can be trained in an end-to-end manner. It needs no extra supervision and is automatically and implicitly guided to sample the neighbors that are most beneficial for prediction. Empirical results on multiple standard datasets show that TNS yields significant gains on edge prediction and node classification.
翻訳日:2021-12-22 13:17:57 公開日:2021-12-18
# (参考訳) モードレイノルズ数における自由振動球の安定性解析のための深層学習

Deep Learning for Stability Analysis of a Freely Vibrating Sphere at Moderate Reynolds Number ( http://arxiv.org/abs/2112.09858v1 )

ライセンス: CC BY 4.0
A. Chizfahm and R. Jaiman(参考訳) 本稿では,非定常な3次元流体構造相互作用系の安定性予測のための深層学習に基づくリダクションオーダーモデル(DL-ROM)を提案する。 提案するDL-ROMは非線形状態空間モデルの形式を持ち,長期記憶付きリカレントニューラルネットワーク(LSTM)を採用している。 非圧縮性流体流と結合した弾性体球面の標準流体構造系を状態空間形式で検討する。 自由振動球の非定常力および渦誘起振動(viv)ロックインを横方向に予測するための非線形データ駆動結合法を開発した。 流体構造系の低次元近似のための力・変位データセットの時間列として入力出力関係を設計する。 VIVロックインプロセスの事前知識に基づき、入力関数は周波数と振幅の範囲を含み、低次元モデリングのための大規模なトレーニングデータセットを必要としない効率的なDL-ROMを可能にする。 一度訓練すると、ネットワークは入力出力ダイナミクスの非線形マッピングを提供し、フィードバックプロセスを通じてより長い地平線の流体構造ダイナミクスを予測できる。 LSTMネットワークを固有系実現アルゴリズム (ERA) と統合することにより、低次安定性解析のためのデータ駆動状態空間モデルを構築する。 固有値選択法によるVIVの基礎機構と安定性特性について検討する。 周波数ロックイン機構を理解するため,振動周波数と質量比の低減範囲の固有値軌跡について検討した。 フルオーダーシミュレーションとは対照的に、周波数ロックイン分岐はLSTM-ERA法により正確に捕捉される。 提案したDL-ROMは、流体構造相互作用を含む工学系の物理ベースのデジタル双対の開発と一致している。

In this paper, we present a deep learning-based reduced-order model (DL-ROM) for the stability prediction of unsteady 3D fluid-structure interaction systems. The proposed DL-ROM has the format of a nonlinear state-space model and employs a recurrent neural network with long short-term memory (LSTM). We consider a canonical fluid-structure system of an elastically-mounted sphere coupled with incompressible fluid flow in a state-space format. We develop a nonlinear data-driven coupling for predicting unsteady forces and vortex-induced vibration (VIV) lock-in of the freely vibrating sphere in a transverse direction. We design an input-output relationship as a temporal sequence of force and displacement datasets for a low-dimensional approximation of the fluid-structure system. Based on the prior knowledge of the VIV lock-in process, the input function contains a range of frequencies and amplitudes, which enables an efficient DL-ROM without the need for a massive training dataset for the low-dimensional modeling. Once trained, the network provides a nonlinear mapping of input-output dynamics that can predict the coupled fluid-structure dynamics for a longer horizon via the feedback process. By integrating the LSTM network with the eigensystem realization algorithm (ERA), we construct a data-driven state-space model for the reduced-order stability analysis. We investigate the underlying mechanism and stability characteristics of VIV via an eigenvalue selection process. To understand the frequency lock-in mechanism, we study the eigenvalue trajectories for a range of the reduced oscillation frequencies and the mass ratios. Consistent with the full-order simulations, the frequency lock-in branches are accurately captured by the combined LSTM-ERA procedure. The proposed DL-ROM aligns with the development of physics-based digital twin of engineering systems involving fluid-structure interactions.
翻訳日:2021-12-22 13:03:40 公開日:2021-12-18
# (参考訳) グジャラティの形態境界検出と文法的特徴予測 : データセットとモデル [全文訳有]

Morpheme Boundary Detection & Grammatical Feature Prediction for Gujarati : Dataset & Model ( http://arxiv.org/abs/2112.09860v1 )

ライセンス: CC BY 4.0
Jatayu Baxi, Dr. Brijesh Bhatt(参考訳) 低リソース言語のための自然言語処理リソースの開発は難しいが不可欠な課題である。 本稿では,グジャラティの形態解析器について述べる。 形態素境界検出と文法的特徴タグ付けを行うために,双方向lstmに基づく手法を用いた。 補題と文法機能を備えたGujarati単語のデータセットを作成しました。 この論文で論じられたMorph AnalyzerのBi-LSTMベースのモデルは、手作りの接尾辞規則の知識なしに言語形態を効果的に扱う。 私たちの知る限りでは、これはgujarati言語で最初のデータセットとモーフィックアナライザモデルであり、文法的特徴のタグ付けとモーフィム境界検出タスクの両方を実行する。

Developing Natural Language Processing resources for a low resource language is a challenging but essential task. In this paper, we present a Morphological Analyzer for Gujarati. We have used a Bi-Directional LSTM based approach to perform morpheme boundary detection and grammatical feature tagging. We have created a data set of Gujarati words with lemma and grammatical features. The Bi-LSTM based model of Morph Analyzer discussed in the paper handles the language morphology effectively without the knowledge of any hand-crafted suffix rules. To the best of our knowledge, this is the first dataset and morph analyzer model for the Gujarati language which performs both grammatical feature tagging and morpheme boundary detection tasks.
翻訳日:2021-12-22 13:02:25 公開日:2021-12-18
# (参考訳) 情報ボローイングとコンテキストスイッチングを用いたオフポリティ評価 [全文訳有]

Off-Policy Evaluation Using Information Borrowing and Context-Based Switching ( http://arxiv.org/abs/2112.09865v1 )

ライセンス: CC BY-SA 4.0
Sutanoy Dasgupta, Yabo Niu, Kishan Panaganti, Dileep Kalathil, Debdeep Pati, and Bani Mallick(参考訳) 我々は,ログ・ポリシーによって収集されたデータを用いて,ターゲット・ポリシーの価値を推定することを目的とした,コンテキスト・バンディットにおけるオフ・ポリシー・アセスメント(ope)問題を考える。 OPEに対する最も一般的なアプローチは、直接法(DM)推定器と逆確率スコア(IPS)を含む補正項を組み合わせた二重頑健(DR)推定器の変種である。 既存のアルゴリズムは主に、大きなIPSから生じるDR推定器のばらつきを減らす戦略に焦点を当てている。 本稿では,情報を借りるダビリーロバストと,バイアスと分散の両面に着目したコンテキストベーススイッチング(DR-IC)推定器を提案する。 DR-IC推定器は、標準的なDM推定器を、IPSに依存する相関構造を通して「クローザー」コンテキストから情報を借りるパラメトリック報酬モデルに置き換える。 DR-IC推定器は、文脈固有のスイッチングルールに基づいて、この修正DM推定器と修正DR推定器とを適応的に補間する。 我々は、dr-ic推定器の性能を保証できる保証を与える。 また,多くのベンチマーク問題において,最新のOPEアルゴリズムと比較してDR-IC推定器の性能が優れていることを示す。

We consider the off-policy evaluation (OPE) problem in contextual bandits, where the goal is to estimate the value of a target policy using the data collected by a logging policy. Most popular approaches to the OPE are variants of the doubly robust (DR) estimator obtained by combining a direct method (DM) estimator and a correction term involving the inverse propensity score (IPS). Existing algorithms primarily focus on strategies to reduce the variance of the DR estimator arising from large IPS. We propose a new approach called the Doubly Robust with Information borrowing and Context-based switching (DR-IC) estimator that focuses on reducing both bias and variance. The DR-IC estimator replaces the standard DM estimator with a parametric reward model that borrows information from the 'closer' contexts through a correlation structure that depends on the IPS. The DR-IC estimator also adaptively interpolates between this modified DM estimator and a modified DR estimator based on a context-specific switching rule. We give provable guarantees on the performance of the DR-IC estimator. We also demonstrate the superior performance of the DR-IC estimator compared to the state-of-the-art OPE algorithms on a number of benchmark problems.
翻訳日:2021-12-22 11:24:35 公開日:2021-12-18
# (参考訳) 低リソース言語に対する質問応答性能向上のための英語データを活用するカスケードアダプタ [全文訳有]

Cascading Adaptors to Leverage English Data to Improve Performance of Question Answering for Low-Resource Languages ( http://arxiv.org/abs/2112.09866v1 )

ライセンス: CC BY 4.0
Hariom A. Pandya, Bhavik Ardeshna, Dr. Brijesh S. Bhatt(参考訳) トランスフォーマーベースのアーキテクチャは、質問応答を含む多くのダウンストリーミングタスクで顕著な結果を示している。 一方、データの可用性は、低リソース言語では正当なパフォーマンスを得るのを妨げる。 本稿では,低リソース言語における質問応答の性能向上を目的とした,事前学習型多言語モデルの適用性について検討する。 MLQAデータセットに似た7言語で多言語トランスフォーマーアーキテクチャを用いて,言語とタスクアダプタの4つの組み合わせを検証した。 さらに,言語とタスクアダプタを用いた低リソース質問応答のゼロショット転送学習も提案している。 低リソース言語では,言語とタスクアダプタの積み重ねにより多言語トランスフォーマーモデルの性能が大幅に向上することが観察された。

Transformer based architectures have shown notable results on many down streaming tasks including question answering. The availability of data, on the other hand, impedes obtaining legitimate performance for low-resource languages. In this paper, we investigate the applicability of pre-trained multilingual models to improve the performance of question answering in low-resource languages. We tested four combinations of language and task adapters using multilingual transformer architectures on seven languages similar to MLQA dataset. Additionally, we have also proposed zero-shot transfer learning of low-resource question answering using language and task adapters. We observed that stacking the language and the task adapters improves the multilingual transformer models' performance significantly for low-resource languages.
翻訳日:2021-12-22 10:53:11 公開日:2021-12-18
# (参考訳) 線状光センサを用いたねじりドリルの有効同軸誤差測定 [全文訳有]

An effective coaxiality error measurement for twist drill based on line structured light sensor ( http://arxiv.org/abs/2112.09873v1 )

ライセンス: CC BY 4.0
Ailing Cheng, Jiaojiao Ye, Fei Yang, Shufang Lu, Fei Gao(参考訳) ねじりドリルの構造は複雑であるため、その同軸誤差測定には困難かつ困難である。 本稿では, ツイストドリルの同軸性誤差測定のための新しい機構, 枠組み, および方法を提案する。 この機構はエンコーダ、PLCコントローラ、ライン構造センサー、高精度ターンテーブルを含む。 まず、PLC制御時にドリルが回転するときに、線状光センサを介してツイストドリルのプロファイル点雲データを収集する。 次に,GMMに基づく局所深度特徴に基づく点雲分割アルゴリズムを用いて,ブレードバックデータを抽出する。 測定精度を向上させるために,統計フィルタは対象領域抽出中に異常値を除去するように設計されている。 そして、同軸性誤差の2つの特性に基づき、軸対称輪郭差の直交合成に基づく軸再構成法が提示され、ドリル軸の最大偏差断面を予め配置することが容易となる。 そして、予め配置された最大偏差位置にベンチマーク軸と軸を嵌合させて同軸誤差を測定する。 最後に,多数の実験を行い,本手法が正確かつ堅牢であることを示す。

Since the structure of twist drill is complex, it is hard and challenging for its coaxiality error measurement. In this paper, a novel mechanism, framework and method of coaxiality error measurement for twist drill is proposed. The mechanism includes encoder, PLC controller, line structured sensor and high precision turntable. First, profile point cloud data of the twist drill is collected through the line structured light sensor when the drill turns around in the controlling of PLC. Second, a GMM-based point cloud segmentation algorithm based on local depth features is investigated to extract blade back data. To improve the measurement accuracy, a statistical filter is designed to remove outliers during the target region extraction. Then, according to two characteristics of coaxiality error, an axis reconstruction method based on orthogonal synthesis of axisymmetric contour differences is presented, which is facilitated to pre-position the maximum deviation cross sections of the drill axis. Finally, the coaxiality error is measured through fitting the benchmark axis and the axis at the pre-positioned maximum deviation position. At the end, a large number of experiments are carried out, and it shows that our method is accuracy and robust.
翻訳日:2021-12-22 10:45:42 公開日:2021-12-18
# (参考訳) 加速度MRIのためのゼロ階アンローリングディープネットワーク [全文訳有]

Equilibrated Zeroth-Order Unrolled Deep Networks for Accelerated MRI ( http://arxiv.org/abs/2112.09891v1 )

ライセンス: CC0 1.0
Zhuo-Xu Cui, Jing Cheng, Qinyong Zhu, Yuanyuan Liu, Sen Jia, Kankan Zhao, Ziwen Ke, Wenqi Huang, Haifeng Wang, Yanjie Zhu, Dong Liang(参考訳) 近年、モデル駆動型ディープラーニングは、正規化モデルの特定の反復的アルゴリズムをカスケードネットワークに展開し、正規化器の1次情報(すなわち、次数次または近位演算子)をネットワークモジュールに置き換える。 逆に、理論上、一階情報が交換されたネットワークモジュールと一致するような機能正規化器は必ずしも存在しないので、ネットワーク出力は元の正規化モデルでカバーされない。 さらに、現在に至るまで、現実的な仮定の下で未登録ネットワークのグローバル収束とロバスト性(正規性)を保証する理論は存在しない。 このギャップを埋めるため,本論文ではネットワークアンロールに関する安全対策手法を提案する。 具体的には、加速度MRIに着目して、ネットワークモジュールが正規化子自体を表すゼロ階アルゴリズムをアンロールし、ネットワーク出力を正規化モデルでカバーできるようにする。 さらに,高次平衡モデルの理想に触発されて,再伝播する前に,不動点に収束して収束を確実にする未進行反復ネットワークを実行する。 測定データがノイズを含む場合,提案するネットワークは雑音の干渉に対して頑健であることを示す。 最後に,提案手法は従来の正規化手法や他のディープラーニング手法を含む最先端のMRI再構成手法より一貫して優れていることを示す。

Recently, model-driven deep learning unrolls a certain iterative algorithm of a regularization model into a cascade network by replacing the first-order information (i.e., (sub)gradient or proximal operator) of the regularizer with a network module, which appears more explainable and predictable compared to common data-driven networks. Conversely, in theory, there is not necessarily such a functional regularizer whose first-order information matches the replaced network module, which means the network output may not be covered by the original regularization model. Moreover, up to now, there is also no theory to guarantee the global convergence and robustness (regularity) of unrolled networks under realistic assumptions. To bridge this gap, this paper propose to present a safeguarded methodology on network unrolling. Specifically, focusing on accelerated MRI, we unroll a zeroth-order algorithm, of which the network module represents the regularizer itself, so that the network output can be still covered by the regularization model. Furthermore, inspired by the ideal of deep equilibrium models, before backpropagating, we carry out the unrolled iterative network to converge to a fixed point to ensure the convergence. In case the measurement data contains noise, we prove that the proposed network is robust against noisy interference. Finally, numerical experiments show that the proposed network consistently outperforms the state-of-the-art MRI reconstruction methods including traditional regularization methods and other deep learning methods.
翻訳日:2021-12-22 10:25:39 公開日:2021-12-18
# (参考訳) メモリ効率のよいカーネル近似の再検討:不定値学習の視点から [全文訳有]

Revisiting Memory Efficient Kernel Approximation: An Indefinite Learning Perspective ( http://arxiv.org/abs/2112.09893v1 )

ライセンス: CC BY 4.0
Simon Heilig, Maximilian M\"unch, Frank-Michael Schleif(参考訳) 行列近似は、大規模代数機械学習における重要な要素である。 最近提案された MEKA (Si et al., 2014) はヒルベルト空間において、シフト不変カーネル関数から得られる内積行列の低ランク性と、固有のブロッククラスタ構造によるデータコンパクト性仮説の2つの一般的な仮定を効果的に採用している。 本研究では,MEKAをシフト不変カーネルだけでなく,多項式カーネルや極端な学習カーネルなどの非定常カーネルにも適用できるように拡張する。 また、meka内の非正の半定値カーネル関数の扱い方についても、近似自身や一般カーネル関数の意図的な使用によるものである。 本稿では,lanczosに基づくスペクトルシフトの推定を行い,古典凸最適化フレームワークで使用可能な安定な正の半定値meka近似を開発する。 さらに、理論的考察と、合成および実世界のデータに関する様々な実験により、本研究の成果を裏付ける。

Matrix approximations are a key element in large-scale algebraic machine learning approaches. The recently proposed method MEKA (Si et al., 2014) effectively employs two common assumptions in Hilbert spaces: the low-rank property of an inner product matrix obtained from a shift-invariant kernel function and a data compactness hypothesis by means of an inherent block-cluster structure. In this work, we extend MEKA to be applicable not only for shift-invariant kernels but also for non-stationary kernels like polynomial kernels and an extreme learning kernel. We also address in detail how to handle non-positive semi-definite kernel functions within MEKA, either caused by the approximation itself or by the intentional use of general kernel functions. We present a Lanczos-based estimation of a spectrum shift to develop a stable positive semi-definite MEKA approximation, also usable in classical convex optimization frameworks. Furthermore, we support our findings with theoretical considerations and a variety of experiments on synthetic and real-world data.
翻訳日:2021-12-22 09:57:43 公開日:2021-12-18
# (参考訳) 説明可能な機械学習は視覚アプリケーションでブラックボックスを発見するか? [全文訳有]

Does Explainable Machine Learning Uncover the Black Box in Vision Applications? ( http://arxiv.org/abs/2112.09898v1 )

ライセンス: CC BY 4.0
Manish Narwaria(参考訳) 一般的な機械学習(ML)、特にディープラーニング(DL)は、いくつかの視覚アプリケーション(オブジェクト検出、スーパー解像度、セグメンテーション、オブジェクトトラッキングなど)で非常に人気のあるツールになっている。 ほぼ平行して、MLにおける説明可能性(すなわち、訓練されたMLモデルがその決定に到達した方法を説明・検討する能力)の問題は、様々なクォーターからかなりの注目を集めている。 しかし、説明可能なMLの背景にある現在の哲学は一定の限界に悩まされており、結果として生じる説明は意味のあるブラックボックスMLモデルを明らかにしないかもしれない。 まず,本論文で十分な議論がなされていないいくつかの基本的疑問を提起する。 また、関連する領域でより厳格な原則に頼ることで、MLにおける説明力がどのように役立つかという視点も提供します。

Machine learning (ML) in general and deep learning (DL) in particular has become an extremely popular tool in several vision applications (like object detection, super resolution, segmentation, object tracking etc.). Almost in parallel, the issue of explainability in ML (i.e. the ability to explain/elaborate the way a trained ML model arrived at its decision) in vision has also received fairly significant attention from various quarters. However, we argue that the current philosophy behind explainable ML suffers from certain limitations, and the resulting explanations may not meaningfully uncover black box ML models. To elaborate our assertion, we first raise a few fundamental questions which have not been adequately discussed in the corresponding literature. We also provide perspectives on how explainablity in ML can benefit by relying on more rigorous principles in the related areas.
翻訳日:2021-12-22 09:22:59 公開日:2021-12-18
# (参考訳) DegreEmbed:知識グラフ推論のためのロジックルール学習にエンティティ埋め込みを組み込む [全文訳有]

DegreEmbed: incorporating entity embedding into logic rule learning for knowledge graph reasoning ( http://arxiv.org/abs/2112.09933v1 )

ライセンス: CC BY 4.0
Yuliang Wei, Haotian Li, Yao Wang, Guodong Xin, Hongri Liu(参考訳) 知識グラフ (KG) は、人間の知識を組み込んだインテリジェントデータベースであり、機械が人間の問題解決のやり方を模倣するのに役立つ。 しかし、迅速なイテレーションの性質とデータの不完全性により、kgは通常巨大であり、kgには必然的に事実が欠落している。 知識グラフのリンク予測は、既存の知識に基づいて推論することで、行方不明の事実を完遂することを目的としたタスクである。 2つの主要な研究ストリームは広く研究されている: 1つは、潜伏パターンを捉えることができる実体と関係のための低次元の埋め込みを学習し、もう1つは論理規則をマイニングすることで良好な解釈性を得る。 残念なことに、以前の研究では異種KGにはほとんど注目されなかった。 本稿では,組込み学習と論理ルールマイニングを組み合わせたKGの推論モデルであるDegreEmbedを提案する。 具体的には,ノードの次数の観点から,様々なタイプの実体や関係を含む異種kgの欠落リンクを予測する問題について検討する。 実験により,我々のDegreEmbedモデルは実世界のデータセット上で最先端の手法よりも優れていることを示した。 一方、我々のモデルによって掘り起こされたルールは、品質と解釈性が高い。

Knowledge graphs (KGs), as structured representations of real world facts, are intelligent databases incorporating human knowledge that can help machine imitate the way of human problem solving. However, due to the nature of rapid iteration as well as incompleteness of data, KGs are usually huge and there are inevitably missing facts in KGs. Link prediction for knowledge graphs is the task aiming to complete missing facts by reasoning based on the existing knowledge. Two main streams of research are widely studied: one learns low-dimensional embeddings for entities and relations that can capture latent patterns, and the other gains good interpretability by mining logical rules. Unfortunately, previous studies rarely pay attention to heterogeneous KGs. In this paper, we propose DegreEmbed, a model that combines embedding-based learning and logic rule mining for inferring on KGs. Specifically, we study the problem of predicting missing links in heterogeneous KGs that involve entities and relations of various types from the perspective of the degrees of nodes. Experimentally, we demonstrate that our DegreEmbed model outperforms the state-of-the-art methods on real world datasets. Meanwhile, the rules mined by our model are of high quality and interpretability.
翻訳日:2021-12-22 09:16:46 公開日:2021-12-18
# (参考訳) gopher: 局所連続時間ダイナミクスによるグラフ構造によるカテゴリー確率予測 [全文訳有]

GOPHER: Categorical probabilistic forecasting with graph structure via local continuous-time dynamics ( http://arxiv.org/abs/2112.09964v1 )

ライセンス: CC BY 4.0
Ke Alexander Wang, Danielle Maddix, Yuyang Wang(参考訳) 本稿では,頂点における力学が局所接続構造に依存するグラフ構造を持つカテゴリに対する確率的予測の問題を考察する。 本稿では,グラフニューラルネットワークの帰納バイアスをニューラルネットワークと組み合わせて,確率的予測の固有局所的連続時間ダイナミクスを捉える手法であるGOPHERを提案する。 我々は,これら2つの帰納的バイアスの利点を,それぞれの利益を分断するベースラインモデルと比較することによって検討する。 グラフ構造を捉えることは、ドメイン内の正確な確率予測やよりサンプル効率の良いモデルに不可欠である。 驚くべきことに、我々の実験は、真の確率力学を反映しながらも、連続時間進化誘導バイアスはほとんど利益を得られないことを示した。

We consider the problem of probabilistic forecasting over categories with graph structure, where the dynamics at a vertex depends on its local connectivity structure. We present GOPHER, a method that combines the inductive bias of graph neural networks with neural ODEs to capture the intrinsic local continuous-time dynamics of our probabilistic forecasts. We study the benefits of these two inductive biases by comparing against baseline models that help disentangle the benefits of each. We find that capturing the graph structure is crucial for accurate in-domain probabilistic predictions and more sample efficient models. Surprisingly, our experiments demonstrate that the continuous time evolution inductive bias brings little to no benefit despite reflecting the true probability dynamics.
翻訳日:2021-12-22 08:51:15 公開日:2021-12-18
# (参考訳) ドメイン適応のための事前学習変換器 [全文訳有]

Pre-Training Transformers for Domain Adaptation ( http://arxiv.org/abs/2112.09965v1 )

ライセンス: CC BY 4.0
Burhan Ul Tayyab and Nicholas Chua(参考訳) Visual Domain Adaptation Challenge 2021では、ソースデータセットから得られた知識をアウト・オブ・ディストリビューションターゲットデータセットに転送することで、モデルのパフォーマンスを向上させる、教師なしのドメイン適応手法が求められた。 本稿では,beit [1]を用いて,ソースデータセットからキー属性をキャプチャし,半教師あり方式でターゲットデータセットに適用する能力を示す。 提案手法は最先端技術(SoTA)よりも優れており, ACC 56.29%, AUROC 69.79%で ViSDA Domain Adaptation Challenge で1位を獲得できた。

The Visual Domain Adaptation Challenge 2021 called for unsupervised domain adaptation methods that could improve the performance of models by transferring the knowledge obtained from source datasets to out-of-distribution target datasets. In this paper, we utilize BeiT [1] and demonstrate its capability of capturing key attributes from source datasets and apply it to target datasets in a semi-supervised manner. Our method was able to outperform current state-of-the-art (SoTA) techniques and was able to achieve 1st place on the ViSDA Domain Adaptation Challenge with ACC of 56.29% and AUROC of 69.79%.
翻訳日:2021-12-22 08:41:23 公開日:2021-12-18
# (参考訳) 未知環境下での行動・センシングによるPDDLドメインのオンライングラウンド化 [全文訳有]

Online Grounding of PDDL Domains by Acting and Sensing in Unknown Environments ( http://arxiv.org/abs/2112.10007v1 )

ライセンス: CC BY 4.0
Leonardo Lamanna, Luciano Serafini, Alessandro Saetti, Alfonso Gerevini, Paolo Traverso(参考訳) エージェントが未知の環境で目標を達成するために、抽象(pddl)計画ドメインを効果的に利用するには、そのようなドメインを環境のオブジェクトとそのプロパティでインスタンス化する必要がある。 エージェントがエゴセントリックで部分的な環境ビューを持っている場合、計画領域における認識されたデータを行動し、理解し、抽象化する必要がある。 さらに、シンボリックプランナーが計算したプランをアクチュエータによって実行可能な低レベルアクションにコンパイルする必要がある。 本稿では,前述の視点を達成し,エージェントが異なるタスクを実行できるフレームワークを提案する。 この目的のために,センサデータの抽象化や目標達成のためのシンボリックプランニング,ナビゲーションのための経路計画といった機械学習モデルを統合する。 提案手法は,RGB-Dオンボードカメラ,GPS,コンパスなどを用いて,高精度なシミュレーション環境で評価する。

To effectively use an abstract (PDDL) planning domain to achieve goals in an unknown environment, an agent must instantiate such a domain with the objects of the environment and their properties. If the agent has an egocentric and partial view of the environment, it needs to act, sense, and abstract the perceived data in the planning domain. Furthermore, the agent needs to compile the plans computed by a symbolic planner into low level actions executable by its actuators. This paper proposes a framework that aims to accomplish the aforementioned perspective and allows an agent to perform different tasks. For this purpose, we integrate machine learning models to abstract the sensory data, symbolic planning for goal achievement and path planning for navigation. We evaluate the proposed method in accurate simulated environments, where the sensors are RGB-D on-board camera, GPS and compass.
翻訳日:2021-12-22 08:34:01 公開日:2021-12-18
# (参考訳) 類似タスクと異タスクの混合配列の連続学習 [全文訳有]

Continual Learning of a Mixed Sequence of Similar and Dissimilar Tasks ( http://arxiv.org/abs/2112.10017v1 )

ライセンス: CC0 1.0
Zixuan Ke, Bing Liu, Xingchang Huang(参考訳) 破滅的な忘れに対処することに焦点を当てた一連のタスクの継続的な学習に関する既存の研究では、タスクは異質であり、共有知識がほとんどないと考えられている。 タスクが似ていて共有の知識がある場合、新しいタスクに学習済みの知識を移す作業も行われている。 私たちの知識を最大限に活用するために、忘れたり、知識を前後に転送したりできる、類似した、異種なタスクの連続を学習する技術は提案されていない。 本稿では,同じネットワーク上で両方のタスクを学習する手法を提案する。 このアルゴリズムは、異なるタスクに対して、忘れることを扱うことに焦点を当て、類似したタスクから学んだ知識を選択的に移行して、新しいタスク学習を改善する。 さらにアルゴリズムは、新しいタスクが以前のタスクと類似しているかどうかを自動的に検出する。 混合タスクのシーケンスを用いた経験的評価は,提案モデルの有効性を示す。

Existing research on continual learning of a sequence of tasks focused on dealing with catastrophic forgetting, where the tasks are assumed to be dissimilar and have little shared knowledge. Some work has also been done to transfer previously learned knowledge to the new task when the tasks are similar and have shared knowledge. To the best of our knowledge, no technique has been proposed to learn a sequence of mixed similar and dissimilar tasks that can deal with forgetting and also transfer knowledge forward and backward. This paper proposes such a technique to learn both types of tasks in the same network. For dissimilar tasks, the algorithm focuses on dealing with forgetting, and for similar tasks, the algorithm focuses on selectively transferring the knowledge learned from some similar previous tasks to improve the new task learning. Additionally, the algorithm automatically detects whether a new task is similar to any previous tasks. Empirical evaluation using sequences of mixed tasks demonstrates the effectiveness of the proposed model.
翻訳日:2021-12-22 08:15:44 公開日:2021-12-18
# (参考訳) 感情分類のための知識伝達を伴う連続学習 [全文訳有]

Continual Learning with Knowledge Transfer for Sentiment Classification ( http://arxiv.org/abs/2112.10021v1 )

ライセンス: CC0 1.0
Zixuan Ke, Bing Liu, Hao Wang, Lei Shu(参考訳) 本稿では,感情分類のための連続学習(CL)について検討する。 この設定では、clシステムはニューラルネットワークで段階的にscタスクのシーケンスを学習し、各タスクは特定の製品カテゴリやドメインのレビューの感情を分類する分類器を構築する。 システムは過去に学んだ知識を以前のタスクから新しいタスクに移行して、新しいタスクのより良いモデルを学ぶのに役立つだろうか? そして、以前のタスクの古いモデルもプロセスで改善できるだろうか? 本稿では,これらの目的を達成するための新しい手法であるkanを提案する。 Kanは、新しいタスクと古いタスクの両方のSC精度を前方および後方の知識伝達によって著しく向上させることができる。 カンの有効性は広範な実験によって実証される。

This paper studies continual learning (CL) for sentiment classification (SC). In this setting, the CL system learns a sequence of SC tasks incrementally in a neural network, where each task builds a classifier to classify the sentiment of reviews of a particular product category or domain. Two natural questions are: Can the system transfer the knowledge learned in the past from the previous tasks to the new task to help it learn a better model for the new task? And, can old models for previous tasks be improved in the process as well? This paper proposes a novel technique called KAN to achieve these objectives. KAN can markedly improve the SC accuracy of both the new task and the old tasks via forward and backward knowledge transfer. The effectiveness of KAN is demonstrated through extensive experiments.
翻訳日:2021-12-22 08:00:09 公開日:2021-12-18
# データ駆動の到達可能性分析とChristoffel関数を用いたサポートセット推定

Data-Driven Reachability analysis and Support set Estimation with Christoffel Functions ( http://arxiv.org/abs/2112.09995v1 )

ライセンス: Link先を確認
Alex Devonport, Forest Yang, Laurent El Ghaoui, and Murat Arcak(参考訳) 本稿では,独立分布および同一分布サンプルの有限集合のみを用いて,力学系の前方到達可能集合を推定するアルゴリズムを提案する。 生成された推定は経験的逆クリストッフェル関数と呼ばれる関数の準レベル集合であり、経験的逆クリストッフェル関数は確率分布の支持に良い近似を与えることが知られている。 到達可能性解析に加えて、データサイエンスにおいて、データセットの新規性と外れ値の検出に応用するランダム変数のサポートを推定する一般的な問題にも、同様のアプローチを適用することができる。 安全性が懸念されるアプリケーションでは、有限のデータセットに保持する精度の保証が不可欠である。 本稿では、確率的近似(PAC)フレームワークを用いて、アルゴリズムのそのような境界を証明した。 古典的なVapnik-Chervonenkis( VC)次元境界論法を適用することに加えて、核化された経験的逆クリストッフェル関数とガウス過程回帰モデルの間の形式的関係を利用してPAC-Bayes定理を適用する。 PAC-ベイズに基づく境界は、VC次元の議論よりもより一般的なクリストッフェル関数のクラスに適用され、実験においてより多くのサンプル効率を達成する。

We present algorithms for estimating the forward reachable set of a dynamical system using only a finite collection of independent and identically distributed samples. The produced estimate is the sublevel set of a function called an empirical inverse Christoffel function: empirical inverse Christoffel functions are known to provide good approximations to the support of probability distributions. In addition to reachability analysis, the same approach can be applied to general problems of estimating the support of a random variable, which has applications in data science towards detection of novelties and outliers in data sets. In applications where safety is a concern, having a guarantee of accuracy that holds on finite data sets is critical. In this paper, we prove such bounds for our algorithms under the Probably Approximately Correct (PAC) framework. In addition to applying classical Vapnik-Chervonenkis (VC) dimension bound arguments, we apply the PAC-Bayes theorem by leveraging a formal connection between kernelized empirical inverse Christoffel functions and Gaussian process regression models. The bound based on PAC-Bayes applies to a more general class of Christoffel functions than the VC dimension argument, and achieves greater sample efficiency in experiments.
翻訳日:2021-12-21 18:55:50 公開日:2021-12-18
# 近接操作のための小体重力場モデリングのための学習的手法:安全性とロバスト性

Learning-based methods to model small body gravity fields for proximity operations: Safety and Robustness ( http://arxiv.org/abs/2112.09998v1 )

ライセンス: Link先を確認
Daniel Neamati, Yashwanth Kumar Nakka and Soon-Jo Chung(参考訳) 正確な重力場モデルは、小さな物体周辺の安全な近接操作に不可欠である。 最先端技術は球面調和または高忠実度ポリヘドロン形状モデルを用いる。 残念なことに、これらの技術は小体の表面付近で不正確なものになり、特に二元体や不均一な小体の計算コストが高い。 新しい学習ベースのテクニックは、事前定義された構造をエンコードせず、より汎用性がある。 汎用性と引き換えに、学習ベースのテクニックは、トレーニングデータドメインの外では堅牢ではない。 展開では、宇宙船軌道が動力学データの主な源である。 したがって、トレーニングデータドメインには、学習モデルの安全性とロバスト性を正確に評価するための宇宙船軌道が含まれるべきである。 我々は、宇宙船の過去の軌道を直接利用する学習ベースの重力モデルを開発した。 さらに,学習領域内外の精度を比較することにより,学習手法の安全性と堅牢性を評価する手法を提案する。 ガウス過程とニューラルネットワークという2つの学習ベースのフレームワークの安全性と堅牢性を示す。 得られた詳細な解析と合わせて,近接操作に使用する学習重力モデルのロバスト性検証の必要性を実証的に確立する。

Accurate gravity field models are essential for safe proximity operations around small bodies. State-of-the-art techniques use spherical harmonics or high-fidelity polyhedron shape models. Unfortunately, these techniques can become inaccurate near the surface of the small body or have high computational costs, especially for binary or heterogeneous small bodies. New learning-based techniques do not encode a predefined structure and are more versatile. In exchange for versatility, learning-based techniques can be less robust outside the training data domain. In deployment, the spacecraft trajectory is the primary source of dynamics data. Therefore, the training data domain should include spacecraft trajectories to accurately evaluate the learned model's safety and robustness. We have developed a novel method for learning-based gravity models that directly uses the spacecraft's past trajectories. We further introduce a method to evaluate the safety and robustness of learning-based techniques via comparing accuracy within and outside of the training domain. We demonstrate this safety and robustness method for two learning-based frameworks: Gaussian processes and neural networks. Along with the detailed analysis provided, we empirically establish the need for robustness verification of learned gravity models when used for proximity operations.
翻訳日:2021-12-21 18:55:28 公開日:2021-12-18
# 脳構造と機能的コネクトームの関係をモデル化する学習

Learning to Model the Relationship Between Brain Structural and Functional Connectomes ( http://arxiv.org/abs/2112.09906v1 )

ライセンス: Link先を確認
Yang Li, Gonzalo Mateos, Zhengwu Zhang(参考訳) 近年の神経イメージングの進歩と、ネットワークデータからの統計学習のアルゴリズム的革新は、脳の構造と機能を統合するユニークな経路を提供し、それによって脳の組織原理をシステムレベルで明らかにする。 本研究では,脳構造接続(sc)と機能的結合(fc)の関係をグラフエンコーダ・デコーダシステムを介してモデル化する教師付きグラフ表現学習フレームワークを開発した。 トレーニング可能なグラフ畳み込みエンコーダは、実際の神経通信を模倣する関心領域間の直接的および間接的な相互作用をキャプチャし、構造的ネットワークトポロジーとニューダル属性(すなわち、地域固有の)からの情報を統合する。 エンコーダは、経験的FCネットワークを再構築するためのグラフレベル表現を生成するために結合されたノードレベルのSC埋め込みを学習する。 提案するエンド・ツー・エンドモデルでは,多目的損失関数を用いてFCネットワークを協調的に再構築し,下流対象(グラフレベル)分類のためのSC-to-FCマッピングの識別グラフ表現を学習する。 包括的実験により、この関係の学習表現は、被験者の脳ネットワークの固有特性から貴重な情報を取得し、ヒトコネクトームプロジェクトから大量の重飲者と非飲料者の集団を分類する精度を向上させることが示されている。 我々の研究は、人間の脳の活動と機能についてより深い知見を得るためにグラフ表現学習を使用するという将来性を支持する脳ネットワークの関係に関する新たな洞察を提供する。

Recent advances in neuroimaging along with algorithmic innovations in statistical learning from network data offer a unique pathway to integrate brain structure and function, and thus facilitate revealing some of the brain's organizing principles at the system level. In this direction, we develop a supervised graph representation learning framework to model the relationship between brain structural connectivity (SC) and functional connectivity (FC) via a graph encoder-decoder system, where the SC is used as input to predict empirical FC. A trainable graph convolutional encoder captures direct and indirect interactions between brain regions-of-interest that mimic actual neural communications, as well as to integrate information from both the structural network topology and nodal (i.e., region-specific) attributes. The encoder learns node-level SC embeddings which are combined to generate (whole brain) graph-level representations for reconstructing empirical FC networks. The proposed end-to-end model utilizes a multi-objective loss function to jointly reconstruct FC networks and learn discriminative graph representations of the SC-to-FC mapping for downstream subject (i.e., graph-level) classification. Comprehensive experiments demonstrate that the learnt representations of said relationship capture valuable information from the intrinsic properties of the subject's brain networks and lead to improved accuracy in classifying a large population of heavy drinkers and non-drinkers from the Human Connectome Project. Our work offers new insights on the relationship between brain networks that support the promising prospect of using graph representation learning to discover more about human brain activity and function.
翻訳日:2021-12-21 18:27:44 公開日:2021-12-18
# 部分重なり合う点雲の高速かつロバストな登録

Fast and Robust Registration of Partially Overlapping Point Clouds ( http://arxiv.org/abs/2112.09922v1 )

ライセンス: Link先を確認
Eduardo Arnold, Sajjad Mozaffari, Mehrdad Dianati(参考訳) 部分重複する点雲のリアルタイム登録は、自律走行車とマルチエージェントスラムの協調認識における新たな応用である。 これらのアプリケーションにおけるポイントクラウド間の相対的翻訳は、対応の識別と登録の成功に挑戦する従来のslamおよびオドメトリアプリケーションよりも高い。 本稿では,効率的なポイントワイド特徴エンコーダを用いて対応を学習し,グラフベースのアテンションネットワークを用いて改良した部分重複点雲の新規登録手法を提案する。 この注意ネットワークは、鍵点間の幾何学的関係を利用して、重複の少ない点雲のマッチングを改善する。 推定時には、サンプルコンセンサスを通じて対応をロバストに適合させて相対ポーズ変換を求める。 キッティデータセットと、30mまでの変位を有する低重なり点雲を含む新しい合成データセットについて評価を行う。 提案手法は,kittiデータセットにおける最先端手法と同等の性能を実現し,低重なり点雲の既存手法よりも優れている。 さらに,提案手法は,競合手法の5倍から35倍の速度で,410ms以下の推定時間を著しく高速化する。 私たちのコードとデータセットはhttps://github.com/e duardohenriquearnold /fastregで利用可能です。

Real-time registration of partially overlapping point clouds has emerging applications in cooperative perception for autonomous vehicles and multi-agent SLAM. The relative translation between point clouds in these applications is higher than in traditional SLAM and odometry applications, which challenges the identification of correspondences and a successful registration. In this paper, we propose a novel registration method for partially overlapping point clouds where correspondences are learned using an efficient point-wise feature encoder, and refined using a graph-based attention network. This attention network exploits geometrical relationships between key points to improve the matching in point clouds with low overlap. At inference time, the relative pose transformation is obtained by robustly fitting the correspondences through sample consensus. The evaluation is performed on the KITTI dataset and a novel synthetic dataset including low-overlapping point clouds with displacements of up to 30m. The proposed method achieves on-par performance with state-of-the-art methods on the KITTI dataset, and outperforms existing methods for low overlapping point clouds. Additionally, the proposed method achieves significantly faster inference times, as low as 410ms, between 5 and 35 times faster than competing methods. Our code and dataset are available at https://github.com/e duardohenriquearnold /fastreg.
翻訳日:2021-12-21 17:56:05 公開日:2021-12-18
# 逆散乱問題に対するニューラルボーン反復法:2次元の場合

Neural Born Iteration Method For Solving Inverse Scattering Problems: 2D Cases ( http://arxiv.org/abs/2112.09831v1 )

ライセンス: Link先を確認
Tao Shan, Zhichao Lin, Xiaoqian Song, Maokun Li, Fan Yang, and Shenheng Xu(参考訳) 本稿では,従来のボルン反復法 (TBIM) の計算過程をエミュレートするために,物理情報を用いた教師付き残差学習 (PhiSRL) の手法を応用して,2次元逆散乱問題 (ISP) を解決するニューラルボルン反復法 (NeuralBIM) を提案する。 NeuralBIMは独立畳み込みニューラルネットワーク(CNN)を使用して、2つの異なる候補解の更新規則と対応する残差を学習する。 本稿では,教師なしおよび教師なしの学習スキームを含む2種類のNeuralBIMについて述べる。 モーメント法(MoM)によって生成されたデータセットを用いて、教師付きニューラルBIMは、全フィールドとコントラストの知識で訓練される。 教師なしニューラルBIMは、ISPの制御方程式に基づく物理埋め込み損失関数によって導かれる。 代表的数値結果は、教師なしと教師なしのニューラルBIMの有効性と競争性を更に検証する。

In this paper, we propose the neural Born iteration method (NeuralBIM) for solving 2D inverse scattering problems (ISPs) by drawing on the scheme of physics-informed supervised residual learning (PhiSRL) to emulate the computing process of the traditional Born iteration method (TBIM). NeuralBIM employs independent convolutional neural networks (CNNs) to learn the alternate update rules of two different candidate solutions with their corresponding residuals. Two different schemes of NeuralBIMs are presented in this paper including supervised and unsupervised learning schemes. With the data set generated by method of moments (MoM), supervised NeuralBIMs are trained with the knowledge of total fields and contrasts. Unsupervised NeuralBIM is guided by the physics-embedded loss functions founding on the governing equations of ISPs, which results in no requirements of total fields and contrasts for training. Representative numerical results further validate the effectiveness and competitiveness of both supervised and unsupervised NeuralBIMs.
翻訳日:2021-12-21 17:52:39 公開日:2021-12-18
# 熱カスケード防止のためのグリッドトポロジー制御系のカリキュラムベース強化学習

Curriculum Based Reinforcement Learning of Grid Topology Controllers to Prevent Thermal Cascading ( http://arxiv.org/abs/2112.09996v1 )

ライセンス: Link先を確認
Amarsagar Reddy Ramapuram Matavalam, Kishan Prudhvi Guddanti, Yang Weng, Venkataramana Ajjarapu(参考訳) 本稿では,電力系統オペレータのドメイン知識を強化学習(RL)フレームワークに統合し,グリッドのトポロジを制御するエージェントを効果的に学習し,熱カスケードを防止する方法について述べる。 典型的なRLベースのトポロジコントローラは、大きな探索/最適化空間のためにうまく機能しない。 本稿では,フランスのTSOであるRTEが開発したRL環境を用いて,問題の組合せ性に対処し,エージェントを訓練するアクタ批判型エージェントを提案する。 大規模な最適化空間の課題に対処するため,ネットワーク物理を用いて学習環境を改良し,報酬調整によるカリキュラムベースの学習手法を訓練手順に組み込んだ。 さらに、複数のシナリオに対する並列トレーニングアプローチを用いて、エージェントをいくつかのシナリオに偏りなくし、グリッド操作の自然変動に対して堅牢にする。 これらのトレーニング手順の変更がなければ、RLエージェントはほとんどのテストシナリオで失敗し、実世界のRL学習のための物理システムのドメイン知識を適切に統合することの重要性が説明された。 このエージェントは、2019年の電力ネットワークチャレンジの学習のためにRTEによってテストされ、精度2位、速度1位を与えられた。 開発コードもオープンソースで公開されている。

This paper describes how domain knowledge of power system operators can be integrated into reinforcement learning (RL) frameworks to effectively learn agents that control the grid's topology to prevent thermal cascading. Typical RL-based topology controllers fail to perform well due to the large search/optimization space. Here, we propose an actor-critic-based agent to address the problem's combinatorial nature and train the agent using the RL environment developed by RTE, the French TSO. To address the challenge of the large optimization space, a curriculum-based approach with reward tuning is incorporated into the training procedure by modifying the environment using network physics for enhanced agent learning. Further, a parallel training approach on multiple scenarios is employed to avoid biasing the agent to a few scenarios and make it robust to the natural variability in grid operations. Without these modifications to the training procedure, the RL agent failed for most test scenarios, illustrating the importance of properly integrating domain knowledge of physical systems for real-world RL learning. The agent was tested by RTE for the 2019 learning to run the power network challenge and was awarded the 2nd place in accuracy and 1st place in speed. The developed code is open-sourced for public use.
翻訳日:2021-12-21 17:52:21 公開日:2021-12-18
# 自己教師付き二項分類によるグラディエントベースノベルティ検出

Gradient-based Novelty Detection Boosted by Self-supervised Binary Classification ( http://arxiv.org/abs/2112.09815v1 )

ライセンス: Link先を確認
Jingbo Sun, Li Yang, Jiaxin Zhang, Frank Liu, Mahantesh Halappanavar, Deliang Fan, Yu Cao(参考訳) 新規性検出は、アウト・オブ・ディストリビューション(OOD)データを自動的に識別することを目的としている。 データ監視、振る舞い分析、その他のアプリケーションにおいて重要なステップであり、フィールドでの継続的な学習を可能にする。 OOD検出の従来の方法は、データや特徴のアンサンブル上で多変量解析を行い、通常、OODデータによる監視を利用して精度を向上させる。 実際、そのような監督は異常なデータを予測できないため実用的ではない。 本稿では, 事前定義されたOODデータに依存しない新規な自己教師型アプローチを提案する。(1)新しい手法は, 配当データとOODデータとの勾配のマハラノビス距離を評価する。 2) ラベル選択を誘導して勾配を生成し, マハラノビス距離を最大化するために, 自己教師付きバイナリ分類器が補助する。 CIFAR-10, CIFAR-100, SVHN, TinyImageNetなどの複数のデータセットを用いた評価では, 提案手法は, 受信操作特性 (AUROC) と高精度リコール曲線 (AUPR) 測定値の領域において, 最先端の教師なし手法と教師なし手法を一貫して上回っている。 さらに、この検出器は連続学習において1つのOODクラスを正確に学習できることを示す。

Novelty detection aims to automatically identify out-of-distribution (OOD) data, without any prior knowledge of them. It is a critical step in data monitoring, behavior analysis and other applications, helping enable continual learning in the field. Conventional methods of OOD detection perform multi-variate analysis on an ensemble of data or features, and usually resort to the supervision with OOD data to improve the accuracy. In reality, such supervision is impractical as one cannot anticipate the anomalous data. In this paper, we propose a novel, self-supervised approach that does not rely on any pre-defined OOD data: (1) The new method evaluates the Mahalanobis distance of the gradients between the in-distribution and OOD data. (2) It is assisted by a self-supervised binary classifier to guide the label selection to generate the gradients, and maximize the Mahalanobis distance. In the evaluation with multiple datasets, such as CIFAR-10, CIFAR-100, SVHN and TinyImageNet, the proposed approach consistently outperforms state-of-the-art supervised and unsupervised methods in the area under the receiver operating characteristic (AUROC) and area under the precision-recall curve (AUPR) metrics. We further demonstrate that this detector is able to accurately learn one OOD class in continual learning.
翻訳日:2021-12-21 17:18:23 公開日:2021-12-18
# 線形mdpを用いた確率的最短経路のno-regretアルゴリズムの改良

Improved No-Regret Algorithms for Stochastic Shortest Path with Linear MDP ( http://arxiv.org/abs/2112.09859v1 )

ライセンス: Link先を確認
Liyu Chen, Rahul Jain, Haipeng Luo(参考訳) 線形MDPを用いた確率的最短経路(SSP)問題に対する2つの新しい非回帰アルゴリズムを導入し、既存の結果(Vial et al., 2021)よりも大幅に改善した。 最初のアルゴリズムは計算効率が良く、後悔に満ちた$\widetilde{o}\left(\sqrt{d^3b_{\star}^2t_{\star} k}\right)$(ここで$d$は特徴空間の次元、$b_{\star}$と$t_{\star}$は、それぞれ最適なポリシーの期待コストとヒットタイムの上限であり、$k$はエピソードの数である。 わずかに修正された同じアルゴリズムは、次数$O\left(\frac{d^3B_{\star}^4}{c_{\min}^2\text{gap}_{\min}}\ln^5\frac{dB_{\star} K}{c_{\min}} \right)$, where $\text{gap}_{\min}$は最小の準最適ギャップであり、$c_{\min}$は全ての状態-作用対の最小コストである。 この結果は、(Cohen et al., 2021) の有限水平近似のより単純で改良された解析を、より小さい近似誤差で開発することで得られる。 一方,大域最適化問題において分散認識信頼セットを用いると,第2のアルゴリズムは計算量的に非効率であるが,第1の「ホリゾンフリー」な後悔は$\widetilde{o}(d^{3.5}b_{\star}\sqrt{k})$ であり,$t_{\star}$ や$/c_{\min}$ に多項式依存性を持たず,$\omega(db_{\star}\sqrt{k})$ とほぼ一致する(min et al., 2021)。

We introduce two new no-regret algorithms for the stochastic shortest path (SSP) problem with a linear MDP that significantly improve over the only existing results of (Vial et al., 2021). Our first algorithm is computationally efficient and achieves a regret bound $\widetilde{O}\left(\sqrt{d^3B_{\star}^2T_{\star} K}\right)$, where $d$ is the dimension of the feature space, $B_{\star}$ and $T_{\star}$ are upper bounds of the expected costs and hitting time of the optimal policy respectively, and $K$ is the number of episodes. The same algorithm with a slight modification also achieves logarithmic regret of order $O\left(\frac{d^3B_{\star}^4}{c_{\min}^2\text{gap}_{\min}}\ln^5\frac{dB_{\star} K}{c_{\min}} \right)$, where $\text{gap}_{\min}$ is the minimum sub-optimality gap and $c_{\min}$ is the minimum cost over all state-action pairs. Our result is obtained by developing a simpler and improved analysis for the finite-horizon approximation of (Cohen et al., 2021) with a smaller approximation error, which might be of independent interest. On the other hand, using variance-aware confidence sets in a global optimization problem, our second algorithm is computationally inefficient but achieves the first "horizon-free" regret bound $\widetilde{O}(d^{3.5}B_{\star}\sqrt{K})$ with no polynomial dependency on $T_{\star}$ or $1/c_{\min}$, almost matching the $\Omega(dB_{\star}\sqrt{K})$ lower bound from (Min et al., 2021).
翻訳日:2021-12-21 17:17:56 公開日:2021-12-18
# 敵対者ではなく友人であること: ディープネットワークは、他のネットワークによって単純化されたデータから学ぶ

Being Friends Instead of Adversaries: Deep Networks Learn from Data Simplified by Other Networks ( http://arxiv.org/abs/2112.09968v1 )

ライセンス: Link先を確認
Simone Marullo, Matteo Tiezzi, Marco Gori, Stefano Melacci(参考訳) ニューラルネットワークの学習手順をより効果的にすることを目的とした様々なアプローチの中で、科学コミュニティは、推定された複雑性に従って例を順序付けしたり、より大きなネットワークから知識を分離したり、敵の機械学習の背後にある原則を活用したりする戦略を開発した。 ニューラルネットワーク分類器の学習プロセスを容易にするために、自動的に推定される摂動を追加することで入力データを変更する、という別のアイデアが最近提案されている。 トレーニングが進む限り、トランスフォーメーションは徐々にフェードアウトし、完全に消えていく。 この研究で、我々はこのアイデアを再考し、拡張し、敵対的機械学習の文脈におけるニューラルジェネレータの有効性に触発された根本的に異なる、新しいアプローチを導入する。 本稿では,学習手順の現段階での分類器による処理を容易にするために,入力データの変更に責任を持つ補助多層ネットワークを提案する。 補助的ネットワークはニューラル分類器と共同で訓練されるので、本質的に分類器の「深度」を増大させ、データ修正プロセスにおける一般的な規則性を見極めることが期待される。 補助ネットワークの効果は、完全に低下し、アプリケーション用に分類器が配置されたときに、訓練の終了まで徐々に減少する。 私たちはこのアプローチを神経フレンドリーなトレーニングと呼びます。 複数のデータセットと異なるニューラルアーキテクチャを含む拡張実験によって、ニューラルネットワークフレンドリーなトレーニングは、当初提案されたフレンドリーなトレーニングテクニックを克服し、分類器の一般化、特にノイズデータの場合の改善が示されている。

Amongst a variety of approaches aimed at making the learning procedure of neural networks more effective, the scientific community developed strategies to order the examples according to their estimated complexity, to distil knowledge from larger networks, or to exploit the principles behind adversarial machine learning. A different idea has been recently proposed, named Friendly Training, which consists in altering the input data by adding an automatically estimated perturbation, with the goal of facilitating the learning process of a neural classifier. The transformation progressively fades-out as long as training proceeds, until it completely vanishes. In this work we revisit and extend this idea, introducing a radically different and novel approach inspired by the effectiveness of neural generators in the context of Adversarial Machine Learning. We propose an auxiliary multi-layer network that is responsible of altering the input data to make them easier to be handled by the classifier at the current stage of the training procedure. The auxiliary network is trained jointly with the neural classifier, thus intrinsically increasing the 'depth' of the classifier, and it is expected to spot general regularities in the data alteration process. The effect of the auxiliary network is progressively reduced up to the end of training, when it is fully dropped and the classifier is deployed for applications. We refer to this approach as Neural Friendly Training. An extended experimental procedure involving several datasets and different neural architectures shows that Neural Friendly Training overcomes the originally proposed Friendly Training technique, improving the generalization of the classifier, especially in the case of noisy data.
翻訳日:2021-12-21 17:17:08 公開日:2021-12-18
# FlowPool: Wasserstein Gradient Flowsを用いたグラフ表現のポーリング

FlowPool: Pooling Graph Representations with Wasserstein Gradient Flows ( http://arxiv.org/abs/2112.09990v1 )

ライセンス: Link先を確認
Effrosyni Simou(参考訳) グラフ構造化データの機械学習タスクでは、検討中のグラフは、さまざまな数のノードで構成されている可能性がある。 したがって、グラフ分類などの下流タスクで使用できる固定サイズの表現に対して、さまざまなサイズのグラフ表現を集約するプーリング方法を設計する必要がある。 既存のグラフプーリングメソッドは、グラフ表現とそのプーリングバージョンとの類似性については保証しない。 本研究では,Wasserstein 距離を最小にすることで,グラフ表現の統計をプールされたものに最適に保存するプーリング手法である FlowPool を提案する。 これは、プールグラフ表現に関してワッサーシュタイン勾配流を実行することで達成される。 本手法は,任意の地上コストで表現空間の形状を考慮に入れることができる汎用的な実装を提案する。 この実装は、最近提案された暗黙的な微分スキームとワッサースタイン距離の勾配の計算に依存する。 プール方式は自動微分に適しており、エンドツーエンドのディープラーニングアーキテクチャに統合することができる。 さらに、フロープールは置換に不変であり、したがって、ノードの順序に依存しない予測を得るために、gnnの置換同変特徴抽出層と組み合わせることができる。 実験の結果, グラフ分類タスクで評価した場合, 既存のプーリング法と比較して, 性能が向上することが示された。

In several machine learning tasks for graph structured data, the graphs under consideration may be composed of a varying number of nodes. Therefore, it is necessary to design pooling methods that aggregate the graph representations of varying size to representations of fixed size which can be used in downstream tasks, such as graph classification. Existing graph pooling methods offer no guarantee with regards to the similarity of a graph representation and its pooled version. In this work we address this limitation by proposing FlowPool, a pooling method that optimally preserves the statistics of a graph representation to its pooled counterpart by minimizing their Wasserstein distance. This is achieved by performing a Wasserstein gradient flow with respect to the pooled graph representation. We propose a versatile implementation of our method which can take into account the geometry of the representation space through any ground cost. This implementation relies on the computation of the gradient of the Wasserstein distance with recently proposed implicit differentiation schemes. Our pooling method is amenable to automatic differentiation and can be integrated in end-to-end deep learning architectures. Further, FlowPool is invariant to permutations and can therefore be combined with permutation equivariant feature extraction layers in GNNs in order to obtain predictions that are independent of the ordering of the nodes. Experimental results demonstrate that our method leads to an increase in performance compared to existing pooling methods when evaluated in graph classification tasks.
翻訳日:2021-12-21 17:16:43 公開日:2021-12-18
# 深層強化学習による空間非協調オブジェクトアクティブトラッキング

Space Non-cooperative Object Active Tracking with Deep Reinforcement Learning ( http://arxiv.org/abs/2112.09854v1 )

ライセンス: Link先を確認
Dong Zhou, Guanghui Sun, Wenxiao Lei(参考訳) 宇宙デブリの除去、小惑星探査、自律ランデブー、ドッキングを実現するための、将来の知的宇宙船にとって、宇宙の非協力物体のアクティブな視覚的追跡は重要である。 しかし、既存の作品では、このタスクを異なる部分問題(例えば、画像の前処理、特徴抽出とマッチング、位置とポーズの推定、制御法設計)に分類し、各モジュールのみを最適化する。 そこで本研究では,DRLAVTと命名されたDQNアルゴリズムに基づく,エンドツーエンドのアクティブトラッキング手法を提案する。 これはカラー画像やrgbd画像のみに依存しており、最先端の2dモノクロトラッカーであるsiamrpnを採用する位置ベースの視覚サーボベースラインアルゴリズムを著しく上回っている。 多様なネットワークアーキテクチャ、異なる摂動、複数のターゲットで実施された大規模な実験は、DRLAVTの進歩と堅牢性を示している。 さらに,本手法は,数百の試行錯誤を通じ,深い強化学習を行い,ターゲットの動作パターンを実際に学習することを証明する。

Active visual tracking of space non-cooperative object is significant for future intelligent spacecraft to realise space debris removal, asteroid exploration, autonomous rendezvous and docking. However, existing works often consider this task into different subproblems (e.g. image preprocessing, feature extraction and matching, position and pose estimation, control law design) and optimize each module alone, which are trivial and sub-optimal. To this end, we propose an end-to-end active visual tracking method based on DQN algorithm, named as DRLAVT. It can guide the chasing spacecraft approach to arbitrary space non-cooperative target merely relied on color or RGBD images, which significantly outperforms position-based visual servoing baseline algorithm that adopts state-of-the-art 2D monocular tracker, SiamRPN. Extensive experiments implemented with diverse network architectures, different perturbations and multiple targets demonstrate the advancement and robustness of DRLAVT. In addition, We further prove our method indeed learnt the motion patterns of target with deep reinforcement learning through hundreds of trial-and-errors.
翻訳日:2021-12-21 16:38:46 公開日:2021-12-18
# 行動予測のためのadversarial memory network

Adversarial Memory Networks for Action Prediction ( http://arxiv.org/abs/2112.09875v1 )

ライセンス: Link先を確認
Zhiqiang Tao, Yue Bai, Handong Zhao, Sheng Li, Yu Kong, Yun Fu(参考訳) アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。 既存の手法では,部分的な観察からフルビデオへの単一マッピング関数の学習を期待して,このタスクに対処する再構築戦略を主に採用している。 本研究では,2つの新たな側面から,部分的ビデオクエリ上で"フルビデオ"特徴条件付けを生成するために,adversarial memory network (amemnet)を提案する。 まず、キー値構造化メモリ生成器は、異なる部分映像をキーメモリとして記憶し、ゲーティング機構とクエリアテンションによって、バリューメモリにフルビデオを動的に書き込むように設計されている。 第2に,メモリジェネレータを誘導するクラス認識型判別器を開発した。 AMemNetの最終的な予測結果は、RGBおよび光フローストリーム上の後期融合によって与えられる。 UCF-101とHMDB51という2つのベンチマークビデオデータセットの大規模な実験結果を提供し、最先端手法に対するAMemNetモデルの有効性を実証した。

Action prediction aims to infer the forthcoming human action with partially-observed videos, which is a challenging task due to the limited information underlying early observations. Existing methods mainly adopt a reconstruction strategy to handle this task, expecting to learn a single mapping function from partial observations to full videos to facilitate the prediction process. In this study, we propose adversarial memory networks (AMemNet) to generate the "full video" feature conditioning on a partial video query from two new aspects. Firstly, a key-value structured memory generator is designed to memorize different partial videos as key memories and dynamically write full videos in value memories with gating mechanism and querying attention. Secondly, we develop a class-aware discriminator to guide the memory generator to deliver not only realistic but also discriminative full video features upon adversarial training. The final prediction result of AMemNet is given by late fusion over RGB and optical flow streams. Extensive experimental results on two benchmark video datasets, UCF-101 and HMDB51, are provided to demonstrate the effectiveness of the proposed AMemNet model over state-of-the-art methods.
翻訳日:2021-12-21 16:38:26 公開日:2021-12-18
# 蒸留比較ネットワークによるセマンティックセグメンテーションの異常発見

Anomaly Discovery in Semantic Segmentation via Distillation Comparison Networks ( http://arxiv.org/abs/2112.09908v1 )

ライセンス: Link先を確認
Huan Zhou, Shi Gong, Yu Zhou, Zengqiang Zheng, Ronghua Liu, Xiang Bai(参考訳) 本稿では,意味セグメンテーションにおける異常発見の問題に対処することを目的とする。 我々の重要な観察は、意味的分類は既存のアプローチにおいて重要な役割を果たすが、不正確な分類されたピクセルは容易に異常と見なされる。 このような現象は頻繁に現れ、ほとんど議論されないため、異常発見の性能が著しく低下する。 そこで本研究では,新しい蒸留比較ネットワーク(DiCNet)を提案する。 意味分類ヘッドを除去した意味セグメンテーションネットワークである教師分枝と、配布蒸留を介して教師分枝から蒸留される学生分枝とからなる。 蒸留により, 2つの分枝の意味的特徴が既知のクラスで一貫性を保ちながら, 未知のクラスでの不一致を反映することを示す。 したがって,2つの枝間の意味的特徴の相違を利用して異常を発見できる。 DiCNetは推論過程において意味分類ヘッドを放棄し、したがって誤った意味分類に起因する問題を著しく軽減する。 streethazardsデータセットとbdd-anomalyデータセットの広範な実験結果を用いて,dicnetの性能検証を行った。 特にDiCNetは、AUPRの6.3%の改善、StreetHazardsデータセットのFPR95の5.2%の改善、AUPRの4.2%の改善、BDD-AnomalyデータセットのFPR95の6.8%の改善を実現している。 コードはhttps://github.com/s huhuan-hust/DiCNetで入手できる。

This paper aims to address the problem of anomaly discovery in semantic segmentation. Our key observation is that semantic classification plays a critical role in existing approaches, while the incorrectly classified pixels are easily regarded as anomalies. Such a phenomenon frequently appears and is rarely discussed, which significantly reduces the performance of anomaly discovery. To this end, we propose a novel Distillation Comparison Network (DiCNet). It comprises of a teacher branch which is a semantic segmentation network that removed the semantic classification head, and a student branch that is distilled from the teacher branch through a distribution distillation. We show that the distillation guarantees the semantic features of the two branches hold consistency in the known classes, while reflect inconsistency in the unknown class. Therefore, we leverage the semantic feature discrepancy between the two branches to discover the anomalies. DiCNet abandons the semantic classification head in the inference process, and hence significantly alleviates the issue caused by incorrect semantic classification. Extensive experimental results on StreetHazards dataset and BDD-Anomaly dataset are conducted to verify the superior performance of DiCNet. In particular, DiCNet obtains a 6.3% improvement in AUPR and a 5.2% improvement in FPR95 on StreetHazards dataset, achieves a 4.2% improvement in AUPR and a 6.8% improvement in FPR95 on BDD-Anomaly dataset. Codes are available at https://github.com/z houhuan-hust/DiCNet.
翻訳日:2021-12-21 16:38:05 公開日:2021-12-18
# DeepUME:ロバストポイントクラウド登録のためのユニバーサルマニフォールド埋め込みを学ぶ

DeepUME: Learning the Universal Manifold Embedding for Robust Point Cloud Registration ( http://arxiv.org/abs/2112.09938v1 )

ライセンス: Link先を確認
Natalie Lang and Joseph M. Francos(参考訳) 剛体変換による点雲の登録は、コンピュータビジョンの基本的な問題の一つである。 しかし, ノイズの存在下では, まばらに, 別々に試料を採取する現実的なシナリオの解決法はいまだ不十分である。 このシナリオでは、閉じた形式のユニバーサルマニフォールド埋め込み(ume)法とディープニューラルネットワークを融合して登録にアプローチする。 2つのフレームワークは、DeepUMEという名前の単一の統一フレームワークに統合され、エンドツーエンドと教師なしの方法でトレーニングされる。 大規模変換の存在下でのグローバルなソリューションの実現に成功するために,SO(3)不変座標系を用いて,点雲の合同再サンプリング戦略とSO(3)不変特徴の両方を学習する。 これらの特徴を幾何的UME法により変換推定に利用する。 DeepUMEのパラメータは、ノイズシナリオを考慮した場合、対称形状の登録で生じるあいまいさ問題を克服するために設計された計量を用いて最適化される。 本手法は,様々なシナリオにおいて最先端の登録手法を上回り,未発見のデータセットによく一般化することを示す。 私たちのコードは公開されています。

Registration of point clouds related by rigid transformations is one of the fundamental problems in computer vision. However, a solution to the practical scenario of aligning sparsely and differently sampled observations in the presence of noise is still lacking. We approach registration in this scenario with a fusion of the closed-form Universal Mani-fold Embedding (UME) method and a deep neural network. The two are combined into a single unified framework, named DeepUME, trained end-to-end and in an unsupervised manner. To successfully provide a global solution in the presence of large transformations, we employ an SO(3)-invariant coordinate system to learn both a joint-resampling strategy of the point clouds and SO(3)-invariant features. These features are then utilized by the geometric UME method for transformation estimation. The parameters of DeepUME are optimized using a metric designed to overcome an ambiguity problem emerging in the registration of symmetric shapes, when noisy scenarios are considered. We show that our hybrid method outperforms state-of-the-art registration methods in various scenarios, and generalizes well to unseen data sets. Our code is publicly available.
翻訳日:2021-12-21 16:37:39 公開日:2021-12-18
# 何が見えるか:自然言語記述に基づくゼロショット行動認識法

Tell me what you see: A zero-shot action recognition method based on natural language descriptions ( http://arxiv.org/abs/2112.09976v1 )

ライセンス: Link先を確認
Valter Estevam and Rayson Laroca and David Menotti and Helio Pedrini(参考訳) 近年,映像中の物体の検出と分類によるゼロショット動作認識手法がいくつか研究されている。 これらの方法において、クラス-オブジェクト関係は、テキストにも現れる傾向があるため、視覚パターンと意味的な側面情報を関連付けるために使用される。 したがって、単語ベクトル法はそれらの潜在表現を反映する。 これらの手法に触発され,映像キャプションがオブジェクトの集合だけでなく文脈情報も記述する能力によって,観察者と呼ばれる映像キャプションモデルが,異なる補完的な記述文を提供する方法を提案する。 我々は,深い特徴ではなく記述文で動画を表現することで,UCF101データセットの最先端(SOTA)性能とHMDB51の競合性能をトレーニングセットなしで実現し,ドメイン適応問題を自然に軽減できることを実証した。 また、単語ベクトルは記述の意味的埋め込み空間を構築するのに不適当であることを示す。 そこで本稿では,インターネット上で検索エンジンが取得した文書から抽出した文を,記述の質に関する人間による評価なしに表現する手法を提案する。 最後に、複数のテキストデータセット上のパラフレーズ処理タスクで事前訓練されたBERTベースの埋め込みを用いて、共有セマンティックスペースを構築する。 この事前学習は意味的ギャップを埋めるのに不可欠である。 この空間への射影は、それらが文であるため、視覚的および意味的な情報の種類の両方にとって単純であり、この共有空間に最も近い隣り合う規則による分類を可能にする。 私たちのコードはhttps://github.com/v alterlej/zsarcapで利用可能です。

Recently, several approaches have explored the detection and classification of objects in videos to perform Zero-Shot Action Recognition with remarkable results. In these methods, class-object relationships are used to associate visual patterns with the semantic side information because these relationships also tend to appear in texts. Therefore, word vector methods would reflect them in their latent representations. Inspired by these methods and by video captioning's ability to describe events not only with a set of objects but with contextual information, we propose a method in which video captioning models, called observers, provide different and complementary descriptive sentences. We demonstrate that representing videos with descriptive sentences instead of deep features, in ZSAR, is viable and naturally alleviates the domain adaptation problem, as we reached state-of-the-art (SOTA) performance on the UCF101 dataset and competitive performance on HMDB51 without their training sets. We also demonstrate that word vectors are unsuitable for building the semantic embedding space of our descriptions. Thus, we propose to represent the classes with sentences extracted from documents acquired with search engines on the Internet, without any human evaluation on the quality of descriptions. Lastly, we build a shared semantic space employing BERT-based embedders pre-trained in the paraphrasing task on multiple text datasets. We show that this pre-training is essential for bridging the semantic gap. The projection onto this space is straightforward for both types of information, visual and semantic, because they are sentences, enabling the classification with nearest neighbour rule in this shared space. Our code is available at https://github.com/v alterlej/zsarcap.
翻訳日:2021-12-21 16:37:19 公開日:2021-12-18
# プロンプトベースマルチモーダル画像分割

Prompt-Based Multi-Modal Image Segmentation ( http://arxiv.org/abs/2112.10003v1 )

ライセンス: Link先を確認
Timo L\"uddecke and Alexander S. Ecker(参考訳) イメージセグメンテーションは通常、固定されたオブジェクトクラスのモデルのトレーニングによって対処される。 追加のクラスや複雑なクエリを後で組み込むことは、これらの式を含むデータセットでモデルを再トレーニングする必要があるため、コストがかかる。 本稿では,テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成するシステムを提案する。 プロンプトはテキストかイメージのいずれかでもよい。 このアプローチでは,3つの共通セグメンテーションタスクに対して,表現セグメンテーション,ゼロショットセグメンテーション,ワンショットセグメンテーションの3つを統一したモデル(1回学習)を作成することができる。 私たちはクリップモデルをバックボーンとして構築し、密集した予測を可能にするトランスフォーマベースのデコーダで拡張します。 フレーズカットデータセットの拡張バージョンでトレーニングした後、システムは、フリーテキストプロンプトまたはクエリを表現した追加画像に基づいて、画像のバイナリセグメンテーションマップを生成する。 後者の画像に基づくプロンプトの異なる変種を詳細に分析する。 この新しいハイブリッド入力により、上述の3つのセグメンテーションタスクだけでなく、テキストや画像クエリを定式化できる任意のバイナリセグメンテーションタスクにも動的に適応することができる。 最後に,本システムは,アプライアンスやプロパティを含む汎用クエリにうまく適応できることを示す。 ソースコード: https://eckerlab.org /code/clipseg

Image segmentation is usually addressed by training a model for a fixed set of object classes. Incorporating additional classes or more complex queries later is expensive as it requires re-training the model on a dataset that encompasses these expressions. Here we propose a system that can generate image segmentations based on arbitrary prompts at test time. A prompt can be either a text or an image. This approach enables us to create a unified model (trained once) for three common segmentation tasks, which come with distinct challenges: referring expression segmentation, zero-shot segmentation and one-shot segmentation. We build upon the CLIP model as a backbone which we extend with a transformer-based decoder that enables dense prediction. After training on an extended version of the PhraseCut dataset, our system generates a binary segmentation map for an image based on a free-text prompt or on an additional image expressing the query. Different variants of the latter image-based prompts are analyzed in detail. This novel hybrid input allows for dynamic adaptation not only to the three segmentation tasks mentioned above, but to any binary segmentation task where a text or image query can be formulated. Finally, we find our system to adapt well to generalized queries involving affordances or properties. Source code: https://eckerlab.org /code/clipseg
翻訳日:2021-12-21 16:36:51 公開日:2021-12-18
# コア外手法の開発と評価のためのストリームボリューム画像生成フレームワーク

A Streaming Volumetric Image Generation Framework for Development and Evaluation of Out-of-Core Methods ( http://arxiv.org/abs/2112.09809v1 )

ライセンス: Link先を確認
Dominik Drees and Xiaoyi Jiang(参考訳) 近年の3dイメージング技術の進歩により、大型標本の高分解能ボリューム画像が可能となった。 その結果、数百ギガバイト規模のデータセットは、画像処理の分野で新しいスケーラブルでメモリ効率の高いアプローチを呼び起こし、いくつかの進歩がすでになされている。 同時に、これらの新しい手法の定量的評価は、特定のデータサイズの可用性と関連する基底的真理データの生成の両方において困難である。 本稿では,ストリーミング方式であっても,テスト(および地上真実)ボリュームデータを効率的に生成することのできるアルゴリズムフレームワークを提案する。 提案するnested sweepsアルゴリズムは高速であるため、必要に応じてテストデータを生成することができる。 本稿では,提案アルゴリズムの漸近実行時間を分析し,仮説的ベストケースベースライン法と同様に,他の手法と実験的に比較する。 本研究では, 血管画像生成のためのVascuSynthソフトウェアに適用し, 1兆ボクセル (1TB) 画像を生成することで, より大規模なメモリボリュームを効率よく生成することを可能にする。 提案されたフレームワークの実装は、Vascusynthの修正版と実験的な評価に使用されるコードによってオンラインで利用可能である。 さらに、テストデータ生成手順は一般的なボリュームレンダリングおよび処理フレームワークであるVoreenに統合されている。

Advances in 3D imaging technology in recent years have allowed for increasingly high resolution volumetric images of large specimen. The resulting datasets of hundreds of Gigabytes in size call for new scalable and memory efficient approaches in the field of image processing, where some progress has been made already. At the same time, quantitative evaluation of these new methods is difficult both in terms of the availability of specific data sizes and in the generation of associated ground truth data. In this paper we present an algorithmic framework that can be used to efficiently generate test (and ground truth) volume data, optionally even in a streaming fashion. As the proposed nested sweeps algorithm is fast, it can be used to generate test data on demand. We analyze the asymptotic run time of the presented algorithm and compare it experimentally to alternative approaches as well as a hypothetical best-case baseline method. In a case study, the framework is applied to the popular VascuSynth software for vascular image generation, making it capable of efficiently producing larger-than-main memory volumes which is demonstrated by generating a trillion voxel (1TB) image. Implementations of the presented framework are available online in the form of the modified version of Vascusynth and the code used for the experimental evaluation. In addition, the test data generation procedure has been integrated into the popular volume rendering and processing framework Voreen.
翻訳日:2021-12-21 16:17:46 公開日:2021-12-18
# 動的シーングラフ生成における長期依存の活用

Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs ( http://arxiv.org/abs/2112.09828v1 )

ライセンス: Link先を確認
Shengyu Feng, Subarna Tripathi, Hesham Mostafa, Marcel Nassar, Somdeb Majumdar(参考訳) 動的シーングラフの形式での構造化ビデオ表現は、複数のビデオ理解タスクに有効なツールである。 画像からのシーングラフ生成のタスクと比較すると,シーンの時間的ダイナミクスと予測の固有時間的ゆらぎにより,動的シーングラフ生成はより困難である。 動的シーングラフを効果的に生成するための鍵は,長期依存の獲得である。 本稿では,ビデオから連続した長期オブジェクトトラックレットを構築し,オブジェクトのダイナミックスと視覚関係をキャプチャするトランスフォーマーを用いて検出トラック認識パラダイムを提案する。 実験の結果,我々の動的シーングラフ検出変換器(DSG-DETR)は,ベンチマークデータセットAction Genomeにおいて,最先端の手法よりも優れた性能を示した。 また, アブレーション研究を行い, 提案手法のそれぞれの成分の有効性を検証した。

Structured video representation in the form of dynamic scene graphs is an effective tool for several video understanding tasks. Compared to the task of scene graph generation from images, dynamic scene graph generation is more challenging due to the temporal dynamics of the scene and the inherent temporal fluctuations of predictions. We show that capturing long-term dependencies is the key to effective generation of dynamic scene graphs. We present the detect-track-recogni ze paradigm by constructing consistent long-term object tracklets from a video, followed by transformers to capture the dynamics of objects and visual relations. Experimental results demonstrate that our Dynamic Scene Graph Detection Transformer (DSG-DETR) outperforms state-of-the-art methods by a significant margin on the benchmark dataset Action Genome. We also perform ablation studies and validate the effectiveness of each component of the proposed approach.
翻訳日:2021-12-21 16:17:26 公開日:2021-12-18
# LegoDNN: モバイルビジョンのためのディープニューラルネットワークのブロック粒度のスケーリング

LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision ( http://arxiv.org/abs/2112.09852v1 )

ライセンス: Link先を確認
Rui Han, Qinglong Zhang, Chi Harold Liu, Guoren Wang, Jian Tang, Lydia Y. Chen(参考訳) ディープニューラルネットワーク(DNN)は、画像/オブジェクト認識や分類などのアプリケーションのためのモバイルおよび組み込みシステムにおいて、ユビキタスな技術になりつつある。 複数のDNNを同時に実行する傾向は、リソース制約のあるモバイルデバイス上での厳しいレイテンシ/精度要件を満たすという既存の制限を悪化させる。 以前の技術では、リソースのダイナミクスに応じてモデルサイズをスケールすることで、正確性とリソースのトレードオフを探求している。 しかし、このようなモデルスケーリングアプローチは、差し迫った課題に直面します。 一 模型の大きさの大規模な宇宙探査、及び (二)異なるモデルの組み合わせに対する禁断の訓練時間。 本稿では,モバイルビジョンシステム上でマルチDNNワークロードを実行するための軽量でブロック粒度のスケーリングソリューションであるLegoDNNを提案する。 LegoDNNは、DNNで少数の共通ブロック(VGGでは5、ResNetでは8)を抽出し、トレーニングすることで、短いモデルのトレーニング時間を保証している。 実行時に、LegoDNNはこれらのブロックの後継モデルを最適に組み合わせて、特定のリソースとレイテンシ制約の下での精度を最大化し、DNNのスマートブロックレベルのスケーリングによるオーバーヘッドの切り換えを削減します。 TensorFlow LiteにLegoDNNを実装し、12の一般的なDNNモデルを用いて最先端技術(FLOPスケーリング、知識蒸留、モデル圧縮)に対して広範囲に評価する。 評価の結果、LegoDNNはトレーニング時間を増やすことなくモデルサイズの1,296倍から279,936倍のオプションを提供しており、推論精度が31.74%向上し、スケールエネルギー消費が71.07%減少した。

Deep neural networks (DNNs) have become ubiquitous techniques in mobile and embedded systems for applications such as image/object recognition and classification. The trend of executing multiple DNNs simultaneously exacerbate the existing limitations of meeting stringent latency/accuracy requirements on resource constrained mobile devices. The prior art sheds light on exploring the accuracy-resource tradeoff by scaling the model sizes in accordance to resource dynamics. However, such model scaling approaches face to imminent challenges: (i) large space exploration of model sizes, and (ii) prohibitively long training time for different model combinations. In this paper, we present LegoDNN, a lightweight, block-grained scaling solution for running multi-DNN workloads in mobile vision systems. LegoDNN guarantees short model training times by only extracting and training a small number of common blocks (e.g. 5 in VGG and 8 in ResNet) in a DNN. At run-time, LegoDNN optimally combines the descendant models of these blocks to maximize accuracy under specific resources and latency constraints, while reducing switching overhead via smart block-level scaling of the DNN. We implement LegoDNN in TensorFlow Lite and extensively evaluate it against state-of-the-art techniques (FLOP scaling, knowledge distillation and model compression) using a set of 12 popular DNN models. Evaluation results show that LegoDNN provides 1,296x to 279,936x more options in model sizes without increasing training time, thus achieving as much as 31.74% improvement in inference accuracy and 71.07% reduction in scaling energy consumptions.
翻訳日:2021-12-21 16:17:14 公開日:2021-12-18
# weisfeiler氏とleman go machine learning - これまでの話

Weisfeiler and Leman go Machine Learning: The Story so far ( http://arxiv.org/abs/2112.09992v1 )

ライセンス: Link先を確認
Christopher Morris, Yaron Lipman, Haggai Maron, Bastian Rieck, Nils M. Kriege, Martin Grohe, Matthias Fey, Karsten Borgwardt(参考訳) 近年、グラフ同型問題に対する有名なヒューリスティックであるWeisfeiler-Lemanアルゴリズムに基づくアルゴリズムとニューラルネットワークが、グラフと関係データを用いた機械学習の強力なツールとして登場した。 本稿では,教師付きシステムに着目し,機械学習環境におけるアルゴリズムの利用状況について概観する。 理論的な背景を議論し,教師付きグラフおよびノード表現学習に使用する方法を示し,最近の拡張について論じ,アルゴリズムと(置換-)同変ニューラルネットワークとの関連を概説する。 さらに,今後の研究を刺激するための現在の応用状況と今後の方向性について概説する。

In recent years, algorithms and neural architectures based on the Weisfeiler-Leman algorithm, a well-known heuristic for the graph isomorphism problem, emerged as a powerful tool for machine learning with graphs and relational data. Here, we give a comprehensive overview of the algorithm's use in a machine learning setting, focusing on the supervised regime. We discuss the theoretical background, show how to use it for supervised graph- and node representation learning, discuss recent extensions, and outline the algorithm's connection to (permutation-)equiva riant neural architectures. Moreover, we give an overview of current applications and future directions to stimulate further research.
翻訳日:2021-12-21 16:13:29 公開日:2021-12-18
# パピレドマと視神経円板ドルーゼンのロバストに識別する視神経頭部の3次元構造解析

3D Structural Analysis of the Optic Nerve Head to Robustly Discriminate Between Papilledema and Optic Disc Drusen ( http://arxiv.org/abs/2112.09970v1 )

ライセンス: Link先を確認
Micha\"el J.A. Girard, Satish K. Panda, Tin Aung Tun, Elisabeth A. Wibroe, Raymond P. Najjar, Aung Tin, Alexandre H. Thi\'ery, Steffen Hamann, Clare Fraser, and Dan Milea(参考訳) 目的:(1)3次元光コヒーレンス断層撮影(oct)における視神経頭(onh)の主要組織構造を同定する深層学習アルゴリズムの開発、(2)健康な視神経乳頭drusen(odd)と乳頭浮腫onhsをロバストに区別するために活用すること。 ODD (105眼), 高頭蓋内圧 (51眼), 健常眼 (100眼) を用いた横断的比較研究であった。 OnHsの3DスキャンはOCTを用いて取得され、深部視認性を改善するために処理された。 当初は、主要な神経結合組織とODD領域を識別するために、984個のBスキャン(130の目から)を用いてディープラーニングアルゴリズムが開発された。 本アルゴリズムの性能はDice coefficient (DC) を用いて評価した。 2段階目では,150 OCTボリュームを用いた分類アルゴリズム(ランダム・フォレスト)を設計し,ドライセンおよびプレラミナ膨れスコア(セグメンテーション由来)から厳密に3クラス分類(1: ODD, 2: papilledema, 3: healthy)を行った。 性能評価のために,各クラスに対して受信機動作特性曲線 (AUC) に基づくエリアを報告した。 我々のセグメンテーションアルゴリズムは神経組織と結合組織とODD領域をいつでも分離することができた。 これはテストセット上の平均dc 0.93$\pm$0.03 で確認され、良好な性能が得られた。 ODDの検出には0.99$\pm$0.01、パピレデマの検出には0.99$\pm$0.01、健康なONHの検出には0.98$\pm$0.02と高いAUCで分類された。 われわれのAIアプローチは,1本のCTスキャンを用いて,パピレデマからODDを正確に識別する。 私たちの分類性能は優れており、より広い人口での検証が保証されていることを指摘しています。 神経眼科における診断画像の主流としてOCTを確立できる可能性がある。

Purpose: (1) To develop a deep learning algorithm to identify major tissue structures of the optic nerve head (ONH) in 3D optical coherence tomography (OCT) scans; (2) to exploit such information to robustly differentiate among healthy, optic disc drusen (ODD), and papilledema ONHs. It was a cross-sectional comparative study with confirmed ODD (105 eyes), papilledema due to high intracranial pressure (51 eyes), and healthy controls (100 eyes). 3D scans of the ONHs were acquired using OCT, then processed to improve deep-tissue visibility. At first, a deep learning algorithm was developed using 984 B-scans (from 130 eyes) in order to identify: major neural/connective tissues, and ODD regions. The performance of our algorithm was assessed using the Dice coefficient (DC). In a 2nd step, a classification algorithm (random forest) was designed using 150 OCT volumes to perform 3-class classifications (1: ODD, 2: papilledema, 3: healthy) strictly from their drusen and prelamina swelling scores (derived from the segmentations). To assess performance, we reported the area under the receiver operating characteristic curves (AUCs) for each class. Our segmentation algorithm was able to isolate neural and connective tissues, and ODD regions whenever present. This was confirmed by an average DC of 0.93$\pm$0.03 on the test set, corresponding to good performance. Classification was achieved with high AUCs, i.e. 0.99$\pm$0.01 for the detection of ODD, 0.99 $\pm$ 0.01 for the detection of papilledema, and 0.98$\pm$0.02 for the detection of healthy ONHs. Our AI approach accurately discriminated ODD from papilledema, using a single OCT scan. Our classification performance was excellent, with the caveat that validation in a much larger population is warranted. Our approach may have the potential to establish OCT as the mainstay of diagnostic imaging in neuro-ophthalmology.
翻訳日:2021-12-21 16:10:55 公開日:2021-12-18
# 放射線診断のための単語グラフガイド要約

Word Graph Guided Summarization for Radiology Findings ( http://arxiv.org/abs/2112.09925v1 )

ライセンス: Link先を確認
Jinpeng Hu, Jianling Li, Zhihong Chen, Yaling Shen, Yan Song, Xiang Wan, Tsung-Hui Chang(参考訳) 放射線医学の報告は医師に医学的所見を伝える上で重要な役割を担っている。 各報告において、印象部は必須の放射線学所見を要約する。 臨床実践では、筆記印象は要求されるが時間を要するため、放射線科医の誤りに陥りやすい。 そのため、このような臨床実践を促進するための魅力的な研究方向として、自動印象生成が登場している。 既存の研究は主に、放射線学的発見における重要な内容の選択を導くために、一般的なテキスト要約フレームワークに敬語情報を導入することに焦点を当てている。 しかし、この課題では、モデルが発見における重要な単語をキャプチャするだけでなく、その関係を正確に記述して高品質な印象を生成する必要がある。 本稿では,重要な単語とその関係を記録するために単語グラフを構築した上で,単語グラフの助けを借りて印象を生成するためのWord Graph Guided Summarization Model(WGSum)を提案する。 2つのデータセット(OpenIとMIMIC-CXR)の実験結果から,提案手法の有効性と有効性が確認された。 また, 異なるグラフ設計が提案手法の性能に与える影響を解析するために, さらなる実験を行った。

Radiology reports play a critical role in communicating medical findings to physicians. In each report, the impression section summarizes essential radiology findings. In clinical practice, writing impression is highly demanded yet time-consuming and prone to errors for radiologists. Therefore, automatic impression generation has emerged as an attractive research direction to facilitate such clinical practice. Existing studies mainly focused on introducing salient word information to the general text summarization framework to guide the selection of the key content in radiology findings. However, for this task, a model needs not only capture the important words in findings but also accurately describe their relations so as to generate high-quality impressions. In this paper, we propose a novel method for automatic impression generation, where a word graph is constructed from the findings to record the critical words and their relations, then a Word Graph guided Summarization model (WGSum) is designed to generate impressions with the help of the word graph. Experimental results on two datasets, OpenI and MIMIC-CXR, confirm the validity and effectiveness of our proposed approach, where the state-of-the-art results are achieved on both datasets. Further experiments are also conducted to analyze the impact of different graph designs to the performance of our method.
翻訳日:2021-12-21 16:06:43 公開日:2021-12-18
# ディープニューラルネットワークを用いた顔マスク迅速検出と人物識別モデル

Rapid Face Mask Detection and Person Identification Model based on Deep Neural Networks ( http://arxiv.org/abs/2112.09951v1 )

ライセンス: Link先を確認
Abdullah Ahmad Khan (1), Mohd. Belal (2) and GhufranUllah (3) ((1,2 and 3) Aligarh Muslim University)(参考訳) Covid-19は常に変異しており、3~4ヶ月で新たな変異が出現し、より致命的な問題が発生しています。 私たちがCovidを手に入れるのを防ぐものは、予防接種を受け、フェイスマスクを着用していることです。 本稿では,ソフトマックス損失分類アルゴリズムであるarc face lossに基づいて,rfmpi-dnn(rapid face detection and peron identification model on deep neural networks based on deep neural networks)と命名し,顔マスクと人物識別を他のモデルと比較して迅速に検出する,新しい顔マスク検出モデルであるinsight faceを実装した。 新しいモデルを比較するために,従来のMobileNet_V2モデルと顔認識モジュールを用いて時間に基づく効果的な比較を行った。 システムに実装された提案モデルは,各面において本論文で比較したモデルより優れている。

As Covid-19 has been constantly getting mutated and in three or four months a new variant gets introduced to us and it comes with more deadly problems. The things that prevent us from getting Covid is getting vaccinated and wearing a face mask. In this paper, we have implemented a new Face Mask Detection and Person Recognition model named Insight face which is based on SoftMax loss classification algorithm Arc Face loss and names it as RFMPI-DNN(Rapid Face Detection and Peron Identification Model based on Deep Neural Networks) to detect face mask and person identity rapidly as compared to other models available. To compare our new model, we have used previous MobileNet_V2 model and face recognition module for effective comparison on the basis of time. The proposed model implemented in the system has outperformed the model compared in this paper in every aspect
翻訳日:2021-12-21 15:46:37 公開日:2021-12-18
# 早期糖尿病検出のための皮膚組織のレーザースペックル画像サンプリング法の開発 : 皮膚皮下細胞特性に対する効果

Supervised laser-speckle image sampling of skin tissue to detect very early stage of diabetes by its effects on skin subcellular properties ( http://arxiv.org/abs/2112.10024v1 )

ライセンス: Link先を確認
Ahmet Orun, Luke Vella Critien, Jennifer Carter and Martin Stacey(参考訳) 糖尿病早期発見に応用したレーザースペックル画像サンプリングにおけるK-nearest neighborsアルゴリズムに基づくエキスパートシステムの有効性を検討した。 人工知能レーザースペックルイメージング技術の最近の進歩により、波長、エネルギーレベル、画像テクスチャといったレーザーパラメータを適切なAI技術と結びつけて最適化し、皮膚組織の細胞内特性と効果的に相互作用して糖尿病の早期徴候を検出することができる。 新しいアプローチは、レーザー物理学とai技術の最適化された組み合わせにより、古典的な皮膚グルコースレベルの観察よりも効果的であり、また、非熟練の個人が糖尿病の早期発見のためにより頻繁に皮膚組織検査を行うことを可能にする。

This paper investigates the effectiveness of an expert system based on K-nearest neighbors algorithm for laser speckle image sampling applied to the early detection of diabetes. With the latest developments in artificial intelligent guided laser speckle imaging technologies, it may be possible to optimise laser parameters, such as wavelength, energy level and image texture measures in association with a suitable AI technique to interact effectively with the subcellular properties of a skin tissue to detect early signs of diabetes. The new approach is potentially more effective than the classical skin glucose level observation because of its optimised combination of laser physics and AI techniques, and additionally, it allows non-expert individuals to perform more frequent skin tissue tests for an early detection of diabetes.
翻訳日:2021-12-21 15:43:50 公開日:2021-12-18
# 構文GCNベルトに基づく中国語イベント抽出

Syntactic-GCN Bert based Chinese Event Extraction ( http://arxiv.org/abs/2112.09939v1 )

ライセンス: Link先を確認
Jiangwei Liu, Jingshu Zhang, Xiaohong Huang, Liangyu Min(参考訳) 情報技術の急速な発展に伴い、オンラインプラットフォーム(ニュースポータルやソーシャルメディアなど)は毎回膨大なウェブ情報を生成する。 したがって,イベントの構造化表現をソーシャルストリームから抽出することが重要である。 一般に、既存のイベント抽出研究はパターンマッチング、機械学習、あるいはディープラーニング手法を用いてイベント抽出タスクを実行する。 しかし、中国語の独特の特徴から、中国語のイベント抽出性能は英語ほど良くない。 本稿では,中国のイベント抽出を行うための統合フレームワークを提案する。 提案するアプローチは、意味的特徴と構文的特徴を統合するマルチチャネル入力ニューラルフレームワークである。 セマンティック機能はBERTアーキテクチャによってキャプチャされる。 音声(POS)機能と依存性解析(DP)機能はそれぞれ、プロファイリング埋め込みとグラフ畳み込みネットワーク(GCN)によってキャプチャされる。 また、実世界のデータセットでモデルを評価する。 実験の結果,提案手法はベンチマーク手法を大きく上回ることがわかった。

With the rapid development of information technology, online platforms (e.g., news portals and social media) generate enormous web information every moment. Therefore, it is crucial to extract structured representations of events from social streams. Generally, existing event extraction research utilizes pattern matching, machine learning, or deep learning methods to perform event extraction tasks. However, the performance of Chinese event extraction is not as good as English due to the unique characteristics of the Chinese language. In this paper, we propose an integrated framework to perform Chinese event extraction. The proposed approach is a multiple channel input neural framework that integrates semantic features and syntactic features. The semantic features are captured by BERT architecture. The Part of Speech (POS) features and Dependency Parsing (DP) features are captured by profiling embeddings and Graph Convolutional Network (GCN), respectively. We also evaluate our model on a real-world dataset. Experimental results show that the proposed method outperforms the benchmark approaches significantly.
翻訳日:2021-12-21 15:22:08 公開日:2021-12-18
# 情報フローを伴うデジタル病理におけるグラフニューラルネットワークの解説に向けて

Towards the Explanation of Graph Neural Networks in Digital Pathology with Information Flows ( http://arxiv.org/abs/2112.09895v1 )

ライセンス: Link先を確認
Junchi Yu, Tingyang Xu, Ran He(参考訳) デジタル病理学においてグラフニューラルネットワーク(GNN)が広く採用されているため,臨床診断における透明性向上のために,GNNの説明モデル(説明者)の開発に注目が集まっている。 既存の説明者は、予測に関連する説明的部分グラフを発見する。 しかし、そのような部分グラフは、その部分グラフを除去した後も予測は変わらないため、予測のための全ての重要な生物学的部分構造を明らかにするには不十分である。 したがって、説明文は予測に必要であるだけでなく、説明のために最も予測可能な領域を明らかにするのに十分である。 このような説明は、異なる入力サブグラフから予測出力に転送される情報の計測を必要とし、情報フローと定義する。 本稿では、これらの課題に対処し、GNNに必要な十分な説明を生成するIFEXPLAINERを提案する。 GNNの予測内での情報フローを評価するために,まず,GNNモデルの現実的能力を考慮した指向性を持つ$f$-informationという新しい予測性の概念を提案する。 これに基づいて、IFEXPLAINERは、予測に最大情報を流した説明部分グラフを生成する。 一方、説明を除去した後、入力から予測結果への情報フローを最小化する。 したがって、生成された説明は予測に必要不可欠であり、最も重要な部分構造を明らかにするのに十分である。 我々はIFEXPLAINERを評価し,GNNの乳がん沈着予測を解釈した。 BRACSデータセットにおける実験結果は,提案手法の優れた性能を示す。

As Graph Neural Networks (GNNs) are widely adopted in digital pathology, there is increasing attention to developing explanation models (explainers) of GNNs for improved transparency in clinical decisions. Existing explainers discover an explanatory subgraph relevant to the prediction. However, such a subgraph is insufficient to reveal all the critical biological substructures for the prediction because the prediction will remain unchanged after removing that subgraph. Hence, an explanatory subgraph should be not only necessary for prediction, but also sufficient to uncover the most predictive regions for the explanation. Such explanation requires a measurement of information transferred from different input subgraphs to the predictive output, which we define as information flow. In this work, we address these key challenges and propose IFEXPLAINER, which generates a necessary and sufficient explanation for GNNs. To evaluate the information flow within GNN's prediction, we first propose a novel notion of predictiveness, named $f$-information, which is directional and incorporates the realistic capacity of the GNN model. Based on it, IFEXPLAINER generates the explanatory subgraph with maximal information flow to the prediction. Meanwhile, it minimizes the information flow from the input to the predictive result after removing the explanation. Thus, the produced explanation is necessarily important to the prediction and sufficient to reveal the most crucial substructures. We evaluate IFEXPLAINER to interpret GNN's predictions on breast cancer subtyping. Experimental results on the BRACS dataset show the superior performance of the proposed method.
翻訳日:2021-12-21 15:21:55 公開日:2021-12-18
# 変分グラフ情報を用いた部分グラフ認識の改良

Improving Subgraph Recognition with Variational Graph Information Bottleneck ( http://arxiv.org/abs/2112.09899v1 )

ライセンス: Link先を確認
Junchi Yu, Jie Cao, Ran He(参考訳) 部分グラフ認識は、グラフ特性に最も有益であるグラフの圧縮部分構造を発見することを目的としている。 グラフ情報ボトルネック(GIB)を相互情報推定器で最適化することで定式化することができる。 しかし、GIBはグラフデータの相互情報は本質的に推定が難しいため、トレーニング不安定に悩まされている。 本稿では,サブグラフ内の情報を圧縮するためのノイズ注入手法を提案する。 VGIBは、微妙な仮定の下で、その目的に対して、トラクタブルな変分近似を可能にする。 したがって、VGIBはより安定的で効率的なトレーニングプロセスを楽しむことができ、実際のパフォーマンス向上により、VGIBはGIBの10倍の速度で収束する。 グラフ解釈、グラフニューラルネットワークの説明可能性、グラフ分類に関する大規模な実験は、VGIBが既存の方法よりも優れたサブグラフを見つけることを示している。

Subgraph recognition aims at discovering a compressed substructure of a graph that is most informative to the graph property. It can be formulated by optimizing Graph Information Bottleneck (GIB) with a mutual information estimator. However, GIB suffers from training instability since the mutual information of graph data is intrinsically difficult to estimate. This paper introduces a noise injection method to compress the information in the subgraphs, which leads to a novel Variational Graph Information Bottleneck (VGIB) framework. VGIB allows a tractable variational approximation to its objective under mild assumptions. Therefore, VGIB enjoys more stable and efficient training process - we find that VGIB converges 10 times faster than GIB with improved performances in practice. Extensive experiments on graph interpretation, explainability of Graph Neural Networks, and graph classification show that VGIB finds better subgraphs than existing methods.
翻訳日:2021-12-21 15:21:34 公開日:2021-12-18
# マルコフ決定過程におけるエキスパート誘導対称性の検出

Exploiting Expert-guided Symmetry Detection in Markov Decision Processes ( http://arxiv.org/abs/2112.09943v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel(参考訳) マルコフ決定過程(MDP)の動的モデルのオフライン推定は、学習フェーズで利用可能なデータに大きく依存する非自明なタスクである。 時々、モデルのダイナミクスは、現在の状態と作用のいくつかの変換に関して不変である。 近年の研究では,Deep Neural Network based Normalizing Flows として密度推定手法に依存する専門家誘導パイプラインが,分類的・連続的評価の両面で決定論的環境において,この構造を効果的に検出することを示した。 獲得した知識を利用して元のデータセットを拡大し、最終的には真と学習モデルの間の分布シフトを減少させる。 本研究では,非決定論的MDP,特にそのパラダイムを拡張した。 1) 統計的距離に基づくカテゴリー環境における検出しきい値を提案する。 2)Wilcoxon符号付き統計的テストとそれに基づく連続環境の分布変化のベンチマークを導入する。 3) 学習済みのMDPを解き, 実環境に最適なポリシーを適用すると, 前者の結果が性能改善につながることを示す。

Offline estimation of the dynamical model of a Markov Decision Process (MDP) is a non-trivial task that greatly depends on the data available to the learning phase. Sometimes the dynamics of the model is invariant with respect to some transformations of the current state and action. Recent works showed that an expert-guided pipeline relying on Density Estimation methods as Deep Neural Network based Normalizing Flows effectively detects this structure in deterministic environments, both categorical and continuous-valued. The acquired knowledge can be exploited to augment the original data set, leading eventually to a reduction in the distributional shift between the true and the learnt model. In this work we extend the paradigm to also tackle non deterministic MDPs, in particular 1) we propose a detection threshold in categorical environments based on statistical distances, 2) we introduce a benchmark of the distributional shift in continuous environments based on the Wilcoxon signed-rank statistical test and 3) we show that the former results lead to a performance improvement when solving the learnt MDP and then applying the optimal policy in the real environment.
翻訳日:2021-12-21 15:21:17 公開日:2021-12-18
# 知識グラフによる低リソース学習: 総合的な調査

Low-resource Learning with Knowledge Graphs: A Comprehensive Survey ( http://arxiv.org/abs/2112.10006v1 )

ライセンス: Link先を確認
Jiaoyan Chen and Yuxia Geng and Zhuo Chen and Jeff Z. Pan and Yuan He and Wen Zhang and Ian Horrocks and Huajun Chen(参考訳) 機械学習手法、特にディープニューラルネットワークは大きな成功を収めているが、その多くはトレーニングのために多くのラベル付きサンプルに依存している。 実世界のアプリケーションでは、例えば、新しい予測ターゲットとコストのかかるサンプルアノテーションを持つ動的コンテキストによって、サンプル不足に対処する必要があることが多い。 そのため、リソース不足(特にトレーニングサンプル)で堅牢な予測モデルを学ぶことを目的とした低リソース学習が現在広く研究されている。 低リソースの学習研究の中で、多くの人は、ラベル付きサンプルへの依存を減らすために、知識表現に人気が高まっている知識グラフ(KG)という形で補助情報を利用することを好んでいる。 そこで本研究では,学習中に新たな予測クラスが出現したことがないゼロショット学習 (zsl) と,予測のための新しいクラスが利用可能なラベル付きサンプルの数がごくわずかであるマイノリティショット学習 (fsl) という,2つの主要な低リソース学習設定のためのkg-aware研究に関する90ドル以上の論文を総括的にレビューした。 まず,ZSL と FSL で用いられる KG と既存の KG 構築ソリューション,そしてKG を意識した ZSL と FSL の手法を体系的に分類・要約し,それらをマッピングベース,データ拡張,伝播ベース,最適化ベースといった異なるパラダイムに分割した。 次に、コンピュータビジョンと自然言語処理におけるkg拡張予測タスクと、kg補完タスクと、各タスクの典型的な評価リソースの両方を含む、さまざまなアプリケーションを提示した。 最終的には,新しい学習パラダイムや推論パラダイム,高品質kgsの構築など,いくつかの課題と今後の方向性について論じた。

Machine learning methods especially deep neural networks have achieved great success but many of them often rely on a number of labeled samples for training. In real-world applications, we often need to address sample shortage due to e.g., dynamic contexts with emerging prediction targets and costly sample annotation. Therefore, low-resource learning, which aims to learn robust prediction models with no enough resources (especially training samples), is now being widely investigated. Among all the low-resource learning studies, many prefer to utilize some auxiliary information in form of Knowledge Graph (KG), which is becoming more and more popular for knowledge representation, to reduce the reliance on labeled samples. In this survey, we very comprehensively reviewed over $90$ papers about KG-aware research for two major low-resource learning settings -- zero-shot learning (ZSL) where new classes for prediction have never appeared in training, and few-shot learning (FSL) where new classes for prediction have only a small number of labeled samples that are available. We first introduced the KGs used in ZSL and FSL studies as well as the existing and potential KG construction solutions, and then systematically categorized and summarized KG-aware ZSL and FSL methods, dividing them into different paradigms such as the mapping-based, the data augmentation, the propagation-based and the optimization-based. We next presented different applications, including both KG augmented prediction tasks in Computer Vision and Natural Language Processing but also tasks for KG completion, and some typical evaluation resources for each task. We eventually discussed some challenges and future directions on aspects such as new learning and reasoning paradigms, and the construction of high quality KGs.
翻訳日:2021-12-21 15:19:44 公開日:2021-12-18
# MVSビルの3次元インスタンスセグメンテーション

3D Instance Segmentation of MVS Buildings ( http://arxiv.org/abs/2112.09902v1 )

ライセンス: Link先を確認
Yanghui Xu, Jiazhou Chen, Shufang Lu, Ronghua Liang, and Liangliang Nan(参考訳) 本稿では,多視点ステレオ(mvs)都市景観から3次元建物をセグメンテーションする新しい枠組みを提案する。 都市景観のセマンティックセグメンテーションに焦点を当てた既存の作品とは異なり、この作品の重点は、大規模で不正確な3次元表面モデルに取り付けられたとしても、3Dビルディングインスタンスの検出とセグメンテーションである。 マルチビューRGB画像は、まずハイトマップを追加してRGBH画像に拡張され、細調整された2Dインスタンスセグメンテーションニューラルネットワークを用いてすべての屋根インスタンスを取得する。 異なるマルチビューイメージのルーフインスタンスマスクは、グローバルマスクにクラスタ化される。 マスククラスタリングは空間的閉塞と重複を考慮し,マルチビュー画像間のセグメンテーションあいまいさを解消する。 これらのグローバルマスクに基づいて、3Dルーフインスタンスはマスクバックプロジェクションによって分割され、マルコフランダムフィールド(MRF)最適化によってビルディングインスタンス全体に拡張される。 定量的評価とアブレーション研究により, 本手法のすべての主要なステップの有効性が示された。 3dビルディングモデルのインスタンスセグメンテーション評価用のデータセットも提供する。 我々の知る限りでは、これはインスタンスセグメンテーションレベルにおける3D都市建物の最初のデータセットである。

We present a novel framework for instance segmentation of 3D buildings from Multi-view Stereo (MVS) urban scenes. Unlike existing works focusing on semantic segmentation of an urban scene, the emphasis of this work lies in detecting and segmenting 3D building instances even if they are attached and embedded in a large and imprecise 3D surface model. Multi-view RGB images are first enhanced to RGBH images by adding a heightmap and are segmented to obtain all roof instances using a fine-tuned 2D instance segmentation neural network. Roof instance masks from different multi-view images are then clustered into global masks. Our mask clustering accounts for spatial occlusion and overlapping, which can eliminate segmentation ambiguities among multi-view images. Based on these global masks, 3D roof instances are segmented out by mask back-projections and extended to the entire building instances through a Markov random field (MRF) optimization. Quantitative evaluations and ablation studies have shown the effectiveness of all major steps of the method. A dataset for the evaluation of instance segmentation of 3D building models is provided as well. To the best of our knowledge, it is the first dataset for 3D urban buildings on the instance segmentation level.
翻訳日:2021-12-21 14:57:44 公開日:2021-12-18
# 医療画像におけるクロスドメインフェデレート学習

Cross-Domain Federated Learning in Medical Imaging ( http://arxiv.org/abs/2112.10001v1 )

ライセンス: Link先を確認
Vishwa S Parekh, Shuhao Lai, Vladimir Braverman, Jeff Leal, Steven Rowe, Jay J Pillai, Michael A Jacobs(参考訳) 医療画像の分野では、さまざまなデータセンタに分散した大規模データセット上でディープラーニングモデルをトレーニングし、センシティブな患者情報を転送する必要なしにプライバシを保存するために、フェデレーション学習が研究されている。 本稿では,複数ドメインのマルチタスク設定において,異なるノードが異なるドメインから派生したデータセットを格納し,異なるタスクを解くための訓練を行う。 マルチモーダルとマルチオーガンの2つの異なる実験環境でのオブジェクト検出とセグメンテーションタスクのためのクロスドメインフェデレーション学習を評価した。 クロスドメインフェデレーション学習フレームワークを用いた実験の結果,臓器局在が0.79,病変分節が0.65と重なり,非常に有意な類似性が得られた。 本結果は,異なるドメインからのデータを共有することなく,マルチドメイン・マルチタスク深層学習モデルを開発する上でのフェデレート学習の可能性を示す。

Federated learning is increasingly being explored in the field of medical imaging to train deep learning models on large scale datasets distributed across different data centers while preserving privacy by avoiding the need to transfer sensitive patient information. In this manuscript, we explore federated learning in a multi-domain, multi-task setting wherein different participating nodes may contain datasets sourced from different domains and are trained to solve different tasks. We evaluated cross-domain federated learning for the tasks of object detection and segmentation across two different experimental settings: multi-modal and multi-organ. The result from our experiments on cross-domain federated learning framework were very encouraging with an overlap similarity of 0.79 for organ localization and 0.65 for lesion segmentation. Our results demonstrate the potential of federated learning in developing multi-domain, multi-task deep learning models without sharing data from different domains.
翻訳日:2021-12-21 14:57:25 公開日:2021-12-18
# (参考訳) 会話型ツイートにおけるヘイト音声検出のためのレバレッジ変換器 [全文訳有]

Leveraging Transformers for Hate Speech Detection in Conversational Code-Mixed Tweets ( http://arxiv.org/abs/2112.09986v1 )

ライセンス: CC BY 4.0
Zaki Mustafa Farooqi, Sreyan Ghosh and Rajiv Ratn Shah(参考訳) インターネットの現在の時代には、ソーシャルメディアのプラットフォームが誰でも簡単にアクセスできるようになるため、人々は、キャスティング、信条、性別、宗教、あるいは概念の受け入れや拒否などに関連して、脅威、アイデンティティ攻撃、憎悪、いじめに対処しなければならないことが多い。 ヘイトスピーチ検出における既存の作業は、主にシーケンスラベリングタスクとしての個々のコメント分類に焦点を当てており、会話のコンテキストを考慮できないことが多い。 会話の文脈は、ツイートの背後にある著者の意図や感情を決定するときにしばしば重要な役割を果たす。 本稿では,HASOC 2021 subtask 2におけるMIDAS-IIITDチームによる提案システムについて述べる。 ニューラルネットワークを用いてこの問題にアプローチし、トランスフォーマーの言語間埋め込みを活用し、さらにヒンディー語テキストの低リソースヘイト音声分類に微調整する。 我々の最高のパフォーマンスシステム、Indic-BERT、XLM-RoBERTa、Multilingual BERTのハード投票アンサンブルは、マクロF1スコア0.7253を達成し、リーダーボード全体のランキングで第1位となった。

In the current era of the internet, where social media platforms are easily accessible for everyone, people often have to deal with threats, identity attacks, hate, and bullying due to their association with a cast, creed, gender, religion, or even acceptance or rejection of a notion. Existing works in hate speech detection primarily focus on individual comment classification as a sequence labeling task and often fail to consider the context of the conversation. The context of a conversation often plays a substantial role when determining the author's intent and sentiment behind the tweet. This paper describes the system proposed by team MIDAS-IIITD for HASOC 2021 subtask 2, one of the first shared tasks focusing on detecting hate speech from Hindi-English code-mixed conversations on Twitter. We approach this problem using neural networks, leveraging the transformer's cross-lingual embeddings and further finetuning them for low-resource hate-speech classification in transliterated Hindi text. Our best performing system, a hard voting ensemble of Indic-BERT, XLM-RoBERTa, and Multilingual BERT, achieved a macro F1 score of 0.7253, placing us first on the overall leaderboard standings.
翻訳日:2021-12-21 14:52:15 公開日:2021-12-18
# webはあなたのカキ -- 非常に大きなwebコーパスに対する知識集約的なnlp

The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large Web Corpus ( http://arxiv.org/abs/2112.09924v1 )

ライセンス: Link先を確認
Aleksandra Piktus and Fabio Petroni and Vladimir Karpukhin and Dmytro Okhonko and Samuel Broscheit and Gautier Izacard and Patrick Lewis and Barlas O\u{g}uz and Edouard Grave and Wen-tau Yih and Sebastian Riedel(参考訳) 現実世界のアプリケーションのニーズの増加に対応するため,知識集約型NLP(KI-NLP)の研究は,Webスケールの知識,構造不足,一貫性のない品質,ノイズといった,真のオープンドメイン環境の課題を捉えて進めるべきである。 そこで本研究では,背景コーパスをユニバーサルウェブスナップショットに一般化した既存のki-nlpタスクを評価するための新しいセットアップを提案する。 当初Wikipediaで開発された標準のKI-NLPベンチマークであるKILTを再利用し、知識ソースとしてCCNetのサブセットであるSphere corpusを使用するようシステムに求めた。 wikipediaとは対照的に、sphereは桁違いに大きく、インターネット上の知識の完全な多様性を反映している。 カバレッジの潜在的なギャップ、スケールの課題、構造の欠如、品質の低下にもかかわらず、Sphereからの検索によって、最先端の検索・読み取りシステムが、いくつかのKILTタスクでWikipediaベースのモデルにマッチし、さらにパフォーマンスを向上することができる。 また、wikipedia上の1つの密閉通路インデックスは、sparse bm25バージョンを上回ることができるが、sphereでは、これはまだ不可能である。 この領域に関するさらなる研究を促進し、コミュニティのプロプライエタリなブラックボックス検索エンジンへの依存を最小限に抑えるために、私たちはインデックス、評価指標、インフラを共有します。

In order to address the increasing demands of real-world applications, the research for knowledge-intensive NLP (KI-NLP) should advance by capturing the challenges of a truly open-domain environment: web scale knowledge, lack of structure, inconsistent quality, and noise. To this end, we propose a new setup for evaluating existing KI-NLP tasks in which we generalize the background corpus to a universal web snapshot. We repurpose KILT, a standard KI-NLP benchmark initially developed for Wikipedia, and ask systems to use a subset of CCNet - the Sphere corpus - as a knowledge source. In contrast to Wikipedia, Sphere is orders of magnitude larger and better reflects the full diversity of knowledge on the Internet. We find that despite potential gaps of coverage, challenges of scale, lack of structure and lower quality, retrieval from Sphere enables a state-of-the-art retrieve-and-read system to match and even outperform Wikipedia-based models on several KILT tasks - even if we aggressively filter content that looks like Wikipedia. We also observe that while a single dense passage index over Wikipedia can outperform a sparse BM25 version, on Sphere this is not yet possible. To facilitate further research into this area, and minimise the community's reliance on proprietary black box search engines, we will share our indices, evaluation metrics and infrastructure.
翻訳日:2021-12-21 14:31:29 公開日:2021-12-18
# federated dynamic sparse training: コンピューティングの削減、コミュニケーションの削減、学習の改善

Federated Dynamic Sparse Training: Computing Less, Communicating Less, Yet Learning Better ( http://arxiv.org/abs/2112.09824v1 )

ライセンス: Link先を確認
Sameer Bibikar, Haris Vikalo, Zhangyang Wang, Xiaohan Chen(参考訳) Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。 残念なことに、現在のディープネットワークはエッジデバイスでの推論やトレーニングには計算量が多いだけでなく、帯域幅制限のネットワーク上での更新通信にも大きすぎる。 本稿では,デバイス上での計算とネットワーク内通信の効率を大幅に向上させ,複雑なニューラルネットワークを展開訓練できる新しいflフレームワークであるfederated dynamic sparse training(feddst)を開発し,実装し,実験的に検証する。 FedDSTの中核は、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。 このスキームでは、フルモデルではなく、各クライアントが自身のスパースネットワークを効率的にトレーニングし、スパースネットワークのみがデバイスとクラウドの間で送信される。 さらに,FLトレーニング時の動的疎水性は固定された共有スパースマスクよりもFLエージェントの局所的不均一性に柔軟に適合することが明らかとなった。 さらに、動的疎水性は、訓練力学に自然に「インタイム自己認識効果」を導入し、高密度トレーニングよりもFL性能を向上させる。 例えば、CIFAR-10の任意の固定アップロードデータキャップでは、同じアップロードデータキャップが与えられた場合、FedAvgMよりも10%の精度で、FedAvgMがアップロードデータキャップの2倍の精度で与えられた場合でも、精度のギャップは3%であり、さらにFedDSTの有効性を示す。 コードはhttps://github.com/b ibikar/feddst.com/で入手できる。

Federated learning (FL) enables distribution of machine learning workloads from the cloud to resource-limited edge devices. Unfortunately, current deep networks remain not only too compute-heavy for inference and training on edge devices, but also too large for communicating updates over bandwidth-constraine d networks. In this paper, we develop, implement, and experimentally validate a novel FL framework termed Federated Dynamic Sparse Training (FedDST) by which complex neural networks can be deployed and trained with substantially improved efficiency in both on-device computation and in-network communication. At the core of FedDST is a dynamic process that extracts and trains sparse sub-networks from the target full network. With this scheme, "two birds are killed with one stone:" instead of full models, each client performs efficient training of its own sparse networks, and only sparse networks are transmitted between devices and the cloud. Furthermore, our results reveal that the dynamic sparsity during FL training more flexibly accommodates local heterogeneity in FL agents than the fixed, shared sparse masks. Moreover, dynamic sparsity naturally introduces an "in-time self-ensembling effect" into the training dynamics and improves the FL performance even over dense training. In a realistic and challenging non i.i.d. FL setting, FedDST consistently outperforms competing algorithms in our experiments: for instance, at any fixed upload data cap on non-iid CIFAR-10, it gains an impressive accuracy advantage of 10% over FedAvgM when given the same upload data cap; the accuracy gap remains 3% even when FedAvgM is given 2x the upload data cap, further demonstrating efficacy of FedDST. Code is available at: https://github.com/b ibikar/feddst.
翻訳日:2021-12-21 14:30:43 公開日:2021-12-18