このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220120となっている論文です。

PDF登録状況(公開日: 20220120)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) CUDAを用いたラウ水深推定アルゴリズムの高速化 [全文訳有]

Accelerating Laue Depth Reconstruction Algorithm with CUDA ( http://arxiv.org/abs/2201.13309v1 )

ライセンス: CC0 1.0
Ke Yue, Schwarz Nicholas, Tischler Jonathan Z(参考訳) ロー回折顕微鏡実験では、多色ロー微小回折法を用いて3次元のサブミクロン空間分解能を持つ材料の構造を調べる。 この実験では, 局所結晶方位, 配向勾配, ひずみをHDF5画像形式で記録する特性として測定した。 記録された画像は、将来のデータ解析のための深度再構成アルゴリズムで処理される。 しかし、現在の深度再構成アルゴリズムはかなりの処理時間を消費し、単一の実験から収集したデータを再構築するのに最大2週間かかる可能性がある。 本稿では,深度再構成計算の高速化を目的として,深度再構成問題に対するスケーラブルなGPUプログラムソリューションを提案する。 テスト結果から、実行時間は、入力データのさまざまなサイズに対して、以前のCPU設計よりも10倍から20倍高速であることが示された。

The Laue diffraction microscopy experiment uses the polychromatic Laue micro-diffraction technique to examine the structure of materials with sub-micron spatial resolution in all three dimensions. During this experiment, local crystallographic orientations, orientation gradients and strains are measured as properties which will be recorded in HDF5 image format. The recorded images will be processed with a depth reconstruction algorithm for future data analysis. But the current depth reconstruction algorithm consumes considerable processing time and might take up to 2 weeks for reconstructing data collected from one single experiment. To improve the depth reconstruction computation speed, we propose a scalable GPU program solution on the depth reconstruction problem in this paper. The test result shows that the running time would be 10 to 20 times faster than the prior CPU design for various size of input data.
翻訳日:2022-02-06 11:10:46 公開日:2022-01-20
# フィルタx対数再帰最小$p$-powerアルゴリズムの研究

Study of filtered-x logarithmic recursive least $p$-power algorithm ( http://arxiv.org/abs/2202.00560v1 )

ライセンス: Link先を確認
Z. Zheng, L. Lu, Y. Yu, R. C. de Lamare, Z. Liu(参考訳) 能動型インパルスノイズ制御では、フィルタされたx再帰最小$p$-power (FxRLP) アルゴリズムが提案され、emph{a reari} 誤差の$p$-powerの重み付け和を最小化する。 ターゲットノイズの特性を検討した結果,fxrlpアルゴリズムの性能とロバスト性が向上した。 より優れた性能を得るために,フィルタ付きx対数再帰的最小$p$-power (fxlogrlp) アルゴリズムを開発し,$p$-order モーメントと対数次モーメントを統合した。 シミュレーションの結果,fxlogrlpアルゴリズムは収束率と雑音低減率において既存のアルゴリズムよりも優れていることがわかった。

For active impulsive noise control, a filtered-x recursive least $p$-power (FxRLP) algorithm is proposed by minimizing the weighted summation of the $p$-power of the \emph{a posteriori} errors. Since the characteristic of the target noise is investigated, the FxRLP algorithm achieves good performance and robustness. To obtain a better performance, we develop a filtered-x logarithmic recursive least $p$-power (FxlogRLP) algorithm which integrates the $p$-order moment with the logarithmic-order moment. Simulation results demonstrate that the FxlogRLP algorithm is superior to the existing algorithms in terms of convergence rate and noise reduction.
翻訳日:2022-02-06 08:59:28 公開日:2022-01-20
# ECGとPSGの相関解析のためのランタイムモニタリングと統計的アプローチ

Runtime Monitoring and Statistical Approaches for Correlation Analysis of ECG and PPG ( http://arxiv.org/abs/2202.00559v1 )

ライセンス: Link先を確認
Abhinandan Panda, Srinivas Pinisetty, Partha Roop(参考訳) 心電図(ECG)や光胸腺図(PPG)などの生体物理信号は、健康に重要なパラメータを検知する鍵となる。 偶然にも、ecgとppgは信号であり、同じ現象、すなわち心臓周期に「異なる窓」を提供する。 別々に使用されるが、異なるECGおよびPSG事象の正確な補正についての研究は行われていない。 このような相関は、より安価なセンサーを用いたセンサー融合や、複数の信号を用いた攻撃検出と緩和法など、多くの方面で有用である。 これを踏まえて、ECGとPG信号の鍵となる関係を正式に確立するための最初のアプローチを示す。 本研究は,公式なランタイムモニタリングと統計解析と回帰分析を組み合わせる。

Biophysical signals such as Electrocardiogram (ECG) and Photoplethysmogram (PPG) are key to the sensing of vital parameters for wellbeing. Coincidentally, ECG and PPG are signals, which provide a "different window" into the same phenomena, namely the cardiac cycle. While they are used separately, there are no studies regarding the exact correction of the different ECG and PPG events. Such correlation would be helpful in many fronts such as sensor fusion for improved accuracy using cheaper sensors and attack detection and mitigation methods using multiple signals to enhance the robustness, for example. Considering this, we present the first approach in formally establishing the key relationships between ECG and PPG signals. We combine formal run-time monitoring with statistical analysis and regression analysis for our results.
翻訳日:2022-02-06 08:59:13 公開日:2022-01-20
# (参考訳) 自然言語による規範の学習 [全文訳有]

Learning Norms via Natural Language Teachings ( http://arxiv.org/abs/2201.10556v1 )

ライセンス: CC BY 4.0
Taylor Olson and Ken Forbus(参考訳) 人間と対話するには、人工知能(AI)システムは私たちの社会世界を理解する必要がある。 この世界の規範は、エージェントのモチベーションと誘導において重要な役割を果たす。 しかし、社会規範を学ぶための計算理論はほとんど提案されていない。 また、通常のもの(イ)と規範的なもの(イ)の区別については長い歴史がある。 多くの人は、すべての社会的エージェントに対して、概念の両方を学習し、その違いを認識する能力が必要であると論じている。 本稿では,通常と規範の両方を考慮に入れた自然言語テキストからノルムを学習するための計算手法を紹介し,実証する。 日々の人々が社会規範についてAIシステムを訓練する基盤を提供する。

To interact with humans, artificial intelligence (AI) systems must understand our social world. Within this world norms play an important role in motivating and guiding agents. However, very few computational theories for learning social norms have been proposed. There also exists a long history of debate on the distinction between what is normal (is) and what is normative (ought). Many have argued that being capable of learning both concepts and recognizing the difference is necessary for all social agents. This paper introduces and demonstrates a computational approach to learning norms from natural language text that accounts for both what is normal and what is normative. It provides a foundation for everyday people to train AI systems about social norms.
翻訳日:2022-01-30 12:09:43 公開日:2022-01-20
# (参考訳) 言語間密検索モデル構築のためのトランスファー学習手法 [全文訳有]

Transfer Learning Approaches for Building Cross-Language Dense Retrieval Models ( http://arxiv.org/abs/2201.08471v1 )

ライセンス: CC BY-SA 4.0
Suraj Nair, Eugene Yang, Dawn Lawrie, Kevin Duh, Paul McNamee, Kenton Murray, James Mayfield, Douglas W. Oard(参考訳) BERTのようなトランスフォーマーベースのモデルの出現は、ニューラルランキングモデルの台頭につながった。 これらのモデルにより, bm25のような語彙項マッチングモデルよりも, 検索システムの有効性が向上した。 モノリンガル検索タスクは、MS MARCOのような大規模トレーニングコレクションやニューラルアーキテクチャの進歩の恩恵を受けているが、言語横断検索タスクはこれらの進歩に遅れを取っている。 本稿では、XLM-RoBERTa(XLM-R)エンコーダを用いて、言語間情報検索(CLIR)をサポートするColBERT-Xについて述べる。 ColBERT-Xは2つの方法で訓練できる。 ゼロショットトレーニングでは、このシステムはxlm-rエンコーダを言語間マッピングに依存して、英語のms marcoコレクションでトレーニングされる。 翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。 いくつかの言語におけるアドホック文書ランキングタスクの結果は、従来のCLIRベースラインよりも、これらの訓練された高密度検索モデルの実質的かつ統計的に有意な改善を示している。

The advent of transformer-based models such as BERT has led to the rise of neural ranking models. These models have improved the effectiveness of retrieval systems well beyond that of lexical term matching models such as BM25. While monolingual retrieval tasks have benefited from large-scale training collections such as MS MARCO and advances in neural architectures, cross-language retrieval tasks have fallen behind these advancements. This paper introduces ColBERT-X, a generalization of the ColBERT multi-representation dense retrieval model that uses the XLM-RoBERTa (XLM-R) encoder to support cross-language information retrieval (CLIR). ColBERT-X can be trained in two ways. In zero-shot training, the system is trained on the English MS MARCO collection, relying on the XLM-R encoder for cross-language mappings. In translate-train, the system is trained on the MS MARCO English queries coupled with machine translations of the associated MS MARCO passages. Results on ad hoc document ranking tasks in several languages demonstrate substantial and statistically significant improvements of these trained dense retrieval models over traditional lexical CLIR baselines.
翻訳日:2022-01-30 11:50:03 公開日:2022-01-20
# (参考訳) リグレッシブな施設位置に基づくセンシングによる高密度空気質マップ [全文訳有]

Dense Air Quality Maps Using Regressive Facility Location Based Drive By Sensing ( http://arxiv.org/abs/2201.09739v1 )

ライセンス: CC BY 4.0
Charul Paliwal, Pravesh Biyani(参考訳) 現在、固定静的センシングは、都市における空気の質などの環境データを監視する主要な方法である。 しかし、密集した空間的カバレッジを得るためには、多数の静的モニターが必要であるため、コストのかかるオプションとなる。 センシングパラダイムとして知られる移動車に配置することで、少数の静的センサーを用いて高密度時空間カバレッジを実現することができる。 気質データに存在する冗長性は、スパースサンプリングデータを処理して、マトリックス補完技術を用いて残りの未観測データポイントをインプットすることにより利用することができる。 しかし, 運動センサが空気質マトリックスの固有構造を捉える程度は, 計算精度に左右される。 そのため、空間と時間に代表的サンプリングを行う経路(車両を使用する)を選択することが課題である。 車両のサブセット選択に関する文献のほとんどが、有効なサンプリング戦略ではない異なる場所やタイムスタンプのサンプル数を最大化することで、時空間のカバレッジを最大化することに焦点を当てている。 本研究では, 効率的な時空間サンプリングのための最適な車両群を選択しつつ, 隣接する場所の滑らかさと自己回帰時間相関を組み込んだ効率的な車両選択フレームワークである, センサによる回帰施設位置ベースドライブを提案する。 提案手法では,問題をセンシングするドライブはサブモジュラーであり,欲望のあるアルゴリズムに自らを貸与するが,性能は保証されることを示す。 我々は,インドのデリーの公共交通機関群からサブセットを選択するための枠組みを評価する。 提案手法は,提案手法のベースライン法に対する代表時空間データをサンプリングし,シミュレートされた空気品質データに対する外挿誤差を低減させる。 したがって,本手法は,高濃度空気質マップの費用対効果をもたらす可能性がある。

Currently, fixed static sensing is a primary way to monitor environmental data like air quality in cities. However, to obtain a dense spatial coverage, a large number of static monitors are required, thereby making it a costly option. Dense spatiotemporal coverage can be achieved using only a fraction of static sensors by deploying them on the moving vehicles, known as the drive by sensing paradigm. The redundancy present in the air quality data can be exploited by processing the sparsely sampled data to impute the remaining unobserved data points using the matrix completion techniques. However, the accuracy of imputation is dependent on the extent to which the moving sensors capture the inherent structure of the air quality matrix. Therefore, the challenge is to pick those set of paths (using vehicles) that perform representative sampling in space and time. Most works in the literature for vehicle subset selection focus on maximizing the spatiotemporal coverage by maximizing the number of samples for different locations and time stamps which is not an effective representative sampling strategy. We present regressive facility location-based drive by sensing, an efficient vehicle selection framework that incorporates the smoothness in neighboring locations and autoregressive time correlation while selecting the optimal set of vehicles for effective spatiotemporal sampling. We show that the proposed drive by sensing problem is submodular, thereby lending itself to a greedy algorithm but with performance guarantees. We evaluate our framework on selecting a subset from the fleet of public transport in Delhi, India. We illustrate that the proposed method samples the representative spatiotemporal data against the baseline methods, reducing the extrapolation error on the simulated air quality data. Our method, therefore, has the potential to provide cost effective dense air quality maps.
翻訳日:2022-01-29 11:52:43 公開日:2022-01-20
# (参考訳) レンズマシン:潜在変数モデルにおける視点表現 [全文訳有]

Lensing Machines: Representing Perspective in Latent Variable Models ( http://arxiv.org/abs/2201.08848v1 )

ライセンス: CC BY 4.0
Karthik Dinakar and Henry Lieberman(参考訳) 多くのデータセットは、異なる一般化につながる同じデータを見る異なる方法の組み合わせを表している。 例えば、異なる人々によって生成された例を持つコーパスは、多くの視点の混合であり、別の視点で見ることができる。 それぞれの視点を表す例を事前にクリーンに分離し、それぞれの視点について別々のモデルを訓練することで、常に視点を表現することはできない。 我々は,人間の専門家の視点と機械学習表現のレンズやマッピングを抽出し,同じデータセットの複数の視点を持つレンズモデルを生成するための混合イニシアティブであるlensingを紹介する。 潜在変数モデルの2つのクラスにレンズを適用する: 混合メンバーシップモデル, 2つのメンタルヘルス応用の文脈におけるマトリックス因子化モデル, 臨床心理学者の視点を捉え, 模倣する。 私たちの研究は、機械学習の実践者が、知識に富んだドメインエキスパートの視点をモデルに正式に組み込むというメリットを示しています。

Many datasets represent a combination of different ways of looking at the same data that lead to different generalizations. For example, a corpus with examples generated by different people may be mixtures of many perspectives and can be viewed with different perspectives by others. It isnt always possible to represent the viewpoints by a clean separation, in advance, of examples representing each viewpoint and train a separate model for each viewpoint. We introduce lensing, a mixed initiative technique to extract lenses or mappings between machine learned representations and perspectives of human experts, and to generate lensed models that afford multiple perspectives of the same dataset. We apply lensing for two classes of latent variable models: a mixed membership model, a matrix factorization model in the context of two mental health applications, and we capture and imbue the perspectives of clinical psychologists into these models. Our work shows the benefits of the machine learning practitioner formally incorporating the perspective of a knowledgeable domain expert into their models rather than estimating unlensed models themselves in isolation.
翻訳日:2022-01-29 11:34:29 公開日:2022-01-20
# (参考訳) RamanNet: Raman Spectrum Analysisのための汎用ニューラルネットワークアーキテクチャ [全文訳有]

RamanNet: A generalized neural network architecture for Raman Spectrum Analysis ( http://arxiv.org/abs/2201.09737v1 )

ライセンス: CC BY 4.0
Nabil Ibtehaz, Muhammad E. H. Chowdhury, Amith Khandakar, Susu M. Zughaier, Serkan Kiranyaz, M. Sohel Rahman(参考訳) ラマン分光法は分子の振動プロファイルを提供するため、異なる種類の物質を一意に識別することができる。 この種のフィンガープリント分子は、医学の発掘学、法医学、鉱物学、細菌学、ウイルス学など様々な分野でラマンスペクトルを広く応用した。 近年のラマンスペクトルデータ量の増加にもかかわらず、ラマンスペクトル解析のための一般化された機械学習手法の開発には大きな努力が払われていない。 従来の逐次モデルも従来の機械学習モデルも、ラマンスペクトルの解析に十分ではないことを検証し、実験し、評価する。 両者とも欠点と落とし穴があるため、私たちは両方の世界のベストを混ぜ合わせ、新しいネットワークアーキテクチャであるramannetを提案します。 RamanNetはCNNの不変性に免疫を持ち、同時にスパース接続を含む従来の機械学習モデルよりも優れている。 4つの公開データセットに関する実験は、非常に複雑な最先端手法よりも優れた性能を示しており、RamanNetはラマンスペクトルデータ解析におけるデファクト標準となる可能性を持っている。

Raman spectroscopy provides a vibrational profile of the molecules and thus can be used to uniquely identify different kind of materials. This sort of fingerprinting molecules has thus led to widespread application of Raman spectrum in various fields like medical dignostics, forensics, mineralogy, bacteriology and virology etc. Despite the recent rise in Raman spectra data volume, there has not been any significant effort in developing generalized machine learning methods for Raman spectra analysis. We examine, experiment and evaluate existing methods and conjecture that neither current sequential models nor traditional machine learning models are satisfactorily sufficient to analyze Raman spectra. Both has their perks and pitfalls, therefore we attempt to mix the best of both worlds and propose a novel network architecture RamanNet. RamanNet is immune to invariance property in CNN and at the same time better than traditional machine learning models for the inclusion of sparse connectivity. Our experiments on 4 public datasets demonstrate superior performance over the much complex state-of-the-art methods and thus RamanNet has the potential to become the defacto standard in Raman spectra data analysis
翻訳日:2022-01-29 11:23:01 公開日:2022-01-20
# EU-AIMS経時的欧州自閉症プロジェクトにおける複雑・過渡型データセットのデータ計算戦略の評価

Evaluation of data imputation strategies in complex, deeply-phenotyped data sets: the case of the EU-AIMS Longitudinal European Autism Project ( http://arxiv.org/abs/2201.09753v1 )

ライセンス: Link先を確認
A. Llera, M. Brammer, B. Oakley, J. Tillmann, M. Zabihi, T. Mei, T. Charman, C. Ecker, F. Dell Acqua, T. Banaschewski, C. Moessnang, S. Baron-Cohen, R. Holt, S. Durston, D. Murphy, E. Loth, J. K. Buitelaar, D. L. Floris, and C. F. Beckmann(参考訳) 一般的に発達している人口や精神科コホートにおいて、大規模なマルチモーダル研究イニシアチブが増えている。 このようなデータセットでは、多数の参加者に対して複数の尺度を評価することが困難であるため、データの欠如は一般的な問題である。 研究者が複数の尺度の関係を探究する際、データ不足の結果が蓄積される。 ここでは,EU-AIMS長期欧州自閉症プロジェクト(LEAP)コンソーシアムの一環として,N=453の自閉症者およびN=311のコントロール者を対象に,大きな(全N=764)臨床データから欠落した値を補うためのさまざまな計算方法を評価することを目的とする。 特に, 参加者の重なり合う15のサブセットに160の臨床試験を分けて検討した。 線形モデル,ベイジアンリッジ回帰(Bayesian Ridge regression)を含む4つの独立多変量回帰モデルと,決定木(Decision Trees),外部木(Extra Trees),K-Neighbours回帰(K-Neighbours regression)を含む非線形モデルを含む。 従来の平均二乗誤差を用いたデータ除去モデルの評価を行い, 観測分布と推定分布のkl偏差を考察した。 テストされた多変量アプローチはすべて,一般的な不定値アプローチと比較して相当な改善が得られている。 さらに, 分析の結果, 試験対象とする15個のデータ集合に対して, 木を回帰する手法が最適であることがわかった。 これにより、ユニークなモデルを選択することで、LEAPプロジェクトの欠落したデータをインプットし、将来LEAPデータセットを扱う研究者が使用する、固定されたインプットされた臨床データを提供することができる。

An increasing number of large-scale multi-modal research initiatives has been conducted in the typically developing population, as well as in psychiatric cohorts. Missing data is a common problem in such datasets due to the difficulty of assessing multiple measures on a large number of participants. The consequences of missing data accumulate when researchers aim to explore relationships between multiple measures. Here we aim to evaluate different imputation strategies to fill in missing values in clinical data from a large (total N=764) and deeply characterised (i.e. range of clinical and cognitive instruments administered) sample of N=453 autistic individuals and N=311 control individuals recruited as part of the EU-AIMS Longitudinal European Autism Project (LEAP) consortium. In particular we consider a total of 160 clinical measures divided in 15 overlapping subsets of participants. We use two simple but common univariate strategies, mean and median imputation, as well as a Round Robin regression approach involving four independent multivariate regression models including a linear model, Bayesian Ridge regression, as well as several non-linear models, Decision Trees, Extra Trees and K-Neighbours regression. We evaluate the models using the traditional mean square error towards removed available data, and consider in addition the KL divergence between the observed and the imputed distributions. We show that all of the multivariate approaches tested provide a substantial improvement compared to typical univariate approaches. Further, our analyses reveal that across all 15 data-subsets tested, an Extra Trees regression approach provided the best global results. This allows the selection of a unique model to impute missing data for the LEAP project and deliver a fixed set of imputed clinical data to be used by researchers working with the LEAP dataset in the future.
翻訳日:2022-01-25 17:44:38 公開日:2022-01-20
# (参考訳) ウェーブレットとフーリエ変換の相互相関を用いたマンモグラフィの特異性向上 [全文訳有]

Improving Specificity in Mammography Using Cross-correlation between Wavelet and Fourier Transform ( http://arxiv.org/abs/2201.08385v1 )

ライセンス: CC0 1.0
Liuhua Zhang(参考訳) 乳癌は女性で最も一般的な悪性腫瘍である。 新規悪性腫瘍の30%を占めた。 乳がんの発生率は世界中で高いが、死亡率は継続的に減少している。 これは主に最近の分子生物学技術の発展と包括的診断と標準治療の改善によるものである。 マンモグラフィーによる早期発見は、その不可欠な部分である。 乳がんを示唆する最も一般的な乳がんの異常は、腫瘤と石灰化である。 従来の検出アプローチは、比較的感度が高いが不十分な特異性が得られる。 本稿では,離散ウェーブレット変換とフーリエ変換を用いて画像解析を行い,平均強度や強度のゆがみといった画像の内容に特徴付ける統計的特徴を抽出する手法について検討する。 単純ベイズ分類器はこれらの特徴を用いて画像を分類する。 我々は最適な高特異性を達成することを期待する。

Breast cancer is in the most common malignant tumor in women. It accounted for 30% of new malignant tumor cases. Although the incidence of breast cancer remains high around the world, the mortality rate has been continuously reduced. This is mainly due to recent developments in molecular biology technology and improved level of comprehensive diagnosis and standard treatment. Early detection by mammography is an integral part of that. The most common breast abnormalities that may indicate breast cancer are masses and calcifications. Previous detection approaches usually obtain relatively high sensitivity but unsatisfactory specificity. We will investigate an approach that applies the discrete wavelet transform and Fourier transform to parse the images and extracts statistical features that characterize an image's content, such as the mean intensity and the skewness of the intensity. A naive Bayesian classifier uses these features to classify the images. We expect to achieve an optimal high specificity.
翻訳日:2022-01-24 23:17:02 公開日:2022-01-20
# (参考訳) ステアブルピラミッド変換によりロバストな左室定量化が可能に [全文訳有]

Steerable Pyramid Transform Enables Robust Left Ventricle Quantification ( http://arxiv.org/abs/2201.08388v1 )

ライセンス: CC BY 4.0
Xiangyang Zhu and Kede Ma and Wufeng Xue(参考訳) 畳み込みニューラルネットワーク(CNN)の多変種は心臓の指標定量化に成功しているが、空間変換、画像の歪み、敵の攻撃といった軽度の入力摂動に弱いように見える。 このような脆さは、様々な心血管疾患のcnnに基づく自動診断への信頼を損なう。 本研究では,左室(lv)定量化のロバストなcnnについて,キャビティ,心筋面積,方向寸法,局所壁厚など,簡便かつ効果的な方法を提案する。 我々のアプローチの成功の鍵は、生物学的にインスパイアされたステアブルピラミッド変換(SPT)を固定フロントエンド処理として使用することで、LV定量化に3つの計算上の利点をもたらすことである。 まず,SPTの基本機能は,LVの解剖学的構造と推定指標の幾何学的特性に一致した。 第二に、SPTはパラメータ正規化の一形態として異なる向きでCNNを共有することができ、自然な方法でLVのスケールバリエーションを明示的にキャプチャする。 第3に、残留ハイパスサブバンドを便利に廃棄して、より堅牢な特徴学習を促進することができる。 様々な入力摂動下でのロバスト性を評価するために,ロバスト性比という簡潔で効果的な指標が提案されている。 145個の心的配列に対する拡張実験により,SPT法は予測精度において最先端のアルゴリズムに対して良好に作用するが,入力摂動下では著しく堅牢であることがわかった。

Although multifarious variants of convolutional neural networks (CNNs) have proved successful in cardiac index quantification, they seem vulnerable to mild input perturbations, e.g., spatial transformations, image distortions, and adversarial attacks. Such brittleness erodes our trust in CNN-based automated diagnosis of various cardiovascular diseases. In this work, we describe a simple and effective method to learn robust CNNs for left ventricle (LV) quantification, including cavity and myocardium areas, directional dimensions, and regional wall thicknesses. The key to the success of our approach is the use of the biologically-inspire d steerable pyramid transform (SPT) as fixed front-end processing, which brings three computational advantages to LV quantification. First, the basis functions of SPT match the anatomical structure of the LV as well as the geometric characteristics of the estimated indices. Second, SPT enables sharing a CNN across different orientations as a form of parameter regularization, and explicitly captures the scale variations of the LV in a natural way. Third, the residual highpass subband can be conveniently discarded to further encourage robust feature learning. A concise and effective metric, named Robustness Ratio, is proposed to evaluate the robustness under various input perturbations. Extensive experiments on 145 cardiac sequences show that our SPT-augmented method performs favorably against state-of-the-art algorithms in terms of prediction accuracy, but is significantly more robust under input perturbations.
翻訳日:2022-01-24 23:05:27 公開日:2022-01-20
# (参考訳) スマートフォンセンサ信号を用いた身体活動認識 [全文訳有]

Physical Activity Recognition by Utilising Smartphone Sensor Signals ( http://arxiv.org/abs/2201.08688v1 )

ライセンス: CC BY 4.0
Abdulrahman Alruban, Hind Alobaidi, Nathan Clarke' Fudong Li(参考訳) ヒトの身体運動活動の同定は、医療診断、軍事センシング、スポーツ分析、人間とコンピュータのセキュリティ相互作用など、様々な分野において多くの潜在的な応用がある。 近年のスマートフォンやウェアラブル技術の進歩により、こうしたデバイスは、小さな体の動きさえ感知できる組込みモーションセンサーを持つことが一般的になっている。 本研究では,現代のスマートフォンでジャイロスコープと加速度センサによって記録された計6つの活動に対して,60人の被験者から2日間にわたる人的活動データを収集した。 本稿では,多数決アルゴリズム投票などの手法を用いて,機械学習アルゴリズムを用いて,さまざまな活動がどの程度特定できるかを検討する。 さらに分析することで、どの時間と周波数領域に基づく特徴が個人の動きのタイプを識別できるかを明らかにすることができる。 概して,提案手法は,歩行,上階歩行,下階歩行,着座の4つの異なる活動の識別において,98パーセントの識別精度を達成し,被験者が落ち着き,典型的なデスクベースの活動を行った。

Human physical motion activity identification has many potential applications in various fields, such as medical diagnosis, military sensing, sports analysis, and human-computer security interaction. With the recent advances in smartphones and wearable technologies, it has become common for such devices to have embedded motion sensors that are able to sense even small body movements. This study collected human activity data from 60 participants across two different days for a total of six activities recorded by gyroscope and accelerometer sensors in a modern smartphone. The paper investigates to what extent different activities can be identified by utilising machine learning algorithms using approaches such as majority algorithmic voting. More analyses are also provided that reveal which time and frequency domain based features were best able to identify individuals motion activity types. Overall, the proposed approach achieved a classification accuracy of 98 percent in identifying four different activities: walking, walking upstairs, walking downstairs, and sitting while the subject is calm and doing a typical desk-based activity.
翻訳日:2022-01-24 22:41:13 公開日:2022-01-20
# (参考訳) Unicorn: 因果レンズによる構成可能なシステムパフォーマンスについて [全文訳有]

Unicorn: Reasoning about Configurable System Performance through the lens of Causality ( http://arxiv.org/abs/2201.08413v1 )

ライセンス: CC BY 4.0
Md Shahriar Iqbal, Rahul Krishna, Mohammad Ali Javidian, Baishakhi Ray, Pooyan Jamshidi(参考訳) 現代のコンピュータシステムは高度に構成可能であり、時として宇宙の原子の数よりも可変性空間が大きくなる。 巨大な可変性空間のため、高度に構成可能なシステムの性能挙動の理解と推論は困難である。 予測型機械学習モデルに依拠するパフォーマンスモデリングと解析の最先端手法 (i) 目に見えない環境(例えば、異なるハードウェア、ワークロード)、そして (ii)不正確な説明をする。 そこで我々はUnicornと呼ばれる新しい手法を提案する。 a) ソフトウェア-ハードウェアスタック間の設定オプション間の複雑なインタラクションをキャプチャし、 b)このような相互作用が因果推論による性能変動に与える影響について述べる。 我々はunicornを,デバイス上の3つの機械学習システム,ビデオエンコーダ,データベース管理システム,データ分析パイプラインを含む,高度に構成可能な6つのシステムで評価した。 実験の結果、unicornは最先端のパフォーマンス最適化とデバッグメソッドよりも優れていた。 さらに,既存の手法とは異なり,学習した因果的性能モデルは,新たな環境における性能を確実に予測する。

Modern computer systems are highly configurable, with the variability space sometimes larger than the number of atoms in the universe. Understanding and reasoning about the performance behavior of highly configurable systems, due to a vast variability space, is challenging. State-of-the-art methods for performance modeling and analyses rely on predictive machine learning models, therefore, they become (i) unreliable in unseen environments (e.g., different hardware, workloads), and (ii) produce incorrect explanations. To this end, we propose a new method, called Unicorn, which (a) captures intricate interactions between configuration options across the software-hardware stack and (b) describes how such interactions impact performance variations via causal inference. We evaluated Unicorn on six highly configurable systems, including three on-device machine learning systems, a video encoder, a database management system, and a data analytics pipeline. The experimental results indicate that Unicorn outperforms state-of-the-art performance optimization and debugging methods. Furthermore, unlike the existing methods, the learned causal performance models reliably predict performance for new environments.
翻訳日:2022-01-24 22:30:43 公開日:2022-01-20
# (参考訳) AIモデル効率ツールキット(AIMET)を用いたニューラルネットワーク量子化

Neural Network Quantization with AI Model Efficiency Toolkit (AIMET) ( http://arxiv.org/abs/2201.08442v1 )

ライセンス: CC BY 4.0
Sangeetha Siddegowda, Marios Fournarakis, Markus Nagel, Tijmen Blankevoort, Chirag Patel, Abhijit Khobare(参考訳) ニューラルネットワークは多くの機械学習アプリケーションにおいてフロンティアを進歩させてきたが、しばしば計算コストが高い。 ニューラルネットワーク推論のパワーとレイテンシの削減は、厳格なパワーと計算要件を備えたエッジデバイスへの現代的なネットワーク統合に不可欠である。 ニューラルネットワークの量子化は、これらの節約を達成する最も効果的な方法の1つであるが、それが引き起こす追加ノイズは、精度の低下につながる。 本稿では,AIモデル効率ツールキット(AIMET)を用いたニューラルネットワークの量子化について概説する。 AIMETは最先端の量子化と圧縮アルゴリズムのライブラリで、モデル最適化に必要な労力を軽減し、より広範なAIエコシステムを低レイテンシとエネルギー効率の推論へと導くように設計されている。 AIMETは、PyTorchとTensorFlowモデルを最適化するだけでなく、シミュレートする機能を提供する。 特に量子化のために、AIMETは様々なポストトレーニング量子化(PTQ, cf)を含む。 章 4) と量子化アウェアトレーニング(qat, cf。 章 5) 8ビット固定点推定における浮動小数点精度を保証する技術。 PTQおよびQATワークフロー、コード例、実用的なヒントを網羅し、AIMETを用いてモデルを効率的かつ効果的に定量化し、低ビット整数推論の利点を享受できるようにする。

While neural networks have advanced the frontiers in many machine learning applications, they often come at a high computational cost. Reducing the power and latency of neural network inference is vital to integrating modern networks into edge devices with strict power and compute requirements. Neural network quantization is one of the most effective ways of achieving these savings, but the additional noise it induces can lead to accuracy degradation. In this white paper, we present an overview of neural network quantization using AI Model Efficiency Toolkit (AIMET). AIMET is a library of state-of-the-art quantization and compression algorithms designed to ease the effort required for model optimization and thus drive the broader AI ecosystem towards low latency and energy-efficient inference. AIMET provides users with the ability to simulate as well as optimize PyTorch and TensorFlow models. Specifically for quantization, AIMET includes various post-training quantization (PTQ, cf. chapter 4) and quantization-aware training (QAT, cf. chapter 5) techniques that guarantee near floating-point accuracy for 8-bit fixed-point inference. We provide a practical guide to quantization via AIMET by covering PTQ and QAT workflows, code examples and practical tips that enable users to efficiently and effectively quantize models using AIMET and reap the benefits of low-bit integer inference.
翻訳日:2022-01-24 21:50:00 公開日:2022-01-20
# (参考訳) 深層強化学習を用いた記述型ディリクレ電力割当政策 [全文訳有]

A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement Learning ( http://arxiv.org/abs/2201.08445v1 )

ライセンス: CC0 1.0
Yuan Tian, Minghao Han, Chetan Kulkarni, Olga Fink(参考訳) システムの条件に基づいて最適な操作を規定し、残りの有用な寿命を延ばすことは、複雑なシステムの可用性、メンテナンス、コストを積極的に管理する大きな可能性を秘めている。 強化学習(RL)アルゴリズムは、学習能力を考えると、この種の問題に特に適している。 規範的操作の特別な場合として、パワーアロケーションタスクがあり、これは、アクション空間が単純な制約によってバウンドされるシーケンシャルアロケーション問題とみなすことができる。 このようなシーケンシャル割り当て問題の一般的な連続的動作空間解は、rlアルゴリズムに対するオープンリサーチ問題として残されている。 連続行動空間では、強化学習に適用される標準ガウスポリシーは単純制約をサポートしないが、ガウス-ソフトマックスポリシーは訓練中にバイアスをもたらす。 本研究では,連続割り当てタスクに対するdirichletポリシーを提案し,そのバイアスとポリシー勾配のばらつきを分析した。 ディリクレポリシはバイアスフリーであり、ガウス-ソフトマックスポリシよりもはるかに高速な収束、より良い性能、より優れたハイパーパラメータロバスト性を提供する。 さらに,ディリクレの電力割当方針を提案し,複数のリチウムイオン電池システムを用いたケーススタディにおいて,提案アルゴリズムの適用性を示す。 実験結果は, 最適動作を規定する可能性を示し, 多電源電源システムの効率と持続可能性を改善した。

Prescribing optimal operation based on the condition of the system and, thereby, potentially prolonging the remaining useful lifetime has a large potential for actively managing the availability, maintenance and costs of complex systems. Reinforcement learning (RL) algorithms are particularly suitable for this type of problems given their learning capabilities. A special case of a prescriptive operation is the power allocation task, which can be considered as a sequential allocation problem, where the action space is bounded by a simplex constraint. A general continuous action-space solution of such sequential allocation problems has still remained an open research question for RL algorithms. In continuous action-space, the standard Gaussian policy applied in reinforcement learning does not support simplex constraints, while the Gaussian-softmax policy introduces a bias during training. In this work, we propose the Dirichlet policy for continuous allocation tasks and analyze the bias and variance of its policy gradients. We demonstrate that the Dirichlet policy is bias-free and provides significantly faster convergence, better performance and better hyperparameters robustness over the Gaussian-softmax policy. Moreover, we demonstrate the applicability of the proposed algorithm on a prescriptive operation case, where we propose the Dirichlet power allocation policy and evaluate the performance on a case study of a set of multiple lithium-ion (Li-I) battery systems. The experimental results show the potential to prescribe optimal operation, improve the efficiency and sustainability of multi-power source systems.
翻訳日:2022-01-24 21:48:51 公開日:2022-01-20
# (参考訳) 単語埋め込みにおける局所的負のバイアス--名前周波数のみを通して [全文訳有]

Regional Negative Bias in Word Embeddings Predicts Racial Animus--but only via Name Frequency ( http://arxiv.org/abs/2201.08451v1 )

ライセンス: CC BY 4.0
Austin van Loon, Salvatore Giorgi, Robb Willer, Johannes Eichstaedt(参考訳) 単語埋め込み関連テスト(WEAT)は,大規模テキストコーパスにおける少数民族などの社会集団に対する言語バイアスを測定する重要な方法である。 これは、グループ(例えば、これらのグループに固有の名前)と属性(例えば、"pleasant" や "unpleasant" など)の原型的な単語の意味的関連性を比較することで実現している。 都市統計のレベルでの地理的タグ付きソーシャルメディアデータからの反黒人ウィート推定は,社会デミック的共変量を制御する場合であっても,いくつかの人種的アニマス尺度と強く相関することが示された。 しかし、これらの相関関係はいずれも第3変数によって説明され、ブラックネームの頻度はホワイトネームと比較して下位のコーパスにある。 これは、単語の埋め込みが、推定された意味空間において、正の(負の)単語と頻繁な(まれな)単語をグループ化する傾向があるためである。 ソーシャルメディア上での黒人の名前の頻度は、黒人の人口の増加と強く相関しているため、黒人がほとんど住んでいない場所では、反黒人のWEAT推定が急激になる。 このことは、WEATを用いてバイアスを測定する研究は、用語の頻度を考慮すべきであり、また、単語埋め込みのようなブラックボックスモデルを用いて人間の認知と行動を研究することによる潜在的な結果を示すことを示唆している。

The word embedding association test (WEAT) is an important method for measuring linguistic biases against social groups such as ethnic minorities in large text corpora. It does so by comparing the semantic relatedness of words prototypical of the groups (e.g., names unique to those groups) and attribute words (e.g., 'pleasant' and 'unpleasant' words). We show that anti-black WEAT estimates from geo-tagged social media data at the level of metropolitan statistical areas strongly correlate with several measures of racial animus--even when controlling for sociodemographic covariates. However, we also show that every one of these correlations is explained by a third variable: the frequency of Black names in the underlying corpora relative to White names. This occurs because word embeddings tend to group positive (negative) words and frequent (rare) words together in the estimated semantic space. As the frequency of Black names on social media is strongly correlated with Black Americans' prevalence in the population, this results in spurious anti-Black WEAT estimates wherever few Black Americans live. This suggests that research using the WEAT to measure bias should consider term frequency, and also demonstrates the potential consequences of using black-box models like word embeddings to study human cognition and behavior.
翻訳日:2022-01-24 21:32:45 公開日:2022-01-20
# (参考訳) パーミッションの特徴ランキングを用いたAndroidマルウェア検出 [全文訳有]

Android Malware Detection using Feature Ranking of Permissions ( http://arxiv.org/abs/2201.08468v1 )

ライセンス: CC BY 4.0
Muhammad Suleman Saleem, Jelena Mi\v{s}i\'c, and Vojislav B. Mi\v{s}i\'c(参考訳) 我々は,androidのパーミッションを,良性アプリとマルウェアアプリを迅速かつ効果的に区別するための手段として利用することを検討する。 この目的のために、すべてのAndroidパーミッションを抽出し、影響をゼロにするパーミッションを排除し、Chi-SquareテストとFisherのExactテストという2つの機能ランキングアルゴリズムを適用してランク付けし、フィルタする。 次に、決定木、サポートベクターマシン、ランダムフォレスト分類アルゴリズムを使用してマルウェアアプリを検出する。 解析の結果,本手法は,他の手法よりも精度が高く,Fスコア値も高いことがわかった。 特に、フィッシャーの正確なテストと組み合わせてランダムフォレストを分類する場合には、99.34\%、f-scoreでは92.17\%、f-scoreでは0.56\%、精度は99.82\%、f-scoreでは95.28\%と、最も人気のある3つのマルウェアファミリーのマルウェアのみを考慮すると0.05\%となる。

We investigate the use of Android permissions as the vehicle to allow for quick and effective differentiation between benign and malware apps. To this end, we extract all Android permissions, eliminating those that have zero impact, and apply two feature ranking algorithms namely Chi-Square test and Fisher's Exact test to rank and additionally filter them, resulting in a comparatively small set of relevant permissions. Then we use Decision Tree, Support Vector Machine, and Random Forest Classifier algorithms to detect malware apps. Our analysis indicates that this approach can result in better accuracy and F-score value than other reported approaches. In particular, when random forest is used as the classifier with the combination of Fisher's Exact test, we achieve 99.34\% in accuracy and 92.17\% in F-score with the false positive rate of 0.56\% for the dataset in question, with results improving to 99.82\% in accuracy and 95.28\% in F-score with the false positive rate as low as 0.05\% when only malware from three most popular malware families are considered.
翻訳日:2022-01-24 21:22:36 公開日:2022-01-20
# (参考訳) 2クラスおよび複数攻撃シナリオにおけるバックドア攻撃の訓練後検出

Post-Training Detection of Backdoor Attacks for Two-Class and Multi-Attack Scenarios ( http://arxiv.org/abs/2201.08474v1 )

ライセンス: CC BY 4.0
Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。 被害者の分類器は、分類器のトレーニングセットを毒殺するために使用された同じバックドアパターン(bp)をテストサンプルに埋め込むと、攻撃者が望んでいたターゲットクラスに予測される。 分類器がバックドア攻撃されているかどうかを検知するのは、特にディフェンダーが、分類器のトレーニングセットにアクセスできないダウンストリームユーザである場合には、実際には簡単ではない。 この課題は、いくつかの領域で最先端のパフォーマンスをもたらすことが示されているリバースエンジニアリングディフェンス(RED)によって解決されている。 しかし、既存のREDは2つのクラスしか存在しない場合や、複数の攻撃がある場合に適用できない。 これらのシナリオは、まず現在の論文で研究され、ディフェンダーが分類器のトレーニングセットにアクセスも、同じドメインで訓練されたクリーンな参照分類器からの監督もできないという現実的な制約の下で研究されている。 本稿では,BPリバースエンジニアリングに基づく検出フレームワークと,新しい予測転送可能性 (ET) 統計量を提案する。 ET統計は, 分類領域, 攻撃構成, BPリバースエンジニアリングアルゴリズムによらず, 同一検出しきい値を用いて有効であることを示す。 提案手法の優れた性能を6つのベンチマークデータセットで実証した。 特に、検出フレームワークは複数の攻撃を伴うマルチクラスシナリオにも適用できます。

Backdoor attacks (BAs) are an emerging threat to deep neural network classifiers. A victim classifier will predict to an attacker-desired target class whenever a test sample is embedded with the same backdoor pattern (BP) that was used to poison the classifier's training set. Detecting whether a classifier is backdoor attacked is not easy in practice, especially when the defender is, e.g., a downstream user without access to the classifier's training set. This challenge is addressed here by a reverse-engineering defense (RED), which has been shown to yield state-of-the-art performance in several domains. However, existing REDs are not applicable when there are only {\it two classes} or when {\it multiple attacks} are present. These scenarios are first studied in the current paper, under the practical constraints that the defender neither has access to the classifier's training set nor to supervision from clean reference classifiers trained for the same domain. We propose a detection framework based on BP reverse-engineering and a novel {\it expected transferability} (ET) statistic. We show that our ET statistic is effective {\it using the same detection threshold}, irrespective of the classification domain, the attack configuration, and the BP reverse-engineering algorithm that is used. The excellent performance of our method is demonstrated on six benchmark datasets. Notably, our detection framework is also applicable to multi-class scenarios with multiple attacks.
翻訳日:2022-01-24 21:06:01 公開日:2022-01-20
# (参考訳) コミュニティラベリングにおけるファクトリゼーションに基づくグラフ埋め込み手法の古典的グラフ構造 [全文訳有]

Classic Graph Structural Features Outperform Factorization-Based Graph Embedding Methods on Community Labeling ( http://arxiv.org/abs/2201.08481v1 )

ライセンス: CC BY 4.0
Andrew Stolman and Caleb Levy and C. Seshadhri and Aneesh Sharma(参考訳) グラフ表現学習(グラフ埋め込みとも呼ばれる)は、ネットワーク構造を機械学習モデルに組み込む一般的な手法である。 教師なしグラフ埋め込み手法は、各ノードの低次元ベクトル表現(埋め込み)を学習することでグラフ構造をキャプチャすることを目的としている。 これらの埋め込みは、様々なダウンストリームトランスダクティブ機械学習タスクに広く使われているが、一般的なタスクに対するこのアプローチの有効性の原則的な分析はほとんどない。 本研究では,2つのコミュニティラベリングの共通課題に対する埋め込みのクラスの性能について,実証的および理論的解析を行った。 これは、一対の頂点がコミュニティに参加するかどうかを判断する分類器を構築しようとする古典的なコミュニティ検出問題のバイナリ変種である。 基礎的理解の目的に合わせて、頂点近接行列の低階分解を学習する教師なし埋め込み技術(このクラスはGraRep、DeepWalk、node2vec、NetMFのようなメソッドを含む)の一般的なクラスに焦点を当てる。 我々は,様々な実数グラフと合成グラフを用いたコミュニティラベリングの詳細な実験分析を行った。 あらゆるケースで、埋め込み機能から訓練されたモデルは、コミュニティのラベル付けにはあまり役立ちません。 constrastでは、古典的なグラフ構造を持つ単純なロジスティックモデルが埋め込みモデルよりも巧みに優れている。 より原理的な理解のために、我々はこれらの埋め込みがコミュニティ構造を捉える上で有効であることを示す理論的分析を提供する。 一般の低次元因数分解法は,コミュニティ構造を生成できないか,あるいは「不安定」なコミュニティしか生成できないことを正式に証明する。 これらのコミュニティは、小さな摂動下で本質的に不安定である。

Graph representation learning (also called graph embeddings) is a popular technique for incorporating network structure into machine learning models. Unsupervised graph embedding methods aim to capture graph structure by learning a low-dimensional vector representation (the embedding) for each node. Despite the widespread use of these embeddings for a variety of downstream transductive machine learning tasks, there is little principled analysis of the effectiveness of this approach for common tasks. In this work, we provide an empirical and theoretical analysis for the performance of a class of embeddings on the common task of pairwise community labeling. This is a binary variant of the classic community detection problem, which seeks to build a classifier to determine whether a pair of vertices participate in a community. In line with our goal of foundational understanding, we focus on a popular class of unsupervised embedding techniques that learn low rank factorizations of a vertex proximity matrix (this class includes methods like GraRep, DeepWalk, node2vec, NetMF). We perform detailed empirical analysis for community labeling over a variety of real and synthetic graphs with ground truth. In all cases we studied, the models trained from embedding features perform poorly on community labeling. In constrast, a simple logistic model with classic graph structural features handily outperforms the embedding models. For a more principled understanding, we provide a theoretical analysis for the (in)effectiveness of these embeddings in capturing the community structure. We formally prove that popular low-dimensional factorization methods either cannot produce community structure, or can only produce ``unstable" communities. These communities are inherently unstable under small perturbations.
翻訳日:2022-01-24 21:04:51 公開日:2022-01-20
# 低入力波形:逆例によるスペクトル波形変調の認識を防止する

Low-Interception Waveform: To Prevent the Recognition of Spectrum Waveform Modulation via Adversarial Examples ( http://arxiv.org/abs/2201.08731v1 )

ライセンス: Link先を確認
Haidong Xie, Jia Tan, Xiaoying Zhang, Nan Ji, Haihua Liao, Zuguo Yu, Xueshuang Xiang, Naijin Liu(参考訳) 深層学習は、その利便性と効率性から、スペクトル波形の変調認識など、無線通信の分野における多くの複雑なタスクに適用される。 これにより、送信波形の変調形式を容易に認識する深層学習モデルを用いた悪意のある第三者が問題となる。 既存の作品の中には、物理的世界の波形伝達の特性を十分に考慮せずに、画像領域における逆例の概念を直接使用してこの問題に対処しているものもある。 そこで,親しい相手の信頼できるコミュニケーションに影響を与えることなく,第三者が認識している変調の確率を低減できる低入力波形〜(liw)生成法を提案する。 このliwは,物理ハードウェア実験においてもかなりの低入力性能を示し,小さな摂動を伴い,アートモデルの精度を約15-%$に低下させた。

Deep learning is applied to many complex tasks in the field of wireless communication, such as modulation recognition of spectrum waveforms, because of its convenience and efficiency. This leads to the problem of a malicious third party using a deep learning model to easily recognize the modulation format of the transmitted waveform. Some existing works address this problem directly using the concept of adversarial examples in the image domain without fully considering the characteristics of the waveform transmission in the physical world. Therefore, we propose a low-intercept waveform~(LIW) generation method that can reduce the probability of the modulation being recognized by a third party without affecting the reliable communication of the friendly party. Our LIW exhibits significant low-interception performance even in the physical hardware experiment, decreasing the accuracy of the state of the art model to approximately $15\%$ with small perturbations.
翻訳日:2022-01-24 15:04:53 公開日:2022-01-20
# VUDENC: Pythonの自然なコードベース上でのディープラーニングによる脆弱性検出

VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase for Python ( http://arxiv.org/abs/2201.08441v1 )

ライセンス: Link先を確認
Laura Wartschinski, Yannic Noller, Thomas Vogel, Timo Kehrer, Lars Grunske(参考訳) コンテキスト:潜在的な脆弱なコードを特定することは、ソフトウェアシステムのセキュリティを改善する上で重要です。 しかし、ソフトウェアの脆弱性を手動で検出するには専門家の知識が必要であり、時間を要する。 目的:このような自動化された脆弱性検出技術は、高い精度を達成し、開発者が脆弱なコードフラグメントに直接指示し、現実世界のソフトウェアにスケールし、特定のソフトウェアプロジェクトの境界をまたいで一般化し、設定や設定を適度に必要としない。 提案するVUDENC(Vulnerability Detection with Deep Learning on a Natural Codebase)は,大規模かつ現実的なPythonコードベースから脆弱性コードの特徴を自動的に学習する,ディープラーニングベースの脆弱性検出ツールである。 VUDENCは、意味的に類似したコードトークンを識別し、ベクトル表現を提供するために word2vec モデルを適用している。 長期メモリセル(LSTM)のネットワークを使用して、脆弱なコードトークンシーケンスをきめ細かなレベルで分類し、脆弱性を含む可能性のあるソースコードの特定領域を強調し、その予測に信頼性レベルを提供する。 結果: vudencを評価するために,7種類の脆弱性(sqlインジェクション,xss,コマンドインジェクション,xsrf,リモートコード実行,パス公開,オープンリダイレクト)を含む,さまざまなgithubリポジトリからの1,009の脆弱性フィックスコミットをトレーニングに使用しました。 実験評価では、vudencは78%-87%、精度は82%-96%、f1スコアは80%-90%であった。 vudencのコード、脆弱性のデータセット、およびword2vecモデルのpythonコーパスは、再現のために利用可能である。 結論: 我々の実験結果は...

Context: Identifying potential vulnerable code is important to improve the security of our software systems. However, the manual detection of software vulnerabilities requires expert knowledge and is time-consuming, and must be supported by automated techniques. Objective: Such automated vulnerability detection techniques should achieve a high accuracy, point developers directly to the vulnerable code fragments, scale to real-world software, generalize across the boundaries of a specific software project, and require no or only moderate setup or configuration effort. Method: In this article, we present VUDENC (Vulnerability Detection with Deep Learning on a Natural Codebase), a deep learning-based vulnerability detection tool that automatically learns features of vulnerable code from a large and real-world Python codebase. VUDENC applies a word2vec model to identify semantically similar code tokens and to provide a vector representation. A network of long-short-term memory cells (LSTM) is then used to classify vulnerable code token sequences at a fine-grained level, highlight the specific areas in the source code that are likely to contain vulnerabilities, and provide confidence levels for its predictions. Results: To evaluate VUDENC, we used 1,009 vulnerability-fixing commits from different GitHub repositories that contain seven different types of vulnerabilities (SQL injection, XSS, Command injection, XSRF, Remote code execution, Path disclosure, Open redirect) for training. In the experimental evaluation, VUDENC achieves a recall of 78%-87%, a precision of 82%-96%, and an F1 score of 80%-90%. VUDENC's code, the datasets for the vulnerabilities, and the Python corpus for the word2vec model are available for reproduction. Conclusions: Our experimental results suggest...
翻訳日:2022-01-24 15:02:43 公開日:2022-01-20
# エチオピアのチャント・アズマリス・現代音楽におけるキニト分類 : 新しいデータセットとCNNベンチマーク

Kinit Classification in Ethiopian Chants, Azmaris and Modern Music: A New Dataset and CNN Benchmark ( http://arxiv.org/abs/2201.08448v1 )

ライセンス: Link先を確認
Ephrem A. Retta, Richard Sutcliffe, Eiad Almekhlafi, Yosef K. Enku, Eyob Alemu, Tigist D. Gemechu, Michael A. Berwo, Mustafa Mhamed, Jun Feng(参考訳) 本稿では,エチオピア音楽のための最初の音楽情報検索データセットであるEMIRを作成する。 emirは研究目的で無料で入手でき、正統派テワヘド聖歌、伝統的なアズマリ歌、現代エチオピアの世俗音楽の600曲のサンプル録音がある。 各サンプルは5人の専門家の裁判官によってティジタ、バティ、アンバッセル、アンチホエの4つの有名なキニトのうちの1つに分類される。 それぞれのKinitは独自のペンタトニックスケールを使用し、独自のスタイル特性を持つ。 したがって、キニット分類はスケール識別とジャンル認識を組み合わせる必要がある。 データセットを記述した後、EMIRクリップを分類するためのVGGに基づくEthio Kinits Model(EKM)を提案する。 実験1では,Filterbank,Mel-spec trogram,Chroma,Mel- frequency Cepstral coefficient (MFCC) がキニット分類に最適であるかどうかを検討した。 MFCCは優れており、実験2ではMFCCを用いたEKMモデルの性能を3つの異なるサンプル長を用いて比較した。 3sは最高の結果を得た。 実験3では、EKMと既存の4つのモデルをEMIRデータセット(AlexNet、ResNet50、VGG16、LSTM)で比較した。 EKMは最高の精度(95.00%)と最速の訓練時間を持つことが判明した。 この研究によって、エチオピア音楽の探索や、キニット分類のための他のモデルの実験が促進されることを願っている。

In this paper, we create EMIR, the first-ever Music Information Retrieval dataset for Ethiopian music. EMIR is freely available for research purposes and contains 600 sample recordings of Orthodox Tewahedo chants, traditional Azmari songs and contemporary Ethiopian secular music. Each sample is classified by five expert judges into one of four well-known Ethiopian Kinits, Tizita, Bati, Ambassel and Anchihoye. Each Kinit uses its own pentatonic scale and also has its own stylistic characteristics. Thus, Kinit classification needs to combine scale identification with genre recognition. After describing the dataset, we present the Ethio Kinits Model (EKM), based on VGG, for classifying the EMIR clips. In Experiment 1, we investigated whether Filterbank, Mel-spectrogram, Chroma, or Mel-frequency Cepstral coefficient (MFCC) features work best for Kinit classification using EKM. MFCC was found to be superior and was therefore adopted for Experiment 2, where the performance of EKM models using MFCC was compared using three different audio sample lengths. 3s length gave the best results. In Experiment 3, EKM and four existing models were compared on the EMIR dataset: AlexNet, ResNet50, VGG16 and LSTM. EKM was found to have the best accuracy (95.00%) as well as the fastest training time. We hope this work will encourage others to explore Ethiopian music and to experiment with other models for Kinit classification.
翻訳日:2022-01-24 15:01:09 公開日:2022-01-20
# RoboMal:ロボットネットワークシステムのマルウェア検出

RoboMal: Malware Detection for Robot Network Systems ( http://arxiv.org/abs/2201.08470v1 )

ライセンス: Link先を確認
Upinder Kaur, Haozhe Zhou, Xiaxin Shen, Byung-Cheol Min, Richard M. Voyles(参考訳) ロボットシステムは現代生活の多くの道に統合されつつある。 掃除から、ガイダンスや感情的な支援まで、ロボットは人間と直接仕事をする。 広範囲のアプリケーションと、徐々に複雑化するアーキテクチャのため、センサー・アクチュエーター攻撃、データ偽造、マルウェア、ネットワーク侵入といった敵攻撃の対象となっている。 そのため、ロボットシステムのセキュリティが重要になっている。 本稿では,ロボットソフトウェアにおけるマルウェア検出の不足領域について述べる。 ロボットは人間に近く、しばしば直接相互作用するので、マルウェアは命の危険をもたらす可能性がある。 そこで本稿では,バイナリ実行ファイル上で静的なマルウェア検出を行うRoboMalフレームワークを提案する。 さらに,小型の自律走行車の制御機能を備えたRoboMalデータセットを提供することで,この空間におけるデータのあいまいさに対処する。 フレームワークの性能は、GRU、CNN、ANNといった広く使われている教師付き学習モデルと比較される。 特にlstmベースのrobomalモデルは、10倍のクロスバリデーションにおいて85%の精度と87%の精度で他のモデルを上回るため、提案されたフレームワークの有効性が証明された。

Robot systems are increasingly integrating into numerous avenues of modern life. From cleaning houses to providing guidance and emotional support, robots now work directly with humans. Due to their far-reaching applications and progressively complex architecture, they are being targeted by adversarial attacks such as sensor-actuator attacks, data spoofing, malware, and network intrusion. Therefore, security for robotic systems has become crucial. In this paper, we address the underserved area of malware detection in robotic software. Since robots work in close proximity to humans, often with direct interactions, malware could have life-threatening impacts. Hence, we propose the RoboMal framework of static malware detection on binary executables to detect malware before it gets a chance to execute. Additionally, we address the great paucity of data in this space by providing the RoboMal dataset comprising controller executables of a small-scale autonomous car. The performance of the framework is compared against widely used supervised learning models: GRU, CNN, and ANN. Notably, the LSTM-based RoboMal model outperforms the other models with an accuracy of 85% and precision of 87% in 10-fold cross-validation, hence proving the effectiveness of the proposed framework.
翻訳日:2022-01-24 15:00:42 公開日:2022-01-20
# スパースベイズ学習を用いたチャネル推定のための適応深み付きddpg駆動ディープアンフォールディング

DDPG-Driven Deep-Unfolding with Adaptive Depth for Channel Estimation with Sparse Bayesian Learning ( http://arxiv.org/abs/2201.08477v1 )

ライセンス: Link先を確認
Qiyu Hu, Shuhan Shi, Yunlong Cai and Guanding Yu(参考訳) ディープ・アンフォールディング・ニューラルネット(NN)は、比較的低い複雑さで良好な性能を達成したため、大きな注目を集めている。 通常、これらのディープアンフォールディングNNは全ての入力に対して固定深度に制限される。 しかし、収束に必要な層の数は異なる入力で変化する。 本稿では,まず,異なる入力に対して適応的な奥行きを持つ,ddpg(deep deterministic policy gradient)駆動のディープアンフォールディングの枠組みを考案し,確率的勾配降下アルゴリズムによって直接更新されるのではなく,ddpgで学習可能なnnの学習パラメータを学習する。 具体的には、ddpgの状態、動作、状態遷移として、最適化変数、トレーニング可能なパラメータ、およびディープアンフォールディングnnのアーキテクチャをそれぞれ設計する。 次に,多入力多重出力システムにおけるチャネル推定問題に対処するために,このフレームワークを用いる。 具体的には、まず、オフグリッドベースでチャネル推定問題を定式化し、スパースベイズ学習(SBL)に基づくアルゴリズムを開発し、それを解く。 第二に、SBLベースのアルゴリズムは、導入可能なトレーニング可能なパラメータのセットを持つ階層構造に展開される。 第3に、SBLアルゴリズムの展開構造に基づいて、提案したDDPG駆動のディープアンフォールディングフレームワークを用いて、このチャネル推定問題を解く。 適応的な深さを実現するために,チャネル再構成誤差の関数である停止時間を示す停止スコアを設計する。 さらに,提案手法を拡張し,一般深層ニューラルネットワーク(dnn)の適応的深さを実現する。 シミュレーションの結果,提案アルゴリズムは従来の最適化アルゴリズムやDNNよりも高い性能を示し,層数を大幅に削減した。

Deep-unfolding neural networks (NNs) have received great attention since they achieve satisfactory performance with relatively low complexity. Typically, these deep-unfolding NNs are restricted to a fixed-depth for all inputs. However, the optimal number of layers required for convergence changes with different inputs. In this paper, we first develop a framework of deep deterministic policy gradient (DDPG)-driven deep-unfolding with adaptive depth for different inputs, where the trainable parameters of deep-unfolding NN are learned by DDPG, rather than updated by the stochastic gradient descent algorithm directly. Specifically, the optimization variables, trainable parameters, and architecture of deep-unfolding NN are designed as the state, action, and state transition of DDPG, respectively. Then, this framework is employed to deal with the channel estimation problem in massive multiple-input multiple-output systems. Specifically, first of all we formulate the channel estimation problem with an off-grid basis and develop a sparse Bayesian learning (SBL)-based algorithm to solve it. Secondly, the SBL-based algorithm is unfolded into a layer-wise structure with a set of introduced trainable parameters. Thirdly, the proposed DDPG-driven deep-unfolding framework is employed to solve this channel estimation problem based on the unfolded structure of the SBL-based algorithm. To realize adaptive depth, we design the halting score to indicate when to stop, which is a function of the channel reconstruction error. Furthermore, the proposed framework is extended to realize the adaptive depth of the general deep neural networks (DNNs). Simulation results show that the proposed algorithm outperforms the conventional optimization algorithms and DNNs with fixed depth with much reduced number of layers.
翻訳日:2022-01-24 15:00:23 公開日:2022-01-20
# マルチバンド光曲線の深い注意に基づく超新星分類

Deep Attention-Based Supernovae Classification of Multi-Band Light-Curves ( http://arxiv.org/abs/2201.08482v1 )

ライセンス: Link先を確認
\'Oscar Pimentel, Pablo A. Est\'evez, Francisco F\"orster(参考訳) ZTF (Zwicky Transient Facility) のような天文学的な調査では、超新星 (Supernovae, SNe) は変動事象の他のクラスと比べて比較的珍しい天体である。 この不足に加えて、多バンド光カーブの処理は、非常に不規則なケイデンス、長い時間的ギャップ、欠落値、観測回数の少なさなど、困難な課題である。 これらの問題はSNのような光曲線を持つ過渡事象の分析に特に有害である。 この作業では、主な貢献が3つあります。 まず、時間変調とアテンション機構に基づいて、異なるSNタイプのマルチバンド光曲線を分類し、光度や手作りの特徴計算、不足値の仮定、明示的な計算と補間法を避けるための、TimeModAttnと呼ばれるDeep Attentionモデルを提案する。 次に,超新星パラメトリックモデル(SPM)に基づくSNマルチバンド光曲線の合成生成モデルを提案する。 これにより、サンプルの数とケイデンスの多様性を増やすことができます。 TimeModAttnモデルは、半教師付き学習方式で合成光曲線を用いて事前訓練される。 そして、ドメイン適応のための微調整処理を行う。 提案されたTimeModAttnモデルはランダムフォレスト分類器よりも優れ、バランスの取れた$F_1$scoreを$\approx.525$から$\approx.596$に引き上げた。 TimeModAttnモデルは、リカレントニューラルネットワーク(RNN)に基づく他のディープラーニングモデルよりも、後期分類と早期分類の2つのシナリオでパフォーマンスが向上した。 最後に,解釈可能性実験を行う。 SN輝度ピークに近づいた観測では、早期かつ高度に表現力のある時間変調が支持されるため、高い注意スコアが得られた。

In astronomical surveys, such as the Zwicky Transient Facility (ZTF), supernovae (SNe) are relatively uncommon objects compared to other classes of variable events. Along with this scarcity, the processing of multi-band light-curves is a challenging task due to the highly irregular cadence, long time gaps, missing-values, low number of observations, etc. These issues are particularly detrimental for the analysis of transient events with SN-like light-curves. In this work, we offer three main contributions. First, based on temporal modulation and attention mechanisms, we propose a Deep Attention model called TimeModAttn to classify multi-band light-curves of different SN types, avoiding photometric or hand-crafted feature computations, missing-values assumptions, and explicit imputation and interpolation methods. Second, we propose a model for the synthetic generation of SN multi-band light-curves based on the Supernova Parametric Model (SPM). This allows us to increase the number of samples and the diversity of the cadence. The TimeModAttn model is first pre-trained using synthetic light-curves in a semi-supervised learning scheme. Then, a fine-tuning process is performed for domain adaptation. The proposed TimeModAttn model outperformed a Random Forest classifier, increasing the balanced-$F_1$score from $\approx.525$ to $\approx.596$. The TimeModAttn model also outperformed other Deep Learning models, based on Recurrent Neural Networks (RNNs), in two scenarios: late-classification and early-classification . Finally, we conduct interpretability experiments. High attention scores are obtained for observations earlier than and close to the SN brightness peaks, which are supported by an early and highly expressive learned temporal modulation.
翻訳日:2022-01-24 14:59:55 公開日:2022-01-20
# ロジスティック回帰モデル構築のための視覚的分析手法とその健康記録への応用

A Visual Analytics Approach to Building Logistic Regression Models and its Application to Health Records ( http://arxiv.org/abs/2201.08429v1 )

ライセンス: Link先を確認
Erasmo Artur and Rosane Minghim(参考訳) 多次元データ分析は多くの分野でますます重要になってきており、その主な原因は、現在の膨大なデータ可用性と、それから知識を抽出する需要の増加である。 ほとんどのアプリケーションでは、最終ユーザの役割は、適切な機械学習モデルを構築し、データに見られるパターンを説明するために不可欠である。 本稿では,ユーザ誘導プロセス内の高次元データセットにおける回帰モデルの生成,評価,適用に関するオープン統一アプローチを提案する。 このアプローチは、属性の広い相関パノラマを公開することに基づいており、ユーザーは関連する属性を選択して、1つ以上のコンテキストの予測モデルを構築し評価することができる。 アプローチを UCReg (User-Centered Regression) と呼ぶ。 我々は,コビッド19やその他の人工的および実際の健康記録データの解析に枠組みを適用し,UCRegの有効性と効率を実証した。

Multidimensional data analysis has become increasingly important in many fields, mainly due to current vast data availability and the increasing demand to extract knowledge from it. In most applications, the role of the final user is crucial to build proper machine learning models and to explain the patterns found in data. In this paper, we present an open unified approach for generating, evaluating, and applying regression models in high-dimensional data sets within a user-guided process. The approach is based on exposing a broad correlation panorama for attributes, by which the user can select relevant attributes to build and evaluate prediction models for one or more contexts. We name the approach UCReg (User-Centered Regression). We demonstrate effectiveness and efficiency of UCReg through the application of our framework to the analysis of Covid-19 and other synthetic and real health records data.
翻訳日:2022-01-24 14:34:29 公開日:2022-01-20
# 歯のアナロジー問題の自動生成 : 概観と展望

Automatic Item Generation of Figural Analogy Problems: A Review and Outlook ( http://arxiv.org/abs/2201.08450v1 )

ライセンス: Link先を確認
Yuan Yang, Deepayan Sanyal, Joel Michelson, James Ainooson, Maithilee Kunda(参考訳) フィギュラルな類似問題は、人間の知能テストで広く使われている形式である。 過去40年間で、フィギュアアナロジー問題、すなわちそのような問題を体系的かつ自動的に生成するためのアルゴリズム的アプローチに対する自動アイテム生成の研究がますます増えている。 認知科学と心理計測学において、この研究は人間のアナロジー能力とフィギュラル・アナロジーの心理計測特性の理解を深めることができる。 近年,データ駆動型AIモデルの開発により,画像の類似性を考慮した自動項目生成の領域がさらに拡大している。 この拡大は、新しい課題と機会をもたらし、前世代の研究と今後の研究計画の反映を要求する。 本稿では,ヒューマンインテリジェンステストとデータ駆動型AIモデルの両方において,図形アナロジーの自動生成の重要作業についてレビューする。 学際的な観点から、これらの研究の原理と技術的詳細を分析・比較し、今後の研究のためのデシダラタを提案する。

Figural analogy problems have long been a widely used format in human intelligence tests. In the past four decades, more and more research has investigated automatic item generation for figural analogy problems, i.e., algorithmic approaches for systematically and automatically creating such problems. In cognitive science and psychometrics, this research can deepen our understandings of human analogical ability and psychometric properties of figural analogies. With the recent development of data-driven AI models for reasoning about figural analogies, the territory of automatic item generation of figural analogies has further expanded. This expansion brings new challenges as well as opportunities, which demand reflection on previous item generation research and planning future studies. This paper reviews the important works of automatic item generation of figural analogies for both human intelligence tests and data-driven AI models. From an interdisciplinary perspective, the principles and technical details of these works are analyzed and compared, and desiderata for future research are suggested.
翻訳日:2022-01-24 14:31:16 公開日:2022-01-20
# FaceOcc:人間の顔抽出のための多様な高品質顔咬合データセット

FaceOcc: A Diverse, High-quality Face Occlusion Dataset for Human Face Extraction ( http://arxiv.org/abs/2201.08425v1 )

ライセンス: Link先を確認
Xiangnan Yin and Liming Chen(参考訳) 隠蔽は野生の顔画像にしばしば発生し、ランドマーク検出や3D再構成、顔認識といった顔関連の課題に悩まされる。 制約のない顔画像から顔領域を正確に抽出することが有用である。 しかし、現在の顔セグメンテーションデータセットは、データ駆動型アルゴリズムの性能を制限し、小さなデータボリューム、少ないオクルージョンタイプ、低い解像度、不正確なアノテーションに苦しむ。 本稿では,CelebA-HQとインターネットから手動による顔隠蔽を用いた新しい顔隠蔽データセットを提案する。 閉塞型はサングラス、眼鏡、手、マスク、スカーフ、マイクなどをカバーしている。 私たちの知る限りでは、最も大きく、最も包括的な顔隠蔽データセットである。 CelebAMask-HQの属性マスクと組み合わせて、簡単な顔分割モデルを訓練したが、SOTA性能を得、提案したデータセットの有効性を実証した。

Occlusions often occur in face images in the wild, troubling face-related tasks such as landmark detection, 3D reconstruction, and face recognition. It is beneficial to extract face regions from unconstrained face images accurately. However, current face segmentation datasets suffer from small data volumes, few occlusion types, low resolution, and imprecise annotation, limiting the performance of data-driven-based algorithms. This paper proposes a novel face occlusion dataset with manually labeled face occlusions from the CelebA-HQ and the internet. The occlusion types cover sunglasses, spectacles, hands, masks, scarfs, microphones, etc. To the best of our knowledge, it is by far the largest and most comprehensive face occlusion dataset. Combining it with the attribute mask in CelebAMask-HQ, we trained a straightforward face segmentation model but obtained SOTA performance, convincingly demonstrating the effectiveness of the proposed dataset.
翻訳日:2022-01-24 14:31:01 公開日:2022-01-20
# 学習における再現性

Reproducibility in Learning ( http://arxiv.org/abs/2201.08430v1 )

ライセンス: Link先を確認
Russell Impagliazzo, Rex Lei, Toniann Pitassi, Jessica Sorrell(参考訳) 本稿では,再現可能なアルゴリズムの概念を学習の文脈で紹介する。 再現可能な学習アルゴリズムは、サンプルのバリエーションに耐性があり、高い確率で、同じ基礎となる分布から2つのサンプルを実行すると、全く同じ出力を返す。 まず、定義を解き明かし、ランダム性が正確性と再現性のバランスにどのように寄与するかを明らかにする。 再現性がデータ再利用や効率的なテスト容易性といった望ましい特性をどのように持つかを示す再現性アルゴリズムの理論を開始する。 再現性は非常に強い要求にもかかわらず、統計学や学習におけるいくつかの基本的な問題に対して効率的な再現性アルゴリズムが存在する。 まず,任意の統計的問合せアルゴリズムをサンプルの複雑さを緩やかに増やすことで再現可能とし,これを用いて近似重ヒットと中央値を求める再現可能なアルゴリズムを構築する。 これらのアイデアを用いて,再現可能な弱学習器と再現可能なブースティングアルゴリズムを用いて,ハーフスペースを学習するための最初の再現可能なアルゴリズムを与える。 最後に,再現可能アルゴリズムに対する下限と内在的なトレードオフの研究を開始し,再現可能アルゴリズムと非再現可能sqアルゴリズムを上限と下限でほぼ厳密なサンプル複雑性を与える。

We introduce the notion of a reproducible algorithm in the context of learning. A reproducible learning algorithm is resilient to variations in its samples -- with high probability, it returns the exact same output when run on two samples from the same underlying distribution. We begin by unpacking the definition, clarifying how randomness is instrumental in balancing accuracy and reproducibility. We initiate a theory of reproducible algorithms, showing how reproducibility implies desirable properties such as data reuse and efficient testability. Despite the exceedingly strong demand of reproducibility, there are efficient reproducible algorithms for several fundamental problems in statistics and learning. First, we show that any statistical query algorithm can be made reproducible with a modest increase in sample complexity, and we use this to construct reproducible algorithms for finding approximate heavy-hitters and medians. Using these ideas, we give the first reproducible algorithm for learning halfspaces via a reproducible weak learner and a reproducible boosting algorithm. Finally, we initiate the study of lower bounds and inherent tradeoffs for reproducible algorithms, giving nearly tight sample complexity upper and lower bounds for reproducible versus nonreproducible SQ algorithms.
翻訳日:2022-01-24 14:28:48 公開日:2022-01-20
# DROPO: オフラインドメインランダム化によるSim-to-Real転送

DROPO: Sim-to-Real Transfer with Offline Domain Randomization ( http://arxiv.org/abs/2201.08434v1 )

ライセンス: Link先を確認
Gabriele Tiboni and Karol Arndt and Ville Kyrki(参考訳) 近年,ロボット操作における強化学習政策のシミュレートから現実への移行手法としてドメインランダム化が注目されているが,最適なランダム化分布の発見は困難である。 本稿では,安全なsim-to-real転送のための領域ランダム化分布推定法であるDROPOを紹介する。 以前の作業とは異なり、DROPOでは、トラジェクトリの限定されたオフラインデータセットと、実際のデータにマッチするパラメータの不確実性を明示的にモデル化するのみである。 本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。 また,本手法を2つのゼロショットsim-to-real転送シナリオで評価し,ドメイン転送が成功し,先行手法よりも性能が向上したことを示す。

In recent years, domain randomization has gained a lot of traction as a method for sim-to-real transfer of reinforcement learning policies in robotic manipulation; however, finding optimal randomization distributions can be difficult. In this paper, we introduce DROPO, a novel method for estimating domain randomization distributions for safe sim-to-real transfer. Unlike prior work, DROPO only requires a limited, precollected offline dataset of trajectories, and explicitly models parameter uncertainty to match real data. We demonstrate that DROPO is capable of recovering dynamic parameter distributions in simulation and finding a distribution capable of compensating for an unmodelled phenomenon. We also evaluate the method in two zero-shot sim-to-real transfer scenarios, showing successful domain transfer and improved performance over prior methods.
翻訳日:2022-01-24 14:19:34 公開日:2022-01-20
# 時空間情報を用いた論理最適化のためのハイブリッドグラフモデル

Hybrid Graph Models for Logic Optimization via Spatio-Temporal Information ( http://arxiv.org/abs/2201.08455v1 )

ライセンス: Link先を確認
Nan Wu, Jiwon Lee, Yuan Xie, Cong Hao(参考訳) 機械学習(ML)に基づくパフォーマンスモデリングによる進歩にもかかわらず、EDAにおけるプロダクション対応のMLアプリケーションを妨げる2つの主要な懸念は、厳密な精度要件と一般化能力である。 そこで本研究では,論理合成最適化を対象とし,高精度なQoR推定に対するハイブリッドグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。 鍵となるアイデアは、ハードウェア設計と論理合成フローからの時空間情報を同時に活用し、異なる設計上の様々な合成フローのパフォーマンス(遅延/領域)を予測することである。 ハードウェア設計における構造的特性はgnnで示され、合成フローにおける時間的知識(すなわち論理変換の相対順序付け)は、仮想的に追加されたスーパーノードやシーケンス処理モデルと従来のgnnモデルを組み合わせてハードウェア設計に課される。 3.3百万のデータポイントの評価では、トレーニング中に見られた設計における絶対パーセンテージ誤差(MAPE)は、それぞれ1.2%と3.1%以下であり、既存の研究より7~15倍低い。

Despite the stride made by machine learning (ML) based performance modeling, two major concerns that may impede production-ready ML applications in EDA are stringent accuracy requirements and generalization capability. To this end, we propose hybrid graph neural network (GNN) based approaches towards highly accurate quality-of-result (QoR) estimations with great generalization capability, specifically targeting logic synthesis optimization. The key idea is to simultaneously leverage spatio-temporal information from hardware designs and logic synthesis flows to forecast performance (i.e., delay/area) of various synthesis flows on different designs. The structural characteristics inside hardware designs are distilled and represented by GNNs; the temporal knowledge (i.e., relative ordering of logic transformations) in synthesis flows can be imposed on hardware designs by combining a virtually added supernode or a sequence processing model with conventional GNN models. Evaluation on 3.3 million data points shows that the testing mean absolute percentage error (MAPE) on designs seen and unseen during training are no more than 1.2% and 3.1%, respectively, which are 7-15X lower than existing studies.
翻訳日:2022-01-24 14:19:20 公開日:2022-01-20
# GenGNN: グラフニューラルネットワーク高速化のための汎用FPGAフレームワーク

GenGNN: A Generic FPGA Framework for Graph Neural Network Acceleration ( http://arxiv.org/abs/2201.08475v1 )

ライセンス: Link先を確認
Stefan Abi-Karam, Yuqi He, Rishov Sarkar, Lakshmi Sathidevi, Zihang Qiao, Cong Hao(参考訳) グラフニューラルネットワーク(GNN)は、量子化学、薬物発見、高エネルギー物理学など、ユビキタスなグラフ関連の問題に広く適用可能であるため、最近人気が高まっている。 しかし,効率的なFPGA加速器の開発が困難であったことと,新しいGNNモデルの開発が急激なペースで進んでいることから,新しいGNNモデルの需要と高速推論を同時に行うことは困難である。 先行技術は、GNNの特定のクラスを加速することに重点を置いているが、既存のモデルを横断したり、新しい新しいGNNモデルに拡張する一般性に欠ける。 本稿では,GenGNN という名前の高レベル合成(HLS)を用いた汎用的なGNN加速フレームワークを提案する。 まず,リアルタイム要求に対するグラフ前処理なしで超高速なGNN推論を実現することを目的とする。 第2に、新しいモデルに柔軟に対応する拡張性を備えた多様なGNNモデルをサポートすることを目的とする。 このフレームワークは、すべてのモデルに適用可能な最適化されたメッセージパッシング構造と、モデル固有のコンポーネントの豊富なライブラリを備えている。 我々は,Xilinx Alveo U50 FPGA上での実装を検証するとともに,CPU(6226R)ベースラインに対して最大25倍,GPU(A6000)ベースラインに対して最大13倍のスピードアップを観測する。 当社のHLSコードは受け入れ次第,GitHubでオープンソース公開します。

Graph neural networks (GNNs) have recently exploded in popularity thanks to their broad applicability to ubiquitous graph-related problems such as quantum chemistry, drug discovery, and high energy physics. However, meeting demand for novel GNN models and fast inference simultaneously is challenging because of the gap between the difficulty in developing efficient FPGA accelerators and the rapid pace of creation of new GNN models. Prior art focuses on the acceleration of specific classes of GNNs but lacks the generality to work across existing models or to extend to new and emerging GNN models. In this work, we propose a generic GNN acceleration framework using High-Level Synthesis (HLS), named GenGNN, with two-fold goals. First, we aim to deliver ultra-fast GNN inference without any graph pre-processing for real-time requirements. Second, we aim to support a diverse set of GNN models with the extensibility to flexibly adapt to new models. The framework features an optimized message-passing structure applicable to all models, combined with a rich library of model-specific components. We verify our implementation on-board on the Xilinx Alveo U50 FPGA and observe a speed-up of up to 25x against CPU (6226R) baseline and 13x against GPU (A6000) baseline. Our HLS code will be open-source on GitHub upon acceptance.
翻訳日:2022-01-24 14:19:01 公開日:2022-01-20
# Graph HyperNetworksを用いた異種アーキテクチャによるフェデレーション学習

Federated Learning with Heterogeneous Architectures using Graph HyperNetworks ( http://arxiv.org/abs/2201.08459v1 )

ライセンス: Link先を確認
Or Litany, Haggai Maron, David Acuna, Jan Kautz, Gal Chechik, Sanja Fidler(参考訳) Standard Federated Learning (FL)技術は、同一のネットワークアーキテクチャを持つクライアントに限られている。 これにより、データプライバシとアーキテクチャ上のプロプライエタリの両方が必要な場合、クロスプラットフォームトレーニングや組織間コラボレーションといったユースケースが制限される。 パラメータ共有にグラフハイパーネットワークを採用することにより、異種クライアントアーキテクチャに対応する新しいFLフレームワークを提案する。 グラフハイパーネットワークの特性は、様々な計算グラフに適応し、モデル間で有意義なパラメータ共有を可能にすることである。 既存のソリューションとは異なり、このフレームワークはクライアントが同じアーキテクチャタイプを共有することを制限せず、外部データを使用しず、クライアントがモデルアーキテクチャを公開する必要もない。 蒸留および非グラフハイパーネットワークベースラインと比較して,本手法は標準ベンチマークにおいて顕著に優れている。 また、未確認アーキテクチャに対する一般化性能の促進を示す。

Standard Federated Learning (FL) techniques are limited to clients with identical network architectures. This restricts potential use-cases like cross-platform training or inter-organizational collaboration when both data privacy and architectural proprietary are required. We propose a new FL framework that accommodates heterogeneous client architecture by adopting a graph hypernetwork for parameter sharing. A property of the graph hyper network is that it can adapt to various computational graphs, thereby allowing meaningful parameter sharing across models. Unlike existing solutions, our framework does not limit the clients to share the same architecture type, makes no use of external data and does not require clients to disclose their model architecture. Compared with distillation-based and non-graph hypernetwork baselines, our method performs notably better on standard benchmarks. We additionally show encouraging generalization performance to unseen architectures.
翻訳日:2022-01-24 13:34:21 公開日:2022-01-20
# 非対称決定点過程のスケーラブルサンプリング

Scalable Sampling for Nonsymmetric Determinantal Point Processes ( http://arxiv.org/abs/2201.08417v1 )

ライセンス: Link先を確認
Insu Han, Mike Gartrell, Jennifer Gillenwater, Elvis Dohmatob, Amin Karbasi(参考訳) M$アイテムの集合上の決定点プロセス(DPP)は、対称的なカーネル行列によってパラメータ化され、それらの項目の全てのサブセットに確率を割り当てるモデルである。 最近の研究は、非対称DPP(NDPPs)を生じるカーネル対称性の制約を取り除くことで、機械学習アプリケーションにおいて大幅な性能向上が期待できることを示している。 しかし、既存の作業では、スケーラブルなNDPPサンプリングの問題が残されている。 コールスキー分解に基づくDPPサンプリングアルゴリズムは1つしか知られておらず、NDPPにも直接適用できる。 残念ながら、ランタイムは$M$で、従って大規模なアイテムコレクションにはスケールしない。 本稿ではまず, このアルゴリズムを, 低ランク構造を持つカーネルに対して線形時間に変換できることを示す。 さらに,新しい提案分布を構築し,スケーラブルな部分線形時間拒否サンプリングアルゴリズムを開発した。 さらに、NDPPカーネルに特定の構造的制約を課すことで、カーネルのランクに依存する方法で拒絶率を制限できることが示される。 実験では、これらのサンプルの速度を実世界の様々なタスクと比較した。

A determinantal point process (DPP) on a collection of $M$ items is a model, parameterized by a symmetric kernel matrix, that assigns a probability to every subset of those items. Recent work shows that removing the kernel symmetry constraint, yielding nonsymmetric DPPs (NDPPs), can lead to significant predictive performance gains for machine learning applications. However, existing work leaves open the question of scalable NDPP sampling. There is only one known DPP sampling algorithm, based on Cholesky decomposition, that can directly apply to NDPPs as well. Unfortunately, its runtime is cubic in $M$, and thus does not scale to large item collections. In this work, we first note that this algorithm can be transformed into a linear-time one for kernels with low-rank structure. Furthermore, we develop a scalable sublinear-time rejection sampling algorithm by constructing a novel proposal distribution. Additionally, we show that imposing certain structural constraints on the NDPP kernel enables us to bound the rejection rate in a way that depends only on the kernel rank. In our experiments we compare the speed of all of these samplers for a variety of real-world tasks.
翻訳日:2022-01-24 13:33:32 公開日:2022-01-20
# SoftDropConnect (SDC) -- ディープMR画像解析におけるネットワーク不確かさの有効かつ効率的な定量化

SoftDropConnect (SDC) -- Effective and Efficient Quantification of the Network Uncertainty in Deep MR Image Analysis ( http://arxiv.org/abs/2201.08418v1 )

ライセンス: Link先を確認
Qing Lyu, Christopher T. Whitlow, Ge Wang(参考訳) 近年,深層学習は医用画像解析で目覚ましい成功を収めている。 ディープニューラルネットワークは臨床的に重要な予測を生成するが、固有の不確実性がある。 このような不確実性は、これらの予測を自信を持って報告する上で大きな障壁となる。 本稿では,医用画像処理におけるネットワーク不確実性をグリオーマの分節化と転移の分類で定量化するために,SoftDropConnect (SDC) と呼ばれる新しいベイズ推論手法を提案する。 私たちの重要なアイデアは、トレーニングとテストの間、sdcはネットワークパラメータを継続的に調整し、影響のある情報処理チャネルをdropoutやdropconnetのように無効にするのではなく、運用中であるようにします。 ベイズ・バイ・バックプロップ、Dropout、DropConnectの3つの一般的なベイズ推定手法と比較すると、SDC法(最適化後のSDC-W)は、競合する3つの手法よりもかなり優れている。 定量的に,提案手法では,予測精度が10.0%,5.4%,3.7%,分類精度で11.7%,分類精度で3.9%,8.7%,相互情報の64%,33%,70%,セグメンテーションで98%,88%,88%)向上した。 我々のアプローチは、より良い診断性能を提供し、医療用AIイメージングをより説明しやすく、信頼できるものにすることを約束します。

Recently, deep learning has achieved remarkable successes in medical image analysis. Although deep neural networks generate clinically important predictions, they have inherent uncertainty. Such uncertainty is a major barrier to report these predictions with confidence. In this paper, we propose a novel yet simple Bayesian inference approach called SoftDropConnect (SDC) to quantify the network uncertainty in medical imaging tasks with gliomas segmentation and metastases classification as initial examples. Our key idea is that during training and testing SDC modulates network parameters continuously so as to allow affected information processing channels still in operation, instead of disabling them as Dropout or DropConnet does. When compared with three popular Bayesian inference methods including Bayes By Backprop, Dropout, and DropConnect, our SDC method (SDC-W after optimization) outperforms the three competing methods with a substantial margin. Quantitatively, our proposed method generates results withsubstantially improved prediction accuracy (by 10.0%, 5.4% and 3.7% respectively for segmentation in terms of dice score; by 11.7%, 3.9%, 8.7% on classification in terms of test accuracy) and greatly reduced uncertainty in terms of mutual information (by 64%, 33% and 70% on segmentation; 98%, 88%, and 88% on classification). Our approach promises to deliver better diagnostic performance and make medical AI imaging more explainable and trustworthy.
翻訳日:2022-01-24 13:31:42 公開日:2022-01-20
# 協力・ビザンチン分権チームにおける相互情報による反復推論

Iterated Reasoning with Mutual Information in Cooperative and Byzantine Decentralized Teaming ( http://arxiv.org/abs/2201.08484v1 )

ライセンス: Link先を確認
Sachin Konan, Esmaeil Seraj, Matthew Gombolay(参考訳) 情報共有は、チーム認知の構築において重要であり、協調と協力を可能にする。 ハイパフォーマンスな人間チームは、反復的なコミュニケーションと合理化可能性という階層的なレベルで戦略的に行動することで利益を得る。 しかし、MARL(Multi-Agent Reinforcement Learning)における先行研究の大部分は、反復的合理化性をサポートしておらず、エージェント間通信を奨励するだけであり、その結果、最適均衡協力戦略をもたらす。 本研究は,隣接するチームメイトの方針を条件とするエージェントのポリシーの改革が,政策勾配(pg)下での最適化において,本質的に下位の相互情報(mi)を最大化することを示す。 有界合理性と認知階層理論に基づく意思決定の考え方に基づき,我々の修正pgアプローチは,局所エージェント報酬を最大化するだけでなく,明示的なアドホック正規化用語を必要とせずにエージェント間のmiに関する暗黙の理由も示す。 我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。 本実験は,複数の複合協調型マルチエージェントドメインにおいて,試料効率の向上と累積報酬の大幅な向上によりInfoPGの有用性を検証した。

Information sharing is key in building team cognition and enables coordination and cooperation. High-performing human teams also benefit from acting strategically with hierarchical levels of iterated communication and rationalizability, meaning a human agent can reason about the actions of their teammates in their decision-making. Yet, the majority of prior work in Multi-Agent Reinforcement Learning (MARL) does not support iterated rationalizability and only encourage inter-agent communication, resulting in a suboptimal equilibrium cooperation strategy. In this work, we show that reformulating an agent's policy to be conditional on the policies of its neighboring teammates inherently maximizes Mutual Information (MI) lower-bound when optimizing under Policy Gradient (PG). Building on the idea of decision-making under bounded rationality and cognitive hierarchy theory, we show that our modified PG approach not only maximizes local agent rewards but also implicitly reasons about MI between agents without the need for any explicit ad-hoc regularization terms. Our approach, InfoPG, outperforms baselines in learning emergent collaborative behaviors and sets the state-of-the-art in decentralized cooperative MARL tasks. Our experiments validate the utility of InfoPG by achieving higher sample efficiency and significantly larger cumulative reward in several complex cooperative multi-agent domains.
翻訳日:2022-01-24 13:30:19 公開日:2022-01-20
# 学習畳み込みフィルタにおけるモデル-モデル分布シフトの実証的研究

An Empirical Investigation of Model-to-Model Distribution Shifts in Trained Convolutional Filters ( http://arxiv.org/abs/2201.08465v1 )

ライセンス: Link先を確認
Paul Gavrikov, Janis Keuper(参考訳) 本稿では,様々なコンピュータビジョンタスクに使用される画像データの分布変化について検討した結果について述べる。 元のトレーニングとテストデータを解析する代わりに、トレーニングモデルの学習重みの変化を研究することを提案する。 本研究では,支配的に使用される3x3畳み込みフィルタカーネルの分布特性に着目する。 私たちは、さまざまなデータセット、アーキテクチャ、ビジョンタスクを使用して、何百ものトレーニングされたcnnから50億以上のフィルタを備えたデータセットを収集し、公開しました。 解析の結果,データタイプ,タスク,アーキテクチャ,レイヤ深さなど,さまざまなメタパラメータの軸に沿って,訓練されたフィルタ間の興味深い分散シフト(あるいはその欠如)が示されている。 我々は、観測された特性がCNNモデルの一般化能力への入力データの変化の影響や、この領域におけるより堅牢な転写学習のための新しい手法の理解を深めるための貴重な情報源であると主張している。 https://github.com/p aulgavrikov/CNN-Filt er-DB/

We present first empirical results from our ongoing investigation of distribution shifts in image data used for various computer vision tasks. Instead of analyzing the original training and test data, we propose to study shifts in the learned weights of trained models. In this work, we focus on the properties of the distributions of dominantly used 3x3 convolution filter kernels. We collected and publicly provide a data set with over half a billion filters from hundreds of trained CNNs, using a wide range of data sets, architectures, and vision tasks. Our analysis shows interesting distribution shifts (or the lack thereof) between trained filters along different axes of meta-parameters, like data type, task, architecture, or layer depth. We argue, that the observed properties are a valuable source for further investigation into a better understanding of the impact of shifts in the input data to the generalization abilities of CNN models and novel methods for more robust transfer-learning in this domain. Data available at: https://github.com/p aulgavrikov/CNN-Filt er-DB/.
翻訳日:2022-01-24 13:08:00 公開日:2022-01-20
# (参考訳) UnifiedSKG:テキスト-テキスト言語モデルによる構造化知識の統一とマルチタスク化

UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models ( http://arxiv.org/abs/2201.05966v2 )

ライセンス: CC BY 4.0
Tianbao Xie, Chen Henry Wu, Peng Shi, Ruiqi Zhong, Torsten Scholak, Michihiro Yasunaga, Chien-Sheng Wu, Ming Zhong, Pengcheng Yin, Sida I. Wang, Victor Zhong, Bailin Wang, Chengzu Li, Connor Boyle, Ansong Ni, Ziyu Yao, Dragomir Radev, Caiming Xiong, Lingpeng Kong, Rui Zhang, Noah A. Smith, Luke Zettlemoyer, Tao Yu(参考訳) structured knowledge grounding (skg) は構造化知識を活用して、データベース上の意味解析や知識ベースに対する質問応答など、ユーザからの要求を完結させる。 SKGタスクの入力と出力は異種であるため、異なるコミュニティで個別に研究され、SKGの体系的および互換性のある研究が制限されている。 本稿では、21個のskgタスクをテキストからテキストへのフォーマットに統一するskgフレームワークを提案し、単一のタスク、ドメイン、データセットのみではなく、体系的なskg研究を促進することにより、この制限を克服する。 私たちはunifiedskgを使って、異なるサイズでt5をベンチマークし、必要に応じて簡単な修正を加えることで、t5が21のタスクのほとんどすべてで最先端のパフォーマンスを達成できることを示した。 さらにマルチタスクプレフィックスチューニングによって,ほとんどのタスクのパフォーマンスが向上し,全体的なパフォーマンスが向上することを示す。 また,UnifiedSKGはゼロショット学習や少数ショット学習にも役立ち,T0,GPT-3,Codexはゼロショット学習と少数ショット学習に苦戦していることを示す。 また,skgタスクにまたがる構造的知識エンコーディングの変種について,一連の制御実験を行うためにunifiedskgを用いる。 UnifiedSKGは、多くのタスクに対して容易に拡張可能であり、https://github.com/h kunlp/unifiedskgでオープンソース化されている。

Structured knowledge grounding (SKG) leverages structured knowledge to complete user requests, such as semantic parsing over databases and question answering over knowledge bases. Since the inputs and outputs of SKG tasks are heterogeneous, they have been studied separately by different communities, which limits systematic and compatible research on SKG. In this paper, we overcome this limitation by proposing the SKG framework, which unifies 21 SKG tasks into a text-to-text format, aiming to promote systematic SKG research, instead of being exclusive to a single task, domain, or dataset. We use UnifiedSKG to benchmark T5 with different sizes and show that T5, with simple modifications when necessary, achieves state-of-the-art performance on almost all of the 21 tasks. We further demonstrate that multi-task prefix-tuning improves the performance on most tasks, largely improving the overall performance. UnifiedSKG also facilitates the investigation of zero-shot and few-shot learning, and we show that T0, GPT-3, and Codex struggle in zero-shot and few-shot learning for SKG. We also use UnifiedSKG to conduct a series of controlled experiments on structured knowledge encoding variants across SKG tasks. UnifiedSKG is easily extensible to more tasks, and it is open-sourced at https://github.com/h kunlp/unifiedskg Latest collections at https://unifiedskg.c om.
翻訳日:2022-01-22 07:32:45 公開日:2022-01-20
# (参考訳) Denoising Trainingによるニューラルマシン翻訳の改善 [全文訳有]

Improving Neural Machine Translation by Denoising Training ( http://arxiv.org/abs/2201.07365v2 )

ライセンス: CC0 1.0
Liang Ding, Keqin Peng and Dacheng Tao(参考訳) 本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的な事前学習戦略 {D}en{o}ising {T}raining DoTを提案する。 具体的には、モデルパラメータを初期段階でソースおよびターゲットサイドのデノイジングタスクで更新し、モデルを正常にチューニングします。 特に、我々のアプローチはパラメータやトレーニングステップを増やさず、単に並列データを必要とします。 実験によると、dotは12のバイリンガルと16の多言語方向(データサイズは80kから20m)で一貫してニューラルネットワークの翻訳性能を向上させる。 さらに,dotが既存のデータ操作戦略,すなわちカリキュラム学習,知識蒸留,データの多様化,双方向トレーニング,バックトランスレーションを補完できることも示す。 その結果,DoTは高リソース環境での事前学習モデルmBARTよりも優れていることがわかった。 分析によるとdotは、新しいドメイン内クロスリンガル事前学習戦略であり、タスク関連の自己スーパービジョンによりさらなる改善を提供する可能性がある。

We present a simple and effective pretraining strategy {D}en{o}ising {T}raining DoT for neural machine translation. Specifically, we update the model parameters with source- and target-side denoising tasks at the early stage and then tune the model normally. Notably, our approach does not increase any parameters or training steps, requiring the parallel data merely. Experiments show that DoT consistently improves the neural machine translation performance across 12 bilingual and 16 multilingual directions (data size ranges from 80K to 20M). In addition, we show that DoT can complement existing data manipulation strategies, i.e. curriculum learning, knowledge distillation, data diversification, bidirectional training, and back-translation. Encouragingly, we found that DoT outperforms costly pretrained model mBART in high-resource settings. Analyses show DoT is a novel in-domain cross-lingual pretraining strategy and could offer further improvements with task-relevant self-supervisions.
翻訳日:2022-01-22 05:26:07 公開日:2022-01-20
# (参考訳) 跳躍知識を用いたグラフニューラルネットワークによるAndroidマルウェア分類 [全文訳有]

Graph Neural Network-based Android Malware Classification with Jumping Knowledge ( http://arxiv.org/abs/2201.07537v2 )

ライセンス: CC BY-SA 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,Jumping-Knowledge(J K)を用いたグラフニューラルネットワーク(GNN)に基づく新しいAndroidマルウェア検出手法を提案する。 android function call graphs (fcgs) は一連のプログラム関数とその手続き間呼び出しで構成される。 そこで本研究では,有意義な手続き内コールパスパターンを捉えたgnnに基づくandroidマルウェア検出手法を提案する。 また,GNNでは一般的であるオーバースムーシング問題の影響を最小限に抑えるために,Jumping-Knowledge手法を適用した。 提案手法は2つのベンチマークデータセットを用いて広範に評価されている。 その結果,Androidのマルウェア検出と分類におけるGNNの可能性を示す主要な分類指標の観点から,最先端手法と比較して,我々のアプローチの優位性を示した。

This paper presents a new Android malware detection method based on Graph Neural Networks (GNNs) with Jumping-Knowledge (JK). Android function call graphs (FCGs) consist of a set of program functions and their inter-procedural calls. Thus, this paper proposes a GNN-based method for Android malware detection by capturing meaningful intra-procedural call path patterns. In addition, a Jumping-Knowledge technique is applied to minimize the effect of the over-smoothing problem, which is common in GNNs. The proposed method has been extensively evaluated using two benchmark datasets. The results demonstrate the superiority of our approach compared to state-of-the-art approaches in terms of key classification metrics, which demonstrates the potential of GNNs in Android malware detection and classification.
翻訳日:2022-01-22 05:13:30 公開日:2022-01-20
# (参考訳) 外的弱い監督による野生の自己中心性3次元ポーズの推定 [全文訳有]

Estimating Egocentric 3D Human Pose in the Wild with External Weak Supervision ( http://arxiv.org/abs/2201.07929v1 )

ライセンス: CC BY 4.0
Jian Wang and Lingjie Liu and Weipeng Xu and Kripasindhu Sarkar and Diogo Luvizon and Christian Theobalt(参考訳) 単一魚眼カメラによる人間中心の3Dポーズ推定は、最近かなりの注目を集めている。 しかし,既存の手法では,大規模な自己中心型データセットが利用できないため,合成データでしか訓練できないため,画像中のポーズ推定に苦慮している。 さらに、周囲のシーンによって身体が閉塞したり、相互作用したりすると、これらの手法は容易に失敗する。 EgoPW(Egocentric Poses in the Wild, EgoPW)と呼ばれる, 広帯域のエゴセントリックな大規模なデータセットを収集する。 このデータセットは、頭部搭載の魚眼カメラと補助外部カメラによってキャプチャされ、トレーニング中の第三者視点から人体のさらなる観察を提供する。 本稿では,外部の監視が弱いデータセット上で学習可能な,新たな自己中心的ポーズ推定法を提案する。 具体的には,まず,外部視点監視を取り入れた時空間最適化手法を用いて,EgoPWデータセットの擬似ラベルを生成する。 擬似ラベルは、エゴセントリックなポーズ推定ネットワークを訓練するために使用される。 ネットワークトレーニングを容易にするために,前訓練された外部視点ポーズ推定モデルによって抽出された高品質特徴を用いて,エゴセントリック特徴を監督する新しい学習戦略を提案する。 実験により,本手法は1つの自我中心画像から正確な3dポーズを予測し,定量的および定性的に最先端の手法を上回った。

Egocentric 3D human pose estimation with a single fisheye camera has drawn a significant amount of attention recently. However, existing methods struggle with pose estimation from in-the-wild images, because they can only be trained on synthetic data due to the unavailability of large-scale in-the-wild egocentric datasets. Furthermore, these methods easily fail when the body parts are occluded by or interacting with the surrounding scene. To address the shortage of in-the-wild data, we collect a large-scale in-the-wild egocentric dataset called Egocentric Poses in the Wild (EgoPW). This dataset is captured by a head-mounted fisheye camera and an auxiliary external camera, which provides an additional observation of the human body from a third-person perspective during training. We present a new egocentric pose estimation method, which can be trained on the new dataset with weak external supervision. Specifically, we first generate pseudo labels for the EgoPW dataset with a spatio-temporal optimization method by incorporating the external-view supervision. The pseudo labels are then used to train an egocentric pose estimation network. To facilitate the network training, we propose a novel learning strategy to supervise the egocentric features with the high-quality features extracted by a pretrained external-view pose estimation model. The experiments show that our method predicts accurate 3D poses from a single in-the-wild egocentric image and outperforms the state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2022-01-22 02:04:33 公開日:2022-01-20
# (参考訳) 赤外線画像とディープラーニングセグメンテーション法を用いたリスク管理のための大規模ジェット火炎の幾何学的特徴抽出 [全文訳有]

Experimental Large-Scale Jet Flames' Geometrical Features Extraction for Risk Management Using Infrared Images and Deep Learning Segmentation Methods ( http://arxiv.org/abs/2201.07931v1 )

ライセンス: CC BY 4.0
Carmina P\'erez-Guerrero, Adriana Palacios, Gilberto Ochoa-Ruiz, Christian Mata, Joaquim Casal, Miguel Gonzalez-Mendoza, Luis Eduardo Falc\'on-Morales(参考訳) ジェット火災は比較的小さく、工業プラントで発生しうる多様な火災事故の中で最も深刻な影響を及ぼさないが、通常ドミノ効果(domino effect)と呼ばれるプロセスに関与しており、爆発や他の火災の発生といったより深刻な事象を引き起こし、そのような火災の分析はリスク分析の重要な部分となっている。 本研究は,火炎のセマンティクスセグメンテーションを用いて,火災リスクアセスメントに関連する主要な幾何学的属性を抽出する代替手法として,ディープラーニングモデルの適用を検討する。 従来の画像処理手法と最先端のディープラーニングモデルとの比較を行う。 最も優れたアプローチは、UNetとして知られるディープラーニングアーキテクチャと、その2つの改善であるAttention UNetとUNet++である。 モデルは、管口径の異なる垂直噴流火炎群を分割して、主幾何学的特徴を抽出するために使用される。 注意 UNet は炎の高さと面積の近似において最高の一般性能を得たが、UNet++ と違いは統計的に有意であった。 unet はリフトオフ距離の近似に対して最高の全体的な性能を得たが、注意力 unet と unet++ の間に統計的に有意な差を示すのに十分なデータはない。 UNet++が他のモデルより優れていた唯一の例は、ジェット火炎から0.01275mの管口径のリフトオフ距離を得ることであった。 実験モデルでは, 比較的大きな乱流性プロパンジェット火炎に対する実験値と予測値とが, 音速および亜音速で放出される場合の良好な一致を示し, これらの放射帯セグメンテーションモデルを, 異なるジェット火炎リスク管理シナリオに適したアプローチとする。

Jet fires are relatively small and have the least severe effects among the diverse fire accidents that can occur in industrial plants; however, they are usually involved in a process known as the domino effect, that leads to more severe events, such as explosions or the initiation of another fire, making the analysis of such fires an important part of risk analysis. This research work explores the application of deep learning models in an alternative approach that uses the semantic segmentation of jet fires flames to extract main geometrical attributes, relevant for fire risk assessments. A comparison is made between traditional image processing methods and some state-of-the-art deep learning models. It is found that the best approach is a deep learning architecture known as UNet, along with its two improvements, Attention UNet and UNet++. The models are then used to segment a group of vertical jet flames of varying pipe outlet diameters to extract their main geometrical characteristics. Attention UNet obtained the best general performance in the approximation of both height and area of the flames, while also showing a statistically significant difference between it and UNet++. UNet obtained the best overall performance for the approximation of the lift-off distances; however, there is not enough data to prove a statistically significant difference between Attention UNet and UNet++. The only instance where UNet++ outperformed the other models, was while obtaining the lift-off distances of the jet flames with 0.01275 m pipe outlet diameter. In general, the explored models show good agreement between the experimental and predicted values for relatively large turbulent propane jet flames, released in sonic and subsonic regimes; thus, making these radiation zones segmentation models, a suitable approach for different jet flame risk management scenarios.
翻訳日:2022-01-22 01:44:51 公開日:2022-01-20
# (参考訳) ラベルの少ないグラフニューラルネットワークのための情報付き擬似ラベル [全文訳有]

Informative Pseudo-Labeling for Graph Neural Networks with Few Labels ( http://arxiv.org/abs/2201.07951v1 )

ライセンス: CC BY 4.0
Yayong Li, Jie Yin, Ling Chen(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の半教師付きノード分類のための最先端の結果を得た。 それでも、非常に少数のレーベルでGNNを効果的に学習する方法の課題は、まだ解明されていない。 一般的な半教師付き手法の1つとして、ラベル不足問題に明示的に対処する擬似ラベル法が提案されている。 自己学習サイクルにおいて教師付きモデルを再トレーニングするために、疑似ラベル付き未ラベルノードによるトレーニングセットを高い信頼性で強化することを目的としている。 しかし、既存の擬似ラベル方式はしばしば2つの大きな欠点に悩まされる。 まず,信頼度の高い非ラベルノードのみを選択することで,情報性を評価することなく,ラベルセットを保守的に拡張する傾向がみられた。 残念なことに、これらの高信頼ノードは、しばしばラベルと重なり合う情報を伝達し、モデル再トレーニングの微妙な改善につながります。 第二に、これらの手法は擬似ラベルを本物のラベルと同じ損失関数に組み込んでおり、分類タスクに対する個々の貢献を無視している。 本稿では、非常に少ないラベルを持つGNNの学習を容易にするために、InfoGNNと呼ばれる新しい情報的擬似ラベルフレームワークを提案する。 私たちの重要なアイデアは、相互情報最大化によってローカル近傍を最大に表現できる最も有益なノードを擬似的にラベル付けることです。 擬似ラベルから生じる潜在的なラベルノイズやクラス不均衡問題を緩和するため,クラスバランス正規化による一般化されたクロスエントロピー損失を慎重に考案し,生成した擬似ラベルをモデル再学習に組み込む。 6つの実世界のグラフデータセットに関する広範囲な実験により、提案手法がグラフ上の最先端のベースラインや強力な自己教師付きメソッドを大きく上回ることを示した。

Graph Neural Networks (GNNs) have achieved state-of-the-art results for semi-supervised node classification on graphs. Nevertheless, the challenge of how to effectively learn GNNs with very few labels is still under-explored. As one of the prevalent semi-supervised methods, pseudo-labeling has been proposed to explicitly address the label scarcity problem. It aims to augment the training set with pseudo-labeled unlabeled nodes with high confidence so as to re-train a supervised model in a self-training cycle. However, the existing pseudo-labeling approaches often suffer from two major drawbacks. First, they tend to conservatively expand the label set by selecting only high-confidence unlabeled nodes without assessing their informativeness. Unfortunately, those high-confidence nodes often convey overlapping information with given labels, leading to minor improvements for model re-training. Second, these methods incorporate pseudo-labels to the same loss function with genuine labels, ignoring their distinct contributions to the classification task. In this paper, we propose a novel informative pseudo-labeling framework, called InfoGNN, to facilitate learning of GNNs with extremely few labels. Our key idea is to pseudo label the most informative nodes that can maximally represent the local neighborhoods via mutual information maximization. To mitigate the potential label noise and class-imbalance problem arising from pseudo labeling, we also carefully devise a generalized cross entropy loss with a class-balanced regularization to incorporate generated pseudo labels into model re-training. Extensive experiments on six real-world graph datasets demonstrate that our proposed approach significantly outperforms state-of-the-art baselines and strong self-supervised methods on graphs.
翻訳日:2022-01-22 01:17:38 公開日:2022-01-20
# (参考訳) AstBERT:抽象構文木を用いたコード理解のための言語モデル [全文訳有]

AstBERT: Enabling Language Model for Code Understanding with Abstract Syntax Tree ( http://arxiv.org/abs/2201.07984v1 )

ライセンス: CC BY 4.0
Rong Liang, Yujie Lu, Zhen Huang, Tiehua Zhang, Yuze Liu(参考訳) ソースコードを認証するために事前訓練された言語モデル(BERT)を使用することは、自然言語処理コミュニティで注目を集めている。 しかし、プログラミング言語(PL)に関連する問題を直接解決するためにこれらの言語モデルを適用することについては、いくつかの課題がある。 そこで本研究では,抽象構文木(AST)を用いてPLをよりよく理解することを目的とした,事前学習型言語モデルAstBERTモデルを提案する。 具体的には、githubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードのast情報を解釈して統合するコードパーサの助けを借りて、私たちのモデルにコンテキストコード知識を取り入れます。 本稿では,コード情報抽出タスクとコード検索タスクにおける提案モデルの性能を検証する。 実験の結果,astbertモデルでは,ダウンストリームタスクともに最新性能を実現している(コード情報抽出タスクは96.4%,コード検索タスクは57.12%)。

Using a pre-trained language model (i.e. BERT) to apprehend source codes has attracted increasing attention in the natural language processing community. However, there are several challenges when it comes to applying these language models to solve programming language (PL) related problems directly, the significant one of which is the lack of domain knowledge issue that substantially deteriorates the model's performance. To this end, we propose the AstBERT model, a pre-trained language model aiming to better understand the PL using the abstract syntax tree (AST). Specifically, we collect a colossal amount of source codes (both java and python) from GitHub and incorporate the contextual code knowledge into our model through the help of code parsers, in which AST information of the source codes can be interpreted and integrated. We verify the performance of the proposed model on code information extraction and code search tasks, respectively. Experiment results show that our AstBERT model achieves state-of-the-art performance on both downstream tasks (with 96.4% for code information extraction task, and 57.12% for code search task).
翻訳日:2022-01-22 00:59:09 公開日:2022-01-20
# (参考訳) カスケードポジティブ検索による自己教師付き映像表現学習 [全文訳有]

Self-supervised Video Representation Learning with Cascade Positive Retrieval ( http://arxiv.org/abs/2201.07989v1 )

ライセンス: CC BY 4.0
Cheng-En Wu, Farley Lai, Yu Hen Hu, Asim Kadav(参考訳) 本稿では,映像検索や行動認識などの下流タスクを効果的に改善するために,自己指導型映像表現学習(Self-supervised video representation learning)が実証例を連続的に抽出するCPR(Cascade Positive Retrieval)を提案する。 具体的には、CPRはクエリの例の複数のビューを異なるモードで利用し、別のビューはクエリのビューで異なる別のポジティブな例を見つけるのに役立つかもしれない。 本研究は,鉱業段階数,各段階における類似例選択率,最終Top-k選択回数の漸進的数による漸進的トレーニングなど,AblationにおけるCPR構成の可能性を検討する。 全体の鉱業品質は、トレーニングセットのクラス間でのリコールを反映して測定される。 CPRは83.3%の中央値の鉱業リコールに達し、以前の業績を5.5%上回った。 実装面では、CPRはプリテキストタスクを補完し、以前の作業にも容易に適用できる。 UCF101での事前トレーニングの評価では、CPRは既存の作業の改善を一貫して行い、ビデオ検索では56.7%、24.4%、UCF101およびHMDB51では83.8%、54.8%の最先端のR@1を達成している。 大規模なビデオデータセットであるKineetics400からUCF101とHDMBへの転送は、CPRが既存の作業に有効であり、低い解像度とフレームサンプリング率で事前訓練されているにもかかわらず、競合するトップ1の精度は85.1%と57.4%であった。 コードはすぐにリリースされ、結果が再現される。 コードはhttps://github.com/n ecla-ml/cprで入手できる。

Self-supervised video representation learning has been shown to effectively improve downstream tasks such as video retrieval and action recognition.In this paper, we present the Cascade Positive Retrieval (CPR) that successively mines positive examples w.r.t. the query for contrastive learning in a cascade of stages. Specifically, CPR exploits multiple views of a query example in different modalities, where an alternative view may help find another positive example dissimilar in the query view. We explore the effects of possible CPR configurations in ablations including the number of mining stages, the top similar example selection ratio in each stage, and progressive training with an incremental number of the final Top-k selection. The overall mining quality is measured to reflect the recall across training set classes. CPR reaches a median class mining recall of 83.3%, outperforming previous work by 5.5%. Implementation-wise, CPR is complementary to pretext tasks and can be easily applied to previous work. In the evaluation of pretraining on UCF101, CPR consistently improves existing work and even achieves state-of-the-art R@1 of 56.7% and 24.4% in video retrieval as well as 83.8% and 54.8% in action recognition on UCF101 and HMDB51. For transfer from large video dataset Kinetics400 to UCF101 and HDMB, CPR benefits existing work, showing competitive Top-1 accuracies of 85.1% and 57.4% despite pretraining at a lower resolution and frame sampling rate. The code will be released soon for reproducing the results. The code is available at https://github.com/n ecla-ml/CPR.
翻訳日:2022-01-22 00:48:07 公開日:2022-01-20
# (参考訳) 個別資産配分のための統計的学習

Statistical Learning for Individualized Asset Allocation ( http://arxiv.org/abs/2201.07998v1 )

ライセンス: CC BY 4.0
Yi Ding, Yingying Li and Rui Song(参考訳) 個別資産配分のための高次元統計学習フレームワークを構築した。 提案手法は,多種多様な特徴を持つ連続行動決定に対処する。 我々は,連続的な行動から効果をモデル化するための離散化手法を開発し,離散化レベルを大きくし,観測数にばらつきを与える。 連続作用の値関数は、モデル係数の線形変換に課される一般化されたペナルティを持つペナルティ回帰を用いて推定される。 一般化された凹凸ペナルティを用いた推定器は望ましい理論的特性を享受し、最適意思決定に伴う最適値の統計的推測を可能にする。 実証的に, 提案手法は, 個別の最適資産配分を求める際に, 健康・退職研究データを用いて実施される。 その結果、個人化された最適戦略は個々の財務の健全性を改善し、ベンチマーク戦略を上回った。

We establish a high-dimensional statistical learning framework for individualized asset allocation. Our proposed methodology addresses continuous-action decision-making with a large number of characteristics. We develop a discretization approach to model the effect from continuous actions and allow the discretization level to be large and diverge with the number of observations. The value function of continuous-action is estimated using penalized regression with generalized penalties that are imposed on linear transformations of the model coefficients. We show that our estimators using generalized folded concave penalties enjoy desirable theoretical properties and allow for statistical inference of the optimal value associated with optimal decision-making. Empirically, the proposed framework is exercised with the Health and Retirement Study data in finding individualized optimal asset allocation. The results show that our individualized optimal strategy improves individual financial well-being and surpasses benchmark strategies.
翻訳日:2022-01-22 00:18:41 公開日:2022-01-20
# (参考訳) 自己教師付き望遠鏡画像解析学習によるラベルレス埋め込みによる分類 [全文訳有]

CELESTIAL: Classification Enabled via Labelless Embeddings with Self-supervised Telescope Image Analysis Learning ( http://arxiv.org/abs/2201.08001v1 )

ライセンス: CC BY 4.0
Suhas Kotha, Anirudh Koul, Siddha Ganju, and Meher Kasam(参考訳) リモートセンシングにおける一般的な問題は、自然災害の特定、地理画像検索、環境モニタリングのための基本的な重要なタスクであるシーン分類である。 この分野での最近の進歩は、NASA GIBSの35ペタバイトの衛星画像に反するラベル依存の教師あり学習技術に依存している。 この問題を解決するために,衛星画像の疎ラベル化を効果的に活用するための自己教師付き学習パイプラインCELESTIALを構築した。 このパイプラインは、まずラベルのないデータのイメージ表現を学習し、提供されたラベルの知識を微調整するアルゴリズムであるSimCLRをうまく適応させる。 その結果,CELESTIALはラベルの3分の1しか必要とせず,教師あり手法が実験データセット上で同じ精度を達成する必要があることがわかった。 第1の教師なし層は、NASA Worldviewのリバースイメージ検索(例えば、最小限のサンプルで何年もの間、同様の大気現象を探索する)のような応用を可能にし、第2の教師なし層は高価なデータアノテーションの必要性を著しく低減することができる。 将来的には、CELESTIALパイプラインを他のデータタイプ、アルゴリズム、アプリケーションに一般化できることを願っています。

A common class of problems in remote sensing is scene classification, a fundamentally important task for natural hazards identification, geographic image retrieval, and environment monitoring. Recent developments in this field rely label-dependent supervised learning techniques which is antithetical to the 35 petabytes of unlabelled satellite imagery in NASA GIBS. To solve this problem, we establish CELESTIAL-a self-supervised learning pipeline for effectively leveraging sparsely-labeled satellite imagery. This pipeline successfully adapts SimCLR, an algorithm that first learns image representations on unlabelled data and then fine-tunes this knowledge on the provided labels. Our results show CELESTIAL requires only a third of the labels that the supervised method needs to attain the same accuracy on an experimental dataset. The first unsupervised tier can enable applications such as reverse image search for NASA Worldview (i.e. searching similar atmospheric phenomenon over years of unlabelled data with minimal samples) and the second supervised tier can lower the necessity of expensive data annotation significantly. In the future, we hope we can generalize the CELESTIAL pipeline to other data types, algorithms, and applications.
翻訳日:2022-01-22 00:17:47 公開日:2022-01-20
# (参考訳) PRMI 異種植物根研究のためのミニリゾトロン画像のデータセット [全文訳有]

PRMI: A Dataset of Minirhizotron Images for Diverse Plant Root Study ( http://arxiv.org/abs/2201.08002v1 )

ライセンス: CC BY 4.0
Weihuang Xu, Guohao Yu, Yiming Cui, Romain Gloaguen, Alina Zare, Jason Bonnette, Joel Reyes-Cabrera, Ashish Rajurkar, Diane Rowland, Roser Matamala, Julie D. Jastrow, Thomas E. Juenger, Felix B. Fritschi(参考訳) 植物根系アーキテクチャ(RSA)を理解することは、持続可能性や気候適応を含む様々な植物科学問題領域において重要である。 ミニリゾトロン(mr)技術はrsaを非破壊的に表現型化する手法として広く用いられている。 MR画像中の土壌から根を精密に分画することは、RSAの特徴を研究する上で重要なステップである。 本稿では,MR技術による植物根画像の大規模データセットについて紹介する。 合計で、綿花、パパイヤ、ピーナッツ、ゴマ、サンフラワー、スイッチグラスを含む6種にまたがる72K以上のRGBの根画像がある。 これらの画像は、異なる根年齢、根構造、土壌の種類、土壌表面の深さを含む様々な条件にまたがる。 すべての画像は、それぞれの画像がルートを含むかどうかを示す弱い画像レベルのラベルでアノテートされています。 画像レベルのラベルは、植物根のセグメンテーションタスクにおいて弱い教師付き学習をサポートするために使用できる。 さらに、63k画像が手動で注釈付けされ、各ピクセルがルートに対応するかどうかを示すピクセルレベルのバイナリマスクを生成する。 これらのピクセルレベルのバイナリマスクは、意味セグメンテーションタスクにおける教師あり学習の基盤として使用できる。 このデータセットを導入することで,ルーツの自動分割と,深層学習やその他の画像解析アルゴリズムを用いたrsaの研究を容易にすることを目的としている。

Understanding a plant's root system architecture (RSA) is crucial for a variety of plant science problem domains including sustainability and climate adaptation. Minirhizotron (MR) technology is a widely-used approach for phenotyping RSA non-destructively by capturing root imagery over time. Precisely segmenting roots from the soil in MR imagery is a critical step in studying RSA features. In this paper, we introduce a large-scale dataset of plant root images captured by MR technology. In total, there are over 72K RGB root images across six different species including cotton, papaya, peanut, sesame, sunflower, and switchgrass in the dataset. The images span a variety of conditions including varied root age, root structures, soil types, and depths under the soil surface. All of the images have been annotated with weak image-level labels indicating whether each image contains roots or not. The image-level labels can be used to support weakly supervised learning in plant root segmentation tasks. In addition, 63K images have been manually annotated to generate pixel-level binary masks indicating whether each pixel corresponds to root or not. These pixel-level binary masks can be used as ground truth for supervised learning in semantic segmentation tasks. By introducing this dataset, we aim to facilitate the automatic segmentation of roots and the research of RSA with deep learning and other image analysis algorithms.
翻訳日:2022-01-22 00:13:02 公開日:2022-01-20
# (参考訳) 伝送線路の故障診断のための転送学習 [全文訳有]

Transfer Learning for Fault Diagnosis of Transmission Lines ( http://arxiv.org/abs/2201.08018v1 )

ライセンス: CC BY 4.0
Fatemeh Mohammadi Shakiba, Milad Shojaee, S. Mohsen Azizi, and Mengchu Zhou(参考訳) 近年の人工知能に基づく手法は,伝送路障害のリアルタイム検出と検出と位置推定にニューラルネットワークを用いることで,大きな可能性を示唆している。 様々な長さの送電線を含む電力系統の拡張により、故障検出、分類、位置推定がより困難になっている。 伝送線路データセットは、さまざまなセンサによって継続的に収集されるストリームデータであり、汎用的で高速な障害診断アプローチを必要とする。 電圧や電流を含む新たな収集データセットは、ニューラルネットワークのトレーニングに役立つ十分な正確なラベル(フォールトとフォールトなし)を持っていない可能性がある。 本稿では,事前学習されたLeNet-5畳み込みニューラルネットワークに基づく新しい移動学習フレームワークを提案する。 この方法は、ソース畳み込みニューラルネットワークから知識を転送して異種ターゲットデータセットを予測することにより、伝送線路長やインピーダンスの異なる障害を診断することができる。 この知識を伝達することで、ラベルを十分に持たない様々な伝送路の故障を、既存の方法と比較して迅速かつ効率的に診断することができる。 本手法の有効性と有効性を証明するために,伝送路の長さの異なる7種類のデータセットを用いる。 提案手法は, 発電機の電圧変動, 故障距離の変動, 障害発生角度, 耐故障性, および2つの発電機の位相差に対するロバスト性をよく示し, 伝送線路の故障診断における実用的価値を実証した。

Recent artificial intelligence-based methods have shown great promise in the use of neural networks for real-time sensing and detection of transmission line faults and estimation of their locations. The expansion of power systems including transmission lines with various lengths have made a fault detection, classification, and location estimation process more challenging. Transmission line datasets are stream data which are continuously collected by various sensors and hence, require generalized and fast fault diagnosis approaches. Newly collected datasets including voltages and currents might not have enough and accurate labels (fault and no fault) that are useful to train neural networks. In this paper, a novel transfer learning framework based on a pre-trained LeNet-5 convolutional neural network is proposed. This method is able to diagnose faults for different transmission line lengths and impedances by transferring the knowledge from a source convolutional neural network to predict a dissimilar target dataset. By transferring this knowledge, faults from various transmission lines, without having enough labels, can be diagnosed faster and more efficiently compared to the existing methods. To prove the feasibility and effectiveness of this methodology, seven different datasets that include various lengths of transmission lines are used. The robustness of the proposed methodology against generator voltage fluctuation, variation in fault distance, fault inception angle, fault resistance, and phase difference between the two generators are well shown, thus proving its practical values in the fault diagnosis of transmission lines.
翻訳日:2022-01-22 00:01:50 公開日:2022-01-20
# (参考訳) heam:ディープニューラルネットワークの高効率近似マルチプライア最適化 [全文訳有]

HEAM: High-Efficiency Approximate Multiplier Optimization for Deep Neural Networks ( http://arxiv.org/abs/2201.08022v1 )

ライセンス: CC BY 4.0
Su Zheng, Zhen Li, Yao Lu, Jingbo Gao, Jide Zhang, Lingli Wang(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、人工知能アプリケーションに広く適用されており、膨大な計算、大規模な消費電力、高レイテンシのコストで、有望なパフォーマンスを達成する。 軽量ニューラルネットワークや効率的なハードウェアアクセラレータなど、レイテンシと消費電力の課題に対処する、さまざまなソリューションが提案されている。 さらに、量子化の研究は計算コストを削減し、DNNの誤差耐性を示す。 そこで本研究では,DNNの近似乗算器の自動設計のためのアプリケーション固有の最適化手法を提案する。 提案手法は,DNNから抽出した確率分布に基づいて誤差を最小化し,近似乗算器を最適化する。 最適化された近似乗算器をDNNに適用することにより、広く使われているMNIST、FashionMNIST、CIFAR-10データセットにおいて、それぞれ12.17%、消費電力23.38%、レイテンシ16.53%よりも1.60%、15.32%、20.19%高い精度が得られる。 正確な乗算器と比較して、最適化された乗算器は面積、消費電力、レイテンシをそれぞれ36.88%、52.45%、26.63%削減する。 fpga および asic ベースの dnn 加速器モジュールに適用することにより,提案手法の有効性を示すため,lut 利用率の低さと競合最大周波数および消費電力の小さい領域をそれぞれ求め,dnn 加速器のハードウェアコスト低減効果を示す。

Deep neural networks (DNNs) are widely applied to artificial intelligence applications, achieving promising performance at the cost of massive computation, large power consumption, and high latency. Diverse solutions have been proposed to cope with the challenge of latency and power consumption, including light-weight neural networks and efficient hardware accelerators. Moreover, research on quantization reduces the cost of computation and shows the error resiliency of DNNs. To improve the latency and power efficiency of hardware accelerators by exploiting the error resiliency, we propose an application-specific optimization method for the automatic design of approximate multipliers for DNNs. The proposed method optimizes an approximate multiplier by minimizing the error according to the probability distributions extracted from DNNs. By applying the optimized approximate multiplier to a DNN, we obtain 1.60%, 15.32%, and 20.19% higher accuracies than the best reproduced approximate multiplier on the widely used MNIST, FashionMNIST, and CIFAR-10 datasets, respectively, with 12.17% smaller area, 23.38% less power consumption, and 16.53% lower latency. Compared with an exact multiplier, the optimized multiplier reduces the area, power consumption, and latency by 36.88%, 52.45%, and 26.63%, respectively. Applied to FPGA-based and ASIC-based DNN accelerator modules, our approximate multiplier obtains low LUT utilization and small area respectively with competitive max frequency and power consumption, which shows the effectiveness of the proposed method in reducing the hardware cost of DNN accelerators.
翻訳日:2022-01-21 23:46:02 公開日:2022-01-20
# (参考訳) 深層学習最適化景観におけるフラットオプティマス回復のための低パスフィルタSGD

Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning Optimization Landscape ( http://arxiv.org/abs/2201.08025v1 )

ライセンス: CC BY 4.0
Devansh Bisla, Jing Wang, Anna Choromanska(参考訳) 本稿では,ローカル・ミニマ周辺における深層学習(DL)損失景観のシャープさについて検討し,DLモデルの一般化能力に基づく体系的メカニズムを明らかにする。 我々の分析は、様々なネットワークと最適化パラメータにまたがって行われ、様々なシャープネス対策を施す。 これらの尺度を比較し,低パスフィルタに基づく尺度がdlモデルの一般化能力と最も高い相関を示し,データとラベルノイズの両方に対して高い頑健性を示し,さらにニューラルネットワークの二重降下挙動を追跡できることを示した。 次に,SGDライクな手法を用いて,DL最適化ランドスケープ内の平坦領域を積極的に探索する低域フィルタ (LPF) を用いて最適化アルゴリズムを導出する。 LPF-SGDと呼ばれる提案アルゴリズムの更新は、フィルタカーネルと損失関数との畳み込みの勾配によって決定され、MCサンプリングを用いて効率的に計算できる。 実験により,本アルゴリズムは一般のDLトレーニング戦略と比較して,優れた一般化性能が得られることを示す。 理論面では、LPF-SGD が SGD よりも小さい一般化誤差でより良い最適点に収束することを証明している。

In this paper, we study the sharpness of a deep learning (DL) loss landscape around local minima in order to reveal systematic mechanisms underlying the generalization abilities of DL models. Our analysis is performed across varying network and optimizer hyper-parameters, and involves a rich family of different sharpness measures. We compare these measures and show that the low-pass filter-based measure exhibits the highest correlation with the generalization abilities of DL models, has high robustness to both data and label noise, and furthermore can track the double descent behavior for neural networks. We next derive the optimization algorithm, relying on the low-pass filter (LPF), that actively searches the flat regions in the DL optimization landscape using SGD-like procedure. The update of the proposed algorithm, that we call LPF-SGD, is determined by the gradient of the convolution of the filter kernel with the loss function and can be efficiently computed using MC sampling. We empirically show that our algorithm achieves superior generalization performance compared to the common DL training strategies. On the theoretical front, we prove that LPF-SGD converges to a better optimal point with smaller generalization error than SGD.
翻訳日:2022-01-21 23:31:25 公開日:2022-01-20
# (参考訳) 機械学習と知識工学の組み合わせによるソーシャルネットワークにおけるフェイクニュースの検出 [全文訳有]

Combining Machine Learning with Knowledge Engineering to detect Fake News in Social Networks-a survey ( http://arxiv.org/abs/2201.08032v1 )

ライセンス: CC BY 4.0
Sajjad Ahmed, Knut Hinkelmann, Flavio Corradini(参考訳) ソーシャルメディアやニュースメディアで偽ニュースが広まり、今や注目を浴びる新たな研究テーマとなった。 ニュースメディアやソーシャルメディアでは、情報は高速に拡散されるが、正確性がないため、検出メカニズムは偽ニュースの拡散に対処するのに十分な速さでニュースを予測することができる。 個人や社会に悪影響を及ぼす可能性がある。 そのため、ソーシャルメディア上での偽ニュースの検出は重要であり、近年は技術的に難しい問題となっている。 機械学習は、実際の単語データによる複雑な問題を解決するのに役立つため、暗黙の知識に基づく人工知能システムを構築するのに役立つことが分かっていました。 一方、知識工学は、その知識を認識している専門家の知識を表現するのに役立ちます。 このため,機械学習と知識工学の統合が偽ニュースの検出に有用であることが示唆された。 本稿では,フェイクニュース,フェイクニュースの重要性,さまざまな領域におけるフェイクニュースの全体的な影響,ソーシャルメディア上でフェイクニュースを検出するさまざまな方法,類似のアプリケーション領域を克服する上で有効な既存の検出アルゴリズム,最後に,フェイクニュースに対抗するためのデータ駆動知識とエンジニアリング知識の組み合わせを提案する。 我々は,3つの異なるテキスト分類器,姿勢検出アプリケーション,フェイクニュースの検出に有効な既存手法を検証し,比較した。 さらに,偽ニュースが社会に与える影響についても検討した。 公開可能なデータセットと提案するフェイクニュース検出の組み合わせの実験的評価は、フェイクニュースの検出に有効である。

Due to extensive spread of fake news on social and news media it became an emerging research topic now a days that gained attention. In the news media and social media the information is spread highspeed but without accuracy and hence detection mechanism should be able to predict news fast enough to tackle the dissemination of fake news. It has the potential for negative impacts on individuals and society. Therefore, detecting fake news on social media is important and also a technically challenging problem these days. We knew that Machine learning is helpful for building Artificial intelligence systems based on tacit knowledge because it can help us to solve complex problems due to real word data. On the other side we knew that Knowledge engineering is helpful for representing experts knowledge which people aware of that knowledge. Due to this we proposed that integration of Machine learning and knowledge engineering can be helpful in detection of fake news. In this paper we present what is fake news, importance of fake news, overall impact of fake news on different areas, different ways to detect fake news on social media, existing detections algorithms that can help us to overcome the issue, similar application areas and at the end we proposed combination of data driven and engineered knowledge to combat fake news. We studied and compared three different modules text classifiers, stance detection applications and fact checking existing techniques that can help to detect fake news. Furthermore, we investigated the impact of fake news on society. Experimental evaluation of publically available datasets and our proposed fake news detection combination can serve better in detection of fake news.
翻訳日:2022-01-21 23:30:08 公開日:2022-01-20
# (参考訳) 日本語文法誤り訂正の自動評価のための品質推定データセットの構築 [全文訳有]

Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction ( http://arxiv.org/abs/2201.08038v1 )

ライセンス: CC BY 4.0
Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi(参考訳) 文法的誤り訂正(GEC)において,自動評価はGECシステムの研究開発において重要な要素である。 従来,手動評価によるデータセットから構築した品質評価モデルは,参照文を使わずに英語GECの自動評価において高い性能が得られることが実証されてきた。 . しかし、品質推定モデルを構築するためのデータセットがないため、日本語での品質推定モデルはまだ研究されていない。 そこで本研究では,手作業による評価を用いた品質評価データセットを作成し,日本語GECの自動評価モデルを構築した。 さらに,日本語品質評価モデルの構築におけるデータセットの有用性を検証するメタ評価を行った。

In grammatical error correction (GEC), automatic evaluation is an important factor for research and development of GEC systems. Previous studies on automatic evaluation have demonstrated that quality estimation models built from datasets with manual evaluation can achieve high performance in automatic evaluation of English GEC without using reference sentences.. However, quality estimation models have not yet been studied in Japanese, because there are no datasets for constructing quality estimation models. Therefore, in this study, we created a quality estimation dataset with manual evaluation to build an automatic evaluation model for Japanese GEC. Moreover, we conducted a meta-evaluation to verify the dataset's usefulness in building the Japanese quality estimation model.
翻訳日:2022-01-21 23:13:03 公開日:2022-01-20
# (参考訳) tervit: 効率的な三元視覚トランスフォーマー [全文訳有]

TerViT: An Efficient Ternary Vision Transformer ( http://arxiv.org/abs/2201.08050v1 )

ライセンス: CC BY 4.0
Sheng Xu, Yanjing Li, Teli Ma, Bohan Zeng, Baochang Zhang, Peng Gao and Jinhu Lu(参考訳) 視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。 本稿では,実値と三値パラメータ間の損失表面ギャップが大きいvitsの重み付けに挑戦する三元ビジョントランスフォーマ(tervit)を提案する。 この問題に対処するために,まず8ビットトランスフォーマーとTerViTを訓練し,従来の方法よりも優れた最適化を実現するプログレッシブトレーニング手法を提案する。 さらに,各行列を異なるチャネルに分割し,それぞれが一意な分布と三段化間隔を持つチャネル毎に三段化を導入する。 一般的なDeiTやSwinのバックボーンにメソッドを適用することで,競争性能を向上できることを示す。 例えば、TerViTは、ImageNetデータセットで79%のTop-1精度を達成しつつ、Swin-Sを13.1MBモデルサイズに定量化することができる。

Vision transformers (ViTs) have demonstrated great potential in various visual tasks, but suffer from expensive computational and memory cost problems when deployed on resource-constrained devices. In this paper, we introduce a ternary vision transformer (TerViT) to ternarize the weights in ViTs, which are challenged by the large loss surface gap between real-valued and ternary parameters. To address the issue, we introduce a progressive training scheme by first training 8-bit transformers and then TerViT, and achieve a better optimization than conventional methods. Furthermore, we introduce channel-wise ternarization, by partitioning each matrix to different channels, each of which is with an unique distribution and ternarization interval. We apply our methods to popular DeiT and Swin backbones, and extensive results show that we can achieve competitive performance. For example, TerViT can quantize Swin-S to 13.1MB model size while achieving above 79% Top-1 accuracy on ImageNet dataset.
翻訳日:2022-01-21 23:01:46 公開日:2022-01-20
# (参考訳) 強化学習における2サンプルテスト [全文訳有]

Two-Sample Testing in Reinforcement Learning ( http://arxiv.org/abs/2201.08078v1 )

ライセンス: CC BY 4.0
Martin Waltz and Ostap Okhrin(参考訳) 価値に基づく強化学習アルゴリズムは、ゲーム、ロボティクス、その他の現実世界のアプリケーションにおいて強力なパフォーマンスを示している。 最も人気のあるサンプルベースメソッドは$q$-learningである。 特定のポリシーに従うと、$Q$-valueは状態-アクションペアの期待値であり、その後、アルゴリズムは現在の$Q$-valueを観測された報酬と次の状態の$Q$-valueの最大値に調整することで更新を行う。 この手順は最大化バイアスを導入し、Double $Q$-Learningのようなソリューションも検討されている。 バイアス問題を統計的に定式化し、確率変数の集合の最大期待値(MEV)を推定する事例とみなす。 平均の2サンプルテストに基づいて,T$-Estimator (TE)を提案する。 TEは、基礎となる仮説テストの重要性のレベルを調整することで、過大評価と過小評価の間に柔軟に補間する。 K$-Estimator (KE) と呼ばれる一般化は、ほぼ任意のカーネル関数に依存しながら、TEと同じバイアスと分散境界に従う。 TEとKEを用いて、$Q$-LearningとそのニューラルネットワークアナログであるDeep $Q$-Networkの修正を導入する。 提案する推定器とアルゴリズムは、様々なタスクと環境上で徹底的にテストされ、検証され、teとkeのパフォーマンスポテンシャルを示す。

Value-based reinforcement-learni ng algorithms have shown strong performances in games, robotics, and other real-world applications. The most popular sample-based method is $Q$-Learning. A $Q$-value is the expected return for a state-action pair when following a particular policy, and the algorithm subsequently performs updates by adjusting the current $Q$-value towards the observed reward and the maximum of the $Q$-values of the next state. The procedure introduces maximization bias, and solutions like Double $Q$-Learning have been considered. We frame the bias problem statistically and consider it an instance of estimating the maximum expected value (MEV) of a set of random variables. We propose the $T$-Estimator (TE) based on two-sample testing for the mean. The TE flexibly interpolates between over- and underestimation by adjusting the level of significance of the underlying hypothesis tests. A generalization termed $K$-Estimator (KE) obeys the same bias and variance bounds as the TE while relying on a nearly arbitrary kernel function. Using the TE and the KE, we introduce modifications of $Q$-Learning and its neural network analog, the Deep $Q$-Network. The proposed estimators and algorithms are thoroughly tested and validated on a diverse set of tasks and environments, illustrating the performance potential of the TE and KE.
翻訳日:2022-01-21 22:50:04 公開日:2022-01-20
# (参考訳) なぜそれと比較しなかったのですか? ベースラインとして使用する書類の識別 [全文訳有]

Why Did You Not Compare With That? Identifying Papers for Use as Baselines ( http://arxiv.org/abs/2201.08089v1 )

ライセンス: CC BY 4.0
Manjot Bedi, Tanisha Pandey, Sumit Bhatia and Tanmoy Chakraborty(参考訳) 本稿では,ベースラインとして使用される論文を自動的に識別するタスクを提案する。 私たちはこの問題を,論文中のすべての参照をベースラインあるいは非ベースラインに分類する,バイナリ分類タスクとして捉えています。 これは、ベースライン参照が論文に現れる多くの方法があるため、難しい問題である。 我々は,aclアンソロジーコーパスから2,075ドルの論文のデータセットを作成し,それらの参考文献を手作業で2つのクラスにアノテートした。 本研究は,ベースライン分類タスクに適用した場合の4つの状態参照ロール分類法より優れる,ベースライン分類タスクのためのマルチモジュールアテンションベースのニューラル分類器を開発する。 また,提案する分類器による誤りの分析を行い,ベースライン同定を課題とする課題を抽出した。

We propose the task of automatically identifying papers used as baselines in a scientific article. We frame the problem as a binary classification task where all the references in a paper are to be classified as either baselines or non-baselines. This is a challenging problem due to the numerous ways in which a baseline reference can appear in a paper. We develop a dataset of $2,075$ papers from ACL anthology corpus with all their references manually annotated as one of the two classes. We develop a multi-module attention-based neural classifier for the baseline classification task that outperforms four state-of-the-art citation role classification methods when applied to the baseline classification task. We also present an analysis of the errors made by the proposed classifier, eliciting the challenges that make baseline identification a challenging problem.
翻訳日:2022-01-21 22:12:29 公開日:2022-01-20
# (参考訳) 術前後:周術期患者ケアのための機械学習 [全文訳有]

Before and After: Machine learning for perioperative patient care ( http://arxiv.org/abs/2201.08095v1 )

ライセンス: CC BY 4.0
Iuliia Ganskaia and Stanislav Abaimov(参考訳) 何世紀にもわたって、看護は複雑な手動操作を必要とする仕事として知られてきた。 全ての装置と技術は、知識と専門家の直感を持つ人をサポートするためにのみ発明された。 人工知能の台頭と医療におけるデジタルデータフローの継続的な増加に伴い、患者ケアの改善と看護師の労働集約労働条件の低減のための新しいツールが登場している。 この学際横断的なレビューは、コンピュータサイエンスと看護のギャップを橋渡しすることを目的としている。 手術前後の患者のケアにおける機械学習とデータ処理の方法の概要と分類を行う。 プロセス、患者、オペレーター、フィードバック、技術中心の分類で構成される。 提示された分類は患者事例の技術的側面に基づいている。

For centuries nursing has been known as a job that requires complex manual operations, that cannot be automated or replaced by any machinery. All the devices and techniques have been invented only to support, but never fully replace, a person with knowledge and expert intuition. With the rise of Artificial Intelligence and continuously increasing digital data flow in healthcare, new tools have arrived to improve patient care and reduce the labour-intensive work conditions of a nurse. This cross-disciplinary review aims to build a bridge over the gap between computer science and nursing. It outlines and classifies the methods for machine learning and data processing in patient care before and after the operation. It comprises of Process-, Patient-, Operator-, Feedback-, and Technology-centric classifications. The presented classifications are based on the technical aspects of patient case.
翻訳日:2022-01-21 21:59:10 公開日:2022-01-20
# (参考訳) ImageNetの誤分類画像から何が学べるか? [全文訳有]

What can we learn from misclassified ImageNet images? ( http://arxiv.org/abs/2201.08098v1 )

ライセンス: CC BY 4.0
Shixian Wen, Amanda Sofie Rios, Kiran Lekkala, Laurent Itti(参考訳) 分類ミスのイメージネット画像のパターンを理解することは特に重要であり、より一般化したディープニューラルネットワーク(DNN)の設計を導くことができる。 しかし、ImageNetの豊かさは、研究者が誤分類の有用なパターンを視覚的に見つけるのを困難にしている。 ここでは、これらのパターンを見つけるために、"Superclassing ImageNet data"を提案する。 ImageNetのサブセットで、それぞれ7-116のサブクラス(52種類の鳥、116種の犬)を含む10のスーパークラスで構成されている。 このデータセット上でニューラルネットワークをトレーニングすることで、 (i)過分類は、スーパークラスにまたがることが多いが、主にスーパークラス内のサブクラスに属する。 (ii)特定のスーパークラスのサブクラスのみを訓練したアンサンブルネットワークは、すべてのスーパークラスのすべてのサブクラスで訓練された同じネットワークよりもパフォーマンスが良い。 そこで,2段階のSuper-Subフレームワークを提案する。 (i)このフレームワークは、まず、ジェネラリストのスーパークラスレベルネットワークを用いてスーパークラスを推論し、次に、最終サブクラスレベル分類のための専用ネットワークを使用することにより、全体的な分類性能を3.3%向上させる。 (II)N級スーパークラスの総パラメータ記憶コストは、単一ネットワークと比較してN+1に増加するが、微調整、デルタ、量子化を意識したトレーニング技術により0.2N+1に削減できる。 この効率的な実装のもう1つの利点は、推論中のGPUのメモリコストが1つのネットワークのみを使用することである。 その理由は、サブクラスレベルのネットワークに小さなパラメータの変動(デルタ)を加えることで、各サブクラスレベルのネットワークを開始するからである。 (iii)最後に、非常に大きなネットワークが過フィッティングや勾配の消失に苦しむことが多いため、バニラネットワークのサイズをスケールアップするよりも、よりスケーラブルで汎用性のあるフレームワークを約束しています。

Understanding the patterns of misclassified ImageNet images is particularly important, as it could guide us to design deep neural networks (DNN) that generalize better. However, the richness of ImageNet imposes difficulties for researchers to visually find any useful patterns of misclassification. Here, to help find these patterns, we propose "Superclassing ImageNet dataset". It is a subset of ImageNet which consists of 10 superclasses, each containing 7-116 related subclasses (e.g., 52 bird types, 116 dog types). By training neural networks on this dataset, we found that: (i) Misclassifications are rarely across superclasses, but mainly among subclasses within a superclass. (ii) Ensemble networks trained each only on subclasses of a given superclass perform better than the same network trained on all subclasses of all superclasses. Hence, we propose a two-stage Super-Sub framework, and demonstrate that: (i) The framework improves overall classification performance by 3.3%, by first inferring a superclass using a generalist superclass-level network, and then using a specialized network for final subclass-level classification. (ii) Although the total parameter storage cost increases to a factor N+1 for N superclasses compared to using a single network, with finetuning, delta and quantization aware training techniques this can be reduced to 0.2N+1. Another advantage of this efficient implementation is that the memory cost on the GPU during inference is equivalent to using only one network. The reason is we initiate each subclass-level network through addition of small parameter variations (deltas) to the superclass-level network. (iii) Finally, our framework promises to be more scalable and generalizable than the common alternative of simply scaling up a vanilla network in size, since very large networks often suffer from overfitting and gradient vanishing.
翻訳日:2022-01-21 21:50:21 公開日:2022-01-20
# (参考訳) ランキング分布の統計的深さ関数:定義、統計的学習および応用 [全文訳有]

Statistical Depth Functions for Ranking Distributions: Definitions, Statistical Learning and Applications ( http://arxiv.org/abs/2201.08105v1 )

ライセンス: CC BY 4.0
Morgane Goibert, St\'ephan Cl\'emen\c{c}on, Ekhine Irurozki, Pavlo Mozharovskyi(参考訳) 中央集権/合意の概念は、ランクデータの統計的な要約を与えるために広く研究され、すなわち、有限集合のランダムな置換 $\Sigma$, $\{1,\; \ldots,\; n\}$ with $n\geq 1$ say が実現された。 これは$\sigma$のディストリビューションの1つの側面のみに光を当てるので、他の有益な特徴を無視する可能性がある。 本論文は, 対称群における深さ関数の計量に基づく概念を用いて, ランクデータ分析のための数量, ランク, 統計手順の類似性を定義することを目的としている。 後者は、$\mathfrak{s}_n$ 上のベクトル空間構造の欠如を克服し、$p$ のサポートにおける置換の中心外順序を定義し、古典的な計量に基づくコンセンサスランキング(最も深い置換に対応する)の定式化を拡張する。 ランク付け深度が理想的に持つべき公理的性質はリストされ、計算と一般化の問題は長く研究されている。 理論解析の他に、様々な統計的タスクに導入された新しい概念や手法の関連性も、多くの数値実験によって支えられている。

The concept of median/consensus has been widely investigated in order to provide a statistical summary of ranking data, i.e. realizations of a random permutation $\Sigma$ of a finite set, $\{1,\; \ldots,\; n\}$ with $n\geq 1$ say. As it sheds light onto only one aspect of $\Sigma$'s distribution $P$, it may neglect other informative features. It is the purpose of this paper to define analogs of quantiles, ranks and statistical procedures based on such quantities for the analysis of ranking data by means of a metric-based notion of depth function on the symmetric group. Overcoming the absence of vector space structure on $\mathfrak{S}_n$, the latter defines a center-outward ordering of the permutations in the support of $P$ and extends the classic metric-based formulation of consensus ranking (medians corresponding then to the deepest permutations). The axiomatic properties that ranking depths should ideally possess are listed, while computational and generalization issues are studied at length. Beyond the theoretical analysis carried out, the relevance of the novel concepts and methods introduced for a wide variety of statistical tasks are also supported by numerous numerical experiments.
翻訳日:2022-01-21 21:39:26 公開日:2022-01-20
# (参考訳) 安全アウェアマルチエージェント・アレンツェシーラーニング

Safety-AwareMulti-Ag ent Apprenticeship Learning ( http://arxiv.org/abs/2201.08111v1 )

ライセンス: CC BY-SA 4.0
Junchen Zhao, Francesco Belardinelli(参考訳) 本研究の目的は,シングルエージェント学習フレームワークからマルチエージェント学習フレームワークへ,既存の強化学習モデルの有用性と効率を向上させるため,論文"safety-aware apprenticeship learning"で述べた手法に基づく拡張を行うことである。 プロジェクトへの私たちの貢献は、以下の点で示されています。 1. 単エージェントシナリオから多エージェントシナリオへの逆強化学習モデルの拡張を行う。 このプロジェクトへの最初の貢献は、シングルエージェントシナリオからではなく、マルチエージェントシナリオで専門家の振る舞いから安全な報酬関数を抽出するケースを検討することです。 第2のコントリビューションは,Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し,最後に拡張に基づいて新しいLearning Frameworkを設計することです。 3. このプロジェクトへの最終的な貢献は、私がSingle-Agent Inverse Reinforcement Learningフレームワークの拡張のパフォーマンスを経験的に評価することです。

Our objective of this project is to make the extension based on the technique mentioned in the paper "Safety-Aware Apprenticeship Learning" to improve the utility and the efficiency of the existing Reinforcement Learning model from a Single-Agent Learning framework to a Multi-Agent Learning framework. Our contributions to the project are presented in the following bullet points: 1. Regarding the fact that we will add an extension to the Inverse Reinforcement Learning model from a Single-Agent scenario to a Multi-Agentscenario. Our first contribution to this project is considering the case of extracting safe reward functions from expert behaviors in a Multi-Agent scenario instead of being from the Single-Agent scenario. 2. Our second contribution is extending the Single-Agent Learning Framework to a Multi-Agent Learning framework and designing a novel Learning Framework based on the extension in the end. 3. Our final contribution to this project is evaluating empirically the performance of my extension to the Single-Agent Inverse Reinforcement Learning framework.
翻訳日:2022-01-21 20:41:02 公開日:2022-01-20
# (参考訳) 感性決定図における信念の改訂 [全文訳有]

Belief Revision in Sentential Decision Diagrams ( http://arxiv.org/abs/2201.08112v1 )

ライセンス: CC BY 4.0
Lilith Mattei and Alessandro Facchini and Alessandro Antonucci(参考訳) 信念修正は、新しい情報が利用可能になったときに知識ベースを変更し、また多くの望ましい特性を尊重するタスクである。 古典的信念修正スキームは、命題的知識をコンパクトに表現する古典的形式主義である \emph{binary decision diagrams} (BDDs) に既に特化されている。 これらの結果は、標準性を保証するように設計されたBDDの特別なクラスである \emph{ordered} BDDs (OBDDs) にも適用される。 しかし、これらのリビジョンは、BDDのサブクラスではないが、OBDDを一般化するブール回路の典型的にはコンパクトだが、なお標準クラスである 'emph{sentential decision diagrams} (SDDs) には適用できない。 本稿では,このギャップを埋めるために,ダラルリビジョンの構文的特徴付けに基づくsdsの汎用リビジョンアルゴリズムを導出する。 DNFの特殊な手順も提示する。 ランダムに生成した知識ベースを用いた予備実験は、SDD形式内で直接リビジョンを行う利点を示している。

Belief revision is the task of modifying a knowledge base when new information becomes available, while also respecting a number of desirable properties. Classical belief revision schemes have been already specialised to \emph{binary decision diagrams} (BDDs), the classical formalism to compactly represent propositional knowledge. These results also apply to \emph{ordered} BDDs (OBDDs), a special class of BDDs, designed to guarantee canonicity. Yet, those revisions cannot be applied to \emph{sentential decision diagrams} (SDDs), a typically more compact but still canonical class of Boolean circuits, which generalizes OBDDs, while not being a subclass of BDDs. Here we fill this gap by deriving a general revision algorithm for SDDs based on a syntactic characterisation of Dalal revision. A specialised procedure for DNFs is also presented. Preliminary experiments performed with randomly generated knowledge bases show the advantages of directly perform revision within SDD formalism.
翻訳日:2022-01-21 20:40:04 公開日:2022-01-20
# (参考訳) 強化学習におけるスキル伝達の事前, 階層, 情報非対称性 [全文訳有]

Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning ( http://arxiv.org/abs/2201.08115v1 )

ライセンス: CC0 1.0
Sasha Salter, Kristian Hartikainen, Walter Goodwin, Ingmar Posner(参考訳) 過去の経験から行動を発見し、それらを新しいタスクに移す能力は、現実世界でサンプル効率よく行動するインテリジェントエージェントの目印である。 具体化された強化学習者を同じ能力で獲得することは、ロボット工学への展開を成功させる上で重要である。 階層的かつKL規則化されたRLは、ここでは個別に約束するが、おそらくハイブリッドアプローチはそれぞれの利点を組み合わせることができるだろう。 これらの分野の鍵は、学習するスキルのバイアスに対する情報非対称性の使用である。 非対称選択は伝達可能性に大きな影響を及ぼすが、先行研究は、主に直観に動機づけられた、狭い範囲の非対称性を探索してきた。 本稿では,シーケンシャルタスク間のスキルの表現性と伝達性の間に,情報非対称性によって制御される重要なトレードオフを理論的かつ実証的に示す。 この知見を活かし、非対称性を選択するための原則的なアプローチを提供し、ベースラインでは解決できない複雑なロボットブロック積み重ねドメインに適用し、サンプル効率の高い転送学習において、階層的kl正規化rlの有効性を示す。

The ability to discover behaviours from past experience and transfer them to new tasks is a hallmark of intelligent agents acting sample-efficiently in the real world. Equipping embodied reinforcement learners with the same ability may be crucial for their successful deployment in robotics. While hierarchical and KL-regularized RL individually hold promise here, arguably a hybrid approach could combine their respective benefits. Key to these fields is the use of information asymmetry to bias which skills are learnt. While asymmetric choice has a large influence on transferability, prior works have explored a narrow range of asymmetries, primarily motivated by intuition. In this paper, we theoretically and empirically show the crucial trade-off, controlled by information asymmetry, between the expressivity and transferability of skills across sequential tasks. Given this insight, we provide a principled approach towards choosing asymmetry and apply our approach to a complex, robotic block stacking domain, unsolvable by baselines, demonstrating the effectiveness of hierarchical KL-regularized RL, coupled with correct asymmetric choice, for sample-efficient transfer learning.
翻訳日:2022-01-21 20:20:14 公開日:2022-01-20
# (参考訳) 道路交通ジャンクション運転における深層強化学習の自己認識安全性 [全文訳有]

Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic Junction Driving ( http://arxiv.org/abs/2201.08116v1 )

ライセンス: CC BY 4.0
Zehong Cao, Jie Yun(参考訳) 自動運転は公共の関心の最前線にあり、広範囲にわたる懸念に対する重要な議論は交通システムの安全性である。 深い強化学習(DRL)は、障害物回避のためのソリューションを提供する自動運転に適用されている。 しかし、道路交通ジャンクションのシナリオでは、車両は一般的に輸送環境から部分的な観察を受けるが、DRLは累積報酬を最大化することで信頼性のあるモデルを訓練するために長期的な報酬に頼る必要がある。 安全上の懸念は通常、報酬関数の設計において考慮されるが、自律運転におけるDRLアルゴリズムの有効性を直接評価する重要な指標とはみなされていない。 本研究では,3つの基準drlモデル(dqn,a2c,ppo)の安全性評価を行い,衝突率,成功率,凍結率,総報酬の4つの指標に基づいて,交差点やラウンドアラウンドアラウンドアラウンドシナリオのような複雑な道路交差点環境における異常車両の安全性評価を改善するため,drlの注意機構から自己認識モジュールを提案する。 トレーニングおよびテスト段階における2つの実験結果から,安全性能の低いベースラインDRLが得られたが,提案した自己認識注意-DQNは,交差点およびラウンドアバウンドシナリオにおける安全性を著しく向上させることができる。

Autonomous driving has been at the forefront of public interest, and a pivotal debate to widespread concerns is safety in the transportation system. Deep reinforcement learning (DRL) has been applied to autonomous driving to provide solutions for obstacle avoidance. However, in a road traffic junction scenario, the vehicle typically receives partial observations from the transportation environment, while DRL needs to rely on long-term rewards to train a reliable model by maximising the cumulative rewards, which may take the risk when exploring new actions and returning either a positive reward or a penalty in the case of collisions. Although safety concerns are usually considered in the design of a reward function, they are not fully considered as the critical metric to directly evaluate the effectiveness of DRL algorithms in autonomous driving. In this study, we evaluated the safety performance of three baseline DRL models (DQN, A2C, and PPO) and proposed a self-awareness module from an attention mechanism for DRL to improve the safety evaluation for an anomalous vehicle in a complex road traffic junction environment, such as intersection and roundabout scenarios, based on four metrics: collision rate, success rate, freezing rate, and total reward. Our two experimental results in the training and testing phases revealed the baseline DRL with poor safety performance, while our proposed self-awareness attention-DQN can significantly improve the safety performance in intersection and roundabout scenarios.
翻訳日:2022-01-21 19:24:00 公開日:2022-01-20
# (参考訳) リモートセンシングにおける大規模クロスモーダルテキスト画像検索のための深い教師なしコントラストハッシュ [全文訳有]

Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal Text-Image Retrieval in Remote Sensing ( http://arxiv.org/abs/2201.08125v1 )

ライセンス: CC BY 4.0
Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) 大規模マルチモーダルデータ(例えば、異なるセンサやテキストによって取得された衛星画像など)のアーカイブが利用可能であることから、任意のモーダル性におけるクエリに基づいて、異なるモーダルにまたがる意味的関連データを検索し検索するクロスモーダル検索システムの開発がrsで注目されている。 本稿では,あるモダリティ(例えばテキスト)からのクエリを,別のモダリティ(例えば画像)からのアーカイブエントリとマッチングできるクロスモーダルなテキスト画像検索に注目する。 既存のクロスモーダルテキスト画像検索システムの多くは、ラベル付きトレーニングサンプルを多用しており、本質的な特徴から高速かつメモリ効率の高い検索を許さない。 これらの問題は、rsにおける大規模アプリケーションに対する既存のクロスモーダル検索システムの適用性を制限している。 そこで,本稿では,rsテキスト画像検索のためのduch(deep unsupervised cross-modal contrastive hashing)方式を提案する。 提案したDUCHは2つの主モジュールから構成されている。 1)特徴抽出モジュール(テキスト画像モダリティの深い表現を抽出する)、および 2)ハッシュモジュール(抽出された表現からクロスモーダルバイナリハッシュコードを生成することを学ぶ)。 ハッシュモジュール内では、以下を含む新しい多目的損失関数を導入する。 一 モダリティ内及びモダリティ間における類似性保存を可能にする対比目的 二 相互表現の整合性のために二つのモダリティにまたがって施行される敵意 三 代表ハッシュコードを生成するための二元化目的 実験の結果,提案するDUCHは,RSの2つのマルチモーダル(画像とテキスト)ベンチマークアーカイブ上で,最先端の教師なしのクロスモーダルハッシュ法より優れていた。 私たちのコードはhttps://git.tu-berli n.de/rsim/duchで公開しています。

Due to the availability of large-scale multi-modal data (e.g., satellite images acquired by different sensors, text sentences, etc) archives, the development of cross-modal retrieval systems that can search and retrieve semantically relevant data across different modalities based on a query in any modality has attracted great attention in RS. In this paper, we focus our attention on cross-modal text-image retrieval, where queries from one modality (e.g., text) can be matched to archive entries from another (e.g., image). Most of the existing cross-modal text-image retrieval systems require a high number of labeled training samples and also do not allow fast and memory-efficient retrieval due to their intrinsic characteristics. These issues limit the applicability of the existing cross-modal retrieval systems for large-scale applications in RS. To address this problem, in this paper we introduce a novel deep unsupervised cross-modal contrastive hashing (DUCH) method for RS text-image retrieval. The proposed DUCH is made up of two main modules: 1) feature extraction module (which extracts deep representations of the text-image modalities); and 2) hashing module (which learns to generate cross-modal binary hash codes from the extracted representations). Within the hashing module, we introduce a novel multi-objective loss function including: i) contrastive objectives that enable similarity preservation in both intra- and inter-modal similarities; ii) an adversarial objective that is enforced across two modalities for cross-modal representation consistency; iii) binarization objectives for generating representative hash codes. Experimental results show that the proposed DUCH outperforms state-of-the-art unsupervised cross-modal hashing methods on two multi-modal (image and text) benchmark archives in RS. Our code is publicly available at https://git.tu-berli n.de/rsim/duch.
翻訳日:2022-01-21 19:03:49 公開日:2022-01-20
# (参考訳) GeoFill: 複雑な幾何学によるシーンの参照型画像描画 [全文訳有]

GeoFill: Reference-Based Image Inpainting of Scenes with Complex Geometry ( http://arxiv.org/abs/2201.08131v1 )

ライセンス: CC BY 4.0
Yunhan Zhao, Connelly Barnes, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi, Charless Fowlkes(参考訳) 参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。 以前の最先端のtransfillは、ソースイメージに複数のホモグラフを配置し、それらを融合して穴埋めする。 運動パイプラインの構造や単眼深度推定の最近の進歩に触発されて, ヒューリスティックな平面仮定を必要としない, より原理的なアプローチを提案する。 本研究では,単眼深度推定とカメラ間の相対的ポーズ予測を行い,微分可能な3次元再投影と,相対的ポーズと深度マップスケールとオフセットの合同最適化により,基準画像を目標に調整する。 提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。 我々は、我々のアプローチが大きな穴の処理にも優れていることを実験的に検証した。

Reference-guided image inpainting restores image pixels by leveraging the content from another reference image. The previous state-of-the-art, TransFill, warps the source image with multiple homographies, and fuses them together for hole filling. Inspired by structure from motion pipelines and recent progress in monocular depth estimation, we propose a more principled approach that does not require heuristic planar assumptions. We leverage a monocular depth estimate and predict relative pose between cameras, then align the reference image to the target by a differentiable 3D reprojection and a joint optimization of relative pose and depth map scale and offset. Our approach achieves state-of-the-art performance on both RealEstate10K and MannequinChallenge dataset with large baselines, complex geometry and extreme camera motions. We experimentally verify our approach is also better at handling large holes.
翻訳日:2022-01-21 18:33:30 公開日:2022-01-20
# (参考訳) 連合学習の脅威に関する調査--概念、攻撃と防衛に関する分類、実験研究と課題

Survey on Federated Learning Threats: concepts, taxonomy on attacks and defences, experimental study and challenges ( http://arxiv.org/abs/2201.08135v1 )

ライセンス: CC BY 4.0
Nuria Rodr\'iguez-Barroso, Daniel Jim\'enez L\'opez, M. Victoria Luz\'on, Francisco Herrera and Eugenio Mart\'inez-C\'amara(参考訳) フェデレーション・ラーニング(Federated Learning)は、人工知能におけるプライバシ保護要求の解決策として現れる機械学習パラダイムである。 マシンラーニングとして、フェデレーション学習は、ローカルおよびグローバル学習に取り組む分散型アプローチによる、学習モデルの完全性とデータのプライバシに対する敵意的な攻撃によって脅かされている。 この弱点は、フェデレーション学習におけるデータのアクセス不能によって悪化し、敵の攻撃に対する保護が難しくなり、フェデレーション学習をデータプライバシを保護する真のソリューションにする防衛方法の研究をさらに進める必要性が証明される。 本稿では,フェデレーション学習の脅威と,それに対応する対策,攻撃対防御について概説する。 この調査は、敵対的攻撃の分類と、この連邦学習の脆弱性の全体像とそれを克服する方法を描写した防衛方法の分類を提供する。 同様に、敵攻撃のカテゴリに応じて、最も適切な防御方法を選択するためのガイドラインを策定する。 また,本研究は,攻撃と防御の行動と,攻撃のカテゴリーに応じた最も適切な防御方法を選択するためのガイドラインについて,さらなる結論を導き出すための広範な実験研究を行う。 この研究は、学習した教訓と課題へと導かれる。

Federated learning is a machine learning paradigm that emerges as a solution to the privacy-preservation demands in artificial intelligence. As machine learning, federated learning is threatened by adversarial attacks against the integrity of the learning model and the privacy of data via a distributed approach to tackle local and global learning. This weak point is exacerbated by the inaccessibility of data in federated learning, which makes harder the protection against adversarial attacks and evidences the need to furtherance the research on defence methods to make federated learning a real solution for safeguarding data privacy. In this paper, we present an extensive review of the threats of federated learning, as well as as their corresponding countermeasures, attacks versus defences. This survey provides a taxonomy of adversarial attacks and a taxonomy of defence methods that depict a general picture of this vulnerability of federated learning and how to overcome it. Likewise, we expound guidelines for selecting the most adequate defence method according to the category of the adversarial attack. Besides, we carry out an extensive experimental study from which we draw further conclusions about the behaviour of attacks and defences and the guidelines for selecting the most adequate defence method according to the category of the adversarial attack. This study is finished leading to meditated learned lessons and challenges.
翻訳日:2022-01-21 18:15:32 公開日:2022-01-20
# (参考訳) 身体的深部画像最適化 [全文訳有]

Physically Embodied Deep Image Optimisation ( http://arxiv.org/abs/2201.08142v1 )

ライセンス: CC BY 4.0
Daniela Mihai and Jonathon Hare(参考訳) 物理的スケッチは、描画ロボットを制御するプログラムを学習することによって作成される。 微分可能なラステリザは、入力画像にマッチする描画ストロークのセットを最適化するために使われ、ディープネットワークを使用して損失を計算できるエンコーディングを提供する。 最適化された描画プリミティブはgコードコマンドに変換され、ロボットがペンや鉛筆などの描画器具を使って物理支援媒体に絵を描くように指示する。

Physical sketches are created by learning programs to control a drawing robot. A differentiable rasteriser is used to optimise sets of drawing strokes to match an input image, using deep networks to provide an encoding for which we can compute a loss. The optimised drawing primitives can then be translated into G-code commands which command a robot to draw the image using drawing instruments such as pens and pencils on a physical support medium.
翻訳日:2022-01-21 18:14:24 公開日:2022-01-20
# (参考訳) Cognitive Ledger Project:Cognitive Blockchainによる個人用デジタルツインの構築を目指す [全文訳有]

Cognitive Ledger Project: Towards Building Personal Digital Twins Through Cognitive Blockchain ( http://arxiv.org/abs/2201.08163v1 )

ライセンス: CC BY 4.0
Amir Reza Asadi(参考訳) cognitive ledgerプロジェクトは、ユーザの個人情報をブロックチェーンベースのインフラストラクチャに基づいた構造化情報と機械学習モデルに変換するモジュラーシステムを開発するための取り組みである。 本稿では,認知デジタル双生児のための認知的アーキテクチャを提案する。 提案する設計では、コアにcognitive blockchain(cognitive ledger)を採用する。 このアーキテクチャには、デジタル環境におけるユーザの活動を再利用可能な知識オブジェクトに変換するモジュールや、いつの日か一緒に作業してユーザの認知デジタルツインを形成する人工知能が含まれている。

The Cognitive Ledger Project is an effort to develop a modular system for turning users' personal data into structured information and machine learning models based on a blockchain-based infrastructure. In this work-in-progress paper, we propose a cognitive architecture for cognitive digital twins. The suggested design embraces a cognitive blockchain (Cognitive ledger) at its core. The architecture includes several modules that turn users' activities in the digital environment into reusable knowledge objects and artificial intelligence that one day can work together to form the cognitive digital twin of users.
翻訳日:2022-01-21 18:09:17 公開日:2022-01-20
# (参考訳) リーダボードに回答するナレッジグラフ: レプリケーション危機を防止するためのコミュニティリソース [全文訳有]

Knowledge Graph Question Answering Leaderboard: A Community Resource to Prevent a Replication Crisis ( http://arxiv.org/abs/2201.08174v1 )

ライセンス: CC BY 4.0
Aleksandr Perevalov, Xi Yan, Liubov Kovriguina, Longquan Jiang, Andreas Both, Ricardo Usbeck(参考訳) データ駆動システムは、科学的アプローチとその適用性に対する信頼を確立するために評価する必要がある。 特にこれは、複雑なデータ構造が自然言語インターフェイスを介してアクセス可能にされた知識グラフ(kg)の質問応答(qa)において当てはまる。 これらのシステムの能力を評価することは、異なるKGQAベンチマークデータセットを確立しながら、10年以上にわたってコミュニティの原動力となっている。 しかし、異なるアプローチを比較するのは面倒です。 既存のリーダーボードの欠如は、研究分野に関する世界的な見解の欠如を招き、結果に不信を注入する可能性がある。 特に、KGQAコミュニティの最新で最も使われているデータセットであるLC-QuADとQALDは、中央および最新の信頼ポイントを提供していない。 本稿では,過去10年間の出版物100件,システム98件を対象に,幅広い評価結果を調査し分析した。 私たちは、コミュニティの焦点として、任意のkgqaベンチマークデータセットに対して、新しい中央およびオープンなリーダーボードを提供しています。 本分析では,KGQAシステムの評価において既存の問題点を取り上げている。 したがって、今後の評価の改善の可能性を示す。

Data-driven systems need to be evaluated to establish trust in the scientific approach and its applicability. In particular, this is true for Knowledge Graph (KG) Question Answering (QA), where complex data structures are made accessible via natural-language interfaces. Evaluating the capabilities of these systems has been a driver for the community for more than ten years while establishing different KGQA benchmark datasets. However, comparing different approaches is cumbersome. The lack of existing and curated leaderboards leads to a missing global view over the research field and could inject mistrust into the results. In particular, the latest and most-used datasets in the KGQA community, LC-QuAD and QALD, miss providing central and up-to-date points of trust. In this paper, we survey and analyze a wide range of evaluation results with significant coverage of 100 publications and 98 systems from the last decade. We provide a new central and open leaderboard for any KGQA benchmark dataset as a focal point for the community - https://kgqa.github. io/leaderboard. Our analysis highlights existing problems during the evaluation of KGQA systems. Thus, we will point to possible improvements for future evaluations.
翻訳日:2022-01-21 18:01:59 公開日:2022-01-20
# (参考訳) Sketch-and-Lift:$K$- meansクラスタリングのためのスケーラブルなサブサンプル半定プログラム

Sketch-and-Lift: Scalable Subsampled Semidefinite Program for $K$-means Clustering ( http://arxiv.org/abs/2201.08226v1 )

ライセンス: CC BY 4.0
Yubo Zhuang, Xiaohui Chen, Yun Yang(参考訳) semidefinite programming (sdp) は、クラスタリングのような幅広い計算困難問題に取り組むための強力なツールである。 高い精度にもかかわらず、半定値プログラムは、大規模な(あるいは適度な)データセットのスケーラビリティが低すぎるため、実際は遅すぎることが多い。 本稿では,SDP緩和した$K$-meansクラスタリングを近似する線形時間複雑性アルゴリズムを提案する。 提案したスケッチ・アンド・リフト(SL)アプローチは,サブサンプルデータセット上のSDPを解き,最寄りのセントロイドラウンドリング手順で全データポイントへの解を伝搬する。 SLアプローチは,ガウス混合モデルの下で情報理論的にきついことが知られている全データセット上の$K$-means SDPと同様の精度の回復しきい値を持つことが示された。 SL法は,クラスタサイズが不均衡な場合に拡張理論特性に適応させることができる。 シミュレーション実験により,提案手法の統計的精度は,計算効率を犠牲にすることなく,最先端の高速クラスタリングアルゴリズムよりも優れており,実行時間を大幅に削減したオリジナルの$K$-means SDPに匹敵することを示した。

Semidefinite programming (SDP) is a powerful tool for tackling a wide range of computationally hard problems such as clustering. Despite the high accuracy, semidefinite programs are often too slow in practice with poor scalability on large (or even moderate) datasets. In this paper, we introduce a linear time complexity algorithm for approximating an SDP relaxed $K$-means clustering. The proposed sketch-and-lift (SL) approach solves an SDP on a subsampled dataset and then propagates the solution to all data points by a nearest-centroid rounding procedure. It is shown that the SL approach enjoys a similar exact recovery threshold as the $K$-means SDP on the full dataset, which is known to be information-theoreti cally tight under the Gaussian mixture model. The SL method can be made adaptive with enhanced theoretic properties when the cluster sizes are unbalanced. Our simulation experiments demonstrate that the statistical accuracy of the proposed method outperforms state-of-the-art fast clustering algorithms without sacrificing too much computational efficiency, and is comparable to the original $K$-means SDP with substantially reduced runtime.
翻訳日:2022-01-21 17:43:05 公開日:2022-01-20
# (参考訳) LaMDA: ダイアログアプリケーションのための言語モデル

LaMDA: Language Models for Dialog Applications ( http://arxiv.org/abs/2201.08239v1 )

ライセンス: CC BY 4.0
Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, Quoc Le(参考訳) ダイアログアプリケーションのための言語モデルLaMDAを提案する。 lamdaは、最大137bのパラメータを持ち、公開ダイアログデータとwebテキストの1.56tワードで事前学習される、ダイアログに特化したトランスフォーマティブベースのニューラルネットワークモデルである。 モデルスケーリングだけでは品質が向上するが、安全性と現実的な基盤の改善は少ない。 我々は,アノテートされたデータとの微調整と,モデルが外部の知識ソースに相談できることが,安全性と事実的根拠付けという2つの重要な課題に対して大きな改善をもたらすことを実証する。 最初の課題である安全性は、有害な提案や不公平な偏見を防ぐなど、モデルの応答が人間の価値観と一致していることを保証することである。 提案手法は,人的価値の図式的集合に基づいて測定値を用いて安全性を定量化し,少数のクラウドワーカーによる注釈付きデータを微調整したLaMDA分類器を用いて候補応答をフィルタリングすることで,モデル安全性を改善するための有望なアプローチを提供する。 第2の課題である事実的根拠付けは、モデルが情報検索システム、言語翻訳者、計算機など外部の知識ソースを参照できるようにすることである。 そこで本手法では, 既知音源に接地された応答を, 単に可聴性のある応答ではなく, モデルが生成できることを見出した。 最後に,教育分野とコンテンツレコメンデーション分野におけるlamdaの利用について検討し,その有用性と役割一貫性の分析を行った。

We present LaMDA: Language Models for Dialog Applications. LaMDA is a family of Transformer-based neural language models specialized for dialog, which have up to 137B parameters and are pre-trained on 1.56T words of public dialog data and web text. While model scaling alone can improve quality, it shows less improvements on safety and factual grounding. We demonstrate that fine-tuning with annotated data and enabling the model to consult external knowledge sources can lead to significant improvements towards the two key challenges of safety and factual grounding. The first challenge, safety, involves ensuring that the model's responses are consistent with a set of human values, such as preventing harmful suggestions and unfair bias. We quantify safety using a metric based on an illustrative set of human values, and we find that filtering candidate responses using a LaMDA classifier fine-tuned with a small amount of crowdworker-annotate d data offers a promising approach to improving model safety. The second challenge, factual grounding, involves enabling the model to consult external knowledge sources, such as an information retrieval system, a language translator, and a calculator. We quantify factuality using a groundedness metric, and we find that our approach enables the model to generate responses grounded in known sources, rather than responses that merely sound plausible. Finally, we explore the use of LaMDA in the domains of education and content recommendations, and analyze their helpfulness and role consistency.
翻訳日:2022-01-21 17:41:55 公開日:2022-01-20
# (参考訳) プロジェクトの臭い" - mllintを使ったMLプロジェクトのソフトウェア品質分析の経験 [全文訳有]

"Project smells" -- Experiences in Analysing the Software Quality of ML Projects with mllint ( http://arxiv.org/abs/2201.08246v1 )

ライセンス: CC BY-SA 4.0
Bart van Oort, Lu\'is Cruz, Babak Loni, Arie van Deursen(参考訳) 機械学習(ML)プロジェクトは、従来のソフトウェアアプリケーションよりも開発と生産において、新たな課題を生んでいるが、プロジェクトのソフトウェア品質がまだ適用されていることを保証するための原則とベストプラクティスが確立されている。 コードの臭いをキャッチするために静的解析を使用することは、ソフトウェア品質の属性を改善することが示されているが、特にmlプロジェクトでは、開発するデータサイエンティストにおけるソフトウェアエンジニアリング(se)経験の低さという課題があるため、ソフトウェア品質のパズルのほんの一部に過ぎない。 我々は,mlプロジェクトにおけるソフトウェア品質に関するより全体論的視点として,プロジェクト管理の欠陥を考えるプロジェクト臭いの新しい概念を紹介する。 オープンソースの静的解析ツールmllintも,これらの検出と緩和のために実装されている。 本研究は,グローバル銀行と大規模ソフトウェア・データ集約型組織であるingの産業的文脈において,プロジェクトの臭いという新たな概念を評価する。 また,概念実証と本番対応mlプロジェクトにおけるこれらのプロジェクトの臭いの重要性や,mllintのような静的解析ツールの使用に対する障害やメリットについても検討した。 この結果から,ユーザによる最小限の設定作業を必要とせず,開発段階におけるプロジェクトのニーズに適合する,コンテキスト対応の静的解析ツールの必要性が示唆された。

Machine Learning (ML) projects incur novel challenges in their development and productionisation over traditional software applications, though established principles and best practices in ensuring the project's software quality still apply. While using static analysis to catch code smells has been shown to improve software quality attributes, it is only a small piece of the software quality puzzle, especially in the case of ML projects given their additional challenges and lower degree of Software Engineering (SE) experience in the data scientists that develop them. We introduce the novel concept of project smells which consider deficits in project management as a more holistic perspective on software quality in ML projects. An open-source static analysis tool mllint was also implemented to help detect and mitigate these. Our research evaluates this novel concept of project smells in the industrial context of ING, a global bank and large software- and data-intensive organisation. We also investigate the perceived importance of these project smells for proof-of-concept versus production-ready ML projects, as well as the perceived obstructions and benefits to using static analysis tools such as mllint. Our findings indicate a need for context-aware static analysis tools, that fit the needs of the project at its current stage of development, while requiring minimal configuration effort from the user.
翻訳日:2022-01-21 17:40:19 公開日:2022-01-20
# (参考訳) シークエンシャル意思決定における因果的視点によるオフポリシィ評価の一般化 [全文訳有]

Generalizing Off-Policy Evaluation From a Causal Perspective For Sequential Decision-Making ( http://arxiv.org/abs/2201.08262v1 )

ライセンス: CC BY 4.0
Sonali Parbhoo, Shalmali Joshi, Finale Doshi-Velez(参考訳) 異なる政策からの観測データに基づく政策の効果を評価することは、いくつかの高い意思決定領域に共通する問題であり、いくつかの非政治評価(OPE)技術が提案されている。 しかし、これらの手法は、データを生成するプロセス(すなわち因果グラフの形での構造的仮定)とは無関係な問題としてOPEを定式化する。 我々は、この協会を明確に強調することは、OPEの基本的限界に対する理解に重要な意味を持つと論じている。 第一に、OPEの現在の定式化は、人口やサブ人口に対する政策の予測的な評価に焦点を当てた特定の因果推定という、狭いタスクの集合に対応することを意味する。 第2に,本学会がナチュラル・デシデラタを動機づけて,一般的な因果推定を考察し,特に集団の個人レベルでの対実的非政治評価におけるOPEの役割を拡大した。 因果推定値の正確な説明は、OPE推定値が、前述の生成仮定の下で観測データから特定可能であることを強調している。 識別不能なOPE推定では、因果的視点は、より実験的なデータが必要な場所をさらに強調し、人間の専門知識が識別と推定に役立つ状況を強調している。 さらに,その推定過程における不確実性の役割を完全に見落とし,その因果的特徴付けが不確実性の異なる源を具体的に強調し,人間の専門知識が自然にこの不確実性を管理することができることを実証する。 本稿では,これらの側面を,大規模OPE研究のための実用的なデシラタとして論じる。

Assessing the effects of a policy based on observational data from a different policy is a common problem across several high-stake decision-making domains, and several off-policy evaluation (OPE) techniques have been proposed. However, these methods largely formulate OPE as a problem disassociated from the process used to generate the data (i.e. structural assumptions in the form of a causal graph). We argue that explicitly highlighting this association has important implications on our understanding of the fundamental limits of OPE. First, this implies that current formulation of OPE corresponds to a narrow set of tasks, i.e. a specific causal estimand which is focused on prospective evaluation of policies over populations or sub-populations. Second, we demonstrate how this association motivates natural desiderata to consider a general set of causal estimands, particularly extending the role of OPE for counterfactual off-policy evaluation at the level of individuals of the population. A precise description of the causal estimand highlights which OPE estimands are identifiable from observational data under the stated generative assumptions. For those OPE estimands that are not identifiable, the causal perspective further highlights where more experimental data is necessary, and highlights situations where human expertise can aid identification and estimation. Furthermore, many formalisms of OPE overlook the role of uncertainty entirely in the estimation process.We demonstrate how specifically characterising the causal estimand highlights the different sources of uncertainty and when human expertise can naturally manage this uncertainty. We discuss each of these aspects as actionable desiderata for future OPE research at scale and in-line with practical utility.
翻訳日:2022-01-21 17:21:27 公開日:2022-01-20
# (参考訳) クロスドメインFew-Shotグラフ分類 [全文訳有]

Cross-Domain Few-Shot Graph Classification ( http://arxiv.org/abs/2201.08265v1 )

ライセンス: CC BY 4.0
Kaveh Hassani(参考訳) 公開データセットから構築した3つの新しいクロスドメインベンチマークを導入することにより,非同値な特徴空間を持つ領域を横断する少数ショットグラフ分類の問題について検討する。 また,3つの連続したグラフビュー,1つの文脈と2つのトポロジ的ビューを用いて,高速適応のためのタスク固有情報の表現と知識伝達のためのタスク非依存情報を学ぶアテンションベースグラフエンコーダを提案する。 コントラストおよびメタ学習戦略の性能を評価するために,徹底的な実験を実施している。 提案するエンコーダは,メトリックベースのメタ学習フレームワークと組み合わせることで,すべてのベンチマークの平均メタテスト分類精度を実現する。 ソースコードとデータはここでリリースされる。 https://github.com/k avehhassani/metagrl

We study the problem of few-shot graph classification across domains with nonequivalent feature spaces by introducing three new cross-domain benchmarks constructed from publicly available datasets. We also propose an attention-based graph encoder that uses three congruent views of graphs, one contextual and two topological views, to learn representations of task-specific information for fast adaptation, and task-agnostic information for knowledge transfer. We run exhaustive experiments to evaluate the performance of contrastive and meta-learning strategies. We show that when coupled with metric-based meta-learning frameworks, the proposed encoder achieves the best average meta-test classification accuracy across all benchmarks. The source code and data will be released here: https://github.com/k avehhassani/metagrl
翻訳日:2022-01-21 16:58:21 公開日:2022-01-20
# (参考訳) NaijaSenti:多言語感情分析のためのナイジェリアのTwitterセンチメントコーポレーション [全文訳有]

NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis ( http://arxiv.org/abs/2201.08277v1 )

ライセンス: CC BY 4.0
Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Idris Abdulmumin, Bello Shehu Bello, Monojit Choudhury, Chris Chinenye Emezue, Anuoluwapo Aremu, Saheed Abdul, Pavel Brazdil(参考訳) 感性分析はNLPで最も広く研究されている応用の1つだが、ほとんどの研究は大量のデータを持つ言語に焦点を当てている。 ナイジェリアでもっとも広く話されている4つの言語(Hausa, Igbo, Nigerian-Pidgin, Yoruba)に対して、最初の大規模な人手によるTwitter感情データセットを紹介した。 テキスト収集,フィルタリング,処理,ラベル付け手法を提案し,これらの低リソース言語のためのデータセットを作成する。 データセット上で事前学習したモデルと転送戦略を評価した。 言語固有のモデルと言語適応型微調整は、一般的に最もよく機能する。 私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。

Sentiment analysis is one of the most widely studied applications in NLP, but most work focuses on languages with large amounts of data. We introduce the first large-scale human-annotated Twitter sentiment dataset for the four most widely spoken languages in Nigeria (Hausa, Igbo, Nigerian-Pidgin, and Yoruba) consisting of around 30,000 annotated tweets per language (except for Nigerian-Pidgin), including a significant fraction of code-mixed tweets. We propose text collection, filtering, processing, and labelling methods that enable us to create datasets for these low-resource languages. We evaluate a range of pre-trained models and transfer strategies on the dataset. We find that language-specific models and language-adaptive fine-tuning generally perform best. We release the datasets, trained models, sentiment lexicons, and code to incentivize research on sentiment analysis in under-represented languages.
翻訳日:2022-01-21 16:36:01 公開日:2022-01-20
# (参考訳) 中心線からの動脈ネットワークのモデリングとヘキサヘドラルメッシュ化 [全文訳有]

Modeling and hexahedral meshing of arterial networks from centerlines ( http://arxiv.org/abs/2201.08279v1 )

ライセンス: CC BY 4.0
M\'eghane Decroocq, Carole Frindel, Makoto Ohta and Guillaume Lavou\'e(参考訳) 計算流体力学(CFD)シミュレーションは血管形状からの血流に関する貴重な情報を提供する。 しかし、低解像度の医療画像から動脈の正確なモデルを抽出する必要がある。 中心線に基づく表現は、トポロジ情報の手作業による編集とエンコードを可能にするため、小さな血管で大きな血管ネットワークをモデル化するために広く用いられている。 本研究では,中心線から直接CFDに適したヘキサヘドラルメッシュを自動生成する手法を提案する。 提案手法は, 堅牢性, メッシュ品質, 再現性の観点から, 最先端技術の改良である。 モデリングとメッシュ処理の両方に対処します。 音や空間といった中心表現に固有の制約を克服するために, ペナル化スプラインに基づく新しい容器モデルを提案する。 平面n分岐に拡張した生理学的に正確なパラメトリックモデルを用いて分岐を再構成する。 最後に, 血管網モデルを用いて, 構造, ヘキサヘドラル, フロー指向細胞を有する体積メッシュを作製した。 提案手法は最先端の手法よりも堅牢性とメッシュ品質がよい。 モデリングとメッシュ技術の両方を組み合わせることで、血管モデルの幾何学とトポロジーをシームレスに編集し、血液力学への影響を研究することができる。 我々は60の脳血管網のデータセットを網羅し,本手法の有効性を実証した。 入力データの難易度にもかかわらず、欠陥のないメッシュが手作業で介入する必要のある場合、船の92%と分岐の83%である。 ソースコードは公開される予定だ。

Computational fluid dynamics (CFD) simulation provides valuable information on blood flow from the vascular geometry. However, it requires to extract accurate models of arteries from low resolution medical images, which remains challenging. Centerline-based representation is widely used to model large vascular networks with small vessels, as it enables manual editing and encodes the topological information. In this work, we propose an automatic method to generate an hexahedral mesh suitable for CFD directly from centerlines. The proposed method is an improvement of the state-of-the-art in terms of robustness, mesh quality and reproductibility. Both the modeling and meshing tasks are addressed. A new vessel model based on penalized splines is proposed to overcome the limitations inherent to the centerline representation, such as noise and sparsity. Bifurcations are reconstructed using a physiologically accurate parametric model that we extended to planar n-furcations. Finally, a volume mesh with structured, hexahedral and flow oriented cells is produced from the proposed vascular network model. The proposed method offers a better robustness and mesh quality than the state-of-the-art methods. As it combines both modeling and meshing techniques, it can be applied to edit the geometry and topology of vascular models effortlessly to study the impact on hemodynamics. We demonstrate the efficiency of our method by entirely meshing a dataset of 60 cerebral vascular networks. 92\% of the vessels and 83\% of the bifurcations where mesh without defects needing manual intervention, despite the challenging aspect of the input data. The source code will be released publicly.
翻訳日:2022-01-21 16:13:14 公開日:2022-01-20
# (参考訳) シンプレクティック運動量ニューラルネットワーク--ディープラーニングにおける離散変分力学を用いた学習 [全文訳有]

Symplectic Momentum Neural Networks - Using Discrete Variational Mechanics as a prior in Deep Learning ( http://arxiv.org/abs/2201.08281v1 )

ライセンス: CC BY 4.0
Saul Santos, Monica Ekal, Rodrigo Ventura(参考訳) 現実の物理システムの予測と制御のために、ディープラーニングが研究コミュニティから注目を集めている中、重要な表現の学習がますます必須になっている。 深層学習表現が物理と一貫性を持つことは極めて重要である。 離散データから学習する場合、これは学習に何らかの事前を組み込むことで保証できるが、全ての離散化事前が物理学から重要な構造を保存するわけではない。 本稿では,Symphlectic Momentum Neural Networks (SyMo) を,非分離機械系の力学の離散的定式化のモデルとして紹介する。 このような定式化の組み合わせにより、SyMosは運動量やシンプレクティック形式のような重要な幾何学的構造を保ち、限られたデータから学ぶことに制約される。 さらに、ポーズからのみ、トレーニングデータとしてダイナミクスを学ぶことができる。 我々はSyMosを拡張し、学習フレームワークに変分積分器を含むように拡張し、E2E-SyMo(End-to-End Symplectic Momentum Neural Networks)につながる暗黙のルートフィンド層を開発する。 実験結果から, 振り子とカルトポールの組み合わせによって, これらのモデルが限られたデータから得られるだけでなく, シンプレクティックな形態を保ち, より長期的行動を示す能力も提供することを示した。

With deep learning being gaining attention from the research community for prediction and control of real physical systems, learning important representations is becoming now more than ever mandatory. It is of extremely importance that deep learning representations are coherent with physics. When learning from discrete data this can be guaranteed by including some sort of prior into the learning, however not all discretization priors preserve important structures from the physics. In this paper we introduce Symplectic Momentum Neural Networks (SyMo) as models from a discrete formulation of mechanics for non-separable mechanical systems. The combination of such formulation leads SyMos to be constrained towards preserving important geometric structures such as momentum and a symplectic form and learn from limited data. Furthermore, it allows to learn dynamics only from the poses as training data. We extend SyMos to include variational integrators within the learning framework by developing an implicit root-find layer which leads to End-to-End Symplectic Momentum Neural Networks (E2E-SyMo). Through experimental results, using the pendulum and cartpole we show that such combination not only allows these models tol earn from limited data but also provides the models with the capability of preserving the symplectic form and show better long-term behaviour.
翻訳日:2022-01-21 15:51:53 公開日:2022-01-20
# (参考訳) 心理学的好奇心から人工好奇心へ:人工知能タスクにおける好奇心駆動学習

From Psychological Curiosity to Artificial Curiosity: Curiosity-Driven Learning in Artificial Intelligence Tasks ( http://arxiv.org/abs/2201.08300v1 )

ライセンス: CC BY 4.0
Chenyu Sun, Hangwei Qian and Chunyan Miao(参考訳) 心理学的好奇心は、探索と情報取得を通じて学習を強化するために、人間の知性において重要な役割を果たす。 人工知能(ai)コミュニティでは、人工知能は人間の認知開発にインスパイアされた効率的な学習に自然な本質的な動機を与え、一方、ai研究と、過剰フィッティング、不適切な一般化、限られたトレーニングサンプル、高い計算コストといった実際の応用シナリオとのギャップを埋めることができる。 その結果、好奇心駆動学習(cdl)がますます普及し、エージェントが新しい知識を学ぶ動機付けになっている。 本稿では,まず,好奇心の心理学的研究の包括的レビューを行い,好奇心を定量化するための統一的な枠組みとその覚醒メカニズムについて述べる。 この心理学的原理に基づき,強化学習,推薦,分類の分野における既存のcdl手法の文献をさらに調査し,その利点と欠点,今後の課題について考察した。 その結果,本研究は今後のCDL研究に有意義な洞察を与え,さらなる改善の道筋を得ることができた。

Psychological curiosity plays a significant role in human intelligence to enhance learning through exploration and information acquisition. In the Artificial Intelligence (AI) community, artificial curiosity provides a natural intrinsic motivation for efficient learning as inspired by human cognitive development; meanwhile, it can bridge the existing gap between AI research and practical application scenarios, such as overfitting, poor generalization, limited training samples, high computational cost, etc. As a result, curiosity-driven learning (CDL) has become increasingly popular, where agents are self-motivated to learn novel knowledge. In this paper, we first present a comprehensive review on the psychological study of curiosity and summarize a unified framework for quantifying curiosity as well as its arousal mechanism. Based on the psychological principle, we further survey the literature of existing CDL methods in the fields of Reinforcement Learning, Recommendation, and Classification, where both advantages and disadvantages as well as future work are discussed. As a result, this work provides fruitful insights for future CDL research and yield possible directions for further improvement.
翻訳日:2022-01-21 15:40:24 公開日:2022-01-20
# (参考訳) 原子性線グラフニューラルネットワーク(ALIGNN)を用いた結晶性化合物の電子密度の予測 [全文訳有]

Prediction of the electron density of states for crystalline compounds with Atomistic Line Graph Neural Networks (ALIGNN) ( http://arxiv.org/abs/2201.08348v1 )

ライセンス: CC BY 4.0
Prathik R Kaundinya, Kamal Choudhary, Surya R. Kalidindi(参考訳) 機械学習(ML)ベースのモデルは、従来の材料発見と設計パイプラインを大幅に強化した。 特に近年、材料特性予測のためのサロゲートmlモデルは、離散スカラー値のターゲット特性をdft計算値の妥当な精度で予測することに成功している。 しかしながら、状態の電子密度(DOS)のようなスペクトルターゲットの正確な予測は、ターゲットの複雑さと利用可能なトレーニングデータの限られた量により、はるかに難しい問題を引き起こす。 本研究では、最近開発されたAtomistic Line Graph Neural Network(ALIGNN)を拡張して、利用可能なJARVIS-DFTデータセットにトレーニングされた大量の物質単位セル構造のDOSを正確に予測する。 さらに, 直接離散化スペクトルと, オートエンコーダを用いて得られた圧縮低次元表現の2つの方法を評価する。 本研究は, 物質構造の化学特性と配向特性に依存する複雑な対象の予測において, グラフに基づく創製・モデル化手法の有用性を実証するものである。

Machine learning (ML) based models have greatly enhanced the traditional materials discovery and design pipeline. Specifically, in recent years, surrogate ML models for material property prediction have demonstrated success in predicting discrete scalar-valued target properties to within reasonable accuracy of their DFT-computed values. However, accurate prediction of spectral targets such as the electron Density of States (DOS) poses a much more challenging problem due to the complexity of the target, and the limited amount of available training data. In this study, we present an extension of the recently developed Atomistic Line Graph Neural Network (ALIGNN) to accurately predict DOS of a large set of material unit cell structures, trained to the publicly available JARVIS-DFT dataset. Furthermore, we evaluate two methods of representation of the target quantity - a direct discretized spectrum, and a compressed low-dimensional representation obtained using an autoencoder. Through this work, we demonstrate the utility of graph-based featurization and modeling methods in the prediction of complex targets that depend on both chemistry and directional characteristics of material structures.
翻訳日:2022-01-21 15:34:45 公開日:2022-01-20
# (参考訳) 物理インフォームドニューラルネットワークによる速度と温度に依存した塑性のモデリング [全文訳有]

Physics-informed neural networks for modeling rate- and temperature-dependen t plasticity ( http://arxiv.org/abs/2201.08363v1 )

ライセンス: CC BY 4.0
Rajat Arora, Pratik Kakkar, Biswadip Dey, Amit Chakraborty(参考訳) 本研究は, 弾性粘塑性固体中の変形場(変位, 応力, 塑性ひずみ)のひずみ速度および温度依存性をモデル化する物理インフォームニューラルネットワークに基づく枠組みを提案する。 物理学に基づく損失基準の構築に関する詳細な議論と、トレーニング中の不均衡なバックプロパゲーション勾配を避ける方法についての簡単な概要を紹介する。 また,複合損失における異なる用語間の相互作用のバランスをとるスカラー重みを選択するための計算複雑性を増すことなく,単純な戦略を提案する。 さらに,ニューラルネットワークを用いて機械的な問題を忠実に解くために,適切なモデル出力の選択に関する根本的な課題を浮き彫りにする。 最後に, ひずみ速度と温度の異なる固体の弾性粘塑性変形をモデル化する2つの試験問題について, 提案手法の有効性を実証した。

This work presents a physics-informed neural network based framework to model the strain-rate and temperature dependence of the deformation fields (displacement, stress, plastic strain) in elastic-viscoplastic solids. A detailed discussion on the construction of the physics-based loss criterion along with a brief outline on ways to avoid unbalanced back-propagated gradients during training is also presented. We also present a simple strategy with no added computational complexity for choosing scalar weights that balance the interplay between different terms in the composite loss. Moreover, we also highlight a fundamental challenge involving selection of appropriate model outputs so that the mechanical problem can be faithfully solved using neural networks. Finally, the effectiveness of the proposed framework is demonstrated by studying two test problems modeling the elastic-viscoplastic deformation in solids at different strain-rates and temperatures, respectively.
翻訳日:2022-01-21 15:16:55 公開日:2022-01-20
# フェデレーション学習におけるミニマックス・デモグラフィックグループフェアネス

Minimax Demographic Group Fairness in Federated Learning ( http://arxiv.org/abs/2201.08304v1 )

ライセンス: Link先を確認
Afroditi Papadaki, Natalia Martinez, Martin Bertran, Guillermo Sapiro, Miguel Rodrigues(参考訳) フェデレーション学習(federated learning)は、多数のエンティティが協力してよりよいモデルを学ぶことを可能にする、ますますポピュラーなパラダイムである。 本研究では,異なる参加団体が訓練期間中に集団のサブセットにのみアクセス可能な,フェデレート学習シナリオにおけるミニマックスグループフェアネスについて検討する。 提案するグループフェアネス目標が,人口集団ではなく参加者間で類似したパフォーマンスを課す既存のフェデレーション学習フェアネス基準とどのように異なるのかを,正式に分析する。 我々は、集中学習アルゴリズムの性能保証を確実に享受する提案された問題を解決する最適化アルゴリズム、FedMinMaxを提供する。 提案手法を,様々なフェデレーション学習における集団公平性の観点から他の最先端手法と比較し,本手法が競争性や優れた性能を示すことを示す。

Federated learning is an increasingly popular paradigm that enables a large number of entities to collaboratively learn better models. In this work, we study minimax group fairness in federated learning scenarios where different participating entities may only have access to a subset of the population groups during the training phase. We formally analyze how our proposed group fairness objective differs from existing federated learning fairness criteria that impose similar performance across participants instead of demographic groups. We provide an optimization algorithm -- FedMinMax -- for solving the proposed problem that provably enjoys the performance guarantees of centralized learning algorithms. We experimentally compare the proposed approach against other state-of-the-art methods in terms of group fairness in various federated learning setups, showing that our approach exhibits competitive or superior performance.
翻訳日:2022-01-21 15:00:54 公開日:2022-01-20
# sim-to-lab-to-real:シールドと一般化による安全強化学習

Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees ( http://arxiv.org/abs/2201.08355v1 )

ライセンス: Link先を確認
Kai-Chieh Hsu, Allen Z. Ren, Duy Phuong Nguyen, Anirudha Majumdar, Jaime F. Fisac(参考訳) 安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用するための課題である。 特に強化学習で学んだ政策は、安全でない行動のために新しい環境に一般化できないことが多い。 本稿では,現実の空間を安全に閉じるためにsim-to-lab-to-realを提案する。 安全性を向上させるために,ハミルトン・ヤコビ到達可能性解析に基づく到達回避ベルマン方程式を解いて,累積タスク報酬を用いてパフォーマンスポリシーを訓練し,バックアップ(安全)ポリシーを訓練するデュアルポリシー設定を適用する。 sim-to-lab転送では、探索中の安全でない動作を保護するための監視制御スキームを適用し、実験室間転送では、おそらくほぼ正しい(pac)-bayesフレームワークを利用して、目に見えない環境でのポリシーの期待性能と安全性の限界を低くする。 本研究では,写真現実感を含む2種類の屋内環境におけるエゴビジョンナビゲーションの枠組みを実証的に検討した。 また,四足歩行ロボットを用いた実室内空間におけるハードウェア実験により,強力な一般化性能を示す。 補足資料はhttps://sites.google .com/princeton.edu/s im-to-lab-to-realを参照。

Safety is a critical component of autonomous systems and remains a challenge for learning-based policies to be utilized in the real world. In particular, policies learned using reinforcement learning often fail to generalize to novel environments due to unsafe behavior. In this paper, we propose Sim-to-Lab-to-Real to safely close the reality gap. To improve safety, we apply a dual policy setup where a performance policy is trained using the cumulative task reward and a backup (safety) policy is trained by solving the reach-avoid Bellman Equation based on Hamilton-Jacobi reachability analysis. In Sim-to-Lab transfer, we apply a supervisory control scheme to shield unsafe actions during exploration; in Lab-to-Real transfer, we leverage the Probably Approximately Correct (PAC)-Bayes framework to provide lower bounds on the expected performance and safety of policies in unseen environments. We empirically study the proposed framework for ego-vision navigation in two types of indoor environments including a photo-realistic one. We also demonstrate strong generalization performance through hardware experiments in real indoor spaces with a quadrupedal robot. See https://sites.google .com/princeton.edu/s im-to-lab-to-real for supplementary material.
翻訳日:2022-01-21 15:00:38 公開日:2022-01-20
# EdgeMap: クラウドソーシングによる自動車エッジコンピューティングの高定義マップ

EdgeMap: CrowdSourcing High Definition Map in Automotive Edge Computing ( http://arxiv.org/abs/2201.07973v1 )

ライセンス: Link先を確認
Qiang Liu, Yuru Zhang, Haoxin Wang(参考訳) 高定義(HD)マップは、限られた専用収集車両によって制約される道路変更を捉えるために頻繁に更新する必要がある。 最新のマップを維持するために,コネクテッドカーからのクラウドソーシングデータを検討する。 しかしながら、マップを協調的に更新することは、動的ネットワークにおける制限された送信と計算リソースの下で困難である。 本稿では,レイテンシ要件を維持しつつネットワークリソースの使用を最小限に抑えるためのクラウドソーシングhdマップedgemapを提案する。 我々は,マルチエージェント深部強化学習とガウス過程回帰を利用して,小型の時間スケールで車両データをオフロードし,大規模なネットワーク資源を予約するDATEアルゴリズムを設計する。 時間駆動型エンドツーエンドシミュレータにおけるエッジマップの性能評価を行った。 その結果、edgemapは最先端のソリューションと比較して30%以上のリソース使用量を削減できることがわかった。

High definition (HD) map needs to be updated frequently to capture road changes, which is constrained by limited specialized collection vehicles. To maintain an up-to-date map, we explore crowdsourcing data from connected vehicles. Updating the map collaboratively is, however, challenging under constrained transmission and computation resources in dynamic networks. In this paper, we propose EdgeMap, a crowdsourcing HD map to minimize the usage of network resources while maintaining the latency requirements. We design a DATE algorithm to adaptively offload vehicular data on a small time scale and reserve network resources on a large time scale, by leveraging the multi-agent deep reinforcement learning and Gaussian process regression. We evaluate the performance of EdgeMap with extensive network simulations in a time-driven end-to-end simulator. The results show that EdgeMap reduces more than 30% resource usage as compared to state-of-the-art solutions.
翻訳日:2022-01-21 14:59:26 公開日:2022-01-20
# NNP/MM:機械学習ポテンシャルと分子力学を用いた高速分子動力学シミュレーション

NNP/MM: Fast molecular dynamics simulations with machine learning potentials and molecular mechanics ( http://arxiv.org/abs/2201.08110v1 )

ライセンス: Link先を確認
Raimondas Galvelis, Alejandro Varela-Rial, Stefan Doerr, Roberto Fino, Peter Eastman, Thomas E. Markland, John D. Chodera and Gianni De Fabritiis(参考訳) 生体分子シミュレーションの精度を向上させる手段として、パラメトリックおよび非パラメトリック機械学習ポテンシャルが最近出現している。 本稿では,ニューラルネットワーク電位(NNP)と分子力学(MM)を組み合わせたハイブリッド手法であるNNP/MMを提案する。 分子系の一部をNNPでシミュレートし、残りの部分は効率のためにMMでシミュレートする。 現在ACEMDではOpenMMプラグインを使ってNNPのパフォーマンスを最適化している。 達成された性能は遅いが、最先端のGPU加速MMシミュレーションに匹敵する。 4つのタンパク質-リガンド複合体のMDシミュレーションによりNNP/MMを検証し,NNPをリグナードとMMの分子内相互作用に用いた。 このことは、NNPがタンパク質リガンドシミュレーションにおいて、MMを小さな分子に置き換えることができることを示している。 各複合体の複合サンプリングは1マイクロ秒であり、NNP/MMの最も長いシミュレーションである。 最後に,NNP/MMシミュレーションのセットアップをシンプルかつユーザフレンドリにした。

Parametric and non-parametric machine learning potentials have emerged recently as a way to improve the accuracy of bio-molecular simulations. Here, we present NNP/MM, an hybrid method integrating neural network potentials (NNPs) and molecular mechanics (MM). It allows to simulate a part of molecular system with NNP, while the rest is simulated with MM for efficiency. The method is currently available in ACEMD using OpenMM plugins to optimize the performance of NNPs. The achieved performance is slower but comparable to the state-of-the-art GPU-accelerated MM simulations. We validated NNP/MM by performing MD simulations of four protein-ligand complexes, where NNP is used for the intra-molecular interactions of a lignad and MM for the rest interactions. This shows that NNP can already replace MM for small molecules in protein-ligand simulations. The combined sampling of each complex is 1 microsecond, which are the longest simulations of NNP/MM ever reported. Finally, we have made the setup of the NNP/MM simulations simple and user-friendly.
翻訳日:2022-01-21 14:58:56 公開日:2022-01-20
# (参考訳) 変換未調整ランゲヴィンアルゴリズムによる重み付きサンプリング

Heavy-tailed Sampling via Transformed Unadjusted Langevin Algorithm ( http://arxiv.org/abs/2201.08349v1 )

ライセンス: CC BY 4.0
Ye He and Krishnakumar Balasubramanian and Murat A. Erdogdu(参考訳) 対象密度の特定の変換版に基づくアンアダクテッド・ランゲヴィン・アルゴリズムの実行に基づいて,多項式減衰重み付きターゲット密度からサンプリングするオラクルの複雑さを解析した。 我々が構成する閉形式変換写像の特定のクラスは微分同相写像であり、効率的な拡散ベースのスプリマーを開発するのに特に適している。 多項式次オラクル複素数(次元および逆ターゲット精度)が得られた重み付き密度の正確なクラスを特徴付け、図示的な例を示す。 我々は、ある安定駆動確率微分方程式の重み付き平衡密度を特徴付ける分数的ラプラシアン作用素によって定義される非局所ディリクレ形式に基づく、我々の仮定と関数的不等式(超および弱ポアンカル(英語版)の不等式)との関係を強調する。

We analyze the oracle complexity of sampling from polynomially decaying heavy-tailed target densities based on running the Unadjusted Langevin Algorithm on certain transformed versions of the target density. The specific class of closed-form transformation maps that we construct are shown to be diffeomorphisms, and are particularly suited for developing efficient diffusion-based samplers. We characterize the precise class of heavy-tailed densities for which polynomial-order oracle complexities (in dimension and inverse target accuracy) could be obtained, and provide illustrative examples. We highlight the relationship between our assumptions and functional inequalities (super and weak Poincar\'e inequalities) based on non-local Dirichlet forms defined via fractional Laplacian operators, used to characterize the heavy-tailed equilibrium densities of certain stable-driven stochastic differential equations.
翻訳日:2022-01-21 14:58:01 公開日:2022-01-20
# OpenIPDM:橋梁の劣化と干渉の影響を推定するための確率的フレームワーク

OpenIPDM: A Probabilistic Framework for Estimating the Deterioration and Effect of Interventions on Bridges ( http://arxiv.org/abs/2201.08254v1 )

ライセンス: Link先を確認
Zachary Hamida, Blanche Laurent and James-A. Goulet(参考訳) 本稿では,ネットワーク規模の視覚検査データを用いてインフラの劣化過程をモデル化するOpenIPDMソフトウェアについて述べる。 劣化状態の推定に加えて、OpenIPDMは介入の効果を定量化し、介入の寿命を推定し、検証目的で合成データを生成する機能を提供している。 上記の機能はそれぞれ、インタラクティブなグラフィカルユーザインタフェースによってアクセス可能である。 OpenIPDMはケベック州の橋のネットワーク上で行われた研究に基づいて設計されており、ソフトウェアで提示された概念が現実世界のコンテキストにおけるアプリケーションに対して検証されている。 さらに、このソフトウェアは、劣化のモデル化と介入計画の主題領域における将来の発展の基礎を提供する。

This paper describes OpenIPDM software for modelling the deterioration process of infrastructures using network-scale visual inspection data. In addition to the deterioration state estimates, OpenIPDM provides functions for quantifying the effect of interventions, estimating the service life of an intervention, and generating synthetic data for verification purposes. Each of the aforementioned functions are accessible by an interactive graphical user interface. OpenIPDM is designed based on the research work done on a network of bridges in Quebec province, so that the concepts presented in the software have been validated for applications in a real-world context. In addition, this software provides foundations for future developments in the subject area of modelling the deterioration as well as intervention planning.
翻訳日:2022-01-21 14:57:44 公開日:2022-01-20
# 小さなデータセットからの極端事象の統計的予測

Statistical prediction of extreme events from small datasets ( http://arxiv.org/abs/2201.08294v1 )

ライセンス: Link先を確認
Alberto Racca and Luca Magri(参考訳) 乱流中の極端な事象の統計を予測するために,Echo State Networks (ESNs)を提案する。 極端なイベントに関する情報がない小さなデータセットでESNをトレーニングします。 ネットワークが小さな不完全なデータセットから外挿でき、イベントを記述するヘビーテール統計を予測できるかどうかを評価する。 その結果,ネットワークはイベントを正しく予測し,ほぼすべてのケースにおいて,トレーニングデータに関してシステムの統計を改善していることがわかった。 これは、乱流における極端な事象の統計的予測の新しい可能性を開く。

We propose Echo State Networks (ESNs) to predict the statistics of extreme events in a turbulent flow. We train the ESNs on small datasets that lack information about the extreme events. We asses whether the networks are able to extrapolate from the small imperfect datasets and predict the heavy-tail statistics that describe the events. We find that the networks correctly predict the events and improve the statistics of the system with respect to the training data in almost all cases analysed. This opens up new possibilities for the statistical prediction of extreme events in turbulence.
翻訳日:2022-01-21 14:57:14 公開日:2022-01-20
# コード要約のためのメタ学習

Meta Learning for Code Summarization ( http://arxiv.org/abs/2201.08310v1 )

ライセンス: Link先を確認
Moiz Rauf, Sebastian Pad\'o, Michael Pradel(参考訳) ソースコードの要約は、プログラミング言語のセグメントの高レベルな自然言語記述を生成するタスクである。 タスクの現在のニューラルモデルは、アーキテクチャと彼らが考慮するコードの側面が異なる。 本稿では、コード要約のための3つのsotaモデルが、大きなコードベースのほとんどが分離されたサブセット上でうまく機能することを示す。 この相補性はモデルの組み合わせを動機付けます: 与えられたコードセグメントに対して最適な候補の要約を選択する3つのメタモデルを提案します。 この2つのニューラルモデルは、最良個別モデルの性能よりも大幅に改善され、少なくとも1つの個別モデルが非ゼロbleuを取得するコードセグメントのデータセット上で2.1bleu点の改善が得られる。

Source code summarization is the task of generating a high-level natural language description for a segment of programming language code. Current neural models for the task differ in their architecture and the aspects of code they consider. In this paper, we show that three SOTA models for code summarization work well on largely disjoint subsets of a large code-base. This complementarity motivates model combination: We propose three meta-models that select the best candidate summary for a given code segment. The two neural models improve significantly over the performance of the best individual model, obtaining an improvement of 2.1 BLEU points on a dataset of code segments where at least one of the individual models obtains a non-zero BLEU.
翻訳日:2022-01-21 14:57:07 公開日:2022-01-20
# ハイパースペクトル画像に対する関節形態学的プロファイルとパッチテンソル変化検出

A Joint Morphological Profiles and Patch Tensor Change Detection for Hyperspectral Imagery ( http://arxiv.org/abs/2201.08027v1 )

ライセンス: Link先を確認
Zengfu Hou, Wei Li(参考訳) マルチ時間ハイパースペクトル画像は、変化した情報を検出するために使用することができる。 しかし、従来の変化検出アルゴリズムは、空間的およびスペクトル的変化の特徴の関連性を深く研究していないため、検出精度は低い。 変化特徴のスペクトル情報と空間情報の両方をよりよく発掘するため,JMPT法(Joint morphology and patch-tensor change detection)を提案する。 当初は、重複しない局所パッチ画像を新しいテンソル立方体に再構成した空間構造の類似性を活用するためにパッチベースのテンソル戦略が採用され、さらに3次タッカーデコンポジトンおよび画像再構成戦略が採用され、より堅牢な多時間超スペクトルデータセットが得られる。 一方、最大木と最小木を含む複数の形態素プロファイルを適用し、多時間画像の異なる属性を抽出する。 最後に、これらの結果は、最終変更検出マップを一般化するために融合される。 2つの実超スペクトルデータセットで行った実験は、提案した検出器がより良い検出性能を達成することを示す。

Multi-temporal hyperspectral images can be used to detect changed information, which has gradually attracted researchers' attention. However, traditional change detection algorithms have not deeply explored the relevance of spatial and spectral changed features, which leads to low detection accuracy. To better excavate both spectral and spatial information of changed features, a joint morphology and patch-tensor change detection (JMPT) method is proposed. Initially, a patch-based tensor strategy is adopted to exploit similar property of spatial structure, where the non-overlapping local patch image is reshaped into a new tensor cube, and then three-order Tucker decompositon and image reconstruction strategies are adopted to obtain more robust multi-temporal hyperspectral datasets. Meanwhile, multiple morphological profiles including max-tree and min-tree are applied to extract different attributes of multi-temporal images. Finally, these results are fused to general a final change detection map. Experiments conducted on two real hyperspectral datasets demonstrate that the proposed detector achieves better detection performance.
翻訳日:2022-01-21 14:55:12 公開日:2022-01-20
# voxel-pixelルックアップテーブルを用いた積分画像光フィールド表示のためのリアルタイムレンダリング

Real-time Rendering for Integral Imaging Light Field Displays Based on a Voxel-Pixel Lookup Table ( http://arxiv.org/abs/2201.08266v1 )

ライセンス: Link先を確認
Quanzhen Wan(参考訳) レイトレーシングおよびプレストアドボクセルピクセルルックアップテーブル(LUT)を介して、精度を犠牲にせず、高性能なハードウェアに依存しないリアルタイム要素画像アレイ(EIA)を生成する。 オフラインとオンラインの両方の作業フローから恩恵を受け、実験は有効性を検証した。

A real-time elemental image array (EIA) generation method which does not sacrifice accuracy nor rely on high-performance hardware is developed, through raytracing and pre-stored voxel-pixel lookup table (LUT). Benefiting from both offline and online working flow, experiments verified the effectiveness.
翻訳日:2022-01-21 14:54:53 公開日:2022-01-20
# DIVA-DAF: 歴史的文書画像解析のためのディープラーニングフレームワーク

DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis ( http://arxiv.org/abs/2201.08295v1 )

ライセンス: Link先を確認
Lars V\"ogtlin, Paul Maergner, Rolf Ingold(参考訳) 本稿では,DIVA-DAFと呼ばれる新しいディープラーニングフレームワークを提案する。 この枠組みは,歴史的文書画像解析タスクの研究を支援するとともに,手作業による土台真理の必要性を軽減する技術を開発する。 私たちは、自己教師付き学習技術を適用し、異なる種類のトレーニングデータを使用したいと思っています。 我々の新しいフレームワークは、迅速にプロトタイピングと再現可能な実験を行うのに役立ちます。 本フレームワークを用いてDIVA-HisDB上でのセマンティックセマンティックセマンティックなセマンティックなセマンティクス実験を行った。 DIVA-DAFフレームワークはオープンソースであり、他の研究グループが実験に使用することを推奨します。

In this paper, we introduce a new deep learning framework called DIVA-DAF. We have developed this framework to support our research on historical document image analysis tasks and to develop techniques to reduce the need for manually-labeled ground truth. We want to apply self-supervised learning techniques and use different kinds of training data. Our new framework aids us in performing rapid prototyping and reproducible experiments. We present a first semantic segmentation experiment on DIVA-HisDB using our framework, achieving state-of-the-art results. The DIVA-DAF framework is open-source, and we encourage other research groups to use it for their experiments.
翻訳日:2022-01-21 14:54:46 公開日:2022-01-20
# 機械学習によるKSTARのEMMフィラメントダイナミクスの解析

Machine-Learning enabled analysis of ELM filament dynamics in KSTAR ( http://arxiv.org/abs/2201.07941v1 )

ライセンス: Link先を確認
Cooper Jacobus, Minjun J. Choi, Ralph Kube(参考訳) 高密度モードにおけるトカマクプラズマ中のエッジ局在モード(ELM)に関連するフィラメント構造の出現と動態を電子サイクロトロンイメージング(ECEI)診断システムを用いて定期的に検討した。 このような診断は電子温度の変動を推測し、しばしばポロロイド断面を横切ることができる。 従来,これらのフィラメントダイナミクスの詳細な解析と,エッジローカライズドクラッシュの前駆体の分類が手作業で行われてきた。 本研究では,EMMフィラメントの位置,空間拡張,振幅を自動的に識別できる機械学習モデルを提案する。 このモデルは深層畳み込みニューラルネットワークであり、KSTAR tokamakから手動でラベル付けされたECEIデータをトレーニングし、最適化している。 トレーニングが完了すると、このモデルは9,3.7\%の精度を達成し、見えないCEIデータのプラズマフィラメントを堅牢に識別することができる。 トレーニングされたモデルは、単一Hモードプラズマ放電におけるEMMフィラメントダイナミクスの特徴付けに使用される。 フィラメント径,全熱量,放射速度の準周期振動を同定した。 これらの量の詳細なダイナミクスは互いに強く相関しており、前クラッシュとelmのクラッシュフェーズの間は定性的に異なる。

The emergence and dynamics of filamentary structures associated with edge-localized modes (ELMs) inside tokamak plasmas during high-confinement mode is regularly studied using Electron Cyclotron Emission Imaging (ECEI) diagnostic systems. Such diagnostics allow us to infer electron temperature variations, often across a poloidal cross-section. Previously, detailed analysis of these filamentary dynamics and classification of the precursors to edge-localized crashes has been done manually. We present a machine-learning-bas ed model, capable of automatically identifying the position, spatial extend, and amplitude of ELM filaments. The model is a deep convolutional neural network that has been trained and optimized on an extensive set of manually labeled ECEI data from the KSTAR tokamak. Once trained, the model achieves a $93.7\%$ precision and allows us to robustly identify plasma filaments in unseen ECEI data. The trained model is used to characterize ELM filament dynamics in a single H-mode plasma discharge. We identify quasi-periodic oscillations of the filaments size, total heat content, and radial velocity. The detailed dynamics of these quantities appear strongly correlated with each other and appear qualitatively different during the pre-crash and ELM crash phases.
翻訳日:2022-01-21 14:54:34 公開日:2022-01-20
# マルチタスク学習と話者分類合同学習を用いた言語間音声合成

Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker Classifier Joint Training ( http://arxiv.org/abs/2201.08124v1 )

ライセンス: Link先を確認
J. Yang and Lei He(参考訳) 言語間音声合成では、モノグロット話者に対して様々な言語の音声を合成することができる。 通常、単言語話者のデータのみがモデルの訓練に利用できるため、合成された言語間音声と母語録音との話者類似性は比較的低い。 本稿では,多言語トランスフォーマのテキスト対音声モデルに基づき,多言語話者の類似性を改善するためのマルチタスク学習フレームワークについて検討する。 話者類似性をさらに向上するため,話者分類器を用いた共同訓練を提案する。 本報告では, 同時学習導入時の並列トレーニング機構の破断を回避するために, 並列スケジュールサンプリングと類似した手法を提案する。 マルチタスク学習と話者分類器ジョイントトレーニングを用いて、主観的および客観的評価において、トレーニングセット内の見知らぬ話者と見知らぬ話者の両方に対して、言語間話者類似性を一貫して改善することができる。

In cross-lingual speech synthesis, the speech in various languages can be synthesized for a monoglot speaker. Normally, only the data of monoglot speakers are available for model training, thus the speaker similarity is relatively low between the synthesized cross-lingual speech and the native language recordings. Based on the multilingual transformer text-to-speech model, this paper studies a multi-task learning framework to improve the cross-lingual speaker similarity. To further improve the speaker similarity, joint training with a speaker classifier is proposed. Here, a scheme similar to parallel scheduled sampling is proposed to train the transformer model efficiently to avoid breaking the parallel training mechanism when introducing joint training. By using multi-task learning and speaker classifier joint training, in subjective and objective evaluations, the cross-lingual speaker similarity can be consistently improved for both the seen and unseen speakers in the training set.
翻訳日:2022-01-21 14:54:14 公開日:2022-01-20
# コントラストロスバックプロパゲーションによる教師なしグラフ中毒攻撃

Unsupervised Graph Poisoning Attack via Contrastive Loss Back-propagation ( http://arxiv.org/abs/2201.07986v1 )

ライセンス: Link先を確認
Sixiao Zhang, Hongxu Chen, Xiangguo Sun, Yicong Li, Guandong Xu(参考訳) グラフ対照的学習は最先端の教師なしグラフ表現学習フレームワークであり、教師付きアプローチと同等のパフォーマンスを示している。 しかし、グラフのコントラスト学習が敵の攻撃に対して堅牢であるかどうかの評価は、既存のグラフのコントラスト学習を特定のシナリオで評価するためにのみ使用できるラベルに大きく依存する、教師付きモデルであるので、まだ未解決の問題である。 グラフコントラスト学習のような教師なしグラフ表現法では,実世界のシナリオにおいてラベルの取得が困難であり,従来の教師付きグラフ攻撃法の適用が困難である。 本稿では,グラフコントラスト学習のためのラベルに依存しない,教師なし勾配に基づく逆攻撃を提案する。 2つのビューの隣接行列の勾配を計算し、エッジを勾配上昇で反転させ、対照的な損失を最大化する。 このようにして、グラフの対照的な学習モデルによって生成された複数のビューをフルに利用し、ラベルを知らずに最も情報に富んだエッジを選択することができる。 広範な実験により,ノード分類やリンク予測など,複数のダウンストリームタスクにおける教師付き攻撃と同等の性能を持つ,教師付きベースライン攻撃よりも優れた攻撃性能を示すことができた。 さらに、我々の攻撃は他のグラフ表現モデルにも転送可能であることを示す。

Graph contrastive learning is the state-of-the-art unsupervised graph representation learning framework and has shown comparable performance with supervised approaches. However, evaluating whether the graph contrastive learning is robust to adversarial attacks is still an open problem because most existing graph adversarial attacks are supervised models, which means they heavily rely on labels and can only be used to evaluate the graph contrastive learning in a specific scenario. For unsupervised graph representation methods such as graph contrastive learning, it is difficult to acquire labels in real-world scenarios, making traditional supervised graph attack methods difficult to be applied to test their robustness. In this paper, we propose a novel unsupervised gradient-based adversarial attack that does not rely on labels for graph contrastive learning. We compute the gradients of the adjacency matrices of the two views and flip the edges with gradient ascent to maximize the contrastive loss. In this way, we can fully use multiple views generated by the graph contrastive learning models and pick the most informative edges without knowing their labels, and therefore can promisingly support our model adapted to more kinds of downstream tasks. Extensive experiments show that our attack outperforms unsupervised baseline attacks and has comparable performance with supervised attacks in multiple downstream tasks including node classification and link prediction. We further show that our attack can be transferred to other graph representation models as well.
翻訳日:2022-01-21 14:52:05 公開日:2022-01-20
# グラフ表現学習による複雑ネットワーク上の臨界ノードの同定

Identifying critical nodes in complex networks by graph representation learning ( http://arxiv.org/abs/2201.07988v1 )

ライセンス: Link先を確認
Enyu Yu, Duanbing Chen, Yan Fu, Yuanyuan Xu(参考訳) その幅広い応用により、臨界ノードの同定はネットワーク科学のミクロレベルにおいて重要な研究テーマとなっている。 影響最大化はクリティカルノードマイニングの主要な問題の1つであり、通常ヒューリスティックスで処理される。 本稿では,深層グラフ学習フレームワーク IMGNN を提案し,それに対応するトレーニングサンプル生成方式を設計する。 このフレームワークは、ネットワーク内のノードの集中度を入力とし、最適な初期スプレッドラー内のノードを出力とする確率を出力とする。 多数の小さな合成ネットワークをトレーニングすることにより、IMGNNは、固定感染規模で初期スプレッドラーのサイズを最小限に抑える上で、人間ベースのヒューリスティックよりも効率的である。 1つの合成および5つの実ネットワークの実験結果は、従来の非定位ノードランキングアルゴリズムと比較して、IMGNNは最終感染規模が固定された場合、感染確率の異なる初期スプレッダーの比率が最小であることを示している。 IMGNNの再注文版は、最新のクリティカルノードマイニングアルゴリズムよりも優れています。

Because of its wide application, critical nodes identification has become an important research topic at the micro level of network science. Influence maximization is one of the main problems in critical nodes mining and is usually handled with heuristics. In this paper, a deep graph learning framework IMGNN is proposed and the corresponding training sample generation scheme is designed. The framework takes centralities of nodes in a network as input and the probability that nodes in the optimal initial spreaders as output. By training on a large number of small synthetic networks, IMGNN is more efficient than human-based heuristics in minimizing the size of initial spreaders under the fixed infection scale. The experimental results on one synthetic and five real networks show that, compared with traditional non-iterative node ranking algorithms, IMGNN has the smallest proportion of initial spreaders under different infection probabilities when the final infection scale is fixed. And the reordered version of IMGNN outperforms all the latest critical nodes mining algorithms.
翻訳日:2022-01-21 14:51:41 公開日:2022-01-20
# 断続的および経年的計測アップデートによるエッジでの学習推定

Learning Estimates At The Edge Using Intermittent And Aged Measurement Updates ( http://arxiv.org/abs/2201.08020v1 )

ライセンス: Link先を確認
Shivangi Agarwal, Sanjit K. Kaul, Saket Anand, P.B. Sujit(参考訳) サイバー・フィジカル・システムズ(CPS)のアプリケーションは、その周辺で作動するエージェントを持ち、大きな環境の状態を計測して作動の選択を行う必要がある。 これらの測定はセンサーによって行われ、更新パケットとしてネットワーク上で通信される。 ネットワークリソースの制約は、更新が間欠的にエージェントに到着し、到着時に老化することを指示する。 これは測定値の推定速度が十分速いエージェントを提供することで緩和することができる。 しばしば見積もりは、測定されているシステムの動的モデルの知識を仮定する。 しかし、CPSアプリケーションが普及するにつれて、実際にはそのような情報は利用できないかもしれない。 本研究では,long short term memory (lstm) ネットワークを利用して,ネットワーク上で受信した更新のみを使用してモデルフリーな環境で推定を学習する,新しいディープニューラルネットワークアーキテクチャを提案する。 アーキテクチャのトレーニングを可能にするオンラインアルゴリズムを詳述する。 このアーキテクチャは、線形力学系と非線形力学系の両方の測定値の適切な推定をもたらすことが示されている。 受信した測定値の速度と年齢を規定する分布が時間とともに大幅に変化するような汎用ネットワーク設定上で学習が進行しても、優れた推定値が得られる。 本手法は,時間変化kalmanフィルタと無臭kalmanフィルタのベースラインと比較することにより,アーキテクチャの有効性を実証する。 このアーキテクチャは、itとベースラインが使用する推定子で更新の年齢を維持することに関する実証的な洞察を可能にする。

Cyber Physical Systems (CPS) applications have agents that actuate in their local vicinity, while requiring measurements that capture the state of their larger environment to make actuation choices. These measurements are made by sensors and communicated over a network as update packets. Network resource constraints dictate that updates arrive at an agent intermittently and be aged on their arrival. This can be alleviated by providing an agent with a fast enough rate of estimates of the measurements. Often works on estimation assume knowledge of the dynamic model of the system being measured. However, as CPS applications become pervasive, such information may not be available in practice. In this work, we propose a novel deep neural network architecture that leverages Long Short Term Memory (LSTM) networks to learn estimates in a model-free setting using only updates received over the network. We detail an online algorithm that enables training of our architecture. The architecture is shown to provide good estimates of measurements of both a linear and a non-linear dynamic system. It learns good estimates even when the learning proceeds over a generic network setting in which the distributions that govern the rate and age of received measurements may change significantly over time. We demonstrate the efficacy of the architecture by comparing it with the baselines of the Time-varying Kalman Filter and the Unscented Kalman Filter. The architecture enables empirical insights with regards to maintaining the ages of updates at the estimator, which are used by it and also the baselines.
翻訳日:2022-01-21 14:51:24 公開日:2022-01-20
# GANに基づくレコメンダシステムの行列分解

GAN-based Matrix Factorization for Recommender Systems ( http://arxiv.org/abs/2201.08042v1 )

ライセンス: Link先を確認
Ervin Dervishaj and Paolo Cremonesi(参考訳) 2014年に提案されたGAN(Generative Adversarial Networks)は、ジェネレーティブモデリングに新たな関心を抱き始めた。 彼らはすぐに画像合成、画像から画像への翻訳、テキストから画像への変換、画像のインペインティングの最先端を達成し、医学から高エネルギー粒子物理学まで科学で使われてきた。 任意の分布を学習する能力と人気にもかかわらず、GANは推奨システム(RS)には広く適用されていない。 さらに、RSにGANを導入した技術はごくわずかであり、協調フィルタリング(CF)モデルとして直接採用されている。 本研究では,汎用的トップnレコメンデーション問題に対する行列因子化設定において,ユーザとアイテムの潜在要因を学習する新しいganベースアプローチを提案する。 CFGAN が導入した RS のベクトルワイド GAN トレーニング手法に従えば,GAN をCF に利用する際の2つの特異な問題を特定することができる。 本稿では, 自動エンコーダを判別器として使用し, ジェネレータに損失関数を追加することで, 両者の解決法を提案する。 我々は、RSコミュニティでよく知られたデータセットを通じて、我々のモデルであるGANMFを評価し、従来のCFアプローチやGANベースのモデルよりも改善したことを示す。 GANMFのコンポーネントに関するアブレーション研究を通じて、アーキテクチャ選択の効果を理解することを目指している。 最後に, GANMF の行列分解性能の定性評価を行う。

Proposed in 2014, Generative Adversarial Networks (GAN) initiated a fresh interest in generative modelling. They immediately achieved state-of-the-art in image synthesis, image-to-image translation, text-to-image generation, image inpainting and have been used in sciences ranging from medicine to high-energy particle physics. Despite their popularity and ability to learn arbitrary distributions, GAN have not been widely applied in recommender systems (RS). Moreover, only few of the techniques that have introduced GAN in RS have employed them directly as a collaborative filtering (CF) model. In this work we propose a new GAN-based approach that learns user and item latent factors in a matrix factorization setting for the generic top-N recommendation problem. Following the vector-wise GAN training approach for RS introduced by CFGAN, we identify 2 unique issues when utilizing GAN for CF. We propose solutions for both of them by using an autoencoder as discriminator and incorporating an additional loss function for the generator. We evaluate our model, GANMF, through well-known datasets in the RS community and show improvements over traditional CF approaches and GAN-based models. Through an ablation study on the components of GANMF we aim to understand the effects of our architectural choices. Finally, we provide a qualitative evaluation of the matrix factorization performance of GANMF.
翻訳日:2022-01-21 14:51:00 公開日:2022-01-20
# 金融時系列のための長期短期記憶ニューラルネット

Long Short-Term Memory Neural Network for Financial Time Series ( http://arxiv.org/abs/2201.08218v1 )

ライセンス: Link先を確認
Carmina Fjellstr\"om(参考訳) 業績予測は経済と金融において古くからある問題である。 近年、機械学習とニューラルネットワークの発展は、従来の分析方法に代わる近代的で有望な選択肢を提供する非線形時系列モデルを生み出している。 本稿では,ストック価格変動の予測を目的とした,独立・並列長短期記憶(LSTM)ニューラルネットワークのアンサンブルについて述べる。 LSTMは過去の情報を組み込む能力のために時系列データに特に適していることが示されている一方、ニューラルネットワークのアンサンブルは結果のばらつきを低減し、一般化を改善することが示されている。 戻り値の中央値に基づく二項分類問題を使用し、アンサンブルの予測は閾値に依存し、その結果に一致するのに必要なLSTMの最小数である。 このモデルは、DJIAやS&P500のような他の主要な市場指標の代わりに、より小さく、より効率的でないストックホルムOMX30の構成物に適用される。 ストレートなトレーディング戦略では、ランダムに選択されたポートフォリオと指数のすべての株を含むポートフォリオを比較すると、LSTMアンサンブルから得られたポートフォリオが平均的なリターンと時間とともに高い累積リターンを提供することを示している。 さらに、LSTMポートフォリオはボラティリティも低く、リスクとリターンの比率も高くなっています。

Performance forecasting is an age-old problem in economics and finance. Recently, developments in machine learning and neural networks have given rise to non-linear time series models that provide modern and promising alternatives to traditional methods of analysis. In this paper, we present an ensemble of independent and parallel long short-term memory (LSTM) neural networks for the prediction of stock price movement. LSTMs have been shown to be especially suited for time series data due to their ability to incorporate past information, while neural network ensembles have been found to reduce variability in results and improve generalization. A binary classification problem based on the median of returns is used, and the ensemble's forecast depends on a threshold value, which is the minimum number of LSTMs required to agree upon the result. The model is applied to the constituents of the smaller, less efficient Stockholm OMX30 instead of other major market indices such as the DJIA and S&P500 commonly found in literature. With a straightforward trading strategy, comparisons with a randomly chosen portfolio and a portfolio containing all the stocks in the index show that the portfolio resulting from the LSTM ensemble provides better average daily returns and higher cumulative returns over time. Moreover, the LSTM portfolio also exhibits less volatility, leading to higher risk-return ratios.
翻訳日:2022-01-21 14:50:38 公開日:2022-01-20
# (参考訳) AIの技術的考察:データストレージ、クラウド利用、AIパイプライン [全文訳有]

AI Technical Considerations: Data Storage, Cloud usage and AI Pipeline ( http://arxiv.org/abs/2201.08356v1 )

ライセンス: CC BY 4.0
P.M.A van Ooijen, Erfan Darzidehkalani, Andre Dekker(参考訳) 人工知能(AI)、特にディープラーニングは、トレーニング、テスト、検証に大量のデータを必要とする。 これらのデータと対応するアノテーションの収集には、標準化された方法でこれらのデータへのアクセスを提供するイメージングバイオバンクの実装が必要である。 これは、現在の標準とガイドラインに基づいて慎重に設計と実装を行い、現在の法的制約に従わなければならない。 しかし、適切な画像データ収集の実現は、リソース要求が高いため、AIをトレーニング、検証、デプロイするのに十分なものではなく、オンプレミスとクラウドの両方でAIパイプラインの慎重なハイブリッド実装が必要である。 この章は、データストレージ、クラウド使用、AIパイプラインに関連するさまざまな概念と実装の技術的背景を提供することで、AI環境に関する技術的考慮が必要とされるとき、読者を支援することを目的としている。

Artificial intelligence (AI), especially deep learning, requires vast amounts of data for training, testing, and validation. Collecting these data and the corresponding annotations requires the implementation of imaging biobanks that provide access to these data in a standardized way. This requires careful design and implementation based on the current standards and guidelines and complying with the current legal restrictions. However, the realization of proper imaging data collections is not sufficient to train, validate and deploy AI as resource demands are high and require a careful hybrid implementation of AI pipelines both on-premise and in the cloud. This chapter aims to help the reader when technical considerations have to be made about the AI environment by providing a technical background of different concepts and implementation aspects involved in data storage, cloud usage, and AI pipelines.
翻訳日:2022-01-21 14:48:25 公開日:2022-01-20
# 人口不足に対する外挿用医療時系列の条件付き生成

Conditional Generation of Medical Time Series for Extrapolation to Underrepresented Populations ( http://arxiv.org/abs/2201.08186v1 )

ライセンス: Link先を確認
Simon Bing, Andrea Dittadi, Stefan Bauer, Patrick Schwab(参考訳) 電子健康記録(EHR)の普及と,その後の縦断的医療データの増加は,新たな診断・治療オプションの開発に直接的かつ即時的に影響を及ぼすことなく,我々の健康・疾患理解に大きな進展をもたらした。 しかしながら、EHRへのアクセスは、知覚的な性質と関連する法的懸念のために制限されることが多く、そのコホートは、典型的には特定の病院や病院のネットワークで見られるものであるため、より広範な患者を代表していない。 本稿では, 患者特性, 時間的情報, 欠如パターンの正確な表現を維持する合成eersの条件生成のための新しい手法であるhealthgenを提案する。 そこで本研究では,現況よりも実患者ehlsに有意に忠実な合成コホートを生産し,低発現のサブポピュレーションの条件付きコホートで実データ集合を増強することで,これらのデータから導出したモデルを異なる患者集団に一般化できることを実験的に示す。 合成条件付きEHRは、縦断的な医療データセットのアクセシビリティを高め、これらのデータセットから表現されていない人口への推論の一般性を向上させる。

The widespread adoption of electronic health records (EHRs) and subsequent increased availability of longitudinal healthcare data has led to significant advances in our understanding of health and disease with direct and immediate impact on the development of new diagnostics and therapeutic treatment options. However, access to EHRs is often restricted due to their perceived sensitive nature and associated legal concerns, and the cohorts therein typically are those seen at a specific hospital or network of hospitals and therefore not representative of the wider population of patients. Here, we present HealthGen, a new approach for the conditional generation of synthetic EHRs that maintains an accurate representation of real patient characteristics, temporal information and missingness patterns. We demonstrate experimentally that HealthGen generates synthetic cohorts that are significantly more faithful to real patient EHRs than the current state-of-the-art, and that augmenting real data sets with conditionally generated cohorts of underrepresented subpopulations of patients can significantly enhance the generalisability of models derived from these data sets to different patient populations. Synthetic conditionally generated EHRs could help increase the accessibility of longitudinal healthcare data sets and improve the generalisability of inferences made from these data sets to underrepresented populations.
翻訳日:2022-01-21 14:33:04 公開日:2022-01-20
# 適応的近隣メトリック学習

Adaptive neighborhood Metric learning ( http://arxiv.org/abs/2201.08314v1 )

ライセンス: Link先を確認
Kun Song, Junwei Han, Gong Cheng, Jiwen Lu, Feiping Nie(参考訳) 本稿では,サンプルマイニングを行なわなければ,メトリクス学習は深刻な分離不能な問題に苦しむことを明らかにする。 分離不能なサンプルはしばしば硬いサンプルと混合されるため、分離不能な問題に対処するために使用される現在の情報的サンプルマイニング戦略は、目的関数の不安定性などの副作用を引き起こす可能性がある。 そこで本研究では,新しい距離距離メトリック学習アルゴリズムであるadaptive neighborhood metric learning (anml)を提案する。 ANMLでは、トレーニング手順において、分離不能な類似サンプルと異種サンプルを適応的に識別する2つの閾値を設計し、分離不能なサンプル除去とパラメータ学習を同じ手順で実施する。 提案したANMLの不連続性のため, 連続的な定式化を構築し, 勾配降下法により効率よく解けるような, 創発的関数である 'emph{log-exp mean function} を開発した。 Tripletの損失と同様に、ANMLは線形と深い埋め込みの両方を学ぶのに使うことができる。 提案手法を解析した結果,興味深い性質が得られた。 例えば、線形埋め込みの学習にANMLを使用する場合、パラメータを異なる値に設定することで、提案したANMLの特別な場合として、大きな辺近傍(LMNN)や近傍成分分析(NCA)といった現在の有名なメトリック学習アルゴリズムが用いられる。 深い特徴を学習する際には、トリプルト損失、リフテッド構造損失、多相性損失といった最先端の深度学習アルゴリズムがANMLの特殊なケースとなる。 さらに,本手法で提案した「emph{log-exp mean function」は,Prox-NCAやN対損失といった深度学習手法を考察するための新たな視点を与える。 最後に,提案手法の有効性を示す有望な実験結果を得た。

In this paper, we reveal that metric learning would suffer from serious inseparable problem if without informative sample mining. Since the inseparable samples are often mixed with hard samples, current informative sample mining strategies used to deal with inseparable problem may bring up some side-effects, such as instability of objective function, etc. To alleviate this problem, we propose a novel distance metric learning algorithm, named adaptive neighborhood metric learning (ANML). In ANML, we design two thresholds to adaptively identify the inseparable similar and dissimilar samples in the training procedure, thus inseparable sample removing and metric parameter learning are implemented in the same procedure. Due to the non-continuity of the proposed ANML, we develop an ingenious function, named \emph{log-exp mean function} to construct a continuous formulation to surrogate it, which can be efficiently solved by the gradient descent method. Similar to Triplet loss, ANML can be used to learn both the linear and deep embeddings. By analyzing the proposed method, we find it has some interesting properties. For example, when ANML is used to learn the linear embedding, current famous metric learning algorithms such as the large margin nearest neighbor (LMNN) and neighbourhood components analysis (NCA) are the special cases of the proposed ANML by setting the parameters different values. When it is used to learn deep features, the state-of-the-art deep metric learning algorithms such as Triplet loss, Lifted structure loss, and Multi-similarity loss become the special cases of ANML. Furthermore, the \emph{log-exp mean function} proposed in our method gives a new perspective to review the deep metric learning methods such as Prox-NCA and N-pairs loss. At last, promising experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-21 14:32:43 公開日:2022-01-20
# 関心点推薦における文脈情報の影響に関する体系的分析

A Systematic Analysis on the Impact of Contextual Information on Point-of-Interest Recommendation ( http://arxiv.org/abs/2201.08150v1 )

ライセンス: Link先を確認
Hossein A. Rahmani and Mohammad Aliannejadi and Mitra Baratchi and Fabio Crestani(参考訳) 位置情報ベースのソーシャルネットワーク(LBSN)の普及に伴い、POI(Point-of-Interes t)レコメンデーションの正確なモデルの設計が注目されている。 POIレコメンデーションは、以前設計されたレコメンデーションアルゴリズムにコンテキスト情報を組み込むことによって実行されることが多い。 POIレコメンデーションで考慮された主要なコンテキスト情報には、位置属性(場所、カテゴリ、チェックイン時間の正確な座標)、ユーザ属性(場所に対して作成されたコメント、レビュー、ヒント、チェックイン)、およびユーザのメインアクティビティロケーションからのPOIの距離、ユーザ間の社会的結びつきなどである。 このような要因の適切な選択は、POIレコメンデーションのパフォーマンスに大きな影響を与えます。 しかし、これまでの研究ではこれらの異なる要因の組み合わせの影響は考慮されていない。 本稿では,異なるコンテキストモデルを提案し,異なる主要なコンテキスト情報の融合をPOIレコメンデーションで解析する。 本論文の主な貢献は次のとおりである。 (i)状況認識型位置情報推薦の広範な調査 (ii)poiレコメンデーションにおける異なる文脈情報(例えば、社会的、時間的、空間的、カテゴリー的)が利用可能なベースラインと、すべての主要な文脈情報を単一のレコメンデーションモデルに組み込むことができる2つの新しい線形および非線形モデルに与える影響を定量化し、分析すること。 (iii)よく知られた2つの実世界データセットを用いた検討モデルの評価。 以上の結果から,地理的および時間的影響をモデル化することでレコメンデーション品質が向上する一方で,他のすべての文脈情報をレコメンデーションモデルに融合することが必ずしも最善の戦略であるとは限らない。

As the popularity of Location-based Social Networks (LBSNs) increases, designing accurate models for Point-of-Interest (POI) recommendation receives more attention. POI recommendation is often performed by incorporating contextual information into previously designed recommendation algorithms. Some of the major contextual information that has been considered in POI recommendation are the location attributes (i.e., exact coordinates of a location, category, and check-in time), the user attributes (i.e., comments, reviews, tips, and check-in made to the locations), and other information, such as the distance of the POI from user's main activity location, and the social tie between users. The right selection of such factors can significantly impact the performance of the POI recommendation. However, previous research does not consider the impact of the combination of these different factors. In this paper, we propose different contextual models and analyze the fusion of different major contextual information in POI recommendation. The major contributions of this paper are: (i) providing an extensive survey of context-aware location recommendation (ii) quantifying and analyzing the impact of different contextual information (e.g., social, temporal, spatial, and categorical) in the POI recommendation on available baselines and two new linear and non-linear models, that can incorporate all the major contextual information into a single recommendation model, and (iii) evaluating the considered models using two well-known real-world datasets. Our results indicate that while modeling geographical and temporal influences can improve recommendation quality, fusing all other contextual information into a recommendation model is not always the best strategy.
翻訳日:2022-01-21 14:32:00 公開日:2022-01-20
# 機械学習を用いたコンジョイント解析における因果仮説の検証

Using Machine Learning to Test Causal Hypotheses in Conjoint Analysis ( http://arxiv.org/abs/2201.08343v1 )

ライセンス: Link先を確認
Dae Woong Ham, Kosuke Imai, Lucas Janson(参考訳) コンジョイント分析は多次元の嗜好を測定するために使われる一般的な実験設計である。 研究者は、他の関連する要因をコントロールしながら、関心の要因がどの程度変化するかを調べます。 現在、コンジョイント実験からデータを分析するための方法論的アプローチが2つ存在する。 第一は、各因子の平均限界効果を推定し、他の因子を平均化することに焦点を当てる。 これは設計に基づく直接的な推定を可能にするが、結果は他の要因の分布と相互作用効果の集約方法に批判的に依存する。 代替モデルに基づくアプローチは、様々な関心事を計算することができるが、研究者はモデルを正しく特定する必要がある。 加えて、一般に使われるロジスティック回帰は、相互作用を組み込む際に、適度な要素の数であっても統計的な性質が乏しい。 コンジョイント分析の最も基本的な問題に答えるために,条件付きランダム化テストに基づく新しい仮説テスト手法を提案する。 我々の方法論は因子のランダム化のみに基づいており、従って仮定から自由である。 しかし、複雑な機械学習アルゴリズムに基づくものを含め、研究者はあらゆるテスト統計を利用できる。 その結果、既存の設計ベースとモデルベースのアプローチの強みを組み合わせることが出来ます。 提案手法は,移民選好と政治候補評価のコンジョイント分析を通じて示す。 また、共役解析でよく用いられる正則性仮定をテストするための提案手法も拡張する。

Conjoint analysis is a popular experimental design used to measure multidimensional preferences. Researchers examine how varying a factor of interest, while controlling for other relevant factors, influences decision-making. Currently, there exist two methodological approaches to analyzing data from a conjoint experiment. The first focuses on estimating the average marginal effects of each factor while averaging over the other factors. Although this allows for straightforward design-based estimation, the results critically depend on the distribution of other factors and how interaction effects are aggregated. An alternative model-based approach can compute various quantities of interest, but requires researchers to correctly specify the model, a challenging task for conjoint analysis with many factors and possible interactions. In addition, a commonly used logistic regression has poor statistical properties even with a moderate number of factors when incorporating interactions. We propose a new hypothesis testing approach based on the conditional randomization test to answer the most fundamental question of conjoint analysis: Does a factor of interest matter {\it in any way} given the other factors? Our methodology is solely based on the randomization of factors, and hence is free from assumptions. Yet, it allows researchers to use any test statistic, including those based on complex machine learning algorithms. As a result, we are able to combine the strengths of the existing design-based and model-based approaches. We illustrate the proposed methodology through conjoint analysis of immigration preferences and political candidate evaluation. We also extend the proposed approach to test for regularity assumptions commonly used in conjoint analysis.
翻訳日:2022-01-21 14:31:31 公開日:2022-01-20
# (参考訳) 弱スーパービジョンによる予測推論

Predictive Inference with Weak Supervision ( http://arxiv.org/abs/2201.08315v1 )

ライセンス: CC BY 4.0
Maxime Cauchois, Suyash Gupta, Alnur Ali, John Duchi(参考訳) 大規模統計機械学習においてラベルを取得するコストは、部分的にも弱いラベル付きデータを魅力的にするが、そのようなデータをモデル適合や検証に活用する方法は必ずしも明確ではない。 本稿では,部分的監督と検証のギャップを埋める手法を提案する。弱いラベル付きデータを用いて,真のラベルを所定の確率でカバーする,信頼できる予測信頼セットを提供するための共形予測フレームワークを開発する。 そこで我々は,(必要な)新しいカバレッジ概念と予測妥当性を導入し,いくつかのアプリケーションシナリオを開発し,分類の効率的なアルゴリズムと大規模構造予測問題を提供する。 いくつかの実験を通して、新しいカバレッジ定義がより厳密で情報的な(しかし有効な)信頼セットを可能にするという仮説を裏付ける。

The expense of acquiring labels in large-scale statistical machine learning makes partially and weakly-labeled data attractive, though it is not always apparent how to leverage such data for model fitting or validation. We present a methodology to bridge the gap between partial supervision and validation, developing a conformal prediction framework to provide valid predictive confidence sets -- sets that cover a true label with a prescribed probability, independent of the underlying distribution -- using weakly labeled data. To do so, we introduce a (necessary) new notion of coverage and predictive validity, then develop several application scenarios, providing efficient algorithms for classification and several large-scale structured prediction problems. We corroborate the hypothesis that the new coverage definition allows for tighter and more informative (but valid) confidence sets through several experiments.
翻訳日:2022-01-21 14:29:22 公開日:2022-01-20
# 深層メタラーニングに基づく多都市シナリオの微粒軌道に基づく旅行時間推定

Fine-Grained Trajectory-based Travel Time Estimation for Multi-city Scenarios Based on Deep Meta-Learning ( http://arxiv.org/abs/2201.08017v1 )

ライセンス: Link先を確認
Chenxing Wang, Fang Zhao, Haichao Zhang, Haiyong Luo, Yanjun Qin, and Yuchen Fang(参考訳) 旅行時間推定(TTE)は、インテリジェント輸送システム(ITS)において不可欠である。 複数の都市シナリオを対象とした詳細なトラジェクトリベースの旅行時間推定(TTTE)を実現することは重要である。 しかし、動的時間依存やきめ細かい空間依存など複雑な要因により、大きな課題に直面している。 そこで本研究では,データプリプロセッシングモジュールとエンコーダデコーダネットワークモジュールで構成されるdedと呼ばれる高度に設計された深層ニューラルネットワークモデルを活用して,時間とともに正確な移動時間推定を行うメタラーニングフレームワークであるmetatteを提案する。 メタラーニング技術を導入することにより,MetaTTEの一般化能力が向上し,将来交通条件や道路網が変化すると,TTTE上で一貫した性能を実現する新たな機会が開かれる。 DEDモデルはエンコーダデコーダネットワークを採用し、微細な空間的および時間的表現をキャプチャする。 我々のMetaTTEは6つの最先端ベースラインより優れており、ChengduデータセットとPortoデータセットの最高ベースラインよりも29.35%と25.93%の精度が向上していることを確認した。

Travel Time Estimation (TTE) is indispensable in intelligent transportation system (ITS). It is significant to achieve the fine-grained Trajectory-based Travel Time Estimation (TTTE) for multi-city scenarios, namely to accurately estimate travel time of the given trajectory for multiple city scenarios. However, it faces great challenges due to complex factors including dynamic temporal dependencies and fine-grained spatial dependencies. To tackle these challenges, we propose a meta learning based framework, MetaTTE, to continuously provide accurate travel time estimation over time by leveraging well-designed deep neural network model called DED, which consists of Data preprocessing module and Encoder-Decoder network module. By introducing meta learning techniques, the generalization ability of MetaTTE is enhanced using small amount of examples, which opens up new opportunities to increase the potential of achieving consistent performance on TTTE when traffic conditions and road networks change over time in the future. The DED model adopts an encoder-decoder network to capture fine-grained spatial and temporal representations. Extensive experiments on two real-world datasets are conducted to confirm that our MetaTTE outperforms six state-of-art baselines, and improve 29.35% and 25.93% accuracy than the best baseline on Chengdu and Porto datasets, respectively.
翻訳日:2022-01-21 14:27:48 公開日:2022-01-20
# 逸話的エビデンスから定量的評価方法:説明可能なAIの評価に関する体系的レビュー

From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI ( http://arxiv.org/abs/2201.08164v1 )

ライセンス: Link先を確認
Meike Nauta, Jan Trienes, Shreyasi Pathak, Elisa Nguyen, Michelle Peters, Yasmin Schmitt, J\"org Schl\"otterer, Maurice van Keulen, Christin Seifert(参考訳) 高性能なブラックボックスを理解するための説明可能な人工知能(XAI)の人気が高まり、機械学習(ML)モデルの説明を評価する方法についても疑問が持ち上がった。 解釈可能性と説明可能性はしばしば主観的に検証されたバイナリプロパティとして提示されるが、多面的な概念と考える。 説明の質を包括的に評価するために評価すべき12の概念的性質,すなわちコンパクト性と正確性を明らかにする。 私たちのいわゆるCo-12プロパティは、XAIメソッドを導入した主要なAIおよびMLカンファレンスで過去7年間に発行された300以上の論文の評価プラクティスを体系的にレビューするための分類スキームとして役立ちます。 その結果,3件中1件が逸話的証拠でのみ評価され,5件中1件がユーザで評価されていることがわかった。 また,定量的XAI評価手法の概要を概観することにより,客観的定量評価手法の要求にも貢献する。 この体系的な評価手法の収集は、研究者や実践者に対して、新しいxaiメソッドと既存のxaiメソッドを徹底的に検証、ベンチマーク、比較するための具体的なツールを提供する。 これはまた、精度と解釈可能性を同時に最適化するために、モデルのトレーニング中に量的メトリクスを最適化基準として含める機会を開く。

The rising popularity of explainable artificial intelligence (XAI) to understand high-performing black boxes, also raised the question of how to evaluate explanations of machine learning (ML) models. While interpretability and explainability are often presented as a subjectively validated binary property, we consider it a multi-faceted concept. We identify 12 conceptual properties, such as Compactness and Correctness, that should be evaluated for comprehensively assessing the quality of an explanation. Our so-called Co-12 properties serve as categorization scheme for systematically reviewing the evaluation practice of more than 300 papers published in the last 7 years at major AI and ML conferences that introduce an XAI method. We find that 1 in 3 papers evaluate exclusively with anecdotal evidence, and 1 in 5 papers evaluate with users. We also contribute to the call for objective, quantifiable evaluation methods by presenting an extensive overview of quantitative XAI evaluation methods. This systematic collection of evaluation methods provides researchers and practitioners with concrete tools to thoroughly validate, benchmark and compare new and existing XAI methods. This also opens up opportunities to include quantitative metrics as optimization criteria during model training in order to optimize for accuracy and interpretability simultaneously.
翻訳日:2022-01-21 14:27:25 公開日:2022-01-20
# フルフェイス外観に基づく3次元視線推定のための学習・バイ・ノーベルビュー合成

Learning-by-Novel-Vi ew-Synthesis for Full-Face Appearance-based 3D Gaze Estimation ( http://arxiv.org/abs/2201.07927v1 )

ライセンス: Link先を確認
Jiawei Qin, Takuru Shimoyama, Yusuke Sugano(参考訳) 近年の外観に基づく視線推定技術の進歩にもかかわらず、目標の頭部ポーズと視線分布をカバーするトレーニングデータの必要性は、実用的展開において重要な課題である。 本研究は,単眼3次元顔再構成に基づく視線推定訓練データの合成手法について検討する。 マルチビュー再構成,フォトリアリスティックcgモデル,ジェネレイティブニューラルネットワークを用いた先行研究とは異なり,既存のトレーニングデータの頭部ポーズ範囲を,追加の必要なしに操作・拡張することが可能である。 本稿では,再構成された3次元顔メッシュをカメラ座標系と整合させ,正確な視線ラベルを用いた顔画像合成を行う投影マッチング手法を提案する。 また,合成学習データを活用することで,推定精度をさらに向上させるため,マスクガイド付視線推定モデルとデータ拡張戦略を提案する。 複数の公開データセットを用いた実験により、重複しない視線分布を持つ挑戦的なデータセット設定における推定性能が大幅に向上することが示された。

Despite recent advances in appearance-based gaze estimation techniques, the need for training data that covers the target head pose and gaze distribution remains a crucial challenge for practical deployment. This work examines a novel approach for synthesizing gaze estimation training data based on monocular 3D face reconstruction. Unlike prior works using multi-view reconstruction, photo-realistic CG models, or generative neural networks, our approach can manipulate and extend the head pose range of existing training data without any additional requirements. We introduce a projective matching procedure to align the reconstructed 3D facial mesh to the camera coordinate system and synthesize face images with accurate gaze labels. We also propose a mask-guided gaze estimation model and data augmentation strategies to further improve the estimation accuracy by taking advantage of the synthetic training data. Experiments using multiple public datasets show that our approach can significantly improve the estimation performance on challenging cross-dataset settings with non-overlapping gaze distributions.
翻訳日:2022-01-21 14:26:55 公開日:2022-01-20
# gascn:グラフ注意形状完了ネットワーク

GASCN: Graph Attention Shape Completion Network ( http://arxiv.org/abs/2201.07937v1 )

ライセンス: Link先を確認
Haojie Huang, Ziyi Yang, Robert Platt(参考訳) 部分点雲が与えられた物体の完全な形状を推測する問題である形状完了は、ロボット工学やコンピュータビジョンにおいて重要な問題である。 本稿では,この問題を解決するニューラルネットワークモデルであるGASCN(Graph Attention Shape Completion Network)を提案する。 このモデルは、ローカルポイントクラウド情報をエンコーディングするグラフベースのモデルと、グローバル情報をエンコーディングするmlpベースのアーキテクチャを組み合わせる。 各完成点について,本モデルでは,濃密かつ精密な形状完了を実現するために使用される局所表面パッチの標準値と範囲を推定する。 本稿では, GASCNがShapenetデータセットから抽出した標準ベンチマークにおいて, 標準形状補完法より優れていることを示す実験を報告する。

Shape completion, the problem of inferring the complete geometry of an object given a partial point cloud, is an important problem in robotics and computer vision. This paper proposes the Graph Attention Shape Completion Network (GASCN), a novel neural network model that solves this problem. This model combines a graph-based model for encoding local point cloud information with an MLP-based architecture for encoding global information. For each completed point, our model infers the normal and extent of the local surface patch which is used to produce dense yet precise shape completions. We report experiments that demonstrate that GASCN outperforms standard shape completion methods on a standard benchmark drawn from the Shapenet dataset.
翻訳日:2022-01-21 14:26:38 公開日:2022-01-20
# 周波数に基づく特徴分散と相互作用によるドメインの一般化

Domain Generalization via Frequency-based Feature Disentanglement and Interaction ( http://arxiv.org/abs/2201.08029v1 )

ライセンス: Link先を確認
Jingye Wang, Ruoyi Du, Dongliang Chang, and Zhanyu Ma(参考訳) データアウトオブディストリビューションは、i.i.d.仮定に強く依存するすべての統計学習アルゴリズムのメタキャレンジである。 これは現実的な応用において、避けられない労働コストと信頼の危機をもたらす。 そのため、ドメイン一般化は、未知の分布を持つ未知のターゲットドメインに一般化できる複数のソースドメインからドメイン関連知識をマイニングすることを目的としている。 本稿では、画像周波数領域を利用して、2つの重要な観測を行う。 (i)画像の高周波情報は、異なる領域にまたがって自然に一貫した物体エッジ構造を描写し、 (ii)低周波成分はオブジェクトの滑らかな構造を保持するが、よりドメイン固有である。 これらの洞察に動機づけられ (i)高周波・低周波特徴分散のためのエンコーダデコーダ構造 二 両部から有益な知識を確保するための情報対話機構が効果的に連携することができること。 (iii)ネットワークの堅牢性を促進するために周波数領域で動作する新しいデータ拡張技術。 提案手法は、広く使われている3つの領域一般化ベンチマーク(Digit-DG, Office-Home, PACS)の最先端結果を得る。

Data out-of-distribution is a meta-challenge for all statistical learning algorithms that strongly rely on the i.i.d. assumption. It leads to unavoidable labor costs and confidence crises in realistic applications. For that, domain generalization aims at mining domain-irrelevant knowledge from multiple source domains that can generalize to unseen target domains with unknown distributions. In this paper, leveraging the image frequency domain, we uniquely work with two key observations: (i) the high-frequency information of images depict object edge structure, which is naturally consistent across different domains, and (ii) the low-frequency component retains object smooth structure but are much more domain-specific. Motivated by these insights, we introduce (i) an encoder-decoder structure for high-frequency and low-frequency feature disentangling, (ii) an information interaction mechanism that ensures helpful knowledge from both two parts can cooperate effectively, and (iii) a novel data augmentation technique that works on the frequency domain for encouraging robustness of the network. The proposed method obtains state-of-the-art results on three widely used domain generalization benchmarks (Digit-DG, Office-Home, and PACS).
翻訳日:2022-01-21 14:24:24 公開日:2022-01-20
# 光リモートセンシング画像における特徴相関による軽量サルエント物体検出

Lightweight Salient Object Detection in Optical Remote Sensing Images via Feature Correlation ( http://arxiv.org/abs/2201.08049v1 )

ライセンス: Link先を確認
Gongyang Li and Zhi Liu and Zhen Bai and Weisi Lin and and Haibin Ling(参考訳) 光リモートセンシング画像(ori-sod)におけるsalient object detectionは、orsisを理解するために広く研究されている。 しかし,従来の手法では,メモリや計算のコストを無視しながら検出精度の向上に重点を置いていた。 本稿では,これらの問題に対処する軽量ORSI-SODソリューションであるCorrNetを提案する。 CorrNetでは、最初にバックボーン(VGG-16)をライトアップし、特徴抽出のための軽量サブネットを構築します。 次に,相関モジュール(CorrM)の高レベルの意味的特徴から,粗大な戦略に従って初期粗大なサリエンシマップを生成する。 粗いサリエンシマップは低レベルの機能のロケーションガイダンスとして機能する。 corrmでは、クロスレイヤー相関操作により、高レベル意味特徴間のオブジェクト位置情報をマイニングする。 最後に,低レベルの詳細な特徴に基づき,Dense Lightweight Refinement Blocksを備えた改良サブネットの粗いサリエンシマップを改良し,最終的な細かなサリエンシマップを作成する。 それぞれのコンポーネントのパラメータと計算を減らし、CorrNetは4.09Mのパラメータしか持たず、21.09GのFLOPで実行している。 2つの公開データセットにおける実験結果は、26の最先端メソッド(大規模なcnnベースのメソッド16と2つの軽量メソッドを含む)と比較して、我々の軽量corrnetが競合的、あるいはさらに優れたパフォーマンスを実現していることを示している。 このメソッドのコードと結果は、https://github.com/m athlee/corrnetで入手できます。

Salient object detection in optical remote sensing images (ORSI-SOD) has been widely explored for understanding ORSIs. However, previous methods focus mainly on improving the detection accuracy while neglecting the cost in memory and computation, which may hinder their real-world applications. In this paper, we propose a novel lightweight ORSI-SOD solution, named CorrNet, to address these issues. In CorrNet, we first lighten the backbone (VGG-16) and build a lightweight subnet for feature extraction. Then, following the coarse-to-fine strategy, we generate an initial coarse saliency map from high-level semantic features in a Correlation Module (CorrM). The coarse saliency map serves as the location guidance for low-level features. In CorrM, we mine the object location information between high-level semantic features through the cross-layer correlation operation. Finally, based on low-level detailed features, we refine the coarse saliency map in the refinement subnet equipped with Dense Lightweight Refinement Blocks, and produce the final fine saliency map. By reducing the parameters and computations of each component, CorrNet ends up having only 4.09M parameters and running with 21.09G FLOPs. Experimental results on two public datasets demonstrate that our lightweight CorrNet achieves competitive or even better performance compared with 26 state-of-the-art methods (including 16 large CNN-based methods and 2 lightweight methods), and meanwhile enjoys the clear memory and run time efficiency. The code and results of our method are available at https://github.com/M athLee/CorrNet.
翻訳日:2022-01-21 14:24:05 公開日:2022-01-20
# 深層学習による航空機LiDARデータによる植生分布の予測

Predicting Vegetation Stratum Occupancy from Airborne LiDAR Data with Deep Learning ( http://arxiv.org/abs/2201.08051v1 )

ライセンス: Link先を確認
Ekaterina Kalinicheva, Loic Landrieu, Cl\'ement Mallet, Nesrine Chehata(参考訳) 本研究では,航空機搭載3次元LiDAR点雲からの植生層占有率を推定する深層学習手法を提案する。 本モデルでは,下層,中層,高層に対応する3つの植生層についてラスタ化占有マップを予測した。 私たちのネットワークは、何千ものポイントを含む円筒状のプロットに集約された植生占有値しか管理できない。 このような基礎的な真理はピクセルワイドやポイントワイドアノテーションよりも生成しやすい。 本手法は,最大30%の精度で手作り・深層学習ベースラインを上回り,同時に視覚的・解釈可能な予測を提供する。 199の農業用プロットのデータセットと合わせて,弱い教師付き占有回帰アルゴリズムをトレーニングし,評価するオープンソース実装を提供する。

We propose a new deep learning-based method for estimating the occupancy of vegetation strata from airborne 3D LiDAR point clouds. Our model predicts rasterized occupancy maps for three vegetation strata corresponding to lower, medium, and higher cover. Our weakly-supervised training scheme allows our network to only be supervised with vegetation occupancy values aggregated over cylindrical plots containing thousands of points. Such ground truth is easier to produce than pixel-wise or point-wise annotations. Our method outperforms handcrafted and deep learning baselines in terms of precision by up to 30%, while simultaneously providing visual and interpretable predictions. We provide an open-source implementation along with a dataset of 199 agricultural plots to train and evaluate weakly supervised occupancy regression algorithms.
翻訳日:2022-01-21 14:23:34 公開日:2022-01-20
# AirPose:Aerial 3D Human Poseのための多視点核融合ネットワークと形状推定

AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2201.08093v1 )

ライセンス: Link先を確認
Nitin Saini, Elia Bonetto, Eric Price, Aamir Ahmad and Michael J. Black(参考訳) 本稿では,自律型無人航空機(uavs)と車載rgbカメラと計算を併用した非構造化屋外環境のための,新しいマーカーレス3dモーションキャプチャ(mocap)システムを提案する。 既存の方法は、キャリブレーションカメラとオフライン処理によって制限されている。 そこで本研究では,複数の外接型飛行カメラで撮影された画像を用いて人間のポーズと形状を推定する最初の手法(AirPose)を提案する。 AirPose自体は、事前校正に頼らずに、人のカメラを校正する。 それぞれのUAV上で動作する分散ニューラルネットワークを使用して、人の視点に依存しない情報(すなわち、その3D形状と明瞭なポーズ)を相互に伝達する。 人の形状とポーズはSMPL-Xボディモデルを用いてパラメータ化され、コンパクトな表現となり、UAV間の通信を最小化する。 ネットワークは、リアルな仮想環境の合成画像を使って訓練され、小さな実画像セットで微調整される。 また,mocap品質の高いオフラインアプリケーションに対して,最適化に基づくポストプロセッシング手法(airpose$^{+}$)を導入する。 我々はメソッドのコードとデータをhttps://github.com/r obot-perception-grou p/AirPose.comで研究する。 アプローチと結果を説明するビデオは、https://youtu.be/xly e1tnhsfsで見ることができる。

In this letter, we present a novel markerless 3D human motion capture (MoCap) system for unstructured, outdoor environments that uses a team of autonomous unmanned aerial vehicles (UAVs) with on-board RGB cameras and computation. Existing methods are limited by calibrated cameras and off-line processing. Thus, we present the first method (AirPose) to estimate human pose and shape using images captured by multiple extrinsically uncalibrated flying cameras. AirPose itself calibrates the cameras relative to the person instead of relying on any pre-calibration. It uses distributed neural networks running on each UAV that communicate viewpoint-independen t information with each other about the person (i.e., their 3D shape and articulated pose). The person's shape and pose are parameterized using the SMPL-X body model, resulting in a compact representation, that minimizes communication between the UAVs. The network is trained using synthetic images of realistic virtual environments, and fine-tuned on a small set of real images. We also introduce an optimization-based post-processing method (AirPose$^{+}$) for offline applications that require higher MoCap quality. We make our method's code and data available for research at https://github.com/r obot-perception-grou p/AirPose. A video describing the approach and results is available at https://youtu.be/xLY e1TNHsfs.
翻訳日:2022-01-21 14:23:21 公開日:2022-01-20
# 機械思考のための計算モデル

A Computational Model for Machine Thinking ( http://arxiv.org/abs/2201.08122v1 )

ライセンス: Link先を確認
Slimane Larabi(参考訳) 本報告では,コンピュータビジョンの最近の進歩と脳の理解に関する神経科学の最近の成果に基づいて,機械思考モデルを提案する。 自然言語の文形式での機械思考の結果や、情報的あるいは決定的なスケッチを提示する。 この結果は、新たな取得データおよび記憶データに対して実行される推論から得られる。

A machine thinking model is proposed in this report based on recent advances of computer vision and the recent results of neuroscience devoted to brain understanding. We deliver the result of machine thinking in the form of sentences of natural-language or drawn sketches either informative or decisional. This result is obtained from a reasoning performed on new acquired data and memorized data.
翻訳日:2022-01-21 14:22:59 公開日:2022-01-20
# SPAM:構造化された暗黙パラメトリックモデル

SPAMs: Structured Implicit Parametric Models ( http://arxiv.org/abs/2201.08141v1 )

ライセンス: Link先を確認
Pablo Palafox, Nikolaos Sarafianos, Tony Tung, Angela Dai(参考訳) パラメトリック3Dモデルは、人体、顔、手などの変形可能な物体のモデリングにおいて基本的な役割を担っているが、そのようなパラメトリックモデルの構築にはかなりの手動介入とドメインの専門知識が必要である。 近年, ニューラルな暗黙的3次元表現は3次元形状を捉える上で非常に表現性が高い。 変形可能な物体の運動はしばしば意味論的に構造化されるので,非剛体物体の運動を非剛体物体の運動を部分的に分解する変形可能な物体表現(SPAM)を,深い暗黙関数で表現した形で学習することを提案する。 これにより、粗い動き対応を確立できる低次元空間を特徴付ける部分分解により、物体の動きを構造化することができる。 特に、入力された観察と学習した部分空間の間のパート対応を確立することで、実験時の部分分解を利用して、劇的な動き列であっても、全ての部分の形状とポーズの堅牢な結合最適化を導出する。 複雑な変形物体の動きの深度配列の復元と追跡において、我々の部分認識形状とポーズ理解が最先端のパフォーマンスをもたらすことを示す実験を行った。 私たちはモデルをhttps://pablopalafox .github.io/spamsで公開する予定です。

Parametric 3D models have formed a fundamental role in modeling deformable objects, such as human bodies, faces, and hands; however, the construction of such parametric models requires significant manual intervention and domain expertise. Recently, neural implicit 3D representations have shown great expressibility in capturing 3D shape geometry. We observe that deformable object motion is often semantically structured, and thus propose to learn Structured-implicit PArametric Models (SPAMs) as a deformable object representation that structurally decomposes non-rigid object motion into part-based disentangled representations of shape and pose, with each being represented by deep implicit functions. This enables a structured characterization of object movement, with part decomposition characterizing a lower-dimensional space in which we can establish coarse motion correspondence. In particular, we can leverage the part decompositions at test time to fit to new depth sequences of unobserved shapes, by establishing part correspondences between the input observation and our learned part spaces; this guides a robust joint optimization between the shape and pose of all parts, even under dramatic motion sequences. Experiments demonstrate that our part-aware shape and pose understanding lead to state-of-the-art performance in reconstruction and tracking of depth sequences of complex deforming object motion. We plan to release models to the public at https://pablopalafox .github.io/spams.
翻訳日:2022-01-21 14:22:55 公開日:2022-01-20
# HumanIBR:スパースビューを用いたヒトパフォーマーの高品質画像ベースレンダリング

HumanIBR: High Quality Image-based Rendering of Challenging Human Performers using Sparse Views ( http://arxiv.org/abs/2201.08158v1 )

ライセンス: Link先を確認
Tiansong Zhou, Tao Yu, Ruizhi Shao, Kun Li(参考訳) 本稿では,カメラビューの少ないセットを用いて,複雑なパターンの服装を身に着ける人の新しい視点レンダリングの課題に対処する手法であるhumanibrを提案する。 最近の作品では、まばらな景色で純衣を着る人間に顕著なレンダリング品質が達成されているが、複雑なカラーパターンの服の場合、レンダリング品質は依然として非常に低い。 この目的のために,提案するHumanIBRは,高画質な人間の再構成とレンダリングの目標を達成するために,幾何学誘導画素機能統合を用いたレンダリングネットと,画素整合型空間変換器を備える。 設計した画素整合空間変換器は、入力ビュー間の相関を計算し、入力ビューに提示される高周波のディテールで人間の再構成結果を生成する。 再構成に基づいて、幾何学誘導型画素視認性推論は、マルチビュー機能統合のためのガイダンスを提供し、レンダリングネットが新しいビューに高品質な画像をレンダリングできるようにする。 従来のニューラルネットワークのレンダリングでは、シーンごとに異なるネットワークを訓練したり、微調整したりする必要が常にあるが、本手法は、新しい人間に一般化できる汎用フレームワークである。 実験の結果,本手法は,合成データと実世界のデータの両方において,従来の一般や人為的な作業よりも優れていることがわかった。

In this paper, we introduce HumanIBR, a method that addresses the challenge of novel view rendering of human performers that wear clothes with complex patterns using a sparse set of camera views. Some recent works have achieved remarkable rendering quality on humans that wear pure clothes using sparse views, but if the clothes have complex color patterns, the rendering quality is still very low. To this end, the proposed HumanIBR uses a human reconstruction net with pixel-aligned spatial transformer and a render net that uses geometry-guided pixel-wise feature integration to achieve to goal of high quality human reconstruction and rendering. The designed pixel-aligned spatial transformer calculates the correlations between the input views, producing human reconstruction results with high-frequency details presented in the input views. Based on the reconstruction, the geometry-guided pixel-wise visibility reasoning provides a guidance for multi-view feature integration, enabling the render net to render high quality images on novel views. Unlike previous neural rendering works that always need to train or fine-tune a separate network for each scene or human, our method is a general framework that is able to generalize to novel humans. Experiments show that our approach outperforms all the prior general or human-specific works on both synthetic data and real-world data.
翻訳日:2022-01-21 14:20:54 公開日:2022-01-20
# CP-Net: 自己教師付きポイントクラウド学習のための輪郭型再構成ネットワーク

CP-Net: Contour-Perturbed Reconstruction Network for Self-Supervised Point Cloud Learning ( http://arxiv.org/abs/2201.08215v1 )

ライセンス: Link先を確認
Mingye Xu, Zhipeng Zhou, Hongbin Xu, Yali Wang, and Yu Qiao(参考訳) 自己教師付き学習は、ポイントクラウド分析のために完全には検討されていない。 現在のフレームワークは主にポイントクラウドの再構築に基づいている。 3次元座標のみを考えると、そのようなアプローチは局所幾何学的構造や輪郭を学習する傾向があり、高レベルの意味的内容を理解することができない。 その結果、分類やセグメンテーションといった下流タスクでは不満足なパフォーマンスが得られる。 このギャップを埋めるために,cp-net (generic contour-perturbed reconstruction network) を提案する。 まず,点雲再構成のための簡潔な輪郭拡大モジュールを提案する。 幾何学的分離の指導により、点雲を輪郭とコンテンツ成分に分割する。 その後、輪郭コンポーネントを摂動させ、コンテンツコンポーネントをポイントクラウドに保存します。 その結果、自己監督者は、そのような混乱したものから元の点雲を再構築することで、セマンティックコンテンツに効果的にフォーカスすることができる。 第2に,この摂動型復元を補助分枝として使用し,個別の二重分岐一貫性損失による基本復元分枝の学習を指導する。 この場合、cp-netは構造的輪郭をとらえるだけでなく、判別下流タスクの意味的コンテンツも学習する。 最後に、多数のポイントクラウドベンチマークで広範な実験を行う。 パートセグメンテーションの結果は、CP-Net(mIoUの81.5%)が以前の自己教師付きモデルより優れており、完全に教師付き手法とのギャップを狭めていることを示している。 分類では、ModelNet40(92.5%の精度)とScanObjectNN(87.9%の精度)の完全教師付き手法で競合する結果が得られる。 コードとモデルはその後リリースされる。

Self-supervised learning has not been fully explored for point cloud analysis. Current frameworks are mainly based on point cloud reconstruction. Given only 3D coordinates, such approaches tend to learn local geometric structures and contours, while failing in understanding high level semantic content. Consequently, they achieve unsatisfactory performance in downstream tasks such as classification, segmentation, etc. To fill this gap, we propose a generic Contour-Perturbed Reconstruction Network (CP-Net), which can effectively guide self-supervised reconstruction to learn semantic content in the point cloud, and thus promote discriminative power of point cloud representation. First, we introduce a concise contour-perturbed augmentation module for point cloud reconstruction. With guidance of geometry disentangling, we divide point cloud into contour and content components. Subsequently, we perturb the contour components and preserve the content components on the point cloud. As a result, self supervisor can effectively focus on semantic content, by reconstructing the original point cloud from such perturbed one. Second, we use this perturbed reconstruction as an assistant branch, to guide the learning of basic reconstruction branch via a distinct dual-branch consistency loss. In this case, our CP-Net not only captures structural contour but also learn semantic content for discriminative downstream tasks. Finally, we perform extensive experiments on a number of point cloud benchmarks. Part segmentation results demonstrate that our CP-Net (81.5% of mIoU) outperforms the previous self-supervised models, and narrows the gap with the fully-supervised methods. For classification, we get a competitive result with the fully-supervised methods on ModelNet40 (92.5% accuracy) and ScanObjectNN (87.9% accuracy). The codes and models will be released afterwards.
翻訳日:2022-01-21 14:20:31 公開日:2022-01-20
# コントラスト学習における事前学習エンコーダの透かし

Watermarking Pre-trained Encoders in Contrastive Learning ( http://arxiv.org/abs/2201.08217v1 )

ライセンス: Link先を確認
Yutong Wu, Han Qiu, Tianwei Zhang, Jiwei L, Meikang Qiu(参考訳) コントラスト学習は、画像エンコーダを事前学習するための一般的な技術となり、効率的な下流分類モデルの構築に利用できる。 このプロセスには大量のデータと計算資源が必要です。 したがって、事前訓練されたエンコーダは、慎重に保護される必要がある重要な知的財産である。 エンコーダの所有者は、将来エンコーダから開発される下流タスクの知識を欠いているため、既存の透かし技法を分類タスクから対照的な学習シナリオに移行することは困難である。 本稿では,事前学習したエンコーダに対するtextit{first} 透かし手法を提案する。 我々は、バックドアを透かしとしてエンコーダに効果的に埋め込むタスクに依存しない損失関数を導入する。 このバックドアは、エンコーダから転送される下流モデルにも引き続き存在する。 異なるコントラスト学習アルゴリズム、データセット、下流タスクに対する広範な評価は、異なる敵対的操作に対する高い有効性と堅牢性を示している。

Contrastive learning has become a popular technique to pre-train image encoders, which could be used to build various downstream classification models in an efficient way. This process requires a large amount of data and computation resources. Hence, the pre-trained encoders are an important intellectual property that needs to be carefully protected. It is challenging to migrate existing watermarking techniques from the classification tasks to the contrastive learning scenario, as the owner of the encoder lacks the knowledge of the downstream tasks which will be developed from the encoder in the future. We propose the \textit{first} watermarking methodology for the pre-trained encoders. We introduce a task-agnostic loss function to effectively embed into the encoder a backdoor as the watermark. This backdoor can still exist in any downstream models transferred from the encoder. Extensive evaluations over different contrastive learning algorithms, datasets, and downstream tasks indicate our watermarks exhibit high effectiveness and robustness against different adversarial operations.
翻訳日:2022-01-21 14:20:00 公開日:2022-01-20
# 視覚知覚モデルの弱教師付き事前学習の再検討

Revisiting Weakly Supervised Pre-Training of Visual Perception Models ( http://arxiv.org/abs/2201.08371v1 )

ライセンス: Link先を確認
Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Doll\'ar, Laurens van der Maaten(参考訳) モデル事前学習は現代の視覚認識システムの基盤となっている。 ImageNetのようなデータセットでの完全な教師付き事前トレーニングは依然としてデファクトスタンダードであるが、最近の研究は、大規模で弱い教師付き事前トレーニングが完全に教師付きアプローチより優れていることを示唆している。 本稿では,残差ネットワークの現代版と,画像と対応するハッシュタグの最大のデータセットを用いた,ハッシュタグによるモデルの弱い教師付き事前学習について再検討する。 ゼロショット転送を含む様々な移動学習環境で得られたモデルの性能について検討する。 また,本モデルと大規模自己教師付き学習モデルとの比較を行った。 私たちの弱い教師付きモデルは、すべての設定で非常に競争力があり、自己監督型モデルよりも大幅に優れています。 また、私たちのモデルが潜在的な関連やステレオタイプを学習したかどうかについても調査しています。 本研究の結果は,視覚認識システム開発における弱教師付き学習の活用に関する説得力のある議論である。 当社のモデルであるSupervised Weaklyをハッシュタグ(SWAG)で公開しています。

Model pre-training is a cornerstone of modern visual recognition systems. Although fully supervised pre-training on datasets like ImageNet is still the de-facto standard, recent studies suggest that large-scale weakly supervised pre-training can outperform fully supervised approaches. This paper revisits weakly-supervised pre-training of models using hashtag supervision with modern versions of residual networks and the largest-ever dataset of images and corresponding hashtags. We study the performance of the resulting models in various transfer-learning settings including zero-shot transfer. We also compare our models with those obtained via large-scale self-supervised learning. We find our weakly-supervised models to be very competitive across all settings, and find they substantially outperform their self-supervised counterparts. We also include an investigation into whether our models learned potentially troubling associations or stereotypes. Overall, our results provide a compelling argument for the use of weakly supervised learning in the development of visual recognition systems. Our models, Supervised Weakly through hashtAGs (SWAG), are available publicly.
翻訳日:2022-01-21 14:19:44 公開日:2022-01-20
# 多スケールコントラストランダムウォークによるピクセル軌跡の学習

Learning Pixel Trajectories with Multiscale Contrastive Random Walks ( http://arxiv.org/abs/2201.08379v1 )

ライセンス: Link先を確認
Zhangxing Bian, Allan Jabri, Alexei A. Efros, Andrew Owens(参考訳) 光フローから複数の物体追跡まで、様々なビデオモデリングタスクは、時空対応を確立するという同じ根本的な課題を共有している。 しかし、各空間を支配するアプローチは異なる。 我々は、このギャップを埋めるために、最近のコントラスト的ランダムウォークの定式化をより密集したピクセルレベルの時空グラフに拡張する。 主な貢献は、2つのフレーム間の遷移行列を粗い方法で計算し、時間的に拡張された場合、多スケールのコントラストランダムウォークを形成することである。 これにより、光フロー、キーポイントトラッキング、ビデオオブジェクトセグメンテーションの自己教師付き学習が確立される。 実験により、これらのタスク毎に、統一されたモデルは、そのタスク特有の強力な自己監督アプローチと競合するパフォーマンスを達成できることが示される。 プロジェクトサイト: https://jasonbian97. github.io/flowwalk

A range of video modeling tasks, from optical flow to multiple object tracking, share the same fundamental challenge: establishing space-time correspondence. Yet, approaches that dominate each space differ. We take a step towards bridging this gap by extending the recent contrastive random walk formulation to much denser, pixel-level space-time graphs. The main contribution is introducing hierarchy into the search problem by computing the transition matrix between two frames in a coarse-to-fine manner, forming a multiscale contrastive random walk when extended in time. This establishes a unified technique for self-supervised learning of optical flow, keypoint tracking, and video object segmentation. Experiments demonstrate that, for each of these tasks, the unified model achieves performance competitive with strong self-supervised approaches specific to that task. Project site: https://jasonbian97. github.io/flowwalk
翻訳日:2022-01-21 14:19:30 公開日:2022-01-20
# MeMViT: 長期ビデオ認識のためのメモリ拡張型マルチスケール・ビジョン・トランス

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition ( http://arxiv.org/abs/2201.08383v1 )

ライセンス: Link先を確認
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer(参考訳) 今日のビデオ認識システムはスナップショットや短いクリップを正確に解析するが、ドットや理由を長い時間にわたって接続することはできない。 既存のビデオアーキテクチャのほとんどは、計算やメモリのボトルネックにぶつかることなく、ビデオの5秒間しか処理できない。 本稿では,この課題を克服するための新しい戦略を提案する。 既存の手法と同様に、より多くのフレームを一度に処理するのではなく、オンラインの方法で動画を処理し、各イテレーションで"メモリ"をキャッシュすることを提案します。 メモリを通じて、モデルが長期モデリングの事前コンテキストを参照できるのは、限界コストのみである。 このアイデアに基づいて、メモリ拡張マルチスケール・ビジョン・トランスフォーマーであるMeMViTを構築し、従来の4.5%以上の計算量を持つ既存のモデルよりも30倍の時間的サポートを持つ。 幅広い設定において、MeMViTによる時間的サポートの増加は、認識精度を継続的に向上させる。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。 コードとモデルは公開される予定だ。

While today's video recognition systems parse snapshots or short clips accurately, they cannot connect the dots and reason across a longer range of time yet. Most existing video architectures can only process <5 seconds of a video without hitting the computation or memory bottlenecks. In this paper, we propose a new strategy to overcome this challenge. Instead of trying to process more frames at once like most existing methods, we propose to process videos in an online fashion and cache "memory" at each iteration. Through the memory, the model can reference prior context for long-term modeling, with only a marginal cost. Based on this idea, we build MeMViT, a Memory-augmented Multiscale Vision Transformer, that has a temporal support 30x longer than existing models with only 4.5% more compute; traditional methods need >3,000% more compute to do the same. On a wide range of settings, the increased temporal support enabled by MeMViT brings large gains in recognition accuracy consistently. MeMViT obtains state-of-the-art results on the AVA, EPIC-Kitchens-100 action classification, and action anticipation datasets. Code and models will be made publicly available.
翻訳日:2022-01-21 14:19:13 公開日:2022-01-20
# 人のフィードバックを用いた3次元環境における安全な深部RL

Safe Deep RL in 3D Environments using Human Feedback ( http://arxiv.org/abs/2201.08102v1 )

ライセンス: Link先を確認
Matthew Rahtz, Vikrant Varma, Ramana Kumar, Zachary Kenton, Shane Legg, Jan Leike(参考訳) エージェントはトレーニングとデプロイメントの間、安全でない振る舞いを避ける必要がある。 これは通常、シミュレータと安全でない振る舞いの手続き仕様を必要とする。 残念ながらシミュレータは必ずしも利用可能ではなく、手続き的に制約を指定することは現実の多くのタスクでは困難または不可能である。 最近導入されたReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習し、学習したシミュレータを使って人間のフィードバックから報酬モデルを効率的に学習することで、この問題を解決することを目指している。 しかし、このアプローチが実際の人間からフィードバックを得た複雑な3d環境で実現可能かどうか、十分なピクセルベースのニューラルシミュレータの品質を達成できるか、そして、量と品質の両面で人間のデータ要件が実現可能かどうかはまだ不明である。 本稿では,ReQueSTを用いてエージェントを訓練し,人間の請負業者からのデータを用いた3Dファーストパーソンオブジェクト収集タスクを行う。 その結果, 標準強化学習と比較して, 安全でない行動が桁違いに減少することが示された。

Agents should avoid unsafe behaviour during both training and deployment. This typically requires a simulator and a procedural specification of unsafe behaviour. Unfortunately, a simulator is not always available, and procedurally specifying constraints can be difficult or impossible for many real-world tasks. A recently introduced technique, ReQueST, aims to solve this problem by learning a neural simulator of the environment from safe human trajectories, then using the learned simulator to efficiently learn a reward model from human feedback. However, it is yet unknown whether this approach is feasible in complex 3D environments with feedback obtained from real humans - whether sufficient pixel-based neural simulator quality can be achieved, and whether the human data requirements are viable in terms of both quantity and quality. In this paper we answer this question in the affirmative, using ReQueST to train an agent to perform a 3D first-person object collection task using data entirely from human contractors. We show that the resulting agent exhibits an order of magnitude reduction in unsafe behaviour compared to standard reinforcement learning.
翻訳日:2022-01-21 14:18:57 公開日:2022-01-20
# (参考訳) ganベースのリアルビデオ編集ツール「stitch it in time」 [全文訳有]

Stitch it in Time: GAN-Based Facial Editing of Real Videos ( http://arxiv.org/abs/2201.08361v1 )

ライセンス: CC BY 4.0
Rotem Tzaban, Ron Mokady, Rinon Gal, Amit H. Bermano, Daniel Cohen-Or(参考訳) 潜在空間内でリッチセマンティクスをエンコードする生成的逆ネットワークの能力は、顔画像編集に広く採用されている。 しかし、彼らの成功をビデオで再現することは難しい。 高品質な顔ビデオのセットは不足しており、ビデオを扱うことは、時間的一貫性を克服する根本的な障壁をもたらす。 我々はこの障壁がほとんど人工的であることを提案する。 ソースビデオは、すでに時間的に一貫性があり、この状態からの逸脱は、編集パイプライン内の個々のコンポーネントの不注意な処理によって生じる。 我々は、StyleGANの自然なアライメントとニューラルネットワークの傾向を利用して低周波関数を学習し、それらが強い一貫した事前を提供することを示す。 本稿では,これらの知見に基づいて映像中の顔のセマンティックな編集を行うフレームワークを提案し,現状よりも大幅に改善されていることを示す。 本手法は有意義な顔操作を行い,より高い時間的一貫性を保ち,現在の手法が苦しむ挑戦的で高品質な話題のヘッドビデオに適用できる。

The ability of Generative Adversarial Networks to encode rich semantics within their latent space has been widely adopted for facial image editing. However, replicating their success with videos has proven challenging. Sets of high-quality facial videos are lacking, and working with videos introduces a fundamental barrier to overcome - temporal coherency. We propose that this barrier is largely artificial. The source video is already temporally coherent, and deviations from this state arise in part due to careless treatment of individual components in the editing pipeline. We leverage the natural alignment of StyleGAN and the tendency of neural networks to learn low frequency functions, and demonstrate that they provide a strongly consistent prior. We draw on these insights and propose a framework for semantic editing of faces in videos, demonstrating significant improvements over the current state-of-the-art. Our method produces meaningful face manipulations, maintains a higher degree of temporal consistency, and can be applied to challenging, high quality, talking head videos which current methods struggle with.
翻訳日:2022-01-21 14:16:54 公開日:2022-01-20
# 共有のないケア:都市表現の多様化のための連合学習クラウドセンシングフレームワーク

Caring Without Sharing: A Federated Learning Crowdsensing Framework for Diversifying Representation of Cities ( http://arxiv.org/abs/2201.07980v1 )

ライセンス: Link先を確認
Michael Cho, Afra Mashhadi(参考訳) モバイルクラウドセンシングは、研究者が市民から大規模に行動データを収集するための主要なストリームパラダイムとなっている。 この貴重なデータは、あらゆる面で社会に利益をもたらすさまざまなサービスの高度な人工知能(AI)モデルをトレーニングするために使用できる集中リポジトリを作成するために利用することができる。 何十年にもわたって、モバイルクラウドセンシングの可能性をインセンティブの観点から調査し、参加障壁を減らすために多くの試みがなされてきたが、個人情報の共有に関するプライバシー上の懸念は、いまだに隠されている。 近年,MCSパラダイムを,よりプライバシ保護された協調学習,すなわちフェデレート学習に移行するための新たな経路が出現している。 本稿では,この新たなパラダイムのための第1のフレームワークを提案する。 視覚障害者のナビゲーション向上の一環として,2つの視覚アルゴリズムを多角化し,通常の歩道障害物の表現を学習するケーススタディを通じて,枠組みの機能を示す。

Mobile Crowdsensing has become main stream paradigm for researchers to collect behavioral data from citizens in large scales. This valuable data can be leveraged to create centralized repositories that can be used to train advanced Artificial Intelligent (AI) models for various services that benefit society in all aspects. Although decades of research has explored the viability of Mobile Crowdsensing in terms of incentives and many attempts have been made to reduce the participation barriers, the overshadowing privacy concerns regarding sharing personal data still remain. Recently a new pathway has emerged to enable to shift MCS paradigm towards a more privacy-preserving collaborative learning, namely Federated Learning. In this paper, we posit a first of its kind framework for this emerging paradigm. We demonstrate the functionalities of our framework through a case study of diversifying two vision algorithms through to learn the representation of ordinary sidewalk obstacles as part of enhancing visually impaired navigation.
翻訳日:2022-01-21 14:02:32 公開日:2022-01-20
# 因子グラフのクロネッカー生成物に基づくマルチエージェント被覆オプション発見

Multi-agent Covering Option Discovery based on Kronecker Product of Factor Graphs ( http://arxiv.org/abs/2201.08227v1 )

ライセンス: Link先を確認
Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal(参考訳) 状態遷移グラフのFiedlerベクトルによって提供される埋め込み空間の最も遠い状態を接続することにより、単一エージェントシナリオにおける強化学習のスパース報酬信号による探索を改善するために、カバーオプション発見が開発された。 しかし、結合状態空間はシステム内のエージェント数で指数関数的に増加するため、これらのオプション発見手法をマルチエージェントシナリオに直接拡張することはできない。 このように、マルチエージェントシナリオにおけるオプションの採用に関する既存の研究は、シングルエージェントオプション発見に依存しており、エージェントの結合状態空間の接続性を改善するためのジョイントオプションを直接発見できない。 本稿では,エージェント間の協調的な探索行動を伴うマルチエージェントオプションを,分解の容易さを享受しながら直接計算することが可能であることを示す。 我々の重要なアイデアは、個々のエージェントの状態遷移グラフのクロネッカー積であるクロネッカーグラフとしてジョイント状態空間を近似することであり、それによって個々のエージェントの遷移グラフのラプラシアンスペクトルを用いてジョイント状態空間のフィドラーベクトルを直接推定することができる。 この分解により、推定されたジョイントフィドラーベクトルの最小値または最大値に対応するサブゴールジョイント状態の接続を促すことで、マルチエージェントジョイントオプションを効率的に構築できる。 マルチエージェント協調タスクに基づく評価は,提案アルゴリズムがマルチエージェントオプションの同定に成功し,より高速な探索と高い累積報酬の両面から,シングルエージェントオプションやノーオプションを用いた先行作業よりも大幅に優れていたことを示す。

Covering option discovery has been developed to improve the exploration of reinforcement learning in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding space provided by the Fiedler vector of the state transition graph. However, these option discovery methods cannot be directly extended to multi-agent scenarios, since the joint state space grows exponentially with the number of agents in the system. Thus, existing researches on adopting options in multi-agent scenarios still rely on single-agent option discovery and fail to directly discover the joint options that can improve the connectivity of the joint state space of agents. In this paper, we show that it is indeed possible to directly compute multi-agent options with collaborative exploratory behaviors among the agents, while still enjoying the ease of decomposition. Our key idea is to approximate the joint state space as a Kronecker graph -- the Kronecker product of individual agents' state transition graphs, based on which we can directly estimate the Fiedler vector of the joint state space using the Laplacian spectrum of individual agents' transition graphs. This decomposition enables us to efficiently construct multi-agent joint options by encouraging agents to connect the sub-goal joint states which are corresponding to the minimum or maximum values of the estimated joint Fiedler vector. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher cumulative rewards.
翻訳日:2022-01-21 13:59:37 公開日:2022-01-20
# 多変量時系列のリードラグ検出とネットワーククラスタリングと米国株式市場への応用

Lead-lag detection and network clustering for multivariate time series with an application to the US equity market ( http://arxiv.org/abs/2201.08283v1 )

ライセンス: Link先を確認
Stefanos Bennett, Mihai Cucuringu, Gesine Reinert(参考訳) 多変量時系列システムでは、ある変数群が部分的にシステムの進化を導くのに対して、他の変数は時間遅れでこの進化に従うことが観測されている。 本稿では,多変量系における時系列のリードラグクラスタの検出手法を提案する。 時系列間の一対のリードラグ関係のウェブを有向ネットワークとして有益に構成できることを実証し,一対のリードラグクラスタを高い双対不均衡で検出するための適切なアルゴリズムが存在することを示した。 当社のフレームワークでは、ペアワイズリードレーグメトリックと有向ネットワーククラスタリングコンポーネントの選択肢をいくつか検討しています。 本フレームワークは,多変量リードラグ時系列システムのための合成生成モデルと,日々の米国株式価格データの両方で検証される。 米国株式市場における統計的に重要なリードラグクラスタを検出することができることを示す。 本研究では,これらのクラスタの性質を,リードラグ関係に関する経験的金融文献の文脈で検討し,予測的金融信号の構築にどのように使用できるかを示す。

In multivariate time series systems, it has been observed that certain groups of variables partially lead the evolution of the system, while other variables follow this evolution with a time delay; the result is a lead-lag structure amongst the time series variables. In this paper, we propose a method for the detection of lead-lag clusters of time series in multivariate systems. We demonstrate that the web of pairwise lead-lag relationships between time series can be helpfully construed as a directed network, for which there exist suitable algorithms for the detection of pairs of lead-lag clusters with high pairwise imbalance. Within our framework, we consider a number of choices for the pairwise lead-lag metric and directed network clustering components. Our framework is validated on both a synthetic generative model for multivariate lead-lag time series systems and daily real-world US equity prices data. We showcase that our method is able to detect statistically significant lead-lag clusters in the US equity market. We study the nature of these clusters in the context of the empirical finance literature on lead-lag relations and demonstrate how these can be used for the construction of predictive financial signals.
翻訳日:2022-01-21 13:59:08 公開日:2022-01-20
# 加速勾配流:リスク、安定性、および暗黙の規則化

Accelerated Gradient Flow: Risk, Stability, and Implicit Regularization ( http://arxiv.org/abs/2201.08311v1 )

ライセンス: Link先を確認
Yue Sheng and Alnur Ali(参考訳) アクセラレーションとモーメントは、機械学習と最適化の現代的な応用におけるデファクトスタンダードであるが、暗黙の正規化に関する作業の大部分は、非加速の方法に焦点を当てている。 本論文では,Nesterovの加速勾配法とPolyakの重ボール法によって生じる反復率の統計的リスクを,最小二乗回帰に適用し,いくつかの接続を明示的なペナル化に導いた。 分析を連続的に行い, 先行研究よりもシャープな文を作成できるとともに, 早期停止, 安定性, 損失関数の曲率との複雑な相互作用を明らかにする。

Acceleration and momentum are the de facto standard in modern applications of machine learning and optimization, yet the bulk of the work on implicit regularization focuses instead on unaccelerated methods. In this paper, we study the statistical risk of the iterates generated by Nesterov's accelerated gradient method and Polyak's heavy ball method, when applied to least squares regression, drawing several connections to explicit penalization. We carry out our analyses in continuous-time, allowing us to make sharper statements than in prior work, and revealing complex interactions between early stopping, stability, and the curvature of the loss function.
翻訳日:2022-01-21 13:58:49 公開日:2022-01-20
# WPPNets: イメージスーパーレゾリューションのためのWasserstein Patchによる教師なしCNNトレーニング

WPPNets: Unsupervised CNN Training with Wasserstein Patch Priors for Image Superresolution ( http://arxiv.org/abs/2201.08157v1 )

ライセンス: Link先を確認
Fabian Altekr\"uger, Johannes Hertrich(参考訳) 材料微細構造の超解像のための新しい教師なし損失関数によって訓練されたCNNであるWPPNetを紹介する。 登録された高解像度画像や低解像度画像の大規模なデータベースにアクセスする代わりに、低解像度画像、フォワード演算子、高解像度参照画像の大規模なデータベースを知ることが前提となる。 そこで本研究では,予測のパッチ分布と参照画像との間のワッサースタイン-2距離を測定するワッサースタインパッチを用いた損失関数を提案する。 我々はWPPNetsが同様の仮定で他の手法より優れていることを数値例で示す。 特に、WPPNetはフォワード演算子の不正確な知識や摂動の下でずっと安定であることを示す。 これにより、登録された大量のデータベースも正確なフォワード演算子も提供されない現実世界のアプリケーションで利用できます。

We introduce WPPNets, which are CNNs trained by a new unsupervised loss function for image superresolution of materials microstructures. Instead of requiring access to a large database of registered high- and low-resolution images, we only assume to know a large database of low resolution images, the forward operator and one high-resolution reference image. Then, we propose a loss function based on the Wasserstein patch prior which measures the Wasserstein-2 distance between the patch distributions of the predictions and the reference image. We demonstrate by numerical examples that WPPNets outperform other methods with similar assumptions. In particular, we show that WPPNets are much more stable under inaccurate knowledge or perturbations of the forward operator. This enables us to use them in real-world applications, where neither a large database of registered data nor the exact forward operator are given.
翻訳日:2022-01-21 13:58:05 公開日:2022-01-20
# ネットワーク上の熱流力学による潜在群スパーシティの学習

Learning with latent group sparsity via heat flow dynamics on networks ( http://arxiv.org/abs/2201.08326v1 )

ライセンス: Link先を確認
Subhroshekhar Ghosh and Soumendu Sundar Mukherjee(参考訳) 機械学習問題における説明変数に関するグループあるいはクラスタ構造は非常に一般的な現象であり、実践者や理論家からも広く関心を集めている。 本研究は,グループアイデンティティに関する事前情報を必要としない,そのようなグループ構造に基づく学習へのアプローチに寄与する。 このパラダイムは,コミュニティ構造を持つ基盤ネットワークのラプラシアン幾何学によって動機付けられ,これを熱フローに基づく局所ネットワーク力学を用いて効果的に計算したペナルティに直接組み込む。 実際、利用可能なデータに基づいてそのようなネットワークを構築する手順を実証する。 特に、変数やスペクトルなどのクラスタリングを含む計算集約的な事前処理は不要である。 本手法は, 有効性能を保証し, サンプルの複雑さに限界を与える厳密な定理を基礎とする。 特に、幅広い設定において、問題次元において対数である時間に対する熱流のダイナミクスの実行には十分である。 我々は,ガウス自由場や確率ブロックモデルなどのネットワーク科学における重要な統計物理モデルを用いたアプローチのインターフェースを詳細に検討する。 我々は、コンピュータ科学、遺伝学、気候学、経済学など、幅広い応用分野の実際のデータに適用することで、我々のアプローチを検証する。 本研究は,データの基礎となる幾何学的,動的,確率的構造間の相互作用を利用して,古典的学習タスクに類似した拡散に基づく手法を適用する可能性を高める。

Group or cluster structure on explanatory variables in machine learning problems is a very general phenomenon, which has attracted broad interest from practitioners and theoreticians alike. In this work we contribute an approach to learning under such group structure, that does not require prior information on the group identities. Our paradigm is motivated by the Laplacian geometry of an underlying network with a related community structure, and proceeds by directly incorporating this into a penalty that is effectively computed via a heat flow-based local network dynamics. In fact, we demonstrate a procedure to construct such a network based on the available data. Notably, we dispense with computationally intensive pre-processing involving clustering of variables, spectral or otherwise. Our technique is underpinned by rigorous theorems that guarantee its effective performance and provide bounds on its sample complexity. In particular, in a wide range of settings, it provably suffices to run the heat flow dynamics for time that is only logarithmic in the problem dimensions. We explore in detail the interfaces of our approach with key statistical physics models in network science, such as the Gaussian Free Field and the Stochastic Block Model. We validate our approach by successful applications to real-world data from a wide array of application domains, including computer science, genetics, climatology and economics. Our work raises the possibility of applying similar diffusion-based techniques to classical learning tasks, exploiting the interplay between geometric, dynamical and stochastic structures underlying the data.
翻訳日:2022-01-21 13:56:19 公開日:2022-01-20
# VISA:ビジュアルシーン対応機械翻訳のための曖昧な字幕データセット

VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation ( http://arxiv.org/abs/2201.08054v1 )

ライセンス: Link先を確認
Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi(参考訳) 既存のマルチモーダル機械翻訳(mmt)データセットは、画像とビデオキャプションまたは一般的な字幕で構成されており、言語的な曖昧さをほとんど含まない。 日本語のパラレルな文対とそれに対応するビデオクリップからなる新たなデータセットであるVISAを紹介する。(1)パラレルな文は映画やテレビのエピソードのサブタイトルであり、(2)ソースの字幕は曖昧であり、異なる意味を持つ複数の翻訳が可能であり、(3)あいまいさの原因に応じてデータセットをポリセミーとオミッションに分割する。 我々は、最新のMTシステムではVISAが困難であることを示し、このデータセットがMT研究を促進することを期待する。

Existing multimodal machine translation (MMT) datasets consist of images and video captions or general subtitles, which rarely contain linguistic ambiguity, making visual information not so effective to generate appropriate translations. We introduce VISA, a new dataset that consists of 40k Japanese-English parallel sentence pairs and corresponding video clips with the following key features: (1) the parallel sentences are subtitles from movies and TV episodes; (2) the source subtitles are ambiguous, which means they have multiple possible translations with different meanings; (3) we divide the dataset into Polysemy and Omission according to the cause of ambiguity. We show that VISA is challenging for the latest MMT system, and we hope that the dataset can facilitate MMT research.
翻訳日:2022-01-21 13:55:40 公開日:2022-01-20
# 低リソースニューラルマシン翻訳のための言語駆動マルチタスク事前学習

Linguistically-drive n Multi-task Pre-training for Low-resource Neural Machine Translation ( http://arxiv.org/abs/2201.08070v1 )

ライセンス: Link先を確認
Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi(参考訳) 本研究では,低リソース機械翻訳(nmt)のための新しいシーケンス・ツー・シーケンス事前学習目標,日本語をソースまたはターゲット言語とする言語ペアの日本語固有シーケンス(jass),英語を含む言語ペアの英語固有シーケンス(enss)を提案する。 JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。 aspec japanese-english and japanese- chinese, wikipedia japanese- chinese, news english-korean corpora 実験によると、jass と enss は、日英タスクで+2.9 bleu point、日英タスクで +7.0 bleu point、英語-韓国タスクで +1.3 bleu point という、既存の言語非依存のプリトレーニングメソッドよりも優れている。 JASS と ENSS の個々の部分間の関係に着目した経験的分析は、JASS と ENSS のサブタスクの相補的な性質を明らかにする。 LAERを用いた精度評価,人体評価,ケーススタディにより,提案手法は言語知識を注入せずに事前学習法を有意に上回り,流布率に比べて高い正の影響を与えることが明らかとなった。 https://github.com/M ao-KU/JASS/tree/mast er/linguistically-dr iven-pretraining。

In the present study, we propose novel sequence-to-sequence pre-training objectives for low-resource machine translation (NMT): Japanese-specific sequence to sequence (JASS) for language pairs involving Japanese as the source or target language, and English-specific sequence to sequence (ENSS) for language pairs involving English. JASS focuses on masking and reordering Japanese linguistic units known as bunsetsu, whereas ENSS is proposed based on phrase structure masking and reordering tasks. Experiments on ASPEC Japanese--English & Japanese--Chinese, Wikipedia Japanese--Chinese, News English--Korean corpora demonstrate that JASS and ENSS outperform MASS and other existing language-agnostic pre-training methods by up to +2.9 BLEU points for the Japanese--English tasks, up to +7.0 BLEU points for the Japanese--Chinese tasks and up to +1.3 BLEU points for English--Korean tasks. Empirical analysis, which focuses on the relationship between individual parts in JASS and ENSS, reveals the complementary nature of the subtasks of JASS and ENSS. Adequacy evaluation using LASER, human evaluation, and case studies reveals that our proposed methods significantly outperform pre-training methods without injected linguistic knowledge and they have a larger positive impact on the adequacy as compared to the fluency. We release codes here: https://github.com/M ao-KU/JASS/tree/mast er/linguistically-dr iven-pretraining.
翻訳日:2022-01-21 13:55:24 公開日:2022-01-20
# LEMON: 実行ガイドによる事前学習による言語ベースの環境操作

LEMON: Language-Based Environment Manipulation via Execution-Guided Pre-training ( http://arxiv.org/abs/2201.08081v1 )

ライセンス: Link先を確認
Qi Shi, Qian Liu, Bei Chen, Yu Zhang, Ting Liu, Jian-Guang Lou(参考訳) 言語に基づく環境操作では,エージェントが自然言語の指示に従って環境を操作する必要がある。 この課題に対処するために、近年様々なアプローチが提案されている。 これらのアプローチは、意図した環境でもうまく機能するが、環境をまたいで一般化することは困難である。 本研究では,言語に基づく環境操作タスクの汎用フレームワークLEMONを提案する。 具体的には、まず、同じ生成言語モデルを用いて様々な環境に対処するための統一的なアプローチを提案する。 そこで本研究では,環境の事前知識を言語モデルに注入する実行誘導事前学習戦略を提案する。 alchemy, scene, tangrams, proparaなどのタスクの実験結果は、lemonの有効性を実証している: alchemy, scene, proparaの新たな最先端結果を達成し、実行ガイドによる事前トレーニング戦略は、すべての実験タスクにおいて顕著な改善をもたらす。

Language-based environment manipulation requires agents to manipulate the environment following natural language instructions, which is challenging due to the huge space of the environments. To address this challenge, various approaches have been proposed in recent work. Although these approaches work well for their intended environments, they are difficult to generalize across environments. In this work, we propose LEMON, a general framework for language-based environment manipulation tasks. Specifically, we first propose a unified approach to deal with various environments using the same generative language model. Then we propose an execution-guided pre-training strategy to inject prior knowledge of environments to the language model with a pure synthetic pre-training corpus. Experimental results on tasks including Alchemy, Scene, Tangrams and ProPara demonstrate the effectiveness of LEMON: it achieves new state-of-the-art results on Alchemy, Scene and ProPara, and the execution-guided pre-training strategy brings remarkable improvements on all experimental tasks.
翻訳日:2022-01-21 13:53:53 公開日:2022-01-20
# 固有探索のための潜在変数モデル

A Latent-Variable Model for Intrinsic Probing ( http://arxiv.org/abs/2201.08214v1 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Lucas Torroba Hennigen, Adina Williams, Ryan Cotterell, Isabelle Augenstein(参考訳) 事前訓練された文脈表現の成功は、研究者に言語情報の存在を解析させるきっかけとなった。 実際、これらの事前学習された表現が、多種多様なNLPタスクに対して大規模な経験的改善をもたらしたため、ある程度の言語知識をエンコードしていると仮定するのは自然なことです。 本研究は,表現が言語属性をエンコードしているかどうかを識別するだけでなく,その属性がエンコードされている場所を特定することを目的とした分析手法である。 そこで本研究では,固有プローブ構築のための新しい潜在変数定式化法を提案する。 本研究の結果は,本研究で提案した2つの固有プローブよりも多種多様であり,相互情報推定の精度が高いことを示す。 最後に,事前学習された表現が言語交叉に絡み合ったモルフォシンタックス概念を発達させるという経験的証拠を見出す。

The success of pre-trained contextualized representations has prompted researchers to analyze them for the presence of linguistic information. Indeed, it is natural to assume that these pre-trained representations do encode some level of linguistic knowledge as they have brought about large empirical improvements on a wide variety of NLP tasks, which suggests they are learning true linguistic generalization. In this work, we focus on intrinsic probing, an analysis technique where the goal is not only to identify whether a representation encodes a linguistic attribute, but also to pinpoint where this attribute is encoded. We propose a novel latent-variable formulation for constructing intrinsic probes and derive a tractable variational approximation to the log-likelihood. Our results show that our model is versatile and yields tighter mutual information estimates than two intrinsic probes previously proposed in the literature. Finally, we find empirical evidence that pre-trained representations develop a cross-lingually entangled notion of morphosyntax.
翻訳日:2022-01-21 13:53:36 公開日:2022-01-20
# 自動短解像の加熱:形容詞と副詞の逆利用について

Cheating Automatic Short Answer Grading: On the Adversarial Usage of Adjectives and Adverbs ( http://arxiv.org/abs/2201.08318v1 )

ライセンス: Link先を確認
Anna Filighera, Sebastian Ochs, Tim Steuer, Thomas Tregel(参考訳) 自動グレーティングモデルは、大きな学生の体を指導するときに節約される時間と労力のために評価される。 特に、教育のデジタル化が進み、大規模な標準化テストへの関心が高まったことにより、自動グレーティングの人気が高まり、商用ソリューションが広く利用されるようになった。 しかし、短い回答形式では、自然言語の曖昧さと汎用性のために自動階調が難しい。 自動短解グレーディングモデルは、一部のデータセットでの人間のパフォーマンスと比較し始めていますが、その堅牢性、特に逆向きに操作されたデータには疑問があります。 グレーティングモデルの爆発的な脆弱性は、保存されていないクレジットを受け取った学生の不正行為から、自動グレーディングを完全に損なうまで、はるかに大きな結果をもたらす可能性がある。 本稿では,学習用短解グレーディングシナリオに合わせたブラックボックス対向攻撃を考案し,評価モデルの堅牢性について検討する。 私たちの攻撃では、形容詞と副詞を不正確な生徒の答えの自然な場所に挿入し、モデルを騙して正しいと予測します。 最先端モデルBERTとT5を用いて,10~22ポイントの予測精度の低下を観測した。 我々の攻撃は、実験で人間にとって自然に見えなかったが、学年の不正行為に対する疑念を著しく増すことはなかった。 本実験に基づき,より安全に自動採点システムを利用するための推奨事項を提供する。

Automatic grading models are valued for the time and effort saved during the instruction of large student bodies. Especially with the increasing digitization of education and interest in large-scale standardized testing, the popularity of automatic grading has risen to the point where commercial solutions are widely available and used. However, for short answer formats, automatic grading is challenging due to natural language ambiguity and versatility. While automatic short answer grading models are beginning to compare to human performance on some datasets, their robustness, especially to adversarially manipulated data, is questionable. Exploitable vulnerabilities in grading models can have far-reaching consequences ranging from cheating students receiving undeserved credit to undermining automatic grading altogether - even when most predictions are valid. In this paper, we devise a black-box adversarial attack tailored to the educational short answer grading scenario to investigate the grading models' robustness. In our attack, we insert adjectives and adverbs into natural places of incorrect student answers, fooling the model into predicting them as correct. We observed a loss of prediction accuracy between 10 and 22 percentage points using the state-of-the-art models BERT and T5. While our attack made answers appear less natural to humans in our experiments, it did not significantly increase the graders' suspicions of cheating. Based on our experiments, we provide recommendations for utilizing automatic grading systems more safely in practice.
翻訳日:2022-01-21 13:53:17 公開日:2022-01-20
# (参考訳) 自動理論修復におけるシグネチャ絡み込みと概念変化 [全文訳有]

Signature Entrenchment and Conceptual Changes in Automated Theory Repair ( http://arxiv.org/abs/2201.08340v1 )

ライセンス: CC BY 4.0
Xue Li and Alan Bundy and Eugene Philalithis(参考訳) 人間の信念は変わるが、それらを支える概念も変わる。 最近のAbduction, Belief Revision and Conceptual Change (ABC) 修復システムは、自動理論の修復から、人工エージェントにおける概念的知識を表す論理構造の拡大、契約、あるいは改革まで、いくつかの方法を組み合わせている。 本稿では, 動物が飛べるものなど, 論理的概念の帰属だけでなく, 鳥が飛べない鳥と飛べない鳥に分裂するような概念を, それらを表現する論理理論のシグネチャを変えることによって, 修復する, という概念変化に着目する。 自動理論修正を簡潔かつ直感的な結果に限定するために,データログ理論の署名における絡み合いを自動的に評価する手法を提案する。 正式には、シグネチャエントレンチメントは、概念知識、すなわち述語と引数を表現するのに使われるすべての論理言語要素の推論的な貢献を測定し、価値ある論理概念を保持し、冗長で意味のない代替案を拒絶する可能性のある修復をランク付けする。 このシグネチャエントレンチメントの定量的測定は、概念変化の可能性へのガイドを提供し、今後の作業における概念エントレンチの人間の判断と対比することを目的としています。

Human beliefs change, but so do the concepts that underpin them. The recent Abduction, Belief Revision and Conceptual Change (ABC) repair system combines several methods from automated theory repair to expand, contract, or reform logical structures representing conceptual knowledge in artificial agents. In this paper we focus on conceptual change: repair not only of the membership of logical concepts, such as what animals can fly, but also concepts themselves, such that birds may be divided into flightless and flying birds, by changing the signature of the logical theory used to represent them. We offer a method for automatically evaluating entrenchment in the signature of a Datalog theory, in order to constrain automated theory repair to succinct and intuitive outcomes. Formally, signature entrenchment measures the inferential contributions of every logical language element used to express conceptual knowledge, i.e., predicates and the arguments, ranking possible repairs to retain valuable logical concepts and reject redundant or implausible alternatives. This quantitative measurement of signature entrenchment offers a guide to the plausibility of conceptual changes, which we aim to contrast with human judgements of concept entrenchment in future work.
翻訳日:2022-01-21 13:51:57 公開日:2022-01-20
# ビデオにおける時間文接地要素:調査と今後の方向性

The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions ( http://arxiv.org/abs/2201.08071v1 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou(参考訳) ビデオ(tsgv)、すなわち自然言語ビデオローカライゼーション(nlvl)またはビデオモーメント検索(vmr)における時間文グラウンドニングは、未トリミングビデオから言語クエリに意味的に対応する時間モーメントを検索することを目的としている。 コンピュータビジョンと自然言語を結びつけることで、TSGVは両方のコミュニティの研究者から大きな注目を集めている。 本調査は,tsgvの基本概念と現状,今後の研究方向性について概説する。 その背景として,TSGV の機能的コンポーネントの共通構造をチュートリアル形式で提示する: 生のビデオと言語クエリからの機能抽出から,対象モーメントの予測への応答である。 次に,2つのモーダル間の効果的なアライメントのためのTSGVの重要な焦点であるマルチモーダル理解とインタラクションの手法を概観する。 TSGVテクニックの分類と,その長所と短所の異なるカテゴリの精巧な手法を構築した。 最後に,現在のtsgv研究の問題点を議論し,今後の研究方向性について考察する。

Temporal sentence grounding in videos (TSGV), a.k.a., natural language video localization (NLVL) or video moment retrieval (VMR), aims to retrieve a temporal moment that semantically corresponds to a language query from an untrimmed video. Connecting computer vision and natural language, TSGV has drawn significant attention from researchers in both communities. This survey attempts to provide a summary of fundamental concepts in TSGV and current research status, as well as future research directions. As the background, we present a common structure of functional components in TSGV, in a tutorial style: from feature extraction from raw video and language query, to answer prediction of the target moment. Then we review the techniques for multimodal understanding and interaction, which is the key focus of TSGV for effective alignment between the two modalities. We construct a taxonomy of TSGV techniques and elaborate methods in different categories with their strengths and weaknesses. Lastly, we discuss issues with the current TSGV research and share our insights about promising research directions.
翻訳日:2022-01-21 13:34:30 公開日:2022-01-20
# マルチモーダルビデオキャプションのためのエンドツーエンド生成準備

End-to-end Generative Pretraining for Multimodal Video Captioning ( http://arxiv.org/abs/2201.08264v1 )

ライセンス: Link先を確認
Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid(参考訳) 最近のビデオおよび言語事前学習フレームワークには、文を生成する能力がない。 本稿では,マルチモーダルビデオキャプションなどの生成タスクに効果的に使用できる,未学習のビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。 最近のビデオ言語プリトレーニングフレームワークとは異なり、マルチモーダルビデオエンコーダと文デコーダを共同で訓練する。 非ラベルビデオにおけるキャプションの欠如を克服するために、将来の発話を追加のテキストソースとして活用し、双方向生成目標を提案する。 この目的により、エンコーダ・デコーダモデルをエンドツーエンドにトレーニングし、生の画素と転写された音声から直接キャプションを生成する。 4つの標準ベンチマークでマルチモーダルビデオキャプションの最先端性能を実現するとともに,ビデオqa,ビデオ検索,アクション分類などの映像理解タスクを実現する。

Recent video and language pretraining frameworks lack the ability to generate sentences. We present Multimodal Video Generative Pretraining (MV-GPT), a new pretraining framework for learning from unlabelled videos which can be effectively used for generative tasks such as multimodal video captioning. Unlike recent video-language pretraining frameworks, our framework trains both a multimodal video encoder and a sentence decoder jointly. To overcome the lack of captions in unlabelled videos, we leverage the future utterance as an additional text source and propose a bidirectional generation objective -- we generate future utterances given the present mulitmodal context, and also the present utterance given future observations. With this objective, we train an encoder-decoder model end-to-end to generate a caption from raw pixels and transcribed speech directly. Our model achieves state-of-the-art performance for multimodal video captioning on four standard benchmarks, as well as for other video understanding tasks such as VideoQA, video retrieval and action classification.
翻訳日:2022-01-21 13:34:10 公開日:2022-01-20
# Omnivore: 多くの視覚モダリティのための単一モデル

Omnivore: A Single Model for Many Visual Modalities ( http://arxiv.org/abs/2201.08377v1 )

ライセンス: Link先を確認
Rohit Girdhar and Mannat Singh and Nikhila Ravi and Laurens van der Maaten and Armand Joulin and Ishan Misra(参考訳) 先行研究は、異なる視覚モードを分離して研究し、画像、ビデオ、および3dデータの認識のための別々のアーキテクチャを開発した。 そこで本稿では,同一のモデルパラメータを用いて,画像,映像,および単視点3dデータの分類に優れた1つのモデルを提案する。 我々の'Omnivore'モデルはトランスフォーマーベースのアーキテクチャの柔軟性を活用し、異なるモダリティから分類タスクを共同で訓練する。 Omnivoreはトレーニングが簡単で、既製の標準データセットを使用し、同じサイズのモダリティ特化モデルよりも高いパフォーマンスを実現している。 単一のomnivoreモデルはimagenetで86.0%、kineticsで84.1%、sun rgb-dで67.1%を得る。 微調整後、我々のモデルは様々な視覚タスクの先行作業より優れ、モダリティを越えて一般化される。 omnivoreの共有視覚表現は、自然にモダリティ間の対応にアクセスせずにクロスモーダル認識を可能にする。 私たちの結果は、視覚モダリティを一緒にモデル化する研究者のモチベーションを期待しています。

Prior work has studied different visual modalities in isolation and developed separate architectures for recognition of images, videos, and 3D data. Instead, in this paper, we propose a single model which excels at classifying images, videos, and single-view 3D data using exactly the same model parameters. Our 'Omnivore' model leverages the flexibility of transformer-based architectures and is trained jointly on classification tasks from different modalities. Omnivore is simple to train, uses off-the-shelf standard datasets, and performs at-par or better than modality-specific models of the same size. A single Omnivore model obtains 86.0% on ImageNet, 84.1% on Kinetics, and 67.1% on SUN RGB-D. After finetuning, our models outperform prior work on a variety of vision tasks and generalize across modalities. Omnivore's shared visual representation naturally enables cross-modal recognition without access to correspondences between modalities. We hope our results motivate researchers to model visual modalities together.
翻訳日:2022-01-21 13:33:28 公開日:2022-01-20
# 感情分析:yelpのスコアを予測する

Sentiment Analysis: Predicting Yelp Scores ( http://arxiv.org/abs/2201.07999v1 )

ライセンス: Link先を確認
Bhanu Prakash Reddy Guda, Mashrin Srivastava, Deep Karkhanis(参考訳) 本研究では、yelp open datasetのサブセットに基づいて、レストランレビューの感情を予測する。 データセットで利用可能なメタ機能とテキストを活用し、予測タスクにいくつかの機械学習および最先端のディープラーニングアプローチを評価する。 いくつかの定性的な実験を通して、異なるレストランにおけるレビューのためのバランスのとれたモデルを学ぶための注意機構を備えたディープモデルの成功を示す。 最後に,分類性能を向上する新規なマルチタスクジョイントBERTモデルを提案する。

In this work, we predict the sentiment of restaurant reviews based on a subset of the Yelp Open Dataset. We utilize the meta features and text available in the dataset and evaluate several machine learning and state-of-the-art deep learning approaches for the prediction task. Through several qualitative experiments, we show the success of the deep models with attention mechanism in learning a balanced model for reviews across different restaurants. Finally, we propose a novel Multi-tasked joint BERT model that improves the overall classification performance.
翻訳日:2022-01-21 13:31:10 公開日:2022-01-20
# ハードラベルテキストアタックのための学習型ハイブリッド局所探索

Learning-based Hybrid Local Search for the Hard-label Textual Attack ( http://arxiv.org/abs/2201.08193v1 )

ライセンス: Link先を確認
Zhen Yu, Xiaosen Wang, Wanxiang Che, Kun He(参考訳) ディープニューラルネットワークは自然言語処理の敵例に対して脆弱である。 しかし、既存のテキストの逆境攻撃は通常、勾配や予測の自信を利用して逆境の例を生成し、現実のアプリケーションではデプロイが困難になる。 この目的のために,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないがより厳格な設定,すなわちハードラベル攻撃を考える。 特に, 単語置換による予測ラベルの変化は, 異なる単語の重要性を正確に反映する可能性が示唆された。 そこで本研究では,lhls(learning-based hybrid local search)アルゴリズムを提案する。攻撃履歴から単語重要度と予測ラベルを効果的に推定し,それらの情報をハイブリッド局所探索アルゴリズムに統合し,逆摂動を最適化する。 各種データセットとモデルを用いたテキスト分類とテキストエンテーメントの広範囲な評価は,LHLSが攻撃性能および敵の品質に対する既存のハードラベル攻撃を著しく上回っていることを示している。

Deep neural networks are vulnerable to adversarial examples in Natural Language Processing. However, existing textual adversarial attacks usually utilize the gradient or prediction confidence to generate adversarial examples, making it hard to be deployed in real-world applications. To this end, we consider a rarely investigated but more rigorous setting, namely hard-label attack, in which the attacker could only access the prediction label. In particular, we find that the changes on prediction label caused by word substitutions on the adversarial example could precisely reflect the importance of different words. Based on this observation, we propose a novel hard-label attack, called Learning-based Hybrid Local Search (LHLS) algorithm, which effectively estimates word importance with the prediction label from the attack history and integrate such information into hybrid local search algorithm to optimize the adversarial perturbation. Extensive evaluations for text classification and textual entailment using various datasets and models show that our LHLS significantly outperforms existing hard-label attacks regarding the attack performance as well as adversary quality.
翻訳日:2022-01-21 13:31:03 公開日:2022-01-20
# 制約付き強化学習における不安定性防止のための再帰的制約

Recursive Constraints to Prevent Instability in Constrained Reinforcement Learning ( http://arxiv.org/abs/2201.07958v1 )

ライセンス: Link先を確認
Jaeyoung Lee, Sean Sedwards and Krzysztof Czarnecki(参考訳) 我々は、(すべての州において)異なる報酬に対する確率的制約の下で1つの報酬を最大化するマルコフ決定過程に対する決定論的方針を見つけることの課題を考える。 既存のソリューションは、安全クリティカルなロボットシステムの文脈で自然に発生する問題の正確な定義に完全には対応していない。 このクラスは難しいことが知られているが、決定論と一様最適性の複合要求は学習の不安定性を引き起こす可能性がある。 そこで本研究では,簡単な例で問題の説明と動機付けを行い,再帰的制約を用いて学習の不安定さを防止できる適切な制約付き強化学習アルゴリズムを提案する。 提案手法は効率を向上する近似形式を認め,その制約に対して保守的である。

We consider the challenge of finding a deterministic policy for a Markov decision process that uniformly (in all states) maximizes one reward subject to a probabilistic constraint over a different reward. Existing solutions do not fully address our precise problem definition, which nevertheless arises naturally in the context of safety-critical robotic systems. This class of problem is known to be hard, but the combined requirements of determinism and uniform optimality can create learning instability. In this work, after describing and motivating our problem with a simple example, we present a suitable constrained reinforcement learning algorithm that prevents learning instability, using recursive constraints. Our proposed approach admits an approximative form that improves efficiency and is conservative w.r.t. the constraint.
翻訳日:2022-01-21 13:30:31 公開日:2022-01-20
# DRTCI:時間的因果推論のためのアンタングル表現の学習

DRTCI: Learning Disentangled Representations for Temporal Causal Inference ( http://arxiv.org/abs/2201.08137v1 )

ライセンス: Link先を確認
Garima Gupta, Lovekesh Vig and Gautam Shroff(参考訳) 患者の代替治療計画を評価する医療専門家は、しばしば様々な共同創設者、または将来の治療課題と患者の結果に影響を及ぼす共変量と遭遇する。 最近提案されたreturnfactual recurrent network (crn) は、患者データの再帰的な歴史的表現のバランスをとるために、敵意的なトレーニングを用いて、時間によって異なる共同設立者の責任を負っている。 しかしながら、この研究は、全ての時間に異なる共変量体が混在していると仮定し、したがって状態表現全体のバランスをとる。 Given that the actual subset of covariates that may in fact be confounding is in general unknown, recent work on counterfactual evaluation in the static, non-temporal setting has suggested that disentangling the covariate representation into separate factors, where each either influence treatment selection, patient outcome or both can help isolate selection bias and restrict balancing efforts to factors that influence outcome, allowing the remaining factors which predict treatment without needlessly being balanced.

Medical professionals evaluating alternative treatment plans for a patient often encounter time varying confounders, or covariates that affect both the future treatment assignment and the patient outcome. The recently proposed Counterfactual Recurrent Network (CRN) accounts for time varying confounders by using adversarial training to balance recurrent historical representations of patient data. However, this work assumes that all time varying covariates are confounding and thus attempts to balance the full state representation. Given that the actual subset of covariates that may in fact be confounding is in general unknown, recent work on counterfactual evaluation in the static, non-temporal setting has suggested that disentangling the covariate representation into separate factors, where each either influence treatment selection, patient outcome or both can help isolate selection bias and restrict balancing efforts to factors that influence outcome, allowing the remaining factors which predict treatment without needlessly being balanced.
翻訳日:2022-01-21 13:28:13 公開日:2022-01-20
# 機械学習に基づく一発群決定集約におけるメタ認知的特徴の活用

Exploiting Meta-Cognitive Features for a Machine-Learning-Bas ed One-Shot Group-Decision Aggregation ( http://arxiv.org/abs/2201.08247v1 )

ライセンス: Link先を確認
Hilla Shinitzky, Yuval Shahar, Dan Avraham, Yizhak Vaisman, Yakir Tsizer and Yaniv Leedon(参考訳) クラウドソーシングのような集団的意思決定プロセスの成果は、しばしば個々のメンバーの視点が集約される手順に依存する。 多数決則のような一般的な集計法は、特に複雑度の高いタスクにおいて、最適結果を生み出すことができないことが多い。 信頼に基づく手法や意外な人気オプションといったメタ認知情報に依存する手法は、様々なタスクにおいて改善されている。 しかし、最適解がないケースは依然としてかなりの数存在する。 本研究の目的は,メタ認知情報を活用し,それから学習することであり,正しい回答を提示する集団の能力を高めることにある。 具体的には, 応答中心の特徴に着目したRCR(Response-Centere d Feature Representation)と, それぞれの潜在的回答の特徴に着目したACR(Answer-Centered Feature Representation)の2つの異なる特徴表現手法を提案する。 これら2つの特徴表現アプローチを用いて、応答の正しさと応答の正しさを予測するために機械学習(ML)モデルを訓練する。 訓練されたモデルは、MLベースのアグリゲーション方法論の基礎として使用され、他のMLベースの手法とは対照的に、群衆特有の構成や個人記録とは独立して、さまざまな状況に適応する「ワンショット」技法の利点がある。 提案手法を評価するために,機能工学やMLモデルのトレーニングに使用した,異なるタスクに対する2490の回答を収集した。 提案したMLに基づくアグリゲーション手法の性能から特徴表現手法を検証した。 その結果, 標準規則に基づく集計法と比較して, 成功率は20%から35%に増加した。

The outcome of a collective decision-making process, such as crowdsourcing, often relies on the procedure through which the perspectives of its individual members are aggregated. Popular aggregation methods, such as the majority rule, often fail to produce the optimal result, especially in high-complexity tasks. Methods that rely on meta-cognitive information, such as confidence-based methods and the Surprisingly Popular Option, had shown an improvement in various tasks. However, there is still a significant number of cases with no optimal solution. Our aim is to exploit meta-cognitive information and to learn from it, for the purpose of enhancing the ability of the group to produce a correct answer. Specifically, we propose two different feature-representati on approaches: (1) Response-Centered feature Representation (RCR), which focuses on the characteristics of the individual response instances, and (2) Answer-Centered feature Representation (ACR), which focuses on the characteristics of each of the potential answers. Using these two feature-representati on approaches, we train Machine-Learning (ML) models, for the purpose of predicting the correctness of a response and of an answer. The trained models are used as the basis of an ML-based aggregation methodology that, contrary to other ML-based techniques, has the advantage of being a "one-shot" technique, independent from the crowd-specific composition and personal record, and adaptive to various types of situations. To evaluate our methodology, we collected 2490 responses for different tasks, which we used for feature engineering and for the training of ML models. We tested our feature-representati on approaches through the performance of our proposed ML-based aggregation methods. The results show an increase of 20% to 35% in the success rate, compared to the use of standard rule-based aggregation methods.
翻訳日:2022-01-21 13:27:41 公開日:2022-01-20
# 生涯学習メトリクス

Lifelong Learning Metrics ( http://arxiv.org/abs/2201.08278v1 )

ライセンス: Link先を確認
Alexander New and Megan Baker and Eric Nguyen and Gautam Vallabha(参考訳) DARPA Lifelong Learning Machines(L2M)プログラムは、人工知能(AI)システムの進歩を生かして、継続的に学習(および改善)し、あるタスク上のデータを活用して、別のタスクのパフォーマンスを改善し、計算的に持続可能な方法で実行できるようにする。 このプログラムの出演者は、自動運転、リアルタイム戦略、ドローンシミュレーションなど、さまざまな機能を実行することができるシステムを開発した。 これらのシステムには様々な特性(例えばタスク構造、寿命など)があり、プログラムのテストと評価チームが直面した課題は、システムの性能を異なる設定で測定することであった。 この文書はDARPAとプログラムパフォーマーと密接なコラボレーションで開発され、生涯学習シナリオを実行するエージェントのパフォーマンスの構築と特徴付けのための形式主義を概説している。

The DARPA Lifelong Learning Machines (L2M) program seeks to yield advances in artificial intelligence (AI) systems so that they are capable of learning (and improving) continuously, leveraging data on one task to improve performance on another, and doing so in a computationally sustainable way. Performers on this program developed systems capable of performing a diverse range of functions, including autonomous driving, real-time strategy, and drone simulation. These systems featured a diverse range of characteristics (e.g., task structure, lifetime duration), and an immediate challenge faced by the program's testing and evaluation team was measuring system performance across these different settings. This document, developed in close collaboration with DARPA and the program performers, outlines a formalism for constructing and characterizing the performance of agents performing lifelong learning scenarios.
翻訳日:2022-01-21 13:27:10 公開日:2022-01-20
# ゴールコンディション強化学習:課題と解決策

Goal-Conditioned Reinforcement Learning: Problems and Solutions ( http://arxiv.org/abs/2201.08299v1 )

ライセンス: Link先を確認
Minghuan Liu, Menghui Zhu, Weinan Zhang(参考訳) 複雑なrl問題のセットに関連する目標条件強化学習(gcrl)は、特定のシナリオで異なる目標を達成するためにエージェントを訓練する。 状態や観測にのみ依存する政策を学ぶ標準のRLソリューションと比較して、GCRLはエージェントに異なる目標に応じて決定することを要求する。 本稿では,gcrlの課題とアルゴリズムを総合的に概観する。 まず、この分野で研究されている基本的な問題に答える。 次に,目標の表現方法を説明し,既存のソリューションが異なる観点からどのように設計されているかを示す。 最後に,近年の研究が注目している今後の展望について考察する。

Goal-conditioned reinforcement learning (GCRL), related to a set of complex RL problems, trains an agent to achieve different goals under particular scenarios. Compared to the standard RL solutions that learn a policy solely depending on the states or observations, GCRL additionally requires the agent to make decisions according to different goals. In this survey, we provide a comprehensive overview of the challenges and algorithms for GCRL. Firstly, we answer what the basic problems are studied in this field. Then, we explain how goals are represented and present how existing solutions are designed from different points of view. Finally, we make the conclusion and discuss potential future prospects that recent researches focus on.
翻訳日:2022-01-21 13:26:56 公開日:2022-01-20
# カーネル法と多層受容器による高次元線形モデルの学習

Kernel Methods and Multi-layer Perceptrons Learn Linear Models in High Dimensions ( http://arxiv.org/abs/2201.08082v1 )

ライセンス: Link先を確認
Mojtaba Sahraee-Ardakan, Melikasadat Emami, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) 二重降下挙動のような高次元現象の実証観測は、カーネル法のような古典的手法の理解や、ニューラルネットワークの一般化特性の説明に多くの関心を集めている。 多くの最近の研究は、共変数が独立であり、サンプルの数と共変数の数が一定の比(比例漸近)で増加するある高次元状態においてそのようなモデルを分析する。 本研究は,完全連結ネットワークの神経接核を含む多数のカーネルに対して,カーネル手法が線形モデルと同様にのみ実行可能であることを示す。 より驚くべきことに、入力と応答の関係が非常に非線形であるカーネルモデルによってデータが生成されるとき、リニアモデルは実際には最適であり、リニアモデルはリニアモデルと非線形モデルの間の最小リスクを達成する。 これらの結果は、高次元解析には独立性以外のデータに対するより複雑なモデルが必要であることを示唆している。

Empirical observation of high dimensional phenomena, such as the double descent behaviour, has attracted a lot of interest in understanding classical techniques such as kernel methods, and their implications to explain generalization properties of neural networks. Many recent works analyze such models in a certain high-dimensional regime where the covariates are independent and the number of samples and the number of covariates grow at a fixed ratio (i.e. proportional asymptotics). In this work we show that for a large class of kernels, including the neural tangent kernel of fully connected networks, kernel methods can only perform as well as linear models in this regime. More surprisingly, when the data is generated by a kernel model where the relationship between input and the response could be very nonlinear, we show that linear models are in fact optimal, i.e. linear models achieve the minimum risk among all models, linear or nonlinear. These results suggest that more complex models for the data other than independent features are needed for high-dimensional analysis.
翻訳日:2022-01-21 13:26:46 公開日:2022-01-20
# (参考訳) 孤独な多くの方法--「孤独」の微粒化と新型コロナウイルスの潜在的変化- [全文訳有]

Many Ways to be Lonely: Fine-grained Characterization of Loneliness and its Potential Changes in COVID-19 ( http://arxiv.org/abs/2201.07423v2 )

ライセンス: CC BY 4.0
Yueyi Jiang, Yunfan Jiang, Liu Leqi, Piotr Winkielman(参考訳) 孤独は身体的および精神的な健康に対する否定的な結果に結びついている。 さまざまな孤独の表現や対処方法を理解することは、特に若い大人のような脆弱なグループにおいて、孤独を減らすための早期スクリーニングや目標とした介入に不可欠である。 孤独な自己開示において、孤独と対処戦略の異なる形態がどのように現れるかを調べるために、さまざまな年齢グループで構成される2つの若者向けフォーラムと2つの孤独関連フォーラムでReddit投稿を使用することにより、FIG-Loneliness(Fine- Grained Loneliness)というデータセットを構築した。 ポストの2値および細粒度の寂しさ分類のための,訓練された人間アノテーションによるアノテーションを提供する。 FIG-Lonelinessに基づいてトレーニングされた2つのBERTベースのモデルは、これらのフォーラムにおける孤独な形式と著者の対処戦略を理解するために使用された。 我々のバイナリ孤独分類は97%以上の精度でアーカイブされ、細粒度の孤独分類はすべてのラベル付きカテゴリーで平均77%の精度に達した。 FIG-Lonelinessとモデル予測により,若年者関連フォーラムにおける孤独表現は他のフォーラムと異なることがわかった。 若者向けフォーラムの参加者は、相互関係に関わる懸念を表明する可能性が高く、新型コロナウイルス(covid-19)のパンデミックによる地理的孤立に敏感になる可能性がある。 また,異なる孤独形態が対処戦略において異なる利用法を持つことを示す。

Loneliness has been associated with negative outcomes for physical and mental health. Understanding how people express and cope with various forms of loneliness is critical for early screening and targeted interventions to reduce loneliness, particularly among vulnerable groups such as young adults. To examine how different forms of loneliness and coping strategies manifest in loneliness self-disclosure, we built a dataset, FIG-Loneliness (FIne-Grained Loneliness) by using Reddit posts in two young adult-focused forums and two loneliness related forums consisting of a diverse age group. We provide annotations by trained human annotators for binary and fine-grained loneliness classifications of the posts. Trained on FIG-Loneliness, two BERT-based models were used to understand loneliness forms and authors' coping strategies in these forums. Our binary loneliness classification archived an accuracy above 97%, and fine-grained loneliness category classification reached an average accuracy of 77% across all labeled categories. With FIG-Loneliness and model predictions, we found that loneliness expressions in the young adult related forums are distinct from other forums. Those in young adult-focused forums are more likely to express concerns pertaining to peer relationship, and are potentially more sensitive to geographical isolation impacted by the COVID-19 pandemic lockdown. Also, we show that different forms of loneliness have differential use in coping strategies.
翻訳日:2022-01-21 13:24:32 公開日:2022-01-20
# センサ間を探索するニューラルアーキテクチャの展望:その違いはどの程度か?

Landscape of Neural Architecture Search across sensors: how much do they differ ? ( http://arxiv.org/abs/2201.06321v2 )

ライセンス: Link先を確認
Kalifou Ren\'e Traor\'e, Andr\'es Camero, Xiao Xiang Zhu(参考訳) ニューラルネットワーク検索の急速な普及に伴い,探索アルゴリズムの観点からその複雑さを理解する能力が望ましい。 Traor\'eらは最近、ニューラルネットワークの検索問題を記述し比較するためのFitness Landscape Footprintのフレームワークを提案している。 検索戦略が成功したり、苦労したり、目的のタスクで失敗したりする理由を説明する。 本研究は,センサデータ融合を含むセンサ横断探索の文脈において,この手法を活用している。 特に、ニューラルネットワークのハイパーパラメータ最適化問題において最も有用なセンサを特定するために、実世界のS2Sat LCZ42画像分類問題にFitness Landscape Footprintを適用した。 フィットネスの分布から見れば、トレーニング時間が長ければ長いほど、全体のフィットネスが大きくなり、風景の平坦さ(頑丈さや偏りがない)が増す。 センサーに関しては、適合性が高いほど(Sentinel-2)、検索トラジェクトリ(スモザー、高持続性)が良くなる。 また、探索空間(Sentinel-2 と fusion)に適切に取付けることができるセンサーについても、非常に類似した探索挙動を示す。

With the rapid rise of neural architecture search, the ability to understand its complexity from the perspective of a search algorithm is desirable. Recently, Traor\'e et al. have proposed the framework of Fitness Landscape Footprint to help describe and compare neural architecture search problems. It attempts at describing why a search strategy might be successful, struggle or fail on a target task. Our study leverages this methodology in the context of searching across sensors, including sensor data fusion. In particular, we apply the Fitness Landscape Footprint to the real-world image classification problem of So2Sat LCZ42, in order to identify the most beneficial sensor to our neural network hyper-parameter optimization problem. From the perspective of distributions of fitness, our findings indicate a similar behaviour of the search space for all sensors: the longer the training time, the larger the overall fitness, and more flatness in the landscapes (less ruggedness and deviation). Regarding sensors, the better the fitness they enable (Sentinel-2), the better the search trajectories (smoother, higher persistence). Results also indicate very similar search behaviour for sensors that can be decently fitted by the search space (Sentinel-2 and fusion).
翻訳日:2022-01-21 13:02:36 公開日:2022-01-20
# 能動学習による地震データの品質管理の改善

Improving the quality control of seismic data through active learning ( http://arxiv.org/abs/2201.06616v2 )

ライセンス: Link先を確認
Mathieu Chambefort, Rapha\"el Butez, Emilie Chautru and Stephan Cl\'emen\c{c}on(参考訳) 画像分割問題では、画像の密度が増加すると、徹底的な視覚検査が不可能となり、機械学習に基づく自動化手法をこの目的のために展開する必要がある。 これは特に地震信号処理の場合である。 エンジニアや地球物理学者は、何百万もの地震の時系列を扱う必要がある。 石油産業に有用な地下特性の発見には1年を要し、計算・人的資源の面では非常にコストがかかる。 特に、データはノイズ減衰の異なるステップを通過しなければならない。 それぞれの装飾ステップは、人間の専門知識によって実行される品質管理(QC)段階が理想的に続く。 品質管理分類器を教師付きで学習するには、ラベル付きトレーニングデータが必要であるが、人間の専門家によるラベルの収集は非常に時間がかかる。 そこで我々は,最も関連性の高いデータを順次選択し,人間にラベル付けを依頼する新しいアクティブラーニング手法を提案する。 本論文では,地球物理学の応用以外にも,局所誤差とその不確実性の推定に基づく手法を一般化した。 この論文で提示された数値実験で示されているように、その性能は、合成データと実際の地震データセットの両方において、代替のアクティブラーニング戦略と比較される強力な実証的証拠によって支えられている。

In image denoising problems, the increasing density of available images makes an exhaustive visual inspection impossible and therefore automated methods based on machine-learning must be deployed for this purpose. This is particulary the case in seismic signal processing. Engineers/geophysici sts have to deal with millions of seismic time series. Finding the sub-surface properties useful for the oil industry may take up to a year and is very costly in terms of computing/human resources. In particular, the data must go through different steps of noise attenuation. Each denoise step is then ideally followed by a quality control (QC) stage performed by means of human expertise. To learn a quality control classifier in a supervised manner, labeled training data must be available, but collecting the labels from human experts is extremely time-consuming. We therefore propose a novel active learning methodology to sequentially select the most relevant data, which are then given back to a human expert for labeling. Beyond the application in geophysics, the technique we promote in this paper, based on estimates of the local error and its uncertainty, is generic. Its performance is supported by strong empirical evidence, as illustrated by the numerical experiments presented in this article, where it is compared to alternative active learning strategies both on synthetic and real seismic datasets.
翻訳日:2022-01-21 13:02:13 公開日:2022-01-20
# ロボット操作のためのトランスフォーマーでエゴセントリックとパーソナライズを橋渡し

Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation ( http://arxiv.org/abs/2201.07779v2 )

ライセンス: Link先を確認
Rishabh Jangir, Nicklas Hansen, Sambaran Ghosal, Mohit Jain, Xiaolong Wang(参考訳) 強化学習(rl)を用いた視覚フィードバックによる精度に基づく操作課題の解法は、従来のロボットシステムに必要な工学的労力を大幅に削減することができる。 しかし、視覚入力だけできめ細かい運動制御を行うことは、特に以前の作業でよく使われる静的な3人称カメラでは困難である。 本稿では,エージェントがロボットの手首に装着した自己中心カメラと第三者カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。 3人称カメラは静的だが、エゴセントリックカメラはロボットが視覚を積極的に制御し、正確な操作を支援する。 また,両カメラからの視覚情報を効果的に融合するために,空間的注意を一つの視点から他の視点へモデル化し,学習した特徴をrlポリシーの入力として利用するクロスビュー注意機構を備えたトランスフォーマを提案する。 本手法は,単視点および多視点のベースライン上での学習を向上し,非対応カメラを用いた実ロボット上での課題操作タスクのセットへの転送,状態情報へのアクセスの不要,タスク変動度の向上を実現した。 ハンマー操作タスクでは,実験の75%で成功し,マルチビューベースラインでは38%,シングルビューベースラインでは13%であった。

Learning to solve precision-based manipulation tasks from visual feedback using Reinforcement Learning (RL) could drastically reduce the engineering efforts required by traditional robot systems. However, performing fine-grained motor control from visual inputs alone is challenging, especially with a static third-person camera as often used in previous work. We propose a setting for robotic manipulation in which the agent receives visual feedback from both a third-person camera and an egocentric camera mounted on the robot's wrist. While the third-person camera is static, the egocentric camera enables the robot to actively control its vision to aid in precise manipulation. To fuse visual information from both cameras effectively, we additionally propose to use Transformers with a cross-view attention mechanism that models spatial attention from one view to another (and vice-versa), and use the learned features as input to an RL policy. Our method improves learning over strong single-view and multi-view baselines, and successfully transfers to a set of challenging manipulation tasks on a real robot with uncalibrated cameras, no access to state information, and a high degree of task variability. In a hammer manipulation task, our method succeeds in 75% of trials versus 38% and 13% for multi-view and single-view baselines, respectively.
翻訳日:2022-01-21 13:01:54 公開日:2022-01-20
# 深部生成ネットワークに非現実的な画像を引き起こすニューロンは見つかるか?

Can We Find Neurons that Cause Unrealistic Images in Deep Generative Networks? ( http://arxiv.org/abs/2201.06346v2 )

ライセンス: Link先を確認
Hwanil Choi, Wonjoon Chang, Jaesik Choi(参考訳) Generative Adversarial Networksによる画像生成は、高品質な画像を生成する素晴らしい能力を示しているが、GANが常にフォトリアリスティックな画像を生成するとは限らない。 時に「人工物」と呼ばれる欠陥や不自然な物体を持つ画像を生成する。 アーティファクトがなぜ出現し、どのように検出・除去できるかを決定する研究は、十分に行われていない。 これを分析するために、まず、滅多に活性化されたニューロンと頻繁に活性化されるニューロンは、画像の生成の進行に異なる目的と責任を持つと仮定する。 これらのニューロンの統計と役割を分析することで、希少な活性化ニューロンが多種多様な物を作り、人工物に繋がる失敗の結果と関係があることを実証的に示す。 また,複雑な計算コストや手作業を伴わずに生成画像の欠陥部分を修復する「逐次アブレーション」という補正手法を提案する。

Even though image generation with Generative Adversarial Networks has been showing remarkable ability to generate high-quality images, GANs do not always guarantee photorealistic images will be generated. Sometimes they generate images that have defective or unnatural objects, which are referred to as 'artifacts'. Research to determine why the artifacts emerge and how they can be detected and removed has not been sufficiently carried out. To analyze this, we first hypothesize that rarely activated neurons and frequently activated neurons have different purposes and responsibilities for the progress of generating images. By analyzing the statistics and the roles for those neurons, we empirically show that rarely activated neurons are related to failed results of making diverse objects and lead to artifacts. In addition, we suggest a correction method, called 'sequential ablation', to repair the defective part of the generated images without complex computational cost and manual efforts.
翻訳日:2022-01-21 13:01:15 公開日:2022-01-20
# キー球面に基づく高忠実度3次元モデル圧縮

High-fidelity 3D Model Compression based on Key Spheres ( http://arxiv.org/abs/2201.07486v2 )

ライセンス: Link先を確認
Yuanzhan Li, Yuqi Liu, Yujie Lu, Siyu Zhang, Shen Cai and Yanting Zhang(参考訳) 近年, ニューラルサイン距離関数 (SDF) は3次元モデルにおいて最も効果的な表現法の一つである。 3次元空間で連続的なSDFを学習することにより、ニューラルネットワークは、与えられたクエリ空間ポイントから最も近いオブジェクト表面までの距離を予測できる。 形状を個別に埋め込んだ3dモデルごとに特定のネットワークをトレーニングすることで、より少ないネットワークパラメータ(潜在的に潜在パラメータ)を格納することで、オブジェクトの圧縮表現を実現することができる。 これにより、ネットワーク推論とサーフェスリカバリによる再構成を実現することができる。 本稿では,明示的な鍵球を入力として用いたSDF予測ネットワークを提案する。 キー球面は物体の内部空間から抽出され、中心は比較的大きなsdf値(球面半径)を持つか、本質的な位置に位置する。 局所形状の異なる多球体の空間情報を入力することにより, 保存コストを必要とせず, 復元精度を大幅に向上させることができる。 従来の手法と比較して,高忠実度および高圧縮性3次元オブジェクトの符号化と再構成を実現する。 3つのデータセットによる実験により,本手法の優れた性能が検証された。

In recent years, neural signed distance function (SDF) has become one of the most effective representation methods for 3D models. By learning continuous SDFs in 3D space, neural networks can predict the distance from a given query space point to its closest object surface,whose positive and negative signs denote inside and outside of the object, respectively. Training a specific network for each 3D model, which individually embeds its shape, can realize compressed representation of objects by storing fewer network (and possibly latent) parameters. Consequently, reconstruction through network inference and surface recovery can be achieved. In this paper, we propose an SDF prediction network using explicit key spheres as input. Key spheres are extracted from the internal space of objects, whose centers either have relatively larger SDF values (sphere radii), or are located at essential positions. By inputting the spatial information of multiple spheres which imply different local shapes, the proposed method can significantly improve the reconstruction accuracy with a negligible storage cost. Compared to previous works, our method achieves the high-fidelity and high-compression 3D object coding and reconstruction. Experiments conducted on three datasets verify the superior performance of our method.
翻訳日:2022-01-21 13:00:57 公開日:2022-01-20
# 空間時空間応用のためのフェデレーション学習の公平性

Fairness in Federated Learning for Spatial-Temporal Applications ( http://arxiv.org/abs/2201.06598v2 )

ライセンス: Link先を確認
Afra Mashhadi, Alex Kyllo, Reza M. Parizi(参考訳) フェデレート学習は、データをローカライズしながら、携帯電話などのリモートデバイス上で統計モデルをトレーニングする。 不均一で潜在的に巨大なネットワークでのトレーニングは、プライバシー保護データ分析の機会を導入し、これらのモデルを多様化し、より人口を包含する。 フェデレーション学習は、様々な参加者の集まりと定期的に動的に生成されたデータでモデルトレーニングを行えるようにすることで、既存の多くのモデルに公平さと平等をもたらすユニークな機会と見なすことができる。 本稿では,空間-時間モデルの文脈において公平性を測定し評価できる現在の指標と手法について述べる。 フェデレーション学習環境において直面する課題に対処するために,これらの指標とアプローチを再定義する方法を提案する。

Federated learning involves training statistical models over remote devices such as mobile phones while keeping data localized. Training in heterogeneous and potentially massive networks introduces opportunities for privacy-preserving data analysis and diversifying these models to become more inclusive of the population. Federated learning can be viewed as a unique opportunity to bring fairness and parity to many existing models by enabling model training to happen on a diverse set of participants and on data that is generated regularly and dynamically. In this paper, we discuss the current metrics and approaches that are available to measure and evaluate fairness in the context of spatial-temporal models. We propose how these metrics and approaches can be re-defined to address the challenges that are faced in the federated learning setting.
翻訳日:2022-01-21 13:00:37 公開日:2022-01-20