このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210728となっている論文です。

PDF登録状況(公開日: 20210728)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 動的ニューラルネットワークのアーキテクチャとトポロジカル適応と関連する手法 -- 調査 [全文訳有]

Dynamic Neural Network Architectural and Topological Adaptation and Related Methods -- A Survey ( http://arxiv.org/abs/2108.10066v1 )

ライセンス: CC BY 4.0
Lorenz Kummer(参考訳) ディープニューラルネットワーク(DNN)のトレーニングと推論は、アーキテクチャの複雑さとデータセットのサイズが着実に増加するため、DNNトレーニングと推論の時間と空間要件を削減する戦略の開発につながっている。 本稿では,dnnのトレーニングと推論時間と空間の複雑さを低減し,特にアーキテクチャ適応に焦点をあてた,最先端技術(sota)の概要と分類を行うことを目的とする。

Training and inference in deep neural networks (DNNs) has, due to a steady increase in architectural complexity and data set size, lead to the development of strategies for reducing time and space requirements of DNN training and inference, which is of particular importance in scenarios where training takes place in resource constrained computation environments or inference is part of a time critical application. In this survey, we aim to provide a general overview and categorization of state-of-the-art (SOTA) of techniques to reduced DNN training and inference time and space complexities with a particular focus on architectural adaptions.
翻訳日:2021-08-29 16:35:15 公開日:2021-07-28
# (参考訳) 気候変動科学のための量子人工知能 [全文訳有]

Quantum Artificial Intelligence for the Science of Climate Change ( http://arxiv.org/abs/2108.10855v1 )

ライセンス: CC BY 4.0
Manmeet Singh, Chirag Dhara, Adarsh Kumar, Sukhpal Singh Gill and Steve Uhlig(参考訳) 気候変動は、地球の居住環境を損なう最大の世界的問題の一つになっている。 カリフォルニアやカナダの異常な熱波やドイツの壊滅的な洪水のような最近の発展は、極度の天候の頻度が増す中で気候変動が果たす役割を示している。 気象と気候の数値モデリングは過去50年間で大幅に改善されてきたが、厳しい制限は克服され続けている。 空間的および時間的局所的な予測は、生命と財産の損失を最小化するための効果的な適応措置のための時間の必要性である。 人工知能ベースの手法は予測を改善する上で有望な結果を示しているが、地球規模での膨大なデータの処理に必要なハードウェアとソフトウェアが利用可能であることによって、依然として制限されている。 量子コンピューティングは、いくつかの分野で応用可能性を見出した新興パラダイムである。 本稿では、量子コンピュータ用に設計された人工知能アルゴリズム(量子人工知能(QAI)とも呼ばれる)の新たな発展が、気候変動の科学を強化するために必要な重要なブレークスルーをもたらすかもしれないと論じる。 その結果、天気や気候予報の改善は、多くの社会的利益をもたらすことが期待されている。

Climate change has become one of the biggest global problems increasingly compromising the Earth's habitability. Recent developments such as the extraordinary heat waves in California & Canada, and the devastating floods in Germany point to the role of climate change in the ever-increasing frequency of extreme weather. Numerical modelling of the weather and climate have seen tremendous improvements in the last five decades, yet stringent limitations remain to be overcome. Spatially and temporally localized forecasting is the need of the hour for effective adaptation measures towards minimizing the loss of life and property. Artificial Intelligence-based methods are demonstrating promising results in improving predictions, but are still limited by the availability of requisite hardware and software required to process the vast deluge of data at a scale of the planet Earth. Quantum computing is an emerging paradigm that has found potential applicability in several fields. In this opinion piece, we argue that new developments in Artificial Intelligence algorithms designed for quantum computers - also known as Quantum Artificial Intelligence (QAI) - may provide the key breakthroughs necessary to furthering the science of climate change. The resultant improvements in weather and climate forecasts are expected to cascade to numerous societal benefits.
翻訳日:2021-08-29 16:21:09 公開日:2021-07-28
# (参考訳) ウイルス関連r/抑うつポストの感度解析 [全文訳有]

Sentiment Analysis of the COVID-related r/Depression Posts ( http://arxiv.org/abs/2108.06215v1 )

ライセンス: CC BY 4.0
Zihan Chen, Marina Sokolova(参考訳) Reddit.comは若者の間で人気のあるソーシャルメディアプラットフォームである。 Redditユーザーは、特にCovid-19パンデミックの間、他のユーザーからの支持を求めるストーリーを共有している。 redditに投稿されたメッセージとそのコンテンツは、研究者に公衆の懸念を分析する機会を提供した。 本研究では、r/depressionに投稿された新型コロナウイルス関連メッセージの感情を分析した。 a) Redditユーザが議論する一般的なトピックは何ですか? b)これらのトピックを使って投稿の感情を分類できますか。 c)パンデミックの間、人々の関心が高まるのは何か。 キーワード:センチメント分類、抑うつ、COVID-19、Reddit、LDA、BERT

Reddit.com is a popular social media platform among young people. Reddit users share their stories to seek support from other users, especially during the Covid-19 pandemic. Messages posted on Reddit and their content have provided researchers with opportunity to analyze public concerns. In this study, we analyzed sentiments of COVID-related messages posted on r/Depression. Our study poses the following questions: a) What are the common topics that the Reddit users discuss? b) Can we use these topics to classify sentiments of the posts? c) What matters concern people more during the pandemic? Key Words: Sentiment Classification, Depression, COVID-19, Reddit, LDA, BERT
翻訳日:2021-08-22 16:49:24 公開日:2021-07-28
# 高次元データの非線形埋め込みの属性に基づく説明

Attribute-based Explanations of Non-Linear Embeddings of High-Dimensional Data ( http://arxiv.org/abs/2108.08706v1 )

ライセンス: Link先を確認
Jan-Tobias Sohns, Michaela Schmitt, Fabian Jirasek, Hans Hasse, and Heike Leitte(参考訳) 高次元データの埋め込みは、データ探索、分析結果の検証、情報伝達に広く利用されている。 それらの説明は、特に入力属性に関して、しばしば困難である。 pcaのような線形プロジェクトでは、軸は意味のある注釈を付けることができる。 非線形投影では、これはもはや不可能であり、属性ベースのカラーコーディングのような代替戦略が必要である。 本稿では,既存の拡張手法を概観し,その限界について論じる。 本稿では,投影データ (rangesets) に対する新しい拡張戦略と,小さな多重化環境での対話的解析を組み合わせた非線形埋め込みサーベイヤー(nolies)を提案する。 rangesetは、binned属性値のセットベースの視覚化アプローチを使用して、ユーザが構造をすばやく観察し、異常値を検出することができる。 代数トポロジーとレンジセットの関係を詳述し、様々な課題(複合属性値分布、多くの属性、多くのデータポイント)と熱力学における行列完備の潜在的特徴を理解するための実世界応用に関するケーススタディにおいて、ノリーの有用性を実証する。

Embeddings of high-dimensional data are widely used to explore data, to verify analysis results, and to communicate information. Their explanation, in particular with respect to the input attributes, is often difficult. With linear projects like PCA the axes can still be annotated meaningfully. With non-linear projections this is no longer possible and alternative strategies such as attribute-based color coding are required. In this paper, we review existing augmentation techniques and discuss their limitations. We present the Non-Linear Embeddings Surveyor (NoLiES) that combines a novel augmentation strategy for projected data (rangesets) with interactive analysis in a small multiples setting. Rangesets use a set-based visualization approach for binned attribute values that enable the user to quickly observe structure and detect outliers. We detail the link between algebraic topology and rangesets and demonstrate the utility of NoLiES in case studies with various challenges (complex attribute value distribution, many attributes, many data points) and a real-world application to understand latent features of matrix completion in thermodynamics.
翻訳日:2021-08-22 14:35:45 公開日:2021-07-28
# (参考訳) VirtualConductor:音楽駆動型導電性ビデオ生成システム [全文訳有]

VirtualConductor: Music-driven Conducting Video Generation System ( http://arxiv.org/abs/2108.04350v1 )

ライセンス: CC BY 4.0
Delong Chen, Fan Liu, Zewen Li, Feng Xu(参考訳) このデモでは,任意の音楽と1人のユーザのイメージから映像を生成できるシステムであるvirtualconductorについて紹介する。 まず、大規模な導体運動データセットを収集し、構築する。 そこで本稿では,Audio Motion Cor correspondingence Network (AMCNet) と敵対的知覚学習を提案し,その相互関係を学習し,多種多様な楽譜同期動作を生成する。 最後に,3dアニメーションレンダリングとポーズ伝達モデルを組み合わせて,任意のユーザの画像から映像を合成する。 したがって、任意のユーザがシステムを通じて仮想コンダクタになれる。

In this demo, we present VirtualConductor, a system that can generate conducting video from any given music and a single user's image. First, a large-scale conductor motion dataset is collected and constructed. Then, we propose Audio Motion Correspondence Network (AMCNet) and adversarial-perceptu al learning to learn the cross-modal relationship and generate diverse, plausible, music-synchronized motion. Finally, we combine 3D animation rendering and a pose transfer model to synthesize conducting video from a single given user's image. Therefore, any user can become a virtual conductor through the system.
翻訳日:2021-08-15 14:38:30 公開日:2021-07-28
# Adversarial Open Domain Adaption Framework (AODA): Sketch-to-Photo Synthesis

Adversarial Open Domain Adaption Framework (AODA): Sketch-to-Photo Synthesis ( http://arxiv.org/abs/2108.04351v1 )

ライセンス: Link先を確認
Amey Thakur and Mega Satish(参考訳) 本稿では,スケッチ・ツー・フォト合成のためのAdversarial Open Domain Adaptionフレームワークの有効性を示す。 手描きスケッチからリアルな写真を生成するための教師なしのオープンドメイン適応は、そのクラスのトレーニングデータにそのようなスケッチがないため、難しい。 学習監督の欠如とフリーハンドドローイングとピクチャドメインの間の大きなドメインギャップは、それを困難にします。 本稿では、スケッチ・ツー・フォトとフォト・ツー・スケッチの両方を学習し、画像から欠落したフリーハンド図面を合成するアプローチを提案する。 合成スケッチと本物のスケッチのドメインギャップのため、誤った描画を訓練したジェネレータは、クラス不足の図面を扱う場合、不十分な結果を生み出す可能性がある。 この問題に対処するために,提案手法は単純だが効果的なオープンドメインサンプリングと最適化手法を提供する。 本手法では,インドメイン入力からオープンドメインカテゴリへのスケッチ・ツー・フォト・スケッチマッピングを一般化する。 ScribbleとSketchyCOCOのデータセットでは、現在の競合する手法と比較した。 オープンドメインドローイングでは, 正確な色, 物質, 構造的レイアウトの維持など, 優れた結果が得られている。

This paper aims to demonstrate the efficiency of the Adversarial Open Domain Adaption framework for sketch-to-photo synthesis. The unsupervised open domain adaption for generating realistic photos from a hand-drawn sketch is challenging as there is no such sketch of that class for training data. The absence of learning supervision and the huge domain gap between both the freehand drawing and picture domains make it hard. We present an approach that learns both sketch-to-photo and photo-to-sketch generation to synthesise the missing freehand drawings from pictures. Due to the domain gap between synthetic sketches and genuine ones, the generator trained on false drawings may produce unsatisfactory results when dealing with drawings of lacking classes. To address this problem, we offer a simple but effective open-domain sampling and optimization method that tricks the generator into considering false drawings as genuine. Our approach generalises the learnt sketch-to-photo and photo-to-sketch mappings from in-domain input to open-domain categories. On the Scribble and SketchyCOCO datasets, we compared our technique to the most current competing methods. For many types of open-domain drawings, our model outperforms impressive results in synthesising accurate colour, substance, and retaining the structural layout.
翻訳日:2021-08-15 11:32:15 公開日:2021-07-28
# 陰性画像フレームと複数オブザーバラベルを用いた術中超音波セグメンテーションの開発と評価

Development and evaluation of intraoperative ultrasound segmentation with negative image frames and multiple observer labels ( http://arxiv.org/abs/2108.04114v1 )

ライセンス: Link先を確認
Liam F Chalcroft, Jiongqi Qu, Sophie A Martin, Iani JMB Gayo, Giulio V Minore, Imraj RD Singh, Shaheer U Saeed, Qianye Yang, Zachary MC Baum, Andre Altmann, Yipeng Hu(参考訳) 術中超音波画像のセグメンテーションのためのディープニューラルネットワークを開発する際,興味のある領域を含まない超音波フレームの存在や,接地ラベルのばらつきなど,いくつかの実用的な課題が頻繁に発生する。 本研究では,セグメンテーションネットワークに先立って,事前スクリーニング分類ネットワークの有用性を評価する。 実験結果から, フレーム分類誤差を最小限に抑えたそのような分類器は, 偽陽性および偽陰性フレームの数に直接影響を及ぼすことができた。 重要なことは、分類器選択されたフレーム上のセグメンテーション精度は、独立したセグメンテーションネットワークのものと同等かそれ以上である。 スクリーニング前分類器の有効性は,複数の観察者からラベルを抽出するサンプリング手法の影響を受けており,これは一見独立した問題である。 従来提案されていたランダムサンプリングとコンセンサスラベルを組み合わせたアプローチは,本アプリケーションでよく機能するために適応する必要がある可能性があることを実験的に示す。 さらに, 前立腺癌患者に対する高度に可変な介入型画像作成を支援する機械学習アプリケーションの開発, 堅牢かつ再現可能なオープンソース実装の提示, 実世界臨床応用におけるこれらの実用的かつ重要な選択肢の比較, 総合的な結果と分析のセットを報告し, 実践的経験を共有することを目的とした。

When developing deep neural networks for segmenting intraoperative ultrasound images, several practical issues are encountered frequently, such as the presence of ultrasound frames that do not contain regions of interest and the high variance in ground-truth labels. In this study, we evaluate the utility of a pre-screening classification network prior to the segmentation network. Experimental results demonstrate that such a classifier, minimising frame classification errors, was able to directly impact the number of false positive and false negative frames. Importantly, the segmentation accuracy on the classifier-selected frames, that would be segmented, remains comparable to or better than those from standalone segmentation networks. Interestingly, the efficacy of the pre-screening classifier was affected by the sampling methods for training labels from multiple observers, a seemingly independent problem. We show experimentally that a previously proposed approach, combining random sampling and consensus labels, may need to be adapted to perform well in our application. Furthermore, this work aims to share practical experience in developing a machine learning application that assists highly variable interventional imaging for prostate cancer patients, to present robust and reproducible open-source implementations, and to report a set of comprehensive results and analysis comparing these practical, yet important, options in a real-world clinical application.
翻訳日:2021-08-15 11:31:52 公開日:2021-07-28
# 可視性グラフへの可視性の追加:減衰係数を用いた重み付け可視性解析

Adding Visibility to Visibility Graphs: Weighting Visibility Analysis with Attenuation Coefficients ( http://arxiv.org/abs/2108.04231v1 )

ライセンス: Link先を確認
Mathew Schwartz, Margarita Vinnikov, John Federici(参考訳) 可視性に基づいて構築された環境を評価することは、人間中心の設計ツールとして長い間使われてきた。 イソビストの起源と可視性グラフは内部空間内にあるが、近年ではこれらの評価手法が都市の文脈に応用されている。 外部環境の重要な差別化要因の1つは天気であり、デザイン計算と宇宙・シンタックス研究領域では無視されてきた。 可視グラフは、視線計算によって空間の領域間の接続を決定するための単純な指標であるが、このアプローチは、ある点から別の点への実際の可視性を無視している。 本稿では,気象条件に基づいて可視性グラフを重み付けする新しい手法を提案する。 雨、霧、雪)。 これらの新しい因子は可視性グラフに統合され、サンプル環境に適用され、視線の直線と視界の減少の間のばらつきを示す。

Evaluating the built environment based on visibility has been long used as a tool for human-centric design. The origins of isovists and visibility graphs are within interior spaces, while more recently, these evaluation techniques have been applied in the urban context. One of the key differentiators of an outside environment is the weather, which has largely been ignored in the design computation and space-syntax research areas. While a visibility graph is a straightforward metric for determining connectivity between regions of space through a line of sight calculation, this approach largely ignores the actual visibility of one point to another. This paper introduces a new method for weighting a visibility graph based on weather conditions (i.e. rain, fog, snow). These new factors are integrated into visibility graphs and applied to sample environments to demonstrate the variance between assuming a straight line of sight and reduced visibility.
翻訳日:2021-08-15 11:30:57 公開日:2021-07-28
# 高精度製造のためのモンテカルロ木探索

Monte Carlo Tree Search for high precision manufacturing ( http://arxiv.org/abs/2108.01789v1 )

ライセンス: Link先を確認
Dorina Weichert, Felix Horchler, Alexander Kister, Marcus Trost, Johannes Hartung, Stefan Risse(参考訳) モンテカルロ木探索(MCTS)は多くの決定論的・確率的な例に対してその強みを示しているが、文献は実世界の産業プロセスへの応用の報告を欠いている。 一般的な理由は、プロセスの効率的なシミュレータが存在しないことや、MCTSをプロセスの複雑な規則に適用する際の問題があることである。 本稿では,確率的かつ部分的に観察可能な高精度製造プロセスの最適化にmctを適用する。 我々は, エキスパート知識に基づくシミュレータを用いて, mcts のデフォルトポリシーを適用し, 製造プロセスに対応する。

Monte Carlo Tree Search (MCTS) has shown its strength for a lot of deterministic and stochastic examples, but literature lacks reports of applications to real world industrial processes. Common reasons for this are that there is no efficient simulator of the process available or there exist problems in applying MCTS to the complex rules of the process. In this paper, we apply MCTS for optimizing a high-precision manufacturing process that has stochastic and partially observable outcomes. We make use of an expert-knowledge-bas ed simulator and adapt the MCTS default policy to deal with the manufacturing process.
翻訳日:2021-08-08 11:07:43 公開日:2021-07-28
# 在庫管理における自転車シェアリング需要予測の予測と予測性能

Predictive and Prescriptive Performance of Bike-Sharing Demand Forecasts for Inventory Management ( http://arxiv.org/abs/2108.00858v1 )

ライセンス: Link先を確認
Daniele Gammelli, Yihua Wang, Dennis Prak, Filipe Rodrigues, Stefan Minner, Francisco Camara Pereira(参考訳) 自転車シェアリングシステムは急速に発展している交通手段であり、パッシブで電動化されたパーソナルモビリティの代替手段を提供する。 自転車需要の非対称性は、通常夜間に行われる自転車ステーションの再バランスの必要性を引き起こす。 ある日のステーションの最適な開始在庫レベルを決定するために、UDF(User Dissatisfaction Function)は、ユーザのピックアップをモデル化し、一回りの線形レートで不均一なPoissonプロセスとして返却する。 本稿では,今後のピックアップとリターン率を予測するために,変分ポアソン繰り返しニューラルネットワークモデル(VP-RNN)を導入することにより,UDFに直接適用可能な深部生成モデルを考案する。 本稿は,米国ニューヨーク市からの実際の旅行データに対する従来型および学習型予測手法に対するアプローチを実証的に評価し,システム効率と需要満足度の観点から,我々のモデルがベンチマークを上回っていることを示す。 意思決定アルゴリズムと学習に基づく予測手法を組み合わせることで、文献における多くの欠点を浮き彫りにする。 重要なことは、より正確な予測が必ずしもより良い在庫決定に結びつくとは限らないことを示しています。 予測,モデル仮定,決定の相互作用に関する洞察を提供することにより,予測と決定モデルを慎重に評価し,調和して共有モビリティシステムを最適に制御すべきであることを指摘する。

Bike-sharing systems are a rapidly developing mode of transportation and provide an efficient alternative to passive, motorized personal mobility. The asymmetric nature of bike demand causes the need for rebalancing bike stations, which is typically done during night time. To determine the optimal starting inventory level of a station for a given day, a User Dissatisfaction Function (UDF) models user pickups and returns as non-homogeneous Poisson processes with piece-wise linear rates. In this paper, we devise a deep generative model directly applicable in the UDF by introducing a variational Poisson recurrent neural network model (VP-RNN) to forecast future pickup and return rates. We empirically evaluate our approach against both traditional and learning-based forecasting methods on real trip travel data from the city of New York, USA, and show how our model outperforms benchmarks in terms of system efficiency and demand satisfaction. By explicitly focusing on the combination of decision-making algorithms with learning-based forecasting methods, we highlight a number of shortcomings in literature. Crucially, we show how more accurate predictions do not necessarily translate into better inventory decisions. By providing insights into the interplay between forecasts, model assumptions, and decisions, we point out that forecasts and decision models should be carefully evaluated and harmonized to optimally control shared mobility systems.
翻訳日:2021-08-08 11:06:50 公開日:2021-07-28
# 深層ニューラルネットワークによる初期最悪ケース実行時間の推定

Deep Neural Network Approach to Estimate Early Worst-Case Execution Time ( http://arxiv.org/abs/2108.02001v1 )

ライセンス: Link先を確認
Vikash Kumar(参考訳) WCET (Estimating Worst-Case Execution Time) は、サイバー物理・安全批判システムを開発する上で最も重要である。 システムのスケジューラは、推定されたWCETを使用して、これらのシステムの各タスクをスケジュールする。 したがって、信頼できるシステムを構築することが不可欠である。 wcetは、ハードウェアが利用可能で、アプリケーションコードがコンパイルされたときに、システム開発の最終段階で利用可能です。 異なる方法論がWCETを計測するが、システム開発に不可欠なWCETに関する初期の洞察を与えていない。 システム設計者が早期にWCETを過大評価すると、最終製品のコストが増大する過大評価システムにつながり、初期の段階でWCETを過小評価すれば、システムが期待通りに機能しないため、財政損失につながる。 本稿では,ハードウェアアーキテクチャとコンパイラの近似予測モデルとしてDeep Neural Networksを用いた初期のWCETを推定する。 このモデルは、ハードウェアアーキテクチャ上でコンパイルおよび実行することなく、ソースコードに基づいてWCETを予測する。 我々の WCET 予測モデルは Pytorch フレームワークを用いて作成される。 結果として得られるWCETは誤っており、WCETの上界として使われる。 しかし、これらの結果をシステム開発の初期段階で得ることは、システムの寸法とハードウェア設定にとって必須の前提条件である。

Estimating Worst-Case Execution Time (WCET) is of utmost importance for developing Cyber-Physical and Safety-Critical Systems. The system's scheduler uses the estimated WCET to schedule each task of these systems, and failure may lead to catastrophic events. It is thus imperative to build provably reliable systems. WCET is available to us in the last stage of systems development when the hardware is available and the application code is compiled on it. Different methodologies measure the WCET, but none of them give early insights on WCET, which is crucial for system development. If the system designers overestimate WCET in the early stage, then it would lead to the overqualified system, which will increase the cost of the final product, and if they underestimate WCET in the early stage, then it would lead to financial loss as the system would not perform as expected. This paper estimates early WCET using Deep Neural Networks as an approximate predictor model for hardware architecture and compiler. This model predicts the WCET based on the source code without compiling and running on the hardware architecture. Our WCET prediction model is created using the Pytorch framework. The resulting WCET is too erroneous to be used as an upper bound on the WCET. However, getting these results in the early stages of system development is an essential prerequisite for the system's dimensioning and configuration of the hardware setup.
翻訳日:2021-08-08 11:06:00 公開日:2021-07-28
# テクノシグナチャ探索における周波数干渉同定のための機械学習に基づく方向推定フィルタ

A Machine-Learning-Bas ed Direction-of-Origin Filter for the Identification of Radio Frequency Interference in the Search for Technosignatures ( http://arxiv.org/abs/2108.00559v1 )

ライセンス: Link先を確認
Pavlo Pinchuk and Jean-Luc Margot(参考訳) 無線周波数干渉(rfi)緩和は、無線技術における重要な課題である。 典型的な緩和戦略には、方向オブオリジン(DoO)フィルタがあり、複数の方向で検出された場合、信号はRFIに分類される。 これらの分類は一般に周波数や周波数ドリフト率などの信号特性の推定に依存する。 畳み込みニューラルネットワーク(cnns)は、推定された信号特性に頼るのではなく、動的スペクトルを直接分析するように訓練できるため、既存のフィルタを補完する。 本研究では,動的スペクトルのラベル付きペア画像からなるデータセットをコンパイルし,あるスキャンで検出された信号が他のスキャンでも存在しているかどうかを判断するcnnの設計と訓練を行った。 このCNNベースのDoOフィルタは、ベースライン2D相関モデルと既存のDoOフィルタの両方で、それぞれ99.15%と97.81%の精度とリコール値を持つ。 従来の doo フィルタの適用により, cnn は可視検査を必要とする信号数を 6-16 倍に削減できることが判明した。

Radio frequency interference (RFI) mitigation remains a major challenge in the search for radio technosignatures. Typical mitigation strategies include a direction-of-origin (DoO) filter, where a signal is classified as RFI if it is detected in multiple directions on the sky. These classifications generally rely on estimates of signal properties, such as frequency and frequency drift rate. Convolutional neural networks (CNNs) offer a promising complement to existing filters because they can be trained to analyze dynamic spectra directly, instead of relying on inferred signal properties. In this work, we compiled several data sets consisting of labeled pairs of images of dynamic spectra, and we designed and trained a CNN that can determine whether or not a signal detected in one scan is also present in another scan. This CNN-based DoO filter outperforms both a baseline 2D correlation model as well as existing DoO filters over a range of metrics, with precision and recall values of 99.15% and 97.81%, respectively. We found that the CNN reduces the number of signals requiring visual inspection after the application of traditional DoO filters by a factor of 6-16 in nominal situations.
翻訳日:2021-08-08 11:05:37 公開日:2021-07-28
# (参考訳) 機械学習とデータサイエンスのためのオープンソースの教育リソースの開発 [全文訳有]

Developing Open Source Educational Resources for Machine Learning and Data Science ( http://arxiv.org/abs/2107.14330v1 )

ライセンス: CC BY 4.0
Ludwig Bothmann (1), Sven Strickroth (2), Giuseppe Casalicchio (1), David R\"ugamer (1), Marius Lindauer (3), Fabian Scheipl (1), Bernd Bischl (1) ((1) Department of Statistics, Ludwig-Maximilians-U niversit\"at M\"unchen, Germany, (2) Institute of Computer Science, Ludwig-Maximilians-U niversit\"at M\"unchen, Germany, (3) Institute of Information Process, Leibniz University Hannover, Germany)(参考訳) 教育は特権ではなく共通の利益であるべきだ。 機械学習(ML)やデータサイエンス(DS)といった重要な技術に対しては、可能な限り障壁を少なくして、誰でもオープンにアクセスできなければなりません。 オープン・エデュケーション・リソースズ(OER)は、より大きな教育資産にとって重要な要素である。 本稿では,ML と DS における OER の具体的な要件について述べるとともに,オープンソース教育資源 (OSER) に繋がるソースファイルを公開する上で,これらの分野が特に重要であることを論じる。 我々は,oserの協調的開発,その課題,ソリューションへの第一歩について考察する。 我々は,複合学習シナリオにおけるoserの利用について概説し,大学教育における経験を共有する。 最後に、クレジットの割り当てや証明書の付与など、さらなる課題について論じる。

Education should not be a privilege but a common good. It should be openly accessible to everyone, with as few barriers as possible; even more so for key technologies such as Machine Learning (ML) and Data Science (DS). Open Educational Resources (OER) are a crucial factor for greater educational equity. In this paper, we describe the specific requirements for OER in ML and DS and argue that it is especially important for these fields to make source files publicly available, leading to Open Source Educational Resources (OSER). We present our view on the collaborative development of OSER, the challenges this poses, and first steps towards their solutions. We outline how OSER can be used for blended learning scenarios and share our experiences in university education. Finally, we discuss additional challenges such as credit assignment or granting certificates.
翻訳日:2021-08-02 22:03:00 公開日:2021-07-28
# (参考訳) ウェアラブルマイクロフォンによる呼吸音の呼吸速度の推定 [全文訳有]

Estimating Respiratory Rate From Breath Audio Obtained Through Wearable Microphones ( http://arxiv.org/abs/2107.14028v1 )

ライセンス: CC BY 4.0
Agni Kumar, Vikramjit Mitra, Carolyn Oliver, Adeeti Ullal, Matt Biddulph, Irida Mance(参考訳) 呼吸速度 (rr) は、健康と体力の全体を評価するために用いられる臨床指標である。 個人のRRは、慢性疾患の症状(喘息、心不全など)、急性疾患(感染症による無呼吸症など)、運動の激化に伴う身体的疲労による一日中、ベースラインから変化することができる。 RRのリモート推定は、時間とともに疾患の進行と心呼吸フィットネスを追跡するためのコスト効率の良い方法を提供することができる。 本研究は、健常成人の身体運動後に得られた短い音声セグメントからrrを推定するモデル駆動アプローチについて検討する。 エクササイズ前、中、および後、マイク対応の近場ヘッドフォンを使用して21人の個人からデータを収集した。 RRは吸入と吸入の知覚で手動でアノテートした。 畳み込み層を有する多タスクのlong-short term memory (lstm) ネットワークを実装し、メルフィルタバンクのエネルギーを処理し、様々なバックグラウンドノイズ条件でrrを推定し、毎分25息以上のrrで示される重呼吸を予測する。 マルチタスクモデルは分類と回帰のタスクの両方を実行し、損失関数の混合を利用する。 RRは0.76の一致相関係数(CCC)と0.2の平均2乗誤差(MSE)で推定でき、音声がRRを近似するための実行可能な信号であることを示す。

Respiratory rate (RR) is a clinical metric used to assess overall health and physical fitness. An individual's RR can change from their baseline due to chronic illness symptoms (e.g., asthma, congestive heart failure), acute illness (e.g., breathlessness due to infection), and over the course of the day due to physical exhaustion during heightened exertion. Remote estimation of RR can offer a cost-effective method to track disease progression and cardio-respiratory fitness over time. This work investigates a model-driven approach to estimate RR from short audio segments obtained after physical exertion in healthy adults. Data was collected from 21 individuals using microphone-enabled, near-field headphones before, during, and after strenuous exercise. RR was manually annotated by counting perceived inhalations and exhalations. A multi-task Long-Short Term Memory (LSTM) network with convolutional layers was implemented to process mel-filterbank energies, estimate RR in varying background noise conditions, and predict heavy breathing, indicated by an RR of more than 25 breaths per minute. The multi-task model performs both classification and regression tasks and leverages a mixture of loss functions. It was observed that RR can be estimated with a concordance correlation coefficient (CCC) of 0.76 and a mean squared error (MSE) of 0.2, demonstrating that audio can be a viable signal for approximating RR.
翻訳日:2021-07-31 01:34:18 公開日:2021-07-28
# (参考訳) 社会的プロセス:非言語的手がかりの自己教師あり予測 [全文訳有]

Social Processes: Self-Supervised Forecasting of Nonverbal Cues in Social Conversations ( http://arxiv.org/abs/2107.13576v1 )

ライセンス: CC BY-SA 4.0
Chirag Raman, Hayley Hung, Marco Loog(参考訳) 社会的会話における人間の行動予測のデフォルトパラダイムは、トップダウンアプローチによって特徴づけられる。 これらは低レベルの非言語的手がかりと将来の関心のセマンティックイベント(例)の間の予測的関係の同定を含む。 変化を変え グループを去る) しかし、一般的なハードルは、教師付き学習のためのラベル付きデータの可用性の制限である。 この作業では、ドメインにおけるボトムアップな自己管理アプローチの方向への第一歩を踏み出します。 社会的手がかり予測のタスクを定式化し、ラベルなしの低レベル行動の手がかりを多く活用し、関連するモデリングの課題を特徴付ける。 これらの問題に対処するために,我々はメタラーニングアプローチを採用し,ニューラル・プロセス(NP)ファミリー内の社会認識シーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。 spモデルは、グループのメンバー全員の将来について共同推論することで、グローバルな不確実性を捉えながら、各参加者に対する非倫理的な将来の手がかりの抽出可能な表現を学習する。 合成および実世界の行動データから,我々のSPモデルは,NPベースラインよりも高いログ類似性を実現し,ソーシャルヒューマンインタラクションの領域にそのような技術を適用する上で重要な考慮点を浮き彫りにしている。

The default paradigm for the forecasting of human behavior in social conversations is characterized by top-down approaches. These involve identifying predictive relationships between low level nonverbal cues and future semantic events of interest (e.g. turn changes, group leaving). A common hurdle however, is the limited availability of labeled data for supervised learning. In this work, we take the first step in the direction of a bottom-up self-supervised approach in the domain. We formulate the task of Social Cue Forecasting to leverage the larger amount of unlabeled low-level behavior cues, and characterize the modeling challenges involved. To address these, we take a meta-learning approach and propose the Social Process (SP) models--socially aware sequence-to-sequence (Seq2Seq) models within the Neural Process (NP) family. SP models learn extractable representations of non-semantic future cues for each participant, while capturing global uncertainty by jointly reasoning about the future for all members of the group. Evaluation on synthesized and real-world behavior data shows that our SP models achieve higher log-likelihood than the NP baselines, and also highlights important considerations for applying such techniques within the domain of social human interactions.
翻訳日:2021-07-31 01:22:47 公開日:2021-07-28
# (参考訳) プレトレイン, プロンプト, 予測:自然言語処理におけるプロンプト手法の体系的研究

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing ( http://arxiv.org/abs/2107.13586v1 )

ライセンス: CC BY-SA 4.0
Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, Graham Neubig(参考訳) 本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。 入力xを取り込んで出力yをp(y|x)として予測するモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習はテキストの確率を直接モデル化する言語モデルに基づいている。 これらのモデルを用いて予測タスクを実行するために、原入力xは、いくつかの未満のスロットを有するテキスト文字列プロンプトx’にテンプレートを用いて修正され、言語モデルは、その未満の情報を確率的に満たし、最終的な出力yを導出できる最終文字列xを得る。 このフレームワークは、多くの理由により強力で魅力的である: 言語モデルが大量の生のテキストで事前学習されることを可能にし、新しいプロンプト関数を定義することにより、モデルは、少ないデータか全くラベル付けされていない新しいシナリオに適応して、少数またはゼロショットの学習を実行することができる。 本稿では,この有望なパラダイムの基礎を紹介するとともに,多種多様な既存作業をカバーする数学的表記の統一集合を記述し,事前学習されたモデルの選択,プロンプト,チューニング戦略など,複数の次元に沿って既存の作業を整理する。 興味のある初心者にこの分野をよりわかりやすくするために、既存の作品の体系的なレビューとプロンプトベースの概念の高度に構造化された型付けを行うだけでなく、ウェブサイト http://pretrain.nlpe dia.ai/ など他のリソースもリリースしている。

This paper surveys and organizes research works in a new paradigm in natural language processing, which we dub "prompt-based learning". Unlike traditional supervised learning, which trains a model to take in an input x and predict an output y as P(y|x), prompt-based learning is based on language models that model the probability of text directly. To use these models to perform prediction tasks, the original input x is modified using a template into a textual string prompt x' that has some unfilled slots, and then the language model is used to probabilistically fill the unfilled information to obtain a final string x, from which the final output y can be derived. This framework is powerful and attractive for a number of reasons: it allows the language model to be pre-trained on massive amounts of raw text, and by defining a new prompting function the model is able to perform few-shot or even zero-shot learning, adapting to new scenarios with few or no labeled data. In this paper we introduce the basics of this promising paradigm, describe a unified set of mathematical notations that can cover a wide variety of existing work, and organize existing work along several dimensions, e.g.the choice of pre-trained models, prompts, and tuning strategies. To make the field more accessible to interested beginners, we not only make a systematic review of existing works and a highly structured typology of prompt-based concepts, but also release other resources, e.g., a website http://pretrain.nlpe dia.ai/ including constantly-updated survey, and paperlist.
翻訳日:2021-07-31 00:58:22 公開日:2021-07-28
# (参考訳) アルバニア人虐待の検知 [全文訳有]

Detecting Abusive Albanian ( http://arxiv.org/abs/2107.13592v1 )

ライセンス: CC BY 4.0
Erida Nurce, Jorgel Keci, Leon Derczynski(参考訳) 近年のソーシャルメディア利用の増加は、オンラインプラットフォームにおけるヘイトスピーチやヘイトスピーチの増加に直接影響を与えている。 このようなコンテンツを効果的に検出する研究は、主に英語や他の広く普及した言語に焦点を当ててきたが、残余の多数派はそれらに同じ作業を組み込むことに失敗し、この分野における安定した進歩の恩恵を受けることができない。 本稿では,様々なソーシャルメディア上でユーザ生成コンテンツから構築されたヘイトスピーチと攻撃的スピーチのための注釈付きアルバニア語データセットである \textsc{shaj} を提案する。 そのアノテーションはOffensEvalで導入された階層スキーマに従っている。 データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語識別のためのF1スコア0.77、攻撃型自動分類のための0.64F1スコア、攻撃言語ターゲット識別のための0.52F1スコアである。

The ever growing usage of social media in the recent years has had a direct impact on the increased presence of hate speech and offensive speech in online platforms. Research on effective detection of such content has mainly focused on English and a few other widespread languages, while the leftover majority fail to have the same work put into them and thus cannot benefit from the steady advancements made in the field. In this paper we present \textsc{Shaj}, an annotated Albanian dataset for hate speech and offensive speech that has been constructed from user-generated content on various social media platforms. Its annotation follows the hierarchical schema introduced in OffensEval. The dataset is tested using three different classification models, the best of which achieves an F1 score of 0.77 for the identification of offensive language, 0.64 F1 score for the automatic categorization of offensive types and lastly, 0.52 F1 score for the offensive language target identification.
翻訳日:2021-07-31 00:56:04 公開日:2021-07-28
# (参考訳) 強化するか否か: 強化されたニューラルネットワークの限界について

To Boost or not to Boost: On the Limits of Boosted Neural Networks ( http://arxiv.org/abs/2107.13600v1 )

ライセンス: CC BY 4.0
Sai Saketh Rambhatla, Michael Jones, Rama Chellappa(参考訳) ブースティング(boosting)は、多くの「弱」仮説を線形に結合することで、非常に正確な仮説を見つける方法である。 したがって、ブースティングは分類器のアンサンブルを学ぶ方法である。 ブースティングは決定木に非常に有効であることが示されているが、ニューラルネットワークへの影響は広く研究されていない。 決定木の和と畳み込みニューラルネットワーク(cnns)の和との1つの重要な違いは、決定木の和は、同じパラメータの1つの決定木では表現できないが、cnnの和は1つのcnnで表現できるということである。 次に、標準のオブジェクト認識データセットを用いて、決定木の増加したアンサンブルが、同じ数のパラメータを持つ単一の決定木よりも、データをテストする上ではるかに優れているという、よく知られた結果を検証する。 対照的に、同じデータセットとブースティングアルゴリズムを用いて、ニューラルネットワーク(CNNと多層パーセプトロン(MLP)の両方)を使用する場合、我々の実験は真であることを示す。 単一のニューラルネットワークは通常、同じ数のパラメータを持つ小さなニューラルネットワークの強化されたアンサンブルよりもよく一般化される。

Boosting is a method for finding a highly accurate hypothesis by linearly combining many ``weak" hypotheses, each of which may be only moderately accurate. Thus, boosting is a method for learning an ensemble of classifiers. While boosting has been shown to be very effective for decision trees, its impact on neural networks has not been extensively studied. We prove one important difference between sums of decision trees compared to sums of convolutional neural networks (CNNs) which is that a sum of decision trees cannot be represented by a single decision tree with the same number of parameters while a sum of CNNs can be represented by a single CNN. Next, using standard object recognition datasets, we verify experimentally the well-known result that a boosted ensemble of decision trees usually generalizes much better on testing data than a single decision tree with the same number of parameters. In contrast, using the same datasets and boosting algorithms, our experiments show the opposite to be true when using neural networks (both CNNs and multilayer perceptrons (MLPs)). We find that a single neural network usually generalizes better than a boosted ensemble of smaller neural networks with the same total number of parameters.
翻訳日:2021-07-31 00:45:00 公開日:2021-07-28
# (参考訳) ディエンス検索のためのドメインマッチング事前学習タスク [全文訳有]

Domain-matched Pre-training Tasks for Dense Retrieval ( http://arxiv.org/abs/2107.13602v1 )

ライセンス: CC BY 4.0
Barlas O\u{g}uz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Wen-tau Yih, Sonal Gupta, Yashar Mehdad(参考訳) モデルサイズが大きくなった大規模データセットの事前トレーニングが、ほぼすべてのNLPタスクのパフォーマンス向上の実証済みレシピとなった。 注目すべき例外は情報検索であり、追加の事前学習では説得力のある結果が得られていない。 適切な事前トレーニング設定で、この障壁を克服できることが示されています。 我々は、1)最近リリースされた6500万の合成された質問と2)pushshift.ioで利用可能なRedditの会話のデータセットから2億のポストコメンデーションペアのセットで、大規模なバイエンコーダモデルを事前トレーニングすることでこれを実証する。 情報検索と対話検索のベンチマークを行い、教師付きベースラインよりも大幅に改善したことを示す。

Pre-training on larger datasets with ever increasing model size is now a proven recipe for increased performance across almost all NLP tasks. A notable exception is information retrieval, where additional pre-training has so far failed to produce convincing results. We show that, with the right pre-training setup, this barrier can be overcome. We demonstrate this by pre-training large bi-encoder models on 1) a recently released set of 65 million synthetically generated questions, and 2) 200 million post-comment pairs from a preexisting dataset of Reddit conversations made available by pushshift.io. We evaluate on a set of information retrieval and dialogue retrieval benchmarks, showing substantial improvements over supervised baselines.
翻訳日:2021-07-31 00:43:54 公開日:2021-07-28
# (参考訳) ライブビデオストリーミングにおけるユーザエクスペリエンス向上のためのディープグラフ強化学習モデル [全文訳有]

A Deep Graph Reinforcement Learning Model for Improving User Experience in Live Video Streaming ( http://arxiv.org/abs/2107.13619v1 )

ライセンス: CC BY 4.0
Stefanos Antaris, Dimitrios Rafailidis, Sarunas Girdzijauskas(参考訳) 本稿では,エージェント/トラッカーによって編成されたライブビデオストリーミングイベントにおいて,ユーザエクスペリエンスを予測し,改善するディープグラフ強化学習モデルを提案する。 まず,ユーザエクスペリエンス予測問題を分類タスクとして定式化し,イベント開始時の視聴者のほとんどが,低帯域幅接続やトラッカとのインタラクションの制限により,経験の質が低かったことを説明する。 本モデルでは,ユーザエクスペリエンスの質に影響を及ぼすさまざまな要因を考察し,ビューアがトラッカーと対話する場合の多様な状態遷移を学習する。 さらに、過去のイベントがさまざまなユーザエクスペリエンス特性を持っている場合、異なるイベントから学習するグローバルモデルを計算するための勾配ブースティング戦略に従う。 ライブビデオストリーミングイベントの3つの実世界データセットを用いた実験は,提案モデルが複数のベースライン戦略に対して優れていることを示す。 さらに,イベント開始時の視聴者の大多数は経験が乏しいため,我々のモデルでは,初回ストリーミング分で,高品質な体験を持つ視聴者を少なくとも75%増やすことができることを示した。 評価データセットと実装はhttps://publicresear ch.z13.web.core.wind ows.netで公開されています。

In this paper we present a deep graph reinforcement learning model to predict and improve the user experience during a live video streaming event, orchestrated by an agent/tracker. We first formulate the user experience prediction problem as a classification task, accounting for the fact that most of the viewers at the beginning of an event have poor quality of experience due to low-bandwidth connections and limited interactions with the tracker. In our model we consider different factors that influence the quality of user experience and train the proposed model on diverse state-action transitions when viewers interact with the tracker. In addition, provided that past events have various user experience characteristics we follow a gradient boosting strategy to compute a global model that learns from different events. Our experiments with three real-world datasets of live video streaming events demonstrate the superiority of the proposed model against several baseline strategies. Moreover, as the majority of the viewers at the beginning of an event has poor experience, we show that our model can significantly increase the number of viewers with high quality experience by at least 75% over the first streaming minutes. Our evaluation datasets and implementation are publicly available at https://publicresear ch.z13.web.core.wind ows.net
翻訳日:2021-07-31 00:28:51 公開日:2021-07-28
# (参考訳) 水中検査と介入データセット [全文訳有]

Underwater inspection and intervention dataset ( http://arxiv.org/abs/2107.13628v1 )

ライセンス: CC BY-SA 4.0
Tomasz Luczynski, Jonatan Scharff Willners, Elizabeth Vargas, Joshua Roe, Shida Xu, Yu Cao, Yvan Petillot and Sen Wang(参考訳) 本稿では,視覚ナビゲーションと同時局所化・マッピング(SLAM)アルゴリズムの開発のための新しいデータセットと水中介入タスクについて述べる。 既存のデータセットと異なり、水中のモーショントラッキングシステムによって捉えられた車両の位置に関する真実を含んでいる。 このデータセットは、ステレオカメラ設定の校正パラメータとともに、歪みのない修正ステレオ画像を含む。 さらに、実験は制御された環境で行われ記録され、そこでは電流と波が生成され、データセットは穏やかな水から波、そしてかなりの強度の電流まで幅広い条件をカバーできる。

This paper presents a novel dataset for the development of visual navigation and simultaneous localisation and mapping (SLAM) algorithms as well as for underwater intervention tasks. It differs from existing datasets as it contains ground truth for the vehicle's position captured by an underwater motion tracking system. The dataset contains distortion-free and rectified stereo images along with the calibration parameters of the stereo camera setup. Furthermore, the experiments were performed and recorded in a controlled environment, where current and waves could be generated allowing the dataset to cover a wide range of conditions - from calm water to waves and currents of significant strength.
翻訳日:2021-07-31 00:13:00 公開日:2021-07-28
# (参考訳) 画像から3d部品を発見 [全文訳有]

Discovering 3D Parts from Image Collections ( http://arxiv.org/abs/2107.13629v1 )

ライセンス: CC BY 4.0
Chun-Han Yao, Wei-Chih Hung, Varun Jampani, Ming-Hsuan Yang(参考訳) 2次元画像から3次元形状を推論することは、特に1枚の画像しか処理できない場合、不可欠だが困難な作業である。 オブジェクトは複雑な形状を持つことができるが、個々のパーツは通常幾何学的プリミティブに近いため、モデル化が容易である。 さらに、部品は特定のカテゴリのオブジェクト間の外観の変化に対して堅牢な中間レベル表現を提供する。 本研究では,2次元画像収集のみによる3次元部分発見の問題に取り組む。 そこで我々は,手動で注釈付き部品を監督する代わりに,自己監督的アプローチ,潜伏部分発見(LPD)を提案する。 私たちの重要な洞察は、単純な幾何学を持つように制約されながら、各部分が忠実に対象の形状に適合することを可能にする、新しい部分形状を事前に学ぶことです。 合成ShapeNet,PartNet,および実世界のPascal 3D+データセットの大規模な実験により,本手法が一貫した対象部分を発見し,同じレベルの監督レベルを持つ既存手法と比較して良好な再構成精度が得られることが示された。

Reasoning 3D shapes from 2D images is an essential yet challenging task, especially when only single-view images are at our disposal. While an object can have a complicated shape, individual parts are usually close to geometric primitives and thus are easier to model. Furthermore, parts provide a mid-level representation that is robust to appearance variations across objects in a particular category. In this work, we tackle the problem of 3D part discovery from only 2D image collections. Instead of relying on manually annotated parts for supervision, we propose a self-supervised approach, latent part discovery (LPD). Our key insight is to learn a novel part shape prior that allows each part to fit an object shape faithfully while constrained to have simple geometry. Extensive experiments on the synthetic ShapeNet, PartNet, and real-world Pascal 3D+ datasets show that our method discovers consistent object parts and achieves favorable reconstruction accuracy compared to the existing methods with the same level of supervision.
翻訳日:2021-07-31 00:04:46 公開日:2021-07-28
# (参考訳) Sign and Search:Sign Language LexicaのためのSign Search機能 [全文訳有]

Sign and Search: Sign Search Functionality for Sign Language Lexica ( http://arxiv.org/abs/2107.13637v1 )

ライセンス: CC BY 4.0
Manolis Fragkiadakis and Peter van der Putten(参考訳) 手話辞書は手話を学ぶ研究者や人々にとって有用な情報源である。 現在の実装では、ユーザはその光沢によって、あるいは手形や位置といった主要な特徴を選択することで、サインを検索できる。 本研究は,ユーザがwebカメラの前でクエリサインにサインし,マッチングサインのセットを検索できるリバース検索機能を検討することに焦点を当てている。 ポーズ推定フレームワークOpenPoseを用いて,異なる身体関節(上半身,支配的手腕,手首)を抽出することにより,1200サインレキシコンで8人の参加者が実施する20のクエリーサイン間の距離指標として,PCA, UMAP, DTW, ユークリッド距離の4つの手法を比較した。 以上の結果から, トップ20において, 支配的手腕の動きを用いて, UMAP と DTW が一致信号の精度を 80 %, 71 % で予測できることが示唆された。 DTWを使用し、レキシコンの他の参加者からより多くのサインインスタンスを追加することで、トップ10ランキングで90%まで精度を上げることができる。 提案手法は,任意の手話辞書において,そのサイズに関わらず,トレーニングなしで使用することができることが示唆された。

Sign language lexica are a useful resource for researchers and people learning sign languages. Current implementations allow a user to search a sign either by its gloss or by selecting its primary features such as handshape and location. This study focuses on exploring a reverse search functionality where a user can sign a query sign in front of a webcam and retrieve a set of matching signs. By extracting different body joints combinations (upper body, dominant hand's arm and wrist) using the pose estimation framework OpenPose, we compare four techniques (PCA, UMAP, DTW and Euclidean distance) as distance metrics between 20 query signs, each performed by eight participants on a 1200 sign lexicon. The results show that UMAP and DTW can predict a matching sign with an 80\% and 71\% accuracy respectively at the top-20 retrieved signs using the movement of the dominant hand arm. Using DTW and adding more sign instances from other participants in the lexicon, the accuracy can be raised to 90\% at the top-10 ranking. Our results suggest that our methodology can be used with no training in any sign language lexicon regardless of its size.
翻訳日:2021-07-30 23:51:47 公開日:2021-07-28
# (参考訳) プライバシー保護傾向検出のためのセキュアベイズフェデレーション分析 [全文訳有]

Secure Bayesian Federated Analytics for Privacy-Preserving Trend Detection ( http://arxiv.org/abs/2107.13640v1 )

ライセンス: CC BY 4.0
Amit Chaulwar and Michael Huth(参考訳) federated analyticsにはエッジコンピューティングに多くのアプリケーションがあり、その使用はサービス提供、製品開発、ユーザエクスペリエンスに対する意思決定の改善につながる可能性がある。 本稿では,キーワードがトレンドである確率をBayesの定理で計算し,キーワードがトレンドであることを前提としたデータセットの確率を,ユーザのローカルデータセット上の条件付き確率のセキュアな集計によって算出する,トレンド検出に対するベイズ的アプローチを提案する。 我々は,製品グレードのユースケースに対して十分なプライバシを提供し,ユーザとアグリゲータの計算負荷を軽減する,ベイズ連邦分析のためのsafeというプロトコルを提案する。 このアプローチをトレンド検出実験で説明し,本手法をさらに拡張して製品化可能にする方法について論じる。

Federated analytics has many applications in edge computing, its use can lead to better decision making for service provision, product development, and user experience. We propose a Bayesian approach to trend detection in which the probability of a keyword being trendy, given a dataset, is computed via Bayes' Theorem; the probability of a dataset, given that a keyword is trendy, is computed through secure aggregation of such conditional probabilities over local datasets of users. We propose a protocol, named SAFE, for Bayesian federated analytics that offers sufficient privacy for production grade use cases and reduces the computational burden of users and an aggregator. We illustrate this approach with a trend detection experiment and discuss how this approach could be extended further to make it production-ready.
翻訳日:2021-07-30 23:41:35 公開日:2021-07-28
# (参考訳) 軽量な砂時計のポーズ推定 [全文訳有]

Lighter Stacked Hourglass Human Pose Estimation ( http://arxiv.org/abs/2107.13643v1 )

ライセンス: CC BY 4.0
Ahmed Elhagry, Mohamed Saeed, Musie Araia(参考訳) 人間のポーズ推定 (human pose estimation, hpe) は、人間が自然によって変形できるため、コンピュータビジョンにおいて最も困難なタスクの一つである。 HPEは、特定の画像やビデオの中で、一人または複数の人の主要な関節位置を正しく識別することを目的としている。 画像やビデオの中の人物の関節の位置を特定することは、アクション認識やオブジェクト追跡に応用できる重要なタスクである。 多くのコンピュータビジョンタスクと同様に、HPEはこの分野にディープラーニングを導入して大きく進歩した。 本稿では,Newellらによって提案されたHPEの深層学習に基づくアプローチの1つに焦点をあてる。 彼らのアプローチは多くのアプリケーションで広く使われており、この分野で最高の作品の1つと考えられている。 アプローチの主な焦点は、あらゆるスケールで可能な限り多くの情報をキャプチャして、局所的な特徴と全体位置の一貫性のある理解を実現することである。 これらの結果から, 人の方向, 手足の配置, 隣り合う関節の相対位置などの重要な手がかりを, 異なる解像度で複数の尺度から同定できることが示唆された。 そのため、複数の解像度で画像を処理するために単一のパイプラインを使用し、各解像度で空間情報が失われないようにスキップ層を含む。 画像の解像度は4x4まで小さくなり、より小さな空間的特徴を含むことが確かめられる。 本研究では,アーキテクチャ変更がネットワークの計算速度と精度に与える影響について検討する。

Human pose estimation (HPE) is one of the most challenging tasks in computer vision as humans are deformable by nature and thus their pose has so much variance. HPE aims to correctly identify the main joint locations of a single person or multiple people in a given image or video. Locating joints of a person in images or videos is an important task that can be applied in action recognition and object tracking. As have many computer vision tasks, HPE has advanced massively with the introduction of deep learning to the field. In this paper, we focus on one of the deep learning-based approaches of HPE proposed by Newell et al., which they named the stacked hourglass network. Their approach is widely used in many applications and is regarded as one of the best works in this area. The main focus of their approach is to capture as much information as it can at all possible scales so that a coherent understanding of the local features and full-body location is achieved. Their findings demonstrate that important cues such as orientation of a person, arrangement of limbs, and adjacent joints' relative location can be identified from multiple scales at different resolutions. To do so, they makes use of a single pipeline to process images in multiple resolutions, which comprises a skip layer to not lose spatial information at each resolution. The resolution of the images stretches as lower as 4x4 to make sure that a smaller spatial feature is included. In this study, we study the effect of architectural modifications on the computational speed and accuracy of the network.
翻訳日:2021-07-30 23:29:28 公開日:2021-07-28
# (参考訳) CNNとLSTMを用いたエジプト手話認識 [全文訳有]

Egyptian Sign Language Recognition Using CNN and LSTM ( http://arxiv.org/abs/2107.13647v1 )

ライセンス: CC BY 4.0
Ahmed Elhagry, Rawan Gla(参考訳) 手話は、人々がコミュニケーションに使用するジェスチャーのセットです。 残念なことに、普通の人はそれを理解していないため、埋める必要があるコミュニケーションギャップが生じます。 エジプト手話(Egyptian Sign Language)ESLは、ある地域から別の地域へ変化するため、ESLは困難な研究課題を提供する。 本研究は,エジプトの聴覚障害者の地域コミュニティに適度かつ合理的な精度でサービスを提供する,ビデオベースのエジプト手話認識システムを用いて,応用研究を行っている。 2つの異なるニューラルネットワークアーキテクチャを持つコンピュータビジョンシステムを提案する。 1つ目は、空間的特徴を抽出する畳み込みニューラルネットワーク(CNN)である。 CNNモデルは開始モードで再訓練された。 第2のアーキテクチャはCNNに続き、空間的特徴と時間的特徴の両方を抽出するLong Short-Term Memory (LSTM)が続く。 2つのモデルはそれぞれ90%と72%の精度を達成した。 エジプトの聴覚障害者コミュニティにおいて、9つの共通語(類似の記号)を区別するために,これら2つのアーキテクチャの能力を検討した。

Sign language is a set of gestures that deaf people use to communicate. Unfortunately, normal people don't understand it, which creates a communication gap that needs to be filled. Because of the variations in (Egyptian Sign Language) ESL from one region to another, ESL provides a challenging research problem. In this work, we are providing applied research with its video-based Egyptian sign language recognition system that serves the local community of deaf people in Egypt, with a moderate and reasonable accuracy. We present a computer vision system with two different neural networks architectures. The first is a Convolutional Neural Network (CNN) for extracting spatial features. The CNN model was retrained on the inception mod. The second architecture is a CNN followed by a Long Short-Term Memory (LSTM) for extracting both spatial and temporal features. The two models achieved an accuracy of 90% and 72%, respectively. We examined the power of these two architectures to distinguish between 9 common words (with similar signs) among some deaf people community in Egypt.
翻訳日:2021-07-30 23:24:40 公開日:2021-07-28
# (参考訳) 注目点:弱い修正行動検出のためのグラフ畳み込みネットワークを用いた文脈学習 [全文訳有]

Spot What Matters: Learning Context Using Graph Convolutional Networks for Weakly-Supervised Action Detection ( http://arxiv.org/abs/2107.13648v1 )

ライセンス: CC BY 4.0
Michail Tsiaousis, Gertjan Burghouts, Fieke Hillerstr\"om and Peter van der Putten(参考訳) 時空間行動検出における支配的なパラダイムは、2Dまたは3D畳み込みネットワークによって学習された時空間的特徴を用いた行動の分類である。 いくつかのアクションは、ビデオに存在する関連オブジェクトやアクターなど、そのコンテキストによって特徴付けられる。 そこで本稿では,アクター・アクターやアクター・オブジェクトのインタラクションといった文脈的手がかりをモデル化し,映像における人間の行動検出を改善するために,自己注意とグラフ畳み込みネットワークに基づくアーキテクチャを導入する。 私たちはこれを弱監督された環境で達成することに興味があります。 アクションバウンディングボックスの観点で 可能な限り少ないアノテーションを使うこと。 我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。 我々は,注目地図から検索したオブジェクトのリコールに基づいて,定量的なメトリクスを導入することにより,モデルが関連するコンテキストをいかに強調するかを評価する。 我々のモデルは3次元畳み込みRGBストリームに依存しており、高価な光フロー計算を必要としない。 我々は、人間とオブジェクトのインタラクションアクションからなるdalyデータセット上でモデルを評価する。 実験の結果,ビデオマップのベースライン動作検出アプローチは,コンテキスト化アプローチの方が2ポイント以上高いことがわかった。 コードは \url{https://github.com/m icts/acgcn} で入手できる。

The dominant paradigm in spatiotemporal action detection is to classify actions using spatiotemporal features learned by 2D or 3D Convolutional Networks. We argue that several actions are characterized by their context, such as relevant objects and actors present in the video. To this end, we introduce an architecture based on self-attention and Graph Convolutional Networks in order to model contextual cues, such as actor-actor and actor-object interactions, to improve human action detection in video. We are interested in achieving this in a weakly-supervised setting, i.e. using as less annotations as possible in terms of action bounding boxes. Our model aids explainability by visualizing the learned context as an attention map, even for actions and objects unseen during training. We evaluate how well our model highlights the relevant context by introducing a quantitative metric based on recall of objects retrieved by attention maps. Our model relies on a 3D convolutional RGB stream, and does not require expensive optical flow computation. We evaluate our models on the DALY dataset, which consists of human-object interaction actions. Experimental results show that our contextualized approach outperforms a baseline action detection approach by more than 2 points in Video-mAP. Code is available at \url{https://github.com/m icts/acgcn}
翻訳日:2021-07-30 23:20:38 公開日:2021-07-28
# (参考訳) 対称化KL情報を用いたギブズアルゴリズムの一般化誤差のキャラクタリゼーション [全文訳有]

Characterizing the Generalization Error of Gibbs Algorithm with Symmetrized KL information ( http://arxiv.org/abs/2107.13656v1 )

ライセンス: CC BY-SA 4.0
Gholamali Aminian, Yuheng Bu, Laura Toni, Miguel R. D. Rodrigues and Gregory Wornell(参考訳) 教師付き学習アルゴリズムの一般化誤差は、学習理論において最も重要な問題の1つであり、様々なアプローチが開発されている。 しかし、既存の境界はしばしば緩く、保証がない。 その結果、学習アルゴリズムの正確な一般化能力の特徴付けに失敗する可能性がある。 本研究の主な貢献は,入力訓練サンプルと出力仮説間の対称性kl情報の観点から,gibbsアルゴリズムの期待一般化誤差の精密評価である。 このような結果は、既存の期待一般化誤差境界を締め付けるために適用できる。 本解析は,gibbsアルゴリズムの一般化誤差の制御における対称性kl情報の役割についてより深い知見を与える。

Bounding the generalization error of a supervised learning algorithm is one of the most important problems in learning theory, and various approaches have been developed. However, existing bounds are often loose and lack of guarantees. As a result, they may fail to characterize the exact generalization ability of a learning algorithm. Our main contribution is an exact characterization of the expected generalization error of the well-known Gibbs algorithm in terms of symmetrized KL information between the input training samples and the output hypothesis. Such a result can be applied to tighten existing expected generalization error bound. Our analysis provides more insight on the fundamental role the symmetrized KL information plays in controlling the generalization error of the Gibbs algorithm.
翻訳日:2021-07-30 23:07:30 公開日:2021-07-28
# (参考訳) 相関制御マルチモーダル感情分析のためのバイバイモーダルモダリティ融合 [全文訳有]

Bi-Bimodal Modality Fusion for Correlation-Controll ed Multimodal Sentiment Analysis ( http://arxiv.org/abs/2107.13669v1 )

ライセンス: CC BY-SA 4.0
Wei Han, Hui Chen, Alexander Gelbukh, Amir Zadeh, Louis-philippe Morency, and Soujanya Poria(参考訳) マルチモーダル感情分析は、複数のモーダルから収集された意味情報を抽出し、統合することを目的としている。 この研究領域の主な関心は、様々なモダリティから重要な情報を抽出し統合できる並外れた融合スキームを開発することである。 しかしながら、以前の作業がより高いレベルに達するのを制限できる1つの問題は、独立性とモダリティ間の関連性の間の競合のダイナミクスの適切なモデリングが欠如していることであり、モダリティ特有の特徴空間の崩壊や余分なノイズを引き起こすことによって融合結果が低下する可能性がある。 そこで本研究では,両方向のモダリティ表現に対して,融合(関連インクリメント)と分離(差インクリメント)を行う新しいエンドツーエンドネットワークであるBi-Bimodal Fusion Network (BBFN)を提案する。 2つの部分を同時に訓練し、それらの間の戦闘をシミュレートする。 このモデルは、モダリティ間の既知の情報不均衡のため、2つのバイモーダルペアを入力として取り込む。 さらに、トランスアーキテクチャにおけるゲート制御機構を活用して、最終的な出力をさらに改善する。 CMU-MOSI, CMU-MOSEI, UR-FUNNYの3つのデータセットの実験結果から, モデルがSOTAを著しく上回ることを確認した。 この実装はhttps://github.com/d eclare-lab/bbfnで利用可能である。

Multimodal sentiment analysis aims to extract and integrate semantic information collected from multiple modalities to recognize the expressed emotions and sentiment in multimodal data. This research area's major concern lies in developing an extraordinary fusion scheme that can extract and integrate key information from various modalities. However, one issue that may restrict previous work to achieve a higher level is the lack of proper modeling for the dynamics of the competition between the independence and relevance among modalities, which could deteriorate fusion outcomes by causing the collapse of modality-specific feature space or introducing extra noise. To mitigate this, we propose the Bi-Bimodal Fusion Network (BBFN), a novel end-to-end network that performs fusion (relevance increment) and separation (difference increment) on pairwise modality representations. The two parts are trained simultaneously such that the combat between them is simulated. The model takes two bimodal pairs as input due to the known information imbalance among modalities. In addition, we leverage a gated control mechanism in the Transformer architecture to further improve the final output. Experimental results on three datasets (CMU-MOSI, CMU-MOSEI, and UR-FUNNY) verifies that our model significantly outperforms the SOTA. The implementation of this work is available at https://github.com/d eclare-lab/BBFN.
翻訳日:2021-07-30 22:53:04 公開日:2021-07-28
# フェアネスの一般化:未知の感度属性の発見と緩和

Generalizing Fairness: Discovery and Mitigation of Unknown Sensitive Attributes ( http://arxiv.org/abs/2107.13625v1 )

ライセンス: Link先を確認
William Paul, Philippe Burlina(参考訳) 人工知能(AI)を現実世界に展開する場合、AIがどのように機能するかを特徴付けることによって、AIの操作を信頼することができることは、常在的で重要なトピックである。 この特徴付けにおいて重要かつほとんど未解決のタスクは、天候条件や照明など、aiの行動に影響する現実世界の主要な要因を決定することであり、a)それがなぜ失敗したのかを正当化することができるか、b)その要因が持つ影響を排除することである。 これらのセンシティブな要因を決定するには、これらの要因の多数の組み合わせをカバーするのに十分な量の収集されたデータに大きく依存する。 本稿では,与えられたデータセットから個々のセマンティクスに敏感な要因を発見し分離し,その特徴付けを行う手法と,これらの要因の感度の緩和について検討する。 我々はまた、通常、社会的に関係のある要因にのみ対処する公正性の改善を拡大し、ドメインのあらゆる面でのAIの脱感作に対処するように拡大します。 これらの主要な要因を発見するための提案手法は、十分に多様なデータセットを収集する潜在的に厄介な要求を減らす。 道路標識 (GTSRB) と顔画像 (CelebA) データセットを用いた実験では, この特徴と修復を行うためにこの手法を用いることが約束され, われわれのアプローチが技術アプローチの状況より優れていることを示す。

When deploying artificial intelligence (AI) in the real world, being able to trust the operation of the AI by characterizing how it performs is an ever-present and important topic. An important and still largely unexplored task in this characterization is determining major factors within the real world that affect the AI's behavior, such as weather conditions or lighting, and either a) being able to give justification for why it may have failed or b) eliminating the influence the factor has. Determining these sensitive factors heavily relies on collected data that is diverse enough to cover numerous combinations of these factors, which becomes more onerous when having many potential sensitive factors or operating in complex environments. This paper investigates methods that discover and separate out individual semantic sensitive factors from a given dataset to conduct this characterization as well as addressing mitigation of these factors' sensitivity. We also broaden remediation of fairness, which normally only addresses socially relevant factors, and widen it to deal with the desensitization of AI with regard to all possible aspects of variation in the domain. The proposed methods which discover these major factors reduce the potentially onerous demands of collecting a sufficiently diverse dataset. In experiments using the road sign (GTSRB) and facial imagery (CelebA) datasets, we show the promise of using this scheme to perform this characterization and remediation and demonstrate that our approach outperforms state of the art approaches.
翻訳日:2021-07-30 13:30:03 公開日:2021-07-28
# AIの発掘」再発見:JAFFEデータセットの誤った説明

"Excavating AI" Re-excavated: Debunking a Fallacious Account of the JAFFE Dataset ( http://arxiv.org/abs/2107.13998v1 )

ライセンス: Link先を確認
Michael J. Lyons(参考訳) 25年前、同僚の蒲町みゆきとぎょうば二郎と私は、顔の知覚の研究に使用する表情画像のセットであるJAFFEをデザインし、撮影しました。 2019年、ケイト・クロウフォード(Kate Crawford)氏とトレバー・パグレン(Trevor Paglen)氏は、JAFFEを広く公開された2つのアートショーで展示した。 さらに、彼らはエッセイ"Expcavating AI: The Politics of Images in Machine Learning Training Sets"の中で、画像の非現実的な説明を公開した。 この記事では、JAFFEデータセットの作成と、CrawfordとPaglenの誤記のそれぞれについて説明します。 JAFFEはまた、表情、感情コンピューティング、人間とコンピュータの相互作用の研究に関連して、より広範囲に議論する。

Twenty-five years ago, my colleagues Miyuki Kamachi and Jiro Gyoba and I designed and photographed JAFFE, a set of facial expression images intended for use in a study of face perception. In 2019, without seeking permission or informing us, Kate Crawford and Trevor Paglen exhibited JAFFE in two widely publicized art shows. In addition, they published a nonfactual account of the images in the essay "Excavating AI: The Politics of Images in Machine Learning Training Sets." The present article recounts the creation of the JAFFE dataset and unravels each of Crawford and Paglen's fallacious statements. I also discuss JAFFE more broadly in connection with research on facial expression, affective computing, and human-computer interaction.
翻訳日:2021-07-30 13:28:42 公開日:2021-07-28
# ニューラルネットワークにおける論理緩和の評価--包括的研究

Evaluating Relaxations of Logic for Neural Networks: A Comprehensive Study ( http://arxiv.org/abs/2107.13646v1 )

ライセンス: Link先を確認
Mattia Medina Grespan, Ashim Gupta and Vivek Srikumar(参考訳) シンボリック知識は、特に低データレジームにおいて、ニューラルネットワークモデルのトレーニングに重要な帰納的バイアスをもたらす。 このような知識を組み込む戦略の成功は、最適化のために論理的ステートメントを可微分損失に緩和することを伴う。 本稿では,ラベル付き例や問題に関する知識を表現した論理式をいかに緩和するかという問題について考察する。 様々なシナリオにおいてどの緩和が最適かを特徴付ける理論的・経験的基準を提案する。 タウトロジーの保存を目標とする理論研究では、Lukasiewicz t-normが最適である。 しかし,テキストのチャンキングと文字認識タスクに関する経験的分析では,t-normが最適な予測性能を達成している。 この明らかな相違を分析し、論理を通じて損失関数を定義するためのベストプラクティスのリストで締めくくります。

Symbolic knowledge can provide crucial inductive bias for training neural models, especially in low data regimes. A successful strategy for incorporating such knowledge involves relaxing logical statements into sub-differentiable losses for optimization. In this paper, we study the question of how best to relax logical expressions that represent labeled examples and knowledge about a problem; we focus on sub-differentiable t-norm relaxations of logic. We present theoretical and empirical criteria for characterizing which relaxation would perform best in various scenarios. In our theoretical study driven by the goal of preserving tautologies, the Lukasiewicz t-norm performs best. However, in our empirical analysis on the text chunking and digit recognition tasks, the product t-norm achieves best predictive performance. We analyze this apparent discrepancy, and conclude with a list of best practices for defining loss functions via logic.
翻訳日:2021-07-30 13:25:03 公開日:2021-07-28
# ヒストロジーのための高速でスケーラブルな画像検索

Fast and Scalable Image Search For Histology ( http://arxiv.org/abs/2107.13587v1 )

ライセンス: Link先を確認
Chengkuan Chen, Ming Y. Lu, Drew F. K. Williamson, Tiffany Y. Chen, Andrew J. Schaumberg, Faisal Mahmood(参考訳) デジタル病理学の普及により、豊富な情報を含むスライド画像(WSI)の大規模なリポジトリのキュレーションが可能になった。 類似の病理画像検索は、gigapixel wsisの巨大な歴史的リポジトリを掘り起こして、同様の形態的特徴を持つ症例を同定する機会を提供し、稀な疾患の診断、予後予測、治療結果の予測、臨床試験の成功の可能性に関する類似症例の特定に特に有用である。 wsi の検索・検索システムを開発する上で重要な課題はスケーラビリティである。数十億のピクセルと数ギガバイトのサイズからなるスライドを検索する必要性が増していることを考えれば,これはユニークな課題である。 このようなシステムは典型的には遅く、検索速度は検索するリポジトリのサイズとともにスケールすることが多く、臨床導入は面倒で、常に成長しているリポジトリでは実現できない。 本稿では,画像データベースサイズに依存せず,かつ詳細な注釈を必要とせず,一定の検索速度を実現する,病理組織学画像検索パイプラインであるfish(fast image search for histopathology)を提案する。 FISHは自己教師型ディープラーニングを用いてWSIとVan Emde Boasツリーから有意義な表現をエンコードして高速検索を行う。 FISHを複数のタスクとデータセットで評価し,56の疾患サブタイプにまたがる患者は22,000人以上であった。 また, FISHは, 従来の教師付き深層モデルの訓練に十分な症例が得られない稀な癌の診断に有効であることを示す。 FISHは使いやすいオープンソースソフトウェアパッケージ(https://github.com/ mahmoodlab/FISH)として利用可能である。

The expanding adoption of digital pathology has enabled the curation of large repositories of histology whole slide images (WSIs), which contain a wealth of information. Similar pathology image search offers the opportunity to comb through large historical repositories of gigapixel WSIs to identify cases with similar morphological features and can be particularly useful for diagnosing rare diseases, identifying similar cases for predicting prognosis, treatment outcomes, and potential clinical trial success. A critical challenge in developing a WSI search and retrieval system is scalability, which is uniquely challenging given the need to search a growing number of slides that each can consist of billions of pixels and are several gigabytes in size. Such systems are typically slow and retrieval speed often scales with the size of the repository they search through, making their clinical adoption tedious and are not feasible for repositories that are constantly growing. Here we present Fast Image Search for Histopathology (FISH), a histology image search pipeline that is infinitely scalable and achieves constant search speed that is independent of the image database size while being interpretable and without requiring detailed annotations. FISH uses self-supervised deep learning to encode meaningful representations from WSIs and a Van Emde Boas tree for fast search, followed by an uncertainty-based ranking algorithm to retrieve similar WSIs. We evaluated FISH on multiple tasks and datasets with over 22,000 patient cases spanning 56 disease subtypes. We additionally demonstrate that FISH can be used to assist with the diagnosis of rare cancer types where sufficient cases may not be available to train traditional supervised deep models. FISH is available as an easy-to-use, open-source software package (https://github.com/ mahmoodlab/FISH).
翻訳日:2021-07-30 13:23:41 公開日:2021-07-28
# グラフベース多次元クラスタリングの大規模サンプルスペクトル解析

Large sample spectral analysis of graph-based multi-manifold clustering ( http://arxiv.org/abs/2107.13610v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Pengfei He, Chenghui Li(参考訳) 本研究では,マルチマニフォールドクラスタリング(MMC)のためのグラフベースアルゴリズムの統計特性について検討する。 MMC の目標は、与えられたユークリッド集合の下の多重多様体構造を、この集合が多様体の和 $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ 上の分布をサンプリングすることによって得られると仮定すると、互いに交わることができ、異なる次元を持つことができる。 データセット上の類似性グラフは、対応するグラフであるラプラシアンがMCC問題を解決するための正しい幾何学的情報を取得するために満たさなければならない十分な条件について検討する。 正確には、この観測から得られた適切なグラフ Laplacian を持つ$\mathcal{M}$ 上のテンソル化ラプラシアンのスペクトル近似に対する高確率誤差境界を提供する。 我々は、角度制約のある環状近接グラフと呼ばれる類似性グラフの族を例示し、これらの十分条件を満たす。 我々は、接平面の整列に基づく文献におけるグラフの族と他の構成とを対比する。 広範な数値実験は、我々の理論がmmc問題に与えた洞察を広げる。

In this work we study statistical properties of graph-based algorithms for multi-manifold clustering (MMC). In MMC the goal is to retrieve the multi-manifold structure underlying a given Euclidean data set when this one is assumed to be obtained by sampling a distribution on a union of manifolds $\mathcal{M} = \mathcal{M}_1 \cup\dots \cup \mathcal{M}_N$ that may intersect with each other and that may have different dimensions. We investigate sufficient conditions that similarity graphs on data sets must satisfy in order for their corresponding graph Laplacians to capture the right geometric information to solve the MMC problem. Precisely, we provide high probability error bounds for the spectral approximation of a tensorized Laplacian on $\mathcal{M}$ with a suitable graph Laplacian built from the observations; the recovered tensorized Laplacian contains all geometric information of all the individual underlying manifolds. We provide an example of a family of similarity graphs, which we call annular proximity graphs with angle constraints, satisfying these sufficient conditions. We contrast our family of graphs with other constructions in the literature based on the alignment of tangent planes. Extensive numerical experiments expand the insights that our theory provides on the MMC problem.
翻訳日:2021-07-30 13:23:12 公開日:2021-07-28
# テキスト簡易化評価の検討

Investigating Text Simplification Evaluation ( http://arxiv.org/abs/2107.13662v1 )

ライセンス: Link先を確認
Laura V\'asquez-Rodr\'iguez, Matthew Shardlow, Piotr Przyby{\l}a, Sophia Ananiadou(参考訳) 現代のテキスト単純化(ts)は、機械学習モデルを構築するためのゴールド標準データの利用に大きく依存している。 しかし、既存の研究では、平行TSコーパスは不正確な単純化と不正確なアライメントを含むことが示されている。 さらに、システム出力をゴールド標準と比較するためにBLEUやSARIといったメトリクスを使用して評価を行うのが一般的である。 主な制限は、これらの指標が人間の判断と一致せず、異なるデータセットや言語現象のパフォーマンスが大きく異なることである。 さらに,本研究では,並列データセットのテストおよびトレーニングサブセットが異なることを示す。 本研究では,既存のTSコーパスを調査し,既存のTS評価手法の改善を動機付ける新たな洞察を提供する。 我々の貢献は、単純化に使用される既存の修正に基づくTSコーパスの分析と、より良い分散データセットを用いてTSモデルの性能に関する実証的研究である。 TSデータセットの分布を改善することで、より堅牢なTSモデルを構築することができることを示す。

Modern text simplification (TS) heavily relies on the availability of gold standard data to build machine learning models. However, existing studies show that parallel TS corpora contain inaccurate simplifications and incorrect alignments. Additionally, evaluation is usually performed by using metrics such as BLEU or SARI to compare system output to the gold standard. A major limitation is that these metrics do not match human judgements and the performance on different datasets and linguistic phenomena vary greatly. Furthermore, our research shows that the test and training subsets of parallel datasets differ significantly. In this work, we investigate existing TS corpora, providing new insights that will motivate the improvement of existing state-of-the-art TS evaluation methods. Our contributions include the analysis of TS corpora based on existing modifications used for simplification and an empirical study on TS models performance by using better-distributed datasets. We demonstrate that by improving the distribution of TS datasets, we can build more robust TS models.
翻訳日:2021-07-30 13:21:45 公開日:2021-07-28
# ブラックボックスAIシステムのユーザ解釈可能な記述の学習

Learning User-Interpretable Descriptions of Black-Box AI System Capabilities ( http://arxiv.org/abs/2107.13668v1 )

ライセンス: Link先を確認
Pulkit Verma, Shashank Rao Marpally, Siddharth Srivastava(参考訳) ユーザーが計画し、行動できるaiシステムについて持っているかもしれない特定の質問に答えるために、いくつかのアプローチが開発されている。 しかし,問うべき質問を特定することや,システム全体の能力に関するユーザ解釈可能な記号記述を計算することの問題は,ほとんど解決されていない。 本稿では,低レベルシミュレータを用いたブラックボックスaiシステムの限界と能力に関するユーザ解釈可能な記号記述を学習することで,この問題に対処する手法を提案する。 階層的なアクティブクエリパラダイムを使用して質問を生成し、その応答に基づいてAIシステムのユーザ解釈可能なモデルを学ぶ。 従来の作業とは対照的に,ユーザの概念語彙の精度がエージェントの能力を直接的に表現しないような設定を考える。 さらに,本手法では,対象とするAIシステムの内部設計や,タスクソリューションの計算や学習に使用する手法に関する仮定を必要としない。 いくつかのゲームベースシミュレーター領域での実証的な評価は、完全に観測可能なシナリオで決定論的ブラックボックスポリシーを使用するAIシステムのシンボルモデルを効率的に学習できることを示している。

Several approaches have been developed to answer specific questions that a user may have about an AI system that can plan and act. However, the problems of identifying which questions to ask and that of computing a user-interpretable symbolic description of the overall capabilities of the system have remained largely unaddressed. This paper presents an approach for addressing these problems by learning user-interpretable symbolic descriptions of the limits and capabilities of a black-box AI system using low-level simulators. It uses a hierarchical active querying paradigm to generate questions and to learn a user-interpretable model of the AI system based on its responses. In contrast to prior work, we consider settings where imprecision of the user's conceptual vocabulary precludes a direct expression of the agent's capabilities. Furthermore, our approach does not require assumptions about the internal design of the target AI system or about the methods that it may use to compute or learn task solutions. Empirical evaluation on several game-based simulator domains shows that this approach can efficiently learn symbolic models of AI systems that use a deterministic black-box policy in fully observable scenarios.
翻訳日:2021-07-30 13:21:01 公開日:2021-07-28
# United We Learn Better: タスク全体にわたるクラス階層による学習改善のハーベスティング

United We Learn Better: Harvesting Learning Improvements From Class Hierarchies Across Tasks ( http://arxiv.org/abs/2107.13627v1 )

ライセンス: Link先を確認
Sindi Shkodrani, Yu Wang, Marco Manfredi, N\'ora Baka(参考訳) コンピュータビジョンにおける階層分類学からの学習の試みは、主に画像分類に焦点を当てている。 分類における階層からの学習改善の最良の方法はまだ解決されていないが、オブジェクト検出のような他のビジョンタスクでこれらの問題をターゲットにする必要がある。 分類面での進歩は階層的なクロスエントロピー損失に依存することが多いため、softmaxの代わりにsgmoidを出力関数として使用する新しい検出アーキテクチャは、これらの進歩を簡単に適用できず、検出に新しい方法が必要となる。 本研究では,シグモイドに基づく検出アーキテクチャにおける階層的学習の可能性を明らかにするために,確率と集合理論に基づく理論的枠組みを構築し,タスク間で使用できる階層的損失を抽出し,分類と検出ベンチマークにまたがる結果を示す。

Attempts of learning from hierarchical taxonomies in computer vision have been mostly focusing on image classification. Though ways of best harvesting learning improvements from hierarchies in classification are far from being solved, there is a need to target these problems in other vision tasks such as object detection. As progress on the classification side is often dependent on hierarchical cross-entropy losses, novel detection architectures using sigmoid as an output function instead of softmax cannot easily apply these advances, requiring novel methods in detection. In this work we establish a theoretical framework based on probability and set theory for extracting parent predictions and a hierarchical loss that can be used across tasks, showing results across classification and detection benchmarks and opening up the possibility of hierarchical learning for sigmoid-based detection architectures.
翻訳日:2021-07-30 13:19:49 公開日:2021-07-28
# 画像オブジェクトのファジィ記述子に基づく類似度と対称性の測定

Similarity and symmetry measures based on fuzzy descriptors of image objects` composition ( http://arxiv.org/abs/2107.13651v1 )

ライセンス: Link先を確認
Marcin Iwanowski and Marcin Grzabka(参考訳) 本稿では,画像オブジェクトを示すバウンディングボックスを付記した画像の類似性と対称性を測定する手法について述べる。 後者の表現は、高速で効率的なディープラーニングに基づくオブジェクト検出手法の開発により、最近普及した。 提案手法により、境界ボックスの集合を比較して、基礎となる画像の類似度を推定することができる。 これはファジィ相互位置(FMP)行列を用いて空間組成と画像内の境界ボックス間の関係を記述するファジィアプローチに基づいている。 FMP行列で記述された2つの画像の類似性を計算し,その計算アルゴリズムを提案する。 コンテンツベースの画像類似度を表す単一のスカラー値を出力する。 メソッドのパラメータを変更することで、類似性の代わりに、オブジェクト構成の反射対称性を測定することもできる。 提案手法では,様々な強度の物体組成の違いを測定することができる。 また、翻訳やスケーリングにも不変であり、対称性検出の場合、対称性の軸の位置と配向がある。 いくつかの例がその方法を説明する。

The paper describes a method for measuring the similarity and symmetry of an image annotated with bounding boxes indicating image objects. The latter representation became popular recently due to the rapid development of fast and efficient deep-learning-based object-detection methods. The proposed approach allows for comparing sets of bounding boxes to estimate the degree of similarity of their underlying images. It is based on the fuzzy approach that uses the fuzzy mutual position (FMP) matrix to describe spatial composition and relations between bounding boxes within an image. A method of computing the similarity of two images described by their FMP matrices is proposed and the algorithm of its computation. It outputs the single scalar value describing the degree of content-based image similarity. By modifying the method`s parameters, instead of similarity, the reflectional symmetry of object composition may also be measured. The proposed approach allows for measuring differences in objects` composition of various intensities. It is also invariant to translation and scaling and - in case of symmetry detection - position and orientation of the symmetry axis. A couple of examples illustrate the method.
翻訳日:2021-07-30 13:19:34 公開日:2021-07-28
# 再重み付けによる非バランスな対人訓練

Imbalanced Adversarial Training with Reweighting ( http://arxiv.org/abs/2107.13639v1 )

ライセンス: Link先を確認
Wentao Wang, Han Xu, Xiaorui Liu, Yaxin Li, Bhavani Thuraisingham, Jiliang Tang(参考訳) 敵の訓練は、敵の攻撃に対して最も効果的で信頼できる防御方法の1つであることが実証されている。 しかしながら、対戦訓練に関する既存のほとんどの研究は、各クラスが同じ量のトレーニング例を持つバランスの取れたデータセットに焦点を当てている。 不均衡なトレーニングデータセットによる対戦トレーニングの研究は、かなり限られている。 この問題を調査する最初の試みとして,不均衡データセットで自然に訓練されたモデルから得られた2つの異なる振る舞いを,敵対的に訓練したモデルが示すという事実を明らかにする。 2) 従来のリウェイト戦略は, 対人訓練の不均衡問題に対処する効果を失う可能性がある。 例えば、表現不足のクラスをアップウェイトすると、よく表現されたクラスのモデルの性能が劇的に損なわれ、その結果、最適な再重み付け値を見つけるのは非常に難しい。 本稿では,データ分離性が低かったことが,上位クラスと上位クラスの強い緊張を生じさせる鍵となることを理論的に示す。 そこで本研究では,不均衡なシナリオ下での対戦訓練を支援するために,クラスごとにより分離可能な特徴を学習することで,SRAT(Separable Reweighted Adversarial Training)を提案する。 各種データセットに関する広範囲な実験により,提案手法の有効性が検証された。

Adversarial training has been empirically proven to be one of the most effective and reliable defense methods against adversarial attacks. However, almost all existing studies about adversarial training are focused on balanced datasets, where each class has an equal amount of training examples. Research on adversarial training with imbalanced training datasets is rather limited. As the initial effort to investigate this problem, we reveal the facts that adversarially trained models present two distinguished behaviors from naturally trained models in imbalanced datasets: (1) Compared to natural training, adversarially trained models can suffer much worse performance on under-represented classes, when the training dataset is extremely imbalanced. (2) Traditional reweighting strategies may lose efficacy to deal with the imbalance issue for adversarial training. For example, upweighting the under-represented classes will drastically hurt the model's performance on well-represented classes, and as a result, finding an optimal reweighting value can be tremendously challenging. In this paper, to further understand our observations, we theoretically show that the poor data separability is one key reason causing this strong tension between under-represented and well-represented classes. Motivated by this finding, we propose Separable Reweighted Adversarial Training (SRAT) to facilitate adversarial training under imbalanced scenarios, by learning more separable features for different classes. Extensive experiments on various datasets verify the effectiveness of the proposed framework.
翻訳日:2021-07-30 13:13:54 公開日:2021-07-28
# 長期記憶を用いたスマートグリッドの需要予測

Demand Forecasting in Smart Grid Using Long Short-Term Memory ( http://arxiv.org/abs/2107.13653v1 )

ライセンス: Link先を確認
Koushik Roy, Abtahi Ishmam, Kazi Abu Taher(参考訳) 電力部門における需要予測は、スマートメータ対応グリッドの台頭とともに、現代の需要管理と応答システムの重要な部分となっている。 LSTM(Long Short-Term Memory)は、スマートグリッドの電力負荷要求にも適用可能な時系列データ予測の有望な結果を示す。 本稿では、ニューラルネットワークアーキテクチャを用いたLSTMに基づくモデルを提案し、電力需要を予測する。 このモデルは、スマートグリッドから4年間の時間毎のエネルギーと電力使用量のデータをトレーニングする。 トレーニングと予測の後、モデルの精度をAuto-Regressive (AR)のような従来の統計時系列分析アルゴリズムと比較し、効率を判断する。 平均パーセンタイル誤差はLSTMモデルにおいて1.22であり、他のモデルの中で最も低い。 この結果から,電力需要予測にニューラルネットワークを組み込むことで,予測誤差を大幅に低減できることが明らかとなった。 したがって、LSTMの適用により、より効率的な需要応答システムを実現することができる。

Demand forecasting in power sector has become an important part of modern demand management and response systems with the rise of smart metering enabled grids. Long Short-Term Memory (LSTM) shows promising results in predicting time series data which can also be applied to power load demand in smart grids. In this paper, an LSTM based model using neural network architecture is proposed to forecast power demand. The model is trained with hourly energy and power usage data of four years from a smart grid. After training and prediction, the accuracy of the model is compared against the traditional statistical time series analysis algorithms, such as Auto-Regressive (AR), to determine the efficiency. The mean absolute percentile error is found to be 1.22 in the proposed LSTM model, which is the lowest among the other models. From the findings, it is clear that the inclusion of neural network in predicting power demand reduces the error of prediction significantly. Thus, the application of LSTM can enable a more efficient demand response system.
翻訳日:2021-07-30 13:13:30 公開日:2021-07-28
# 時間依存型トラベルセールスマン問題の学習上限

Learned upper bounds for the Time-Dependent Travelling Salesman Problem ( http://arxiv.org/abs/2107.13641v1 )

ライセンス: Link先を確認
Tommaso Adamo and Gianpaolo Ghiani and Pierpaolo Greco and Emanuela Guerriero(参考訳) アークトラバーサル時間が時間とともに変化するグラフが与えられると、時間依存のトラベルセールスマン問題は、グラフの頂点をカバーする最小の持続時間のハミルトニアンツアーを見つけることからなる。 この研究の主な目標は、同様の機能でインスタンスを解決する際に得られる情報を再利用することで、この問題の厳密な上限を定義することである。 これは配車管理において慣例であり、同様の入力データで車両の経路を何度も生成する必要がある。 本研究では,古典的(かつより単純な)時間非依存の非対称トラベリングセールスマン問題の解法に基づいて,線形プログラムと教師なしおよび教師なしの機械学習技術の組み合わせにより,一定弧コストを適切に定義する上限化手法を提案する。 このアプローチの有効性は、パリとロンドンという2つのヨーロッパの都市の実走行時間関数に関する計算キャンペーンを通じて評価されている。 ヒューリスティックと最もよく知られた解の間の全体平均ギャップは約 0.001\% である。 31のケースで、新しい最良のソリューションが得られました。

Given a graph whose arc traversal times vary over time, the Time-Dependent Travelling Salesman Problem consists in finding a Hamiltonian tour of least total duration covering the vertices of the graph. The main goal of this work is to define tight upper bounds for this problem by reusing the information gained when solving instances with similar features. This is customary in distribution management, where vehicle routes have to be generated over and over again with similar input data. To this aim, we devise an upper bounding technique based on the solution of a classical (and simpler) time-independent Asymmetric Travelling Salesman Problem, where the constant arc costs are suitably defined by the combined use of a Linear Program and a mix of unsupervised and supervised Machine Learning techniques. The effectiveness of this approach has been assessed through a computational campaign on the real travel time functions of two European cities: Paris and London. The overall average gap between our heuristic and the best-known solutions is about 0.001\%. For 31 instances, new best solutions have been obtained.
翻訳日:2021-07-30 13:12:31 公開日:2021-07-28
# 競合制御

Competitive Control ( http://arxiv.org/abs/2107.13657v1 )

ライセンス: Link先を確認
Gautam Goel and Babak Hassibi(参考訳) 我々は競争分析の観点から制御を考える。 学習に基づく制御に関するこれまでの多くの研究とは異なり、特定のクラスから選択された最高のコントローラに対する後悔を最小限に抑えることに重点を置いている。 この設定における自然なパフォーマンス指標は競合比であり、これはオンラインコントローラが負担するコストとオフラインの最適コントローラが負担するコストの比率である。 頑健な制御から演算子理論手法を用いることで、有限水平および無限水平両方の最適競合比を持つ制御器の計算効率の良い状態空間記述を導出する。 我々は,モデル予測制御(MPC)を用いて非線形システムに競争制御を拡張し,MPC設定の標準的な$H_2$と$H_{\infty}$コントローラを大幅に上回ることを示す数値実験を行った。

We consider control from the perspective of competitive analysis. Unlike much prior work on learning-based control, which focuses on minimizing regret against the best controller selected in hindsight from some specific class, we focus on designing an online controller which competes against a clairvoyant offline optimal controller. A natural performance metric in this setting is competitive ratio, which is the ratio between the cost incurred by the online controller and the cost incurred by the offline optimal controller. Using operator-theoretic techniques from robust control, we derive a computationally efficient state-space description of the the controller with optimal competitive ratio in both finite-horizon and infinite-horizon settings. We extend competitive control to nonlinear systems using Model Predictive Control (MPC) and present numerical experiments which show that our competitive controller can significantly outperform standard $H_2$ and $H_{\infty}$ controllers in the MPC setting.
翻訳日:2021-07-30 13:10:09 公開日:2021-07-28
# 実践によるより深い学習: 機械学習コースにハンズオン研究プロジェクトを統合する

Deeper Learning By Doing: Integrating Hands-On Research Projects Into a Machine Learning Course ( http://arxiv.org/abs/2107.13671v1 )

ライセンス: Link先を確認
Sebastian Raschka(参考訳) 機械学習は近年、大量の学習リソースとともに、大きな関心を集めている。 従来の講義は、学生に重要な情報と知識を提供するが、プロジェクトベースの学習コンポーネントの追加は、学生がより深くトピックに取り組む動機づけになると信じている。 本コースにプロジェクトベースの学習を取り入れることに加えて,実験的なデザインと実行,レポートの執筆,口頭プレゼンテーション,ピアレビューなど,実世界の課題に対応するプロジェクトベースの学習コンポーネントの開発も目指している。 本稿では,プロジェクトベースの機械学習コースの編成について,特にクラスプロジェクトコンポーネントに着目し,そのコースに類似要素を取り入れたいインストラクタとリソースを共有する。

Machine learning has seen a vast increase of interest in recent years, along with an abundance of learning resources. While conventional lectures provide students with important information and knowledge, we also believe that additional project-based learning components can motivate students to engage in topics more deeply. In addition to incorporating project-based learning in our courses, we aim to develop project-based learning components aligned with real-world tasks, including experimental design and execution, report writing, oral presentation, and peer-reviewing. This paper describes the organization of our project-based machine learning courses with a particular emphasis on the class project components and shares our resources with instructors who would like to include similar elements in their courses.
翻訳日:2021-07-30 13:09:51 公開日:2021-07-28
# 複数の核形状を持つ深い畳み込みネットワークを用いたピッチ変形器の割り当て

Pitch-Informed Instrument Assignment Using a Deep Convolutional Network with Multiple Kernel Shapes ( http://arxiv.org/abs/2107.13617v1 )

ライセンス: Link先を確認
Carlos Lordelo, Emmanouil Benetos, Simon Dixon and Sven Ahlb\"ack(参考訳) 本稿では,音符レベルの楽器割り当てを行う深層畳み込みニューラルネットワークを提案する。 ポリフォニックなマルチインストラメンタルな音楽信号とその基礎的真実や予測された音符が与えられた場合、それぞれの音符に楽器の音源を割り当てることが目的である。 この問題は、各音符を個別に分析するピッチインフォームド分類タスクとして扱われる。 また,より効率的な音色判別特徴マップの学習を容易にするために,畳み込み層内の複数のカーネル形状を利用する方法を提案する。 7つの楽器クラスを用いたMusicNetデータセット実験により,従来のマルチピッチアノテーションをピッチ情報として用いた場合の平均Fスコアは0.904であり,また,サードパーティのマルチピッチ推定アルゴリズムを用いてノート情報が提供される場合にも優れていた。 また、複数のカーネル形状の使用による影響を調査するアブレーション研究や、音声およびノート関連情報に対する異なる入力表現の比較も含んでいる。

This paper proposes a deep convolutional neural network for performing note-level instrument assignment. Given a polyphonic multi-instrumental music signal along with its ground truth or predicted notes, the objective is to assign an instrumental source for each note. This problem is addressed as a pitch-informed classification task where each note is analysed individually. We also propose to utilise several kernel shapes in the convolutional layers in order to facilitate learning of efficient timbre-discriminativ e feature maps. Experiments on the MusicNet dataset using 7 instrument classes show that our approach is able to achieve an average F-score of 0.904 when the original multi-pitch annotations are used as the pitch information for the system, and that it also excels if the note information is provided using third-party multi-pitch estimation algorithms. We also include ablation studies investigating the effects of the use of multiple kernel shapes and comparing different input representations for the audio and the note-related information.
翻訳日:2021-07-30 13:07:56 公開日:2021-07-28
# (参考訳) ストレス時の覚醒に対する生理的適応金標準 [全文訳有]

A Physiologically-Adap ted Gold Standard for Arousal during Stress ( http://arxiv.org/abs/2107.12964v2 )

ライセンス: CC BY 4.0
Alice Baird, Lukas Stappen, Lukas Christ, Lea Schumann, Eva-Maria Me{\ss}ner, Bj\"orn W. Schuller(参考訳) 感情は本質的に主観的な精神生理的人間状態であり、連続的な感情に対する合意されたアップオン表現(金の標準)を生成するには、複数の人間の注釈の時間とコストを要する。 この文献には、生理的信号が感情の状態、特に覚醒状態の十分な客観的マーカーであるという強い証拠がある。 本研究では,ストレス誘発シナリオ(トリアー・ソーシャル・ストレス・テスト)において,連続的な感情と生理的シグナル(心拍数毎分(bpm),電極活動(eda),呼吸速度(呼吸速度)を含むデータセットを活用した。 我々は,これらの生理的信号を目標として活用し,様々な音声,ビデオ,テキストに基づく特徴から学習することの利点を探るために,長期記憶と反復的ニューラルネットワークを用いた。 我々は、現在最先端の MuSe-Toolbox を利用して、目標信号の融合時にアノテーション遅延とラッター間合意重み付けの両方を考慮する。 共振器相関係数 (CCC) の改善は, EDA を刺激的に融合させる際の特徴集合間で見られ, 刺激のみの金標準値と比較した。 さらに、BERTベースのテキスト特徴の結果は、覚醒とすべての生理的信号に改善され、.3344 CCCと、覚醒のみに.2118 CCCが得られた。 マルチモーダル・フュージョンはまた、オーディオとビデオの機能を.6157 CCCで改善し、興奮とEDAとBPMを認識する。

Emotion is an inherently subjective psychophysiological human-state and to produce an agreed-upon representation (gold standard) for continuous emotion requires a time-consuming and costly training procedure of multiple human annotators. There is strong evidence in the literature that physiological signals are sufficient objective markers for states of emotion, particularly arousal. In this contribution, we utilise a dataset which includes continuous emotion and physiological signals - Heartbeats per Minute (BPM), Electrodermal Activity (EDA), and Respiration-rate - captured during a stress inducing scenario (Trier Social Stress Test). We utilise a Long Short-Term Memory, Recurrent Neural Network to explore the benefit of fusing these physiological signals with arousal as the target, learning from various audio, video, and textual based features. We utilise the state-of-the-art MuSe-Toolbox to consider both annotation delay and inter-rater agreement weighting when fusing the target signals. An improvement in Concordance Correlation Coefficient (CCC) is seen across features sets when fusing EDA with arousal, compared to the arousal only gold standard results. Additionally, BERT-based textual features' results improved for arousal plus all physiological signals, obtaining up to .3344 CCC compared to .2118 CCC for arousal only. Multimodal fusion also improves overall CCC with audio plus video features obtaining up to .6157 CCC to recognize arousal plus EDA and BPM.
翻訳日:2021-07-30 10:54:39 公開日:2021-07-28
# 証明:過剰な述語による近似集約クエリの高速化

Proof: Accelerating Approximate Aggregation Queries with Expensive Predicates ( http://arxiv.org/abs/2107.12525v2 )

ライセンス: Link先を確認
Daniel Kang, John Guibas, Peter Bailis, Tatsunori Hashimoto, Yi Sun, Matei Zaharia(参考訳) データセット $\mathcal{D}$ が与えられたら、述語に一致する $\mathcal{D}$ のサブセットの平均を計算することに興味があります。 abaeは階層化されたサンプリングとプロキシモデルを利用して、サンプリング予算が$n$の場合に、この統計を効率的に計算する。 この論文では、ABae を理論的に解析し、推定値の MSE が $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, ここでは、ある整数定数 $K$ に対して $N=K \cdot N_1+N_2$ と $K \cdot N_1$ と $N_2$ は、それぞれ ABae のステージ 1 とステージ 2 で使用されるサンプル数を表す。 したがって、全サンプル予算の定数である$N$を各ステージに割り当てると、予測正の確率と成層ごとの標準偏差の事前知識が与えられた最適成層サンプリングアルゴリズムの平均二乗誤差率に一致する平均二乗誤差が$O(N^{-1})$となる。

Given a dataset $\mathcal{D}$, we are interested in computing the mean of a subset of $\mathcal{D}$ which matches a predicate. ABae leverages stratified sampling and proxy models to efficiently compute this statistic given a sampling budget $N$. In this document, we theoretically analyze ABae and show that the MSE of the estimate decays at rate $O(N_1^{-1} + N_2^{-1} + N_1^{1/2}N_2^{-3/2})$, where $N=K \cdot N_1+N_2$ for some integer constant $K$ and $K \cdot N_1$ and $N_2$ represent the number of samples used in Stage 1 and Stage 2 of ABae respectively. Hence, if a constant fraction of the total sample budget $N$ is allocated to each stage, we will achieve a mean squared error of $O(N^{-1})$ which matches the rate of mean squared error of the optimal stratified sampling algorithm given a priori knowledge of the predicate positive rate and standard deviation per stratum.
翻訳日:2021-07-30 10:24:49 公開日:2021-07-28
# (参考訳) 回転予測を用いた自己スーパービジョンによる画像キャプション実験 [全文訳有]

Experimenting with Self-Supervision using Rotation Prediction for Image Captioning ( http://arxiv.org/abs/2107.13111v1 )

ライセンス: CC BY 4.0
Ahmed Elhagry, Karima Kadaoui(参考訳) 画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。 画像を記述する伝説を生成する責任があり、補助技術で使われる記述や(例えば検索エンジンの)インデックス化画像といった様々な応用がある。 これはAIにおいて重要なトピックであり、多くの研究が行われている。 しかし、このタスクは、他の多くのものと同様に、人間のアノテーションによってラベル付けされた大きなイメージで訓練されているため、非常に面倒である。 医療画像)。 ラベルの必要性を軽減するために,モデルがラベルに含まれるデータをラベルとして使用する学習の一種として,自己教師付き学習を利用する。 イメージとキャプションは2つの異なるモードからなり、通常は異なるタイプのネットワークで処理される。 したがって、完全に自己監督されたソリューションがどのようなものかは明らかではない。 画像認識タスクに現在の自己スーパービジョンを適用する方法に匹敵する方法でキャプションを実現する方法はまだ研究中である。 本プロジェクトでは,OpenImagesデータセットで訓練された畳み込みニューラルネットワーク(CNN)であるエンコーダ・デコーダアーキテクチャを用いて,回転プリテキストタスクを用いて,自己教師型で画像特徴を学習する。 デコーダはLSTM(Long Short-Term Memory)であり、画像キャプションモデルとともに、MS COCOデータセット上でトレーニングされ、キャプションを生成する責任がある。 https://github.com/e lhagry1/SSL_ImageCap tioning_RotationPred iction

Image captioning is a task in the field of Artificial Intelligence that merges between computer vision and natural language processing. It is responsible for generating legends that describe images, and has various applications like descriptions used by assistive technology or indexing images (for search engines for instance). This makes it a crucial topic in AI that is undergoing a lot of research. This task however, like many others, is trained on large images labeled via human annotation, which can be very cumbersome: it needs manual effort, both financial and temporal costs, it is error-prone and potentially difficult to execute in some cases (e.g. medical images). To mitigate the need for labels, we attempt to use self-supervised learning, a type of learning where models use the data contained within the images themselves as labels. It is challenging to accomplish though, since the task is two-fold: the images and captions come from two different modalities and usually handled by different types of networks. It is thus not obvious what a completely self-supervised solution would look like. How it would achieve captioning in a comparable way to how self-supervision is applied today on image recognition tasks is still an ongoing research topic. In this project, we are using an encoder-decoder architecture where the encoder is a convolutional neural network (CNN) trained on OpenImages dataset and learns image features in a self-supervised fashion using the rotation pretext task. The decoder is a Long Short-Term Memory (LSTM), and it is trained, along within the image captioning model, on MS COCO dataset and is responsible of generating captions. Our GitHub repository can be found: https://github.com/e lhagry1/SSL_ImageCap tioning_RotationPred iction
翻訳日:2021-07-29 23:59:22 公開日:2021-07-28
# (参考訳) 画像キャプションのための最近の深層学習手法の概観 [全文訳有]

A Thorough Review on Recent Deep Learning Methodologies for Image Captioning ( http://arxiv.org/abs/2107.13114v1 )

ライセンス: CC BY 4.0
Ahmed Elhagry, Karima Kadaoui(参考訳) Image Captioningは、コンピュータビジョンと自然言語処理を組み合わせたタスクであり、画像の記述的な伝説を生成することを目的としている。 正確な画像理解と、構文的にも意味的にも正確な言語理解に依存する2次元のプロセスである。 画像キャプションの分野における最新の研究や知見に追随することがますます難しくなってきている。 しかし、これらの発見の十分なカバレッジは、利用可能なレビュー論文にはない。 本稿では,画像キャプションにおける現在の手法,データセット,ベンチマーク,評価指標について概説する。 この分野の最近の研究は、主に深層学習に基づく手法に焦点を当てており、深層強化と逆境学習とともに注意のメカニズムがこの研究の最前線にあるように思われる。 本稿では,UpDown,OSCAR,VIVO,メタラーニングなどの最近の手法と,条件付き生成対向ネットを用いたモデルについて述べる。 GANベースのモデルが最も高いスコアを得るが、UpDownは画像キャプションの重要な基盤であり、OSCARとVIVOは、新しいオブジェクトキャプションを使用する場合により有用である。 このレビュー論文は、画像キャプション生成の分野における最新の貢献を最新に保つための、研究者のロードマップとして役立ちます。

Image Captioning is a task that combines computer vision and natural language processing, where it aims to generate descriptive legends for images. It is a two-fold process relying on accurate image understanding and correct language understanding both syntactically and semantically. It is becoming increasingly difficult to keep up with the latest research and findings in the field of image captioning due to the growing amount of knowledge available on the topic. There is not, however, enough coverage of those findings in the available review papers. We perform in this paper a run-through of the current techniques, datasets, benchmarks and evaluation metrics used in image captioning. The current research on the field is mostly focused on deep learning-based methods, where attention mechanisms along with deep reinforcement and adversarial learning appear to be in the forefront of this research topic. In this paper, we review recent methodologies such as UpDown, OSCAR, VIVO, Meta Learning and a model that uses conditional generative adversarial nets. Although the GAN-based model achieves the highest score, UpDown represents an important basis for image captioning and OSCAR and VIVO are more useful as they use novel object captioning. This review paper serves as a roadmap for researchers to keep up to date with the latest contributions made in the field of image caption generation.
翻訳日:2021-07-29 23:49:07 公開日:2021-07-28
# (参考訳) 画像色補正・強調・編集

Image color correction, enhancement, and editing ( http://arxiv.org/abs/2107.13117v1 )

ライセンス: CC BY 4.0
Mahmoud Afifi(参考訳) 本論文は,画像色補正,カラーエンハンスメント,カラー編集のための手法とアプローチを提案する。 まず,カメラのイメージ信号処理装置(ISP)の立場から,色補正問題について検討する。 カメラのISPは、カメラ内画像処理と色操作の一連のステップを適用するハードウェアであり、その多くは本質的に非線形であり、初期センサーイメージを8ビット標準RGB(sRGB)カラー空間に保存された最終的な写真にレンダリングする。 ホワイトバランス(WB)は、ISPが色補正のために適用した主要な手順の1つであるため、この論文はISPホワイトバランスのための2つの異なる方法を示す。 その後、画像色を修正・編集する別のシナリオについて議論し、ISPが不適切にホワイトバランスを保った画像に対して、WB設定を修正・編集する一連の方法を提案する。 次に、カメラレンダリング画像の露出誤差を補正するための2つの異なる手法を概説する。 最後に,撮影後の自動カラー編集と操作について述べる。 特に,同じカメラレンダリング画像の異なる実写バージョンを新しい色で生成するための自動画像再構成手法を提案する。 提案手法は,カラー補正,カラーエンハンスメント,カラー編集をターゲットとした既存手法と比較して優れたソリューションを提供する。

This thesis presents methods and approaches to image color correction, color enhancement, and color editing. To begin, we study the color correction problem from the standpoint of the camera's image signal processor (ISP). A camera's ISP is hardware that applies a series of in-camera image processing and color manipulation steps, many of which are nonlinear in nature, to render the initial sensor image to its final photo-finished representation saved in the 8-bit standard RGB (sRGB) color space. As white balance (WB) is one of the major procedures applied by the ISP for color correction, this thesis presents two different methods for ISP white balancing. Afterward, we discuss another scenario of correcting and editing image colors, where we present a set of methods to correct and edit WB settings for images that have been improperly white-balanced by the ISP. Then, we explore another factor that has a significant impact on the quality of camera-rendered colors, in which we outline two different methods to correct exposure errors in camera-rendered images. Lastly, we discuss post-capture auto color editing and manipulation. In particular, we propose auto image recoloring methods to generate different realistic versions of the same camera-rendered image with new colors. Through extensive evaluations, we demonstrate that our methods provide superior solutions compared to existing alternatives targeting color correction, color enhancement, and color editing.
翻訳日:2021-07-29 23:40:26 公開日:2021-07-28
# (参考訳) 画素適応カーネル注意によるコンテンツ認識指向伝搬ネットワーク [全文訳有]

Content-aware Directed Propagation Network with Pixel Adaptive Kernel Attention ( http://arxiv.org/abs/2107.13144v1 )

ライセンス: CC BY 4.0
Min-Cheol Sagong, Yoon-Jae Yeo, Seung-Won Jung, and Sung-Jea Ko(参考訳) 畳み込みニューラルネットワーク(CNN)は広範に普及しているだけでなく、画像分類、復元、生成を含む多くのアプリケーションにおいて顕著な成果を上げている。 畳み込みの重量共有性は様々なタスクで広く採用されているが、内容に依存しない特徴も大きな欠点であると考えられる。 そこで本稿では,この問題を解決するために,pixel adaptive kernel attention (paka) と呼ばれる新しい演算を提案する。 PAKAは、学習可能な特徴から空間的に異なる注意を掛けることで、フィルタ重みへの指向性を提供する。 提案手法は,パラメータの少ない分解モデルに対処するために,チャネルに沿った画素適応型注意マップと空間方向を別々に推定する。 本手法はエンドツーエンドで学習可能であり,任意のCNNモデルに適用可能である。 さらに,階層型pakaモジュール (hpm) と呼ばれる,pakaを用いた情報集約モジュールの改良を提案する。 我々は,従来の情報集約モジュールと比較して,セマンティックセグメンテーションにおける最先端性能を示すことで,HPMの優位性を実証する。 提案手法は,追加のアブレーション実験により検証し,畳み込みの重みに対する指向性を示すpakaの効果を可視化する。 また,マルチモーダルタスク,特にカラー誘導深度マップ超解法に適用することで,提案手法の一般化可能性を示す。

Convolutional neural networks (CNNs) have been not only widespread but also achieved noticeable results on numerous applications including image classification, restoration, and generation. Although the weight-sharing property of convolutions makes them widely adopted in various tasks, its content-agnostic characteristic can also be considered a major drawback. To solve this problem, in this paper, we propose a novel operation, called pixel adaptive kernel attention (PAKA). PAKA provides directivity to the filter weights by multiplying spatially varying attention from learnable features. The proposed method infers pixel-adaptive attention maps along the channel and spatial directions separately to address the decomposed model with fewer parameters. Our method is trainable in an end-to-end manner and applicable to any CNN-based models. In addition, we propose an improved information aggregation module with PAKA, called the hierarchical PAKA module (HPM). We demonstrate the superiority of our HPM by presenting state-of-the-art performance on semantic segmentation compared to the conventional information aggregation modules. We validate the proposed method through additional ablation studies and visualizing the effect of PAKA providing directivity to the weights of convolutions. We also show the generalizability of the proposed method by applying it to multi-modal tasks especially color-guided depth map super-resolution.
翻訳日:2021-07-29 23:36:59 公開日:2021-07-28
# (参考訳) 株式取引のための機械学習分類器と効果的な特徴抽出 [全文訳有]

Combining Machine Learning Classifiers for Stock Trading with Effective Feature Extraction ( http://arxiv.org/abs/2107.13148v1 )

ライセンス: CC BY 4.0
A. K. M. Amanat Ullah, Fahim Imtiaz, Miftah Uddin Md Ihsan, Md. Golam Rabiul Alam, Mahbub Majumdar(参考訳) 株式市場の予測不可能性とボラティリティは、あらゆる一般的なスキームを使って実質的な利益を得ることを困難にしている。 本稿では,quantopianプラットフォーム上でのライブトレーディングを無償で行うことで,米国株式市場でかなりの利益を得ることができる機械学習モデルについて考察する。 我々の最善のアプローチは、ガウス的ナイーブベイズ、決定木、l1正規化によるロジスティック回帰、確率的勾配降下の4つの分類器を用いたアンサンブル学習を使用して、特定のストックに長引くか短くなるかを決定することだった。 当社のベストモデルは2011年7月から2019年1月までの日替わり取引を行い、54.35%の利益を生み出した。 最後に、当社の研究は、重み付き分類器の混合物が、株式市場での取引決定に関する個々の予測器よりも優れたパフォーマンスを示すことを示した。

The unpredictability and volatility of the stock market render it challenging to make a substantial profit using any generalized scheme. This paper intends to discuss our machine learning model, which can make a significant amount of profit in the US stock market by performing live trading in the Quantopian platform while using resources free of cost. Our top approach was to use ensemble learning with four classifiers: Gaussian Naive Bayes, Decision Tree, Logistic Regression with L1 regularization and Stochastic Gradient Descent, to decide whether to go long or short on a particular stock. Our best model performed daily trade between July 2011 and January 2019, generating 54.35% profit. Finally, our work showcased that mixtures of weighted classifiers perform better than any individual predictor about making trading decisions in the stock market.
翻訳日:2021-07-29 23:18:54 公開日:2021-07-28
# (参考訳) 点雲深層学習のためのマルチポイント・ボクセル・コンボリューション(MPVConv) [全文訳有]

Multi Point-Voxel Convolution (MPVConv) for Deep Learning on Point Clouds ( http://arxiv.org/abs/2107.13152v1 )

ライセンス: CC BY 4.0
Wei Zhou, Xin Cao, Xiaodan Zhang, Xingxing Hao, Dekui Wang, Ying He(参考訳) 既存の3D深層学習手法では,個々の点に基づく特徴や,近隣のボクセルベースの特徴が採用されている。 しかし、点ベースのモデルは、点雲の秩序のない性質のため非効率であり、ボクセルベースのモデルは大きな情報損失に悩まされる。 PVCNNのような最近のポイントボクセル表現の成功により、我々は、ポイントクラウド上でのディープラーニングのための、Multi Point-Voxel Convolution (MPVConv)と呼ばれる新しい畳み込みニューラルネットワークを提案する。 ボクセル法と点ベース法の両方の利点を統合することで、MPVConvは点ベース機能間の隣り合うコレクションを効果的に増やし、ボクセルベースの機能間の独立性を促進することができる。 さらに、既存のアプローチのほとんどは、ひとつの特定のタスクを解決することを目的としており、それらのうち、さまざまなタスクを処理できるものはごくわずかである。 対応する畳み込みモジュールをMPVConvに置き換えるだけで、MPVConvは様々なバックボーンに収まり、幅広い3Dタスクを解くことができる。 ShapeNet Part、S3DIS、KITTIといった様々なタスクのベンチマークデータセットに対する大規模な実験により、MPVConvは背骨(PointNet)の精度を \textbf{36\%} まで改善し、最大 \textbf{34}$\times$ Speedups までのボクセルベースモデルよりも高い精度を実現している。 さらにmpvconvは、最大で \textbf{8}$\times$ speedupsで最先端のポイントベースモデルを上回る。 特にMPVConvは、最新のポイントボクセルベースモデルであるPVCNN(PointNetよりも高速なモデル)よりもレイテンシの低い精度を実現しています。

The existing 3D deep learning methods adopt either individual point-based features or local-neighboring voxel-based features, and demonstrate great potential for processing 3D data. However, the point based models are inefficient due to the unordered nature of point clouds and the voxel-based models suffer from large information loss. Motivated by the success of recent point-voxel representation, such as PVCNN, we propose a new convolutional neural network, called Multi Point-Voxel Convolution (MPVConv), for deep learning on point clouds. Integrating both the advantages of voxel and point-based methods, MPVConv can effectively increase the neighboring collection between point-based features and also promote independence among voxel-based features. Moreover, most of the existing approaches aim at solving one specific task, and only a few of them can handle a variety of tasks. Simply replacing the corresponding convolution module with MPVConv, we show that MPVConv can fit in different backbones to solve a wide range of 3D tasks. Extensive experiments on benchmark datasets such as ShapeNet Part, S3DIS and KITTI for various tasks show that MPVConv improves the accuracy of the backbone (PointNet) by up to \textbf{36\%}, and achieves higher accuracy than the voxel-based model with up to \textbf{34}$\times$ speedups. In addition, MPVConv outperforms the state-of-the-art point-based models with up to \textbf{8}$\times$ speedups. Notably, our MPVConv achieves better accuracy than the newest point-voxel-based model PVCNN (a model more efficient than PointNet) with lower latency.
翻訳日:2021-07-29 22:58:17 公開日:2021-07-28
# (参考訳) 下着モデルのための形状制御可能な仮想トライオン [全文訳有]

Shape Controllable Virtual Try-on for Underwear Models ( http://arxiv.org/abs/2107.13156v1 )

ライセンス: CC BY 4.0
Xin Gao (1), Zhenjiang Liu (1), Zunlei Feng (2), Chengji Shen (2), Kairi Ou (1), Haihong Tang (1) and Mingli Song (2) ((1) Alibaba Group, (2) Zhejiang University)(参考訳) image virtual try-onタスクには豊富なアプリケーションがあり、近年はホットな研究テーマとなっている。 既存の2D画像ベースの仮想試行方法は,被写体画像を参照者に転送することを目的としており,被写体の大きさと長さを正確に制御できないこと,被写体が太い場合の利用者の身長を正確に推定できないことの2つの欠点がある。 本稿では,下着モデル用の衣服を着ることを目的とした類似タスクを提案する。 また、Eコマースのシナリオでは緊急に必要とされている。 上記の欠点を解決するために,グラフアテンションネットワークがモデル情報と衣服情報を統合し,歪んだ衣服画像を生成する形状制御可能な仮想トライオンネットワーク(SC-VTON)を提案する。 また、所望の衣服形状のために制御ポイントをsc−vtonに組み込む。 さらに,分割ネットワークと合成ネットワークを追加することで,変形モジュールの最適化と一般的な仮想トライオンタスクへの一般化のために,衣料/モデルペアデータを利用することができる。 広範な実験により,提案手法が正確な形状制御が可能となった。 一方,本手法は他の手法と比較して,詳細なテクスチャで高分解能な結果が得られる。

Image virtual try-on task has abundant applications and has become a hot research topic recently. Existing 2D image-based virtual try-on methods aim to transfer a target clothing image onto a reference person, which has two main disadvantages: cannot control the size and length precisely; unable to accurately estimate the user's figure in the case of users wearing thick clothes, resulting in inaccurate dressing effect. In this paper, we put forward an akin task that aims to dress clothing for underwear models. %, which is also an urgent need in e-commerce scenarios. To solve the above drawbacks, we propose a Shape Controllable Virtual Try-On Network (SC-VTON), where a graph attention network integrates the information of model and clothing to generate the warped clothing image. In addition, the control points are incorporated into SC-VTON for the desired clothing shape. Furthermore, by adding a Splitting Network and a Synthesis Network, we can use clothing/model pair data to help optimize the deformation module and generalize the task to the typical virtual try-on task. Extensive experiments show that the proposed method can achieve accurate shape control. Meanwhile, compared with other methods, our method can generate high-resolution results with detailed textures.
翻訳日:2021-07-29 22:36:58 公開日:2021-07-28
# (参考訳) 糖尿病・心血管疾患のバイオマーカーとしての網膜微小血管 [全文訳有]

Retinal Microvasculature as Biomarker for Diabetes and Cardiovascular Diseases ( http://arxiv.org/abs/2107.13157v1 )

ライセンス: CC BY 4.0
Anusua Trivedi, Jocelyn Desbiens, Ron Gross, Sunil Gupta, Rahul Dodhia, Juan Lavista Ferres(参考訳) 目的: 網膜微小血管は糖尿病網膜症(dr)および拡張的心血管疾患の信頼性の高いバイオマーカーであることを示すこと。 方法:深層学習畳み込みニューラルネットワーク(deep learning convolutional neural networks:cnn)をカラーベース画像に適用し,血管のセグメンテーションと血管および全画像の重症度分類を行う。 ハーモニックディスクリプタによる血管再建は、平滑化・脱ノイズ化ツールとしても用いられる。 理論の数学的背景も概説されている。 結果: 糖尿病患者では, dr no-refer vs. 93.8% 以上であった。 参照分類は血管の欠陥と関連付けられる。 Non-Sight Threatening vs. 目撃を脅かす場合、96.7%の比率である。 結論: drの場合, 疾患のバイオマーカーの多くは血管系と位相的に関連している。 翻訳的関連性:バイオマーカーとしての眼血管再建実験では,血管形状とd.d.の後期に強い相関が認められた。

Purpose: To demonstrate that retinal microvasculature per se is a reliable biomarker for Diabetic Retinopathy (DR) and, by extension, cardiovascular diseases. Methods: Deep Learning Convolutional Neural Networks (CNN) applied to color fundus images for semantic segmentation of the blood vessels and severity classification on both vascular and full images. Vessel reconstruction through harmonic descriptors is also used as a smoothing and de-noising tool. The mathematical background of the theory is also outlined. Results: For diabetic patients, at least 93.8% of DR No-Refer vs. Refer classification can be related to vasculature defects. As for the Non-Sight Threatening vs. Sight Threatening case, the ratio is as high as 96.7%. Conclusion: In the case of DR, most of the disease biomarkers are related topologically to the vasculature. Translational Relevance: Experiments conducted on eye blood vasculature reconstruction as a biomarker shows a strong correlation between vasculature shape and later stages of DR.
翻訳日:2021-07-29 22:21:24 公開日:2021-07-28
# (参考訳) 対話における感情認識エージェントを目指して [全文訳有]

Towards Emotion-Aware Agents For Negotiation Dialogues ( http://arxiv.org/abs/2107.13165v1 )

ライセンス: CC BY 4.0
Kushal Chawla, Rene Clever, Jaysa Ramirez, Gale Lucas, Jonathan Gratch(参考訳) 交渉は、人間の意思決定における感情的な出会いをカプセル化する複雑な社会的相互作用である。 人間と交渉できるバーチャルエージェントは、教育と会話のAIに役立ちます。 このようなエージェントの開発を進めるために,交渉における2つの重要な主観的目標 - 成果満足度とパートナー認識 - の予測を検討する。 具体的には, 交渉から抽出した感情特性が, 個人差分以上の予測にどの程度役立つかを分析する。 私たちは、チャットベースの交渉における最近のデータセットにフォーカスしています。 本研究では,情緒的語彙と最先端のディープラーニングアーキテクチャを活用することで,感情次元・語彙・文脈の3段階について検討する。 我々の洞察は、現実的なコミュニケーションインターフェースを介して対話する適応的な交渉エージェントの設計に役立ちます。

Negotiation is a complex social interaction that encapsulates emotional encounters in human decision-making. Virtual agents that can negotiate with humans are useful in pedagogy and conversational AI. To advance the development of such agents, we explore the prediction of two important subjective goals in a negotiation - outcome satisfaction and partner perception. Specifically, we analyze the extent to which emotion attributes extracted from the negotiation help in the prediction, above and beyond the individual difference variables. We focus on a recent dataset in chat-based negotiations, grounded in a realistic camping scenario. We study three degrees of emotion dimensions - emoticons, lexical, and contextual by leveraging affective lexicons and a state-of-the-art deep learning architecture. Our insights will be helpful in designing adaptive negotiation agents that interact through realistic communication interfaces.
翻訳日:2021-07-29 22:11:50 公開日:2021-07-28
# (参考訳) シードRegion-Growing CNN(SRG-Net)を用いたTerracottaウォリアの教師なしセグメンテーション [全文訳有]

Unsupervised Segmentation for Terracotta Warrior with Seed-Region-Growing CNN(SRG-Net) ( http://arxiv.org/abs/2107.13167v1 )

ライセンス: CC BY 4.0
Yao Hu, Guohua Geng, Kang Li, Wei Zhou, Xingxing Hao, Xin Cao(参考訳) 清文天皇陵跡博物館のテラコッタ戦士の修理作業は専門家によって手作業で行われ、発掘されたテラコッタ戦士の断片が増加し、考古学者がテラコッタ戦士の修復を効率的に行うのが難しくなった。 我々は、terracottaウォリアーズの3dポイントクラウドデータを自動的に分割し、そのフラグメントデータをデータベースに保存して、実際のフラグメントとデータベースのフラグメントのマッチングを支援することで、terracottaウォリアーズの修復効率を高めることを望んでいる。 さらに,既存の3次元ニューラルネットワーク研究は主に教師あり分類,クラスタリング,教師なし表現,再構成に重点を置いている。 教師なしのクラウド部分のセグメンテーションに焦点を絞った研究はほとんどない。 本稿では,terracottaウォリアーズの3dポイントクラウドに対するsrg-netを提案する。 まず,ポイントクラウドを大まかに分割するために,カスタマイズしたシードリージョン成長アルゴリズムを採用する。 次に,教師ありセグメンテーションと教師なし再構成ネットワークを用いて,3次元点雲の特性を学習する。 最後に、SRGアルゴリズムと改良されたCNNを改良手法を用いて組み合わせる。 このパイプラインはSRG-Netと呼ばれ、テラコッタ戦士のセグメンテーションタスクの実行を目的としている。 提案するSRG-Netは,テラコッタ戦士のデータとShapeNetデータセットを用いて,精度とレイテンシを測定して評価する。 実験の結果,SRG-Netは最先端手法よりも優れていた。 コードはコードファイル1~\cite{srgnet_2021}に表示されます。

The repairing work of terracotta warriors in Emperor Qinshihuang Mausoleum Site Museum is handcrafted by experts, and the increasing amounts of unearthed pieces of terracotta warriors make the archaeologists too challenging to conduct the restoration of terracotta warriors efficiently. We hope to segment the 3D point cloud data of the terracotta warriors automatically and store the fragment data in the database to assist the archaeologists in matching the actual fragments with the ones in the database, which could result in higher repairing efficiency of terracotta warriors. Moreover, the existing 3D neural network research is mainly focusing on supervised classification, clustering, unsupervised representation, and reconstruction. There are few pieces of researches concentrating on unsupervised point cloud part segmentation. In this paper, we present SRG-Net for 3D point clouds of terracotta warriors to address these problems. Firstly, we adopt a customized seed-region-growing algorithm to segment the point cloud coarsely. Then we present a supervised segmentation and unsupervised reconstruction networks to learn the characteristics of 3D point clouds. Finally, we combine the SRG algorithm with our improved CNN using a refinement method. This pipeline is called SRG-Net, which aims at conducting segmentation tasks on the terracotta warriors. Our proposed SRG-Net is evaluated on the terracotta warriors data and ShapeNet dataset by measuring the accuracy and the latency. The experimental results show that our SRG-Net outperforms the state-of-the-art methods. Our code is shown in Code File 1~\cite{Srgnet_2021}.
翻訳日:2021-07-29 21:56:28 公開日:2021-07-28
# (参考訳) マルチクラスAUCによる学習:理論とアルゴリズム

Learning with Multiclass AUC: Theory and Algorithms ( http://arxiv.org/abs/2107.13171v1 )

ライセンス: CC BY 4.0
Zhiyong Yang, Qianqian Xu, Shilong Bao, Xiaochun Cao, Qingming Huang(参考訳) ROC曲線下のエリア(AUC)は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。 既存のAUC最適化ベースの機械学習手法の大半はバイナリクラスのケースにのみフォーカスするが、マルチクラスのケースは考慮しない。 本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。 我々の基礎は、AUCのよく知られたマルチクラス拡張であるMメトリックに基づいている。 私たちはまずこの指標を再考し、少数クラスのペアから不均衡な問題を排除できることを示した。 そこで本研究では,M 計量を近似的に最適化する実験的なサロゲートリスク最小化フレームワークを提案する。 理論的には, (i) ベイズ最適スコアリング関数に漸近的に到達するために, 一般的な微分可能サーロゲート損失のほとんどを最適化する, (ii) トレーニングフレームワークは, 従来の$o(\sqrt{1/n})$結果と比較して, マイノリティクラスのボトルネックサンプルに注意を払う不均衡対応の一般化エラーバウンドを享受する。 実際,計算処理のスケーラビリティの低下に対処するために,指数損失,二乗損失,ヒンジ損失といった3つの一般的なサーロゲート損失関数の高速化手法を提案し,損失と勾配評価を高速化する。 最後に,11個の実世界のデータセットに対する実験結果から,提案フレームワークの有効性を示した。

The Area under the ROC curve (AUC) is a well-known ranking metric for problems such as imbalanced learning and recommender systems. The vast majority of existing AUC-optimization-bas ed machine learning methods only focus on binary-class cases, while leaving the multiclass cases unconsidered. In this paper, we start an early trial to consider the problem of learning multiclass scoring functions via optimizing multiclass AUC metrics. Our foundation is based on the M metric, which is a well-known multiclass extension of AUC. We first pay a revisit to this metric, showing that it could eliminate the imbalance issue from the minority class pairs. Motivated by this, we propose an empirical surrogate risk minimization framework to approximately optimize the M metric. Theoretically, we show that: (i) optimizing most of the popular differentiable surrogate losses suffices to reach the Bayes optimal scoring function asymptotically; (ii) the training framework enjoys an imbalance-aware generalization error bound, which pays more attention to the bottleneck samples of minority classes compared with the traditional $O(\sqrt{1/N})$ result. Practically, to deal with the low scalability of the computational operations, we propose acceleration methods for three popular surrogate loss functions, including the exponential loss, squared loss, and hinge loss, to speed up loss and gradient evaluations. Finally, experimental results on 11 real-world datasets demonstrate the effectiveness of our proposed framework.
翻訳日:2021-07-29 21:42:12 公開日:2021-07-28
# (参考訳) 個人化フェデレーション学習のパフォーマンスと公正性を評価するための新しい指標 [全文訳有]

New Metrics to Evaluate the Performance and Fairness of Personalized Federated Learning ( http://arxiv.org/abs/2107.13173v1 )

ライセンス: CC BY 4.0
Siddharth Divi, Yi-Shan Lin, Habiba Farrukh, Z. Berkay Celik(参考訳) フェデレーション学習(fl)では、クライアントは中央アグリゲータを通じて単一のグローバルモデル(fedavg)を学習する。 この設定では、クライアント間でのデータの非IID分布は、グローバルFLモデルが各クライアントのローカルデータに良いパフォーマンスを提供することを制限する。 パーソナライズされたFLは、クライアントごとにパーソナライズされたモデルを見つけることでこの問題に対処することを目指している。 最近の研究は、データセットの特定のデータ分割に対する平均パーソナライズされたモデルの精度を広く報告し、それらの手法の有効性を評価する。 しかし,提案する多数のパーソナライゼーション手法を考えると,公平性という公平な概念を持つユーザ毎のパーソナライズ精度と精度改善について検討することが重要である。 これらの問題に対処するために、パーソナライズされたflメソッドの品質を評価するための、一連のパフォーマンスと公平さの指標を示す。 CIFAR-10データセットの3つの異なるデータ分割に対して、最近提案された4つのパーソナライズされたFLメソッド、PersFL、FedPer、pFedMe、Per-FedAvgに適用する。 評価の結果,平均的精度が最も高いパーソナライズモデルが必ずしも公平ではないことが示唆された。 私たちのコードはhttps://tinyurl.com/ 1hp9ywfaで公開されています。

In Federated Learning (FL), the clients learn a single global model (FedAvg) through a central aggregator. In this setting, the non-IID distribution of the data across clients restricts the global FL model from delivering good performance on the local data of each client. Personalized FL aims to address this problem by finding a personalized model for each client. Recent works widely report the average personalized model accuracy on a particular data split of a dataset to evaluate the effectiveness of their methods. However, considering the multitude of personalization approaches proposed, it is critical to study the per-user personalized accuracy and the accuracy improvements among users with an equitable notion of fairness. To address these issues, we present a set of performance and fairness metrics intending to assess the quality of personalized FL methods. We apply these metrics to four recently proposed personalized FL methods, PersFL, FedPer, pFedMe, and Per-FedAvg, on three different data splits of the CIFAR-10 dataset. Our evaluations show that the personalized model with the highest average accuracy across users may not necessarily be the fairest. Our code is available at https://tinyurl.com/ 1hp9ywfa for public use.
翻訳日:2021-07-29 21:39:30 公開日:2021-07-28
# (参考訳) Squeeze-Excitation Convolutional Recurrent Neural Networks for Audio-Visual Scene Classification [全文訳有]

Squeeze-Excitation Convolutional Recurrent Neural Networks for Audio-Visual Scene Classification ( http://arxiv.org/abs/2107.13180v1 )

ライセンス: CC0 1.0
Javier Naranjo-Alcazar, Sergi Perez-Castanos, Aaron Lopez-Garcia, Pedro Zuccarello, Maximo Cobos, Francesc J. Ferri(参考訳) 多元的および意味的に相関したソースを使用することで、個々のモダリティを自分自身で扱うときに明らかでない相補的な情報を互いに提供することができる。 このコンテキストにおいて、マルチモーダルモデルは、オーディオ視覚データが利用可能な機械学習タスクにおいて、より正確で堅牢な予測を生成するのに役立つ。 本稿では,視覚情報と聴覚情報を同時に活用するマルチモーダルなシーン分類モデルを提案する。 提案手法では,各ネットワークが所定のモダリティを専門とするように,それぞれ音声と視覚データを分離して学習する2つのネットワークを用いる。 ビジュアルサブネットは、事前訓練されたVGG16モデルで、次に入札的再帰層で、残余のオーディオサブネットは、スクラッチから訓練された積み重ねされた圧縮励起畳み込みブロックに基づいている。 各サブネットワークをトレーニングした後、オーディオとビジュアルストリームからの情報の融合を2つの異なるステージで行う。 初期の融合段階は、各サブネットの最後の畳み込みブロックから生じる特徴を異なる時間ステップで組み合わせ、双方向のリカレント構造を供給する。 後期融合段階は、初期の融合段階の出力と2つのサブネットによって提供される独立した予測を組み合わせ、最終的な予測をもたらす。 2021年に発表されたTAU Audio-Visual Urban Scenes 2021は、ヨーロッパ12都市から10の異なるシーンで同時録音された音声と映像を収録する。 提案手法は,DCASE 2021 Challengeの評価結果において,予測性能 (86.5%) とシステム複雑性 (15Mパラメータ) との間に優れたトレードオフをもたらすことが示されている。

The use of multiple and semantically correlated sources can provide complementary information to each other that may not be evident when working with individual modalities on their own. In this context, multi-modal models can help producing more accurate and robust predictions in machine learning tasks where audio-visual data is available. This paper presents a multi-modal model for automatic scene classification that exploits simultaneously auditory and visual information. The proposed approach makes use of two separate networks which are respectively trained in isolation on audio and visual data, so that each network specializes in a given modality. The visual subnetwork is a pre-trained VGG16 model followed by a bidiretional recurrent layer, while the residual audio subnetwork is based on stacked squeeze-excitation convolutional blocks trained from scratch. After training each subnetwork, the fusion of information from the audio and visual streams is performed at two different stages. The early fusion stage combines features resulting from the last convolutional block of the respective subnetworks at different time steps to feed a bidirectional recurrent structure. The late fusion stage combines the output of the early fusion stage with the independent predictions provided by the two subnetworks, resulting in the final prediction. We evaluate the method using the recently published TAU Audio-Visual Urban Scenes 2021, which contains synchronized audio and video recordings from 12 European cities in 10 different scene classes. The proposed model has been shown to provide an excellent trade-off between prediction performance (86.5%) and system complexity (15M parameters) in the evaluation results of the DCASE 2021 Challenge.
翻訳日:2021-07-29 21:28:10 公開日:2021-07-28
# (参考訳) 補修可能な関数のニューラルネットワーク近似 [全文訳有]

Neural Network Approximation of Refinable Functions ( http://arxiv.org/abs/2107.13191v1 )

ライセンス: CC BY 4.0
Ingrid Daubechies, Ronald DeVore, Nadav Dym, Shira Faigenbaum-Golovin, Shahar Z. Kovalsky, Kung-Ching Lin, Josiah Park, Guergana Petrova, Barak Sober(参考訳) ディープラーニングやその他の応用におけるニューラルネットワークの成功を定量化するためには、どの関数がニューラルネットワークの出力によって効率的に近似されているかを理解することに大きな関心がある。 現在までには、広範囲の関数がこれらの出力によってしばしば驚くべき精度で近似できることを示す様々な結果が存在する。 例えば、指数的精度で近似できる関数の集合(使われるパラメータの数)は、一方的に多項式や解析関数のような非常に滑らかな関数を含むことが知られている(例えば、参照)。 \cite{e,s,y}) や、ワイエルシュトラス関数のような非常に粗い関数(例:weierstrass関数)がある。 \cite{EPGB,DDFHP})。 本稿では,再定義可能な関数も含むことを示すことで,後者の粗関数クラスに追加する。 すなわち,ReLUネットワークの幅が一定であり,パラメータ数で精度が指数関数的に増加することにより,精製可能な関数が近似されることを示す。 本研究は,ウェーブレットの標準構成に用いられる関数と,コンピュータ支援幾何設計における部分分割アルゴリズムによって構築された関数に適用する。

In the desire to quantify the success of neural networks in deep learning and other applications, there is a great interest in understanding which functions are efficiently approximated by the outputs of neural networks. By now, there exists a variety of results which show that a wide range of functions can be approximated with sometimes surprising accuracy by these outputs. For example, it is known that the set of functions that can be approximated with exponential accuracy (in terms of the number of parameters used) includes, on one hand, very smooth functions such as polynomials and analytic functions (see e.g. \cite{E,S,Y}) and, on the other hand, very rough functions such as the Weierstrass function (see e.g. \cite{EPGB,DDFHP}), which is nowhere differentiable. In this paper, we add to the latter class of rough functions by showing that it also includes refinable functions. Namely, we show that refinable functions are approximated by the outputs of deep ReLU networks with a fixed width and increasing depth with accuracy exponential in terms of their number of parameters. Our results apply to functions used in the standard construction of wavelets as well as to functions constructed via subdivision algorithms in Computer Aided Geometric Design.
翻訳日:2021-07-29 21:18:29 公開日:2021-07-28
# (参考訳) DeepTeeth:モバイルおよびハンドヘルドデバイスのための歯写真に基づく人間認証システム [全文訳有]

DeepTeeth: A Teeth-photo Based Human Authentication System for Mobile and Hand-held Devices ( http://arxiv.org/abs/2107.13217v1 )

ライセンス: CC BY 4.0
Geetika Arora, Rohit K Bharadwaj, Kamlesh Tiwari(参考訳) 本稿では,モバイルおよびハンドホルドデバイス上での人体認証のための新しいバイオメトリック・モダリティである歯写真を提案する。 携帯端末に搭載されたカメラを用いて生体計測サンプルを取得し、歯面積を登録するための特定のマーカーを有する移動体アプリケーションの助けを借りる。 次に、マーカーを用いて興味領域(RoI)を抽出し、得られたサンプルをコントラスト限定適応ヒストグラム等化(CLAHE)を用いて、視覚的明瞭度を向上させる。 小型のRoIに高度に識別可能な埋め込みを実現するためのディープラーニングアーキテクチャと新しい正規化手法を提案する。 提案されたカスタム損失関数は、75\times 75$サイズの小さなroiの完全な分類を達成することができた。 このモデルはエンドツーエンドかつ少数であり、時間とエネルギー要件の観点からは非常に効率的である。 このシステムは、デバイスアンロックやセキュアな認証など、さまざまな方法で使用することができる。 われわれが理解している限りでは、これはモバイル端末の歯写真ベースの認証に関する最初の作業だ。 本研究を応用して収集した歯写真データベースを用いて実験を行った。 データベースは公開されています。 その結果,提案手法の精度は完璧であった。

This paper proposes teeth-photo, a new biometric modality for human authentication on mobile and hand held devices. Biometrics samples are acquired using the camera mounted on mobile device with the help of a mobile application having specific markers to register the teeth area. Region of interest (RoI) is then extracted using the markers and the obtained sample is enhanced using contrast limited adaptive histogram equalization (CLAHE) for better visual clarity. We propose a deep learning architecture and novel regularization scheme to obtain highly discriminative embedding for small size RoI. Proposed custom loss function was able to achieve perfect classification for the tiny RoI of $75\times 75$ size. The model is end-to-end and few-shot and therefore is very efficient in terms of time and energy requirements. The system can be used in many ways including device unlocking and secure authentication. To the best of our understanding, this is the first work on teeth-photo based authentication for mobile device. Experiments have been conducted on an in-house teeth-photo database collected using our application. The database is made publicly available. Results have shown that the proposed system has perfect accuracy.
翻訳日:2021-07-29 20:56:52 公開日:2021-07-28
# (参考訳) 心拍音分類のための視覚的ドメイン伝達学習手法 [全文訳有]

A Visual Domain Transfer Learning Approach for Heartbeat Sound Classification ( http://arxiv.org/abs/2107.13237v1 )

ライセンス: CC BY 4.0
Uddipan Mukherjee, Sidharth Pancholi(参考訳) 心臓病は、人間の死亡率の3分の1を占める最も一般的な原因である。 疾患の早期発見は患者の生存率を高め、心臓病の徴候を早期に検出する方法がいくつかある。 本研究は, 清浄, 正常化された心臓音を視覚メルスケールのスペクトログラムに変換し, 視覚領域伝達学習法を用いて, 特徴抽出と心臓音の分類を自動的に行うことを提案する。 前回の研究では、様々なタイプの心臓音のスペクトログラムが人間の目と視覚的に区別可能であることが分かり、この研究は、心臓音の自動分類のための視覚領域分類アプローチの実験を動機付けた。 畳み込みニューラルネットワーク(convolution neural network-based architecture)を使用する。 ResNet、MobileNetV2などは、スペクトログラムから自動フィーチャー抽出器である。 画像領域のこれらの良く受容されたモデルは、振幅と雑音の異なる異なる環境から収集された心臓音の特徴表現の一般化を学習することを示した。 モデル評価基準は、選択したデータセットがバランスが取れていないため、分類精度、精度、リコール、AUROCであった。 提案手法はpascal heart sound collection のデータセット a と b に実装されており、両セットのカテゴリ精度 90% と auroc は 0.97 である。

Heart disease is the most common reason for human mortality that causes almost one-third of deaths throughout the world. Detecting the disease early increases the chances of survival of the patient and there are several ways a sign of heart disease can be detected early. This research proposes to convert cleansed and normalized heart sound into visual mel scale spectrograms and then using visual domain transfer learning approaches to automatically extract features and categorize between heart sounds. Some of the previous studies found that the spectrogram of various types of heart sounds is visually distinguishable to human eyes, which motivated this study to experiment on visual domain classification approaches for automated heart sound classification. It will use convolution neural network-based architectures i.e. ResNet, MobileNetV2, etc as the automated feature extractors from spectrograms. These well-accepted models in the image domain showed to learn generalized feature representations of cardiac sounds collected from different environments with varying amplitude and noise levels. Model evaluation criteria used were categorical accuracy, precision, recall, and AUROC as the chosen dataset is unbalanced. The proposed approach has been implemented on datasets A and B of the PASCAL heart sound collection and resulted in ~ 90% categorical accuracy and AUROC of ~0.97 for both sets.
翻訳日:2021-07-29 20:47:55 公開日:2021-07-28
# (参考訳) 産業環境におけるドリフト検出のためのベイズオートエンコーダ [全文訳有]

Bayesian Autoencoders for Drift Detection in Industrial Environments ( http://arxiv.org/abs/2107.13249v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong, Yasmin Fathy, Alexandra Brintrup(参考訳) オートエンコーダは、マルチセンサー環境で異常を検出するために使用される教師なしモデルである。 典型的な用途は、通常の条件下で動作しているセンサーのデータと、異常を検出するためにモデルを使用する予測モデルをトレーニングすることである。 異常は、環境の実際の変化(本当のドリフト)か、故障した感覚装置(仮想ドリフト)から生じるが、異なる異常を区別するためのオートエンコーダの使用はまだ検討されていない。 この目的のために,我々はまず,認識論的・弁別的不確かさを定量化するベイズオートエンコーダの開発を提案する。 次に,油圧状態モニタリングのための実世界の産業データセットを用いてベイズオートエンコーダをテストする。 本システムにはノイズやドリフトが注入され, 難治性は再建損失に比べてセンサの摂動に敏感でないことが判明した。 不確かさで再構成された信号を観測することで、解釈可能な洞察を得ることができ、これらの不確かさは現実と仮想のドリフトを区別する潜在的な道筋を提供する。

Autoencoders are unsupervised models which have been used for detecting anomalies in multi-sensor environments. A typical use includes training a predictive model with data from sensors operating under normal conditions and using the model to detect anomalies. Anomalies can come either from real changes in the environment (real drift) or from faulty sensory devices (virtual drift); however, the use of Autoencoders to distinguish between different anomalies has not yet been considered. To this end, we first propose the development of Bayesian Autoencoders to quantify epistemic and aleatoric uncertainties. We then test the Bayesian Autoencoder using a real-world industrial dataset for hydraulic condition monitoring. The system is injected with noise and drifts, and we have found the epistemic uncertainty to be less sensitive to sensor perturbations as compared to the reconstruction loss. By observing the reconstructed signals with the uncertainties, we gain interpretable insights, and these uncertainties offer a potential avenue for distinguishing real and virtual drifts.
翻訳日:2021-07-29 20:28:46 公開日:2021-07-28
# (参考訳) サイバー物理製造システムにおける不確実性下での機械学習のためのマルチエージェントシステム [全文訳有]

Multi Agent System for Machine Learning Under Uncertainty in Cyber Physical Manufacturing System ( http://arxiv.org/abs/2107.13252v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong and Alexandra Brintrup(参考訳) 最近の予測機械学習の進歩は、製造における様々なユースケースでその応用につながった。 ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。 正確性は重要だが、主に過度な危険に晒され、メーカーがリスクを冒し、最終的にはこれらの技術の採用を妨げる。 本稿では,機械学習における不確実性の発生源を特定し,サイバーフィジカル・マニュファクチャリング・システム(cpms)シナリオにおける不確実性下での機械学習システムの成功基準を確立する。 そこで本研究では,確率的機械学習を基準として活用するマルチエージェントシステムアーキテクチャを提案する。 提案するアーキテクチャが有効なシナリオを提案し,今後の課題について議論する。 本研究では,水理システムの実時間状態監視のための公開データセット上でのマルチタスク分類のためのベイズニューラルネットワークを実装し,その不確実性を考慮した予測の確率を評価することにより,システムの有用性を実証する。 提案するエージェントベースのフレームワークを用いてこれらのモデルをデプロイし,Webビジュアライゼーションを統合して,そのリアルタイム実現可能性を示す。

Recent advancements in predictive machine learning has led to its application in various use cases in manufacturing. Most research focused on maximising predictive accuracy without addressing the uncertainty associated with it. While accuracy is important, focusing primarily on it poses an overfitting danger, exposing manufacturers to risk, ultimately hindering the adoption of these techniques. In this paper, we determine the sources of uncertainty in machine learning and establish the success criteria of a machine learning system to function well under uncertainty in a cyber-physical manufacturing system (CPMS) scenario. Then, we propose a multi-agent system architecture which leverages probabilistic machine learning as a means of achieving such criteria. We propose possible scenarios for which our proposed architecture is useful and discuss future work. Experimentally, we implement Bayesian Neural Networks for multi-tasks classification on a public dataset for the real-time condition monitoring of a hydraulic system and demonstrate the usefulness of the system by evaluating the probability of a prediction being accurate given its uncertainty. We deploy these models using our proposed agent-based framework and integrate web visualisation to demonstrate its real-time feasibility.
翻訳日:2021-07-29 20:21:19 公開日:2021-07-28
# (参考訳) 解析継続のための学習最適化 [全文訳有]

Learned Optimizers for Analytic Continuation ( http://arxiv.org/abs/2107.13265v1 )

ライセンス: CC BY 4.0
Dongchen Huang and Yi-feng Yang(参考訳) 解析継続のための従来の最大エントロピーとスパーシティに基づくアルゴリズムは、しばしば不適切なカーネル行列に悩まされる。 本稿では,凸最適化によるニューラルネットワークの手法を提案する。 学習したオプティマイザは、トレーニング後、低コストで高品質なソリューションを提供し、ヒューリスティックな全接続ネットワークよりも高いパラメータ効率を達成することができる。 出力は、パフォーマンス向上のために最大エントロピーを改善するニューラルネットワークデフォルトモデルとしても使用できる。 本手法は大規模事前学習によって他の高次元逆問題にも容易に拡張できる。

Traditional maximum entropy and sparsity-based algorithms for analytic continuation often suffer from the ill-posed kernel matrix or demand tremendous computation time for parameter tuning. Here we propose a neural network method by convex optimization and replace the ill-posed inverse problem by a sequence of well-conditioned surrogate problems. After training, the learned optimizers are able to give a solution of high quality with low time cost and achieve higher parameter efficiency than heuristic full-connected networks. The output can also be used as a neural default model to improve the maximum entropy for better performance. Our methods may be easily extended to other high-dimensional inverse problems via large-scale pretraining.
翻訳日:2021-07-29 20:12:13 公開日:2021-07-28
# (参考訳) Aug3D-RPN:仮想深度合成画像による単眼3次元物体検出の改善 [全文訳有]

Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images with Virtual Depth ( http://arxiv.org/abs/2107.13269v1 )

ライセンス: CC BY 4.0
Chenhang He, Jianqiang Huang, Xian-Sheng Hua, and Lei Zhang(参考訳) 現在の幾何学に基づくモノキュラー3次元物体検出モデルでは、視点形状を利用して効率的に物体を検出できるが、正確な深度情報がないため、その性能は限られている。 この問題は、3次元ボックス推論の前に深度推定モジュールをプラグして深度情報を予測するディープベースモデルでは緩和できるが、そのようなモジュールの導入により検出速度が劇的に低下する。 コストのかかる深度推定器を訓練する代わりに、仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。 レンダリングモジュールは、RGB画像とそれに対応するスパース深度画像とを入力として、さまざまな写真リアルな合成画像を出力し、検出モデルは、オブジェクトの深度変化に適応するために、より識別的な特徴を学習することができる。 さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。 どちらのモジュールもトレーニング時間内に動作しており、検出モデルに余分な計算を導入することはない。 実験により,提案したモジュールを用いて,KITTI 3D検出ベンチマークにおいて,幾何モデルが先行精度を示すことを示す。

Current geometry-based monocular 3D object detection models can efficiently detect objects by leveraging perspective geometry, but their performance is limited due to the absence of accurate depth information. Though this issue can be alleviated in a depth-based model where a depth estimation module is plugged to predict depth information before 3D box reasoning, the introduction of such module dramatically reduces the detection speed. Instead of training a costly depth estimator, we propose a rendering module to augment the training data by synthesizing images with virtual-depths. The rendering module takes as input the RGB image and its corresponding sparse depth image, outputs a variety of photo-realistic synthetic images, from which the detection model can learn more discriminative features to adapt to the depth changes of the objects. Besides, we introduce an auxiliary module to improve the detection model by jointly optimizing it through a depth estimation task. Both modules are working in the training time and no extra computation will be introduced to the detection model. Experiments show that by working with our proposed modules, a geometry-based model can represent the leading accuracy on the KITTI 3D detection benchmark.
翻訳日:2021-07-29 20:02:01 公開日:2021-07-28
# (参考訳) データから学ぶことに関する考察:認識論の問題と限界 [全文訳有]

A Reflection on Learning from Data: Epistemology Issues and Limitations ( http://arxiv.org/abs/2107.13270v1 )

ライセンス: CC BY 4.0
Ahmad Hammoudeh, Sara Tedmori and Nadim Obeid(参考訳) データから学ぶことは効果的であり、重要なマイルストーンを達成したが、多くの課題と制限がある。 データから学ぶことは観察から始まり、より広い一般化へと進む。 このフレームワークは科学では議論の余地がありますが、素晴らしいエンジニアリングの成功を達成しています。 本稿では,認識論的問題とデータから得られた知識の限界について考察する。 この文書では、より多くのデータを得ることが、理論的および実践的な観点からより良い機械学習モデルを達成するための鍵である、という一般的な認識について論じている。 この論文は、一般的な数学的理論を用いてプロセスを記述する際の欠点について、いくつかの光を当てている。 さらに、データから学ぶことに特化した理論の必要性を強調している。 より多くのデータが機械学習モデルのパフォーマンスを一般的に活用しているが、実際にはその関係性は最善の対数であることが示されている。 最近の強化学習の研究は、この傾向がデータ指向のアプローチからアルゴリズムに依存していることを示している。 論文は、データから学ぶことは多くの制限によって妨げられると結論づけている。 したがって、インテンテンション指向を持つアプローチが必要となる。

Although learning from data is effective and has achieved significant milestones, it has many challenges and limitations. Learning from data starts from observations and then proceeds to broader generalizations. This framework is controversial in science, yet it has achieved remarkable engineering successes. This paper reflects on some epistemological issues and some of the limitations of the knowledge discovered in data. The document discusses the common perception that getting more data is the key to achieving better machine learning models from theoretical and practical perspectives. The paper sheds some light on the shortcomings of using generic mathematical theories to describe the process. It further highlights the need for theories specialized in learning from data. While more data leverages the performance of machine learning models in general, the relation in practice is shown to be logarithmic at its best; After a specific limit, more data stabilize or degrade the machine learning models. Recent work in reinforcement learning showed that the trend is shifting away from data-oriented approaches and relying more on algorithms. The paper concludes that learning from data is hindered by many limitations. Hence an approach that has an intensional orientation is needed.
翻訳日:2021-07-29 19:48:41 公開日:2021-07-28
# (参考訳) 混み合ったシーンにおける長期顔追跡のランクに基づく検証 [全文訳有]

Rank-based verification for long-term face tracking in crowded scenes ( http://arxiv.org/abs/2107.13273v1 )

ライセンス: CC BY 4.0
Germ\'an Barquero, Isabelle Hupont and Carles Fern\'andez(参考訳) 現在のマルチオブジェクトトラッカーのほとんどは、短期追跡に重点を置いており、リアルタイムに動作できない深く複雑なシステムに基づいているため、ビデオ監視には実用的ではない。 本稿では,顔が人の目に見える唯一の部分であるような混み合った状況下で作業するための,長期的な多面追跡アーキテクチャを提案する。 我々のシステムは、顔検出と顔認識の分野での進歩によって長期追跡が可能となり、特に人の動きや閉塞に制約されない。 高速の短期ビジュアルトラッカーと、ランクベースの顔認証に基づく新しいオンライントラックレット再接続戦略を組み合わせた、トラッキング・バイ・検出アプローチに従っている。 提案したランクに基づく制約は,トラックレット間のクラス間距離を高くし,誤接続によるエラーの伝播を低減する。 さらに、補正モジュールは、余分な計算コストなしで過去の割り当てを修正するために含まれる。 我々は,長期追跡機能評価のための新しい専門的指標を導入し,手動で注釈付きビデオ10本と総長さ8' 54の動画データセットを公開する実験を行った。 提案した各モジュールのロバスト性を検証し,これらの挑戦的な状況において,我々の手法は最先端のディープラーニングトラッカーよりも最大50%長いトラックが得られることを示した。

Most current multi-object trackers focus on short-term tracking, and are based on deep and complex systems that often cannot operate in real-time, making them impractical for video-surveillance. In this paper we present a long-term, multi-face tracking architecture conceived for working in crowded contexts where faces are often the only visible part of a person. Our system benefits from advances in the fields of face detection and face recognition to achieve long-term tracking, and is particularly unconstrained to the motion and occlusions of people. It follows a tracking-by-detectio n approach, combining a fast short-term visual tracker with a novel online tracklet reconnection strategy grounded on rank-based face verification. The proposed rank-based constraint favours higher inter-class distance among tracklets, and reduces the propagation of errors due to wrong reconnections. Additionally, a correction module is included to correct past assignments with no extra computational cost. We present a series of experiments introducing novel specialized metrics for the evaluation of long-term tracking capabilities, and publicly release a video dataset with 10 manually annotated videos and a total length of 8' 54". Our findings validate the robustness of each of the proposed modules, and demonstrate that, in these challenging contexts, our approach yields up to 50% longer tracks than state-of-the-art deep learning trackers.
翻訳日:2021-07-29 19:38:23 公開日:2021-07-28
# (参考訳) 無人航空機用ハイパースペクトル画像からのポテト遅延病自動検出のための新しいクロプトックネット [全文訳有]

A Novel CropdocNet for Automated Potato Late Blight Disease Detection from the Unmanned Aerial Vehicle-based Hyperspectral Imagery ( http://arxiv.org/abs/2107.13277v1 )

ライセンス: CC BY 4.0
Yue Shi, Liangxiu Han, Anthony Kleerekoper, Sheng Chang, Tongle Hu(参考訳) 晩発病はジャガイモの作物で最も破壊的な病気の1つであり、世界中で深刻な収量減少につながっている。 早期疾患の正確な診断は、精密疾患のコントロールと管理に重要である。 作物病の診断における現在の農業慣行は、個人のバイアスを受けるコスト、時間のかかる手動の視覚検査に基づいている。 撮像センサの最近の進歩(例) RGB、複数のスペクトルとハイパースペクトルカメラ、リモートセンシングと機械学習は、この課題に対処する機会を提供する。 特に、ハイパースペクトル画像(HSI)と機械学習/深層学習のアプローチを組み合わせることで、HSIは人間の視覚を超えた幅広い高品質の反射情報から構成されており、両方のスペクトル空間情報を捉えることができるため、特定の植物疾患を正確に識別することが好ましい。 提案手法は,キャノピー構造多様性に起因する潜在的疾患特異的反射率放射変動を考慮し,複数のカプセル層を導入し,スペクトル・空間的疾患属性の階層構造をカプセル化特徴でモデル化し,様々な分類と特徴空間における疾患属性の回転不変性を表現する。 制御フィールド条件下で、実際のUAVベースのHSIデータを用いて提案手法の評価を行った。 階層的特徴の有効性を定量的に評価し,既存の機械学習/深層学習手法と比較した。 実験の結果,スペクトル空間特徴の階層構造を考慮せず,従来のスペクトル空間特徴と空間空間空間特徴とスペクトル空間特徴のみを用いた手法と比較して,スペクトル空間特徴の階層構造を考慮した場合の精度が著しく向上した。

Late blight disease is one of the most destructive diseases in potato crop, leading to serious yield losses globally. Accurate diagnosis of the disease at early stage is critical for precision disease control and management. Current farm practices in crop disease diagnosis are based on manual visual inspection, which is costly, time consuming, subject to individual bias. Recent advances in imaging sensors (e.g. RGB, multiple spectral and hyperspectral cameras), remote sensing and machine learning offer the opportunity to address this challenge. Particularly, hyperspectral imagery (HSI) combining with machine learning/deep learning approaches is preferable for accurately identifying specific plant diseases because the HSI consists of a wide range of high-quality reflectance information beyond human vision, capable of capturing both spectral-spatial information. The proposed method considers the potential disease specific reflectance radiation variance caused by the canopy structural diversity, introduces the multiple capsule layers to model the hierarchical structure of the spectral-spatial disease attributes with the encapsulated features to represent the various classes and the rotation invariance of the disease attributes in the feature space. We have evaluated the proposed method with the real UAV-based HSI data under the controlled field conditions. The effectiveness of the hierarchical features has been quantitatively assessed and compared with the existing representative machine learning/deep learning methods. The experiment results show that the proposed model significantly improves the accuracy performance when considering hierarchical-structu re of spectral-spatial features, comparing to the existing methods only using spectral, or spatial or spectral-spatial features without consider hierarchical-structu re of spectral-spatial features.
翻訳日:2021-07-29 19:21:56 公開日:2021-07-28
# (参考訳) 擬似LiDARによる道路検出 [全文訳有]

Pseudo-LiDAR Based Road Detection ( http://arxiv.org/abs/2107.13279v1 )

ライセンス: CC BY 4.0
Libo Sun, Haokui Zhang and Wei Yin(参考訳) 道路検出は自動運転車にとって極めて重要な課題である。 LiDARデータを利用することで,道路検出の精度を大幅に向上した。 LiDARセンサーによるリライジングは、カメラのみが利用できる場合に、これらの手法の幅広い適用を制限する。 本稿では,RGBが推論中唯一の入力となる道路検出手法を提案する。 具体的には,深度推定を用いた擬似LiDARを利用して,RGBと学習深度情報を融合した特徴融合ネットワークを提案する。 ネットワーク構造をさらに最適化し、ネットワークの効率を向上させる。 我々はNAS技術を用いて特徴融合モジュールのネットワーク構造を探索する。 最後に,RGBから深度推定による擬似LiDARの生成には余分な計算コストが伴い,深度推定ネットワークに依存することに留意する。 提案手法は, KITTI と R2D の2つのベンチマークにおいて,最先端性能を実現する。

Road detection is a critically important task for self-driving cars. By employing LiDAR data, recent works have significantly improved the accuracy of road detection. Relying on LiDAR sensors limits the wide application of those methods when only cameras are available. In this paper, we propose a novel road detection approach with RGB being the only input during inference. Specifically, we exploit pseudo-LiDAR using depth estimation, and propose a feature fusion network where RGB and learned depth information are fused for improved road detection. To further optimize the network structure and improve the efficiency of the network. we search for the network structure of the feature fusion module using NAS techniques. Finally, be aware of that generating pseudo-LiDAR from RGB via depth estimation introduces extra computational costs and relies on depth estimation networks, we design a modality distillation strategy and leverage it to further free our network from these extra computational cost and dependencies during inference. The proposed method achieves state-of-the-art performance on two challenging benchmarks, KITTI and R2D.
翻訳日:2021-07-29 19:00:57 公開日:2021-07-28
# (参考訳) ベイズオートエンコーダ:分布外検出のためのベルヌーイ確率の解析と固定 [全文訳有]

Bayesian Autoencoders: Analysing and Fixing the Bernoulli likelihood for Out-of-Distribution Detection ( http://arxiv.org/abs/2107.13304v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong, Tim Pearce, Alexandra Brintrup(参考訳) オートエンコーダ(AE)が1つのデータセットの再構築を習った後、アウト・オブ・ディストリビューション(OOD)入力の確率が低いことが予想される。 これはOOD入力を検出するアプローチとして研究されている。 最近の研究は、データセットペアのFashionMNIST対MNISTでこの直感的なアプローチが失敗することを示した。 本論文は, ベルヌーイ法を用いて, 推定の不確かさをベイズ版 ae を用いて計算する, という2つの問題に対して, ベルヌーイ法が適用されていることを示唆する。 2) 確率をモデル化するために代替分布を用いる。

After an autoencoder (AE) has learnt to reconstruct one dataset, it might be expected that the likelihood on an out-of-distribution (OOD) input would be low. This has been studied as an approach to detect OOD inputs. Recent work showed this intuitive approach can fail for the dataset pairs FashionMNIST vs MNIST. This paper suggests this is due to the use of Bernoulli likelihood and analyses why this is the case, proposing two fixes: 1) Compute the uncertainty of likelihood estimate by using a Bayesian version of the AE. 2) Use alternative distributions to model the likelihood.
翻訳日:2021-07-29 18:44:04 公開日:2021-07-28
# (参考訳) 不確実なデータを有するチャンス制約円錐分割支援ベクトルマシン [全文訳有]

Chance constrained conic-segmentation support vector machine with uncertain data ( http://arxiv.org/abs/2107.13319v1 )

ライセンス: CC BY 4.0
Shen Peng, Gianpiero Canessa(参考訳) サポートベクトルマシン(SVM)は、よく知られた学習アルゴリズムのクラスの一つである。 さらに、CS-SVMモデルは、データポイントの正確な値が知られている状況を扱うため、円錐分割SVM(CS-SVM)は標準バイナリSVMの自然なマルチクラスアナログである。 本稿では,CS-SVMのデータポイントの不確かさや誤動作について検討する。 いくつかの特性が分布として知られており、不確実なデータの誤分類の少ない確率を保証するために、確率制約付きCS-SVMアプローチが用いられる。 幾何学的解釈はCS-SVMの動作を示す。 最後に,CS-SVMの性能に制約があるかどうかを実験的に検討する。

Support vector machines (SVM) is one of the well known supervised classes of learning algorithms. Furthermore, the conic-segmentation SVM (CS-SVM) is a natural multiclass analogue of the standard binary SVM, as CS-SVM models are dealing with the situation where the exact values of the data points are known. This paper studies CS-SVM when the data points are uncertain or mislabelled. With some properties known for the distributions, a chance-constrained CS-SVM approach is used to ensure the small probability of misclassification for the uncertain data. The geometric interpretation is presented to show how CS-SVM works. Finally, we present experimental results to investigate the chance constrained CS-SVM's performance.
翻訳日:2021-07-29 18:32:01 公開日:2021-07-28
# (参考訳) WaveCNet:ウェーブレット統合CNNによるノイズ・ロバスト画像分類におけるエイリアス効果の抑制 [全文訳有]

WaveCNet: Wavelet Integrated CNNs to Suppress Aliasing Effect for Noise-Robust Image Classification ( http://arxiv.org/abs/2107.13335v1 )

ライセンス: CC BY 4.0
Qiufu Li, Linlin Shen, Sheng Guo, Zhihui Lai(参考訳) 画像分類では広く使われているが、畳み込みニューラルネットワーク(CNN)はノイズの中断がちである。 CNN出力は、小さな画像ノイズによって劇的に変化する。 雑音のロバスト性を改善するために,一般的なダウンサンプリング(最大プール,ストレート畳み込み,平均プール)を離散ウェーブレット変換(dwt)に置き換え,cnnをウェーブレットに統合する。 まず,DWTを一般的なCNN(VGG,ResNets,Dens eNets)に統合し,Har,Daubechies,Cohe nなどの直交および直交の離散ウェーブレットに適用可能な一般DWTおよび逆DWT(IDWT)層を提案する。 ダウンサンプリング中、WaveCNetはDWTを適用して、機能マップを低周波および高周波コンポーネントに分解する。 基本オブジェクト構造を含む主情報を含む低周波成分は以下の層に送信され、堅牢な高レベル特徴を生成する。 高周波コンポーネントは、データノイズの大部分を取り除くためにドロップされる。 実験の結果、%waveletはCNNトレーニングを加速し、WaveCNetは各種のバニラCNNよりもImageNet上で高い精度を達成することがわかった。 また,imagenet,imagenet-c ,および6つの敵対的攻撃におけるwavecnetの性能を検証した結果,提案するdwt/idwt層がより優れたノイズロバスト性と逆ロバスト性をもたらす可能性が示唆された。 バックボーンとしてWaveCNetを適用する場合、COCO検出データセット上でのオブジェクト検出器(高速なR-CNNとRetinaNet)の性能は一貫して改善される。 我々はエイリアス効果の抑制、すなわち 低周波情報と高周波情報の分離が 我々のアプローチの主な利点です DWT/IDWT層と異なるWaveCNetのコードはhttps://github.com/C VI-SZU/WaveCNet.orgで公開されている。

Though widely used in image classification, convolutional neural networks (CNNs) are prone to noise interruptions, i.e. the CNN output can be drastically changed by small image noise. To improve the noise robustness, we try to integrate CNNs with wavelet by replacing the common down-sampling (max-pooling, strided-convolution, and average pooling) with discrete wavelet transform (DWT). We firstly propose general DWT and inverse DWT (IDWT) layers applicable to various orthogonal and biorthogonal discrete wavelets like Haar, Daubechies, and Cohen, etc., and then design wavelet integrated CNNs (WaveCNets) by integrating DWT into the commonly used CNNs (VGG, ResNets, and DenseNet). During the down-sampling, WaveCNets apply DWT to decompose the feature maps into the low-frequency and high-frequency components. Containing the main information including the basic object structures, the low-frequency component is transmitted into the following layers to generate robust high-level features. The high-frequency components are dropped to remove most of the data noises. The experimental results show that %wavelet accelerates the CNN training, and WaveCNets achieve higher accuracy on ImageNet than various vanilla CNNs. We have also tested the performance of WaveCNets on the noisy version of ImageNet, ImageNet-C and six adversarial attacks, the results suggest that the proposed DWT/IDWT layers could provide better noise-robustness and adversarial robustness. When applying WaveCNets as backbones, the performance of object detectors (i.e., faster R-CNN and RetinaNet) on COCO detection dataset are consistently improved. We believe that suppression of aliasing effect, i.e. separation of low frequency and high frequency information, is the main advantages of our approach. The code of our DWT/IDWT layer and different WaveCNets are available at https://github.com/C VI-SZU/WaveCNet.
翻訳日:2021-07-29 18:21:47 公開日:2021-07-28
# (参考訳) マルチタスクスパースリワード設定における連続制御ロボットマニピュレーションのための値ベース強化学習 [全文訳有]

Value-Based Reinforcement Learning for Continuous Control Robotic Manipulation in Multi-Task Sparse Reward Settings ( http://arxiv.org/abs/2107.13356v1 )

ライセンス: CC BY 4.0
Sreehari Rammohan, Shangqun Yu, Bowen He, Eric Hsiung, Eric Rosen, Stefanie Tellex, George Konidaris(参考訳) ロボット操作のような高次元スパース報酬設定で連続制御を学ぶことは、正確な最適値とポリシー推定を得るのにしばしば必要なサンプル数のために難しい問題である。 多くの深層強化学習手法は、リプレイや探索手法の改善によるサンプル効率の向上を目的としているが、アートアクター批判的・政策勾配法の現状は、スパース報酬設定におけるハード探索問題に悩まされている。 近年のRBF-DQNのような状態行動値の近似手法の成功に触発されて,マルチタスクスパース報酬設定で連続的なロボット操作タスクを学習するための価値ベースの強化学習の可能性を探る。 ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。 また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。 実験結果から, 価値ベースアプローチは, ポリシー勾配法よりもデータ拡張やリプレイバッファ法に敏感であり, ロボット操作におけるこれらの手法の利点は, 生成する下位状態の遷移ダイナミクスに大きく依存することが示唆された。

Learning continuous control in high-dimensional sparse reward settings, such as robotic manipulation, is a challenging problem due to the number of samples often required to obtain accurate optimal value and policy estimates. While many deep reinforcement learning methods have aimed at improving sample efficiency through replay or improved exploration techniques, state of the art actor-critic and policy gradient methods still suffer from the hard exploration problem in sparse reward settings. Motivated by recent successes of value-based methods for approximating state-action values, like RBF-DQN, we explore the potential of value-based reinforcement learning for learning continuous robotic manipulation tasks in multi-task sparse reward settings. On robotic manipulation tasks, we empirically show RBF-DQN converges faster than current state of the art algorithms such as TD3, SAC, and PPO. We also perform ablation studies with RBF-DQN and have shown that some enhancement techniques for vanilla Deep Q learning such as Hindsight Experience Replay (HER) and Prioritized Experience Replay (PER) can also be applied to RBF-DQN. Our experimental analysis suggests that value-based approaches may be more sensitive to data augmentation and replay buffer sample techniques than policy-gradient methods, and that the benefits of these methods for robot manipulation are heavily dependent on the transition dynamics of generated subgoal states.
翻訳日:2021-07-29 17:47:37 公開日:2021-07-28
# (参考訳) 単一光子時間画像センサによる高速物体検出 [全文訳有]

High-speed object detection with a single-photon time-of-flight image sensor ( http://arxiv.org/abs/2107.13407v1 )

ライセンス: CC BY 4.0
Germ\'an Mora-Mart\'in, Alex Turpin, Alice Ruget, Abderrahim Halimi, Robert Henderson, Jonathan Leach and Istvan Gyongy(参考訳) 3d time-of(tof)イメージングは、拡張現実(ar)、コンピュータインターフェース、ロボット工学、自律システムなど、さまざまなアプリケーションで使用されている。 単一光子アバランシェダイオード(SPAD)は、長距離でも正確な深度データを提供できる技術の一つである。 パルス型照明と統合処理を組み合わせた配列形式でSPADを開発することにより,高速3Dキャプチャが可能となる。 しかし、配列のサイズは比較的小さく、結果として得られる深度マップの解像度が制限され、その結果、画像から抽出できる情報は物体検出などの用途のために抽出される。 本稿では,高性能物体検出のための畳み込みニューラルネットワーク(CNN)を用いて,これらの制限を克服できることを実証する。 我々は,64×32の空間解像度で16ビンの光子タイミングヒストグラムを出力する携帯型SPADカメラシステムによる屋外実験を行った。 その結果、露光時間は2ms(500 FPSと同値)、信号-地上比(SBR)は0.05まで低下し、CNNに点雲のみではなく完全なヒストグラムデータを提供することの利点を示している。 あるいは、同じレベルのパフォーマンスのために、ポイントクラウドとアクティブインテンシティデータの組み合わせを入力として使用することもできる。 いずれの場合も、GPUが加速する処理時間は1フレームあたり1ミリ秒未満であり、ミリ秒単位の全体的なレイテンシ(画像取得と処理)につながるため、人間の反応時間よりも高速な安全クリティカルなコンピュータビジョンアプリケーションに関連する結果が得られる。

3D time-of-flight (ToF) imaging is used in a variety of applications such as augmented reality (AR), computer interfaces, robotics and autonomous systems. Single-photon avalanche diodes (SPADs) are one of the enabling technologies providing accurate depth data even over long ranges. By developing SPADs in array format with integrated processing combined with pulsed, flood-type illumination, high-speed 3D capture is possible. However, array sizes tend to be relatively small, limiting the lateral resolution of the resulting depth maps, and, consequently, the information that can be extracted from the image for applications such as object detection. In this paper, we demonstrate that these limitations can be overcome through the use of convolutional neural networks (CNNs) for high-performance object detection. We present outdoor results from a portable SPAD camera system that outputs 16-bin photon timing histograms with 64x32 spatial resolution. The results, obtained with exposure times down to 2 ms (equivalent to 500 FPS) and in signal-to-background (SBR) ratios as low as 0.05, point to the advantages of providing the CNN with full histogram data rather than point clouds alone. Alternatively, a combination of point cloud and active intensity data may be used as input, for a similar level of performance. In either case, the GPU-accelerated processing time is less than 1 ms per frame, leading to an overall latency (image acquisition plus processing) in the millisecond range, making the results relevant for safety-critical computer vision applications which would benefit from faster than human reaction times.
翻訳日:2021-07-29 17:37:55 公開日:2021-07-28
# (参考訳) ブラインド画像品質モデルの連続学習のためのタスク特化正規化 [全文訳有]

Task-Specific Normalization for Continual Learning of Blind Image Quality Models ( http://arxiv.org/abs/2107.13429v1 )

ライセンス: CC BY 4.0
Weixia Zhang and Kede Ma and Guangtao Zhai and Xiaokang Yang(参考訳) コンピュータビジョンコミュニティは、最近、ブラインド画像品質評価(BIQA)のための継続的な学習に注意を払っている。 主な課題は、以前に見られたIQAデータセット(すなわちタスク)の破滅的な忘れと戦うことである。 本稿では,biqaの品質予測精度,可塑性安定トレードオフ,タスク順序/長さのロバスト性を改善した,単純かつ効果的なbiqa連続学習手法を提案する。 このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明確に保証し、可塑性のタスク固有の正規化パラメータを学習することだ。 我々は,各タスクに予測ヘッドを割り当て,対応する正規化パラメータをロードして品質スコアを生成する。 最終品質推定は、テスト時間オラクルを使わずに階層表現を用いて特徴融合と適応重み付けによって計算される。 6つのIQAデータセットに対する大規模な実験は、BIQAの以前のトレーニング手法と比較して提案手法の利点を示している。

The computational vision community has recently paid attention to continual learning for blind image quality assessment (BIQA). The primary challenge is to combat catastrophic forgetting of previously-seen IQA datasets (i.e., tasks). In this paper, we present a simple yet effective continual learning method for BIQA with improved quality prediction accuracy, plasticity-stability trade-off, and task-order/length robustness. The key step in our approach is to freeze all convolution filters of a pre-trained deep neural network (DNN) for an explicit promise of stability, and learn task-specific normalization parameters for plasticity. We assign each new task a prediction head, and load the corresponding normalization parameters to produce a quality score. The final quality estimate is computed by feature fusion and adaptive weighting using hierarchical representations, without leveraging the test-time oracle. Extensive experiments on six IQA datasets demonstrate the advantages of the proposed method in comparison to previous training techniques for BIQA.
翻訳日:2021-07-29 17:21:43 公開日:2021-07-28
# (参考訳) 乳房超音波検診レポートを効率よく生成するAI支援法 [全文訳有]

AI assisted method for efficiently generating breast ultrasound screening reports ( http://arxiv.org/abs/2107.13431v1 )

ライセンス: CC BY 4.0
Shuang Ge, Qiongyu Ye, Wenquan Xie, Desheng Sun, Huabin Zhang, Xiaobo Zhou, Kehong Yuan(参考訳) 超音波検査は乳がんの早期スクリーニングに好適である。 臨床的には、医師は、時間と労力のかかるスクリーニングレポートを手作業で書かなければならない。 そこで本研究では,aiによるパーソナライズされた乳房超音波スクリーニング予備報告を効率的に生成する方法を提案する。 医師は簡単な調整や修正を行い、最終報告を迅速に作成する。 提案手法は乳腺腫瘍1133例のデータベースを用いて検討した。 実験の結果、このパイプラインは医師の作業効率を最大90%向上させ、反復作業を大幅に削減できることがわかった。

Ultrasound is the preferred choice for early screening of dense breast cancer. Clinically, doctors have to manually write the screening report which is time-consuming and laborious, and it is easy to miss and miswrite. Therefore, this paper proposes a method for efficiently generating personalized breast ultrasound screening preliminary reports by AI, especially for benign and normal cases which account for the majority. Doctors then make simple adjustments or corrections to quickly generate final reports. The proposed approach has been tested using a database of 1133 breast tumor instances. Experimental results indicate this pipeline improves doctors' work efficiency by up to 90%, which greatly reduces repetitive work.
翻訳日:2021-07-29 17:00:52 公開日:2021-07-28
# (参考訳) 自己学習エミュレータと固有ベクトル継続 [全文訳有]

Self-learning Emulators and Eigenvector Continuation ( http://arxiv.org/abs/2107.13449v1 )

ライセンス: CC BY 4.0
Avik Sarkar, Dean Lee(参考訳) 計算に高価な科学計算を高い精度とスピードでバイパスできるエミュレータは、基礎科学の新しい研究と潜在的な応用を可能にする。 本研究では,自己学習エミュレーションと呼ばれる新しい機械学習手法を用いて,制約方程式の体系を効率的に解くことに焦点を当てる。 自己学習エミュレータ(self-learning emulator)は、ある種の制御パラメータを越えて方程式のシステムを迅速に解くことのできる、アクティブな学習プロトコルである。 重要な要素はエミュレーターのエラーを素早く見積もることであり、エミュレータが改善するにつれて徐々に正確になる。 この加速はエミュレータ自体がエラーを推定するために使われるため可能であり、2つの例を示す。 第一は立方体スプライン補間を用いて、変数係数を持つ多項式の根を見つける。 第二の例は固有ベクトル継続を使い、いくつかの制御パラメータに依存する大きなハミルトン行列の固有ベクトルと固有値を見つける。 代数方程式、線形および非線形微分方程式、線形および非線形固有値問題の解系に対する自己学習エミュレータの今後の応用を想定する。

Emulators that can bypass computationally expensive scientific calculations with high accuracy and speed can enable new studies of fundamental science as well as more potential applications. In this work we focus on solving a system of constraint equations efficiently using a new machine learning approach that we call self-learning emulation. A self-learning emulator is an active learning protocol that can rapidly solve a system of equations over some range of control parameters. The key ingredient is a fast estimate of the emulator error that becomes progressively more accurate as the emulator improves. This acceleration is possible because the emulator itself is used to estimate the error, and we illustrate with two examples. The first uses cubic spline interpolation to find the roots of a polynomial with variable coefficients. The second example uses eigenvector continuation to find the eigenvectors and eigenvalues of a large Hamiltonian matrix that depends on several control parameters. We envision future applications of self-learning emulators for solving systems of algebraic equations, linear and nonlinear differential equations, and linear and nonlinear eigenvalue problems.
翻訳日:2021-07-29 16:54:00 公開日:2021-07-28
# (参考訳) 医療における人工知能:翻訳の損失は? [全文訳有]

Artificial Intelligence in Healthcare: Lost In Translation? ( http://arxiv.org/abs/2107.13454v1 )

ライセンス: CC BY-SA 4.0
Vince I. Madai and David C. Higgins(参考訳) 医療におけるai(artificial intelligence)は、全体の健康コストを削減しつつ、医療結果を改善するための革命的なツールである。 近年、多くの探索的な結果が見出しに載っているが、臨床現場で利用可能な認証済みの製品は少なく、臨床的に検証された製品も少ない。 これは、現在の医療におけるAIアプローチの欠点による翻訳の失敗の明確な兆候である。 本研究では、医療におけるAI翻訳の現在の課題、すなわち、精密医療、再現可能な科学、データ問題とアルゴリズム、因果性、製品開発を観察する分野について強調する。 各分野について、これらの課題に対する可能な解決策を概説する。 我々の研究は、医療製品におけるAIの医療現場への翻訳の改善に繋がる

Artificial intelligence (AI) in healthcare is a potentially revolutionary tool to achieve improved healthcare outcomes while reducing overall health costs. While many exploratory results hit the headlines in recent years there are only few certified and even fewer clinically validated products available in the clinical setting. This is a clear indication of failing translation due to shortcomings of the current approach to AI in healthcare. In this work, we highlight the major areas, where we observe current challenges for translation in AI in healthcare, namely precision medicine, reproducible science, data issues and algorithms, causality, and product development. For each field, we outline possible solutions for these challenges. Our work will lead to improved translation of AI in healthcare products into the clinical setting
翻訳日:2021-07-29 16:42:25 公開日:2021-07-28
# (参考訳) 正規教師なし領域適応のための逐次条件付きガウス [全文訳有]

Recursively Conditional Gaussian for Ordinal Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.13467v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Site Li, Yubin Ge, Pengyi Ye, Jane You, Jun Lu(参考訳) データスケーラビリティの問題を軽減するために、教師なしのドメイン適応(UDA)への関心が高まっていますが、既存の作業は通常、独立したラベルの分類に重点を置いています。 しかし、多くのタスク(例えば医療診断)において、ラベルは離散的かつ連続的に分散される。 順序分類のためのUDAは、潜在空間の前に非自明な順序分布を誘導する必要がある。 対象とする部分順序集合(poset)は、潜在ベクトルを制限するために定義される。 典型的なi. i. d. の代わりに ガウスラテント(Gaussian latent)は、この研究において、順序制約モデリングに対して再帰的条件付きガウス集合 (RCG) を提案する。 さらに,ポーズ制約に違反するコンテンツベクトルの密度を,単純な「3シグマ規則」によって制御することができる。 クロスドメイン画像を共有順序付き前順序付きコンテンツ空間と2つの異なるソース/ターゲット順序付き無関係空間に明示的に分割し、その自己訓練を順序対応ドメインアライメント専用の共有空間上で行う。 udaの医療診断と顔の年齢推定に関する広範囲な実験は、その効果を示している。

There has been a growing interest in unsupervised domain adaptation (UDA) to alleviate the data scalability issue, while the existing works usually focus on classifying independently discrete labels. However, in many tasks (e.g., medical diagnosis), the labels are discrete and successively distributed. The UDA for ordinal classification requires inducing non-trivial ordinal distribution prior to the latent space. Target for this, the partially ordered set (poset) is defined for constraining the latent vector. Instead of the typically i.i.d. Gaussian latent prior, in this work, a recursively conditional Gaussian (RCG) set is proposed for ordered constraint modeling, which admits a tractable joint distribution prior. Furthermore, we are able to control the density of content vectors that violate the poset constraint by a simple "three-sigma rule". We explicitly disentangle the cross-domain images into a shared ordinal prior induced ordinal content space and two separate source/target ordinal-unrelated spaces, and the self-training is worked on the shared space exclusively for ordinal-aware domain alignment. Extensive experiments on UDA medical diagnoses and facial age estimation demonstrate its effectiveness.
翻訳日:2021-07-29 16:25:49 公開日:2021-07-28
# (参考訳) 条件シフトとラベルシフトによる非教師付きドメイン適応:推論、アライメント、反復 [全文訳有]

Adversarial Unsupervised Domain Adaptation with Conditional and Label Shift: Infer, Align and Iterate ( http://arxiv.org/abs/2107.13469v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Zhenhua Guo, Site Li, Fangxu Xing, Jane You, C.-C. Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 本稿では,w.r.tの分布を整合させることを目的として,固有条件とラベルシフトを用いた非教師なしドメイン適応(uda)アプローチを提案する。 $p(x|y)$と$p(y)$の両方。 ラベルは対象領域では到達できないので、従来の逆数 UDA は$p(y)$ が領域間で不変であると仮定し、$p(x|y)$ アライメントの代わりに$p(x)$ をアライメントすることに依存する。 そこで本稿では,従来のUDA手法の条件変化とラベルシフトの両面からの理論的,実証的な解析を行い,新しい代替最適化手法を提案する。 具体的には、トレーニング中にマージン $p(y)$ とアライメント $p(x|y)$ を反復的に推測し、テストで後方の $p(y|x)$ を正確に調整します。 以上の結果から, 分類と分節UDA, 部分的UDAの有効性が示された。

In this work, we propose an adversarial unsupervised domain adaptation (UDA) approach with the inherent conditional and label shifts, in which we aim to align the distributions w.r.t. both $p(x|y)$ and $p(y)$. Since the label is inaccessible in the target domain, the conventional adversarial UDA assumes $p(y)$ is invariant across domains, and relies on aligning $p(x)$ as an alternative to the $p(x|y)$ alignment. To address this, we provide a thorough theoretical and empirical analysis of the conventional adversarial UDA methods under both conditional and label shifts, and propose a novel and practical alternative optimization scheme for adversarial UDA. Specifically, we infer the marginal $p(y)$ and align $p(x|y)$ iteratively in the training, and precisely align the posterior $p(y|x)$ in testing. Our experimental results demonstrate its effectiveness on both classification and segmentation UDA, and partial UDA.
翻訳日:2021-07-29 16:06:23 公開日:2021-07-28
# (参考訳) Portiloop:クローズドループ脳刺激のためのディープラーニングベースのオープンサイエンスツール [全文訳有]

The Portiloop: a deep learning-based open science tool for closed-loop brain stimulation ( http://arxiv.org/abs/2107.13473v1 )

ライセンス: CC BY 4.0
Nicolas Valenchon, Yann Bouteiller, Hugo R. Jourde, Emily B.J. Coffey and Giovanni Beltrame(参考訳) 脳波(EEG)は、非侵襲的な頭皮電極を用いて脳の電気活動を測定する方法である。 本稿では,神経科学コミュニティが脳波を捉え,リアルタイムで処理し,関心のパターンを検出し,正確な時間的刺激で反応できる,深層学習ベースのポータブルで低コストなデバイスであるportiloopを提案する。 Portiloopのコアは、ADC(Analog to Digital Converter)とFPGA(Field-Programma ble Gate Array)で構成されるチップ上のシステムである。 ADCによってデジタルに変換された後、EEG信号はFPGAで処理される。 FPGAには、ハードウェアに直接実装された畳み込みおよび繰り返しユニットを備えたアドホックニューラルネットワーク(ANN)が含まれている。 ANNの出力は、ユーザ定義のフィードバックをトリガーするために使用される。 ケーススタディとして、Portiloopを使ってリアルタイムスリープスピンドル刺激アプリケーションを開発した。 睡眠スピンドル(Sleep spindles)は、脳波記録で観察される特定の過渡振動(2.5 s, 12-16 Hz)であり、睡眠中の記憶の凝縮と関連している。 我々は、既存の脳波睡眠記録データベースを用いて、睡眠スピンドルをリアルタイムで検出および刺激するポートループの能力をテストした。 精度とリコールの両方で71%の精度を持つこのシステムは、初期から300ms以内のスピンドルを刺激することができ、初期スピンドル全体を実験的に操作することができる。 Portiloopは、EEG内の他の神経イベントを検出し、刺激するために拡張することができる。 オープンサイエンスプロジェクトとして研究コミュニティで完全に利用可能である。

Electroencephalograp hy (EEG) is a method of measuring the brain's electrical activity, using non-invasive scalp electrodes. In this article, we propose the Portiloop, a deep learning-based portable and low-cost device enabling the neuroscience community to capture EEG, process it in real time, detect patterns of interest, and respond with precisely-timed stimulation. The core of the Portiloop is a System on Chip composed of an Analog to Digital Converter (ADC) and a Field-Programmable Gate Array (FPGA). After being converted to digital by the ADC, the EEG signal is processed in the FPGA. The FPGA contains an ad-hoc Artificial Neural Network (ANN) with convolutional and recurrent units, directly implemented in hardware. The output of the ANN is then used to trigger the user-defined feedback. We use the Portiloop to develop a real-time sleep spindle stimulating application, as a case study. Sleep spindles are a specific type of transient oscillation ($\sim$2.5 s, 12-16 Hz) that are observed in EEG recordings, and are related to memory consolidation during sleep. We tested the Portiloop's capacity to detect and stimulate sleep spindles in real time using an existing database of EEG sleep recordings. With 71% for both precision and recall as compared with expert labels, the system is able to stimulate spindles within $\sim$300 ms of their onset, enabling experimental manipulation of early the entire spindle. The Portiloop can be extended to detect and stimulate other neural events in EEG. It is fully available to the research community as an open science project.
翻訳日:2021-07-29 15:48:35 公開日:2021-07-28
# (参考訳) 滑らかな1-wasserstein距離の極限分布理論とその応用

Limit Distribution Theory for the Smooth 1-Wasserstein Distance with Applications ( http://arxiv.org/abs/2107.13494v1 )

ライセンス: CC BY 4.0
Ritwik Sadhu and Ziv Goldfeld and Kengo Kato(参考訳) 滑らかな 1-wasserstein distance (swd) $w_1^\sigma$ は、ワッサーシュタイン構造を維持しながら経験的近似における次元の呪いを緩和する方法として最近提案されている。 実際、SWDはパラメトリック収束率を示し、古典的なワッサーシュタイン距離の計量と位相構造を継承する。 このように動機づけられた本研究は,経験値$w_1^\sigma$,ブートストラップ一貫性,濃度不等式,ベリー・エスセン型境界に対する高次元の極限分布結果を含む,swdの詳細な統計的研究を行っている。 導出非退化極限は、古典的な経験的 w_1$ と鋭く対照的であり、同様の結果が1次元の場合のみ知られている。 また、スムージングパラメータ$\sigma$が$n$にスケールされ、十分に遅いレートで$0$に収束するときに、漸近性を調べ、極限分布を特徴づける。 サンプル分布の次元性は、事前因子(すなわち定数)を通してのみ経験的なswd収束境界に入る。 我々は,この因子がスムースなパラメータと本質的な次元に依存していることの鋭い特徴を与える。 この結果は、古典的な$W_1$の新しい経験的収束率を本質的な次元で導き出すために用いられる。 極限分布理論の応用として、$W_1^\sigma$の下で二サンプル試験と最小距離推定(MDE)について検討する。 我々はSWDテストの漸近的妥当性を確立し、MDEでは測定可能性、ほぼ確実に収束し、最適推定器と対応する$W_1^\sigma$誤差の分布を制限する。 その結果,SWDは高次元の統計的学習や推論に適していることが示唆された。

The smooth 1-Wasserstein distance (SWD) $W_1^\sigma$ was recently proposed as a means to mitigate the curse of dimensionality in empirical approximation while preserving the Wasserstein structure. Indeed, SWD exhibits parametric convergence rates and inherits the metric and topological structure of the classic Wasserstein distance. Motivated by the above, this work conducts a thorough statistical study of the SWD, including a high-dimensional limit distribution result for empirical $W_1^\sigma$, bootstrap consistency, concentration inequalities, and Berry-Esseen type bounds. The derived nondegenerate limit stands in sharp contrast with the classic empirical $W_1$, for which a similar result is known only in the one-dimensional case. We also explore asymptotics and characterize the limit distribution when the smoothing parameter $\sigma$ is scaled with $n$, converging to $0$ at a sufficiently slow rate. The dimensionality of the sampled distribution enters empirical SWD convergence bounds only through the prefactor (i.e., the constant). We provide a sharp characterization of this prefactor's dependence on the smoothing parameter and the intrinsic dimension. This result is then used to derive new empirical convergence rates for classic $W_1$ in terms of the intrinsic dimension. As applications of the limit distribution theory, we study two-sample testing and minimum distance estimation (MDE) under $W_1^\sigma$. We establish asymptotic validity of SWD testing, while for MDE, we prove measurability, almost sure convergence, and limit distributions for optimal estimators and their corresponding $W_1^\sigma$ error. Our results suggest that the SWD is well suited for high-dimensional statistical learning and inference.
翻訳日:2021-07-29 15:23:06 公開日:2021-07-28
# (参考訳) TEDS-Net:空間変換器の微分同型化による分節の位相保存 [全文訳有]

TEDS-Net: Enforcing Diffeomorphisms in Spatial Transformers to Guarantee Topology Preservation in Segmentations ( http://arxiv.org/abs/2107.13542v1 )

ライセンス: CC BY 4.0
Madeleine K. Wyburd, Nicola K. Dinsdale, Ana I.L. Namburete and Mark Jenkinson(参考訳) 意味のある解剖学的セグメンテーションを行う際には正確なトポロジが重要であるが、従来のディープラーニング手法では見過ごされがちである。 本研究では,正確なトポロジーを保証する新しいセグメンテーション手法である teds-net を提案する。 本手法は, トポロジー保存を強制する連続微分型フレームワーク上に構築されている。 しかし実際には、微分同相体は有限個のパラメータを用いて表現され、線形補間のような方法を用いてサンプリングされ、理論的な保証に反する。 したがって、より厳格に強制するために追加の修正を導入する。 ネットワークは、所望のトポロジカルな特徴を持つバイナリを事前にワープし、セグメンテーションタスクを完了させる方法を学ぶ。 オープンソース2次元心臓データを用いた心筋セグメンテーション法について検討した。 TEDS-Netは、Hausdorff DistanceやDiceのパフォーマンスを犠牲にすることなく、U-Netから90%まで100%保存した。 コードは、www.github.com/mwybu rd/TEDS-Netで利用可能になる。

Accurate topology is key when performing meaningful anatomical segmentations, however, it is often overlooked in traditional deep learning methods. In this work we propose TEDS-Net: a novel segmentation method that guarantees accurate topology. Our method is built upon a continuous diffeomorphic framework, which enforces topology preservation. However, in practice, diffeomorphic fields are represented using a finite number of parameters and sampled using methods such as linear interpolation, violating the theoretical guarantees. We therefore introduce additional modifications to more strictly enforce it. Our network learns how to warp a binary prior, with the desired topological characteristics, to complete the segmentation task. We tested our method on myocardium segmentation from an open-source 2D heart dataset. TEDS-Net preserved topology in 100% of the cases, compared to 90% from the U-Net, without sacrificing on Hausdorff Distance or Dice performance. Code will be made available at: www.github.com/mwybu rd/TEDS-Net
翻訳日:2021-07-29 15:21:46 公開日:2021-07-28
# (参考訳) MARViN - ニューラルネットワークにおける複数の算数分解能 [全文訳有]

MARViN -- Multiple Arithmetic Resolutions Vacillating in Neural Networks ( http://arxiv.org/abs/2107.13490v1 )

ライセンス: CC BY 4.0
Lorenz Kummer, Kevin Sidak, Tabea Reichmann, Wilfried Gansterer(参考訳) 量子化はディープニューラルネットワーク(DNN)のトレーニングと推論時間を短縮する技術であり、リソース制約のある環境や時間クリティカルな推論アプリケーションのトレーニングに不可欠である。 state-of-the-art(sot a)量子化アプローチはトレーニング後の量子化に焦点を当てている。 推論を高速化するための事前訓練DNNの量子化。 量子化トレーニングの作業はほとんど存在せず、al-low や in-epoch precision switch も em-ploy もスイッチングヒューリスティックに基づく情報理論を扱わない。 通常、既存のアプローチはその後、完全な精度の向上を必要とし、DNN全体にわたってグローバルな単語長を強制する。 これは準最適量子化マッピングとリソース使用につながる。 この限界を認識したmarvinは, 量子化による情報損失を最小限に抑えるために, 層単位の精度を決定する情報理論に基づくイントラ・エポック精度スイッチを用いた新しい量子化トレーニング戦略である。 量子化は、将来の学習ステップが消滅する勾配に支障を来さないよう、十分な精度を残さなければならない。 平均速度はfloat32ベースと比較して1.86で,alexnet/resnetの平均精度は0.075%に抑えられた。

Quantization is a technique for reducing deep neural networks (DNNs) training and inference times, which is crucial for training in resource constrained environments or time critical inference applications. State-of-the-art (SOTA) quantization approaches focus on post-training quantization, i.e. quantization of pre-trained DNNs for speeding up inference. Very little work on quantized training exists, which neither al-lows dynamic intra-epoch precision switches nor em-ploys an information theory based switching heuristic. Usually, existing approaches require full precision refinement afterwards and enforce a global word length across the whole DNN. This leads to suboptimal quantization mappings and resource usage. Recognizing these limits, we introduce MARViN, a new quantized training strategy using information theory-based intra-epoch precision switching, which decides on a per-layer basis which precision should be used in order to minimize quantization-induced information loss. Note that any quantization must leave enough precision such that future learning steps do not suffer from vanishing gradients. We achieve an average speedup of 1.86 compared to a float32 basis while limiting mean accuracy degradation on AlexNet/ResNet to only -0.075%.
翻訳日:2021-07-29 15:01:00 公開日:2021-07-28
# SimROD:ロバスト物体検出のための簡易適応法

SimROD: A Simple Adaptation Method for Robust Object Detection ( http://arxiv.org/abs/2107.13389v1 )

ライセンス: Link先を確認
Rindra Ramamonjison, Amin Banitalebi-Dehkordi, Xinyu Kang, Xiaolong Bai, Yong Zhang(参考訳) 本稿では,ロバスト物体検出(SimROD)のための簡易かつ効果的な非教師なし適応手法を提案する。 ドメインシフトと擬似ラベルノイズの課題を克服するため,本手法では,新しいドメイン中心拡張法,段階的自己ラベル適応法,教師誘導微調整機構を統合した。 本手法を用いることで,対象領域のサンプルをモデル構造を変更したり合成データを生成することなくオブジェクト検出モデルに適応させることができる。 画像の破損や高レベルのクロスドメイン適応ベンチマークに適用した場合,本手法は複数のドメイン適応ベンチマークにおいて,事前ベースラインよりも優れる。 SimRODは、標準的なリアルタイム合成およびクロスカメラセットアップベンチマークで新しい最先端を実現する。 画像劣化ベンチマークでは,Pascal-Cで15-25% AP50,COCO-CおよびCityscapes-Cで5-6% AP50,Comicデータセットで最大8%AP50,Watercolorデータセットで最大4%AP50で最高のベースライン性能を示した。

This paper presents a Simple and effective unsupervised adaptation method for Robust Object Detection (SimROD). To overcome the challenging issues of domain shift and pseudo-label noise, our method integrates a novel domain-centric augmentation method, a gradual self-labeling adaptation procedure, and a teacher-guided fine-tuning mechanism. Using our method, target domain samples can be leveraged to adapt object detection models without changing the model architecture or generating synthetic data. When applied to image corruptions and high-level cross-domain adaptation benchmarks, our method outperforms prior baselines on multiple domain adaptation benchmarks. SimROD achieves new state-of-the-art on standard real-to-synthetic and cross-camera setup benchmarks. On the image corruption benchmark, models adapted with our method achieved a relative robustness improvement of 15-25% AP50 on Pascal-C and 5-6% AP on COCO-C and Cityscapes-C. On the cross-domain benchmark, our method outperformed the best baseline performance by up to 8% AP50 on Comic dataset and up to 4% on Watercolor dataset.
翻訳日:2021-07-29 14:11:13 公開日:2021-07-28
# 新たな複雑な課題を解決するために、世代にわたって文化的に知識を育む

Growing knowledge culturally across generations to solve novel, complex tasks ( http://arxiv.org/abs/2107.13377v1 )

ライセンス: Link先を確認
Michael Henry Tessler, Pedro A. Tsividis, Jason Madeano, Brin Harper, and Joshua B. Tenenbaum(参考訳) 世代にまたがって文化的に構築された知識により、人間は生涯を通じて自分の経験から学べるよりもはるかに多くのことを学べる。 言語は、前世代が信じ、評価し、実践したものの最も豊かな記録である。 しかし、文化学習の手段としての言語力とメカニズムはよく理解されていない。 言語による文化学習をリバースエンジニアリングする第一歩を踏み出します。 我々は,反復学習パラダイムに展開したミニマリスト型ビデオゲームという形で,複雑なハイテイクタスクスイートを開発した。 ゲーム参加者は、各ゲームに勝つための2つの試み(2つの命)に制限され、プレイ前にメッセージを読む将来の参加者にメッセージを書くことを許された。 知識は世代を通じて徐々に蓄積され、後世の世代はゲームでさらに進歩し、より効率的なアクションを行うことができる。 多世代学習は、無限の人生で単独で学ぶ個人と非常に似た軌道をたどった。 これらの結果は、言語は人々がこれらの多様なタスクで獲得した知識を表現し蓄積するのに十分な媒体であることを示唆している:環境のダイナミクス、価値のある目標、危険なリスク、成功のための戦略。 ここでのビデオゲームのパラダイムは、文化の伝達と言語からの学習の理論のための豊富なテストベッドです。

Knowledge built culturally across generations allows humans to learn far more than an individual could glean from their own experience in a lifetime. Cultural knowledge in turn rests on language: language is the richest record of what previous generations believed, valued, and practiced. The power and mechanisms of language as a means of cultural learning, however, are not well understood. We take a first step towards reverse-engineering cultural learning through language. We developed a suite of complex high-stakes tasks in the form of minimalist-style video games, which we deployed in an iterated learning paradigm. Game participants were limited to only two attempts (two lives) to beat each game and were allowed to write a message to a future participant who read the message before playing. Knowledge accumulated gradually across generations, allowing later generations to advance further in the games and perform more efficient actions. Multigenerational learning followed a strikingly similar trajectory to individuals learning alone with an unlimited number of lives. These results suggest that language provides a sufficient medium to express and accumulate the knowledge people acquire in these diverse tasks: the dynamics of the environment, valuable goals, dangerous risks, and strategies for success. The video game paradigm we pioneer here is thus a rich test bed for theories of cultural transmission and learning from language.
翻訳日:2021-07-29 14:10:53 公開日:2021-07-28
# 超解像によるマルチビューステレオの改良

Improving Multi-View Stereo via Super-Resolution ( http://arxiv.org/abs/2107.13261v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Andrea Romanoni, Matteo Matteucci(参考訳) 現在、マルチビューステレオ技術は、特に高解像度画像から始める際に、堅牢で詳細な3Dモデルを再構築することができる。 しかし、例えば古い写真を扱う場合や、ハードウェアが取得可能なデータの量を制限する場合など、入力画像の解像度が比較的低い場合があります。 本稿では,超解像技術による入力画像の解像度向上が,時に生成するアーティファクトにもかかわらず,再構成された3dモデルの品質改善を反映しているかどうか,その方法,およびその程度について検討する。 深層マップを復元する前に超解像ステップを適用すると,パッチマッチに基づくアルゴリズムとディープラーニングに基づくアルゴリズムの両方において,より優れた3dモデルが得られることを示す。 超解法の使用は、特に再構成されたモデルの完全性を改善し、テクスチャ化されたシーンでは特に有効であることが判明した。

Today, Multi-View Stereo techniques are able to reconstruct robust and detailed 3D models, especially when starting from high-resolution images. However, there are cases in which the resolution of input images is relatively low, for instance, when dealing with old photos, or when hardware constrains the amount of data that can be acquired. In this paper, we investigate if, how, and how much increasing the resolution of such input images through Super-Resolution techniques reflects in quality improvements of the reconstructed 3D models, despite the artifacts that sometimes this may generate. We show that applying a Super-Resolution step before recovering the depth maps in most cases leads to a better 3D model both in the case of PatchMatch-based and deep-learning-based algorithms. The use of Super-Resolution improves especially the completeness of reconstructed models and turns out to be particularly effective in the case of textured scenes.
翻訳日:2021-07-29 14:10:15 公開日:2021-07-28
# 空間的不確実性を考慮した半監視群カウント

Spatial Uncertainty-Aware Semi-Supervised Crowd Counting ( http://arxiv.org/abs/2107.13271v1 )

ライセンス: Link先を確認
Yanda Meng, Hongrun Zhang, Yitian Zhao, Xiaoyun Yang, Xuesheng Qian, Xiaowei Huang, Yalin Zheng(参考訳) 密集した群衆のシナリオとその注釈の大量の画像を要求するため、完全に監視されたパラダイムは高価で手間がかかるため、群衆を数えるための半監督的なアプローチが注目される。 本稿では,クラウドカウント問題に対する正規化サロゲートタスク (binary segmentation) による空間的不確実性を考慮した半教師付き手法を提案する。 既存の半教師あり学習に基づく群集カウント法とは違い,提案した空間不確実性を考慮した教師学習フレームワークは,ラベルなしデータからのノイズの多い監視をエンドツーエンドに解決しつつ,高信頼領域の情報に焦点をあてる。 具体的には,教師モデルの代理課題から空間的不確実性マップを推定し,主課題の特徴学習(密度回帰)と学生モデルの代理課題を同時に指導する。 さらに,学生モデルにおいて,主タスクと代用タスクの空間的整合性正則化を実現するための,単純かつ効果的な微分変換層を導入し,代用タスクがより信頼性の高い予測を行い,高品質の不確実性マップを生成するのに役立てる。 したがって,本モデルは,学生モデルにおけるプライマリタスクとサロゲートタスクの空間的不整合が発生するタスクレベルの摂動問題にも対処できる。 4つの挑戦的群集カウントデータセットの実験結果から,本手法は最先端の半教師付き手法よりも優れた性能を示すことが示された。

Semi-supervised approaches for crowd counting attract attention, as the fully supervised paradigm is expensive and laborious due to its request for a large number of images of dense crowd scenarios and their annotations. This paper proposes a spatial uncertainty-aware semi-supervised approach via regularized surrogate task (binary segmentation) for crowd counting problems. Different from existing semi-supervised learning-based crowd counting methods, to exploit the unlabeled data, our proposed spatial uncertainty-aware teacher-student framework focuses on high confident regions' information while addressing the noisy supervision from the unlabeled data in an end-to-end manner. Specifically, we estimate the spatial uncertainty maps from the teacher model's surrogate task to guide the feature learning of the main task (density regression) and the surrogate task of the student model at the same time. Besides, we introduce a simple yet effective differential transformation layer to enforce the inherent spatial consistency regularization between the main task and the surrogate task in the student model, which helps the surrogate task to yield more reliable predictions and generates high-quality uncertainty maps. Thus, our model can also address the task-level perturbation problems that occur spatial inconsistency between the primary and surrogate tasks in the student model. Experimental results on four challenging crowd counting datasets demonstrate that our method achieves superior performance to the state-of-the-art semi-supervised methods.
翻訳日:2021-07-29 14:09:59 公開日:2021-07-28
# ディープラーニングと遺伝的アルゴリズムに基づくアンサンブルを用いたコンピュータビジョンに基づく運転者の注意散逸認識

A Computer Vision-Based Approach for Driver Distraction Recognition using Deep Learning and Genetic Algorithm Based Ensemble ( http://arxiv.org/abs/2107.13355v1 )

ライセンス: Link先を確認
Ashlesha Kumar, Kuldip Singh Sangwan and Dhiraj(参考訳) 交通事故の割合が年々増加するにつれて、運転者の気晴らしは道路交通の損傷や死亡の重要な危険要素となっている。 携帯電話やその他の無線機器の使用の増加による混乱は、道路の安全を脅かす可能性がある。 本研究は,運転者の気晴らし分類問題の性能を向上させることにより,既存の運転姿勢認識技術を支援することを目的としている。 本稿では,AlexNet,VGG-16,Effi cientNet B0,Vanilla CNN,Modified DenseNet,InceptionV3 +BiLSTMという,6つの独立したディープニューラルネットワークの遺伝的アルゴリズムに基づくアンサンブルを用いたアプローチを提案する。 本手法は,これまで得られた95.98%を上回り,96.37%の精度を実現したauc型運転者データセットと,99.75%の精度を得るステートファーム型運転者注意散逸データセットの2つの総合データセットでテストを行った。 6モデルアンサンブルは、ubuntu 20.04(64ビット)とgeforce gtx 1080で測定した0.024秒の推論時間を与えた。

As the proportion of road accidents increases each year, driver distraction continues to be an important risk component in road traffic injuries and deaths. The distractions caused by the increasing use of mobile phones and other wireless devices pose a potential risk to road safety. Our current study aims to aid the already existing techniques in driver posture recognition by improving the performance in the driver distraction classification problem. We present an approach using a genetic algorithm-based ensemble of six independent deep neural architectures, namely, AlexNet, VGG-16, EfficientNet B0, Vanilla CNN, Modified DenseNet, and InceptionV3 + BiLSTM. We test it on two comprehensive datasets, the AUC Distracted Driver Dataset, on which our technique achieves an accuracy of 96.37%, surpassing the previously obtained 95.98%, and on the State Farm Driver Distraction Dataset, on which we attain an accuracy of 99.75%. The 6-Model Ensemble gave an inference time of 0.024 seconds as measured on our machine with Ubuntu 20.04(64-bit) and GPU as GeForce GTX 1080.
翻訳日:2021-07-29 14:09:34 公開日:2021-07-28
# 神経シンボリックエンコーダの教師なし学習

Unsupervised Learning of Neurosymbolic Encoders ( http://arxiv.org/abs/2107.13132v1 )

ライセンス: Link先を確認
Eric Zhan, Jennifer J. Sun, Ann Kennedy, Yisong Yue, Swarat Chaudhuri(参考訳) 本稿では,神経シンボリックエンコーダの教師なし学習のための枠組み,すなわち,ドメイン固有言語からニューラルネットワークとシンボリックプログラムを合成して得られるエンコーダについて述べる。 このようなフレームワークは自然に記号的専門家の知識を学習プロセスに組み込むことができ、完全なニューラルエンコーダよりも解釈可能で分解可能な潜在表現をもたらす。 また、この方法で学んだモデルは、多くの分析ワークフローがプログラム記述をクリーンにすることで、下流への影響をもたらす可能性がある。 学習アルゴリズムを変分オートエンコーディング(vae: variational autoencoding)フレームワークに基礎置き,標準デコーダと連動してニューロシンボリックエンコーダを学習することを目指している。 我々のアルゴリズムは、標準的なVAEスタイルのトレーニングと現代のプログラム合成技術を統合する。 動物生物学とスポーツ分析から実世界の軌道データの潜在表現を学習する手法を評価した。 提案手法では,従来のVAEよりも分離性が著しく向上し,下流タスクの実践的な向上が期待できる。

We present a framework for the unsupervised learning of neurosymbolic encoders, i.e., encoders obtained by composing neural networks with symbolic programs from a domain-specific language. Such a framework can naturally incorporate symbolic expert knowledge into the learning process and lead to more interpretable and factorized latent representations than fully neural encoders. Also, models learned this way can have downstream impact, as many analysis workflows can benefit from having clean programmatic descriptions. We ground our learning algorithm in the variational autoencoding (VAE) framework, where we aim to learn a neurosymbolic encoder in conjunction with a standard decoder. Our algorithm integrates standard VAE-style training with modern program synthesis techniques. We evaluate our method on learning latent representations for real-world trajectory data from animal biology and sports analytics. We show that our approach offers significantly better separation than standard VAEs and leads to practical gains on downstream tasks.
翻訳日:2021-07-29 14:08:58 公開日:2021-07-28
# SONG: 自己組織化ニューラルグラフ

SONG: Self-Organizing Neural Graphs ( http://arxiv.org/abs/2107.13214v1 )

ライセンス: Link先を確認
{\L}ukasz Struski, Tomasz Danel, Marek \'Smieja, Jacek Tabor, Bartosz Zieli\'nski(参考訳) 近年、決定木を最も一般的に組み込んだツールとして、深い解釈可能なニューラルネットワークの研究が急増している。 ロジスティック回帰分類モデルよりも決定木を使うことの少なくとも3つの利点は、バイナリ決定に基づくため解釈が容易であり、決定を素早くし、クラス階層を提供する。 しかしながら、決定木が決定木に対してよく知られた欠点の1つは、決定木が決定ノードを再利用できないことである。 それでも、効率的な勾配に基づくトレーニング技術がないため、決定グラフはディープラーニングでは一般的には使われなかった。 本稿では,このギャップを埋め,マルコフ過程に基づく一般的なパラダイムを提供することにより,自己組織型ニューラルグラフ(SONG)と呼ばれる,特殊なタイプの決定グラフの効率的なトレーニングを可能にする。 本稿では,Lear,Connect4,MNIST ,CIFAR,TinyImageNetで行った実験を補完するSONGに関する広範な理論的研究を行い,本手法が既存の決定モデルと同等以上の性能を示すことを示す。

Recent years have seen a surge in research on deep interpretable neural networks with decision trees as one of the most commonly incorporated tools. There are at least three advantages of using decision trees over logistic regression classification models: they are easy to interpret since they are based on binary decisions, they can make decisions faster, and they provide a hierarchy of classes. However, one of the well-known drawbacks of decision trees, as compared to decision graphs, is that decision trees cannot reuse the decision nodes. Nevertheless, decision graphs were not commonly used in deep learning due to the lack of efficient gradient-based training techniques. In this paper, we fill this gap and provide a general paradigm based on Markov processes, which allows for efficient training of the special type of decision graphs, which we call Self-Organizing Neural Graphs (SONG). We provide an extensive theoretical study of SONG, complemented by experiments conducted on Letter, Connect4, MNIST, CIFAR, and TinyImageNet datasets, showing that our method performs on par or better than existing decision models.
翻訳日:2021-07-29 14:08:41 公開日:2021-07-28
# openstreetmapとナレッジグラフのニューラルネットワークアライメントに向けて

Towards Neural Schema Alignment for OpenStreetMap and Knowledge Graphs ( http://arxiv.org/abs/2107.13257v1 )

ライセンス: Link先を確認
Alishiba Dsouza and Nicolas Tempelmeier and Elena Demidova(参考訳) OpenStreetMap (OSM) は、ボランティアによる地理的情報の最も豊かな情報源の1つである。 OSMには様々な地理的実体が含まれているが、それらの記述は高度に異質であり、不完全であり、明確に定義されたオントロジーに従わない。 知識グラフはOSMエンティティの強化に有用なセマンティック情報を提供する可能性がある。 しかし、OSMエンティティと知識グラフを相互接続することは、大きな、不均一であいまいでフラットなOSMスキーマとアノテーションの間隔のため、本質的に困難である。 本稿では,スキーマ層とインスタンス層を共同で考慮し,osmタグと対応する知識グラフクラスを階層的にアラインメントする。 我々は,osmと知識グラフのリンクされたエンティティを用いたタグからクラスへのアライメントのための共有潜在空間を活かした,新しいニューラルアーキテクチャを提案する。 WikidataとDBpediaの2つの主要なオープンな知識グラフとOSMデータセットの整合性を示す実験を行ったところ,提案手法はF1スコアにおいて最先端のスキーマアライメントベースラインを最大53ポイント上回っていることがわかった。 その結果、世界中で1000万以上のOSMエンティティに対する新しいセマンティックアノテーションが実現され、OSMの既存のセマンティックアノテーションと比べて400%以上増加している。

OpenStreetMap (OSM) is one of the richest openly available sources of volunteered geographic information. Although OSM includes various geographical entities, their descriptions are highly heterogeneous, incomplete, and do not follow any well-defined ontology. Knowledge graphs can potentially provide valuable semantic information to enrich OSM entities. However, interlinking OSM entities with knowledge graphs is inherently difficult due to the large, heterogeneous, ambiguous, and flat OSM schema and the annotation sparsity. This paper tackles the alignment of OSM tags with the corresponding knowledge graph classes holistically by jointly considering the schema and instance layers. We propose a novel neural architecture that capitalizes upon a shared latent space for tag-to-class alignment created using linked entities in OSM and knowledge graphs. Our experiments performed to align OSM datasets for several countries with two of the most prominent openly available knowledge graphs, namely, Wikidata and DBpedia, demonstrate that the proposed approach outperforms the state-of-the-art schema alignment baselines by up to 53 percentage points in terms of F1-score. The resulting alignment facilitates new semantic annotations for over 10 million OSM entities worldwide, which is more than a 400% increase compared to the existing semantic annotations in OSM.
翻訳日:2021-07-29 14:08:26 公開日:2021-07-28
# 状態空間モデルにおける自己教師付きハイブリッド推論

Self-Supervised Hybrid Inference in State-Space Models ( http://arxiv.org/abs/2107.13349v1 )

ライセンス: Link先を確認
David Ruhe, Patrick Forr\'e(参考訳) 潜在空間における非線形高次マルコフ連鎖を可能にする状態空間モデルにおいて近似推論を行う。 生成モデルの条件付き不整合は推論モデルのみをパラメータ化することができ、最大値を用いて自己教師付き方法でクリーン状態を推定することを学ぶことができる。 まず,雑音の観測に基づいて直接学習する再帰的手法を提案する。 その後,従来のカルマンフィルタに類似した再帰を緩和し,よりスムーズな再帰を行う更新スキームに最適化問題を導出するモデルを構築した。 科学的応用において、ドメイン知識は潜在遷移写像の線形近似を与えることができる。 この知識をモデルに簡単に組み込むことができ、ハイブリッド推論アプローチにつながります。 他の方法とは対照的に、このハイブリッド手法は、特に低データレジームにおいて、推論された潜在状態が物理的により解釈可能かつ正確になることを示す。 さらに, 生成モデルや監視のパラメータ化を, 未誤観測や真理潜伏状態による追加に頼ってはいない。 モデルの単純さにもかかわらず、完全な教師付きアプローチと比較してカオスロレンツシステムで競争的な結果を得、変分推論に基づく方法よりも優れています。

We perform approximate inference in state-space models that allow for nonlinear higher-order Markov chains in latent space. The conditional independencies of the generative model enable us to parameterize only an inference model, which learns to estimate clean states in a self-supervised manner using maximum likelihood. First, we propose a recurrent method that is trained directly on noisy observations. Afterward, we cast the model such that the optimization problem leads to an update scheme that backpropagates through a recursion similar to the classical Kalman filter and smoother. In scientific applications, domain knowledge can give a linear approximation of the latent transition maps. We can easily incorporate this knowledge into our model, leading to a hybrid inference approach. In contrast to other methods, experiments show that the hybrid method makes the inferred latent states physically more interpretable and accurate, especially in low-data regimes. Furthermore, we do not rely on an additional parameterization of the generative model or supervision via uncorrupted observations or ground truth latent states. Despite our model's simplicity, we obtain competitive results on the chaotic Lorenz system compared to a fully supervised approach and outperform a method based on variational inference.
翻訳日:2021-07-29 14:08:06 公開日:2021-07-28
# ディープラーニングを用いた不確実性対応型クレジットカード不正検出

Uncertainty-Aware Credit Card Fraud Detection Using Deep Learning ( http://arxiv.org/abs/2107.13508v1 )

ライセンス: Link先を確認
Maryam Habibpour, Hassan Gharoun, Mohammadreza Mehdipour, AmirReza Tajally, Hamzeh Asgharnezhad, Afshar Shamsi, Abbas Khosravi, Miadreza Shafie-Khah, Saeid Nahavandi, and Joao P.S. Catalao(参考訳) クレジットカード不正検出のタスクにおけるディープニューラルネットワーク(DNN)の無数の研究成果は、ポイント予測の精度を改善し、異なるネットワークアーキテクチャや学習モデルを構築することで望ましくないバイアスを軽減することに重点を置いている。 点推定に伴う不確実性の定量化は、モデルの不公平を緩和し、信頼性の低い最適下決定を無視する信頼できるシステムを開発するために不可欠である。 具体的には、DNNの予測に関連する不確実性を評価することは、(a)詐欺師が常に戦略を変更し、(b)DNNがトレーニングディストリビューションと同じプロセスで発生しない観察に遭遇するなど、DNNを更新する専門家によってタイムリーにチェックされるトランザクションが極めて少ないという特徴的な理由から、現実世界のカード不正検出設定において重要である。 そこで本研究では,取引データに適用されるカード詐欺検出のための3つの不確実性定量化手法であるモンテカルロドロップアウト,アンサンブル,アンサンブルモンテカルロドロップアウトを提案する。 さらに、予測不確実性推定を評価するために、UQ混乱行列といくつかのパフォーマンス指標を利用する。 実験結果から,このアンサンブルは生成した予測に対応する不確実性を捉えるのに有効であることがわかった。 さらに,提案手法がポイント予測にさらなる洞察を与え,不正防止のプロセスが向上することを示した。

Countless research works of deep neural networks (DNNs) in the task of credit card fraud detection have focused on improving the accuracy of point predictions and mitigating unwanted biases by building different network architectures or learning models. Quantifying uncertainty accompanied by point estimation is essential because it mitigates model unfairness and permits practitioners to develop trustworthy systems which abstain from suboptimal decisions due to low confidence. Explicitly, assessing uncertainties associated with DNNs predictions is critical in real-world card fraud detection settings for characteristic reasons, including (a) fraudsters constantly change their strategies, and accordingly, DNNs encounter observations that are not generated by the same process as the training distribution, (b) owing to the time-consuming process, very few transactions are timely checked by professional experts to update DNNs. Therefore, this study proposes three uncertainty quantification (UQ) techniques named Monte Carlo dropout, ensemble, and ensemble Monte Carlo dropout for card fraud detection applied on transaction data. Moreover, to evaluate the predictive uncertainty estimates, UQ confusion matrix and several performance metrics are utilized. Through experimental results, we show that the ensemble is more effective in capturing uncertainty corresponding to generated predictions. Additionally, we demonstrate that the proposed UQ methods provide extra insight to the point predictions, leading to elevate the fraud prevention process.
翻訳日:2021-07-29 14:07:48 公開日:2021-07-28
# 統計的に有意義な近似:変圧器付きチューリングマシンのケーススタディ

Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers ( http://arxiv.org/abs/2107.13163v1 )

ライセンス: Link先を確認
Colin Wei, Yining Chen, Tengyu Ma(参考訳) ニューラルネットワークアーキテクチャを理論的に研究する一般的なレンズは、近似可能な関数を分析することである。 しかし、近似理論による構成はしばしば非現実的な側面を持ち、例えば、ターゲット関数の値を記憶するために無限の精度に依存するため、これらの結果は潜在的に意味を示さない。 これらの問題に対処するため,本研究では,統計的に有意な近似の形式的定義を提案する。 本稿では,ブール回路とチューリング機械の2種類の関数に対する統計的に有意な近似のケーススタディを提案する。 過パラメータ化されたフィードフォワードニューラルネットワークは、近似ネットワークのサイズではなく、回路サイズに多項式のみ依存するサンプル複雑性を持つブール回路を統計的に有意義に近似することができる。 さらに、変換器は、T$で有界な計算時間を持つチューリングマシンを統計的に近似することができ、アルファベットサイズ、状態空間サイズ、および$\log (T)$でサンプル複雑性多項式を必要とすることを示す。 我々の分析では、典型的なVC次元や標準ベース境界よりもはるかに厳密なサンプル複雑性保証を提供する一般化境界のための新しいツールを導入している。

A common lens to theoretically study neural net architectures is to analyze the functions they can approximate. However, the constructions from approximation theory often have unrealistic aspects, for example, reliance on infinite precision to memorize target function values, which make these results potentially less meaningful. To address these issues, this work proposes a formal definition of statistically meaningful approximation which requires the approximating network to exhibit good statistical learnability. We present case studies on statistically meaningful approximation for two classes of functions: boolean circuits and Turing machines. We show that overparameterized feedforward neural nets can statistically meaningfully approximate boolean circuits with sample complexity depending only polynomially on the circuit size, not the size of the approximating network. In addition, we show that transformers can statistically meaningfully approximate Turing machines with computation time bounded by $T$, requiring sample complexity polynomial in the alphabet size, state space size, and $\log (T)$. Our analysis introduces new tools for generalization bounds that provide much tighter sample complexity guarantees than the typical VC-dimension or norm-based bounds, which may be of independent interest.
翻訳日:2021-07-29 14:07:03 公開日:2021-07-28
# 新規局在化における再構成誤差の評価

Evaluating the Use of Reconstruction Error for Novelty Localization ( http://arxiv.org/abs/2107.13379v1 )

ライセンス: Link先を確認
Patrick Feeney and Michael C. Hughes(参考訳) ディープオートエンコーダの画素分割による再構成誤差は、入力画像のどの部分が不慣れで、したがって新しい可能性があるかを高い誤差の画素が示すと仮定して、画像の新規性検出と局在化によく用いられる。 この高い再構成誤差を有する画素と入力画像の新しい領域との相関性は検証されておらず、これらの方法の精度を制限できる可能性がある。 本稿では,この相関関係が存在するかどうかを評価するためにサリエンシマップを利用する。 解像度マップは、各入力ピクセルの変化が再構成損失にどの程度影響するかを直接明らかにする一方、各画素の再構成誤差は、層が完全に接続されたときに多くの入力ピクセルに起因する可能性がある。 本研究では,新しい画像と正常画像の両方に対する地図の上位k要素間の定量的対応と,質的可視化による再構成誤差マップとの比較を行った。 以上の結果から,再構成誤差マップは入力画像における画素の重要性と密接に相関していないことが示唆された。

The pixelwise reconstruction error of deep autoencoders is often utilized for image novelty detection and localization under the assumption that pixels with high error indicate which parts of the input image are unfamiliar and therefore likely to be novel. This assumed correlation between pixels with high reconstruction error and novel regions of input images has not been verified and may limit the accuracy of these methods. In this paper we utilize saliency maps to evaluate whether this correlation exists. Saliency maps reveal directly how much a change in each input pixel would affect reconstruction loss, while each pixel's reconstruction error may be attributed to many input pixels when layers are fully connected. We compare saliency maps to reconstruction error maps via qualitative visualizations as well as quantitative correspondence between the top K elements of the maps for both novel and normal images. Our results indicate that reconstruction error maps do not closely correlate with the importance of pixels in the input images, making them insufficient for novelty localization.
翻訳日:2021-07-29 14:06:42 公開日:2021-07-28
# ポイントクラウドNNにおけるサロゲートモデルに基づく説明可能性法

Surrogate Model-Based Explainability Methods for Point Cloud NNs ( http://arxiv.org/abs/2107.13459v1 )

ライセンス: Link先を確認
Hanxiao Tan, Helena Kotthaus(参考訳) 自動運転とロボット工学の分野では、ポイントクラウドは主要な3Dセンサーの生データとして、優れたリアルタイムパフォーマンスを示している。 したがって、ポイント・クラウド・ニューラルネットは近年、一般的な研究の方向性となっている。 しかし、これまでのところ、ポイントクラウドに対するディープニューラルネットワークの説明可能性についてはほとんど議論されていない。 本稿では、局所的な代理モデルに基づく手法に基づいて、ポイントクラウド深層ニューラルネットワークの新たな説明可能性アプローチを提案し、その分類にどのコンポーネントが寄与しているかを示す。 さらに,最も肯定的あるいは否定的な寄与特徴を落として説明可能性の説得力を高め,特定のカテゴリーの分類スコアがどう変化するかを監視する点雲の説明可能性手法の定量的検証手法を提案する。 誤分類されたインスタンスの直感的な説明を可能にするために,コントリビューションの相違による特徴を表示する。 我々の新しい説明可能性アプローチは、ポイントクラウド分類タスクに対して、かなり正確で直感的で広く適用可能な説明を提供する。 私たちのコードはhttps://github.com/E xplain3D/Explainable 3Dで利用可能です。

In the field of autonomous driving and robotics, point clouds are showing their excellent real-time performance as raw data from most of the mainstream 3D sensors. Therefore, point cloud neural networks have become a popular research direction in recent years. So far, however, there has been little discussion about the explainability of deep neural networks for point clouds. In this paper, we propose new explainability approaches for point cloud deep neural networks based on local surrogate model-based methods to show which components make the main contribution to the classification. Moreover, we propose a quantitative validation method for explainability methods of point clouds which enhances the persuasive power of explainability by dropping the most positive or negative contributing features and monitoring how the classification scores of specific categories change. To enable an intuitive explanation of misclassified instances, we display features with confounding contributions. Our new explainability approach provides a fairly accurate, more intuitive and widely applicable explanation for point cloud classification tasks. Our code is available at https://github.com/E xplain3D/Explainable 3D
翻訳日:2021-07-29 14:06:25 公開日:2021-07-28
# エッジコンピューティングにおけるデータストリームに基づく高速無線センサ異常検出によるスマート温室効果

Fast Wireless Sensor Anomaly Detection based on Data Stream in Edge Computing Enabled Smart Greenhouse ( http://arxiv.org/abs/2107.13353v1 )

ライセンス: Link先を確認
Yihong Yang, Sheng Ding, Yuwen Liu, Shunmei Meng, Xiaoxiao Chi, Rui Ma, Chao Yan(参考訳) エッジコンピューティングを有効にしたスマート温室は、IoT技術の代表的なアプリケーションであり、環境情報をリアルタイムで監視し、インテリジェントな意思決定に寄与するためにその情報を利用することができる。 この過程では,無線センサデータの異常検出が重要な役割を果たす。 しかし、従来の異常検出アルゴリズムは、もともと静的データにおける異常検出のために設計されたもので、無限性、相関、コンセプトドリフトといった無線センサが生成するデータストリームの特性を適切に考慮していないため、データストリームに基づく異常検出には大きな課題があり、検出精度と効率が低下する可能性がある。 まず、データストリームは通常、無限で巨大なものを生成するため、データセット全体を保存したり、異常検出のためにデータセットを複数回スキャンしようとする従来のオフライン異常検出アルゴリズムは、メモリ空間がなくなる。 第二に、従来のアルゴリズムでは考慮しない異なるデータストリームの間に相関がある。 第三に、基礎となるデータ生成プロセスやデータ分散は時間とともに変化する可能性がある。 したがって、モデル更新のない従来の異常検出アルゴリズムは効果を失う。 これらの問題を考慮し, 局所感性ハッシュと時間ウィンドウに基づく新しい手法(DLSHiForest)を提案し, 高精度かつ効率的な検出を実現した。 総合的な実験は,実世界の農業用温室データセットを用いて実施し,その実現可能性を示す。 実験の結果,提案手法は従来の異常検出の課題に対処し,精度と効率を確保できることがわかった。

Edge computing enabled smart greenhouse is a representative application of Internet of Things technology, which can monitor the environmental information in real time and employ the information to contribute to intelligent decision-making. In the process, anomaly detection for wireless sensor data plays an important role. However, traditional anomaly detection algorithms originally designed for anomaly detection in static data have not properly considered the inherent characteristics of data stream produced by wireless sensor such as infiniteness, correlations and concept drift, which may pose a considerable challenge on anomaly detection based on data stream, and lead to low detection accuracy and efficiency. First, data stream usually generates quickly which means that it is infinite and enormous, so any traditional off-line anomaly detection algorithm that attempts to store the whole dataset or to scan the dataset multiple times for anomaly detection will run out of memory space. Second, there exist correlations among different data streams, which traditional algorithms hardly consider. Third, the underlying data generation process or data distribution may change over time. Thus, traditional anomaly detection algorithms with no model update will lose their effects. Considering these issues, a novel method (called DLSHiForest) on basis of Locality-Sensitive Hashing and time window technique in this paper is proposed to solve these problems while achieving accurate and efficient detection. Comprehensive experiments are executed using real-world agricultural greenhouse dataset to demonstrate the feasibility of our approach. Experimental results show that our proposal is practicable in addressing challenges of traditional anomaly detection while ensuring accuracy and efficiency.
翻訳日:2021-07-29 14:05:55 公開日:2021-07-28
# ニューラルビデオ圧縮のための生成モデリングの展望

Insights from Generative Modeling for Neural Video Compression ( http://arxiv.org/abs/2107.13136v1 )

ライセンス: Link先を確認
Ruihan Yang, Yibo Yang, Joseph Marino, Stephan Mandt(参考訳) 最近の機械学習研究は、VAEのような深層生成モデルと学習圧縮で使用される速度歪み損失の関連を明らかにしているが、この研究の大部分は画像に焦点を当てている。 同様に、我々は最近提案されたニューラルビデオ符号化アルゴリズムを、深い自己回帰と潜伏変数モデリングのレンズを通して見る。 本稿では,一般化された確率的時間的自己回帰変換の例として,最近のニューラルビデオコーデックを提案する。 フル解像度ビデオに最先端のビデオ圧縮性能をもたらすいくつかのアーキテクチャを提案し、それらのトレードオフと改善について議論する。 特に, (i) 時間的自己回帰変換の改良, (ii) 構造的および時間的依存性を持つエントロピーモデルの改善, (iii) 可変ビットレートバージョンのアルゴリズムを提案する。 我々の改良は既存のモデルと互換性があるため、生成的モデリングの観点がニューラルビデオ符号化の分野を前進させる証拠となる。

While recent machine learning research has revealed connections between deep generative models such as VAEs and rate-distortion losses used in learned compression, most of this work has focused on images. In a similar spirit, we view recently proposed neural video coding algorithms through the lens of deep autoregressive and latent variable modeling. We present recent neural video codecs as instances of a generalized stochastic temporal autoregressive transform, and propose new avenues for further improvements inspired by normalizing flows and structured priors. We propose several architectures that yield state-of-the-art video compression performance on full-resolution video and discuss their tradeoffs and ablations. In particular, we propose (i) improved temporal autoregressive transforms, (ii) improved entropy models with structured and temporal dependencies, and (iii) variable bitrate versions of our algorithms. Since our improvements are compatible with a large class of existing models, we provide further evidence that the generative modeling viewpoint can advance the neural video coding field.
翻訳日:2021-07-29 14:04:57 公開日:2021-07-28
# アルツハイマー病診断と脳萎縮の鑑別のための2次元1次元深層学習法

An explainable two-dimensional single model deep learning approach for Alzheimer's disease diagnosis and brain atrophy localization ( http://arxiv.org/abs/2107.13200v1 )

ライセンス: Link先を確認
Fan Zhang, Bo Pan, Pengfei Shao, Peng Liu (Alzheimer's Disease Neuroimaging Initiative, the Australian Imaging Biomarkers and Lifestyle flagship study of ageing), Shuwei Shen, Peng Yao, Ronald X. Xu(参考訳) 遅発性疾患の進行と患者の生活の質向上には,早期かつ正確なアルツハイマー病(AD)とその前頭葉型軽度認知障害(MCI)が不可欠である。 深層学習と構造的磁気共鳴画像(sMRI)を組み合わせたコンピュータ支援診断法は,有望な結果を得たが,その一部はデータ漏洩や説明不能な診断などの問題に限られている。 本研究では,ADの自動診断とsMRIデータからの重要な脳領域の局在化のための,新しいエンドツーエンドディープラーニング手法を提案する。 This approach is based on a 2D single model strategy and has the following differences from the current approaches: 1) Convolutional Neural Network (CNN) models of different structures and capacities are evaluated systemically and the most suitable model is adopted for AD diagnosis; 2) a data augmentation strategy named Two-stage Random RandAugment (TRRA) is proposed to alleviate the overfitting issue caused by limited training data and to improve the classification performance in AD diagnosis; 3) an explainable method of Grad-CAM++ is introduced to generate the visually explainable heatmaps that localize and highlight the brain regions that our model focuses on and to make our model more transparent. 提案手法は,AD vs. 認知正常 (CN) とプログレッシブMCI (pMCI) と安定MCI (sMCI) の2つの分類タスクに対して,パブリックアクセス可能な2つのデータセットで評価されている。 実験の結果,マルチモデルと3d cnnを用いた手法を含め,最先端のアプローチよりも優れた手法が得られた。 このアプローチで得られた局所熱マップは、adの発達中に一般的に影響を受ける領域と一致し、側心室といくつかの疾患関連領域を強調する。

Early and accurate diagnosis of Alzheimer's disease (AD) and its prodromal period mild cognitive impairment (MCI) is essential for the delayed disease progression and the improved quality of patients'life. The emerging computer-aided diagnostic methods that combine deep learning with structural magnetic resonance imaging (sMRI) have achieved encouraging results, but some of them are limit of issues such as data leakage and unexplainable diagnosis. In this research, we propose a novel end-to-end deep learning approach for automated diagnosis of AD and localization of important brain regions related to the disease from sMRI data. This approach is based on a 2D single model strategy and has the following differences from the current approaches: 1) Convolutional Neural Network (CNN) models of different structures and capacities are evaluated systemically and the most suitable model is adopted for AD diagnosis; 2) a data augmentation strategy named Two-stage Random RandAugment (TRRA) is proposed to alleviate the overfitting issue caused by limited training data and to improve the classification performance in AD diagnosis; 3) an explainable method of Grad-CAM++ is introduced to generate the visually explainable heatmaps that localize and highlight the brain regions that our model focuses on and to make our model more transparent. Our approach has been evaluated on two publicly accessible datasets for two classification tasks of AD vs. cognitively normal (CN) and progressive MCI (pMCI) vs. stable MCI (sMCI). The experimental results indicate that our approach outperforms the state-of-the-art approaches, including those using multi-model and 3D CNN methods. The resultant localization heatmaps from our approach also highlight the lateral ventricle and some disease-relevant regions of cortex, coincident with the commonly affected regions during the development of AD.
翻訳日:2021-07-29 14:04:40 公開日:2021-07-28
# 目標指向スクリプト構築

Goal-Oriented Script Construction ( http://arxiv.org/abs/2107.13189v1 )

ライセンス: Link先を確認
Qing Lyu, Li Zhang, Chris Callison-Burch(参考訳) スクリプトの知識、ステレオタイプシナリオにおけるイベントの共通連鎖は、タスク指向自然言語理解システムにとって貴重な資産である。 目標指向のスクリプト構築タスクを提案し、モデルが与えられた目標を達成するための一連のステップを生成する。 私たちは,50万のハウツー記事を含むwebサイトwikihowから収集した18の言語をサポートする,最初の多言語スクリプト学習データセットでタスクをパイロット化した。 ベースラインについては,言語モデルを用いた生成的アプローチと検索的アプローチの両方を,まず大きな候補プールから関連するステップを抽出し,注文することで検討する。 我々のタスクは実用的で実現可能であるが,最先端のTransformerモデルでは困難であり,他のさまざまなデータセットやドメインに対して,適切なゼロショット性能で容易にメソッドをデプロイ可能であることを示す。

The knowledge of scripts, common chains of events in stereotypical scenarios, is a valuable asset for task-oriented natural language understanding systems. We propose the Goal-Oriented Script Construction task, where a model produces a sequence of steps to accomplish a given goal. We pilot our task on the first multilingual script learning dataset supporting 18 languages collected from wikiHow, a website containing half a million how-to articles. For baselines, we consider both a generation-based approach using a language model and a retrieval-based approach by first retrieving the relevant steps from a large candidate pool and then ordering them. We show that our task is practical, feasible but challenging for state-of-the-art Transformer models, and that our methods can be readily deployed for various other datasets and domains with decent zero-shot performance.
翻訳日:2021-07-29 14:04:10 公開日:2021-07-28
# BERTを用いたアラビア語のアスペクトベース感情分析

Arabic aspect based sentiment analysis using BERT ( http://arxiv.org/abs/2107.13290v1 )

ライセンス: Link先を確認
Mohammed M.Abdelgwad(参考訳) アスペクトベースの感情分析(ABSA)は、特定の目標に関連する特定の側面についての意見の極性を定義するテキスト分析手法である。 ABSAに関するほとんどの研究は英語で行われており、少量の成果はアラビア語で提供されている。 これまでのアラビア語の研究のほとんどは、コンテキストに依存しない単語埋め込み(word2vecなど)に依存するディープラーニングモデルに依存している。 本稿では、BERTのような事前訓練された言語モデルからの文脈埋め込みのモデル化機能と、アラビア語のABSAタスクに入力される文ペアの利用について述べる。 特に、このタスクを処理するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。 アラビアのホテルレビューデータセットの実験結果によると、単純な線形分類層を持つBERTアーキテクチャは最先端の成果を上回った。

Aspect-based sentiment analysis(ABSA) is a textual analysis methodology that defines the polarity of opinions on certain aspects related to specific targets. The majority of research on ABSA is in English, with a small amount of work available in Arabic. Most previous Arabic research has relied on deep learning models that depend primarily on context-independent word embeddings (e.g.word2vec), where each word has a fixed representation independent of its context. This article explores the modeling capabilities of contextual embeddings from pre-trained language models, such as BERT, and making use of sentence pair input on Arabic ABSA tasks. In particular, we are building a simple but effective BERT-based neural baseline to handle this task. Our BERT architecture with a simple linear classification layer surpassed the state-of-the-art works, according to the experimental results on the benchmarked Arabic hotel reviews dataset.
翻訳日:2021-07-29 14:03:56 公開日:2021-07-28
# 関係抽出のためのマルチスケール特徴量学習

Multi-Scale Feature and Metric Learning for Relation Extraction ( http://arxiv.org/abs/2107.13425v1 )

ライセンス: Link先を確認
Mi Zhang, Tieyun Qian(参考訳) 関係抽出における既存の手法は、単語列の語彙的特徴とパースツリーの構文的特徴を活用している。 有効ではあるが、連続した単語列から抽出された語彙特徴は、意味のある内容がほとんど、あるいは全くないノイズを生じさせる可能性がある。 一方、構文的特徴は通常、受容場を制限するグラフ畳み込みネットワークを介して符号化される。 上記の制約に対処するため,関係抽出のためのマルチスケール特徴量学習フレームワークを提案する。 具体的には,まず,語彙列の非成功な主幹を集約する多スケール畳み込みニューラルネットワークを開発した。 また,特定の構文的役割に対する受容場を増大させるマルチスケールグラフ畳み込みネットワークを設計する。 さらに、語彙的特徴と構文的特徴との間の特徴レベル関係と、同一または異なるクラスを持つインスタンス間のサンプルレベル関係の両方を利用するためのマルチスケールメトリック学習パラダイムを提案する。 様々な関係抽出タスクのための3つの実世界データセットについて広範な実験を行う。 その結果,我々のモデルは最先端のアプローチよりも優れていた。

Existing methods in relation extraction have leveraged the lexical features in the word sequence and the syntactic features in the parse tree. Though effective, the lexical features extracted from the successive word sequence may introduce some noise that has little or no meaningful content. Meanwhile, the syntactic features are usually encoded via graph convolutional networks which have restricted receptive field. To address the above limitations, we propose a multi-scale feature and metric learning framework for relation extraction. Specifically, we first develop a multi-scale convolutional neural network to aggregate the non-successive mainstays in the lexical sequence. We also design a multi-scale graph convolutional network which can increase the receptive field towards specific syntactic roles. Moreover, we present a multi-scale metric learning paradigm to exploit both the feature-level relation between lexical and syntactic features and the sample-level relation between instances with the same or different classes. We conduct extensive experiments on three real world datasets for various types of relation extraction tasks. The results demonstrate that our model significantly outperforms the state-of-the-art approaches.
翻訳日:2021-07-29 14:03:42 公開日:2021-07-28
# 自然言語単語置換に対するロバスト性を目指して

Towards Robustness Against Natural Language Word Substitutions ( http://arxiv.org/abs/2107.13541v1 )

ライセンス: Link先を確認
Xinshuai Dong, Anh Tuan Luu, Rongrong Ji, Hong Liu(参考訳) 単語置換に対するロバスト性は、よく定義され広く受け入れられる形式、すなわち、意味論的に類似した単語を置換として使用することにより、自然言語処理におけるより広範な堅牢性への根本的な足掛かりと見なされる。 従来の防御法は、$l_2$-ball または hyper-rectangle を用いてベクトル空間内の単語置換をキャプチャし、それによって摂動集合は十分な包含性や不必要に大きいものではないため、ロバストなトレーニングのために最悪の場合の模倣を妨げている。 本稿では,新しい<textit{Adversarial Sparse Convex Combination} (ASCC) 法を提案する。 我々は,単語置換攻撃空間を凸殻としてモデル化し,正規化項を利用して実際の置換に対する摂動を強制する。 ASCC法では,ASCCを利用して最悪の摂動を発生させ,強靭性に対する敵の訓練を取り入れたASCC防御法が提案されている。 実験により、ASCC-defenseは2つの一般的なNLPタスクの堅牢性の観点から、現在の最先端技術よりも優れていることが示された。 センチメント分析と自然言語推論は、複数のモデルアーキテクチャにまたがる複数の攻撃に関するものだ。 さらに我々は,NLPにおけるロバスト性に対する新たな防衛のクラスを構想し,我々の頑健に訓練されたワードベクトルを通常訓練されたモデルにプラグインし,他の防御技術を適用することなくそのロバスト性を強制する。

Robustness against word substitutions has a well-defined and widely acceptable form, i.e., using semantically similar words as substitutions, and thus it is considered as a fundamental stepping-stone towards broader robustness in natural language processing. Previous defense methods capture word substitutions in vector space by using either $l_2$-ball or hyper-rectangle, which results in perturbation sets that are not inclusive enough or unnecessarily large, and thus impedes mimicry of worst cases for robust training. In this paper, we introduce a novel \textit{Adversarial Sparse Convex Combination} (ASCC) method. We model the word substitution attack space as a convex hull and leverages a regularization term to enforce perturbation towards an actual substitution, thus aligning our modeling better with the discrete textual space. Based on the ASCC method, we further propose ASCC-defense, which leverages ASCC to generate worst-case perturbations and incorporates adversarial training towards robustness. Experiments show that ASCC-defense outperforms the current state-of-the-arts in terms of robustness on two prevailing NLP tasks, \emph{i.e.}, sentiment analysis and natural language inference, concerning several attacks across multiple model architectures. Besides, we also envision a new class of defense towards robustness in NLP, where our robustly trained word vectors can be plugged into a normally trained model and enforce its robustness without applying any other defense techniques.
翻訳日:2021-07-29 14:03:25 公開日:2021-07-28
# IoTベースのスマートホームにおける競合検出

Conflict Detection in IoT-based Smart Homes ( http://arxiv.org/abs/2107.13179v1 )

ライセンス: Link先を確認
Bing Huang, Hai Dong, Athman Bouguettaya(参考訳) 我々はIoTベースのスマートホームにおける競合を検出する新しいフレームワークを提案する。 スマートホームにおける居住者とIoTサービス間のインタラクションの間に、衝突が発生する可能性がある。 本稿では,IoTサービスと環境エンティティの関係を表す汎用知識グラフを提案する。 また、コンテキスト情報に基づいて、一般的な知識グラフを特定のスマートホーム設定にプロファイルする。 本研究では,単一居住家庭における様々な種類の紛争を捉えるための紛争分類法を提案する。 プロファイルナレッジグラフを用いて潜在的なコンフリクトを識別するためにコンフリクト検出アルゴリズムを提案する。 提案手法の有効性と有効性を検証するために,実データセットと合成データセットに関する一連の実験を行う。

We propose a novel framework that detects conflicts in IoT-based smart homes. Conflicts may arise during interactions between the resident and IoT services in smart homes. We propose a generic knowledge graph to represent the relations between IoT services and environment entities. We also profile a generic knowledge graph to a specific smart home setting based on the context information. We propose a conflict taxonomy to capture different types of conflicts in a single resident smart home setting. A conflict detection algorithm is proposed to identify potential conflicts using the profiled knowledge graph. We conduct a set of experiments on real datasets and synthesized datasets to validate the effectiveness and efficiency of our proposed approach.
翻訳日:2021-07-29 14:02:41 公開日:2021-07-28
# グラフ注意マルチエージェント強化学習によるパケットルーティング

Packet Routing with Graph Attention Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2107.13181v1 )

ライセンス: Link先を確認
Xuan Mai, Quanzhi Fu, Yi Chen(参考訳) パケットルーティングは、パケットのソースノードから目的地ノードへの転送方法を決定する通信ネットワークにおける基本的な問題である。 ネットワークトポロジの複雑さと非常にダイナミックなトラフィック需要の増大に伴い、従来のモデルベースおよびルールベースのルーティングスキームは、単純化された非現実的なモデル仮定と柔軟性と適応性の欠如により、重大な制限を示す。 ネットワーク制御へのインテリジェンスの追加は、高効率ネットワーク運用を実現するための鍵となりつつあります。 本稿では,ルータがネットワークと対話し,その経験から学習し,将来的なルーティング構成を構築するための強化学習(RL)を活用することにより,モデルフリーでデータ駆動型ルーティング戦略を開発する。 ネットワークトポロジのグラフ性を考慮したマルチエージェントrlフレームワークをgnn(graph neural network)と組み合わせて設計し,ルーティング問題に適応した。 集中型、連合型、協調型学習という3つのデプロイメントパラダイムがそれぞれ検討されている。 シミュレーションの結果,提案アルゴリズムはパケット伝送遅延や安価な負荷の点で,既存のベンチマークアルゴリズムよりも優れていることがわかった。

Packet routing is a fundamental problem in communication networks that decides how the packets are directed from their source nodes to their destination nodes through some intermediate nodes. With the increasing complexity of network topology and highly dynamic traffic demand, conventional model-based and rule-based routing schemes show significant limitations, due to the simplified and unrealistic model assumptions, and lack of flexibility and adaption. Adding intelligence to the network control is becoming a trend and the key to achieving high-efficiency network operation. In this paper, we develop a model-free and data-driven routing strategy by leveraging reinforcement learning (RL), where routers interact with the network and learn from the experience to make some good routing configurations for the future. Considering the graph nature of the network topology, we design a multi-agent RL framework in combination with Graph Neural Network (GNN), tailored to the routing problem. Three deployment paradigms, centralized, federated, and cooperated learning, are explored respectively. Simulation results demonstrate that our algorithm outperforms some existing benchmark algorithms in terms of packet transmission delay and affordable load.
翻訳日:2021-07-29 14:02:33 公開日:2021-07-28
# Tab2Know: 科学論文の表から知識ベースを構築する

Tab2Know: Building a Knowledge Base from Tables in Scientific Papers ( http://arxiv.org/abs/2107.13306v1 )

ライセンス: Link先を確認
Benno Kruit, Hongyu He, Jacopo Urbani(参考訳) 科学論文の表には、科学企業にとって貴重な知識がたくさん含まれている。 この種の知識を頻繁に参照する人々を支援するため、科学論文の表から知識ベース(KB)を構築するための新しいエンドツーエンドシステムであるTab2Knowを紹介します。 Tab2Knowは、論文でテーブルを自動的に解釈し、それらを含むエンティティを曖昧にするという課題に対処する。 これらの問題を解決するため,統計的分類器と論理的推論を併用したパイプラインを提案する。 まず、当社のパイプラインでは、データラベリングシステムと目的のために特別に設計されたオントロジーの助けを借りて、テーブルと列のタイプを認識するために、弱い教師付き分類器を適用しています。 次に、ロジックベースの推論を使用して、異なるテーブルで( sameAs リンクを介して)等価エンティティをリンクします。 コンピュータサイエンス分野における論文のコーパスを用いたアプローチの実証評価は,満足度を回復した。 これは我々の研究が、大規模なKBの科学知識を生み出すための有望なステップであることを示唆している。

Tables in scientific papers contain a wealth of valuable knowledge for the scientific enterprise. To help the many of us who frequently consult this type of knowledge, we present Tab2Know, a new end-to-end system to build a Knowledge Base (KB) from tables in scientific papers. Tab2Know addresses the challenge of automatically interpreting the tables in papers and of disambiguating the entities that they contain. To solve these problems, we propose a pipeline that employs both statistical-based classifiers and logic-based reasoning. First, our pipeline applies weakly supervised classifiers to recognize the type of tables and columns, with the help of a data labeling system and an ontology specifically designed for our purpose. Then, logic-based reasoning is used to link equivalent entities (via sameAs links) in different tables. An empirical evaluation of our approach using a corpus of papers in the Computer Science domain has returned satisfactory performance. This suggests that ours is a promising step to create a large-scale KB of scientific knowledge.
翻訳日:2021-07-29 14:02:12 公開日:2021-07-28
# MWP-BERT:数学語問題のための強力なベースライン

MWP-BERT: A Strong Baseline for Math Word Problems ( http://arxiv.org/abs/2107.13435v1 )

ライセンス: Link先を確認
Zhenwen Liang, Jipeng Zhang, Jie Shao, Xiangliang Zhang(参考訳) 数学語問題(英: Math word problem、MWP)とは、自然言語による問題記述の列を実行可能な数学方程式に変換するタスクである。 mwpソルバは、問題テキストに記述された複雑なシナリオを理解するだけでなく、重要な数学的変数を特定し、テキスト記述を数学方程式論理と関連付ける。 近年のシーケンシャル・モデリング MWPソルバは、数学的な文脈的理解に功績を挙げているが、自由形式のテキストで訓練されたPLMは、数学的論理へのテキスト参照の表現に限られているため、事前訓練された言語モデル (PLM) は、MWPを解くために研究されていない。 本研究ではMWP-BERTを導入し,テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。 さらに,共通知識を必要とするMWPに対処するためのキーワードベースのプロンプトマッチング手法を提案する。 ベンチマークのMath23Kデータセットと新しいApe210kデータセットでは、MWP-BERTが5~10%の精度向上で最強のベースラインモデルを上回っている。

Math word problem (MWP) solving is the task of transforming a sequence of natural language problem descriptions to executable math equations. An MWP solver not only needs to understand complex scenarios described in the problem texts, but also identify the key mathematical variables and associate text descriptions with math equation logic. Although recent sequence modeling MWP solvers have gained credits on the math-text contextual understanding, pre-trained language models (PLM) have not been explored for solving MWP, considering that PLM trained over free-form texts is limited in representing text references to mathematical logic. In this work, we introduce MWP-BERT to obtain pre-trained token representations that capture the alignment between text description and mathematical logic. Additionally, we introduce a keyword-based prompt matching method to address the MWPs requiring common-sense knowledge. On a benchmark Math23K dataset and a new Ape210k dataset, we show that MWP-BERT outperforms the strongest baseline model by 5-10% improvement on accuracy.
翻訳日:2021-07-29 14:01:56 公開日:2021-07-28
# Divide-and-Assemble: 教師なし異常検出のためのブロックワイズメモリの学習

Divide-and-Assemble: Learning Block-wise Memory for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2107.13118v1 )

ライセンス: Link先を確認
Jinlei Hou, Yingying Zhang, Qiaoyong Zhong, Di Xie, Shiliang Pu, Hong Zhou(参考訳) 再構成に基づく手法は画像の教師なし異常検出において重要な役割を果たす。 理想的には,正常試料の完全な再構築と異常試料の不十分な再構成を期待する。 ディープニューラルネットワークの一般化性は制御が難しいため、オートエンコーダのような既存のモデルはうまく機能しない。 本研究では,画像の再構成を分割組立手順として解釈する。 驚いたことに、特徴写像上の分割の粒度を変化させることで、正常サンプルと異常サンプルの両方に対するモデルの再構成能力を調整できる。 すなわち、細かい粒度はより優れた再構築につながり、粗い粒度はより粗い再構成に繋がる。 適切な粒度で、正常試料と異常試料の再構成誤差のギャップを最大化することができる。 分割組立フレームワークは、新しいマルチスケールブロックワイドメモリモジュールをオートエンコーダネットワークに埋め込み、実装されている。 さらに,敵対学習を導入し,識別器の意味的潜在表現を探究し,微妙な異常の検出を改善する。 我々は、挑戦的なMVTec ADデータセット上で最先端のパフォーマンスを達成する。 注目すべきは、AUROCスコアの点から、バニラオートエンコーダモデルを10.1%改善することである。

Reconstruction-based methods play an important role in unsupervised anomaly detection in images. Ideally, we expect a perfect reconstruction for normal samples and poor reconstruction for abnormal samples. Since the generalizability of deep neural networks is difficult to control, existing models such as autoencoder do not work well. In this work, we interpret the reconstruction of an image as a divide-and-assemble procedure. Surprisingly, by varying the granularity of division on feature maps, we are able to modulate the reconstruction capability of the model for both normal and abnormal samples. That is, finer granularity leads to better reconstruction, while coarser granularity leads to poorer reconstruction. With proper granularity, the gap between the reconstruction error of normal and abnormal samples can be maximized. The divide-and-assemble framework is implemented by embedding a novel multi-scale block-wise memory module into an autoencoder network. Besides, we introduce adversarial learning and explore the semantic latent representation of the discriminator, which improves the detection of subtle anomaly. We achieve state-of-the-art performance on the challenging MVTec AD dataset. Remarkably, we improve the vanilla autoencoder model by 10.1% in terms of the AUROC score.
翻訳日:2021-07-29 14:01:00 公開日:2021-07-28
# 複雑環境における教師なし単分子深度推定

Unsupervised Monocular Depth Estimation in Highly Complex Environments ( http://arxiv.org/abs/2107.13137v1 )

ライセンス: Link先を確認
Chaoqiang Zhao, Yang Tang and Qiyu Sun(参考訳) 従来の教師なし単眼深度推定法は主に日中のシナリオに重点を置いており、それらのフレームワークは歪んだ光度一貫性によって駆動される。 夜間、雨の夜、または雪の冬など、いくつかの困難な環境では、異なるフレーム上の同じピクセルの光度測定は、複雑な照明と反射のために不整合であり、日中無監督のフレームワークがこれらの複雑なシナリオに直接適用できない。 本稿では,高度に複雑なシナリオにおける教師なし単眼深度推定の問題について検討する。 本稿では,この課題をドメイン適応を用いて解決し,単眼映像に基づく統一的な画像転送に基づく適応フレームワークを提案する。 日中のシナリオでトレーニングされた深度モデルは、異なる複雑なシナリオに適応する。 深度ネットワーク全体を適応させる代わりに、エンコーダネットワークを計算複雑性の低減のために考慮する。 提案するフレームワークによって異なるシナリオに適応された深さモデルは、同じデコーダを共有する。 特徴空間と出力空間の両方の制約により、深度復号化のための重要な特徴を学ぶフレームワークが促進され、その滑らかさ損失が適応フレームワークに導入され、深さ推定性能が向上する。 大規模な実験により, 夜間, 降雨夜間, 降雪冬季の深度マップを推定する上で, 教師なしの枠組みの有効性が示された。

Previous unsupervised monocular depth estimation methods mainly focus on the day-time scenario, and their frameworks are driven by warped photometric consistency. While in some challenging environments, like night, rainy night or snowy winter, the photometry of the same pixel on different frames is inconsistent because of the complex lighting and reflection, so that the day-time unsupervised frameworks cannot be directly applied to these complex scenarios. In this paper, we investigate the problem of unsupervised monocular depth estimation in certain highly complex scenarios. We address this challenging problem by using domain adaptation, and a unified image transfer-based adaptation framework is proposed based on monocular videos in this paper. The depth model trained on day-time scenarios is adapted to different complex scenarios. Instead of adapting the whole depth network, we just consider the encoder network for lower computational complexity. The depth models adapted by the proposed framework to different scenarios share the same decoder, which is practical. Constraints on both feature space and output space promote the framework to learn the key features for depth decoding, and the smoothness loss is introduced into the adaptation framework for better depth estimation performance. Extensive experiments show the effectiveness of the proposed unsupervised framework in estimating the dense depth map from the night-time, rainy night-time and snowy winter images.
翻訳日:2021-07-29 14:00:44 公開日:2021-07-28
# シーン解析のためのグローバルアグリゲーションと局所分布

Global Aggregation then Local Distribution for Scene Parsing ( http://arxiv.org/abs/2107.13154v1 )

ライセンス: Link先を確認
Xiangtai Li, Li Zhang, Guangliang Cheng, Kuiyuan Yang, Yunhai Tong, Xiatian Zhu, Tao Xiang(参考訳) 長距離コンテキスト関係のモデル化は、セマンティックセグメンテーションのような画素単位の予測タスクにおいて重要である。 しかしながら、畳み込みニューラルネットワーク(CNN)は本質的に、構築モジュール(ローカル畳み込みカーネル)の単純構造のため、そのような依存関係をモデル化することに制限されている。 最近のグローバルアグリゲーション手法は、長距離構造情報モデリングに有用であるが、細部(\eg,~boundaries and small objects)を含む領域に過大なノイズをもたらし、セマンティクスセグメンテーションタスクに非常に注意を払っている。 そこで本研究では,この問題を解決するために,集約された長距離関係をより正確にローカル領域に分散させる手法を提案する。 特に,各画素に対する大域的および局所的関係の親和性マップを適応的にモデル化する新しい局所分布モジュールを設計する。 既存のグローバルアグリゲーションモジュールを統合することで,我々のアプローチはエンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続できることが示される。 その単純さと汎用性にもかかわらず、我々のアプローチはcityscapes、ade20k、pascal context、camvid、coco-stuffといった主要なセマンティックセグメンテーションベンチマークで新しい最先端を構築できる。 コードとトレーニングされたモデルは、さらなる研究を促進するために \url{https://github.com/l xtGH/GALD-DGCNet} でリリースされる。

Modelling long-range contextual relationships is critical for pixel-wise prediction tasks such as semantic segmentation. However, convolutional neural networks (CNNs) are inherently limited to model such dependencies due to the naive structure in its building modules (\eg, local convolution kernel). While recent global aggregation methods are beneficial for long-range structure information modelling, they would oversmooth and bring noise to the regions containing fine details (\eg,~boundaries and small objects), which are very much cared for the semantic segmentation task. To alleviate this problem, we propose to explore the local context for making the aggregated long-range relationship being distributed more accurately in local regions. In particular, we design a novel local distribution module which models the affinity map between global and local relationship for each pixel adaptively. Integrating existing global aggregation modules, we show that our approach can be modularized as an end-to-end trainable block and easily plugged into existing semantic segmentation networks, giving rise to the \emph{GALD} networks. Despite its simplicity and versatility, our approach allows us to build new state of the art on major semantic segmentation benchmarks including Cityscapes, ADE20K, Pascal Context, Camvid and COCO-stuff. Code and trained models are released at \url{https://github.com/l xtGH/GALD-DGCNet} to foster further research.
翻訳日:2021-07-29 14:00:25 公開日:2021-07-28
# 時間ピラミッドルーティングによるビデオインスタンスセグメンテーションの改善

Improving Video Instance Segmentation via Temporal Pyramid Routing ( http://arxiv.org/abs/2107.13155v1 )

ライセンス: Link先を確認
Xiangtai Li, Hao He, Henghui Ding, Kuiyuan Yang, Guangliang Cheng, Jianping Shi, Yunhai Tong(参考訳) Video Instance Segmentation (VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメント化し、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。 既存のアプローチは、主に時間情報やマルチスケール情報を無視するマルチフレームのシングルフレーム機能やシングルスケール機能に基づいている。 時間的情報とスケール的情報の両方を取り込むため,隣接する2つのフレームの特徴ピラミッドペアからピクセルレベルのアグリゲーションを条件付きで調整し,実行するための時間的ピラミッドルーティング(tpr)戦略を提案する。 具体的には、tprにはdynamic aligned cell routing(dacr)とcross pyramid routing(cpr)という2つの新しいコンポーネントが含まれている。 さらに,本手法はプラグイン・アンド・プレイモジュールであり,既存のインスタンスセグメンテーション手法にも容易に適用できる。 youtube-visデータセットの広範な実験は、いくつかの最先端インスタンスセグメンテーション手法における提案手法の有効性と効率を示している。 コードとトレーニングされたモデルは、将来の研究を促進するために公開されます。 (\url{https://github.com/l xtGH/TemporalPyramid Routing})。

Video Instance Segmentation (VIS) is a new and inherently multi-task problem, which aims to detect, segment and track each instance in a video sequence. Existing approaches are mainly based on single-frame features or single-scale features of multiple frames, where temporal information or multi-scale information is ignored. To incorporate both temporal and scale information, we propose a Temporal Pyramid Routing (TPR) strategy to conditionally align and conduct pixel-level aggregation from a feature pyramid pair of two adjacent frames. Specifically, TPR contains two novel components, including Dynamic Aligned Cell Routing (DACR) and Cross Pyramid Routing (CPR), where DACR is designed for aligning and gating pyramid features across temporal dimension, while CPR transfers temporally aggregated features across scale dimension. Moreover, our approach is a plug-and-play module and can be easily applied to existing instance segmentation methods. Extensive experiments on YouTube-VIS dataset demonstrate the effectiveness and efficiency of the proposed approach on several state-of-the-art instance segmentation methods. Codes and trained models will be publicly available to facilitate future research.(\url{https://github.com/l xtGH/TemporalPyramid Routing}).
翻訳日:2021-07-29 13:59:59 公開日:2021-07-28
# 効率的な映像予測のための正確なグリッドキーポイント学習

Accurate Grid Keypoint Learning for Efficient Video Prediction ( http://arxiv.org/abs/2107.13170v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, and Pheng-Ann Heng(参考訳) ビデオ予測手法は一般に、トレーニングやデプロイメントにおいてかなりの計算資源を消費するが、その中でキーポイントベースのアプローチは、高密度な画像予測を軽量なキーポイント予測に単純化することにより、効率が向上することを示す。 しかし、キーポイントの位置はしばしば連続座標としてのみモデル化されるため、ビデオにおける意味的に重要でない偏差によるノイズは学習の安定性を損なうことが容易であり、キーポイントのモデリングが不正確なものとなる。 本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。 技術的な貢献は2つあります。 まず,隆起したグリッド空間の候補位置間をジャンプしてキーポイントを検出し,凝縮損失を定式化し,強力な代表能力を持つ有意義なキーポイントを奨励する。 次に,検出されたグリッドキーポイントを表す2次元バイナリマップを導入し,離散格子空間のエントリを選択することで,キーポイントの位置を確率的に伝播させることを提案する。 広範な実験により,計算資源の98%以上を節約しつつ,最先端の確率的ビデオ予測手法を上回っていることを確認した。 また,ロボット支援手術データセット上でも有望な結果が得られた。 私たちのコードはhttps://github.com/x jgaocs/grid-keypoint -learningで利用可能です。

Video prediction methods generally consume substantial computing resources in training and deployment, among which keypoint-based approaches show promising improvement in efficiency by simplifying dense image prediction to light keypoint prediction. However, keypoint locations are often modeled only as continuous coordinates, so noise from semantically insignificant deviations in videos easily disrupt learning stability, leading to inaccurate keypoint modeling. In this paper, we design a new grid keypoint learning framework, aiming at a robust and explainable intermediate keypoint representation for long-term efficient video prediction. We have two major technical contributions. First, we detect keypoints by jumping among candidate locations in our raised grid space and formulate a condensation loss to encourage meaningful keypoints with strong representative capability. Second, we introduce a 2D binary map to represent the detected grid keypoints and then suggest propagating keypoint locations with stochasticity by selecting entries in the discrete grid space, thus preserving the spatial structure of keypoints in the longterm horizon for better future frame generation. Extensive experiments verify that our method outperforms the state-ofthe-art stochastic video prediction methods while saves more than 98% of computing resources. We also demonstrate our method on a robotic-assisted surgery dataset with promising results. Our code is available at https://github.com/x jgaocs/Grid-Keypoint -Learning.
翻訳日:2021-07-29 13:59:37 公開日:2021-07-28
# 遠隔光胸腔鏡による深層学習による心拍推定法の検討

Assessment of Deep Learning-based Heart Rate Estimation using Remote Photoplethysmography under Different Illuminations ( http://arxiv.org/abs/2107.13193v1 )

ライセンス: Link先を確認
Ze Yang, Haofei Wang, Feng Lu(参考訳) RPPG(Remote Photoplethysmography )は、物理的接触を必要とせずに心拍数をモニターし、様々な応用を可能にする。 深層学習に基づくrPPGは、制御された文脈における従来のアプローチよりも優れた性能を示している。 しかし、室内空間の照明状況は概して複雑であり、不均一な光分布と照明の頻繁な変化がある。 同じデータセットを使った異なる照度の下での異なる方法の公平な比較が欠けている。 本稿では,BH-rPPGデータセットという,低照度,中照度,高照度の3つの照明条件下での12人の被験者のデータを含む公開データセットを提案する。 また, オキシメータで測定した地中真実の心拍数も測定した。 UBFC-rPPGデータセットとBH-rPPGデータセットの2つの公開データセットを用いて,従来の4つの手法と比較した。 実験の結果, 従来の方法は, ゆらぎのある照度に抵抗性が高いことがわかった。 その結果、rPPGNetは、中級照明下での深層学習法の中で最低のMAEを達成するのに対し、CHROMは1.5ビート毎分(BPM)を達成し、rPPGNetを60%上回った。 これらの結果から,深層学習に基づく心拍数推定アルゴリズムの開発において,照明の変動を考慮すべきであることが示唆された。 この研究は、rPPGの性能評価のベンチマークとして機能し、照明変動下での深層学習に基づくrPPGの今後の研究の道を開く。

Remote photoplethysmography (rPPG) monitors heart rate without requiring physical contact, which allows for a wide variety of applications. Deep learning-based rPPG have demonstrated superior performance over the traditional approaches in controlled context. However, the lighting situation in indoor space is typically complex, with uneven light distribution and frequent variations in illumination. It lacks a fair comparison of different methods under different illuminations using the same dataset. In this paper, we present a public dataset, namely the BH-rPPG dataset, which contains data from twelve subjects under three illuminations: low, medium, and high illumination. We also provide the ground truth heart rate measured by an oximeter. We evaluate the performance of three deep learning-based methods to that of four traditional methods using two public datasets: the UBFC-rPPG dataset and the BH-rPPG dataset. The experimental results demonstrate that traditional methods are generally more resistant to fluctuating illuminations. We found that the rPPGNet achieves lowest MAE among deep learning-based method under medium illumination, whereas the CHROM achieves 1.5 beats per minute (BPM), outperforming the rPPGNet by 60%. These findings suggest that while developing deep learning-based heart rate estimation algorithms, illumination variation should be taken into account. This work serves as a benchmark for rPPG performance evaluation and it opens a pathway for future investigation into deep learning-based rPPG under illumination variations.
翻訳日:2021-07-29 13:59:14 公開日:2021-07-28
# 弱監視対象定位における正規化事項

Normalization Matters in Weakly Supervised Object Localization ( http://arxiv.org/abs/2107.13221v1 )

ライセンス: Link先を確認
Jeesoo Kim, Junsuk Choe, Sangdoo Yun, Nojun Kwak(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、ローカライゼーション情報なしでデータセットを使ってオブジェクトを見つけることができる。 画像レベルのアノテーションのみを用いて分類モデルをトレーニングすることで、モデルの特徴マップをローカライゼーションのためのスコアマップとして利用することができる。 新たな戦略を提案する多くのWSOLメソッドにもかかわらず、クラスアクティベーションマップ(CAM)の正規化方法に関するデファクトスタンダードは存在していない。 その結果、多くのWSOL法は正規化法を誤用するため、その能力を完全に活用できなかった。 本稿では,既存の正規化手法を数多く検討し,与えられたデータセットの特性に応じて使用するべきであることを指摘する。 さらに,CAMに基づくWSOL法の性能を大幅に向上させる新しい正規化法を提案する。 提案手法を用いて,3つの異なるアーキテクチャ上での3つのデータセット(CUB, ImageNet, OpenImages)を総合的に評価し,従来のmin-max正規化手法よりも大きな性能向上を示す。

Weakly-supervised object localization (WSOL) enables finding an object using a dataset without any localization information. By simply training a classification model using only image-level annotations, the feature map of the model can be utilized as a score map for localization. In spite of many WSOL methods proposing novel strategies, there has not been any de facto standard about how to normalize the class activation map (CAM). Consequently, many WSOL methods have failed to fully exploit their own capacity because of the misuse of a normalization method. In this paper, we review many existing normalization methods and point out that they should be used according to the property of the given dataset. Additionally, we propose a new normalization method which substantially enhances the performance of any CAM-based WSOL methods. Using the proposed normalization method, we provide a comprehensive evaluation over three datasets (CUB, ImageNet and OpenImages) on three different architectures and observe significant performance gains over the conventional min-max normalization method in all the evaluated cases.
翻訳日:2021-07-29 13:58:49 公開日:2021-07-28
# 取引: icl-sjtu submit to epic-kitchens action anticipation challenge 2021

TransAction: ICL-SJTU Submission to EPIC-Kitchens Action Anticipation Challenge 2021 ( http://arxiv.org/abs/2107.13259v1 )

ライセンス: Link先を確認
Xiao Gu, Jianing Qiu, Yao Guo, Benny Lo, Guang-Zhong Yang(参考訳) 本報告では,EPIC-Kitchens Action Precipation Challenge 2021への提出の技術的詳細について述べる。 時間次元,モダリティ,共生分枝にまたがる特徴を集約するために,トランスフォーマティブ・アテンション機構を利用した行動予測のための階層的アテンションモデルを開発した。 平均的トップ5 アクションのリコールでは、チーム名 ICL-SJTU が13.39%、未確認サブセットが10.05%、尾行サブセットが11.88% に達した。 さらに、3つの(部分)集合すべてで動詞のクラスで1位にランクされたことも注目に値する。

In this report, the technical details of our submission to the EPIC-Kitchens Action Anticipation Challenge 2021 are given. We developed a hierarchical attention model for action anticipation, which leverages Transformer-based attention mechanism to aggregate features across temporal dimension, modalities, symbiotic branches respectively. In terms of Mean Top-5 Recall of action, our submission with team name ICL-SJTU achieved 13.39% for overall testing set, 10.05% for unseen subsets and 11.88% for tailed subsets. Additionally, it is noteworthy that our submission ranked 1st in terms of verb class in all three (sub)sets.
翻訳日:2021-07-29 13:58:30 公開日:2021-07-28
# 損失一般化による単眼内視鏡の深度とポス推定

Learning-Based Depth and Pose Estimation for Monocular Endoscope with Loss Generalization ( http://arxiv.org/abs/2107.13263v1 )

ライセンス: Link先を確認
Aji Resindra Widya, Yusuke Monno, Masatoshi Okutomi, Sho Suzuki, Takuji Gotoda, Kenji Miki(参考訳) 胃内視鏡は、胃などの消化器系の一部に影響を及ぼす疾患の診断と治療のための臨床標準である。 胃内視鏡は患者に多くの利点があるにもかかわらず、深度や内視鏡などの3D知覚の欠如など、実践者にはいくつかの課題がある。 このような課題は、内視鏡をナビゲートし、消化器内の病変の特定を困難にする。 これらの問題に対処するために、深層学習に基づくアプローチが提案されており、さらに重要な深さとポーズ情報を持つ単眼胃内視鏡を提供する。 本稿では,胃の内視鏡ナビゲーションを支援するために,腹腔鏡画像を用いて深度を訓練し,推定ネットワークを推定するための新しい教師付きアプローチを提案する。 まず,提案した全胃3D再建パイプラインを用いて実深度とトレーニングデータを合成し,コンピュータ生成(CG)モデルと胃の実データとの一般化能力の低下を回避する。 また,既存の直接的深度と姿勢監視アプローチに必要な深さとポーズ損失項のバランスをとるための適切な重みを求める複雑なプロセスを避けるために,新しい一般化測光損失関数を提案する。 次に,提案した一般化損失が,既存の直接監督損失よりも優れていることを示す。

Gastroendoscopy has been a clinical standard for diagnosing and treating conditions that affect a part of a patient's digestive system, such as the stomach. Despite the fact that gastroendoscopy has a lot of advantages for patients, there exist some challenges for practitioners, such as the lack of 3D perception, including the depth and the endoscope pose information. Such challenges make navigating the endoscope and localizing any found lesion in a digestive tract difficult. To tackle these problems, deep learning-based approaches have been proposed to provide monocular gastroendoscopy with additional yet important depth and pose information. In this paper, we propose a novel supervised approach to train depth and pose estimation networks using consecutive endoscopy images to assist the endoscope navigation in the stomach. We firstly generate real depth and pose training data using our previously proposed whole stomach 3D reconstruction pipeline to avoid poor generalization ability between computer-generated (CG) models and real data for the stomach. In addition, we propose a novel generalized photometric loss function to avoid the complicated process of finding proper weights for balancing the depth and the pose loss terms, which is required for existing direct depth and pose supervision approaches. We then experimentally show that our proposed generalized loss performs better than existing direct supervision losses.
翻訳日:2021-07-29 13:58:15 公開日:2021-07-28
# 人動作分割のためのグラフ制約付きデータ表現学習

Graph Constrained Data Representation Learning for Human Motion Segmentation ( http://arxiv.org/abs/2107.13362v1 )

ライセンス: Link先を確認
Mariella Dimiccoli, Llu\'is Garrido, Guillem Rodriguez-Corominas, Herwig Wendt(参考訳) 近年,トランスファーサブスペース学習に基づくアプローチは,非教師なしサブスペースクラスタリングやヒューマンモーションセグメンテーション(HMS)のための時間的データクラスタリングに有効な方法であることが示されている。 これらのアプローチは、ソースドメインからの事前知識を活用して、ターゲットドメインでのクラスタリングパフォーマンスを改善し、現在、HMSの最先端技術を表している。 本稿では,データの表現を学習し,データ自体からクラスタリング情報を掘り下げる,新しい教師なしモデルを提案する。 我々のモデルは時間的サブスペースクラスタリングを連想させるが、2つの重要な違いを示す。 まず,初期データから逸脱可能な補助データ行列を学習し,符号化行列に対する自由度を増大させる。 第二に、高次元空間に存在する局所幾何学的構造を保存する補助データ行列の正規化項を導入する。 補助データ表現と非負辞書と符号化行列を共同で学習可能な乗算器(admm)のオリジナルの交互方向法を用いて、提案モデルを効率的に最適化する。 HMSのための4つのベンチマークデータセットの実験結果によると、我々の手法は、教師なしおよびより最近の半教師付きトランスファー学習アプローチを含む最先端の手法によるクラスタリング性能を著しく向上することが示された。

Recently, transfer subspace learning based approaches have shown to be a valid alternative to unsupervised subspace clustering and temporal data clustering for human motion segmentation (HMS). These approaches leverage prior knowledge from a source domain to improve clustering performance on a target domain, and currently they represent the state of the art in HMS. Bucking this trend, in this paper, we propose a novel unsupervised model that learns a representation of the data and digs clustering information from the data itself. Our model is reminiscent of temporal subspace clustering, but presents two critical differences. First, we learn an auxiliary data matrix that can deviate from the initial data, hence confer more degrees of freedom to the coding matrix. Second, we introduce a regularization term for this auxiliary data matrix that preserves the local geometrical structure present in the high-dimensional space. The proposed model is efficiently optimized by using an original Alternating Direction Method of Multipliers (ADMM) formulation allowing to learn jointly the auxiliary data representation, a nonnegative dictionary and a coding matrix. Experimental results on four benchmark datasets for HMS demonstrate that our approach achieves significantly better clustering performance then state-of-the-art methods, including both unsupervised and more recent semi-supervised transfer learning approaches.
翻訳日:2021-07-29 13:57:54 公開日:2021-07-28
# ファーストパーソン(エゴセントリック)のビジョンから未来を予測する:サーベイ

Predicting the Future from First Person (Egocentric) Vision: A Survey ( http://arxiv.org/abs/2107.13411v1 )

ライセンス: Link先を確認
Ivan Rodin, Antonino Furnari, Dimitrios Mavroedis, Giovanni Maria Farinella(参考訳) エゴセントリックなビデオは、人間がどのように世界を知覚し、環境と相互作用するかに関する多くの情報をもたらすことができる。 egocentric video analysisの研究は、ウェアラブルデバイスの可用性の高まりと、新しい大規模egocentric datasetが提供する機会によって急速に進展している。 コンピュータビジョン技術が急速に発展を続ける中、未来予測に関連するタスクは、現在を理解する必要性から進化し始めている。 将来の人間の活動、軌道、物体との相互作用を予測することは、人間とロボットの相互作用、産業と日常の両方の生活シナリオのための補助ウェアラブル技術、エンターテイメント、バーチャルまたは拡張現実などの応用において重要である。 この調査は、アプリケーション、デバイス、既存の問題、一般的に使用されるデータセット、モデル、入力モダリティを概観する、エゴセントリックなビジョンから将来の予測の文脈における研究の進化をまとめたものだ。 分析の結果,エゴセントリックなビジョンからの将来の予測手法は,幅広いアプリケーションに多大な影響を与えうること,さらに課題の標準化や,産業的職業を持つような現実的なシナリオを考慮したデータセットの提案に,さらなる研究努力が注がれることが示唆された。

Egocentric videos can bring a lot of information about how humans perceive the world and interact with the environment, which can be beneficial for the analysis of human behaviour. The research in egocentric video analysis is developing rapidly thanks to the increasing availability of wearable devices and the opportunities offered by new large-scale egocentric datasets. As computer vision techniques continue to develop at an increasing pace, the tasks related to the prediction of future are starting to evolve from the need of understanding the present. Predicting future human activities, trajectories and interactions with objects is crucial in applications such as human-robot interaction, assistive wearable technologies for both industrial and daily living scenarios, entertainment and virtual or augmented reality. This survey summarises the evolution of studies in the context of future prediction from egocentric vision making an overview of applications, devices, existing problems, commonly used datasets, models and input modalities. Our analysis highlights that methods for future prediction from egocentric vision can have a significant impact in a range of applications and that further research efforts should be devoted to the standardisation of tasks and the proposal of datasets considering real-world scenarios such as the ones with an industrial vocation.
翻訳日:2021-07-29 13:57:31 公開日:2021-07-28
# 女性の乳房形状の学習 : 110個の乳房スキャンから構築した女性乳房のオープンアクセス3次元統計的形状モデル

Learning the shape of female breasts: an open-access 3D statistical shape model of the female breast built from 110 breast scans ( http://arxiv.org/abs/2107.13463v1 )

ライセンス: Link先を確認
Maximilian Weiherer, Andreas Eigenberger, Vanessa Br\'ebant, Lukas Prantl, Christoph Palm(参考訳) Regensburg Breast Shape Model (RBSM) は、110個の乳房スキャンで構築した女性の乳房の3次元統計的形状モデルであり、初めて公開された。 このモデルとともに、3d乳房スキャン間の対応を確立するために使用される、完全に自動化されたペアワイズな表面登録パイプラインを導入する。 提案手法は計算効率が高く,登録プロセスの指針となるランドマークは4つしかない。 胸部と胸部との強い結合を弱めるため,乳腺領域外における分散を極力最小化することを提案する。 この目的を達成するために、乳房確率マスク(BPM)と呼ばれる新しい概念が導入された。 bpmは3d乳房スキャンの各ポイントに確率を割り当て、特定のポイントが乳房領域に属する可能性がどの程度あるかを示す。 登録中、私たちはbpmsを使用して、乳房領域内と大まかにのみ、可能な限りターゲットにテンプレートをアライメントします。 この単純で効果的な戦略は乳房領域外における望ましくないばらつきを著しく減少させ、胸部形状が胸部からかなりよく切り離されている統計モデルに繋がる。 したがって、RBSMは胸郭の形状と可能な限り独立して様々な乳房形状を産生することができる。 系統実験の結果, RBSMは0.17mm, 特異性2.8mmの一般化能を示した。 最終的には,より現実的な手術成績シミュレーションを実現するために,乳房の身体的動機付き変形可能なモデルと統計的アプローチを組み合わせるための第一歩と見なされている。

We present the Regensburg Breast Shape Model (RBSM) - a 3D statistical shape model of the female breast built from 110 breast scans, and the first ever publicly available. Together with the model, a fully automated, pairwise surface registration pipeline used to establish correspondence among 3D breast scans is introduced. Our method is computationally efficient and requires only four landmarks to guide the registration process. In order to weaken the strong coupling between breast and thorax, we propose to minimize the variance outside the breast region as much as possible. To achieve this goal, a novel concept called breast probability masks (BPMs) is introduced. A BPM assigns probabilities to each point of a 3D breast scan, telling how likely it is that a particular point belongs to the breast area. During registration, we use BPMs to align the template to the target as accurately as possible inside the breast region and only roughly outside. This simple yet effective strategy significantly reduces the unwanted variance outside the breast region, leading to better statistical shape models in which breast shapes are quite well decoupled from the thorax. The RBSM is thus able to produce a variety of different breast shapes as independently as possible from the shape of the thorax. Our systematic experimental evaluation reveals a generalization ability of 0.17 mm and a specificity of 2.8 mm for the RBSM. Ultimately, our model is seen as a first step towards combining physically motivated deformable models of the breast and statistical approaches in order to enable more realistic surgical outcome simulation.
翻訳日:2021-07-29 13:57:10 公開日:2021-07-28
# カメラ校正におけるバイアスと不確実性

Inferring bias and uncertainty in camera calibration ( http://arxiv.org/abs/2107.13484v1 )

ライセンス: Link先を確認
Annika Hagemann, Moritz Knorr, Holger Janssen, Christoph Stiller(参考訳) 正確なカメラキャリブレーションは多くのコンピュータビジョン応用の前提条件である。 間違ったモデル仮定や不正確なパラメータ推定などの校正誤差はシステム全体の性能を低下させ、信頼性の高い検出と定量化が重要となる。 本研究では,カメラキャリブレーションにおける基本的な誤差源である系統的誤り(biases)と不確実性(variance)を捉えた評価手法を提案する。 提案手法は,最小限の系統誤差を明らかにし,キャリブレーション設定の不備を明らかにし,カメラモデル選択の基礎となる。 新たなサンプルベース不確実性推定器は,非理想条件下での不確実性推定を可能にし,古典的共分散推定器を拡張する。 さらに,カメラモデルに依存しない単純な不確実性指標を導出する。 提案手法を組み合わせることで,キャリブレーションの精度を評価するだけでなく,新しいキャリブレーションアルゴリズム,カメラモデル,キャリブレーション設定のベンチマークを行うことができる。 提案手法をシミュレーションと実カメラを用いて評価する。

Accurate camera calibration is a precondition for many computer vision applications. Calibration errors, such as wrong model assumptions or imprecise parameter estimation, can deteriorate a system's overall performance, making the reliable detection and quantification of these errors critical. In this work, we introduce an evaluation scheme to capture the fundamental error sources in camera calibration: systematic errors (biases) and uncertainty (variance). The proposed bias detection method uncovers smallest systematic errors and thereby reveals imperfections of the calibration setup and provides the basis for camera model selection. A novel resampling-based uncertainty estimator enables uncertainty estimation under non-ideal conditions and thereby extends the classical covariance estimator. Furthermore, we derive a simple uncertainty metric that is independent of the camera model. In combination, the proposed methods can be used to assess the accuracy of individual calibrations, but also to benchmark new calibration algorithms, camera models, or calibration setups. We evaluate the proposed methods with simulations and real cameras.
翻訳日:2021-07-29 13:56:44 公開日:2021-07-28
# CRD-CGAN: 異種テキスト・画像生成のためのカテゴリー一貫性と相対論的制約

CRD-CGAN: Category-Consistent and Relativistic Constraints for Diverse Text-to-Image Generation ( http://arxiv.org/abs/2107.13516v1 )

ライセンス: Link先を確認
Tao Hu, Chengjiang Long, Chunxia Xiao(参考訳) テキスト記述から写真リアル画像を生成することは、コンピュータビジョンにおいて難しい問題である。 これまで,GAN(Generative Adversarial Networks)によるテキスト上での合成画像生成に期待できる性能を示してきた。 本稿では,合成画像の多様性を最適化するためのカテゴリ一貫性と相対論的制約に着目した。 これらの制約に基づき、カテゴリ一貫性と相対論的多彩な条件付きGAN (CRD-CGAN) を提案し、同時に$K$フォトリアリスティック画像を合成する。 単語の注意と雑音に対するganの感度を向上させるために注意損失と多様性損失を用いる。 次に, 相対論的条件損失を用いて, 合成画像に対して比較的現実的あるいは偽の確率を推定し, 基本条件損失の性能を向上させる。 最後に,K合成画像間の過剰カテゴリ問題を軽減するために,カテゴリ一貫性損失を導入する。 本研究では,birds-200-2011,oxfo rd-102 flowerおよびmscoco 2014データセットを用いたアプローチを評価し,提案手法の精度を,生成した合成画像のフォトリアリスティックおよび多様性の観点から比較検討した。

Generating photo-realistic images from a text description is a challenging problem in computer vision. Previous works have shown promising performance to generate synthetic images conditional on text by Generative Adversarial Networks (GANs). In this paper, we focus on the category-consistent and relativistic diverse constraints to optimize the diversity of synthetic images. Based on those constraints, a category-consistent and relativistic diverse conditional GAN (CRD-CGAN) is proposed to synthesize $K$ photo-realistic images simultaneously. We use the attention loss and diversity loss to improve the sensitivity of the GAN to word attention and noises. Then, we employ the relativistic conditional loss to estimate the probability of relatively real or fake for synthetic images, which can improve the performance of basic conditional loss. Finally, we introduce a category-consistent loss to alleviate the over-category issues between K synthetic images. We evaluate our approach using the Birds-200-2011, Oxford-102 flower and MSCOCO 2014 datasets, and the extensive experiments demonstrate superiority of the proposed method in comparison with state-of-the-art methods in terms of photorealistic and diversity of the generated synthetic images.
翻訳日:2021-07-29 13:56:27 公開日:2021-07-28
# Pixyz: 深層生成モデルを開発するためのライブラリ

Pixyz: a library for developing deep generative models ( http://arxiv.org/abs/2107.13109v1 )

ライセンス: Link先を確認
Masahiro Suzuki, Takaaki Kaneko, Yutaka Matsuo(参考訳) 近年, 深層生成モデル (DGM) の研究が急速に進展しているため, それらをシンプルかつ汎用的に実装できるフレームワークの必要性が指摘されている。 本研究では,(1)深層ニューラルネットワークは確率分布にカプセル化され,(2)モデルは目的関数に基づいて設計・学習される,という最新のdgmの特徴に注目した。 これらの特徴を考慮すると、Pixyzと呼ばれる新しいDGMライブラリを提案する。 実験により,我々のライブラリは,単純なDGMを学習する際に既存の確率的モデリング言語よりも高速であることが示され,既存のライブラリでは難しい複雑なDGMの実装に利用できることが示されている。

With the recent rapid progress in the study of deep generative models (DGMs), there is a need for a framework that can implement them in a simple and generic way. In this research, we focus on two features of the latest DGMs: (1) deep neural networks are encapsulated by probability distributions and (2) models are designed and learned based on an objective function. Taking these features into account, we propose a new DGM library called Pixyz. We experimentally show that our library is faster than existing probabilistic modeling languages in learning simple DGMs and we show that our library can be used to implement complex DGMs in a simple and concise manner, which is difficult to do with existing libraries.
翻訳日:2021-07-29 13:56:05 公開日:2021-07-28
# ディープニューラルネットワーク回帰のためのロバストとアクティブラーニング

Robust and Active Learning for Deep Neural Network Regression ( http://arxiv.org/abs/2107.13124v1 )

ライセンス: Link先を確認
Xi Li, George Kesidis, David J. Miller, Maxime Bergeron, Ryan Ferguson, Vladimir Lucic(参考訳) 本稿では,サンプルに対して実測値の監視(回帰目標)が可能な「オークル」が利用可能であることを前提として,回帰に使用するディープニューラルネットワーク(DNN)の局所誤差最大値を検出する勾配に基づく手法について述べる。 例えば、オラクルは数値解法であり、運用上はDNNよりもはるかに遅い。 ローカルエラー最大化器が発見された場合、DNNは、アクティブラーニングの方法で微調整または再訓練される。

We describe a gradient-based method to discover local error maximizers of a deep neural network (DNN) used for regression, assuming the availability of an "oracle" capable of providing real-valued supervision (a regression target) for samples. For example, the oracle could be a numerical solver which, operationally, is much slower than the DNN. Given a discovered set of local error maximizers, the DNN is either fine-tuned or retrained in the manner of active learning.
翻訳日:2021-07-29 13:55:54 公開日:2021-07-28
# AutoMLが時系列回帰設計とAutoSeriesチャレンジの分析を発表

AutoML Meets Time Series Regression Design and Analysis of the AutoSeries Challenge ( http://arxiv.org/abs/2107.13186v1 )

ライセンス: Link先を確認
Zhen Xu, Wei-Wei Tu, Isabelle Guyon(参考訳) 人間の努力が限定されたより良い時系列の分析は、アカデミックと産業にとって関心がある。 ビジネスシナリオに基づいて、WSDM Cup 2020の最初のAutomated Time Series Regression Challenge(AutoSeries )を組織しました。 設計、分析、ポストホック実験について述べる。 コード提出要件は、ハードウェアと時間の制限の下で、ソリューションの自動機械学習機能をテストする、手作業による介入から参加者を除外した。 多様なアプリケーションドメイン(販売、消費電力、空気質、交通、駐車)から10のデータセットを作成し、欠落データ、連続変数とカテゴリー変数の混合、様々なサンプリングレートを特徴とした。 各データセットはトレーニングとテストシーケンス(ストリーム化され、モデルが継続的に適応できるように)に分割された。 時系列回帰の設定は、現在の共変数が知られている古典的な予測とは異なる。 参加者によるこのAutoSeries問題への取り組みは、サンプル提出からのパフォーマンス向上とAutoGluonとのポストホック比較によって実証された。 機能エンジニアリング、LightGBM、ランダム検索ハイパーパラメータチューニングに基づくシンプルで効果的な手法が使われ、課題のすべての側面に対処した。 ポストホック分析の結果,追加の時間を提供することで有意な改善は得られなかった。 勝者のコードはhttps://www.4paradig m.com/competition/au toseries2020である。

Analyzing better time series with limited human effort is of interest to academia and industry. Driven by business scenarios, we organized the first Automated Time Series Regression challenge (AutoSeries) for the WSDM Cup 2020. We present its design, analysis, and post-hoc experiments. The code submission requirement precluded participants from any manual intervention, testing automated machine learning capabilities of solutions, across many datasets, under hardware and time limitations. We prepared 10 datasets from diverse application domains (sales, power consumption, air quality, traffic, and parking), featuring missing data, mixed continuous and categorical variables, and various sampling rates. Each dataset was split into a training and a test sequence (which was streamed, allowing models to continuously adapt). The setting of time series regression, differs from classical forecasting in that covariates at the present time are known. Great strides were made by participants to tackle this AutoSeries problem, as demonstrated by the jump in performance from the sample submission, and post-hoc comparisons with AutoGluon. Simple yet effective methods were used, based on feature engineering, LightGBM, and random search hyper-parameter tuning, addressing all aspects of the challenge. Our post-hoc analyses revealed that providing additional time did not yield significant improvements. The winners' code was open-sourced https://www.4paradig m.com/competition/au toseries2020.
翻訳日:2021-07-29 13:55:44 公開日:2021-07-28
# 交通流の短期予測のための多グラフ畳み込みリカレントニューラルネットワーク(MGC-RNN)

Multi-Graph Convolutional-Recurr ent Neural Network (MGC-RNN) for Short-Term Forecasting of Transit Passenger Flow ( http://arxiv.org/abs/2107.13226v1 )

ライセンス: Link先を確認
Yuxin He, Lishuai Li, Xinting Zhu, Kwok Leung Tsui(参考訳) 乗客フローの短期予測は交通管理と群衆規制にとって重要である。 空間依存性,時間依存性,その他の潜伏要因による駅間相関,および外因性要因は,都市鉄道交通網の旅客流の短期予測に課題をもたらす。 都市鉄道交通システムにおける乗客の流れを予測し,複雑な要因を取り入れるために,多グラフ畳み込み-リカレントニューラルネットワーク (mgc-rnn) を提案する。 本稿では,複数のグラフを用いて空間的および異種間関係を符号化することを提案する。 駅間相関の時間的ダイナミクスは、提案したマルチグラフ畳み込み-リカレントニューラルネットワーク構造を通してモデル化される。 すべてのステーションのインフローとアウトフローは、シーケンス to sequence(seq2seq)アーキテクチャを介して、複数の時間ステップで総括的に予測できる。 提案手法は,中国深セン大都市圏における短期的な乗客流動予測に応用される。 実験の結果,MGC-RNNは予測精度でベンチマークアルゴリズムより優れていた。 さらに,ネットワーク距離,ネットワーク構造,近年のフローパターンによって駆動されるステーション間が,乗客のフロー予測の重要な要因であることが判明した。 さらに、LSTMエンコーダデコーダのアーキテクチャは、時間依存性をうまく捉えることができる。 概して,提案手法は,詳細な予測のための乗客フローダイナミクスの複数のビューを提供し,時空間予測タスクにおける多元不均質データ融合の可能性を示すことができる。

Short-term forecasting of passenger flow is critical for transit management and crowd regulation. Spatial dependencies, temporal dependencies, inter-station correlations driven by other latent factors, and exogenous factors bring challenges to the short-term forecasts of passenger flow of urban rail transit networks. An innovative deep learning approach, Multi-Graph Convolutional-Recurr ent Neural Network (MGC-RNN) is proposed to forecast passenger flow in urban rail transit systems to incorporate these complex factors. We propose to use multiple graphs to encode the spatial and other heterogenous inter-station correlations. The temporal dynamics of the inter-station correlations are also modeled via the proposed multi-graph convolutional-recurr ent neural network structure. Inflow and outflow of all stations can be collectively predicted with multiple time steps ahead via a sequence to sequence(seq2seq) architecture. The proposed method is applied to the short-term forecasts of passenger flow in Shenzhen Metro, China. The experimental results show that MGC-RNN outperforms the benchmark algorithms in terms of forecasting accuracy. Besides, it is found that the inter-station driven by network distance, network structure, and recent flow patterns are significant factors for passenger flow forecasting. Moreover, the architecture of LSTM-encoder-decoder can capture the temporal dependencies well. In general, the proposed framework could provide multiple views of passenger flow dynamics for fine prediction and exhibit a possibility for multi-source heterogeneous data fusion in the spatiotemporal forecast tasks.
翻訳日:2021-07-29 13:55:21 公開日:2021-07-28
# テスト仕様に対するパッチ動作のチェック

Checking Patch Behaviour against Test Specification ( http://arxiv.org/abs/2107.13296v1 )

ライセンス: Link先を確認
Haoye Tian, Yinghua Li, Weiguo Pian, Abdoul Kader Kabor\'e, Kui Liu, Jacques Klein, Tegawend\'e F. Bissyande(参考訳) aprにおけるパッチの正確性を予測するために,我々は,パッチ動作とテスト仕様の失敗との関連性について,単純だが新しい仮説を提案する。 次に、テスト仕様に反する振る舞いをチェックすることにより、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。 BATSは、コードとパッチの深層表現学習モデルを利用する: 与えられた失敗したテストケースに対して、得られた埋め込みは、歴史的に類似したテストケースの検索における類似度メトリクスの計算に使用され、関連するパッチを識別し、生成されたパッチの正確性を評価するプロキシとして使用される。 実験では,まず,テストケースがクラスタ化されるのと同じような方法で,基盤構造体が一緒にクラスタ化されているかどうかを評価する。 そして、1278の信頼できるパッチ(開発者によって書かれたり、32のaprツールによって生成された)の大規模なデータセットを収集した後、batsを使って正確性を予測する: batsは0.557から0.718のaucを達成し、正しいパッチを特定するために0.562から0.854のリコールを達成する。 従来の研究と比較して,従来の機械学習ベースのアプローチとは対照的に,大規模なラベル付きパッチデータセットを必要とせず,パッチの正確性予測において最先端のパフォーマンスを上回っていることを実証する。 BATSは、類似のテストケースの可用性に制約されているが、既存のアプローチと相補的であることを示し、教師付き学習を実装した最近のアプローチと合わせて、BATSは正しいパッチを検出する際の全体的なリコールを改善している。 最終的に、BATSは、APRツールの正しいパッチを特定するための最先端のPATCH-SIM動的アプローチと相補的であることを示す。

Towards predicting patch correctness in APR, we propose a simple, but novel hypothesis on how the link between the patch behaviour and failing test specifications can be drawn: similar failing test cases should require similar patches. We then propose BATS, an unsupervised learning-based system to predict patch correctness by checking patch Behaviour Against failing Test Specification. BATS exploits deep representation learning models for code and patches: for a given failing test case, the yielded embedding is used to compute similarity metrics in the search for historical similar test cases in order to identify the associated applied patches, which are then used as a proxy for assessing generated patch correctness. Experimentally, we first validate our hypothesis by assessing whether ground-truth developer patches cluster together in the same way that their associated failing test cases are clustered. Then, after collecting a large dataset of 1278 plausible patches (written by developers or generated by some 32 APR tools), we use BATS to predict correctness: BATS achieves an AUC between 0.557 to 0.718 and a recall between 0.562 and 0.854 in identifying correct patches. Compared against previous work, we demonstrate that our approach outperforms state-of-the-art performance in patch correctness prediction, without the need for large labeled patch datasets in contrast with prior machine learning-based approaches. While BATS is constrained by the availability of similar test cases, we show that it can still be complementary to existing approaches: used in conjunction with a recent approach implementing supervised learning, BATS improves the overall recall in detecting correct patches. We finally show that BATS can be complementary to the state-of-the-art PATCH-SIM dynamic approach of identifying the correct patches for APR tools.
翻訳日:2021-07-29 13:54:58 公開日:2021-07-28
# 相互作用の連鎖の探索とマイニング

Exploring and mining attributed sequences of interactions ( http://arxiv.org/abs/2107.13329v1 )

ライセンス: Link先を確認
Tiphaine Viard, Henry Soldano, Guillaume Santini(参考訳) 私たちは時間とともに相互作用するエンティティで構成されるデータに直面しています。これは個人会議や製品購入、ipネットワーク上のパケット交換マシンなどです。 ダイナミックスとこれらの相互作用の構造を捉えることは、分析にとって非常に重要である。 これらの相互作用は、ほとんどいつも、グループに属する、製品のレビュー、抽象、などのコンテンツでラベル付けされる。 私たちはこれらの相互作用のストリームを、時間とともに相互作用をモデル化する最近のフレームワークであるストリームグラフとしてモデル化します。 形式的概念分析は、コンテキスト内で進化する概念を分析するためのフレームワークを提供する。 グラフを文脈として考えると、最近ソーシャルグラフ上でクローズドパターンマイニングを行うために適用されている。 本稿では,インタラクションのシーケンスにおけるパターンマイニングに関心がある。 グラフの形式的概念分析からストリームグラフまでの概念をリコールし拡張した後,ラベル付きストリームグラフ上に閉じたパターンを列挙するアルゴリズムを導入し,関連する閉じたパターンを選択する方法を提案する。 我々は,学生同士の相互作用と著者間の引用の2つの実世界のデータセットを用いて実験を行い,本手法の有効性と妥当性を示す。

We are faced with data comprised of entities interacting over time: this can be individuals meeting, customers buying products, machines exchanging packets on the IP network, among others. Capturing the dynamics as well as the structure of these interactions is of crucial importance for analysis. These interactions can almost always be labeled with content: group belonging, reviews of products, abstracts, etc. We model these stream of interactions as stream graphs, a recent framework to model interactions over time. Formal Concept Analysis provides a framework for analyzing concepts evolving within a context. Considering graphs as the context, it has recently been applied to perform closed pattern mining on social graphs. In this paper, we are interested in pattern mining in sequences of interactions. After recalling and extending notions from formal concept analysis on graphs to stream graphs, we introduce algorithms to enumerate closed patterns on a labeled stream graph, and introduce a way to select relevant closed patterns. We run experiments on two real-world datasets of interactions among students and citations between authors, and show both the feasibility and the relevance of our method.
翻訳日:2021-07-29 13:54:28 公開日:2021-07-28
# 土木工学における統合型ヒューマンマシンインテリジェンスを目指して--学際的視点から

Toward Integrated Human-machine Intelligence for Civil Engineering: An Interdisciplinary Perspective ( http://arxiv.org/abs/2107.13498v1 )

ライセンス: Link先を確認
Cheng Zhang, Jinwoo Kim, JungHo Jeon, Jinding Xing, Changbum Ahn, Pingbo Tang, and Hubo Cai(参考訳) 本研究の目的は,土木工学における統合人間・機械知能(IHMI)の可能性と障壁を検討することである。 人工知能の高効率性と再現性と、さまざまなコンテキストにおける人間の適応性の統合は、土木プロジェクトや緊急時のタイムリーで信頼性の高い意思決定を前進させる可能性がある。 バイオメディカルサイエンス、ヘルスケア、輸送といった他の領域で成功した事例は、多くの土木工学応用において、データ駆動の知識に基づく意思決定においてIHMIの可能性を示した。 しかし、業界と学界がIHMIの時代を受け入れ、業界への利益を最大化する準備が整っているかどうかについては、いくつかの知識格差があるため、疑問が残る。 そこで本稿は,IHMIを土木工学に適用する上での価値,方法,課題を探究する上での今後の研究を提唱する。 文献とモチベーション事例の体系的なレビューにより,土木工学において有効なIHMIを実現する上での4つの知識ギャップが明らかになった。 第一に、土木工学領域におけるどんなタスクがAIによって助けられるのか、その程度は分かっていない。 第二に、土木工学関連のタスクにおける人間とAIのインターフェースはより正確で正式な定義を必要とする。 第三に、人間や環境からの詳細な行動データ収集を妨げる障壁は、体系的な分類とプロトタイピングに値する。 最後に、IHMIがAEC産業と起業家精神にどのような期待と予期せぬ影響をもたらすかは不明だ。 これらの知識ギャップを分析することで、特定された研究課題のリストが得られた。 本論文は,4つの知識ギャップに対処するための研究ロードマップを作成するための,関連する研究を識別するための基礎となる。

The purpose of this paper is to examine the opportunities and barriers of Integrated Human-Machine Intelligence (IHMI) in civil engineering. Integrating artificial intelligence's high efficiency and repeatability with humans' adaptability in various contexts can advance timely and reliable decision-making during civil engineering projects and emergencies. Successful cases in other domains, such as biomedical science, healthcare, and transportation, showed the potential of IHMI in data-driven, knowledge-based decision-making in numerous civil engineering applications. However, whether the industry and academia are ready to embrace the era of IHMI and maximize its benefit to the industry is still questionable due to several knowledge gaps. This paper thus calls for future studies in exploring the value, method, and challenges of applying IHMI in civil engineering. Our systematic review of the literature and motivating cases has identified four knowledge gaps in achieving effective IHMI in civil engineering. First, it is unknown what types of tasks in the civil engineering domain can be assisted by AI and to what extent. Second, the interface between human and AI in civil engineering-related tasks need more precise and formal definition. Third, the barriers that impede collecting detailed behavioral data from humans and contextual environments deserve systematic classification and prototyping. Lastly, it is unknown what expected and unexpected impacts will IHMI have on the AEC industry and entrepreneurship. Analyzing these knowledge gaps led to a list of identified research questions. This paper will lay the foundation for identifying relevant studies to form a research roadmap to address the four knowledge gaps identified.
翻訳日:2021-07-29 13:54:10 公開日:2021-07-28
# 伝統と学習に基づく画像符号化手法の主観評価

Subjective evaluation of traditional and learning-based image coding methods ( http://arxiv.org/abs/2107.13122v1 )

ライセンス: Link先を確認
Zhigao Fang and Jiaqi Zhang and Lu Yu and Yin Zhao(参考訳) 従来の画像符号化手法と学習に基づく画像符号化手法の性能を比較するための主観的な実験を行う。 最先端の伝統的な符号化手法であるHEVCとVVCが代表的伝統的手法として使用されている。 使用する学習法はCNNベースの手法だけでなく、GANベースの手法も含んでいる。 ACR(Absolute Category Rating)とも呼ばれるSingle Stimuli(SS)は、画像の知覚品質を得るために実験の方法論として採用されている。 さらに,実験における符号化手法を比較評価するために,典型的かつ頻繁な客観的品質指標を利用する。 実験により、cnnベースおよびganベースの手法は、低ビットレートでの従来の手法よりも優れた性能を示す。 しかし、高ビットレートでは、cnnベースのメソッドが従来の方法より優れているかどうかを検証するのは難しい。 GAN法は高目標ビットレートのモデルを提供していないため、GAN法の性能を高いビットレートで正確に知ることはできない。 さらに、いくつかの一般的な客観的品質指標は、学習ベースの符号化手法、特にGANベースの手法によって生成された画像の品質を測定する能力を示していない。

We conduct a subjective experiment to compare the performance of traditional image coding methods and learning-based image coding methods. HEVC and VVC, the state-of-the-art traditional coding methods, are used as the representative traditional methods. The learning-based methods used contain not only CNN-based methods, but also a GAN-based method, all of which are advanced or typical. Single Stimuli (SS), which is also called Absolute Category Rating (ACR), is adopted as the methodology of the experiment to obtain perceptual quality of images. Additionally, we utilize some typical and frequently used objective quality metrics to evaluate the coding methods in the experiment as comparison. The experiment shows that CNN-based and GAN-based methods can perform better than traditional methods in low bit-rates. In high bit-rates, however, it is hard to verify whether CNN-based methods are superior to traditional methods. Because the GAN method does not provide models with high target bit-rates, we cannot exactly tell the performance of the GAN method in high bit-rates. Furthermore, some popular objective quality metrics have not shown the ability well to measure quality of images generated by learning-based coding methods, especially the GAN-based one.
翻訳日:2021-07-29 13:53:43 公開日:2021-07-28
# c^3net: リアルタイム視覚アクティブカメラ制御のためのエンドツーエンドディープラーニング

C^3Net: End-to-End deep learning for efficient real-time visual active camera control ( http://arxiv.org/abs/2107.13233v1 )

ライセンス: Link先を確認
Christos Kyrkou(参考訳) スマートカメラ監視、スマート環境、ドローンなどのアプリケーションにおける自動化されたリアルタイムビジュアルシステムの必要性は、視覚的アクティブな監視と制御のための方法の改善を必要とする。 従来、アクティブな監視タスクは、検出、フィルタリング、制御などのモジュールのパイプラインを通じて処理されていた。 しかし,資源制約システムのリアルタイム処理において,これらのパラメータを協調的に最適化・調整することは困難である。 本稿では、視覚情報からカメラ運動へ直接移行し、能動視覚問題に対する効率的な解決策を提供するための深層畳み込みカメラ制御ニューラルネットワークを提案する。 カメラを制御するためにボックスアノテーションをバウンディングせずにエンドツーエンドでトレーニングされ、生のピクセル値から複数のターゲットに従う。 シミュレーションフレームワークと実際の実験セットアップの両方による評価から,提案手法は様々な条件に頑健であり,監視対象数と効果的な監視時間の両方において従来の手法よりも優れた監視性能が得られることが示された。 提案手法の利点は、計算量が少なく、リアルタイムアクティブ監視の実用的で安価なソリューションを提供する組み込みスマートカメラ上で10 FPS(~4倍のスピードアップ)以上で実行できることである。

The need for automated real-time visual systems in applications such as smart camera surveillance, smart environments, and drones necessitates the improvement of methods for visual active monitoring and control. Traditionally, the active monitoring task has been handled through a pipeline of modules such as detection, filtering, and control. However, such methods are difficult to jointly optimize and tune their various parameters for real-time processing in resource constraint systems. In this paper a deep Convolutional Camera Controller Neural Network is proposed to go directly from visual information to camera movement to provide an efficient solution to the active vision problem. It is trained end-to-end without bounding box annotations to control a camera and follow multiple targets from raw pixel values. Evaluation through both a simulation framework and real experimental setup, indicate that the proposed solution is robust to varying conditions and able to achieve better monitoring performance than traditional approaches both in terms of number of targets monitored as well as in effective monitoring time. The advantage of the proposed approach is that it is computationally less demanding and can run at over 10 FPS (~4x speedup) on an embedded smart camera providing a practical and affordable solution to real-time active monitoring.
翻訳日:2021-07-29 13:53:22 公開日:2021-07-28
# オクルージョンアウェアイメージベースレンダリングのためのニューラルネットワーク

Neural Rays for Occlusion-aware Image-based Rendering ( http://arxiv.org/abs/2107.13421v1 )

ライセンス: Link先を確認
Yuan Liu and Sida Peng and Lingjie Liu and Qianqian Wang and Peng Wang and Christian Theobalt and Xiaowei Zhou and Wenping Wang(参考訳) 我々は,ニューラルレイ(NeuRay)と呼ばれるニューラル表現を,マルチビューイメージを入力として,新しいビュー合成(NVS)タスクのために提案する。 NeRFのようなNVS問題を解決するための既存のニューラルネットワークシーン表現は、新しいシーンに一般化できず、スクラッチから各新しいシーンのトレーニングに過度に時間がかかる。 PixelNeRF, SRF, IBRNetなどのステレオマッチングに基づくその後の他のニューラルレンダリング手法は、見えないシーンに一般化するが、自己閉塞のある複雑なシーンでは不整合に悩まされるように設計されている。 これらの問題に対処するため、NeuRay法は入力ビューに関連する光の可視性を符号化することで、すべてのシーンを表現している。 このニューラル表現は、外部のMVS法で推定される深さから効率よく初期化することができ、新たなシーンに一般化でき、シーンのトレーニングなしに良好なレンダリング画像を得ることができる。 次に、初期化したNeuRayは、厳しい自己閉塞の存在下での視界の整合性を確保するために空間コヒーレンスを強制する訓練タイミングがほとんどないすべてのシーンで、さらに最適化することができる。 実験により、NeuRayは目立たないシーンの高品質なビューイメージをほとんど微調整せずに迅速に生成し、以前の手法で苦労した厳密な自己閉塞を伴う複雑なシーンを処理できることが示されている。

We present a new neural representation, called Neural Ray (NeuRay), for the novel view synthesis (NVS) task with multi-view images as input. Existing neural scene representations for solving the NVS problem, such as NeRF, cannot generalize to new scenes and take an excessively long time on training on each new scene from scratch. The other subsequent neural rendering methods based on stereo matching, such as PixelNeRF, SRF and IBRNet are designed to generalize to unseen scenes but suffer from view inconsistency in complex scenes with self-occlusions. To address these issues, our NeuRay method represents every scene by encoding the visibility of rays associated with the input views. This neural representation can efficiently be initialized from depths estimated by external MVS methods, which is able to generalize to new scenes and achieves satisfactory rendering images without any training on the scene. Then, the initialized NeuRay can be further optimized on every scene with little training timing to enforce spatial coherence to ensure view consistency in the presence of severe self-occlusion. Experiments demonstrate that NeuRay can quickly generate high-quality novel view images of unseen scenes with little finetuning and can handle complex scenes with severe self-occlusions which previous methods struggle with.
翻訳日:2021-07-29 13:53:02 公開日:2021-07-28
# CarveNet:複雑な3D形状コンプリートのためのポイントブロック

CarveNet: Carving Point-Block for Complex 3D Shape Completion ( http://arxiv.org/abs/2107.13452v1 )

ライセンス: Link先を確認
Qing Guo and Zhijie Wang and Felix Juefei-Xu and Di Lin and Lei Ma and Wei Feng and Yang Liu(参考訳) 3次元点雲の完成は、複雑な3次元形状(例えば、高曲率、凹凸、中空の3次元形状)と、部分的に利用可能な点雲の未知かつ多様なパターンの正確な理解に大きく依存しているため、非常に難しい。 本稿では,複雑な3次元点雲の完成を完了させるための新しい解,すなわちポイントブロック彫刻(pc)を提案する。 部分的ポイントクラウドをガイダンスとして、一様に分散した3dポイントを含むa3dブロックを作成し、ポイントクラウド全体を生成します。 pcを実現するために,新しいネットワークアーキテクチャ,すなわちcarvenetを提案する。 このネットワークはブロックの各点に排他的畳み込みを行い、3次元形状データに基づいて畳み込みカーネルを訓練する。 CarveNetはどの点を刻むべきかを決定し、完全な形の詳細を効果的に復元する。 さらに,データ拡張のためのセンサ認識手法,すなわちSensorAugを提案し,部分点雲のよりリッチなパターン上でCarveNetを訓練することにより,ネットワークの完成能力を向上する。 ShapeNetとKITTIデータセットの広範な評価は、多様なパターンを持つ部分点雲に対する我々のアプローチの一般化を示している。 これらのデータセット上では、CarveNetは最先端のメソッドをうまく上回っている。

3D point cloud completion is very challenging because it heavily relies on the accurate understanding of the complex 3D shapes (e.g., high-curvature, concave/convex, and hollowed-out 3D shapes) and the unknown & diverse patterns of the partially available point clouds. In this paper, we propose a novel solution,i.e., Point-block Carving (PC), for completing the complex 3D point cloud completion. Given the partial point cloud as the guidance, we carve a3D block that contains the uniformly distributed 3D points, yielding the entire point cloud. To achieve PC, we propose a new network architecture, i.e., CarveNet. This network conducts the exclusive convolution on each point of the block, where the convolutional kernels are trained on the 3D shape data. CarveNet determines which point should be carved, for effectively recovering the details of the complete shapes. Furthermore, we propose a sensor-aware method for data augmentation,i.e., SensorAug, for training CarveNet on richer patterns of partial point clouds, thus enhancing the completion power of the network. The extensive evaluations on the ShapeNet and KITTI datasets demonstrate the generality of our approach on the partial point clouds with diverse patterns. On these datasets, CarveNet successfully outperforms the state-of-the-art methods.
翻訳日:2021-07-29 13:52:21 公開日:2021-07-28
# 人工知能支援輪郭修正に関する概念実証研究

A Proof-of-Concept Study of Artificial Intelligence Assisted Contour Revision ( http://arxiv.org/abs/2107.13465v1 )

ライセンス: Link先を確認
Ti Bai, Anjali Balagopal, Michael Dohopolski, Howard E. Morgan, Rafe McBeth, Jun Tan, Mu-Han Lin, David J. Sher, Dan Nguyen, and Steve Jiang(参考訳) 解剖学的構造の自動分割は多くの医学的応用に不可欠である。 しかし、この結果は必ずしも臨床的に受け入れられるものではなく、面倒な手作業による修正が必要である。 本稿では人工知能支援輪郭修正(AIACR)という新しい概念を提案し,その実現可能性を示す。 提案したAIACRの臨床ワークフローは, 臨床医の修正が必要な初期輪郭, 臨床医の大規模な改訂が必要な場所, 訓練された深層学習(DL)モデルが入力を取り込み, 輪郭を更新する。 このプロセスは臨床的に許容される輪郭が達成されるまで繰り返される。 DLモデルは、各イテレーションで入力される臨床医を最小化し、受け入れに必要なイテレーション数を最小化するように設計されている。 本研究は,3つの頭頸部癌データセットの2次元軸画像に関する概念を実証し,各反復で入力された臨床医は,輪郭領域の所望位置をマウスクリックで1回行った。 モデルの性能はDice similarity Coefficient (DSC) と Hausdorff Distance (HD95) の95%で定量化される。 自動生成した初期輪郭の平均dsc/hd95 (mm) は、3つのデータセットで 0.82/4.3, 0.73/5.6, 0.67/11.4 であり、それぞれ 0.91/2.1, 0.86/2.4, 0.86/4.7 にマウスクリックで改善された。 dlに基づく輪郭の更新には約20ミリ秒を要する。我々は,dlモデルを用いて臨床医の輪郭を効率的かつ効果的な方法で修正する新しいaiacrの概念を提案し,3つの頭頸部癌データセットからの2次元軸ct画像を用いてその実現可能性を示した。

Automatic segmentation of anatomical structures is critical for many medical applications. However, the results are not always clinically acceptable and require tedious manual revision. Here, we present a novel concept called artificial intelligence assisted contour revision (AIACR) and demonstrate its feasibility. The proposed clinical workflow of AIACR is as follows given an initial contour that requires a clinicians revision, the clinician indicates where a large revision is needed, and a trained deep learning (DL) model takes this input to update the contour. This process repeats until a clinically acceptable contour is achieved. The DL model is designed to minimize the clinicians input at each iteration and to minimize the number of iterations needed to reach acceptance. In this proof-of-concept study, we demonstrated the concept on 2D axial images of three head-and-neck cancer datasets, with the clinicians input at each iteration being one mouse click on the desired location of the contour segment. The performance of the model is quantified with Dice Similarity Coefficient (DSC) and 95th percentile of Hausdorff Distance (HD95). The average DSC/HD95 (mm) of the auto-generated initial contours were 0.82/4.3, 0.73/5.6 and 0.67/11.4 for three datasets, which were improved to 0.91/2.1, 0.86/2.4 and 0.86/4.7 with three mouse clicks, respectively. Each DL-based contour update requires around 20 ms. We proposed a novel AIACR concept that uses DL models to assist clinicians in revising contours in an efficient and effective way, and we demonstrated its feasibility by using 2D axial CT images from three head-and-neck cancer datasets.
翻訳日:2021-07-29 13:52:00 公開日:2021-07-28
# 説明可能なAI:AIの背景がAI説明の知覚を形作る方法

The Who in Explainable AI: How AI Background Shapes Perceptions of AI Explanations ( http://arxiv.org/abs/2107.13509v1 )

ライセンス: Link先を確認
Upol Ehsan, Samir Passi, Q. Vera Liao, Larry Chan, I-Hsiang Lee, Michael Muller, Mark O. Riedl(参考訳) AIシステムの説明責任は、ユーザがインフォメーションアクションを受け取り、システムに責任を負うために重要である。 不透明な箱を開けること」は重要であるが、人間とAIの相互作用が効果的であれば、誰が箱を開けるかを理解することが支配できる。 本稿では,AIの背景と背景を持たない2種類の売春婦集団が,異なるタイプのAI説明を知覚する方法について,混合手法による研究を行う。 これらのグループは、AIの背景における格差がクリエーターと消費者のギャップをいかに悪化させるかを調べるために選ばれた。 私たちは、信頼、知性、理解可能性、第二のチャンス、友好性の5つの側面に沿って、知覚が何であるかを定量的に共有します。 定性的には、aiの背景が各グループの解釈にどのように影響するかを強調し、なぜ差が存在するのかを、評価と認知的ヒューリスティックのレンズを通して解明する。 その結果,(1) 両グループとも, 異なる程度, 異なる理由から, それぞれのグループが, 設計した用法を超える説明的価値を見出したこと, (3) それぞれのグループは, 人的説明として数えられるものに対して, 異なる要求を抱いていたこと, が判明した。 本研究は,ユーザ信頼の有害な操作などの潜在的悪影響を考察し,それらを軽減するための設計介入を提案する。 AIの背景が、XAIの潜在的なクリエーターや消費者の認識を形成する理由と理由を意識的に認識することで、我々の研究は、多元的な人間中心の説明可能なAI談話を進めるためのフォーマティブな一歩を踏み出した。

Explainability of AI systems is critical for users to take informed actions and hold systems accountable. While "opening the opaque box" is important, understanding who opens the box can govern if the Human-AI interaction is effective. In this paper, we conduct a mixed-methods study of how two different groups of whos--people with and without a background in AI--perceive different types of AI explanations. These groups were chosen to look at how disparities in AI backgrounds can exacerbate the creator-consumer gap. We quantitatively share what the perceptions are along five dimensions: confidence, intelligence, understandability, second chance, and friendliness. Qualitatively, we highlight how the AI background influences each group's interpretations and elucidate why the differences might exist through the lenses of appropriation and cognitive heuristics. We find that (1) both groups had unwarranted faith in numbers, to different extents and for different reasons, (2) each group found explanatory values in different explanations that went beyond the usage we designed them for, and (3) each group had different requirements of what counts as humanlike explanations. Using our findings, we discuss potential negative consequences such as harmful manipulation of user trust and propose design interventions to mitigate them. By bringing conscious awareness to how and why AI backgrounds shape perceptions of potential creators and consumers in XAI, our work takes a formative step in advancing a pluralistic Human-centered Explainable AI discourse.
翻訳日:2021-07-29 13:51:28 公開日:2021-07-28
# 経路統合のためのグリッドセルを用いた海上車両位置推定

Marine Vehicles Localization Using Grid Cells for Path Integration ( http://arxiv.org/abs/2107.13461v1 )

ライセンス: Link先を確認
Ignacio Carlucho, Manuel F. Bailey, Mariano De Paula, Corina Barbalata(参考訳) 自律型水中車両 (Autonomous Underwater Vehicles, AUV) は、海洋環境の研究と探査に使用されるプラットフォームである。 しかし、この種の車両は業界における普及を妨げる多くの課題に直面している。 主な制限の1つは、水中GPS信号がないため正確な位置推定を得ることである。 この推定は通常カルマンフィルタを用いて行われる。 しかし、神経科学分野における新たな進展は、哺乳類が外的および内的運動の手がかりに基づいて現在の位置を信頼できる方法で推定できるメカニズムに光を当てている。 グリッド細胞と呼ばれる新しい種類のニューロンは、脳内の経路統合システムの一部であることが示されている。 本稿では,水中車両の位置推定にグリッドセルをどのように利用できるかを示す。 使用するグリッドセルのモデルは、方向方向と直線速度のみを必要とし、車両の位置の信頼性の高い推定を提供する。 提案手法の有効性を示すAUVのシミュレーション結果を提供する。

Autonomous Underwater Vehicles (AUVs) are platforms used for research and exploration of marine environments. However, these types of vehicles face many challenges that hinder their widespread use in the industry. One of the main limitations is obtaining accurate position estimation, due to the lack of GPS signal underwater. This estimation is usually done with Kalman filters. However, new developments in the neuroscience field have shed light on the mechanisms by which mammals are able to obtain a reliable estimation of their current position based on external and internal motion cues. A new type of neuron, called Grid cells, has been shown to be part of path integration system in the brain. In this article, we show how grid cells can be used for obtaining a position estimation of underwater vehicles. The model of grid cells used requires only the linear velocities together with heading orientation and provides a reliable estimation of the vehicle's position. We provide simulation results for an AUV which show the feasibility of our proposed methodology.
翻訳日:2021-07-29 13:50:59 公開日:2021-07-28
# ニューラル予測器のための均質なアーキテクチャ拡張

Homogeneous Architecture Augmentation for Neural Predictor ( http://arxiv.org/abs/2107.13153v1 )

ライセンス: Link先を確認
Yuqiao Liu, Yehui Tang, Yanan Sun(参考訳) ニューラルアーキテクチャサーチ(NAS)は、手前のタスクに対して、ディープニューラルネットワーク(DNN)の優れたアーキテクチャを自動的に設計することができる。 しかし、NASのボトルネックの1つは、高価な性能評価のため、計算コストが極めて高いことである。 神経予測器は、評価対象のDNNのトレーニングなしに直接性能を推定できるため、研究者から注目が集まっている。 その人気にもかかわらず、それらは、神経予測器を効果的に訓練するための注釈付きDNNアーキテクチャの不足という、深刻な制限を被っている。 本稿では,前述の問題に対処するために,DNNアーキテクチャのニューラルネットワーク予測器(HAAP)の均一アーキテクチャ拡張を提案する。 具体的には、同種表現を用いた十分なトレーニングデータを生成するために、HAAPで均質アーキテクチャ拡張アルゴリズムを提案する。 さらに、DNNアーキテクチャの表現をより効果的にするために、ワンホット符号化戦略をHAAPに導入する。 実験はNAS-Benchmark-101とNAS-Bench-201のデータセットで実施された。 実験結果から,提案したHAAPアルゴリズムは,トレーニングデータよりもはるかに少ない精度で,芸術の状態を向上することが示された。 さらに、両方のベンチマークデータセットに対するアブレーション研究は、均質アーキテクチャ拡張の普遍性も示している。

Neural Architecture Search (NAS) can automatically design well-performed architectures of Deep Neural Networks (DNNs) for the tasks at hand. However, one bottleneck of NAS is the prohibitively computational cost largely due to the expensive performance evaluation. The neural predictors can directly estimate the performance without any training of the DNNs to be evaluated, thus have drawn increasing attention from researchers. Despite their popularity, they also suffer a severe limitation: the shortage of annotated DNN architectures for effectively training the neural predictors. In this paper, we proposed Homogeneous Architecture Augmentation for Neural Predictor (HAAP) of DNN architectures to address the issue aforementioned. Specifically, a homogeneous architecture augmentation algorithm is proposed in HAAP to generate sufficient training data taking the use of homogeneous representation. Furthermore, the one-hot encoding strategy is introduced into HAAP to make the representation of DNN architectures more effective. The experiments have been conducted on both NAS-Benchmark-101 and NAS-Bench-201 dataset. The experimental results demonstrate that the proposed HAAP algorithm outperforms the state of the arts compared, yet with much less training data. In addition, the ablation studies on both benchmark datasets have also shown the universality of the homogeneous architecture augmentation.
翻訳日:2021-07-29 13:49:59 公開日:2021-07-28
# B5Gネットワーク自動化における紛争解決のためのQラーニング

Q-Learning for Conflict Resolution in B5G Network Automation ( http://arxiv.org/abs/2107.13268v1 )

ライセンス: Link先を確認
Sayantini Majumdar and Riccardo Trivisonno and Georg Carle(参考訳) ネットワーク自動化はb5gネットワークの開発において大きな注目を集めており、主に運用の複雑さ、支出、ネットワーク効率の改善を目的としている。 個別の最適化目標を目標とするクローズドループが同時に動作すると、未解決の競合が発生し、キーパフォーマンス指標(KPI)が大幅に低下し、ネットワーク性能が準最適になる。 集中コーディネーションは、大規模ネットワークや時間クリティカルなアプリケーションでは実用的ではない。 したがって、分散化アプローチはb5gとそれに続く6gネットワークの進化において検討されている。 この研究は、集中オーケストレーションの代替として、ネットワーク自動化におけるコンフリクト解決のための広範囲なインテリジェンスを探求する。 ネットワーク自動化へのqラーニング分散アプローチを提案し,ネットワークスライス自動スケーリングへの適用設計と評価を行った。 予備結果は,提案手法の可能性を浮き彫りにして,今後の研究成果を正当化する。

Network automation is gaining significant attention in the development of B5G networks, primarily for reducing operational complexity, expenditures and improving network efficiency. Concurrently operating closed loops aiming for individual optimization targets may cause conflicts which, left unresolved, would lead to significant degradation in network Key Performance Indicators (KPIs), thereby resulting in sub-optimal network performance. Centralized coordination, albeit optimal, is impractical in large scale networks and for time-critical applications. Decentralized approaches are therefore envisaged in the evolution to B5G and subsequently, 6G networks. This work explores pervasive intelligence for conflict resolution in network automation, as an alternative to centralized orchestration. A Q-Learning decentralized approach to network automation is proposed, and an application to network slice auto-scaling is designed and evaluated. Preliminary results highlight the potential of the proposed scheme and justify further research work in this direction.
翻訳日:2021-07-29 13:49:41 公開日:2021-07-28
# 有効固有分解に基づく不テロ親和性ネットワークのグラフ適応

Effective Eigendecomposition based Graph Adaptation for Heterophilic Networks ( http://arxiv.org/abs/2107.13312v1 )

ライセンス: Link先を確認
Vijay Lingam, Rahul Ragesh, Arun Iyer, Sundararajan Sellamanickam(参考訳) グラフニューラルネットワーク(GNN)は,グラフが強いホモフィリ特性を持つ場合,優れた性能を示す。 接続ノードのラベルは同じです しかし、それらはヘテロ親和グラフ上では不十分である。 いくつかのアプローチは、ラベル付きデータを用いてタスク固有の損失関数を最適化することにより、グラフに適応するモデルを提案することによって、ヘテロフィリーの問題に対処する。 これらの適応は、手作業に必要な様々な低周波/高周波信号の減衰または増強によって、注意を通して行われる。 より最近のアプローチはグラフの固有値に適応する。 この適応の1つの重要な解釈は、これらのモデルがグラフの固有ベクトルの選択/緩和である。 この解釈に基づき, 固有分解に基づくアプローチを提案し, 好気性グラフにおけるgnnの性能を向上させる固有ネットワークモデルを提案する。 グラフの固有値を変調するフレキシブルなグラフ適応関数を学習することで、パフォーマンスの向上を実現する。 これらの関数のパラメータ共有による正規化は、さらなるパフォーマンス向上に役立つ。 提案手法は異種グラフの最先端手法よりも最大11%の性能向上を実現する。

Graph Neural Networks (GNNs) exhibit excellent performance when graphs have strong homophily property, i.e. connected nodes have the same labels. However, they perform poorly on heterophilic graphs. Several approaches address the issue of heterophily by proposing models that adapt the graph by optimizing task-specific loss function using labelled data. These adaptations are made either via attention or by attenuating or enhancing various low-frequency/high-f requency signals, as needed for the task at hand. More recent approaches adapt the eigenvalues of the graph. One important interpretation of this adaptation is that these models select/weigh the eigenvectors of the graph. Based on this interpretation, we present an eigendecomposition based approach and propose EigenNetwork models that improve the performance of GNNs on heterophilic graphs. Performance improvement is achieved by learning flexible graph adaptation functions that modulate the eigenvalues of the graph. Regularization of these functions via parameter sharing helps to improve the performance even more. Our approach achieves up to 11% improvement in performance over the state-of-the-art methods on heterophilic graphs.
翻訳日:2021-07-29 13:49:28 公開日:2021-07-28
# CATEの推定は素晴らしいか? 治療効果推定器のベンチマーク比較における無視推定について

Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators ( http://arxiv.org/abs/2107.13346v1 )

ライセンス: Link先を確認
Alicia Curth and Mihaela van der Schaar(参考訳) 観測データから異種処理効果を推定する機械学習ツールボックスは急速に拡大しているが、そのアルゴリズムの多くは、非常に限られた半合成ベンチマークデータセットでのみ評価されている。 本稿では, ベンチマークデータセットにおけるデータ生成機構の前提となる仮定と, ベースラインアルゴリズムとの相互作用が不十分である場合, このような経験的評価の結果が, 最も単純な設定 -- 無知性仮定に基づく推定 -- を誤解させる可能性があることを示す。 IHDPとACIC2016のデータセットである異種処理効果推定器を詳細に評価するために、一般的な機械学習ベンチマークデータセットを2つ検討する。 私たちは、現在の使用に関する問題を特定し、ベンチマークデータセットの固有の特性が他のアルゴリズムよりも好まれていることを強調します。 我々はその意味と次のステップについて論じる。

The machine learning toolbox for estimation of heterogeneous treatment effects from observational data is expanding rapidly, yet many of its algorithms have been evaluated only on a very limited set of semi-synthetic benchmark datasets. In this paper, we show that even in arguably the simplest setting -- estimation under ignorability assumptions -- the results of such empirical evaluations can be misleading if (i) the assumptions underlying the data-generating mechanisms in benchmark datasets and (ii) their interplay with baseline algorithms are inadequately discussed. We consider two popular machine learning benchmark datasets for evaluation of heterogeneous treatment effect estimators -- the IHDP and ACIC2016 datasets -- in detail. We identify problems with their current use and highlight that the inherent characteristics of the benchmark datasets favor some algorithms over others -- a fact that is rarely acknowledged but of immense relevance for interpretation of empirical results. We close by discussing implications and possible next steps.
翻訳日:2021-07-29 13:49:12 公開日:2021-07-28
# マルチクラス可変ECG早期分類のためのスニペットポリシーネットワーク

Snippet Policy Network for Multi-class Varied-length ECG Early Classification ( http://arxiv.org/abs/2107.13361v1 )

ライセンス: Link先を確認
Yu Huang, Gary G. Yen and Vincent S. Tseng(参考訳) 心疾患の予防と診断には心電図による不整脈検出が重要である。 時系列分類問題として,心電図からの不整脈検出を定式化した。 一方,不整脈の早期発見は早期の予防と診断に現実的な需要をもたらす。 本稿では,心血管疾患早期分類の問題についても考察する。 この問題を解決するために,我々は,スニペット生成器,バックボーンネットワーク,制御エージェント,判別器の4つのモジュールからなるスニペットポリシネットワーク(spn)という,深い強化学習に基づくフレームワークを提案する。 既存の手法と比較して、提案手法は柔軟な入力長を特徴とし、耳線と精度目標の双対最適化解を解く。 実験の結果、spnは精度で80\%以上の優れた性能を達成していることがわかった。 最先端の手法と比較して、精度、リコール、F1スコア、ハーモニック平均など、少なくとも7%の改善が提案されたSPNによって行われる。 本研究は,心血管系早期分類の問題点を,心電図データから解決することに焦点を当てた最初の研究である。 SPNのこれらの優れた特徴に基づき、様々な長さの時系列の早期分類問題に対処するための優れた例を提供している。

Arrhythmia detection from ECG is an important research subject in the prevention and diagnosis of cardiovascular diseases. The prevailing studies formulate arrhythmia detection from ECG as a time series classification problem. Meanwhile, early detection of arrhythmia presents a real-world demand for early prevention and diagnosis. In this paper, we address a problem of cardiovascular disease early classification, which is a varied-length and long-length time series early classification problem as well. For solving this problem, we propose a deep reinforcement learning-based framework, namely Snippet Policy Network (SPN), consisting of four modules, snippet generator, backbone network, controlling agent, and discriminator. Comparing to the existing approaches, the proposed framework features flexible input length, solves the dual-optimization solution of the earliness and accuracy goals. Experimental results demonstrate that SPN achieves an excellent performance of over 80\% in terms of accuracy. Compared to the state-of-the-art methods, at least 7% improvement on different metrics, including the precision, recall, F1-score, and harmonic mean, is delivered by the proposed SPN. To the best of our knowledge, this is the first work focusing on solving the cardiovascular early classification problem based on varied-length ECG data. Based on these excellent features from SPN, it offers a good exemplification for addressing all kinds of varied-length time series early classification problems.
翻訳日:2021-07-29 13:48:54 公開日:2021-07-28
# 逆モード自動微分のためのファンクショナル文字列ダイアグラム

Functorial String Diagrams for Reverse-Mode Automatic Differentiation ( http://arxiv.org/abs/2107.13433v1 )

ライセンス: Link先を確認
Mario Alvarez-Picallo, Dan R. Ghica, David Sprunger, Fabio Zanasi(参考訳) 閉モノイド構造(およびデカルト閉構造)をキャプチャするために、階層的特徴を持つモノイド圏の文字列ダイアグラムの計算を強化する。 この新しい構文を用いて,[pearlmutter と siskind 2008] のスタイルで (応用) 単純型付きラムダ計算のための自動微分アルゴリズムを定式化し,その健全さを初めて証明する。 adアルゴリズムを効率的にかつ原理的に実装するために、階層的文字列図の健全かつ完全な表現を階層的ハイパーグラフのクラスとして定義する。

We enhance the calculus of string diagrams for monoidal categories with hierarchical features in order to capture closed monoidal (and cartesian closed) structure. Using this new syntax we formulate an automatic differentiation algorithm for (applied) simply typed lambda calculus in the style of [Pearlmutter and Siskind 2008] and we prove for the first time its soundness. To give an efficient yet principled implementation of the AD algorithm we define a sound and complete representation of hierarchical string diagrams as a class of hierarchical hypergraphs we call hypernets.
翻訳日:2021-07-29 13:48:32 公開日:2021-07-28
# 協調フィルタリングと行列分解の再検討

Reenvisioning Collaborative Filtering vs Matrix Factorization ( http://arxiv.org/abs/2107.13472v1 )

ライセンス: Link先を確認
Vito Walter Anelli, Alejandro Bellog\'in, Tommaso Di Noia, Claudio Pomo(参考訳) 近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。 これは、部分的には、ANNが様々なレコメンデーションタスクで良い結果を示しているからである。 レコメンデーションエコシステムにおけるannの導入は、最近疑問視され、効率と有効性の観点からいくつかの比較が行われた。 これらの比較の共通点の1つは、正確さに焦点を合わせ、新規性、多様性、バイアスの考慮など、推奨にとって重要な他の評価次元を無視していることである。 我々は,NCF(Neural Collaborative Filtering)とMF(Matrix Factorization)の3つの論文を再現し,解析を他の評価次元にまで拡張する。 以上の結果から,実験は完全に再現可能であり,他の精度指標と2つの統計的仮説実験を含む研究を延長した。 提案の多様性とノベルティについて検討したところ、MFは長い尾の精度も向上するが、NCFはより優れた項目カバレッジとより多様化したレコメンデーションを提供する。 実験により得られたバイアス効果について考察する。 バイアスは比較的小さいが、他の推奨基準は競争力のある精度で、この問題の影響を受けていないことが一貫して示されている。 これは私たちの知る限り、ANNとMFの最近の適応を網羅する一連のSOTAアルゴリズムについて、いくつかの評価次元を探索した最初の研究である。 したがって,これらの手法が再現性に与える影響を解析しながら,超精度評価にもたらす可能性を示す。 github.com/sisinflab /reenvisioning-the-c omparison- between-neural-colla borative-filtering-a nd-matrix-factorizat ion(英語)

Collaborative filtering models based on matrix factorization and learned similarities using Artificial Neural Networks (ANNs) have gained significant attention in recent years. This is, in part, because ANNs have demonstrated good results in a wide variety of recommendation tasks. The introduction of ANNs within the recommendation ecosystem has been recently questioned, raising several comparisons in terms of efficiency and effectiveness. One aspect most of these comparisons have in common is their focus on accuracy, neglecting other evaluation dimensions important for the recommendation, such as novelty, diversity, or accounting for biases. We replicate experiments from three papers that compare Neural Collaborative Filtering (NCF) and Matrix Factorization (MF), to extend the analysis to other evaluation dimensions. Our contribution shows that the experiments are entirely reproducible, and we extend the study including other accuracy metrics and two statistical hypothesis tests. We investigated the Diversity and Novelty of the recommendations, showing that MF provides a better accuracy also on the long tail, although NCF provides a better item coverage and more diversified recommendations. We discuss the bias effect generated by the tested methods. They show a relatively small bias, but other recommendation baselines, with competitive accuracy performance, consistently show to be less affected by this issue. This is the first work, to the best of our knowledge, where several evaluation dimensions have been explored for an array of SOTA algorithms covering recent adaptations of ANNs and MF. Hence, we show the potential these techniques may have on beyond-accuracy evaluation while analyzing the effect on reproducibility these complementary dimensions may spark. Available at github.com/sisinflab /Reenvisioning-the-c omparison-between-Ne ural-Collaborative-F iltering-and-Matrix- Factorization
翻訳日:2021-07-29 13:48:20 公開日:2021-07-28
# DNN変成テストケースの類似性を研究するための計算プロファイルモデル

Models of Computational Profiles to Study the Likelihood of DNN Metamorphic Test Cases ( http://arxiv.org/abs/2107.13491v1 )

ライセンス: Link先を確認
Ettore Merlo, Mira Marhaba, Foutse Khomh, Houssem Ben Braiek, Giuliano Antoniol(参考訳) ニューラルネットワークテストケースは、アーキテクチャ内の異なる推論パスを実行し、予測結果を検証するために使用される。 本稿では,ニューロン活性化レベルのベクトルとして "Computational Profiles" を導入する。 本研究では, トレーニング, テスト, エラー制御の確率分布について, 変成テストケースの計算プロファイルの確率分布について検討した。 各出力クラスごとにニューロン活性化レベルの非パラメトリック確率密度を推定する。 確率は、メタモルフィックテストケースに関する追加の知識なしで、トレーニングケースのみを使用して推測される。 画像のmnistファッションライブラリ上でネットワークをトレーニングし、エラー制御データおよびメタモルフィックテストケースから得られたものと予測可能性を比較して実験を行う。 実験の結果, トレーニングとテストケースにおける計算プロファイルの確率分布は何らかの類似性を示し, ランダムノイズ制御データの分布はトレーニングとテストセットの観測値よりも常に著しく低いことがわかった。 対照的に、メタモルフィックなテストケースは、トレーニング、テスト、ランダムノイズに関して拡張範囲にある予測可能性を示している。 さらに,提案手法により,異なるトレーニングクラスと実験を独立に評価することで,いくつかのクラスが他のクラスよりもメタモルフィックテストケースの誤分類に敏感であることを示すことができる。 結論として、メタモルフィックテストケースは、ニューラルネットワークアーキテクチャの非常に積極的なテストを表している。 さらに、メタモルフィックテストケースは、トレーニングケースと類似している可能性のある入力をネットワークに誤分類させるため、計算プロファイルの妥当性評価に基づいて防御を回避する敵攻撃とみなすこともできる。

Neural network test cases are meant to exercise different reasoning paths in an architecture and used to validate the prediction outcomes. In this paper, we introduce "computational profiles" as vectors of neuron activation levels. We investigate the distribution of computational profile likelihood of metamorphic test cases with respect to the likelihood distributions of training, test and error control cases. We estimate the non-parametric probability densities of neuron activation levels for each distinct output class. Probabilities are inferred using training cases only, without any additional knowledge about metamorphic test cases. Experiments are performed by training a network on the MNIST Fashion library of images and comparing prediction likelihoods with those obtained from error control-data and from metamorphic test cases. Experimental results show that the distributions of computational profile likelihood for training and test cases are somehow similar, while the distribution of the random-noise control-data is always remarkably lower than the observed one for the training and testing sets. In contrast, metamorphic test cases show a prediction likelihood that lies in an extended range with respect to training, tests, and random noise. Moreover, the presented approach allows the independent assessment of different training classes and experiments to show that some of the classes are more sensitive to misclassifying metamorphic test cases than other classes. In conclusion, metamorphic test cases represent very aggressive tests for neural network architectures. Furthermore, since metamorphic test cases force a network to misclassify those inputs whose likelihood is similar to that of training cases, they could also be considered as adversarial attacks that evade defenses based on computational profile likelihood evaluation.
翻訳日:2021-07-29 13:47:50 公開日:2021-07-28
# 感情認識のための半教師付き脳波表現学習

Deep Recurrent Semi-Supervised EEG Representation Learning for Emotion Recognition ( http://arxiv.org/abs/2107.13505v1 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) eegに基づく感情認識は、効果的な計算モデルを構築するのに十分なラベル付きトレーニングサンプルを必要とすることが多い。 一方、EEGデータのラベル付けは高価で時間を要することが多い。 この問題に対処し,脳波に基づく感情認識の文脈における出力ラベルの必要性を低減するために,未ラベルデータとラベルデータの両方を併用して脳波表現を学習する半教師付きパイプラインを提案する。 半教師付きフレームワークは、教師なしコンポーネントと教師なしコンポーネントの両方で構成されています。 無教師部は、オートエンコーダを用いて元の入力データと再構成された入力データの一貫性を最大化し、同時に、入力ラベルと出力ラベルとのクロスエントロピーを最小化する。 我々は,スタック型オートエンコーダと注意型リカレントオートエンコーダを用いてフレームワークを評価する。 大規模SEED EEGデータセット上でフレームワークをテストし、その結果を他の人気のある半教師付き手法と比較する。 我々の半教師付きフレームワークは、トレーニング中に出力ラベルの小さなサブセット (3\%, 5\%, 10\%) が利用可能であったとしても、常にベンチマーク手法より優れており、新しい最先端の半教師付き性能を実現している。

EEG-based emotion recognition often requires sufficient labeled training samples to build an effective computational model. Labeling EEG data, on the other hand, is often expensive and time-consuming. To tackle this problem and reduce the need for output labels in the context of EEG-based emotion recognition, we propose a semi-supervised pipeline to jointly exploit both unlabeled and labeled data for learning EEG representations. Our semi-supervised framework consists of both unsupervised and supervised components. The unsupervised part maximizes the consistency between original and reconstructed input data using an autoencoder, while simultaneously the supervised part minimizes the cross-entropy between the input and output labels. We evaluate our framework using both a stacked autoencoder and an attention-based recurrent autoencoder. We test our framework on the large-scale SEED EEG dataset and compare our results with several other popular semi-supervised methods. Our semi-supervised framework with a deep attention-based recurrent autoencoder consistently outperforms the benchmark methods, even when small sub-sets (3\%, 5\% and 10\%) of the output labels are available during training, achieving a new state-of-the-art semi-supervised performance.
翻訳日:2021-07-29 13:47:27 公開日:2021-07-28
# Reasonable Crowd: 運転行動のエビデンスに基づく解釈可能なモデルを目指して

The Reasonable Crowd: Towards evidence-based and interpretable models of driving behavior ( http://arxiv.org/abs/2107.13507v1 )

ライセンス: Link先を確認
Bassam Helou, Aditya Dusi, Anne Collin, Noushin Mehdipour, Zhiliang Chen, Cristhian Lizarazo, Calin Belta, Tichakorn Wongpiromsarn, Radboud Duintjer Tebbens, Oscar Beijbom(参考訳) 自動運転車は複雑な目標のバランスをとる必要がある。 どのように行うべきか、あるいは望ましい運転行動を指定するためのモデルについては合意がない。 限られた操作領域でこれらの質問に答えるためのデータセットを作成しました。 データには92のトラフィックシナリオがあり、各シナリオを横断する複数の方法がある。 複数のアノテーションはシナリオトラバーサルのペア間の好みを表した。 データセットとは独立して慎重に手作りされたルールブックのインスタンスと、ベイズネットワーク、決定木、データセットでトレーニングされたロジスティック回帰といったいくつかの解釈可能な機械学習モデルを比較した。 運転行動を比較するために、これらのモデルは14の運転規則のそれぞれにどの程度異なるシナリオトラバーサルが違反しているかを示すスコアを使用する。 ルールは解釈可能で、専門家が設計する。 まず、これらのルールはデータセットで高い分類精度を達成するのに十分であることが分かりました。 第二に、このルールブックは性能を過度に犠牲にすることなく高い解釈性を提供します。 第3に、データはルールブックとルールの改善の可能性、そして潜在的な新しいルールを指摘した。 第4に、ランダムな森林のような非解釈可能なモデルをトレーニングすることで、解釈可能性対パフォーマンストレードオフについて検討した。 最後に,このデータセットを公開して,AVの行動仕様に関する広いコミュニティの議論を奨励する。 github.com/bassam-mo tional/Reasonable-Cr owdでご覧ください。

Autonomous vehicles must balance a complex set of objectives. There is no consensus on how they should do so, nor on a model for specifying a desired driving behavior. We created a dataset to help address some of these questions in a limited operating domain. The data consists of 92 traffic scenarios, with multiple ways of traversing each scenario. Multiple annotators expressed their preference between pairs of scenario traversals. We used the data to compare an instance of a rulebook, carefully hand-crafted independently of the dataset, with several interpretable machine learning models such as Bayesian networks, decision trees, and logistic regression trained on the dataset. To compare driving behavior, these models use scores indicating by how much different scenario traversals violate each of 14 driving rules. The rules are interpretable and designed by subject-matter experts. First, we found that these rules were enough for these models to achieve a high classification accuracy on the dataset. Second, we found that the rulebook provides high interpretability without excessively sacrificing performance. Third, the data pointed to possible improvements in the rulebook and the rules, and to potential new rules. Fourth, we explored the interpretability vs performance trade-off by also training non-interpretable models such as a random forest. Finally, we make the dataset publicly available to encourage a discussion from the wider community on behavior specification for AVs. Please find it at github.com/bassam-mo tional/Reasonable-Cr owd.
翻訳日:2021-07-29 13:47:04 公開日:2021-07-28
# ReLMM:オンボードセンサーのみを用いたモバイル操作スキル学習のための実践的RL

ReLMM: Practical RL for Learning Mobile Manipulation Skills Using Only Onboard Sensors ( http://arxiv.org/abs/2107.13545v1 )

ライセンス: Link先を確認
Charles Sun, J\k{e}drzej Orbik, Coline Devin, Brian Yang, Abhishek Gupta, Glen Berseth, Sergey Levine(参考訳) 本稿では,ロボットがナビゲーションと把握の組み合わせを必要とするスキルを自律的に学習する方法を検討する。 現実世界でロボットのスキルを学ぶことは、大規模なデータ収集と監督なしには難しい。 我々の目的は、人間の介入なしに、ナビゲーションと操作を同時に学習するロボット強化学習システムを考案し、現実的な仮定の下で連続的な学習を可能にすることである。 具体的には、このシステムであるrelmmは、環境計測なしで、人間の介入なしに、そして地図、オブジェクトの位置、環境のグローバルビューといった特権情報にアクセスせずに、現実世界のプラットフォーム上で継続的に学習することができる。 本手法では,操作成功に対する不確実性がナビゲーションコントローラの探索を促し,操作モジュールがナビゲーションに報奨を与えるような,操作とナビゲーションのためのコンポーネントをモジュール化したポリシを採用している。 そこで我々は,ロボットが床に散らばったアイテムを拾い上げなければならない部屋の掃除作業において,その方法を評価する。 グラウンドカリキュラムトレーニングフェーズの後、ReLMMは、現実世界のトレーニングの約40時間で、ナビゲーションと完全に自動的なグリップを学習できる。

In this paper, we study how robots can autonomously learn skills that require a combination of navigation and grasping. Learning robotic skills in the real world remains challenging without large-scale data collection and supervision. Our aim is to devise a robotic reinforcement learning system for learning navigation and manipulation together, in an \textit{autonomous} way without human intervention, enabling continual learning under realistic assumptions. Specifically, our system, ReLMM, can learn continuously on a real-world platform without any environment instrumentation, without human intervention, and without access to privileged information, such as maps, objects positions, or a global view of the environment. Our method employs a modularized policy with components for manipulation and navigation, where uncertainty over the manipulation success drives exploration for the navigation controller, and the manipulation module provides rewards for navigation. We evaluate our method on a room cleanup task, where the robot must navigate to and pick up items of scattered on the floor. After a grasp curriculum training phase, ReLMM can learn navigation and grasping together fully automatically, in around 40 hours of real-world training.
翻訳日:2021-07-29 13:46:43 公開日:2021-07-28
# XFL: eXtreme Function Labeling

XFL: eXtreme Function Labeling ( http://arxiv.org/abs/2107.13404v1 )

ライセンス: Link先を確認
James Patrick-Evans, Moritz Dannehl, Johannes Kinder(参考訳) リバースエンジニアは関数名のような識別子の恩恵を受けるが、通常はバイナリでは利用できない。 機械学習モデルを自動で関数名を予測するようにトレーニングすることは有望だが、クラス数が多いため基本的に難しい。 本稿では,バイナリ関数に対して適切なラベルを選択するための,極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を提案する。 XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。 バイナリコードのセマンティクスをキャプチャするために、静的解析に基づく機能とコールグラフからのローカルコンテキストとバイナリ全体からのグローバルコンテキストを組み合わせた、新しい関数埋め込みであるDEXTERを導入する。 xflがdebianプロジェクトの10,000以上のバイナリのデータセット上の関数ラベリングの最先端のアプローチよりも優れており、精度は82.5%である。 また、xfl と異なるバイナリ関数の埋め込みの組み合わせを研究し、dexter が情報ゲインの最先端において一貫して改善されていることを示す。 その結果、バイナリ関数のラベル付けがマルチラベル学習において最適であることを示すことができ、バイナリ関数の埋め込みは単に構文から学ぶこと以上の恩恵を受けることができる。

Reverse engineers would benefit from identifiers like function names, but these are usually unavailable in binaries. Training a machine learning model to predict function names automatically is promising but fundamentally hard due to the enormous number of classes. In this paper, we introduce eXtreme Function Labeling (XFL), an extreme multi-label learning approach to selecting appropriate labels for binary functions. XFL splits function names into tokens, treating each as an informative label akin to the problem of tagging texts in natural language. To capture the semantics of binary code, we introduce DEXTER, a novel function embedding that combines static analysis-based features with local context from the call graph and global context from the entire binary. We demonstrate that XFL outperforms state-of-the-art approaches to function labeling on a dataset of over 10,000 binaries from the Debian project, achieving a precision of 82.5%. We also study combinations of XFL with different published embeddings for binary functions and show that DEXTER consistently improves over the state of the art in information gain. As a result, we are able to show that binary function labeling is best phrased in terms of multi-label learning, and that binary function embeddings benefit from moving beyond just learning from syntax.
翻訳日:2021-07-29 13:46:01 公開日:2021-07-28
# スマートウォッチを用いた自動非構造ハンドウォッシング認識による病原体の接触伝達低減

Automatic Unstructured Handwashing Recognition using Smartwatch to Reduce Contact Transmission of Pathogens ( http://arxiv.org/abs/2107.13405v1 )

ライセンス: Link先を確認
Emanuele Lattanzi, Lorenzo Calisti, Valerio Freschi(参考訳) 世界保健機関(WHO)の現在のガイドラインでは、新型コロナウイルス感染症(COVID-19)の原因となるSARSCoV-2は、呼吸液滴や接触液滴を通じて伝染している。 接触伝達は、汚染された手が口、鼻、目の粘膜に触れるときに起こる。 さらに、汚染された手で病原体を別の表面から別の表面へ移動させることもでき、間接接触による伝達を促進する。 このため、SARSCoV-2ウイルスの拡散を防ぐための手衛生が非常に重要である。 さらに、手洗いや手洗いは、一般的な風邪、インフルエンザ、肺炎を引き起こす他のウイルスや細菌の伝染も破壊し、全体的な病気の負担が軽減される。 加速度、回転、磁場センサーなどを含むスマートウォッチなどのウェアラブルデバイスや、機械学習や近年のディープラーニングといった最新の人工知能技術によって、歩行、階段、ランニング、拍手、座位、睡眠といった人間の活動の認識と分類のための正確なアプリケーションの開発が可能になる。 本研究は,被験者が手を洗うか洗うかを認識可能な,現在のスマートウォッチに基づく自動システムの実現可能性を評価し,周波数や時間などのパラメータを監視し,ジェスチャーの有効性を評価する。 予備実験の結果,深層学習と標準学習のそれぞれで95%,約94%の分類精度が得られた。

Current guidelines from the World Health Organization indicate that the SARSCoV-2 coronavirus, which results in the novel coronavirus disease (COVID-19), is transmitted through respiratory droplets or by contact. Contact transmission occurs when contaminated hands touch the mucous membrane of the mouth, nose, or eyes. Moreover, pathogens can also be transferred from one surface to another by contaminated hands, which facilitates transmission by indirect contact. Consequently, hands hygiene is extremely important to prevent the spread of the SARSCoV-2 virus. Additionally, hand washing and/or hand rubbing disrupts also the transmission of other viruses and bacteria that cause common colds, flu and pneumonia, thereby reducing the overall disease burden. The vast proliferation of wearable devices, such as smartwatches, containing acceleration, rotation, magnetic field sensors, etc., together with the modern technologies of artificial intelligence, such as machine learning and more recently deep-learning, allow the development of accurate applications for recognition and classification of human activities such as: walking, climbing stairs, running, clapping, sitting, sleeping, etc. In this work we evaluate the feasibility of an automatic system, based on current smartwatches, which is able to recognize when a subject is washing or rubbing its hands, in order to monitor parameters such as frequency and duration, and to evaluate the effectiveness of the gesture. Our preliminary results show a classification accuracy of about 95% and of about 94% for respectively deep and standard learning techniques.
翻訳日:2021-07-29 13:45:39 公開日:2021-07-28
# 満足度と合成モジュロオラクル

Satisfiability and Synthesis Modulo Oracles ( http://arxiv.org/abs/2107.13477v1 )

ライセンス: Link先を確認
Elizabeth Polgreen, Andrew Reynolds and Sanjit A. Seshia(参考訳) 反例誘導インダクティブ合成(cegis)のような古典的なプログラム合成アルゴリズムでは、合成フェーズとオラクル(検証)フェーズの間で代替されるアルゴリズムである。 多くの合成アルゴリズムは、満足度変調理論(SMT)に基づくホワイトボックスオラクルを用いて反例を提供する。 しかし、もしホワイトボックスのオラクルが利用できないか、簡単に扱えないとしたら? 我々は,oracle が指導する合成問題の一般クラスを解くためのフレームワークを提示する。 この設定では、オーラクルは合成問題によって定義されたクエリ応答インタフェースを持つブラックボックスである。 また, この枠組みの必要成分として, 満足度モジュロ理論とオラクルの問題を定式化し, この問題を解くアルゴリズムを提案する。 本研究では,SMT制約でモデル化されていない関数,例えば再帰的関数や,コードのコンパイルと実行を組み込んだオーラクルなど,オーラクルを用いて,SMTOとSyMOが,標準的なSMTや合成ソルバの能力を超えた問題を解決できることを実証する。

In classic program synthesis algorithms, such as counterexample-guide d inductive synthesis (CEGIS), the algorithms alternate between a synthesis phase and an oracle (verification) phase. Many synthesis algorithms use a white-box oracle based on satisfiability modulo theory (SMT) solvers to provide counterexamples. But what if a white-box oracle is either not available or not easy to work with? We present a framework for solving a general class of oracle-guided synthesis problems which we term synthesis modulo oracles. In this setting, oracles may be black boxes with a query-response interface defined by the synthesis problem. As a necessary component of this framework, we also formalize the problem of satisfiability modulo theories and oracles, and present an algorithm for solving this problem. We implement a prototype solver for satisfiability and synthesis modulo oracles and demonstrate that, by using oracles that execute functions not easily modeled in SMT-constraints, such as recursive functions or oracles that incorporate compilation and execution of code, SMTO and SyMO are able to solve problems beyond the abilities of standard SMT and synthesis solvers.
翻訳日:2021-07-29 13:45:02 公開日:2021-07-28
# 教師付き学習と有限温度弦法によるコミッタ関数と反応速度の計算

Supervised Learning and the Finite-Temperature String Method for Computing Committor Functions and Reaction Rates ( http://arxiv.org/abs/2107.13522v1 )

ライセンス: Link先を確認
Muhammad R. Hasyim, Clay H. Batton, Kranthi K. Mandadapu(参考訳) 希少事象の計算研究における中心的な対象はコミッタ関数である。 計算にはコストがかかるが、コミッタ関数は反応速度や遷移状態のアンサンブルを含む稀な事象を含むプロセスの完全な力学情報を符号化する。 遷移経路理論(transition path theory, tpt)の枠組みの下で、最近の研究([1])では、フィードバックループが、適応トレーニングに必要なデータを収集する傘サンプリングを中心に、重要サンプリングでコミッタ関数をモデル化するニューラルネットワークを結合するアルゴリズムを提案している。 本研究は,アルゴリズムの精度を向上させるために追加の修正が必要であることを示す。 最初の修正では教師付き学習の要素が追加され、ニューラルネットワークは短い分子動力学軌道から得られたコミッタ値のサンプル平均推定に適合することで予測を改善することができる。 第2の修正は、コミッタベースの傘サンプリングを有限温度ストリング(FTS)法に置き換え、遷移経路のある領域における均質サンプリングを可能にする。 解析的手法や有限要素法を用いて参照解を求めることができる非凸ポテンシャルエネルギーを持つ低次元システムに対して, 教師付き学習とFTS法を組み合わせることで, コミッタ関数と反応速度の正確な計算結果が得られることを示す。 また,FTS法を用いたアルゴリズムの誤差解析を行い,少数のサンプルを用いてトレーニング中に精度よく反応速度を推定する手法を提案する。

A central object in the computational studies of rare events is the committor function. Though costly to compute, the committor function encodes complete mechanistic information of the processes involving rare events, including reaction rates and transition-state ensembles. Under the framework of transition path theory (TPT), recent work [1] proposes an algorithm where a feedback loop couples a neural network that models the committor function with importance sampling, mainly umbrella sampling, which collects data needed for adaptive training. In this work, we show additional modifications are needed to improve the accuracy of the algorithm. The first modification adds elements of supervised learning, which allows the neural network to improve its prediction by fitting to sample-mean estimates of committor values obtained from short molecular dynamics trajectories. The second modification replaces the committor-based umbrella sampling with the finite-temperature string (FTS) method, which enables homogeneous sampling in regions where transition pathways are located. We test our modifications on low-dimensional systems with non-convex potential energy where reference solutions can be found via analytical or the finite element methods, and show how combining supervised learning and the FTS method yields accurate computation of committor functions and reaction rates. We also provide an error analysis for algorithms that use the FTS method, using which reaction rates can be accurately estimated during training with a small number of samples.
翻訳日:2021-07-29 13:44:38 公開日:2021-07-28
# (参考訳) 機械学習を用いた文字スポッティング [全文訳有]

Character Spotting Using Machine Learning Techniques ( http://arxiv.org/abs/2107.11795v2 )

ライセンス: CC0 1.0
P Preethi and Hrishikesh Viswanath(参考訳) 本研究は、画像として提示されるテキストの文字を分割するために実装された機械学習アルゴリズムの比較を示す。 アルゴリズムは、整列していないテキストで劣化した文書を扱うよう設計されている。 本稿では,文字スポッティングを行うための支援ベクトルマシン,K-Nearest Neighborアルゴリズム,エンコーダネットワークの利用について検討する。 文字スポッティングは、ホワイトスペースで区切られた領域を選択することによって、テキストストリームから潜在的文字を抽出する。

This work presents a comparison of machine learning algorithms that are implemented to segment the characters of text presented as an image. The algorithms are designed to work on degraded documents with text that is not aligned in an organized fashion. The paper investigates the use of Support Vector Machines, K-Nearest Neighbor algorithm and an Encoder Network to perform the operation of character spotting. Character Spotting involves extracting potential characters from a stream of text by selecting regions bound by white space.
翻訳日:2021-07-29 11:58:08 公開日:2021-07-28
# (参考訳) SaRNet:衛星画像を用いた深層学習支援検索と救助のためのデータセット [全文訳有]

SaRNet: A Dataset for Deep Learning Assisted Search and Rescue with Satellite Imagery ( http://arxiv.org/abs/2107.12469v2 )

ライセンス: CC BY 4.0
Michael Thoreau, Frazer Wilson(参考訳) 近年、いくつかの新しい星座が出現し、高解像度衛星画像へのアクセスが劇的に増加した。 高い再訪周波数と改良された解像度は、衛星画像の使用事例を人道支援や捜索救助(sar)などにも広げた。 深層学習支援SaRのための新しいリモートセンシングオブジェクト検出データセットを提案する。 このデータセットは、ライブのSaR応答の一部として潜在的ターゲットとして特定された小さなオブジェクトのみを含む。 我々は,このデータセットに対する一般的なオブジェクト検出モデルの応用をベースラインとして評価し,さらなる研究を行う。 また,深層学習支援のSaR設定に用いるために特別に設計された新しい物体検出指標を提案する。

Access to high resolution satellite imagery has dramatically increased in recent years as several new constellations have entered service. High revisit frequencies as well as improved resolution has widened the use cases of satellite imagery to areas such as humanitarian relief and even Search and Rescue (SaR). We propose a novel remote sensing object detection dataset for deep learning assisted SaR. This dataset contains only small objects that have been identified as potential targets as part of a live SaR response. We evaluate the application of popular object detection models to this dataset as a baseline to inform further research. We also propose a novel object detection metric, specifically designed to be used in a deep learning assisted SaR setting.
翻訳日:2021-07-29 11:54:50 公開日:2021-07-28
# (参考訳) 任意形状テキスト検出のための適応境界提案ネットワーク [全文訳有]

Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection ( http://arxiv.org/abs/2107.12664v2 )

ライセンス: CC BY-SA 4.0
Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Hongfa Wang, Xu-Cheng Yin(参考訳) 任意形状テキストの検出は、複雑なシーンテキストの多様さのために難しい課題である。 本研究では,任意の形状テキストに対して,後処理をすることなく正確な境界を生成できる適応的境界提案ネットワークを提案する。 提案手法は主に境界モデルと革新的適応境界変形モデルから構成される。 多層拡張畳み込みによって構築された境界提案モデルを用いて、事前情報(分類地図、距離場、方向場を含む)と粗い境界提案を生成する。 適応的境界変形モデルはエンコーダ・デコーダネットワークであり、エンコーダは主にグラフ畳み込みネットワーク(GCN)とリカレントニューラルネットワーク(RNN)で構成されている。 境界提案モデルから事前情報によって導かれるテキストインスタンス形状を得るための反復的な方法で境界変形を行う。 これにより,複雑な後処理を行うことなく,テキスト境界を直接かつ効率的に生成することができる。 公開データセットに関する広範囲な実験により,本手法の最先端性能が実証された。

Arbitrary shape text detection is a challenging task due to the high complexity and variety of scene texts. In this work, we propose a novel adaptive boundary proposal network for arbitrary shape text detection, which can learn to directly produce accurate boundary for arbitrary shape text without any post-processing. Our method mainly consists of a boundary proposal model and an innovative adaptive boundary deformation model. The boundary proposal model constructed by multi-layer dilated convolutions is adopted to produce prior information (including classification map, distance field, and direction field) and coarse boundary proposals. The adaptive boundary deformation model is an encoder-decoder network, in which the encoder mainly consists of a Graph Convolutional Network (GCN) and a Recurrent Neural Network (RNN). It aims to perform boundary deformation in an iterative way for obtaining text instance shape guided by prior information from the boundary proposal model. In this way, our method can directly and efficiently generate accurate text boundaries without complex post-processing. Extensive experiments on publicly available datasets demonstrate the state-of-the-art performance of our method.
翻訳日:2021-07-29 11:49:13 公開日:2021-07-28
# (参考訳) ドイツのニュース見出しにおける感情刺激検出 [全文訳有]

Emotion Stimulus Detection in German News Headlines ( http://arxiv.org/abs/2107.12920v2 )

ライセンス: CC BY-SA 4.0
Bao Minh Doan Dang and Laura Oberl\"ander and Roman Klinger(参考訳) 感情刺激抽出は、感情表現の背後にある原因の記述をテキストから識別することに焦点を当てた感情分析のきめ細かいサブタスクである(例えば、"i am happy that i passed my examination"という文では、"passed my examination"というフレーズが刺激に対応する)。 以前の研究は主にマンダラン語と英語に焦点を合わせており、ドイツ語のリソースやモデルはない。 この研究のギャップを埋めるために、2006年のドイツ語ニュースの見出しに感情が注がれたコーパスと、刺激句の注釈が付いた811のインスタンスを開発した。 このようなコーパス作成作業は時間と費用がかかることから,既存のGoodNewsEveryone(GNE )コーパスを機械翻訳ドイツ語版に投影するアプローチも検討している。 条件付き確率場 (crf) モデルの性能を多言語 xlm-roberta (xlm-r) モデルと比較した。 以上の結果から,ドイツのコーパスを用いたトレーニングはプロジェクションよりもF1スコアが高いことがわかった。 XLM-Rの実験はそれぞれのCRFよりも優れていた。

Emotion stimulus extraction is a fine-grained subtask of emotion analysis that focuses on identifying the description of the cause behind an emotion expression from a text passage (e.g., in the sentence "I am happy that I passed my exam" the phrase "passed my exam" corresponds to the stimulus.). Previous work mainly focused on Mandarin and English, with no resources or models for German. We fill this research gap by developing a corpus of 2006 German news headlines annotated with emotions and 811 instances with annotations of stimulus phrases. Given that such corpus creation efforts are time-consuming and expensive, we additionally work on an approach for projecting the existing English GoodNewsEveryone (GNE) corpus to a machine-translated German version. We compare the performance of a conditional random field (CRF) model (trained monolingually on German and cross-lingually via projection) with a multilingual XLM-RoBERTa (XLM-R) model. Our results show that training with the German corpus achieves higher F1 scores than projection. Experiments with XLM-R outperform their respective CRF counterparts.
翻訳日:2021-07-29 11:33:28 公開日:2021-07-28
# (参考訳) gBERT -- アイルランド語モデル [全文訳有]

gaBERT -- an Irish Language Model ( http://arxiv.org/abs/2107.12930v2 )

ライセンス: CC BY 4.0
James Barry, Joachim Wagner, Lauren Cassidy, Alan Cowap, Teresa Lynn, Abigail Walsh, M\'iche\'al J. \'O Meachair, Jennifer Foster(参考訳) BERTファミリーのニューラルネットワークモデルは、多くの自然言語処理タスクをうまく一般化できるリッチなコンテキスト依存トークンエンコーディングを備えたテキストのシーケンスを提供する能力によって、人気を博している。 50以上の言語をカバーする120以上の単言語bertモデルと104言語で訓練された多言語モデルがリリースされた。 アイルランド語のための単言語BERTモデルであるgaBERTを紹介する。 我々はgaBERTモデルを多言語BERTと比較し、gaBERTが下流の構文解析タスクにより良い表現を提供することを示す。 また,フィルタリング基準,語彙サイズ,サブワードトークン化モデルの選択が下流のパフォーマンスにどのように影響するかを示す。 gBERTと関連するコードをコミュニティにリリースします。

The BERT family of neural language models have become highly popular due to their ability to provide sequences of text with rich context-sensitive token encodings which are able to generalise well to many Natural Language Processing tasks. Over 120 monolingual BERT models covering over 50 languages have been released, as well as a multilingual model trained on 104 languages. We introduce, gaBERT, a monolingual BERT model for the Irish language. We compare our gaBERT model to multilingual BERT and show that gaBERT provides better representations for a downstream parsing task. We also show how different filtering criteria, vocabulary size and the choice of subword tokenisation model affect downstream performance. We release gaBERT and related code to the community.
翻訳日:2021-07-29 11:17:16 公開日:2021-07-28
# AI開発における社会的ジレンマと、それを解決しなければならない理由

The social dilemma in AI development and why we have to solve it ( http://arxiv.org/abs/2107.12977v2 )

ライセンス: Link先を確認
Inga Str\"umke, Marija Slavkovik, Vince I. Madai(参考訳) 倫理的人工知能(AI)システムの需要は増加しているが、倫理的ガイドラインが不足しているにもかかわらず、AIの非倫理的利用の数は加速している。 この主な原因は、AI開発者がAI開発倫理の社会的ジレンマに直面し、倫理的ベストプラクティスの広範な適用を妨げることだ、と私たちは主張しています。 我々は、AI開発における社会的ジレンマを定義し、AI開発倫理の現在の危機が、AI開発者を社会的ジレンマから救うことなく解決できない理由を説明する。 我々は、AI開発は、社会的ジレンマを克服するために専門化されるべきであり、このプロセスのテンプレートとして医療をどのように使用できるかについて議論する。

While the demand for ethical artificial intelligence (AI) systems increases, the number of unethical uses of AI accelerates, even though there is no shortage of ethical guidelines. We argue that a main underlying cause for this is that AI developers face a social dilemma in AI development ethics, preventing the widespread adaptation of ethical best practices. We define the social dilemma for AI development and describe why the current crisis in AI development ethics cannot be solved without relieving AI developers of their social dilemma. We argue that AI development must be professionalised to overcome the social dilemma, and discuss how medicine can be used as a template in this process.
翻訳日:2021-07-29 10:54:35 公開日:2021-07-28
# 小型大規模最適化のためのサンプル内ポリシ性能の劣化

Debiasing In-Sample Policy Performance for Small-Data, Large-Scale Optimization ( http://arxiv.org/abs/2107.12438v2 )

ライセンス: Link先を確認
Vishal Gupta, Michael Huang, Paat Rusmevichientong(参考訳) そこで本研究では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定手法を提案し,データ中のノイズ量に対する最適目標値の勾配を推定するために最適化問題の感度分析を活用し,推定勾配を用いて,ポリシのイン・サンプル性能を劣化させる手法を提案する。 クロスバリデーション技術とは異なり、このアプローチはテストセットのデータを犠牲にせず、トレーニング時にすべてのデータを活用するため、データが不足している設定に適しています。 我々は不確実な線形目的を持つ最適化問題に対する推定器のバイアスとばらつきの有界性を証明した。 ある意味で、実現可能な領域が「弱結合」されたより特殊な最適化問題に対して、より強い結果が証明される。 具体的には、政策クラスを均一に保持し、問題の次元と政策クラスの複雑さに依存する推定器の誤差に、明らかな高確率境界を提供する。 我々の限界は, 利用可能なデータの量が小さく一定であっても, 最適化問題の次元が大きくなるにつれて, 推定器の誤差が消えることを示している。 異なる言い方をすれば、我々の推定器は、小規模で大規模なシステムでよく機能する。 最後に,提案手法と最先端手法を,実データを用いた緊急医療サービス提供のケーススタディを通じて数値的に比較する。 提案手法は, サンプル外性能をより正確に推定し, より良い性能のポリシーを学習する。

Motivated by the poor performance of cross-validation in settings where data are scarce, we propose a novel estimator of the out-of-sample performance of a policy in data-driven optimization.Our approach exploits the optimization problem's sensitivity analysis to estimate the gradient of the optimal objective value with respect to the amount of noise in the data and uses the estimated gradient to debias the policy's in-sample performance. Unlike cross-validation techniques, our approach avoids sacrificing data for a test set, utilizes all data when training and, hence, is well-suited to settings where data are scarce. We prove bounds on the bias and variance of our estimator for optimization problems with uncertain linear objectives but known, potentially non-convex, feasible regions. For more specialized optimization problems where the feasible region is "weakly-coupled" in a certain sense, we prove stronger results. Specifically, we provide explicit high-probability bounds on the error of our estimator that hold uniformly over a policy class and depends on the problem's dimension and policy class's complexity. Our bounds show that under mild conditions, the error of our estimator vanishes as the dimension of the optimization problem grows, even if the amount of available data remains small and constant. Said differently, we prove our estimator performs well in the small-data, large-scale regime. Finally, we numerically compare our proposed method to state-of-the-art approaches through a case-study on dispatching emergency medical response services using real data. Our method provides more accurate estimates of out-of-sample performance and learns better-performing policies.
翻訳日:2021-07-29 10:54:24 公開日:2021-07-28
# ゼロ次ブロック座標DescentによるLQR制御のための非同期分散強化学習

Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent ( http://arxiv.org/abs/2107.12416v2 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma(参考訳) 最近導入された分散ゼロ階最適化(ZOO)アルゴリズムは、分散強化学習(RL)においてその有用性を示した。 残念なことに、勾配推定プロセスでは、大域変数と同じ次元のランダムなサンプルが必要であり、大域的コスト関数の評価が必要であり、大規模ネットワークにおいて高い推定分散を引き起こす可能性がある。 本稿では,最適化目的に固有のネットワーク構造を活用して,各エージェントがコンセンサスプロトコルを使わずに,局所的なコスト評価によって局所的な勾配を独立に推定できる分散ゼロ次アルゴリズムを提案する。 提案アルゴリズムは非同期更新スキームを示し,ブロック座標降下法に基づく非凸可能領域を用いた確率的非凸最適化のために設計されている。 このアルゴリズムは後に分散線形二次レギュレータ設計のための分散モデルフリーRLアルゴリズムとして使われ、学習グラフは分散学習におけるエージェント間の相互作用関係を記述するように設計されている。 本稿では,集中型ZOOアルゴリズムに対して,収束率と分散度をベンチマークするために提案アルゴリズムを実証検証する。

Recently introduced distributed zeroth-order optimization (ZOO) algorithms have shown their utility in distributed reinforcement learning (RL). Unfortunately, in the gradient estimation process, almost all of them require random samples with the same dimension as the global variable and/or require evaluation of the global cost function, which may induce high estimation variance for large-scale networks. In this paper, we propose a novel distributed zeroth-order algorithm by leveraging the network structure inherent in the optimization objective, which allows each agent to estimate its local gradient by local cost evaluation independently, without use of any consensus protocol. The proposed algorithm exhibits an asynchronous update scheme, and is designed for stochastic non-convex optimization with a possibly non-convex feasible domain based on the block coordinate descent method. The algorithm is later employed as a distributed model-free RL algorithm for distributed linear quadratic regulator design, where a learning graph is designed to describe the required interaction relationship among agents in distributed learning. We provide an empirical validation of the proposed algorithm to benchmark its performance on convergence rate and variance against a centralized ZOO algorithm.
翻訳日:2021-07-29 10:53:59 公開日:2021-07-28
# 深部マルチタスク学習による手画像理解

Hand Image Understanding via Deep Multi-Task Learning ( http://arxiv.org/abs/2107.11646v2 )

ライセンス: Link先を確認
Xiong Zhang, Hongsheng Huang, Jianchao Tan, Hongmin Xu, Cheng Yang, Guozhu Peng, Lei Wang, Ji Liu(参考訳) 画像やビデオなどのマルチメディア資料から手元の情報を分析・理解することは、多くの現実世界のアプリケーションにとって重要であり、研究コミュニティで活発に活動している。 単一の画像から手情報を復元することに焦点を当てた様々な研究があるが、通常、手動マスクのセグメンテーション、2D/3D手動ポーズ推定、手動メッシュ再構成など、単一のタスクを解決し、困難なシナリオではうまく機能しない。 これらのタスクの性能をさらに高めるため,本論文では,ハンドオブジェクトの包括的情報を単一のrgb画像から抽出する新しいハンドイメージ理解(hiu)フレームワークを提案する。 この目的を達成するために、カスケードマルチタスク学習(mtl)バックボーンは、2次元ヒートマップを推定し、セグメンテーションマスクを学習し、中間の3次元情報エンコーディングを生成し、粗視学習パラダイムと自己教師付き学習戦略を実行する。 定性的な実験により,我々のアプローチは,困難な状況でも合理的なメッシュ表現を回収できることを示した。 本手法は,多種多様な評価指標を用いて,多種多様な用途のデータセットに対する最先端のアプローチを著しく上回っている。

Analyzing and understanding hand information from multimedia materials like images or videos is important for many real world applications and remains active in research community. There are various works focusing on recovering hand information from single image, however, they usually solve a single task, for example, hand mask segmentation, 2D/3D hand pose estimation, or hand mesh reconstruction and perform not well in challenging scenarios. To further improve the performance of these tasks, we propose a novel Hand Image Understanding (HIU) framework to extract comprehensive information of the hand object from a single RGB image, by jointly considering the relationships between these tasks. To achieve this goal, a cascaded multi-task learning (MTL) backbone is designed to estimate the 2D heat maps, to learn the segmentation mask, and to generate the intermediate 3D information encoding, followed by a coarse-to-fine learning paradigm and a self-supervised learning strategy. Qualitative experiments demonstrate that our approach is capable of recovering reasonable mesh representations even in challenging situations. Quantitatively, our method significantly outperforms the state-of-the-art approaches on various widely-used datasets, in terms of diverse evaluation metrics.
翻訳日:2021-07-29 10:53:42 公開日:2021-07-28
# 腹腔鏡像からの胆嚢血管度評価のためのマルチインスタンス学習法

A Multiple-Instance Learning Approach for the Assessment of Gallbladder Vascularity from Laparoscopic Images ( http://arxiv.org/abs/2107.12093v2 )

ライセンス: Link先を確認
C. Loukas, A. Gazis, D. Schizas(参考訳) 腹腔鏡下胆嚢摘出術(lc)開始時の重要な課題は,胆嚢の厚み,炎症の有無,脂肪の程度を評価するための胆嚢検査(gb)である。 gb壁血管の可視化の難しさは、慢性炎症やその他の疾患の結果として、以前の要因による可能性がある。 本稿では,lc操作画像のコンピュータビジョン解析によるgb壁血管性評価のためのマルチ・インスタンス・ラーニング(mil)手法を提案する。 バッグは53の操作から181gbの画像のラベル付き(低対高)血管性データセットに対応する。 これらの画像から抽出された未ラベルのパッチに対応する。 各パッチは、色、テクスチャ、統計的特徴を持つベクトルで表現される。 我々は、様々な最先端のMILとシングルインスタンス学習手法を比較し、変分ベイズ推定に基づくMIL手法を提案する。 これらの手法は画像ベースとビデオベース(すなわち)の2つの実験タスクで比較された。 患者ベース) 分類。 提案手法は,第1タスクで92.1%,第2タスクで90.3%の精度で最良性能を示す。 提案手法の重要な利点は、インスタンスを手動でラベリングする時間を消費する必要がないことである。

An important task at the onset of a laparoscopic cholecystectomy (LC) operation is the inspection of gallbladder (GB) to evaluate the thickness of its wall, presence of inflammation and extent of fat. Difficulty in visualization of the GB wall vessels may be due to the previous factors, potentially as a result of chronic inflammation or other diseases. In this paper we propose a multiple-instance learning (MIL) technique for assessment of the GB wall vascularity via computer-vision analysis of images from LC operations. The bags correspond to a labeled (low vs. high) vascularity dataset of 181 GB images, from 53 operations. The instances correspond to unlabeled patches extracted from these images. Each patch is represented by a vector with color, texture and statistical features. We compare various state-of-the-art MIL and single-instance learning approaches, as well as a proposed MIL technique based on variational Bayesian inference. The methods were compared for two experimental tasks: image-based and video-based (i.e. patient-based) classification. The proposed approach presents the best performance with accuracy 92.1% and 90.3% for the first and second task, respectively. A significant advantage of the proposed technique is that it does not require the time-consuming task of manual labelling the instances.
翻訳日:2021-07-29 10:53:18 公開日:2021-07-28
# StarEnhancer: リアルタイムとスタイル対応の画像強調学習

StarEnhancer: Learning Real-Time and Style-Aware Image Enhancement ( http://arxiv.org/abs/2107.12898v2 )

ライセンス: Link先を確認
Yuda Song, Hui Qian, Xin Du(参考訳) 画像エンハンスメントはユーザの好みに応じてターゲットが変化する主観的プロセスである。 本稿では,starenhancerと呼ばれる単一モデルのみを用いて,複数の音声スタイルをカバーする深層学習に基づく画像強調手法を提案する。 たとえそのスタイルが見えないとしても、あるトーンのスタイルから別のスタイルに画像を変換することができる。 シンプルなワンタイム設定で、ユーザーはモデルをカスタマイズして、改善されたイメージをより美学に合わせて作成することができる。 そこで本研究では,200fps以上の4k解像度画像を処理できるが,psnr,ssim,lpipの点で,同時代のsingle style画像強調法を超越した,高度に設計されたエンハンサーを提案する。 最後に,提案手法は対話性が良好であり,ユーザが直感的オプションを用いて拡張画像の微調整を行うことができる。

Image enhancement is a subjective process whose targets vary with user preferences. In this paper, we propose a deep learning-based image enhancement method covering multiple tonal styles using only a single model dubbed StarEnhancer. It can transform an image from one tonal style to another, even if that style is unseen. With a simple one-time setting, users can customize the model to make the enhanced images more in line with their aesthetics. To make the method more practical, we propose a well-designed enhancer that can process a 4K-resolution image over 200 FPS but surpasses the contemporaneous single style image enhancement methods in terms of PSNR, SSIM, and LPIPS. Finally, our proposed enhancement method has good interactability, which allows the user to fine-tune the enhanced image using intuitive options.
翻訳日:2021-07-29 10:52:59 公開日:2021-07-28
# MonoIndoor: 屋内環境における自己監督型単眼深度推定の実践に向けて

MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments ( http://arxiv.org/abs/2107.12429v2 )

ライセンス: Link先を確認
Pan Ji, Runze Li, Bir Bhanu, Yi Xu(参考訳) Self-supervised depth estimation for indoor environments is more challenging than its outdoor counterpart in at least the following two aspects: (i) the depth range of indoor sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues, whereas the maximum distance in outdoor scenes mostly stays the same as the camera usually sees the sky; (ii) the indoor sequences contain much more rotational motions, which cause difficulties for the pose network, while the motions of outdoor sequences are pre-dominantly translational, especially for driving datasets such as KITTI. 本稿では,これらの課題に対して特別に考察し,室内環境における自己教師付き単眼深度推定の性能を向上させるための一連の実践をまとめる。 提案手法は主に, 2つの新しいモジュール, \ie, 深さ分解モジュール, 残留ポーズ推定モジュールで構成され, それぞれが上記の課題に対処するように設計されている。 各モジュールの有効性は, 3つの屋内データセット, \ie, euroc, nyuv2, 7-sceneにおいて, 注意深く実施したアブレーション実験および最新性能の実証により示される。

Self-supervised depth estimation for indoor environments is more challenging than its outdoor counterpart in at least the following two aspects: (i) the depth range of indoor sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues, whereas the maximum distance in outdoor scenes mostly stays the same as the camera usually sees the sky; (ii) the indoor sequences contain much more rotational motions, which cause difficulties for the pose network, while the motions of outdoor sequences are pre-dominantly translational, especially for driving datasets such as KITTI. In this paper, special considerations are given to those challenges and a set of good practices are consolidated for improving the performance of self-supervised monocular depth estimation in indoor environments. The proposed method mainly consists of two novel modules, \ie, a depth factorization module and a residual pose estimation module, each of which is designed to respectively tackle the aforementioned challenges. The effectiveness of each module is shown through a carefully conducted ablation study and the demonstration of the state-of-the-art performance on three indoor datasets, \ie, EuRoC, NYUv2, and 7-scenes.
翻訳日:2021-07-29 09:13:25 公開日:2021-07-28